このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230705となっている論文です。

PDF登録状況(公開日: 20230705)

TitleAuthorsAbstract論文公表日・翻訳日
# 多言語バグの解決の理解:apacheプロジェクトに関する実証的研究

Understanding Resolution of Multi-Language Bugs: An Empirical Study on Apache Projects ( http://arxiv.org/abs/2307.01970v1 )

ライセンス: Link先を確認
Zengyang Li, Wenshuo Wang, Sicheng Wang, Peng Liang, Ran Mo(参考訳) 背景: 現代のソフトウェアシステムでは、ますます多くのシステムが複数のプログラミング言語(pls)で書かれています。 複数のplsで書かれたソースファイルを含むマルチプログラミング言語(mpl)バグの現象に関する包括的調査は行われていない。 Aim: 本研究は,MPLソフトウェアシステムにおけるバグ解決の特徴を調査し,バグ解決に複数のPLが関与する理由を考察した。 方法: 655のApache OSSプロジェクトから選択された54のMPLプロジェクトについて,66,932のバグを解析した。 Results: (1) the percentage of MPL bugs (MPLBs) in the selected projects ranges from 0.17% to 42.26%, and the percentage of MPLBs for all projects as a whole is 10.01%; (2) 95.0% and 4.5% of all the MPLBs involve source files written in 2 and 3 PLs, respectively; (3) the change complexity resolution characteristics of MPLBs tend to be higher than those of single-programming-language bugs (SPLBs); (4) the open time for MPLBs is 19.52% to 529.57% significantly longer than SPLBs regarding 9 PL combinations; (5) the reopen rate of bugs involving the PL combination of JavaScript and Python reaches 20.66%; (6) we found 6 causes why the bug resolution involves multiple PLs and identified 5 cross-language calling mechanisms. 結論:MPLBは開発難度の増加に関連している。

Background: In modern software systems, more and more systems are written in multiple programming languages (PLs). There is no comprehensive investigation on the phenomenon of multi-programming-language (MPL) bugs, which resolution involves source files written in multiple PLs. Aim: This work investigated the characteristics of bug resolution in MPL software systems and explored the reasons why bug resolution involves multiple PLs. Method: We conducted an empirical study on 54 MPL projects selected from 655 Apache OSS projects, of which 66,932 bugs were analyzed. Results: (1) the percentage of MPL bugs (MPLBs) in the selected projects ranges from 0.17% to 42.26%, and the percentage of MPLBs for all projects as a whole is 10.01%; (2) 95.0% and 4.5% of all the MPLBs involve source files written in 2 and 3 PLs, respectively; (3) the change complexity resolution characteristics of MPLBs tend to be higher than those of single-programming-language bugs (SPLBs); (4) the open time for MPLBs is 19.52% to 529.57% significantly longer than SPLBs regarding 9 PL combinations; (5) the reopen rate of bugs involving the PL combination of JavaScript and Python reaches 20.66%; (6) we found 6 causes why the bug resolution involves multiple PLs and identified 5 cross-language calling mechanisms. Conclusion: MPLBs are related to increased development difficulty.
翻訳日:2023-10-23 18:27:29 公開日:2023-07-05
# 総合文学研究におけるデータベース検索と雪玉検索の併用による初等研究の同定

Successful Combination of Database Search and Snowballing for Identification of Primary Studies in Systematic Literature Studies ( http://arxiv.org/abs/2307.02612v1 )

ライセンス: Link先を確認
Claes Wohlin, Marcos Kalinowski, Katia Romero Felizardo, Emilia Mendes(参考訳) 背景: 体系的な文献研究を成功させるためには, 優れた検索戦略が不可欠である。 歴史的に、データベース検索は標準であり、後に雪だるま検索と補完された。 我々の予想では、ハイブリッド検索戦略と呼ばれる2つの探索手法を組み合わせることで、より優れた探索を行うことができる。 目的:我々の主な目的は,ハイブリッド検索戦略の比較と評価であった。 さらに,他のハイブリッド検索手法と比較し,よりコスト効率のよい探索方法の特定が可能かどうかを検討した。 手法: ハイブリッド検索戦略を比較し評価するため, ソフトウェア工学における産学連携のSLRを再現した。 SLRはより伝統的な手法を用いてSLRの関連記事の検索を行い、複製はハイブリッド検索戦略を用いて行われた。 結果:本評価において,ハイブリッド検索戦略は関連する初等研究の同定に優れていた。 査読された記事のみに焦点を合わせると、30%以上の初等的な研究が特定される。 研究論文の評価や欠落した一次研究のリスクを最小限に抑えるために,体系的な文献研究を行う際に,ワイルドカードとボーダーライン記事という2つの新しい概念を導入した。 結論: ハイブリッド検索戦略は, 体系的な文献研究を行う上で, 強力な競争相手である。 さらに,積雪開始セットに関して賢明に選択すれば,代替ハイブリッド探索戦略が実現可能である。 最後に、2つの新しい概念は、異なる個別の判断に対応し、含めるべき初等的な研究を除外するリスクを最小化するために不可欠であると判断された。

Background: A good search strategy is essential for a successful systematic literature study. Historically, database searches have been the norm, which has later been complemented with snowball searches. Our conjecture is that we can perform even better searches if combining the two search approaches, referred to as a hybrid search strategy. Objective: Our main objective was to compare and evaluate a hybrid search strategy. Furthermore, we compared some alternative hybrid search strategies to assess whether it was possible to identify more cost-efficient ways of searching for relevant primary studies. Method: To compare and evaluate the hybrid search strategy, we replicated an SLR on industry-academia collaboration in software engineering. The SLR used a more traditional approach to searching for relevant articles for an SLR, while the replication was conducted using a hybrid search strategy. Results: In our evaluation, the hybrid search strategy was superior in identifying relevant primary studies. It identified 30 percent more primary studies and even more when focusing only on peer-reviewed articles. To embrace individual viewpoints when assessing research articles and minimise the risk of missing primary studies, we introduced two new concepts, wild cards and borderline articles, when conducting systematic literature studies. Conclusions: The hybrid search strategy is a strong contender for being used when conducting systematic literature studies. Furthermore, alternative hybrid search strategies may be viable if selected wisely in relation to the start set for snowballing. Finally, the two new concepts were judged as essential to cater for different individual judgements and to minimise the risk of excluding primary studies that ought to be included.
翻訳日:2023-10-23 18:14:59 公開日:2023-07-05
# コードレビューによるセキュリティ欠陥検出: OpenStackとQtコミュニティの研究

Security Defect Detection via Code Review: A Study of the OpenStack and Qt Communities ( http://arxiv.org/abs/2307.02326v1 )

ライセンス: Link先を確認
Jiaxin Yu, Liming Fu, Peng Liang, Amjed Tahir, Mojtaba Shahin(参考訳) 背景: 自動セキュリティ欠陥検出ツールが広く使用されているにもかかわらず、ソフトウェアプロジェクトには深刻な損害をもたらす可能性のある多くのセキュリティ欠陥が含まれている。 このようなツールは、主にコンテキストに敏感であり、潜在的な問題をテストする際のすべてのシナリオをカバーしていない可能性がある。 したがって、徹底的な検出は、これらのツールとコードレビューを含む人間集約的な検出技術との相乗的協力を必要とする。 コードレビューは、セキュリティ欠陥を特定するための重要かつ効果的なプラクティスとして広く認識されている。 目的: この研究は、コードレビューを通じてセキュリティ欠陥の検出を実証的に調査することを目的としています。 方法: この目的のために,OpenStackコミュニティとQtコミュニティの4つのプロジェクトから得られたコードレビューコメントを分析し,実証的研究を行った。 キーワードベースの検索で得られた20,995件のレビューコメントを手動でチェックすることで、614件のコメントをセキュリティ関連と同定した。 結果:(1) コードレビューではセキュリティ欠陥が広く議論されていないこと,(2) 開発者がセキュリティ欠陥を修正するのを助けるために,リビュアーの半分以上が明示的な修正戦略/ソリューションを提供し,(3) 開発者はレビュアーの提案と変更の行動に従う傾向,(4) 欠陥を修正する価値がないこと,そして、レビュアーとレビュアーの間の不一致がセキュリティ欠陥を解決しない主な原因であることが示された。 結論:本研究の結果は,(1)手動コードレビューと自動検出ツールを組み合わせること,(2)セキュリティ欠陥の特定と対処を包括的にカバーすること,(2)コードレビュー中の実践者の行動の適切な標準化の促進が,ソフトウェアセキュリティの強化に不可欠であることを実証する。

Background: Despite the widespread use of automated security defect detection tools, software projects still contain many security defects that could result in serious damage. Such tools are largely context-insensitive and may not cover all possible scenarios in testing potential issues, which makes them susceptible to missing complex security defects. Hence, thorough detection entails a synergistic cooperation between these tools and human-intensive detection techniques, including code review. Code review is widely recognized as a crucial and effective practice for identifying security defects. Aim: This work aims to empirically investigate security defect detection through code review. Method: To this end, we conducted an empirical study by analyzing code review comments derived from four projects in the OpenStack and Qt communities. Through manually checking 20,995 review comments obtained by keyword-based search, we identified 614 comments as security-related. Results: Our results show that (1) security defects are not prevalently discussed in code review, (2) more than half of the reviewers provided explicit fixing strategies/solutions to help developers fix security defects, (3) developers tend to follow reviewers' suggestions and action the changes, (4) Not worth fixing the defect now and Disagreement between the developer and the reviewer are the main causes for not resolving security defects. Conclusions: Our research results demonstrate that (1) software security practices should combine manual code review with automated detection tools, achieving a more comprehensive coverage to identifying and addressing security defects, and (2) promoting appropriate standardization of practitioners' behaviors during code review remains necessary for enhancing software security.
翻訳日:2023-10-23 18:14:34 公開日:2023-07-05
# 現実のスマートコントラクトを正式に検証する

Formally Verifying a Real World Smart Contract ( http://arxiv.org/abs/2307.02325v1 )

ライセンス: Link先を確認
Alexandre Mota, Fei Yang, Cristiano Teixeira(参考訳) 今日、スマートコントラクトはますます普及し、ソフトウェア開発全般と同様に、テストが正しいことを検証する標準的な方法になっている。 しかし、スマートコントラクトは、一度デプロイされると変更が困難になり、エラーが重大な財政的損失をもたらすため、正確性に関する高い確実性を必要とする。 したがって、正式な検証は不可欠である。 本稿では,最近のsolidityで記述された実世界のスマートコントラクトを正式に検証できるツールの探索について述べる。

Nowadays, smart contracts have become increasingly popular and, as with software development in general, testing is the standard method for verifying their correctness. However, smart contracts require a higher level of certainty regarding correctness because they are diffcult to modify once deployed and errors can result in significant financial losses. Therefore, formal verification is essential. In this article, we present our search for a tool capable of formally verifying a real-world smart contract written in a recent version of Solidity.
翻訳日:2023-10-23 18:14:02 公開日:2023-07-05
# 定量的かつ適応的なホットバイト同定によるファジング

Fuzzing with Quantitative and Adaptive Hot-Bytes Identification ( http://arxiv.org/abs/2307.02289v1 )

ライセンス: Link先を確認
Tai D. Nguyen, Long H. Pham, Jun Sun(参考訳) fuzzingは、複雑な現実世界のアプリケーションでセキュリティバグを見つける強力なテクニックとして登場した。 ファジィ・ロック(英: American fuzzy lop, AFL)は、多数の報告されたCVEを通じて、その強力なバグ発見能力を実証したツールである。 しかし、そのランダムな突然変異戦略は複雑な分岐条件(マジックバイト比較、チェックサムテスト、ネストしたifステートメントなど)を満たすテスト入力を生成することができず、画像デコーダ/エンコーダ、XMLパーサ、チェックサムツールで一般的に使用される。 この問題に対処する既存のアプローチ(例えば、SteelixやNeuzz)は、分岐条件のバイト単位を満たすことができる、あるいは入力(ホットバイトと呼ばれる)の重要なバイトを一度に特定し、フォーカスできるといった非現実的な仮定を仮定する。 本稿では,以下の原則に基づいて設計した「tool」というアプローチを提案する。 まず、入力と分岐条件の間には複雑な関係があり、そのような関係を捉えるための表現モデルだけでなく、そのような関係を効果的に学習するための情報的尺度も必要となる。 第二に、異なる分岐条件は異なるホットバイトを要求するので、どのブランチが現在のボトルネックであるかに応じてファジィング戦略を適応的に調整する必要があります。 当社のアプローチをオープンソースプロジェクトとして実装し、その効率を他の最先端ファズーと比較する。 実世界の10のプログラムとLAVA-Mデータセットによる評価結果から,'tool~achieves'は分岐範囲の増加を持続し,他のファザよりも多くのバグを発見できた。

Fuzzing has emerged as a powerful technique for finding security bugs in complicated real-world applications. American fuzzy lop (AFL), a leading fuzzing tool, has demonstrated its powerful bug finding ability through a vast number of reported CVEs. However, its random mutation strategy is unable to generate test inputs that satisfy complicated branching conditions (e.g., magic-byte comparisons, checksum tests, and nested if-statements), which are commonly used in image decoders/encoders, XML parsers, and checksum tools. Existing approaches (such as Steelix and Neuzz) on addressing this problem assume unrealistic assumptions such as we can satisfy the branch condition byte-to-byte or we can identify and focus on the important bytes in the input (called hot-bytes) once and for all. In this work, we propose an approach called \tool~which is designed based on the following principles. First, there is a complicated relation between inputs and branching conditions and thus we need not only an expressive model to capture such relationship but also an informative measure so that we can learn such relationship effectively. Second, different branching conditions demand different hot-bytes and we must adjust our fuzzing strategy adaptively depending on which branches are the current bottleneck. We implement our approach as an open source project and compare its efficiency with other state-of-the-art fuzzers. Our evaluation results on 10 real-world programs and LAVA-M dataset show that \tool~achieves sustained increases in branch coverage and discovers more bugs than other fuzzers.
翻訳日:2023-10-23 18:13:53 公開日:2023-07-05
# アーカイブと歴史的学習ワークフローにおける人工知能: htsとchatgpt

Artificial Intelligence in archival and historical scholarship workflow: HTS and ChatGPT ( http://arxiv.org/abs/2308.02044v1 )

ライセンス: Link先を確認
Salvatore Spina(参考訳) 本稿では,人工知能がアーカイブのデジタル化過程,特に写本の自動転写,修正,正規化に与える影響について考察する。 デジタル化によって研究者はアーカイブと歴史分野を再定義せざるを得なくなり、デジタル化とビッグデータへの統合によってアナログソースのアクセシビリティが向上した。 この研究は、2つのAIシステム、すなわちTranskribusとChatGPTに焦点を当て、デジタル化されたソースの効率的な分析と転写を可能にする。 この記事は、ビスカリアーカイブ(カターニア)の通信部に保管されている366文字のテキストを正規化するために使用されたChatGPTのテストである。 aiは不正確性をもたらすいくつかの制限を示したが、訂正されたテキストは期待を満たした。 概して、デジタル化とaiは、膨大な量のデータの分析と計算言語ツールの適用を可能にすることによって、アーカイブと歴史的研究を著しく強化することができると結論付けている。

This article examines the impact of Artificial Intelligence on the archival heritage digitization processes, specifically regarding the manuscripts' automatic transcription, their correction, and normalization. It highlights how digitality has compelled scholars to redefine Archive and History field and has facilitated the accessibility of analogue sources through digitization and integration into big data. The study focuses on two AI systems, namely Transkribus and ChatGPT, which enable efficient analysis and transcription of digitized sources. The article presents a test of ChatGPT, which was utilized to normalize the text of 366 letters stored in the Correspondence section of the Biscari Archive (Catania). Although the AI exhibited some limitations that resulted in inaccuracies, the corrected texts met expectations. Overall, the article concludes that digitization and AI can significantly enhance archival and historical research by allowing the analysis of vast amounts of data and the application of computational linguistic tools.
翻訳日:2023-10-23 15:20:31 公開日:2023-07-05
# 退化症例におけるウィリアムソンのシンプレクティック対角化について

On Williamson's Symplectic Diagonalization in the Degenerate Case ( http://arxiv.org/abs/2308.00601v1 )

ライセンス: Link先を確認
Rudra Kamat(参考訳) ウィリアムソンの正規形式は対称正定行列でよく知られている。 本稿では、対称正半定値行列に対するウィリアムソンの正規形式の拡張を検討し、H\"ormander"の結果の初等証明を与える。

Williamson's normal form is well known for symmetric positive-definite matrices. In this paper, we consider an extension of Williamson's normal form for symmetric positive-semi definite matrices, and give an elementary proof of a result of H\"ormander.
翻訳日:2023-08-06 11:01:57 公開日:2023-07-05
# Hoodwinked: 言語モデルのためのテキストベースゲームにおける認識と協調

Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models ( http://arxiv.org/abs/2308.01404v1 )

ライセンス: Link先を確認
Aidan O'Gara(参考訳) 現在の言語モデルは騙しと嘘の検出が可能ですか。 我々は、$\textit{hoodwinked}$というテキストベースのゲームを導入し、$\textit{mafia}$と$\textit{among us}$にインスパイアされた。 プレイヤーは家に閉じ込められ、脱出するための鍵を見つけなければならないが、1人のプレイヤーは他のプレイヤーを殺す任務を負う。 殺人が行われるたびに、生き残ったプレイヤーは自然言語で議論し、1人のプレイヤーをゲームから追放する投票を行う。 我々は, GPT-3, GPT-3.5, GPT-4によって制御されたエージェントを用いて実験を行い, 偽造と嘘検出能力の証拠を見いだした。 犯人はしばしば犯罪を否定し、他人を非難し、投票結果に測定可能な影響をもたらす。 より高度なモデルはより効果的なキラーであり、24対比較のうち18対比較でより小さなモデルを上回っている。 二次メトリクスは、この改善が異なるアクションによって媒介されるのではなく、議論中のより強い騙し能力によって行われることを示す。 全体として、現在の言語モデルが欺くことができるという実質的な証拠が見つかる。 AIエージェントが人間を騙す能力を評価するために、このゲームはhttps://hoodwinked.ai/で公開されています。

Are current language models capable of deception and lie detection? We study this question by introducing a text-based game called $\textit{Hoodwinked}$, inspired by $\textit{Mafia}$ and $\textit{Among Us}$. Players are locked in a house and must find a key to escape, but one player is tasked with killing the others. Each time a murder is committed, the surviving players have a natural language discussion then vote to banish one player from the game. We conduct experiments with agents controlled by GPT-3, GPT-3.5, and GPT-4 and find evidence of deception and lie detection capabilities. The killer often denies their crime and accuses others, leading to measurable effects on voting outcomes. More advanced models are more effective killers, outperforming smaller models in 18 of 24 pairwise comparisons. Secondary metrics provide evidence that this improvement is not mediated by different actions, but rather by stronger deception capabilities during discussions. Overall, we find substantial evidence that current language models are capable of deception. To better evaluate the ability of AI agents to deceive humans, we make this game publicly available at https://hoodwinked.ai/ .
翻訳日:2023-08-06 10:55:19 公開日:2023-07-05
# モジュール型DFR:設計フレキシビリティ向上のためのディジタル遅延フィードバック貯留層モデル

Modular DFR: Digital Delayed Feedback Reservoir Model for Enhancing Design Flexibility ( http://arxiv.org/abs/2307.11094v1 )

ライセンス: Link先を確認
Sosei Ikeda, Hiromitsu Awano, and Takashi Sato(参考訳) 遅延フィードバック貯水池 (DFR) は、単純な構造のためハードウェア実装に適した貯水池型計算システムである。 既存のDFR実装の多くはアナログ回路を使用しており、インタフェースにはデジタル-アナログ変換とアナログ-デジタル変換の両方が必要である。 しかし、デジタルDFRはデジタル領域におけるアナログ非線形成分をエミュレートし、設計の柔軟性の欠如と消費電力の増大をもたらす。 本稿では,完全ディジタル実装に適したモジュール型DFRモデルを提案する。 提案モデルでは, ハイパーパラメータの数を削減し, 非線形関数の選択の柔軟性を実現し, 消費電力を低減しながら精度を向上する。 さらに、非線形関数が異なる2つのDFR実現法を提案し、10倍の消費電力削減と5.3倍のスループット向上を実現した。

A delayed feedback reservoir (DFR) is a type of reservoir computing system well-suited for hardware implementations owing to its simple structure. Most existing DFR implementations use analog circuits that require both digital-to-analog and analog-to-digital converters for interfacing. However, digital DFRs emulate analog nonlinear components in the digital domain, resulting in a lack of design flexibility and higher power consumption. In this paper, we propose a novel modular DFR model that is suitable for fully digital implementations. The proposed model reduces the number of hyperparameters and allows flexibility in the selection of the nonlinear function, which improves the accuracy while reducing the power consumption. We further present two DFR realizations with different nonlinear functions, achieving 10x power reduction and 5.3x throughput improvement while maintaining equal or better accuracy.
翻訳日:2023-07-30 04:24:59 公開日:2023-07-05
# 外部推論:多言語モデルと人的フィードバックを両立させる

External Reasoning: Towards Multi-Large-Language-Models Interchangeable Assistance with Human Feedback ( http://arxiv.org/abs/2307.12057v1 )

ライセンス: Link先を確認
Akide Liu(参考訳) 記憶は、脳の海馬とニューロン内で視覚的および言語的な情報を保持できる重要な人間の機能として認識され、学習の生涯を通じて現実の課題に対処するために取り出すことができる。 取得した知識の応用による複雑なAIタスクの解決は、人工知能の実現に向けた一歩である。 しかし, GPT-3.5 や GPT-4 のような大規模言語モデル (LLM) は, 言語理解, 生成, 相互作用, 推論において顕著な能力を持っているにもかかわらず, 広範かつ継続的な知識基盤の処理を妨げる文脈長の制約によって阻害されている。 本稿では,外部リポジトリからの知識の選択的統合を通じてLLMを拡張できることを示すとともに,ChatPDFで実証した外部推論のための新しい方法論を提案する。 このアプローチの中心は、複数のllmインターチェンジアシスタンスに基づく階層ポリシーである \textbf{external reasoning based on multiple llm interchange assistance}(複数のllmインターチェンジアシスタンスに基づく階層ポリシー)の確立である。 この手法の総合的な評価は複数のLCMを用いて行われ、その結果はChatPDF.comを含む既存のソリューションを上回る最先端のパフォーマンスを示している。 さらに,本手法は LLM による全文の直接処理よりも効率がよいことを強調した。

Memory is identified as a crucial human faculty that allows for the retention of visual and linguistic information within the hippocampus and neurons in the brain, which can subsequently be retrieved to address real-world challenges that arise through a lifetime of learning. The resolution of complex AI tasks through the application of acquired knowledge represents a stride toward the realization of artificial general intelligence. However, despite the prevalence of Large Language Models (LLMs) like GPT-3.5 and GPT-4 , which have displayed remarkable capabilities in language comprehension, generation, interaction, and reasoning, they are inhibited by constraints on context length that preclude the processing of extensive, continually evolving knowledge bases. This paper proposes that LLMs could be augmented through the selective integration of knowledge from external repositories, and in doing so, introduces a novel methodology for External Reasoning, exemplified by ChatPDF. Central to this approach is the establishment of a tiered policy for \textbf{External Reasoning based on Multiple LLM Interchange Assistance}, where the level of support rendered is modulated across entry, intermediate, and advanced tiers based on the complexity of the query, with adjustments made in response to human feedback. A comprehensive evaluation of this methodology is conducted using multiple LLMs and the results indicate state-of-the-art performance, surpassing existing solutions including ChatPDF.com. Moreover, the paper emphasizes that this approach is more efficient compared to the direct processing of full text by LLMs.
翻訳日:2023-07-30 04:05:31 公開日:2023-07-05
# モバイルエッジコンピューティングのための多目的深層強化学習

Multi-objective Deep Reinforcement Learning for Mobile Edge Computing ( http://arxiv.org/abs/2307.14346v1 )

ライセンス: Link先を確認
Ning Yang, Junrui Wen, Meng Zhang, Ming Tang(参考訳) モバイルエッジコンピューティング(MEC)は、遅延やエネルギー消費など、さまざまなパフォーマンス指標を優先する次世代のモバイルネットワークアプリケーションに不可欠である。 しかし、従来の単一目的スケジューリングソリューションは、これらのアプリケーション(すなわち、異なる目的の重み付け)の好みがしばしば不明で、事前の指定が難しい実用的なシステムに直接適用することはできない。 本研究では,複数のエッジを持つMECの多目的オフロード問題を定式化し,未知の選好をパラメータとして考慮しつつ,予測される長期エネルギー消費と送信遅延を最小化する。 未知の選好の問題に対処するために,多目的(深層)強化学習(morl)に基づく資源スケジューリングスキームをppo(proximal policy optimization)で設計する。 さらに,MECシステムにおける複数エッジの機能構築のためのよく設計された状態符号化手法を導入し,遅延とエネルギー消費のユーティリティを正確に計算するための高度な報酬関数を提案する。 シミュレーションの結果,提案手法はparetoフロントのハイパーボリュームを最大233.1%向上させることがわかった。 私たちのフレームワークはhttps://github.com/gracefulning/mec_morl_multipolicyで利用可能です。

Mobile edge computing (MEC) is essential for next-generation mobile network applications that prioritize various performance metrics, including delays and energy consumption. However, conventional single-objective scheduling solutions cannot be directly applied to practical systems in which the preferences of these applications (i.e., the weights of different objectives) are often unknown or challenging to specify in advance. In this study, we address this issue by formulating a multi-objective offloading problem for MEC with multiple edges to minimize expected long-term energy consumption and transmission delay while considering unknown preferences as parameters. To address the challenge of unknown preferences, we design a multi-objective (deep) reinforcement learning (MORL)-based resource scheduling scheme with proximal policy optimization (PPO). In addition, we introduce a well-designed state encoding method for constructing features for multiple edges in MEC systems, a sophisticated reward function for accurately computing the utilities of delay and energy consumption. Simulation results demonstrate that our proposed MORL scheme enhances the hypervolume of the Pareto front by up to 233.1% compared to benchmarks. Our full framework is available at https://github.com/gracefulning/mec_morl_multipolicy.
翻訳日:2023-07-30 03:57:23 公開日:2023-07-05
# 大規模言語モデル(LLM)のいくつかのカテゴリ:短い調査

Several categories of Large Language Models (LLMs): A Short Survey ( http://arxiv.org/abs/2307.10188v1 )

ライセンス: Link先を確認
Saurabh Pahune, Manoj Chandrasekharan(参考訳) 大規模言語モデル(llm)は自然言語処理の効果的なツールとなり、様々な分野で使われている。 このエッセイは、様々なLLMサブカテゴリの簡潔な要約を提供する。 この調査は、タスクベースの金融LLM、多言語LLM、バイオメディカルおよび臨床LLM、ビジョン言語LLM、コード言語モデルなど、近年のLLMの発展と取り組みを強調している。 調査は、llmの各カテゴリに適用されるメソッド、属性、データセット、トランスフォーマーモデル、および比較メトリクスの一般的な要約を提供する。 さらに、自然言語処理の強化、チャットボットの知性の向上、道徳的および法的ジレンマの解消など、チャットボットと仮想アシスタントの開発分野における未解決の問題を強調している。 本研究の目的は,LLMベースのチャットボットや仮想インテリジェントアシスタント技術に興味のある読者,開発者,学者,ユーザに対して,有用な情報と今後の方向性を提供することである。

Large Language Models(LLMs)have become effective tools for natural language processing and have been used in many different fields. This essay offers a succinct summary of various LLM subcategories. The survey emphasizes recent developments and efforts made for various LLM kinds, including task-based financial LLMs, multilingual language LLMs, biomedical and clinical LLMs, vision language LLMs, and code language models. The survey gives a general summary of the methods, attributes, datasets, transformer models, and comparison metrics applied in each category of LLMs. Furthermore, it highlights unresolved problems in the field of developing chatbots and virtual assistants, such as boosting natural language processing, enhancing chatbot intelligence, and resolving moral and legal dilemmas. The purpose of this study is to provide readers, developers, academics, and users interested in LLM-based chatbots and virtual intelligent assistant technologies with useful information and future directions.
翻訳日:2023-07-23 11:37:35 公開日:2023-07-05
# 重要度サンプリングによるプライバシー増幅

Privacy Amplification via Importance Sampling ( http://arxiv.org/abs/2307.10187v1 )

ライセンス: Link先を確認
Dominik Fay, Sebastian Mair, Jens Sj\"olund(参考訳) 重要サンプリングによるデータセットのサブサンプリングを行う際のプライバシー保護特性を,差分秘密機構の事前処理ステップとして検討する。 これにより、確立されたプライバシ増幅をサブサンプリングして、各データポイントがその選択確率の相反によって重み付けされる重要サンプリングへと拡張する。 それぞれの点を重み付けするプライバシーの意味は明らかではない。 一方、選択確率が低ければ、より強力なプライバシー増幅につながる。 一方、重量が高いほど、ポイントが選択された場合のメカニズムの出力に対する点の影響が強くなる。 これら2つの効果のトレードオフを定量化する一般的な結果を提供する。 その結果,不均質なサンプリング確率は,サブサンプルサイズを維持しつつ,一様サブサンプリングよりもプライバシと有用性が向上することが示された。 特に、プライバシ最適化サンプリングの問題を定式化し、解決し、すなわち、所定のプライバシー予算の対象となるサブセットサイズを最小限に抑える重要な重みを見つける。 実験により,k平均クラスタリングの例を用いて,プライバシ,効率,重要度に基づくプライバシ増幅の精度を評価する。

We examine the privacy-enhancing properties of subsampling a data set via importance sampling as a pre-processing step for differentially private mechanisms. This extends the established privacy amplification by subsampling result to importance sampling where each data point is weighted by the reciprocal of its selection probability. The implications for privacy of weighting each point are not obvious. On the one hand, a lower selection probability leads to a stronger privacy amplification. On the other hand, the higher the weight, the stronger the influence of the point on the output of the mechanism in the event that the point does get selected. We provide a general result that quantifies the trade-off between these two effects. We show that heterogeneous sampling probabilities can lead to both stronger privacy and better utility than uniform subsampling while retaining the subsample size. In particular, we formulate and solve the problem of privacy-optimal sampling, that is, finding the importance weights that minimize the expected subset size subject to a given privacy budget. Empirically, we evaluate the privacy, efficiency, and accuracy of importance sampling-based privacy amplification on the example of k-means clustering.
翻訳日:2023-07-23 11:37:18 公開日:2023-07-05
# ハイパースペクトル画像分類のためのマルチスケールU字型MLP

Multi-Scale U-Shape MLP for Hyperspectral Image Classification ( http://arxiv.org/abs/2307.10186v1 )

ライセンス: Link先を確認
Moule Lin, Weipeng Jing, Donglin Di, Guangsheng Chen, Houbing Song(参考訳) スペクトル信号の空間的可変性を持つスペクトル帯域に多くの意味情報や空間情報を登録するため、ハイパースペクトル画像は様々な領域で重要な応用がある。 ハイパースペクトル画像の画素を識別する2つの重要な課題は、それぞれ、局所的および大域的、およびモデルの豊富なパラメータ間の相関情報を表現している。 この課題に対処するために,MUMLP(Multi-Scale Channel)ブロックとUMLP(U-shape Multi-Layer Perceptron)構造からなるマルチスケールU層パーセプトロンを提案する。 MSCはチャネル次元を変換し、スペクトル帯域の特徴を混合し、ディープレベル表現を適切に埋め込む。 UMLPは、大規模パラメータを圧縮できる多層パーセプトロン層を持つエンコーダデコーダ構造で設計されている。 大規模な実験により、我々のモデルは、パヴィア大学、ヒューストン2013、ヒューストン2018の3つの広義の公開データセット上で、最先端の手法よりも優れた性能を発揮することを示した。

Hyperspectral images have significant applications in various domains, since they register numerous semantic and spatial information in the spectral band with spatial variability of spectral signatures. Two critical challenges in identifying pixels of the hyperspectral image are respectively representing the correlated information among the local and global, as well as the abundant parameters of the model. To tackle this challenge, we propose a Multi-Scale U-shape Multi-Layer Perceptron (MUMLP) a model consisting of the designed MSC (Multi-Scale Channel) block and the UMLP (U-shape Multi-Layer Perceptron) structure. MSC transforms the channel dimension and mixes spectral band feature to embed the deep-level representation adequately. UMLP is designed by the encoder-decoder structure with multi-layer perceptron layers, which is capable of compressing the large-scale parameters. Extensive experiments are conducted to demonstrate our model can outperform state-of-the-art methods across-the-board on three wide-adopted public datasets, namely Pavia University, Houston 2013 and Houston 2018
翻訳日:2023-07-23 11:37:02 公開日:2023-07-05
# シークエンシャルレコメンデーションにおけるコントラスト学習モデルの重み付きマージ

Fisher-Weighted Merge of Contrastive Learning Models in Sequential Recommendation ( http://arxiv.org/abs/2307.05476v1 )

ライセンス: Link先を確認
Jung Hyun Ryu, Jaeheyoung Jeon, Jewoong Cho and Myungjoo Kang 1(参考訳) オンラインプラットフォームやサービスの指数関数的な成長とともに、ユーザーの好みに基づいて関連項目を特定するためにレコメンデーションシステムが不可欠になっている。 シーケンシャルレコメンデーションのドメインは、時間とともに進化するユーザの好みを捉えることを目的としている。 動的嗜好に対処するため,データ疎度を目標とする様々なコントラスト学習手法が提案されている。 本稿では, シークエンシャルレコメンデーション(Sequential Recommendation)にフィッシャー・マージン法を適用し, その実践的課題に対処し, 解決する。 このアプローチは、複数のモデルのパラメータをマージすることで、堅牢な微調整を保証する。 広範な実験を通じて,提案手法の有効性を実証し,逐次学習とレコメンデーションシステムの最先端化の可能性を強調した。

Along with the exponential growth of online platforms and services, recommendation systems have become essential for identifying relevant items based on user preferences. The domain of sequential recommendation aims to capture evolving user preferences over time. To address dynamic preference, various contrastive learning methods have been proposed to target data sparsity, a challenge in recommendation systems due to the limited user-item interactions. In this paper, we are the first to apply the Fisher-Merging method to Sequential Recommendation, addressing and resolving practical challenges associated with it. This approach ensures robust fine-tuning by merging the parameters of multiple models, resulting in improved overall performance. Through extensive experiments, we demonstrate the effectiveness of our proposed methods, highlighting their potential to advance the state-of-the-art in sequential learning and recommendation systems.
翻訳日:2023-07-16 03:45:27 公開日:2023-07-05
# インタラクションの衝突、自動化のレベル、自動化の頻度が人間の自動化の信頼と受容に及ぼす影響

The Effects of Interaction Conflicts, Levels of Automation, and Frequency of Automation on Human Automation Trust and Acceptance ( http://arxiv.org/abs/2307.05512v1 )

ライセンス: Link先を確認
Hadi Halvachi, Ali Asghar Nazari Shirehjini, Zahra Kakavand, Niloofar Hashemi, and Shervin Shirmohammadi(参考訳) インタラクションの競合が存在する場合、スマートホームのようなインテリジェントな環境を受け入れる上で、オートメーションに対するユーザの信頼が重要な役割を果たす。 本稿では、自動化レベル(LoA)、自動応答頻度(FoA)、衝突強度(CI)がスマートホームの文脈における人間の信頼と自動化の受容に与える影響を調査・比較するために、要因研究設計を採用する。 これらの効果を調べるために,スマートホームの3dシミュレーションを通じて,システムを経験した324人のオンライン参加者からデータを収集するためのwebベースの実験を行った。 その結果、自動化のレベルと頻度は、スマート環境におけるユーザの信頼に影響を及ぼした。 さらに,自動化されたスマート環境に対するユーザの受容度は,自動化の失敗やインタラクションの衝突があった場合に低下した。

In the presence of interaction conflicts, user trust in automation plays an important role in accepting intelligent environments such as smart homes. In this paper, a factorial research design is employed to investigate and compare the single and joint effects of Level of Automation (LoA), Frequency of Automated responses (FoA), and Conflict Intensity (CI) on human trust and acceptance of automation in the context of smart homes. To study these effects, we conducted web-based experiments to gather data from 324 online participants who experienced the system through a 3D simulation of a smart home. The findings show that the level and frequency of automation had an impact on user trust in smart environments. Furthermore, the results demonstrate that the users' acceptance of automated smart environments decreased in the presence of automation failures and interaction conflicts.
翻訳日:2023-07-16 03:36:20 公開日:2023-07-05
# 画像分類を用いたディープラーニングモバイルアプリケーションのためのUXヒューリスティックスとチェックリスト

UX Heuristics and Checklist for Deep Learning powered Mobile Applications with Image Classification ( http://arxiv.org/abs/2307.05513v1 )

ライセンス: Link先を確認
Christiane Gresse von Wangenheim, Gustavo Dirschnabel(参考訳) Deep Learningによって実現された画像分類を提供するモバイルアプリケーションの進歩は、ユーザによる適切な使用を保証するために革新的なユーザエクスペリエンスソリューションを必要とする。 設計プロセスを支援するため、ユーザビリティヒューリスティックは一般的に特定のアプリケーション用にカスタマイズされる。 そこで本稿では,画像分類による既存モバイルアプリケーションの文献レビューと解析に基づいて,画像分類をチェックリストに分解したディープラーニングモバイルアプリケーションのためのAIXヒューリスティックスの初期セットを提案する。 また,チェックリストの利用を容易にするために,概念とヒューリスティックスを示すオンラインコースとWebベースのツールを開発し,これらのヒューリスティックスを用いた評価を支援する。 本研究の結果は,これらのアプリケーションのインターフェース設計の指針となるとともに,実践者が理解し,信頼し,効果的に関与できる画像分類アプリを開発するためのヒューリスティック評価の実施を支援するためにも利用できる。

Advances in mobile applications providing image classification enabled by Deep Learning require innovative User Experience solutions in order to assure their adequate use by users. To aid the design process, usability heuristics are typically customized for a specific kind of application. Therefore, based on a literature review and analyzing existing mobile applications with image classification, we propose an initial set of AIX heuristics for Deep Learning powered mobile applications with image classification decomposed into a checklist. In order to facilitate the usage of the checklist we also developed an online course presenting the concepts and heuristics as well as a web-based tool in order to support an evaluation using these heuristics. These results of this research can be used to guide the design of the interfaces of such applications as well as support the conduction of heuristic evaluations supporting practitioners to develop image classification apps that people can understand, trust, and can engage with effectively.
翻訳日:2023-07-16 03:23:03 公開日:2023-07-05
# ANISE: 組み立て型ニューラルインプリシト表面rEコンストラクション

ANISE: Assembly-based Neural Implicit Surface rEconstruction ( http://arxiv.org/abs/2205.13682v2 )

ライセンス: Link先を確認
Dmitry Petrov, Matheus Gadelha, Radomir Mech, Evangelos Kalogerakis(参考訳) ANISEは,部分認識型暗黙的形状表現を用いて部分的観察(画像やスパース点雲)から3次元形状を再構成する手法である。 形状は神経の暗黙の関数の集合として定式化され、それぞれ異なる部分のインスタンスを表す。 以前のアプローチとは対照的に、この表現の予測は粗い意味で進行する。 我々のモデルはまず、その部分インスタンスの幾何学的変換の形で形状の構造的配置を再構成する。 それらに基づいて、モデルは、その表面幾何学を符号化する部分潜時符号を予測する。 再建には2つの方法がある。 (i) 暗黙の関数の一部に潜伏符号を直接復号して、それを最終形に結合することにより、又は (ii)部分ラテントを用いて、部分データベース内の類似部分インスタンスを検索し、単一形状に組み立てる。 提案手法は,部分表現を暗黙の関数に復号することで,画像とスパース点の雲から最先端の部品認識再構成結果が得られることを実証し,データセットから取得した部品を組立てて形状を再構築する場合,データベースサイズを著しく制限しても従来型の形状検索手法よりも大幅に向上することを示した。 本稿では,sparse point cloud reconstructionsとsingle-view reconstruction benchmarksについて報告する。

We present ANISE, a method that reconstructs a 3D~shape from partial observations (images or sparse point clouds) using a part-aware neural implicit shape representation. The shape is formulated as an assembly of neural implicit functions, each representing a different part instance. In contrast to previous approaches, the prediction of this representation proceeds in a coarse-to-fine manner. Our model first reconstructs a structural arrangement of the shape in the form of geometric transformations of its part instances. Conditioned on them, the model predicts part latent codes encoding their surface geometry. Reconstructions can be obtained in two ways: (i) by directly decoding the part latent codes to part implicit functions, then combining them into the final shape; or (ii) by using part latents to retrieve similar part instances in a part database and assembling them in a single shape. We demonstrate that, when performing reconstruction by decoding part representations into implicit functions, our method achieves state-of-the-art part-aware reconstruction results from both images and sparse point clouds.When reconstructing shapes by assembling parts retrieved from a dataset, our approach significantly outperforms traditional shape retrieval methods even when significantly restricting the database size. We present our results in well-known sparse point cloud reconstruction and single-view reconstruction benchmarks.
翻訳日:2023-07-10 16:14:48 公開日:2023-07-05
# 周波数変調」パルスベルによる選択回避

'Frequency-modulated' pulsed Bell setup avoids post-selection ( http://arxiv.org/abs/2307.03203v1 )

ライセンス: Link先を確認
M\'onica Ag\"uero, Alejandro Hnilo, Marcelo Kovalsky and Myriam Nonaka(参考訳) イベント対応のセットアップを除くと、Bell実験は一致を定義するためにデータのポストセレクションを必要とする。 根本的な観点からすると、ポスト選択は真の「論理的な抜け穴」である。 実用的観点では、これは数値的に重く時間のかかる作業を意味する。 量子鍵分布(QKD)では、敵対的相手の脆弱性を開放する。 問題の核心は、長期観察中に独立時計を同期させることである。 パルス源はクロックのドリフトを除去するが、各遠隔局で同じパルスを識別する問題がある。 周波数変調パルス源を用いてそれを達成する。 これは、時計間のドリフトの影響を受けない方法で、有効な偶然の条件を直ちに定義する。 これは、選択後や最適であることが判明した方法で、絡み合ったペアのセットを見つけることを可能にする。 また、QKDの場合、敵対的な敵に対しても堅牢である。

Excepting event-ready setups, Bell experiments require post-selection of data to define coincidences. From the fundamental point of view, post-selection is a true 'logical loophole'. From the practical point of view, it implies a numerically heavy and time consuming task. In Quantum Key Distribution (QKD), it opens vulnerability in case of a hostile adversary. The core of the problem is to synchronize independent clocks during long observation runs. A pulsed source gets rid of clocks' drift, but there is still the problem of identifying the same pulse in each remote station. We use a frequency modulated pulsed source to achieve it. This immediately defines the condition of valid coincidences in a manner that is unaffected by the drift between the clocks. It allows finding the set of entangled pairs avoiding post-selection and in a way that is found to be optimal. It is also robust against a hostile adversary in the case of QKD.
翻訳日:2023-07-10 14:26:52 公開日:2023-07-05
# スケーリングの法則はスケールしない

Scaling Laws Do Not Scale ( http://arxiv.org/abs/2307.03201v1 )

ライセンス: Link先を確認
Fernando Diaz and Michael Madaio(参考訳) 近年の研究では、人工知能(AI)モデルの性能とそれらのモデルの設計(例えばデータセットサイズ)の側面との間の「スケーリング法則」と呼ばれるパワーローの関係が提案されている。 言い換えると、データセット(またはモデルパラメータなど)のサイズが大きくなると、そのデータセットでトレーニングされた所定のモデルのパフォーマンスは対応するほど増加する。 しかしながら、このスケーリング法則は、集計において説得力がある一方で、パフォーマンスを測定するために使われる指標が悪用され、競合する可能性がある、あるいは、異なるグループの人々がモデルの出力の質をどう知覚するかを無視する。 本稿では、大規模AIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、データセットに含まれるデータを含む異なるコミュニティ(人口統計群を含む)の数が増加し、それぞれが異なる価値を持つ可能性があることを論じる。 その結果、データセットで表されるコミュニティが、法をスケールするためにモデルパフォーマンスを評価するのに使用されるメトリクスによってキャプチャされない(または最悪の場合)値や好みを持つリスクが増加する。 論文の最後には、aiのスケーリングに関する法律 -- データセットが大きくなるにつれて、モデルが改善を続けるとは限らない — 少なくとも、これらのモデルに影響を受けるすべての人々やコミュニティにとって。

Recent work has proposed a power law relationship, referred to as ``scaling laws,'' between the performance of artificial intelligence (AI) models and aspects of those models' design (e.g., dataset size). In other words, as the size of a dataset (or model parameters, etc) increases, the performance of a given model trained on that dataset will correspondingly increase. However, while compelling in the aggregate, this scaling law relationship overlooks the ways that metrics used to measure performance may be precarious and contested, or may not correspond with how different groups of people may perceive the quality of models' output. In this paper, we argue that as the size of datasets used to train large AI models grows, the number of distinct communities (including demographic groups) whose data is included in a given dataset is likely to grow, each of whom may have different values. As a result, there is an increased risk that communities represented in a dataset may have values or preferences not captured by (or in the worst case, at odds with) the metrics used to evaluate model performance for scaling laws. We end the paper with implications for AI scaling laws -- that models may not, in fact, continue to improve as the datasets get larger -- at least not for all people or communities impacted by those models.
翻訳日:2023-07-10 14:26:32 公開日:2023-07-05
# セルフインストラクション:最小インストラクションチューニングの早期停止基準の導入

Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning ( http://arxiv.org/abs/2307.03692v1 )

ライセンス: Link先を確認
Waseem AlShikh and Manhal Daaboul and Kirk Goddard and Brock Imel and Kiran Kamble and Parikshith Kulkarni and Melisa Russak(参考訳) 本稿では,言語モデルの指示に従う能力を検出する指標であるIFS(Instruction following Score)を紹介する。 計量は二重目的を持つ。 まず、IFSはベースモデルとインストラクションモデルの区別に使うことができる。 公開ベースとインストラクションモデルのベンチマークを行い,部分文と全文に対する応答の比率が,これら2つのモデルクラス間で効果的な尺度となることを示す。 第二に、メトリックはインストラクションチューニングの早期停止基準として使用できる。 7bと13bのllamaモデルの教師付き微調整(sft)のためのifを計算し、訓練プロセスの比較的早い段階で、モデルが命令に従うことを学び、さらに微調整することで基礎となるベースモデルのセマンティクスが変化することを示します。 意味論の変化の例として、補助計量ObjecQAで定義されるモデル予測の客観性を示す。 このケースでは、IFSが高位になる傾向にある場合、意味変化が最も急激であることを示す。 IFSとセマンティックファクタへのインストラクションの分解が、制御しやすいインストラクションチューニングの新たなトレンドに始まり、基盤モデルをクエリする最小のインストラクションインターフェースを設計する可能性を開くことを願っている。

In this paper, we introduce the Instruction Following Score (IFS), a metric that detects language models' ability to follow instructions. The metric has a dual purpose. First, IFS can be used to distinguish between base and instruct models. We benchmark publicly available base and instruct models, and show that the ratio of well formatted responses to partial and full sentences can be an effective measure between those two model classes. Secondly, the metric can be used as an early stopping criteria for instruct tuning. We compute IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA models, showing that models learn to follow instructions relatively early in the training process, and the further finetuning can result in changes in the underlying base model semantics. As an example of semantics change we show the objectivity of model predictions, as defined by an auxiliary metric ObjecQA. We show that in this particular case, semantic changes are the steepest when the IFS tends to plateau. We hope that decomposing instruct tuning into IFS and semantic factors starts a new trend in better controllable instruct tuning and opens possibilities for designing minimal instruct interfaces querying foundation models.
翻訳日:2023-07-10 12:02:41 公開日:2023-07-05
# appleとappleの比較: ユーザレビューによるアスペクト認識比較文の生成

Comparing Apples to Apples: Generating Aspect-Aware Comparative Sentences from User Review ( http://arxiv.org/abs/2307.03691v1 )

ライセンス: Link先を確認
Jessica Echterhoff, An Yan, Julian McAuley(参考訳) 多くの類似の選択肢の中で最良の製品を見つけるのに時間がかかります。 比較文は、目立った項目の重要な特徴を強調する方法で、ある項目と他の項目を対比するのに役立ちます。 1つまたは複数の項目のレビューと関連する項目の特徴を考慮し、比較レビュー文を生成し、ユーザーが最適な項目を見つけるのに役立つ。 具体的には,変換器内の3つの連続成分からなるモデルについて述べる。 (i)比較対象品目を符号化する商品符号化モジュール (ii)自己回帰的な比較文を生成する比較生成モジュール (iii)ユーザパーソナライズのための新しい復号化方法 我々のパイプラインは、流動的で多様な比較文を生成する。 我々は、人間の評価研究において、生成した文の関連性と忠実性に関する実験を行い、アルゴリズムが関連する真理のある比較レビュー文を作成することを発見した。

It is time-consuming to find the best product among many similar alternatives. Comparative sentences can help to contrast one item from others in a way that highlights important features of an item that stand out. Given reviews of one or multiple items and relevant item features, we generate comparative review sentences to aid users to find the best fit. Specifically, our model consists of three successive components in a transformer: (i) an item encoding module to encode an item for comparison, (ii) a comparison generation module that generates comparative sentences in an autoregressive manner, (iii) a novel decoding method for user personalization. We show that our pipeline generates fluent and diverse comparative sentences. We run experiments on the relevance and fidelity of our generated sentences in a human evaluation study and find that our algorithm creates comparative review sentences that are relevant and truthful.
翻訳日:2023-07-10 12:02:20 公開日:2023-07-05
# 幾何学と空間関係のテクスト記述表現における大規模言語モデルの有効性の評価

Evaluating the Effectiveness of Large Language Models in Representing Textual Descriptions of Geometry and Spatial Relations ( http://arxiv.org/abs/2307.03678v1 )

ライセンス: Link先を確認
Yuhan Ji, Song Gao(参考訳) 本研究では,大規模言語モデル(LLM)の空間的関係の表現能力を評価することに焦点を当てた。 GPT-2 や BERT などの LLM を用いて、よく知られたジオメトリのテキスト (WKT) フォーマットを符号化し、それらの埋め込みを分類器や回帰器に供給し、幾何学的属性に対する LLM 生成埋め込みの有効性を評価する。 実験では、LLMの生成した埋め込みは幾何型を保存し、いくつかの空間的関係(精度は73%まで)を捉えることができるが、数値を推定し、空間的関連オブジェクトを検索する際の課題が残っている。 本研究は,基礎となる地理空間データのニュアンスや複雑さを把握し,基礎モデルを用いて様々なGeoAIアプリケーションをサポートするためにドメイン知識を統合することの必要性を強調する。

This research focuses on assessing the ability of large language models (LLMs) in representing geometries and their spatial relations. We utilize LLMs including GPT-2 and BERT to encode the well-known text (WKT) format of geometries and then feed their embeddings into classifiers and regressors to evaluate the effectiveness of the LLMs-generated embeddings for geometric attributes. The experiments demonstrate that while the LLMs-generated embeddings can preserve geometry types and capture some spatial relations (up to 73% accuracy), challenges remain in estimating numeric values and retrieving spatially related objects. This research highlights the need for improvement in terms of capturing the nuances and complexities of the underlying geospatial data and integrating domain knowledge to support various GeoAI applications using foundation models.
翻訳日:2023-07-10 12:01:20 公開日:2023-07-05
# 有限環におけるイデアルの効率的な量子処理

Efficient quantum processing of ideals in finite rings ( http://arxiv.org/abs/0908.0022v2 )

ライセンス: Link先を確認
Pawel M. Wocjan, Stephen P. Jordan, Hamed Ahmadi, and Joseph P. Brennan(参考訳) 有限環 R へのブラックボックスアクセスと R のイデアル I に対する生成元のリストが与えられると仮定する。 これは、arvind et al. の量子アルゴリズムを一般化し、r 自体の基底表現を求める。 そして,本アルゴリズムは,有限環に関する様々な問題を量子コンピュータが迅速に解くための有用なプリミティブであることを示す。 特に、2つのイデアルが同一であるかどうかを検証し、それらの交叉を見つけ、与えられた環要素が与えられたイデアルに属するかどうかを証明し、ある元が単位であるかどうかを証明し、その逆元を見つけると、加法的および乗法的アイデンティティを見つけ、イデアルの順序を計算し、環上の線型方程式を解き、イデアルが極大であるかどうかを判定し、アニヒレータを見つけ、環準同型の射影と全射性をテストする方法を示す。 これらの問題は古典的には難しい。

Suppose we are given black-box access to a finite ring R, and a list of generators for an ideal I in R. We show how to find an additive basis representation for I in poly(log |R|) time. This generalizes a quantum algorithm of Arvind et al. which finds a basis representation for R itself. We then show that our algorithm is a useful primitive allowing quantum computers to rapidly solve a wide variety of problems regarding finite rings. In particular we show how to test whether two ideals are identical, find their intersection, find their quotient, prove whether a given ring element belongs to a given ideal, prove whether a given element is a unit, and if so find its inverse, find the additive and multiplicative identities, compute the order of an ideal, solve linear equations over rings, decide whether an ideal is maximal, find annihilators, and test the injectivity and surjectivity of ring homomorphisms. These problems appear to be hard classically.
翻訳日:2023-07-09 14:18:03 公開日:2023-07-05
# ロバストで正確なスーパークワッドリック回復:確率論的アプローチ

Robust and Accurate Superquadric Recovery: a Probabilistic Approach ( http://arxiv.org/abs/2111.14517v3 )

ライセンス: Link先を確認
Weixiao Liu, Yuwei Wu, Sipu Ruan, Gregory S. Chirikjian(参考訳) 基本的な幾何学的プリミティブによるオブジェクトの解釈は、コンピュータビジョンにおいて長年研究されてきた。 幾何学的プリミティブの中で、スーパークワッドリックはパラメータの少ない幅広い形状を表現する能力で知られている。 しかし,第1段階および第1段階として,3dデータから高精度かつロバストにスーパークアドリクスを復元することは依然として困難である。 既存の手法は局所最適であり、実世界のシナリオではノイズや外れ値に敏感であり、幾何学的な形状を捉えるのに頻繁に失敗する。 本稿では,点雲から超量子を回収する最初の確率的手法を提案する。 提案手法は,超立方体のパラメトリック表面上にガウス・ユニフォーム混合モデル(GUM)を構築し,外周および騒音の発生を明示的にモデル化する。 スーパークアッドリックリカバリは、MLE(Maximum Likelihood Estimation)問題として定式化される。 提案手法は,(1)外れ値が後方から予測されるアルゴリズム,(2)超二次パラメータが信頼領域反射アルゴリズムによって最適化されるアルゴリズム,(3)局所最適化は,類似の超二次パラメータをコードするパラメータをグローバルに探索し,切り換えることによって回避される。 本手法は,複合オブジェクトのマルチスーパークアドリカバリに拡張可能であることを示す。 提案手法は, 合成データと実世界のデータセットの両方において, 精度, 効率, 頑健性の観点から, 最先端技術に勝る。 コードはhttp://github.com/bmlklwx/EMS-superquadric_fitting.gitにある。

Interpreting objects with basic geometric primitives has long been studied in computer vision. Among geometric primitives, superquadrics are well known for their ability to represent a wide range of shapes with few parameters. However, as the first and foremost step, recovering superquadrics accurately and robustly from 3D data still remains challenging. The existing methods are subject to local optima and sensitive to noise and outliers in real-world scenarios, resulting in frequent failure in capturing geometric shapes. In this paper, we propose the first probabilistic method to recover superquadrics from point clouds. Our method builds a Gaussian-uniform mixture model (GUM) on the parametric surface of a superquadric, which explicitly models the generation of outliers and noise. The superquadric recovery is formulated as a Maximum Likelihood Estimation (MLE) problem. We propose an algorithm, Expectation, Maximization, and Switching (EMS), to solve this problem, where: (1) outliers are predicted from the posterior perspective; (2) the superquadric parameter is optimized by the trust-region reflective algorithm; and (3) local optima are avoided by globally searching and switching among parameters encoding similar superquadrics. We show that our method can be extended to the multi-superquadrics recovery for complex objects. The proposed method outperforms the state-of-the-art in terms of accuracy, efficiency, and robustness on both synthetic and real-world datasets. The code is at http://github.com/bmlklwx/EMS-superquadric_fitting.git.
翻訳日:2023-07-07 19:00:46 公開日:2023-07-05
# Convex-Concave Min-Max Stackelberg Games

Convex-Concave Min-Max Stackelberg Games ( http://arxiv.org/abs/2110.05192v8 )

ライセンス: Link先を確認
Denizalp Goktas and Amy Greenwald(参考訳) min-max最適化問題(即ちmin-maxゲーム)は、幅広い機械学習問題に適用可能であるため、多くの注目を集めている。 近年は大きな進歩を遂げているものの、文献は独立した戦略セットを持つゲームに焦点を当てており、依存戦略セットによるゲームの解決についてはほとんど知られていない。 コンベックス・コンケーブ min-max Stackelberg のゲーム群を解く2つの一階法を導入し,この方法が多項式時間で収束することを示す。 Min-max Stackelberg ゲームは Wald によって最初に研究され、ウォルドの Maximin モデル(英語版) の追随名の下で、その変種はロバスト最適化で使用される主要なパラダイムであり、これは、我々の方法が同様に多くの凸性最適化問題を解くことができることを意味する。 フィッシャーマーケットにおける競争均衡の計算は,min-max stackelbergゲームも構成している。 さらに,様々なユーティリティ構造を持つフィッシャー市場の競争均衡を計算し,実運用におけるアルゴリズムの有効性と効率を実証する。 実験は,アルゴリズムの収束率に異なる平滑性特性がどう影響するかを示すことにより,理論的結果を拡張する可能性を示唆する。

Min-max optimization problems (i.e., min-max games) have been attracting a great deal of attention because of their applicability to a wide range of machine learning problems. Although significant progress has been made recently, the literature to date has focused on games with independent strategy sets; little is known about solving games with dependent strategy sets, which can be characterized as min-max Stackelberg games. We introduce two first-order methods that solve a large class of convex-concave min-max Stackelberg games, and show that our methods converge in polynomial time. Min-max Stackelberg games were first studied by Wald, under the posthumous name of Wald's maximin model, a variant of which is the main paradigm used in robust optimization, which means that our methods can likewise solve many convex robust optimization problems. We observe that the computation of competitive equilibria in Fisher markets also comprises a min-max Stackelberg game. Further, we demonstrate the efficacy and efficiency of our algorithms in practice by computing competitive equilibria in Fisher markets with varying utility structures. Our experiments suggest potential ways to extend our theoretical results, by demonstrating how different smoothness properties can affect the convergence rate of our algorithms.
翻訳日:2023-07-07 19:00:19 公開日:2023-07-05
# ガウス変分推論の計算漸近性とラプラス近似

The computational asymptotics of Gaussian variational inference and the Laplace approximation ( http://arxiv.org/abs/2104.05886v3 )

ライセンス: Link先を確認
Zuheng Xu, Trevor Campbell(参考訳) ガウス変分推論とラプラス近似はマルコフ連鎖モンテカルロの代用として人気があり、ベイジアン後部推論を最適化問題として定式化し、単純でスケーラブルな確率最適化アルゴリズムの使用を可能にする。 しかし、両方の方法の鍵となる制限は、最適化問題の解は通常計算が難しく、単純な設定でも問題は凸でないことである。 このように、最近開発された統計的保証は、すべて(データ)漸近的性質を含むが、実際には確実には得られない。 本研究は,ガウス族における変分推論の漸近的凸特性とラプラス近似によって求められる最大後続(map)問題に関する理論的解析と,これらの性質を利用して漸近的構造における最適近似を求める2つのアルゴリズムであるconsistance laplace approximation (cla) とconsistant stochastic variational inference (csvi) の2つの大きな貢献を提供する。 cla と csvi はともに最適の局所的な盆地を見つける移動可能な初期化手順を含み、csvi はさらに局所的にその盆地に閉じ込められるようなスケールド勾配降下アルゴリズムを含んでいる。 非凸合成および実データ例の実験では、標準変分法およびラプラス近似と比較すると、CSVIとCLAはそれぞれの最適化問題の大域的最適値を得る可能性を向上させる。

Gaussian variational inference and the Laplace approximation are popular alternatives to Markov chain Monte Carlo that formulate Bayesian posterior inference as an optimization problem, enabling the use of simple and scalable stochastic optimization algorithms. However, a key limitation of both methods is that the solution to the optimization problem is typically not tractable to compute; even in simple settings the problem is nonconvex. Thus, recently developed statistical guarantees -- which all involve the (data) asymptotic properties of the global optimum -- are not reliably obtained in practice. In this work, we provide two major contributions: a theoretical analysis of the asymptotic convexity properties of variational inference with a Gaussian family and the maximum a posteriori (MAP) problem required by the Laplace approximation; and two algorithms -- consistent Laplace approximation (CLA) and consistent stochastic variational inference (CSVI) -- that exploit these properties to find the optimal approximation in the asymptotic regime. Both CLA and CSVI involve a tractable initialization procedure that finds the local basin of the optimum, and CSVI further includes a scaled gradient descent algorithm that provably stays locally confined to that basin. Experiments on nonconvex synthetic and real-data examples show that compared with standard variational and Laplace approximations, both CSVI and CLA improve the likelihood of obtaining the global optimum of their respective optimization problems.
翻訳日:2023-07-07 18:59:16 公開日:2023-07-05
# 野生のバランス顔におけるバイアスのバランスとプライバシーの保護

Balancing Biases and Preserving Privacy on Balanced Faces in the Wild ( http://arxiv.org/abs/2103.09118v5 )

ライセンス: Link先を確認
Joseph P Robinson and Can Qin and Yann Henon and Samson Timoner and Yun Fu(参考訳) 現在の顔認識(FR)モデルには、人口統計バイアスが存在する。 異なる民族と性別のサブグループにまたがる偏見を測定するために、我々のBFWデータセットを紹介します。 このデータセットは、サブグループ毎のFR性能を特徴づけることができる。 純正と偽のサンプルペアを区別するために1つのスコアしきい値に頼ると、最適でない結果が得られることがわかった。 さらに、サブグループ内のパフォーマンスは、しばしばグローバル平均から大きく変化する。 したがって、特定のエラー率は、検証データに一致する人口のみである。 そこで本研究では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。 このスキームは平均的なパフォーマンスを高め、人口統計知識を取り除きながらアイデンティティ情報を保存する。 人口統計知識の除去は、潜在的なバイアスが意思決定に影響を与えるのを防ぎ、人口統計情報を排除してプライバシーを保護する。 提案手法を探索し,ドメイン適応方式を用いて予測された特徴からサブグループ分類器が学習できないことを示す。 ソースコードとデータにアクセスするには、https://github.com/visionjo/facerec-bias-bfwをご覧ください。

There are demographic biases present in current facial recognition (FR) models. To measure these biases across different ethnic and gender subgroups, we introduce our Balanced Faces in the Wild (BFW) dataset. This dataset allows for the characterization of FR performance per subgroup. We found that relying on a single score threshold to differentiate between genuine and imposters sample pairs leads to suboptimal results. Additionally, performance within subgroups often varies significantly from the global average. Therefore, specific error rates only hold for populations that match the validation data. To mitigate imbalanced performances, we propose a novel domain adaptation learning scheme that uses facial features extracted from state-of-the-art neural networks. This scheme boosts the average performance and preserves identity information while removing demographic knowledge. Removing demographic knowledge prevents potential biases from affecting decision-making and protects privacy by eliminating demographic information. We explore the proposed method and demonstrate that subgroup classifiers can no longer learn from features projected using our domain adaptation scheme. For access to the source code and data, please visit https://github.com/visionjo/facerec-bias-bfw.
翻訳日:2023-07-07 18:58:45 公開日:2023-07-05
# 微分可能な論理機械

Differentiable Logic Machines ( http://arxiv.org/abs/2102.11529v5 )

ライセンス: Link先を確認
Matthieu Zimmer and Xuening Feng and Claire Glanois and Zhaohui Jiang and Jianyi Zhang and Paul Weng and Dong Li and Jianye Hao and Wulong Liu(参考訳) 推論、学習、意思決定の統合は、より一般的な人工知能システムを構築する上で鍵となる。 この方向の一歩として,インダクティブ・ロジック・プログラミング (ilp) と強化学習 (rl) の問題を解決し,その解を一階述語論理プログラムとして解釈できる,微分可能論理機械 (dlm) と呼ばれる新しいニューラル・ロジック・アーキテクチャを提案する。 私たちの提案にはいくつかのイノベーションが含まれている。 第一に、我々のアーキテクチャは、ルールの代わりに述語に重みを割り当てることで、一階論理プログラムの空間を制限されるが表現力に富んだ連続緩和を定義する。 第二に、この微分可能なアーキテクチャを用いて、完全に解釈可能な解(すなわち論理式)を復元できる勾配降下に基づく複数の(教師付きおよびRL)訓練手順を提案する。 第3に、RLトレーニングを加速するために、アクター批判アルゴリズムを実現する新しい批評家アーキテクチャを設計する。 第4に,難解な問題を解くために,論理プログラムを段階的に学習できるインクリメンタルな学習手順を提案する。 最先端(SOTA)微分可能なILP法と比較して、DLMは高い成功率の種子(3.5$\times$)で検討された全てのILP問題の解決に成功した。 RL問題では、解釈可能な解を必要とすることなく、DLMは報酬(最大3.9%)で他の非解釈可能な神経論理的RLアプローチより優れている。 DLMは、解釈可能性を実現する際に、より難しいRL問題(例えば、ソーティング、パス)を解くことができる。 この優れたパフォーマンスに加えて、DLMは、特にSOTAよりもはるかに多くの定数($2$\times$)を扱うテストフェーズにおいて、メモリと計算時間の観点からうまくスケールすることができる。

The integration of reasoning, learning, and decision-making is key to build more general artificial intelligence systems. As a step in this direction, we propose a novel neural-logic architecture, called differentiable logic machine (DLM), that can solve both inductive logic programming (ILP) and reinforcement learning (RL) problems, where the solution can be interpreted as a first-order logic program. Our proposition includes several innovations. Firstly, our architecture defines a restricted but expressive continuous relaxation of the space of first-order logic programs by assigning weights to predicates instead of rules, in contrast to most previous neural-logic approaches. Secondly, with this differentiable architecture, we propose several (supervised and RL) training procedures, based on gradient descent, which can recover a fully-interpretable solution (i.e., logic formula). Thirdly, to accelerate RL training, we also design a novel critic architecture that enables actor-critic algorithms. Fourthly, to solve hard problems, we propose an incremental training procedure that can learn a logic program progressively. Compared to state-of-the-art (SOTA) differentiable ILP methods, DLM successfully solves all the considered ILP problems with a higher percentage of successful seeds (up to 3.5$\times$). On RL problems, without requiring an interpretable solution, DLM outperforms other non-interpretable neural-logic RL approaches in terms of rewards (up to 3.9%). When enforcing interpretability, DLM can solve harder RL problems (e.g., Sorting, Path) Moreover, we show that deep logic programs can be learned via incremental supervised training. In addition to this excellent performance, DLM can scale well in terms of memory and computational time, especially during the testing phase where it can deal with much more constants ($>$2$\times$) than SOTA.
翻訳日:2023-07-07 18:58:28 公開日:2023-07-05
# 部分重なり合う点集合に対するハイブリッドトリ線形および双線形計画法

Hybrid Trilinear and Bilinear Programming for Aligning Partially Overlapping Point Sets ( http://arxiv.org/abs/2101.07458v3 )

ライセンス: Link先を確認
Wei Lian and Wangmeng Zuo(参考訳) 多くの応用において、部分重なり合う点集合を整列し、対応する変換に不変なアルゴリズムが必要である。 本研究では,ロバスト点マッチング(RPM)アルゴリズムの目的を最小化することにより,そのような特性を持つ手法を実現する。 まず RPM の目的が立方多項式であることを示す。 次に、三線型および二線型単項の凸包絡を用いて、その下限関数を導出する。 結果として得られる下界問題は、線形代入と低次元凸二次計画法によって効率よく解けるという利点がある。 次に,変換変数のみを分岐し,効率的に実行する分岐・バウンド(bnb)アルゴリズムを開発する。 実験により,非剛性変形,位置雑音,異常値に対する提案手法のロバスト性が向上した。 彼らはまた、競合効率があり、問題のサイズに合わせてスケールすることを示した。

In many applications, we need algorithms which can align partially overlapping point sets and are invariant to the corresponding transformations. In this work, a method possessing such properties is realized by minimizing the objective of the robust point matching (RPM) algorithm. We first show that the RPM objective is a cubic polynomial. We then utilize the convex envelopes of trilinear and bilinear monomials to derive its lower bound function. The resulting lower bound problem has the merit that it can be efficiently solved via linear assignment and low dimensional convex quadratic programming. We next develop a branch-and-bound (BnB) algorithm which only branches over the transformation variables and runs efficiently. Experimental results demonstrated better robustness of the proposed method against non-rigid deformation, positional noise and outliers in case that outliers are not mixed with inliers when compared with the state-of-the-art approaches. They also showed that it has competitive efficiency and scales well with problem size.
翻訳日:2023-07-07 18:57:33 公開日:2023-07-05
# 空媒質を持つ線形三重量子ドットにおける超交換の普遍制御

Universal control of superexchange in linear triple quantum dots with an empty mediator ( http://arxiv.org/abs/2203.15521v2 )

ライセンス: Link先を確認
Guo Xuan Chan, Peihao Huang, Xin Wang(参考訳) 超交換は、大規模量子コンピューティングのための遠方スピン間の長距離相互作用を実現するための重要な資源の1つである。 最近の実験では、中心スピンを介する超交換相互作用によって結合が与えられる遠隔スピンによって定義される論理状態間のコヒーレントな振動が示されている。 超交換の可能性の発掘には、まだ文献に欠けている制御パラメータの観点からの相互作用の完全な理解が必要である。 そこで,完全配置相互作用計算を用いて,左右の点を単一の電子で占める線形三重量子ドットデバイスにおいて,スピン状態が量子ビットとして定義される2電子系について検討する。 完全な構成の相互作用計算の数値的性質は、量子ドット閉じ込めポテンシャルと電子波動関数の顕微鏡的詳細へのアクセスを可能にする。 我々は、電荷基底状態が空の中間点を生じるゆるやかな状態に焦点をあてる。 左点と右点のデチューニングのレベルが上がると、超交換は正値から負値までの非単調な振る舞いを中間ドットデチューニングの関数として表すことができることがわかった。 さらに、左点と右点の間の相対差が大きいと、元の正の(負の)超交換に対して超交換の規模が大きくなる(減少)ことが示される。 そして、さらに大きな左側のドットのデチューニングの結果を示します。 線形3量子ドットデバイスにおける非局在化2電子状態の簡単な構成でさえ、非自明な振る舞いを持つ超交換エネルギーを示し、スピンベースの量子コンピューティングにおいて重要な応用が期待できる。

Superexchange is one of the vital resources to realize long-range interaction between distant spins for large-scale quantum computing. Recent experiments have demonstrated coherent oscillations between logical states defined by remote spins whose coupling is given by the superexchange interaction mediated by central spins. Excavating the potential of superexchange requires a full understanding of the interaction in terms of control parameters, which is still lacking in literature. Here, using full configuration interaction calculations, we study a two-electron system in a linear triple-quantum-dot device in which the left and right dots are occupied by a single electron each, whose spin states are defined as qubits. The numerical nature of the full configuration interaction calculations allows access to the microscopic details of the quantum-dot confining potential and electronic wavefunctions, some of which are overlooked in the celebrated Hubbard model but turn out to be critical for the behavior of superexchange. We focus on the detuning regime where the charge ground state yields an empty middle dot. We have found that, when the detunings at the left and right dots are leveled, the superexchange can exhibit a non-monotonic behavior which ranges from positive to negative values as a function of the middle-dot detuning. We further show that a larger relative detuning between the left and right dots causes the magnitude of the superexchange to increase (decrease) for an originally positive (negative) superexchange. We then proceed to show the results for a much larger left-right dot detuning. Our results suggest that even a simple configuration of delocalized two-electron states in a linear triple-quantum-dot device exhibits superexchange energy with non-trivial behaviors, which could have important applications in spin-based quantum computing.
翻訳日:2023-07-07 18:49:23 公開日:2023-07-05
# 局所古典格子モデルの境界における創発的量子力学

Emergent Quantum Mechanics at the Boundary of a Local Classical Lattice Model ( http://arxiv.org/abs/2207.09465v3 )

ライセンス: Link先を確認
Kevin Slagle and John Preskill(参考訳) 量子力学が古典力学から現れる概念的に新しいモデルを定式化する。 n$ qubits に作用する局所ハミルトニアン $h$ が与えられると、境界動力学がおよそ -- であるが任意の精度を持つ付加的な空間次元を持つ局所古典モデルを定義し、schr\"{o}dinger's equation と $h$ で記述する。 バルクは古典的なビットの格子で構成され、確率行列の回路を通して境界に向かって伝播する。 境界に達するビットは、一様分布からの偏差が量子力学的波動関数として解釈できる確率分布によって制御される。 ベル非局所性は、情報が光の境界速度よりもはるかに速くバルクを移動できるため達成される。 我々は、量子力学からモデルがどの程度逸脱するかを解析的に推定し、これらの推定をコンピュータシミュレーションを用いて検証する。

We formulate a conceptually new model in which quantum mechanics emerges from classical mechanics. Given a local Hamiltonian $H$ acting on $n$ qubits, we define a local classical model with an additional spatial dimension whose boundary dynamics is approximately -- but to arbitrary precision -- described by Schr\"{o}dinger's equation and $H$. The bulk consists of a lattice of classical bits that propagate towards the boundary through a circuit of stochastic matrices. The bits reaching the boundary are governed by a probability distribution whose deviation from the uniform distribution can be interpreted as the quantum-mechanical wavefunction. Bell nonlocality is achieved because information can move through the bulk much faster than the boundary speed of light. We analytically estimate how much the model deviates from quantum mechanics, and we validate these estimates using computer simulations.
翻訳日:2023-07-07 18:41:19 公開日:2023-07-05
# 量子マルコフ力学における修正対数ソボレフとポインカレの不等式間の補間

Interpolation between modified logarithmic Sobolev and Poincare inequalities for quantum Markovian dynamics ( http://arxiv.org/abs/2207.06422v3 )

ライセンス: Link先を確認
Bowen Li, Jianfeng Lu(参考訳) 量子 $p$-divergences を定義し、詳細な平衡条件を満たす有限次元行列代数上の原始量子マルコフ半群に対するベックナーの不等式を導入する。 そのような不等式は、非可換$L_p$-ノルムにおける量子力学の収束率を定量化する。 我々は、ベックナーの不等式と他の量子汎関数不等式、および超収縮性の間に多くの意味を持つ。 特に、量子ベックナーの不等式は、ソボレフ型不等式とポインカル・'{e}不等式を鋭い方法で補間することを示した。 スペクトルギャップの観点からベックナー定数 $\alpha_p$ に対して一様下界を提供し、不変状態に関して $\alpha_p$ の安定性を確立する。 応用として,脱分極半群のベックナー定数を計算し,混合時間について考察する。 対称量子マルコフ半群に対して、モーメント推定は導出され、これはさらに濃度の不等式を意味する。 量子 2-wasserstein 距離を carlen と maas [j. funct. anal. 273(5), 1810-1869 (2017)] で補間する新たな量子輸送距離 $w_{2,p}$ と非可換な $\dot{h}^{-1}$ sobolev 距離を導入する。 我々は、$\sigma$-gns の詳細なバランスを持つ量子マルコフ半群は、計量 $w_{2,p}$ に対する量子 $p$-divergence の勾配流れであることを示した。 w_{2,p}$ を持つ量子状態の集合が完全な測地空間であることを証明する。 次に、対応するエントロピックリッチ曲率の下限を$p$分割の測地的凸性を通して考慮し、HWI型補間不等式を得る。 これにより、正のリッチ曲率が量子ベックナーの不等式を意味することを証明でき、そこから輸送コストとポインカーの不等式が従うことができる。

We define the quantum $p$-divergences and introduce Beckner's inequalities for primitive quantum Markov semigroups on a finite-dimensional matrix algebra satisfying the detailed balance condition. Such inequalities quantify the convergence rate of the quantum dynamics in the noncommutative $L_p$-norm. We obtain a number of implications between Beckner's inequalities and other quantum functional inequalities, as well as the hypercontractivity. In particular, we show that the quantum Beckner's inequalities interpolate between the Sobolev-type inequalities and the Poincar\'{e} inequality in a sharp way. We provide a uniform lower bound for the Beckner constant $\alpha_p$ in terms of the spectral gap and establish the stability of $\alpha_p$ with respect to the invariant state. As applications, we compute the Beckner constant for the depolarizing semigroup and discuss the mixing time. For symmetric quantum Markov semigroups, we derive the moment estimate, which further implies a concentration inequality. We introduce a new class of quantum transport distances $W_{2,p}$ interpolating the quantum 2-Wasserstein distance by Carlen and Maas [J. Funct. Anal. 273(5), 1810-1869 (2017)] and a noncommutative $\dot{H}^{-1}$ Sobolev distance. We show that the quantum Markov semigroup with $\sigma$-GNS detailed balance is the gradient flow of a quantum $p$-divergence with respect to the metric $W_{2,p}$. We prove that the set of quantum states equipped with $W_{2,p}$ is a complete geodesic space. We then consider the associated entropic Ricci curvature lower bound via the geodesic convexity of $p$-divergence, and obtain an HWI-type interpolation inequality. This enables us to prove that the positive Ricci curvature implies the quantum Beckner's inequality, from which a transport cost and Poincar\'{e} inequalities can follow.
翻訳日:2023-07-07 18:41:03 公開日:2023-07-05
# 大規模非構造化シネCMRデータベースの自動解析のためのAIツール

An AI tool for automated analysis of large-scale unstructured clinical cine CMR databases ( http://arxiv.org/abs/2206.08137v2 )

ライセンス: Link先を確認
Jorge Mariscal-Harana (1), Clint Asher (1,2), Vittoria Vergani (1), Maleeha Rizvi (1,2), Louise Keehn (3), Raymond J. Kim (4), Robert M. Judd (4), Steffen E. Petersen (5,6,7,8), Reza Razavi (1,2), Andrew King (1), Bram Ruijsink (1,2,9), Esther Puyol-Ant\'on (1) ((1) School of Biomedical Engineering and Imaging Sciences, King's College London, London, UK, (2) Department of Adult and Paediatric Cardiology, Guy's and St Thomas' NHS Foundation Trust, London, UK, (3) Department of Clinical Pharmacology, King's College London British Heart Foundation Centre, St Thomas' Hospital, London, UK, (4) Division of Cardiology, Department of Medicine, Duke University, Durham, North Carolina, USA, (5) National Institute for Health Research (NIHR) Barts Biomedical Research Centre, William Harvey Research Institute, Queen Mary University London, London, UK, (6) Barts Heart Centre, St Bartholomew's Hospital, Barts Health NHS Trust, London, UK, (7) Health Data Research UK, London, UK, (8) Alan Turing Institute, London, UK, (9) Department of Cardiology, Heart and Lung Division, University Medical Center Utrecht, Utrecht, The Netherlands)(参考訳) 短軸(SAX)シン心磁気共鳴(CMR)の解析を自動化する人工知能(AI)技術が提案されているが、大規模な(非構造的な)臨床CMRデータセットを自動的に解析するためのCMR解析ツールは存在しない。 大規模臨床データベースにおけるSAX cine CMRからの心臓機能の自動定量化のための堅牢なAIツールの開発と評価を行った。 我々のCMRデータベースの処理と解析のためのパイプラインには、正しいデータを特定する自動ステップ、堅牢な画像前処理、SAX CMRの二心室分割のためのAIアルゴリズム、機能的バイオマーカーの推定、エラーの検出と修正のための自動分析品質制御が含まれる。 このセグメンテーションアルゴリズムは、2つのNHS病院の2793のCMRスキャンに基づいてトレーニングされ、このデータセット(n=414)と5つの外部データセット(n=6888)から追加のケースで検証された。 心臓バイオマーカーの絶対誤差は、全データセットにわたる<8.4mL(左心室容積),<9.2mL(右心室容積),<13.3g(左心室容積),<5.9%(エジェクション分画)の範囲内であった。 心疾患およびスキャナーベンダーの表現型による症例の階層化は全群で良好であった。 大規模マルチドメインcmrデータセットでトレーニングされた汎用型aiアルゴリズムであるイメージ前処理ステップと品質制御ステップを組み合わせることにより,複数のセンター,ベンダ,心臓病のデータベース(臨床ないし研究)を堅牢に分析できることを示す。 これにより,大規模マルチ中心データベースの完全自動処理に使用するツールの翻訳が可能となる。

Artificial intelligence (AI) techniques have been proposed for automating analysis of short axis (SAX) cine cardiac magnetic resonance (CMR), but no CMR analysis tool exists to automatically analyse large (unstructured) clinical CMR datasets. We develop and validate a robust AI tool for start-to-end automatic quantification of cardiac function from SAX cine CMR in large clinical databases. Our pipeline for processing and analysing CMR databases includes automated steps to identify the correct data, robust image pre-processing, an AI algorithm for biventricular segmentation of SAX CMR and estimation of functional biomarkers, and automated post-analysis quality control to detect and correct errors. The segmentation algorithm was trained on 2793 CMR scans from two NHS hospitals and validated on additional cases from this dataset (n=414) and five external datasets (n=6888), including scans of patients with a range of diseases acquired at 12 different centres using CMR scanners from all major vendors. Median absolute errors in cardiac biomarkers were within the range of inter-observer variability: <8.4mL (left ventricle volume), <9.2mL (right ventricle volume), <13.3g (left ventricular mass), and <5.9% (ejection fraction) across all datasets. Stratification of cases according to phenotypes of cardiac disease and scanner vendors showed good performance across all groups. We show that our proposed tool, which combines image pre-processing steps, a domain-generalisable AI algorithm trained on a large-scale multi-domain CMR dataset and quality control steps, allows robust analysis of (clinical or research) databases from multiple centres, vendors, and cardiac diseases. This enables translation of our tool for use in fully-automated processing of large multi-centre databases.
翻訳日:2023-07-07 18:39:01 公開日:2023-07-05
# ディープニューラルネットワークを用いたトップタガーの解釈可能性に関する詳細な研究

A Detailed Study of Interpretability of Deep Neural Network based Top Taggers ( http://arxiv.org/abs/2210.04371v4 )

ライセンス: Link先を確認
Ayush Khot, Mark S. Neubauer, Avik Roy(参考訳) 説明可能なAI(XAI)の手法の最近の進歩により、研究者はディープニューラルネットワーク(DNN)の内部動作を調べ、入力と出力の関係に関する重要な情報を明らかにし、データが機械学習モデルとどのように結びつくかを理解することができる。 本稿では,大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊から発生するジェットの同定を目的としたDNNモデルの解釈可能性について検討する。 我々は既存のトップタガーモデルのサブセットをレビューし、どの機能がトップジェットを特定する上で最も重要な役割を担っているかを特定するために異なる定量的手法を検討する。 また, 特徴量の違いによる特徴量の重要性, 特徴間の相関が説明可能性に与える影響, 潜在空間表現のエンコード方法, および物理的に意味のある量との相関について検討した。 本研究は,既存のXAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈をいかに克服できるかを説明する。 さらに、隠れたレイヤのアクティビティをニューラルアクティベーションパターン(NAP)ダイアグラムとして説明し、DNNがレイヤー間でどのように情報を中継するか、この理解がモデルの再最適化とハイパーパラメータチューニングを効果的に可能にし、これらのモデルを大幅に単純化するのにどのように役立つかを示す。 これらの研究は、モデル解釈の方法論的アプローチを促進するだけでなく、モデルが何を学ぶかについての新しい洞察を明らかにする。 これらの観測結果を拡張モデル設計に組み込んでPFINモデルを提案し,解釈可能性にインスパイアされたモデル拡張によってトップタグ付け性能が向上することを示す。

Recent developments in the methods of explainable AI (XAI) allow researchers to explore the inner workings of deep neural networks (DNNs), revealing crucial information about input-output relationships and realizing how data connects with machine learning models. In this paper we explore interpretability of DNN models designed to identify jets coming from top quark decay in high energy proton-proton collisions at the Large Hadron Collider (LHC). We review a subset of existing top tagger models and explore different quantitative methods to identify which features play the most important roles in identifying the top jets. We also investigate how and why feature importance varies across different XAI metrics, how correlations among features impact their explainability, and how latent space representations encode information as well as correlate with physically meaningful quantities. Our studies uncover some major pitfalls of existing XAI methods and illustrate how they can be overcome to obtain consistent and meaningful interpretation of these models. We additionally illustrate the activity of hidden layers as Neural Activation Pattern (NAP) diagrams and demonstrate how they can be used to understand how DNNs relay information across the layers and how this understanding can help to make such models significantly simpler by allowing effective model reoptimization and hyperparameter tuning. These studies not only facilitate a methodological approach to interpreting models but also unveil new insights about what these models learn. Incorporating these observations into augmented model design, we propose the Particle Flow Interaction Network (PFIN) model and demonstrate how interpretability-inspired model augmentation can improve top tagging performance.
翻訳日:2023-07-07 18:30:42 公開日:2023-07-05
# PathProx: 重み付き正規化ディープニューラルネットワークのための近似勾配アルゴリズム

PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized Deep Neural Networks ( http://arxiv.org/abs/2210.03069v4 )

ライセンス: Link先を確認
Liu Yang, Jifan Zhang, Joseph Shenouda, Dimitris Papailiopoulos, Kangwook Lee, Robert D. Nowak(参考訳) 重みの減衰はディープラーニングにおいて最も広く使われる正規化の1つであり、一般化と堅牢性を改善することが示されている。 重量減衰の最適化対象は損失の和であり、二乗重みの和に比例する項である。 本稿では,確率勾配降下 (SGD) はこの目的に対して非効率なアルゴリズムであると主張している。 ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象の解は異なる目的の解と等価であり、正規化項は、それぞれのReLUニューロンに関連する入力および出力重みのノルム$\ell_2$(正方でない)の積の和である。 この代替的(かつ効果的に等価な)正則化は、ネットワークトレーニングのための新しい近位勾配アルゴリズムを示唆する。 理論と実験は新しいトレーニング手法を支持し、標準の重量減衰トレーニングと共有するスパース解にはるかに早く収束できることを示した。

Weight decay is one of the most widely used forms of regularization in deep learning, and has been shown to improve generalization and robustness. The optimization objective driving weight decay is a sum of losses plus a term proportional to the sum of squared weights. This paper argues that stochastic gradient descent (SGD) may be an inefficient algorithm for this objective. For neural networks with ReLU activations, solutions to the weight decay objective are equivalent to those of a different objective in which the regularization term is instead a sum of products of $\ell_2$ (not squared) norms of the input and output weights associated with each ReLU neuron. This alternative (and effectively equivalent) regularization suggests a novel proximal gradient algorithm for network training. Theory and experiments support the new training approach, showing that it can converge much faster to the sparse solutions it shares with standard weight decay training.
翻訳日:2023-07-07 18:29:52 公開日:2023-07-05
# DataPerf: データ中心AI開発のためのベンチマーク

DataPerf: Benchmarks for Data-Centric AI Development ( http://arxiv.org/abs/2207.10062v2 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Xiaozhe Yao, Bojan Karla\v{s}, William Gaviria Rojas, Sudnya Diamos, Greg Diamos, Lynn He, Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Douwe Kiela, David Jurado, David Kanter, Rafael Mosquera, Juan Ciro, Lora Aroyo, Bilge Acun, Lingjiao Chen, Mehul Smriti Raje, Max Bartolo, Sabri Eyuboglu, Amirata Ghorbani, Emmett Goodman, Oana Inel, Tariq Kane, Christine R. Kirkpatrick, Tzu-Sheng Kuo, Jonas Mueller, Tristan Thrush, Joaquin Vanschoren, Margaret Warren, Adina Williams, Serena Yeung, Newsha Ardalani, Praveen Paritosh, Ce Zhang, James Zou, Carole-Jean Wu, Cody Coleman, Andrew Ng, Peter Mattson, Vijay Janapa Reddi(参考訳) 機械学習の研究は長い間、データセットではなくモデルにフォーカスしており、基礎となる問題の広さ、難易度、忠実性に関わらず、一般的なmlタスクに注目すべきデータセットが使用されている。 データの基本的な重要性を無視することは、現実世界のアプリケーションにおいて不正確さ、バイアス、フレジビリティを生じさせ、既存のデータセットベンチマーク間の飽和によって研究が妨げられている。 MLデータセットとデータ中心アルゴリズムを評価するための,コミュニティ主導のベンチマークスイートであるDataPerfを紹介する。 コンペティション、コンパラビリティ、再現性を通じて、データ中心のAIのイノベーションを促進することを目指している。 私たちは、MLコミュニティが単にアーキテクチャではなくデータセットを反復できるようにし、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。 dataperfの最初のイテレーションには、ビジョン、スピーチ、獲得、デバッグ、拡散促進において、幅広いデータ中心の技術、タスク、モダリティをカバーする5つのベンチマークが含まれており、コミュニティからの新たなコントリビュートベンチマークのホスティングをサポートする。 ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースで、MLCommons AssociationはDataPerfを維持して、学術と産業の長期的な利益を保証する。

Machine learning research has long focused on models rather than datasets, and prominent datasets are used for common ML tasks without regard to the breadth, difficulty, and faithfulness of the underlying problems. Neglecting the fundamental importance of data has given rise to inaccuracy, bias, and fragility in real-world applications, and research is hindered by saturation across existing dataset benchmarks. In response, we present DataPerf, a community-led benchmark suite for evaluating ML datasets and data-centric algorithms. We aim to foster innovation in data-centric AI through competition, comparability, and reproducibility. We enable the ML community to iterate on datasets, instead of just architectures, and we provide an open, online platform with multiple rounds of challenges to support this iterative development. The first iteration of DataPerf contains five benchmarks covering a wide spectrum of data-centric techniques, tasks, and modalities in vision, speech, acquisition, debugging, and diffusion prompting, and we support hosting new contributed benchmarks from the community. The benchmarks, online evaluation platform, and baseline implementations are open source, and the MLCommons Association will maintain DataPerf to ensure long-term benefits to academia and industry.
翻訳日:2023-07-07 18:27:36 公開日:2023-07-05
# 量子トモグラフィーによる情報衝突・ロシミットエコー・カオスの統一

Unifying information scrambling, Loschmidt echo and chaos through quantum tomography ( http://arxiv.org/abs/2211.11221v3 )

ライセンス: Link先を確認
Abinash Sahu, Naga Dileep Varikuti, and Vaibhav Madhok(参考訳) 量子カオスは、ダイナミックスに摂動を導入するとき、どのようにして情報やシステム全体のエラーを高速にスクランブルさせるのか? 量子シミュレーションと量子情報処理の信頼性はどうなるのか? 連続計測量子トモグラフィーをこれらの問題研究のパラダイムとして採用する。 測定記録は、量子キックトップのフロケマップの繰り返し適用の下で進化するエルミート観測可能な観測値の一連の期待値として生成される。 興味深いことに、リコンストラクションの忠実度は、カオスの度合いや力学の摂動の強さに関わらず、最初は増加する。 ランダム状態の場合、測定記録がランダムな初期観測値から得られた場合、得られた忠実度のその後の低下は、力学におけるカオスの度合いと逆相関する。 さらに重要なことは、量子トモグラフィーの性能に接続することで演算子に対するLoschmidtエコーの操作的解釈を与えることである。 カオスのシグネチャとして機能し,エラーの拡散を定量化する,乱れと乱れのない2つの演算子間の時間外のコリレータ(otoc)であるエラーのスクランブルをキャプチャする量を定義する。 この結果から,loschmidtエコーとscramling of errorの相互関係は,otocsが捉えたように,量子情報処理においてそのリンクが操作的影響をもたらすことを証明した。

How does quantum chaos lead to rapid scrambling of information as well as errors across a system when one introduces perturbations in the dynamics? What are its consequences for the reliability of quantum simulations and quantum information processing? We employ continuous measurement quantum tomography as a paradigm to study these questions. The measurement record is generated as a sequence of expectation values of a Hermitian observable evolving under repeated application of the Floquet map of the quantum kicked top. Interestingly, we find that the reconstruction fidelity initially increases regardless of the degree of chaos or the strength of perturbations in the dynamics. For random states, when the measurement record is obtained from a random initial observable, the subsequent drop in the fidelity obtained is inversely correlated to the degree of chaos in the dynamics. More importantly, this also gives us an operational interpretation of Loschmidt echo for operators by connecting it to the performance of quantum tomography. We define a quantity to capture the scrambling of errors, an out-of-time-ordered correlator (OTOC) between two operators under perturbed and unperturbed system dynamics that serves as a signature of chaos and quantifies the spread of errors. Our results demonstrate not only a fundamental link between Loschmidt echo and scrambling of errors, as captured by OTOCs but that such a link can have operational consequences in quantum information processing.
翻訳日:2023-07-07 18:20:15 公開日:2023-07-05
# 完全ゼロショット機能を有する弱教師付きマルチリンガル音声モデル

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability ( http://arxiv.org/abs/2211.02499v2 )

ライセンス: Link先を確認
Jian Xue, Peidong Wang, Jinyu Li, Eric Sun(参考訳) 本稿では,複数の言語を対象言語のテキストに書き起こし,翻訳可能なストリーム多言語音声モデル(SM2)の構築について紹介する。 SM2のバックボーンはTransformer Transducerで、高いストリーミング機能を備えている。 SM2モデルは、人間のラベル付き音声翻訳(ST)データの代わりに、音声認識コーパスの転写を機械翻訳サービスに変換して生成した弱い教師付きデータを用いて訓練される。 25の言語から35万時間分の匿名化音声トレーニングデータが得られたsm2モデルは、最近人気の大規模非ストリーミング音声モデルと同等あるいはそれ以上の品質を達成している。 より重要なことは、sm2が新しいターゲット言語に拡張する際に真にゼロショット機能を持っていることを示し、トレーニング中に見られない{source-speech, target-text}ペアに対して高品質なst結果をもたらす。

In this paper, we introduce our work of building a Streaming Multilingual Speech Model (SM2), which can transcribe or translate multiple spoken languages into texts of the target language. The backbone of SM2 is Transformer Transducer, which has high streaming capability. Instead of human labeled speech translation (ST) data, SM2 models are trained using weakly supervised data generated by converting the transcriptions in speech recognition corpora with a machine translation service. With 351 thousand hours of anonymized speech training data from 25 languages, SM2 models achieve comparable or even better ST quality than some recent popular large-scale non-streaming speech models. More importantly, we show that SM2 has the truly zero-shot capability when expanding to new target languages, yielding high quality ST results for {source-speech, target-text} pairs that are not seen during training.
翻訳日:2023-07-07 18:19:23 公開日:2023-07-05
# カオス理論と対向ロバスト性

Chaos Theory and Adversarial Robustness ( http://arxiv.org/abs/2210.13235v2 )

ライセンス: Link先を確認
Jonathan S. Kent(参考訳) 敵の攻撃の影響を受けやすいニューラルネットワークは、重要なアプリケーションや敵アプリケーションにデプロイされる前に厳格なレベルの監視に直面するべきである。 本稿では、カオス理論の考え方を用いて、ニューラルネットワークが敵対的攻撃に対してどのような影響を受けやすいか、あるいは堅牢であるかを説明し、分析し、定量化する。 この目的のために、モデルの出力が与えられた入力に対する摂動によってどの程度大きく変化するかをキャプチャする、$\hat \psi(h, \theta)$ によって与えられる新しい計量 "susceptibility ratio" を提案する。 この結果から,攻撃に対する感受性はモデル深度とともに著しく増大し,生産環境におけるニューラルネットワーク設計の安全性が示唆された。 我々は,$\hat \psi$ と分類モデルのアタック後の精度との関係を実験的に証明するとともに,難しい決定境界を欠いたタスクへの適用に関する議論を行った。 また,これまでに計算が困難であった超大規模モデルに対して,証明されたロバスト性半径を迅速かつ容易に近似する方法を実証した。

Neural networks, being susceptible to adversarial attacks, should face a strict level of scrutiny before being deployed in critical or adversarial applications. This paper uses ideas from Chaos Theory to explain, analyze, and quantify the degree to which neural networks are susceptible to or robust against adversarial attacks. To this end, we present a new metric, the "susceptibility ratio," given by $\hat \Psi(h, \theta)$, which captures how greatly a model's output will be changed by perturbations to a given input. Our results show that susceptibility to attack grows significantly with the depth of the model, which has safety implications for the design of neural networks for production environments. We provide experimental evidence of the relationship between $\hat \Psi$ and the post-attack accuracy of classification models, as well as a discussion of its application to tasks lacking hard decision boundaries. We also demonstrate how to quickly and easily approximate the certified robustness radii for extremely large models, which until now has been computationally infeasible to calculate directly.
翻訳日:2023-07-07 18:18:26 公開日:2023-07-05
# ヘッカー思想

Heckerthoughts ( http://arxiv.org/abs/2302.05449v4 )

ライセンス: Link先を確認
David Heckerman(参考訳) この原稿は、スタンフォードとMicrosoft Researchでの私の仕事に関する技術的な回想録です。 機械学習と人工知能の中心となる基本的な概念、これらの概念の応用、そしてそれらの創造の背後にある物語が含まれている。

This manuscript is technical memoir about my work at Stanford and Microsoft Research. Included are fundamental concepts central to machine learning and artificial intelligence, applications of these concepts, and stories behind their creation.
翻訳日:2023-07-07 18:00:55 公開日:2023-07-05
# ストロンチウム磁気光学トラップの損失から原子を遮蔽することによる原子数増大

Atom-Number Enhancement by Shielding Atoms from Losses in Strontium Magneto-Optical Traps ( http://arxiv.org/abs/2302.02992v2 )

ライセンス: Link先を確認
Jonatan H\"oschele, Sandra Buob, Antonio Rubio-Abadal, Vasiliy Makhalov, Leticia Tarruell(参考訳) 我々は,461nm遷移で動作するストロンチウム原子の磁気光学トラップにおける原子数を高める手法を提案する。 このスキームは、689 nmで^1$s$_0\to^3$p$_1$相互結合線を共振駆動し、短命な貯水池状態が連続的に蓄積され、理論的モデルから予測されたように、原子雲が461 nmの冷却サイクルで発生する損失から部分的に保護される。 ボーソニック同位体である$^{88}$Sr と $^{84}$Sr とフェルミオン同位体 $^{87}$Sr の原子番号の2つの拡張係数を、我々のモデルとよく一致した形で示す。 使用した689nm遷移は、冷却に一般的に使用されるため、装置の複雑さを増大させることなく、ほとんどのストロンチウム実験に適用することができる。 したがって、この方法は、低温ストロンチウム原子を利用する幅広い量子科学および技術応用に有用であり、他の原子種にも拡張することができる。

We present a scheme to enhance the atom number in magneto-optical traps of strontium atoms operating on the 461 nm transition. This scheme consists of resonantly driving the $^1$S$_0\to^3$P$_1$ intercombination line at 689 nm, which continuously populates a short-lived reservoir state and, as expected from a theoretical model, partially shields the atomic cloud from losses arising in the 461 nm cooling cycle. We show a factor of two enhancement in the atom number for the bosonic isotopes $^{88}$Sr and $^{84}$Sr, and the fermionic isotope $^{87}$Sr, in good agreement with our model. Our scheme can be applied in the majority of strontium experiments without increasing the experimental complexity of the apparatus, since the employed 689 nm transition is commonly used for further cooling. Our method should thus be beneficial to a broad range of quantum science and technology applications exploiting cold strontium atoms, and could be extended to other atomic species.
翻訳日:2023-07-07 18:00:51 公開日:2023-07-05
# バッファーガスを担持した分子の深い光トラップのダイナミクス

Dynamics of a buffer-gas-loaded, deep optical trap for molecules ( http://arxiv.org/abs/2301.12620v2 )

ライセンス: Link先を確認
Ashwin Singh, Lothar Maisenbacher, Ziguang Lin, Jeremy Axelrod, Cristian Panda and Holger M\"uller(参考訳) 本稿では, 極低温下で小型で化学的に安定な分子を光学的にトラップする手法について述べる。 10Kのトラップ深さは、数百GW/cm$^2$の強度に達することができる1064nmの密集したキャビティによって生成される。 分子は1.5kのヘリウム・バッファーガスを使って直接バッファーガスを装填され、極端に共鳴した準静電トラップ機構は分子の内部状態、エネルギー準位構造、電気的および磁気的双極子モーメントに影響を受けない。 ここでは, トラップと負荷のダイナミクス, 加熱と損失率を理論的に検討し, 10^4$-10^6$分子が捕捉される可能性が示唆された。 我々のトラップは、他の物理学分野の分子分光、低温化学反応の研究、精密測定の新しい可能性を開くだろう。

We describe an approach to optically trapping small, chemically stable molecules at cryogenic temperatures by buffer-gas loading a deep optical dipole trap. The ~10 K trap depth will be produced by a tightly-focused, 1064-nm cavity capable of reaching intensities of hundreds of GW/cm$^2$. Molecules will be directly buffer-gas loaded into the trap using a helium buffer gas at 1.5 K. The very far-off-resonant, quasielectrostatic trapping mechanism is insensitive to a molecule's internal state, energy level structure, and its electric and magnetic dipole moment. Here, we theoretically investigate the trapping and loading dynamics, as well as the heating and loss rates, and conclude that $10^4$-$10^6$ molecules are likely to be trapped. Our trap would open new possibilities in molecular spectroscopy, studies of cold chemical reactions, and precision measurement, amongst other fields of physics.
翻訳日:2023-07-07 17:59:00 公開日:2023-07-05
# サンドウィッチビデオ圧縮:ニューラルラッパーで標準コーデックの範囲を効率的に拡張する

Sandwiched Video Compression: Efficiently Extending the Reach of Standard Codecs with Neural Wrappers ( http://arxiv.org/abs/2303.11473v2 )

ライセンス: Link先を確認
Berivan Isik, Onur G. Guleryuz, Danhang Tang, Jonathan Taylor, Philip A. Chou(参考訳) 我々は,標準的なビデオコーデックでニューラルネットワークをラップするビデオ圧縮システムであるサンドイッチビデオ圧縮を提案する。 sandwichフレームワークは、ニューラルネットワークのプリプロセッサとポストプロセッサと、それらの間の標準的なビデオコーデックで構成される。 ネットワークは、様々な圧縮シナリオにおいて標準コーデックを大幅に改善することを目的として、レート歪み損失関数を最適化するために共同で訓練される。 この環境でのエンドツーエンドのトレーニングには、動作補償による時間処理、インター/イントラモードの決定、ループ内フィルタリングを含む、標準的なビデオコーデック用の差別化可能なプロキシが必要である。 重要ビデオコーデックコンポーネントに対する微分可能近似を提案し、標準コーデックに対して有意義な圧縮改善を提供するとともに、サンドイッチのニューラルコードは、2つの重要なシナリオにおいて大幅に高いレート歪み性能をもたらすことを示した。 さらに,よく知られた知覚類似度指標LPIPSを用いて,HEVCと同等品質で30%の改善率を観察した。 最後に、低パラメータで軽量なネットワークによって形成されるプリプロセッサとポストプロセッサが、これらの結果を密に近似できることを示す。

We propose sandwiched video compression -- a video compression system that wraps neural networks around a standard video codec. The sandwich framework consists of a neural pre- and post-processor with a standard video codec between them. The networks are trained jointly to optimize a rate-distortion loss function with the goal of significantly improving over the standard codec in various compression scenarios. End-to-end training in this setting requires a differentiable proxy for the standard video codec, which incorporates temporal processing with motion compensation, inter/intra mode decisions, and in-loop filtering. We propose differentiable approximations to key video codec components and demonstrate that, in addition to providing meaningful compression improvements over the standard codec, the neural codes of the sandwich lead to significantly better rate-distortion performance in two important scenarios.When transporting high-resolution video via low-resolution HEVC, the sandwich system obtains 6.5 dB improvements over standard HEVC. More importantly, using the well-known perceptual similarity metric, LPIPS, we observe 30% improvements in rate at the same quality over HEVC. Last but not least, we show that pre- and post-processors formed by very modestly-parameterized, light-weight networks can closely approximate these results.
翻訳日:2023-07-07 17:51:37 公開日:2023-07-05
# 長距離量子多体系における情報伝達

Information propagation in long-range quantum many-body systems ( http://arxiv.org/abs/2303.06506v2 )

ライセンス: Link先を確認
Marius Lemm, Carla Rubiliani, Israel Michael Sigal, Jingxuan Zhang(参考訳) 一般に, 長距離量子多体格子系における情報伝達の厳密な境界を示す。 次に、これらの境界を適用して、量子メッセージングに必要な最小時間の推定、量子相関の伝播、量子状態制御を行う。 証明は最大速度境界と、リーブ・ロビンソン型境界を含む力学の光円錐近似に基づいている。 この結果は, 長距離光円錐を破る目的で開発された高速移動および絡み合い生成プロトコルの適用性に予期せぬ制限を与えるため, $|x-y|^{-\alpha} $ と$\alpha\in (d+2,2d+1)$ で崩壊した場合でも, 適切な初期状態に対して線形光円錐を与える。

We present rigorous bounds on information propagation in general, long-range quantum many-body lattice systems. We then apply these bounds to estimate the minimal time needed for quantum messaging, for the propagation of quantum correlations, and for quantum state control. The proofs are based on a maximal velocity bound and the light-cone approximation of the dynamics including Lieb-Robinson-type bounds. Our results yield linear light cone for suitable initial states even for long-range interactions decaying as $|x-y|^{-\alpha} $ with $\alpha\in (d+2,2d+1)$ which poses unforeseen limitations on the applicability of fast-transfer and entanglement-generation protocols developed for breaking linear light cones in long-range and/or bosonic systems.
翻訳日:2023-07-07 17:50:41 公開日:2023-07-05
# 蒸留か注釈か? コンパクトモデルのコスト効率の良い微調整

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models ( http://arxiv.org/abs/2305.01645v3 )

ライセンス: Link先を確認
Junmo Kang, Wei Xu, Alan Ritter(参考訳) 微調整された大型モデルは非常に効果的であるが、推論は高価であり、二酸化炭素を排出する。 知識蒸留は推論コストを削減するための実用的な方法であることが示されているが、蒸留プロセス自体はかなりの計算資源を必要とする。 GPUを購入して微調整する代わりに、大きなモデルを蒸留する代わりに、NLP実践者は利用可能な予算をアノテータを雇い、手動で微調整データをラベル付けする。 本稿では,固定予算を最も効率的に利用してコンパクトモデルを構築する方法について検討する。 T5-XXL (11B) から T5-Small (60M) への蒸留は, 6 つの多種多様なタスクに関する広範な実験を通して, コンパクトモデル(T5-Small) を直接訓練するために, より多くのデータに注釈を付けるよりも, ほぼ常にコスト効率のよい戦略であることを示した。 さらに,計算に割り当てられた最適予算がシナリオによってどのように変化するかについても検討する。 コード、データセット、アノテーションのコスト見積、ベースラインモデルをベンチマークとして使用して、コンパクトモデルのコスト効率のトレーニングをさらに支援します。

Fine-tuning large models is highly effective, however, inference can be expensive and produces carbon emissions. Knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant computational resources. Rather than buying or renting GPUs to fine-tune, then distill a large model, an NLP practitioner might instead choose to allocate the available budget to hire annotators and manually label additional fine-tuning data. In this paper, we investigate how to most efficiently use a fixed budget to build a compact model. Through extensive experiments on six diverse tasks, we show that distilling from T5-XXL (11B) to T5-Small (60M) is almost always a cost-efficient strategy compared to annotating more data to directly train a compact model (T5-Small). We further investigate how the optimal budget allocated towards computation varies across scenarios. We will make our code, datasets, annotation cost estimates, and baseline models available as a benchmark to support further work on cost-efficient training of compact models.
翻訳日:2023-07-07 17:41:46 公開日:2023-07-05
# オペレーターの成長とブラックホール形成

Operator growth and black hole formation ( http://arxiv.org/abs/2304.14351v2 )

ライセンス: Link先を確認
Felix M. Haehl and Ying Zhao(参考訳) 漸近的にAdS時空で2つの粒子が衝突すると、十分なエネルギーと衝突パラメータが小さくなり、ブラックホールが形成される。 双対量子回路を考慮したブラックホール形成のためのしきい値条件を提案する。 直感的には、この条件は境界系に対する摂動の影響の弾道的広がりを記述する蝶錐の重なりの開始と解釈できる。 3つのバルク次元における条件の正確性を検証する。 本稿では, この状態を診断し, 固有再仮定を用いて2次元CFTで計算できる6点相関関数について述べる。

When two particles collide in an asymptotically AdS spacetime with high enough energy and small enough impact parameter, they can form a black hole. Motivated by dual quantum circuit considerations, we propose a threshold condition for black hole formation. Intuitively the condition can be understood as the onset of overlap of the butterfly cones describing the ballistic spread of the effect of the perturbations on the boundary systems. We verify the correctness of the condition in three bulk dimensions. We describe a six-point correlation function that can diagnose this condition and compute it in two-dimensional CFTs using eikonal resummation.
翻訳日:2023-07-07 17:41:22 公開日:2023-07-05
# 非構造化データと構造化データ: 大きな言語モデルを持つ両方の世界のベストを得られるか?

Unstructured and structured data: Can we have the best of both worlds with large language models? ( http://arxiv.org/abs/2304.13010v2 )

ライセンス: Link先を確認
Wang-Chiew Tan(参考訳) 本稿では,大規模言語モデルを用いて非構造化データと構造化データの両方を問合せする可能性について考察する。 また,両タイプのデータを対象とした質問応答システムの構築に関する研究課題についても概説する。

This paper presents an opinion on the potential of using large language models to query on both unstructured and structured data. It also outlines some research challenges related to the topic of building question-answering systems for both types of data.
翻訳日:2023-07-07 17:40:36 公開日:2023-07-05
# ZeroFlow: 蒸留による高速ゼロラベルシーンフロー

ZeroFlow: Fast Zero Label Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v4 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays(参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。 State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模ポイントクラウドでは数十秒の順序を必要とするため、オープンワールドオブジェクト検出のようなリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。 フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。 両制約に対処するため,ラベルなし最適化手法を用いて,フィードフォワードモデルを監督する擬似ラベルを生成する簡易蒸留フレームワークであるScene Flow via Distillationを提案する。 このフレームワークのインスタンス化であるZeroFlowは、ゼロヒューマンラベルを使用しながら、最先端の手法と競合する大規模ポイントクラウド上で、リアルタイムにシーンフロー推定を生成する。 特に、テスト時にZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストと比較してラベル付きデータでトレーニングするコストが1000$\times$以上である。 研究の再利用を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースしました。

Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds for large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, produces scene flow estimates in real-time on large-scale point clouds at quality competitive with state-of-the-art methods while using zero human labels. Notably, at test-time ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate research reuse, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets.
翻訳日:2023-07-07 17:31:21 公開日:2023-07-05
# ロボットの効率的な自動設計

Efficient automatic design of robots ( http://arxiv.org/abs/2306.03263v2 )

ライセンス: Link先を確認
David Matthews, Andrew Spielberg, Daniela Rus, Sam Kriegman, Josh Bongard(参考訳) ロボットは、物理的構造、感覚と運動のレイアウト、行動に複雑な相互依存性があるため、設計が難しいことで悪名高い。 それにもかかわらず、これまで作られた全てのロボットのほぼすべての詳細は、数ヶ月から数年の反復的なアイデア、プロトタイピング、テストを経て、人間のデザイナーによって手作業で決定された。 進化的アルゴリズムを用いたロボットの自動設計は、自然界における進化的設計に触発されて20年にわたって試みられてきましたが、これも非効率なままです。 ここでは,1台のコンシューマ級コンピュータで1秒以内で所望の動作を示すロボットの構造の非ノボ最適化と,その動作に対する製造されたロボットの保持を初めて示す。 他の勾配に基づくロボット設計法とは異なり、このアルゴリズムは特定の解剖学的形態を前提としない。 自動化された製造と、より困難なタスクにスケールアップすれば、この進歩は、医療、環境、車両、宇宙ベースのタスクのための、ユニークで有用な機械の設計、製造、展開に近いものになる。

Robots are notoriously difficult to design because of complex interdependencies between their physical structure, sensory and motor layouts, and behavior. Despite this, almost every detail of every robot built to date has been manually determined by a human designer after several months or years of iterative ideation, prototyping, and testing. Inspired by evolutionary design in nature, the automated design of robots using evolutionary algorithms has been attempted for two decades, but it too remains inefficient: days of supercomputing are required to design robots in simulation that, when manufactured, exhibit desired behavior. Here we show for the first time de-novo optimization of a robot's structure to exhibit a desired behavior, within seconds on a single consumer-grade computer, and the manufactured robot's retention of that behavior. Unlike other gradient-based robot design methods, this algorithm does not presuppose any particular anatomical form; starting instead from a randomly-generated apodous body plan, it consistently discovers legged locomotion, the most efficient known form of terrestrial movement. If combined with automated fabrication and scaled up to more challenging tasks, this advance promises near instantaneous design, manufacture, and deployment of unique and useful machines for medical, environmental, vehicular, and space-based tasks.
翻訳日:2023-07-07 17:22:40 公開日:2023-07-05
# ベンチマークデータセットにおけるChatGPTの体系的研究と総合評価

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets ( http://arxiv.org/abs/2305.18486v4 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang(参考訳) ChatGPTのような大規模言語モデル(LLM)の開発は、最近多くの注目を集めている。 しかし,本モデルが生み出す生成的アウトプットを根底から評価することの難しさから,その評価は未検討のままである。 本稿では,問合せ,テキスト要約,コード生成,コモンセンス推論,数学的問題解決,機械翻訳,バイアス検出,倫理的考察など,さまざまな学術データセットにおけるchatgptの性能を徹底的に評価することを目的とする。 具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。 これにより、NLPベンチマークにおけるChatGPTの最大の評価が得られます。 本研究の目的は,様々なタスクにおけるChatGPTの強みと弱みを検証し,LCMを用いた今後の研究への洞察を提供することである。 また、ChatGPTや他の命令調整モデルでよく見られるマルチクエリ命令に従う新しい創発的能力についても報告する。 我々の広範な評価によると、ChatGPTは様々なタスクを実行でき、いくつかのベンチマークデータセットで印象的なパフォーマンスを得ることができるが、多くの課題を確実に解決する能力を達成するには程遠い。 多様なNLPタスクに対してChatGPTの性能を徹底的に評価することにより、現実のアプリケーションにChatGPTライクなLLMをターゲットとして配置するためのステージを設定する。

The development of large language models (LLMs) such as ChatGPT has brought a lot of attention recently. However, their evaluation in the benchmark academic datasets remains under-explored due to the difficulty of evaluating the generative outputs produced by this model against the ground truth. In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. This makes our work the largest evaluation of ChatGPT in NLP benchmarks. In short, our study aims to validate the strengths and weaknesses of ChatGPT in various tasks and provide insights for future research using LLMs. We also report a new emergent ability to follow multi-query instructions that we mostly found in ChatGPT and other instruction-tuned models. Our extensive evaluation shows that even though ChatGPT is capable of performing a wide variety of tasks, and may obtain impressive performance in several benchmark datasets, it is still far from achieving the ability to reliably solve many challenging tasks. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
翻訳日:2023-07-07 17:22:18 公開日:2023-07-05
# ソーシャルメディアにおけるストレスと抑うつの同定のためのトランスフォーマーモデル校正

Calibration of Transformer-based Models for Identifying Stress and Depression in Social Media ( http://arxiv.org/abs/2305.16797v2 )

ライセンス: Link先を確認
Loukas Ilias, Spiros Mouzakitis, Dimitris Askounis(参考訳) 今日のペースの速い世界では、ストレスと抑うつの割合が急増している。 ソーシャルメディアは、精神状態の早期発見を支援する。 既存の手法は主に特徴抽出手法を導入し、浅い機械学習分類器を訓練する。 他の研究ではディープニューラルネットワークやトランスフォーマーを使用している。 トランスフォーマーベースのモデルが顕著な改善を達成しているにもかかわらず、リッチな事実知識を捉えることはしばしばできない。 事前学習したトランスフォーマーモデルに付加的な情報や追加のモダリティを持たせることを目的とした研究がいくつか提案されているが、ソーシャルメディアを通じてストレスや抑うつを検出するためにこれらの修正を利用した先行研究は行われていない。 さらに、機械学習モデルの予測に対する信頼性は、リスクの高いアプリケーションでは極めて重要であるが、モデルキャリブレーションを考慮した事前の作業は行われていない。 以上の課題を解決するため,ソーシャルメディアにおける抑うつ・ストレス検出の課題として,BERT と MentalBERT というトランスフォーマーモデルに余分な言語情報を注入する研究を行った。 提案手法では,BERT(MentalBERT)モデルに入力として付与される複合埋め込みを生成するために,マルチモーダル適応ゲートを用いる。 モデルキャリブレーションを考慮した場合,ラベル平滑化を適用する。 提案手法を3つのデータセットでテストし,言語的特徴をトランスフォーマーモデルに統合することで,性能が向上することを示す。 また,ラベル平滑化の利用は,モデルの性能向上とモデルの校正に寄与する。 最終的に、投稿の言語分析を行い、ストレスのあるテキストとストレスのないテキスト、抑うつ的なポストと非抑うつ的なポストの言語差を示す。

In today's fast-paced world, the rates of stress and depression present a surge. Social media provide assistance for the early detection of mental health conditions. Existing methods mainly introduce feature extraction approaches and train shallow machine learning classifiers. Other researches use deep neural networks or transformers. Despite the fact that transformer-based models achieve noticeable improvements, they cannot often capture rich factual knowledge. Although there have been proposed a number of studies aiming to enhance the pretrained transformer-based models with extra information or additional modalities, no prior work has exploited these modifications for detecting stress and depression through social media. In addition, although the reliability of a machine learning model's confidence in its predictions is critical for high-risk applications, there is no prior work taken into consideration the model calibration. To resolve the above issues, we present the first study in the task of depression and stress detection in social media, which injects extra linguistic information in transformer-based models, namely BERT and MentalBERT. Specifically, the proposed approach employs a Multimodal Adaptation Gate for creating the combined embeddings, which are given as input to a BERT (or MentalBERT) model. For taking into account the model calibration, we apply label smoothing. We test our proposed approaches in three publicly available datasets and demonstrate that the integration of linguistic features into transformer-based models presents a surge in the performance. Also, the usage of label smoothing contributes to both the improvement of the model's performance and the calibration of the model. We finally perform a linguistic analysis of the posts and show differences in language between stressful and non-stressful texts, as well as depressive and non-depressive posts.
翻訳日:2023-07-07 17:20:49 公開日:2023-07-05
# 深層学習のための確率的一階法のための層ワイド適応ステップサイズ

Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning ( http://arxiv.org/abs/2305.13664v3 )

ライセンス: Link先を確認
Achraf Bahamou, Donald Goldfarb(参考訳) 本稿では,ディープラーニングにおける経験的損失関数を最小化し,学習率(LR)を調整する必要をなくすための,確率的1次最適化手法を提案する。 提案手法は、ディープニューラルネットワーク(DNN)におけるヘッセンの対角ブロックに含まれる層幅確率曲率情報を用いて、各層に対する適応的なステップサイズ(LR)を計算する。 この手法は、一階法に匹敵するメモリ要件を持ち、その時間単位の複雑性は、追加の勾配計算とほぼ同等の量でのみ増大する。 数値実験により、SGDと運動量とAdamWと、提案した階層ごとのステップサイズの組み合わせにより、これらの手法の効率的なLRスケジュールと細調整LRバージョン、およびオートエンコーダ、畳み込みニューラルネットワーク(CNN)、グラフ畳み込みニューラルネットワーク(GCN)モデルでDNNをトレーニングするための一般的な1次および2次アルゴリズムを選択できることが示されている。 最後に,全バッチ勾配を用いた場合,層別ステップサイズを持つsgdの理想化バージョンが線形収束することが証明された。

We propose a new per-layer adaptive step-size procedure for stochastic first-order optimization methods for minimizing empirical loss functions in deep learning, eliminating the need for the user to tune the learning rate (LR). The proposed approach exploits the layer-wise stochastic curvature information contained in the diagonal blocks of the Hessian in deep neural networks (DNNs) to compute adaptive step-sizes (i.e., LRs) for each layer. The method has memory requirements that are comparable to those of first-order methods, while its per-iteration time complexity is only increased by an amount that is roughly equivalent to an additional gradient computation. Numerical experiments show that SGD with momentum and AdamW combined with the proposed per-layer step-sizes are able to choose effective LR schedules and outperform fine-tuned LR versions of these methods as well as popular first-order and second-order algorithms for training DNNs on Autoencoder, Convolutional Neural Network (CNN) and Graph Convolutional Network (GCN) models. Finally, it is proved that an idealized version of SGD with the layer-wise step sizes converges linearly when using full-batch gradients.
翻訳日:2023-07-07 17:20:20 公開日:2023-07-05
# 複数のブラックボックスオラクルからのアクティブポリシー改善

Active Policy Improvement from Multiple Black-box Oracles ( http://arxiv.org/abs/2306.10259v2 )

ライセンス: Link先を確認
Xuefeng Liu, Takuma Yoneda, Chaoqi Wang, Matthew R. Walter, Yuxin Chen(参考訳) 強化学習(RL)は様々な複雑な領域において大きな進歩を遂げてきた。 しかし、rlによる効果的な政策の特定は、しばしば広範な探検を必要とする。 模倣学習は、専門家のデモンストレーションを使って探索をガイドすることでこの問題を軽減することを目的としている。 現実のシナリオでは、一つの最適なオラクルではなく、複数のブラックボックスの専門家にアクセスできることが多い。 これらの専門家は、すべての州で相互に勝ってはおらず、どのoracleを使うべきか、どの州で使うべきかを積極的に決定する上での課題を提示している。 我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。 特に、MAPSはどのオークルを選択して値関数の推定を模倣し改善するかを積極的に選択し、MAPS-SEはアクティブな状態探索基準を活用してどの状態を探索すべきかを決定する。 我々は,MAPSとMAPS-SEが,最先端の政策改善アルゴリズムよりも有効であることを示す。 実証実験の結果,MAPS-SEはDeepMind Control Suiteの幅広い制御タスクにまたがる複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することが示された。 私たちのコードは、https://github.com/ripl/maps.comで公開されています。

Reinforcement learning (RL) has made significant strides in various complex domains. However, identifying an effective policy via RL often necessitates extensive exploration. Imitation learning aims to mitigate this issue by using expert demonstrations to guide exploration. In real-world scenarios, one often has access to multiple suboptimal black-box experts, rather than a single optimal oracle. These experts do not universally outperform each other across all states, presenting a challenge in actively deciding which oracle to use and in which state. We introduce MAPS and MAPS-SE, a class of policy improvement algorithms that perform imitation learning from multiple suboptimal oracles. In particular, MAPS actively selects which of the oracles to imitate and improve their value function estimates, and MAPS-SE additionally leverages an active state exploration criterion to determine which states one should explore. We provide a comprehensive theoretical analysis and demonstrate that MAPS and MAPS-SE enjoy sample efficiency advantage over the state-of-the-art policy improvement algorithms. Empirical results show that MAPS-SE significantly accelerates policy optimization via state-wise imitation learning from multiple oracles across a broad spectrum of control tasks in the DeepMind Control Suite. Our code is publicly available at: https://github.com/ripl/maps.
翻訳日:2023-07-07 17:13:02 公開日:2023-07-05
# beyond weights:pure synaptic-delay trainingを用いたスパイクニューラルネットワークのディープラーニング

Beyond Weights: Deep learning in Spiking Neural Networks with pure synaptic-delay training ( http://arxiv.org/abs/2306.06237v3 )

ライセンス: Link先を確認
Edoardo W. Grappolini and Anand Subramoney(参考訳) 生物学的証拠は、短時間から中程度の時間スケールでのシナプス遅延の適応が脳内の学習において重要な役割を担っていることを示唆している。 生物学に触発されて,シナプス重みがトレーニングされていないがランダムに選択された固定値に保たれている場合でも,シナプス遅延を用いた課題解決の可能性と能力について検討する。 後方伝搬によるフィードフォワードスパイクネットワークの遅延をONLYでトレーニングすることで,従来の重量トレーニングに匹敵する性能が得られることを示す。 さらに、重みを三元値にさらに制約することは、シナプス遅延のみを使用してタスクを解決するネットワークの能力に大きな影響を与えない。 mnistおよびファッションmnistデータセットにおける遅延のみトレーニングのタスク性能を予備実験で実証する。 これは、スパイクニューラルネットワークのトレーニングのための新しいパラダイムを示し、計算に重みを使用するモデルよりも効率の良いモデルのステージを設定する。

Biological evidence suggests that adaptation of synaptic delays on short to medium timescales plays an important role in learning in the brain. Inspired by biology, we explore the feasibility and power of using synaptic delays to solve challenging tasks even when the synaptic weights are not trained but kept at randomly chosen fixed values. We show that training ONLY the delays in feed-forward spiking networks using backpropagation can achieve performance comparable to the more conventional weight training. Moreover, further constraining the weights to ternary values does not significantly affect the networks' ability to solve the tasks using only the synaptic delays. We demonstrate the task performance of delay-only training on MNIST and Fashion-MNIST datasets in preliminary experiments. This demonstrates a new paradigm for training spiking neural networks and sets the stage for models that can be more efficient than the ones that use weights for computation.
翻訳日:2023-07-07 17:11:08 公開日:2023-07-05
# バイオメディカルタスクにおけるchatgptの評価 : 微調整生成トランスとの比較

Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers ( http://arxiv.org/abs/2306.04504v2 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) ChatGPTはOpenAIが開発した大規模言語モデルである。 様々なタスクにまたがる優れたパフォーマンスにもかかわらず、バイオメディカル領域におけるその能力に関する先行研究はまだ行われていない。 そこで本稿は,関係抽出,文書分類,質問応答,要約など,様々な生体医学的タスクにおけるchatgptの性能を評価することを目的とする。 我々の知る限りでは、生物医学領域におけるChatGPTの広範な評価を行う最初の作品である。 興味深いことに、トレーニングセットが小さいバイオメディカルデータセットでは、ゼロショットChatGPTは、BioGPTやBioBARTのような最先端の微調整生成トランスモデルよりも優れています。 このことは、ChatGPTの大規模なテキストコーパスでの事前学習が、生体医学領域においてもかなり専門化していることを示している。 以上の結果から,chatgptは大量の注釈データを持たない生体医学領域の様々なタスクに有用なツールとなる可能性が示唆された。

ChatGPT is a large language model developed by OpenAI. Despite its impressive performance across various tasks, no prior work has investigated its capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of ChatGPT on various benchmark biomedical tasks, such as relation extraction, document classification, question answering, and summarization. To the best of our knowledge, this is the first work that conducts an extensive evaluation of ChatGPT in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot ChatGPT even outperforms the state-of-the-art fine-tuned generative transformer models, such as BioGPT and BioBART. This suggests that ChatGPT's pre-training on large text corpora makes it quite specialized even in the biomedical domain. Our findings demonstrate that ChatGPT has the potential to be a valuable tool for various tasks in the biomedical domain that lack large annotated data.
翻訳日:2023-07-07 17:09:25 公開日:2023-07-05
# 非開示プロキシによる平衡フィルタ

Balanced Filtering via Non-Disclosive Proxies ( http://arxiv.org/abs/2306.15083v2 )

ライセンス: Link先を確認
Siqi Deng, Emily Diana, Michael Kearns, Aaron Roth(参考訳) グループメンバーシップが利用できない場合や、収集時に使用できない場合、センシティブなグループに対してバランスの取れたデータのサンプルを非開示的に収集する問題について検討する。 特に,収集機構は,ベースレートのみから確認できるよりも,個々のサンプルのグループメンバシップについて明らかにしていない。 これを実現するために、学習者が小さなラベル付きデータセットを使用して、後にこのフィルタリングタスクに使用できるプロキシ関数をトレーニングできる、公正なパイプラインパースペクティブを採用しています。 次に、プロキシ関数の範囲をサンプリング確率に関連付け、新しい候補が与えられたら、プロキシ関数を使用してそれを分類し、そのプロキシ分類に対応するサンプリング確率に比例した確率でサンプルに対して選択する。 重要なことに、プロキシの分類自体が個々のサンプルの敏感なグループメンバーシップに関する重要な情報を明かさない必要がある(つまり、十分に非開示である)。 アルゴリズム的な仮定では、そのようなプロキシはサンプルとオラクルの効率のよい方法で見つかる。 最後に,本アルゴリズムを実験的に評価し,一般化特性を解析する。

We study the problem of non-disclosively collecting a sample of data that is balanced with respect to sensitive groups when group membership is unavailable or prohibited from use at collection time. Specifically, our collection mechanism does not reveal significantly more about group membership of any individual sample than can be ascertained from base rates alone. To do this, we adopt a fairness pipeline perspective, in which a learner can use a small set of labeled data to train a proxy function that can later be used for this filtering task. We then associate the range of the proxy function with sampling probabilities; given a new candidate, we classify it using our proxy function, and then select it for our sample with probability proportional to the sampling probability corresponding to its proxy classification. Importantly, we require that the proxy classification itself not reveal significant information about the sensitive group membership of any individual sample (i.e., it should be sufficiently non-disclosive). We show that under modest algorithmic assumptions, we find such a proxy in a sample- and oracle-efficient manner. Finally, we experimentally evaluate our algorithm and analyze generalization properties.
翻訳日:2023-07-07 17:02:17 公開日:2023-07-05
# EPIC-KITCHEN Challenge 2023:TREK-150 Single Object Tracking

ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single Object Tracking ( http://arxiv.org/abs/2307.02508v1 )

ライセンス: Link先を確認
Yuanyou Xu, Jiahao Li, Zongxin Yang, Yi Yang, Yueting Zhuang(参考訳) Associating Objects with Transformers (AOT)フレームワークは、ビデオオブジェクトのトラッキングとセグメンテーションのための幅広い複雑なシナリオにおいて、例外的なパフォーマンスを示した。 本研究では,segment anything model (sam) と alpha-refine の助けを借りて,バウンディングボックスを参照フレーム内のマスクに変換し,そのマスクを現在のフレームに伝播させ,タスクをビデオオブジェクト追跡 (vot) からビデオオブジェクトセグメンテーション (vos) に変換する。 さらに,マルチ機能スケールでトランスフォーマーを組み込んだAOTシリーズの変種であるMSDeAOTを紹介する。 MSDeAOTは16と8の2つの特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。 設計の有効性の証明として,EPIC-KITCHENS TREK-150 Object Tracking Challengeで1位を獲得した。

The Associating Objects with Transformers (AOT) framework has exhibited exceptional performance in a wide range of complex scenarios for video object tracking and segmentation. In this study, we convert the bounding boxes to masks in reference frames with the help of the Segment Anything Model (SAM) and Alpha-Refine, and then propagate the masks to the current frame, transforming the task from Video Object Tracking (VOT) to video object segmentation (VOS). Furthermore, we introduce MSDeAOT, a variant of the AOT series that incorporates transformers at multiple feature scales. MSDeAOT efficiently propagates object masks from previous frames to the current frame using two feature scales of 16 and 8. As a testament to the effectiveness of our design, we achieved the 1st place in the EPIC-KITCHENS TREK-150 Object Tracking Challenge.
翻訳日:2023-07-07 16:43:29 公開日:2023-07-05
# STS-CCL:都市交通予測のための時空間同時コントラスト学習

STS-CCL: Spatial-Temporal Synchronous Contextual Contrastive Learning for Urban Traffic Forecasting ( http://arxiv.org/abs/2307.02507v1 )

ライセンス: Link先を確認
Lincan Li, Kaixiang Yang, Fengji Luo, Jichao Bi(参考訳) 大規模ラベルなしの交通データから複雑な時空間表現を効率的にキャプチャすることは難しい課題である。 このジレンマを考慮して,高度なコントラスト学習を行い,新しい空間-時間同期コントラスト学習(sts-ccl)モデルを提案する。 まず,グラフ構造や時間特性の観点からデータを摂動させるだけでなく,学習に基づく動的グラフビュー生成器を用いて適応的な拡張を行う,時空間グラフデータの基本および強増強手法を詳述する。 次に,空間-時間同期コントラストモジュール(sts-cm)を導入し,適切な空間-時間依存性を同時に捉え,グラフレベルのコントラストを実現する。 負フィルタリングにおけるノード個人をさらに識別するために、意味的特徴と空間的不均一性に基づいて意味的コンテクストコントラスト法を設計し、負フィルタリングとともにノードレベルのコントラスト学習を実現する。 最後に,強固な相互視型コントラストトレーニングスキームを示し,従来のコントラスト損失を統合目的関数に拡張することで,優れたパフォーマンスを実現する。 STS-CCLコントラスト学習モデルに基づく予測器の構築は,既存のトラフィック予測ベンチマークよりも優れた性能を示す。 提案したSTS-CCLは、ラベル付きデータとデータ不足問題のある時空間タスクのみを持つ大規模なデータセットに非常に適している。

Efficiently capturing the complex spatiotemporal representations from large-scale unlabeled traffic data remains to be a challenging task. In considering of the dilemma, this work employs the advanced contrastive learning and proposes a novel Spatial-Temporal Synchronous Contextual Contrastive Learning (STS-CCL) model. First, we elaborate the basic and strong augmentation methods for spatiotemporal graph data, which not only perturb the data in terms of graph structure and temporal characteristics, but also employ a learning-based dynamic graph view generator for adaptive augmentation. Second, we introduce a Spatial-Temporal Synchronous Contrastive Module (STS-CM) to simultaneously capture the decent spatial-temporal dependencies and realize graph-level contrasting. To further discriminate node individuals in negative filtering, a Semantic Contextual Contrastive method is designed based on semantic features and spatial heterogeneity, achieving node-level contrastive learning along with negative filtering. Finally, we present a hard mutual-view contrastive training scheme and extend the classic contrastive loss to an integrated objective function, yielding better performance. Extensive experiments and evaluations demonstrate that building a predictor upon STS-CCL contrastive learning model gains superior performance than existing traffic forecasting benchmarks. The proposed STS-CCL is highly suitable for large datasets with only a few labeled data and other spatiotemporal tasks with data scarcity issue.
翻訳日:2023-07-07 16:43:14 公開日:2023-07-05
# 古典時空における量子物質の逆反応の弱場限界

The weak field limit of quantum matter back-reacting on classical spacetime ( http://arxiv.org/abs/2307.02557v1 )

ライセンス: Link先を確認
Isaac Layton, Jonathan Oppenheim, Andrea Russo, Zachary Weller-Davies(参考訳) 量子の自由度と古典的自由度の一貫した結合は、量子系の古典的自由度と非一貫性の両方が拡散している限りに存在する。 本稿では、そのような古典量子(cq)重力理論のニュートン極限を導出する。 この結果は、最近提案された一般相対性理論の経路積分理論のゲージ固定と、CQマスター方程式のアプローチによって得られる。 いずれの場合も、同じ弱い磁場のダイナミクスが見つかる。 ニュートンポテンシャルは、デコヒーレンス率によって制限された量で質量固有状態へと拡散する。 また、この結果は、ハイブリッド古典量子状態の軌道に対する確率微分方程式の無声化系として提示され、デコヒーレンス-拡散トレードオフによる実験により、重力の古典量子理論のパラメータ空間の一部を除外するために使用できる、メリットの図形を構成する一連のカーネルを提供する。 我々は、量子系に結合した古典ニュートン重力の以前のモデルと弱場限界を比較して対比する。 ここでは、ニュートンポテンシャルと量子状態がロックステップで変化し、時間の流れが確率的であることが分かる。

Consistent coupling of quantum and classical degrees of freedom exists so long as there is both diffusion of the classical degrees of freedom and decoherence of the quantum system. In this paper, we derive the Newtonian limit of such classical-quantum (CQ) theories of gravity. Our results are obtained both via the gauge fixing of the recently proposed path integral theory of CQ general relativity and via the CQ master equation approach. In each case, we find the same weak field dynamics. We find that the Newtonian potential diffuses by an amount lower bounded by the decoherence rate into mass eigenstates. We also present our results as an unravelled system of stochastic differential equations for the trajectory of the hybrid classical-quantum state and provide a series of kernels for constructing figures of merit, which can be used to rule out part of the parameter space of classical-quantum theories of gravity by experimentally testing it via the decoherence-diffusion trade-off. We compare and contrast the weak field limit to previous models of classical Newtonian gravity coupled to quantum systems. Here, we find that the Newtonian potential and quantum state change in lock-step, with the flow of time being stochastic.
翻訳日:2023-07-07 16:32:35 公開日:2023-07-05
# 量子相関に対する半定値プログラミング緩和

Semidefinite programming relaxations for quantum correlations ( http://arxiv.org/abs/2307.02551v1 )

ライセンス: Link先を確認
Armin Tavakoli, Alejandro Pozas-Kerstjens, Peter Brown, Mateus Ara\'ujo(参考訳) 半定義プログラムは線型目的関数と正の半定義行列の領域を含む凸最適化問題である。 過去20年にわたり、量子情報科学において必須のツールとなっている。 それ以外の多くの難解な基本問題や応用問題は、半定値プログラムへの緩和によってうまくアプローチできる。 本稿では,このような手法を量子相関の文脈で検討する。 非局所性、量子通信、量子ネットワーク、絡み合い、量子暗号など、量子相関の様々な研究トピックに半定緩和のコアアイデアをどのように適用できるかについて議論する。

Semidefinite programs are convex optimisation problems involving a linear objective function and a domain of positive semidefinite matrices. Over the last two decades, they have become an indispensable tool in quantum information science. Many otherwise intractable fundamental and applied problems can be successfully approached by means of relaxation to a semidefinite program. Here, we review such methodology in the context of quantum correlations. We discuss how the core idea of semidefinite relaxations can be adapted for a variety of research topics in quantum correlations, including nonlocality, quantum communication, quantum networks, entanglement, and quantum cryptography.
翻訳日:2023-07-07 16:32:15 公開日:2023-07-05
# フラストレーション量子電池

Frustrating quantum batteries ( http://arxiv.org/abs/2307.02529v1 )

ライセンス: Link先を確認
Alberto Giuseppe Catalano, Salvatore Marco Giampaolo, Oliver Morsch, Vittorio Giovannetti, Fabio Franchini(参考訳) 本研究では,量子スピンチェーンをデバイスとして,エネルギーをコヒーレントに(すなわち量子電池)貯蔵・放出し,内部相関と外部デコヒーレンスとの相互作用を検討する。 我々は、量子イジング鎖を横磁場に採用し、我々の充電プロトコルは、系を平衡から外すために、外界の突然のグローバル量子クエンチから構成される。 環境とデコヒーレンス現象との相互作用は、エルゴトロピーによって測定された荷電後にチェーンが供給できる仕事の一部を散逸させる。 異数のサイト数と周期的な境界条件でafmインタラクションを設定することで,位相的フラストレーションが導入された場合,システム全体のレジリエンス,充電時間,エネルギー貯蔵の面で著しく優れた性能を示すことが判明した。 さらに,外部スピンへの簡単な放出プロトコルでは,フラストレーションチェーンのみが熱だけでなく作業の伝達が可能であることを示した。

We propose to use a quantum spin chain as a device to store and release energy coherently (namely, a quantum battery) and we investigate the interplay between its internal correlations and outside decoherence. We employ the quantum Ising chain in a transverse field, and our charging protocol consists of a sudden global quantum quench in the external field to take the system out of equilibrium. Interactions with the environment and decoherence phenomena can dissipate part of the work that the chain can supply after being charged, measured by the ergotropy. We find that the system shows overall remarkably better performances, in terms of resilience, charging time, and energy storage, when topological frustration is introduced by setting AFM interactions with an odd number of sites and periodic boundary conditions. Moreover, we show that in a simple discharging protocol to an external spin, only the frustrated chain can transfer work and not just heat.
翻訳日:2023-07-07 16:32:05 公開日:2023-07-05
# Kibble-Zurekメカニズムを超える大きな偏差理論

Large Deviations Theory Beyond the Kibble-Zurek Mechanism ( http://arxiv.org/abs/2307.02524v1 )

ライセンス: Link先を確認
Federico Balducci, Mathieu Beau, Jing Yang, Andrea Gambassi, Adolfo del Campo(参考訳) キブル・ズレック機構(KZM)は、量子相転移を横切ると生じるトポロジカルな欠陥の平均数は、クエンチ時間とともに普遍的なスケーリング則に従うことを予測している。 平衡付近の欠陥数のゆらぎは、中心極限定理と一致して、およそガウス形式である。 大規模な偏差理論を用いて、KZMを超える変動の普遍性を特徴づけ、横場量子イジングモデルにおける速度関数の正確な形を報告する。 さらに, 欠陥数分布の普遍性を確立する最近のエビデンスに基づいて, 任意の連続相転移における大きな偏差のスケーリングを特徴付ける。

The Kibble-Zurek mechanism (KZM) predicts that the average number of topological defects generated upon crossing a quantum phase transition obeys a universal scaling law with the quench time. Fluctuations in the defect number near equilibrium are approximately of Gaussian form, in agreement with the central limit theorem. Using large deviations theory, we characterize the universality of fluctuations beyond the KZM and report the exact form of the rate function in the transverse-field quantum Ising model. In addition, we characterize the scaling of large deviations in an arbitrary continuous phase transition, building on recent evidence establishing the universality of the defect number distribution.
翻訳日:2023-07-07 16:31:47 公開日:2023-07-05
# シュウィンガーモデルにおけるクォークとハドロンの高エネルギー衝突:テンソルネットワークから回路QEDへ

High-Energy Collision of Quarks and Hadrons in the Schwinger Model: From Tensor Networks to Circuit QED ( http://arxiv.org/abs/2307.02522v1 )

ライセンス: Link先を確認
Ron Belyansky, Seth Whitsitt, Niklas Mueller, Ali Fahimniya, Elizabeth R. Bennewitz, Zohreh Davoudi, Alexey V. Gorshkov(参考訳) 量子シミュレータにおける高エネルギー粒子衝突の非摂動非平衡ダイナミクスの研究を目的として, 1+1次元の格子量子電磁力学の散乱ダイナミクスについて検討した。 モデルのボゾン化定式化に取り組んでおり、プラットフォームに固有のアナログ回路QEDの実装を提案し、最小限の材料と近似を必要とし、粒子波パッケージ作成と進化のための実用的なスキームを実現する。 さらに, 熱力学的限界下では, 多粒子波束状態の構築, 時間的発展, 衝突後の粒子検出に一様行列生成物-状態テンソルネットワークを用いる。 これにより、異なるエネルギーでモデルが閉じ込められた状態と分解された状態の両方で散乱実験を数値シミュレーションし、クォークと中間子の非弾性生成、中間子崩壊、動的弦の形成と破壊を含む豊富な現象論をもたらす。 弾性および非弾性散乱断面積を時間分解運動量と外部粒子の位置分布とともに求める。 本研究は,量子場理論における散乱過程の理解を深める上で,古典的および量子シミュレーションの役割を強調した。

With the aim of studying nonperturbative out-of-equilibrium dynamics of high-energy particle collisions on quantum simulators, we investigate the scattering dynamics of lattice quantum electrodynamics in 1+1 dimensions. Working in the bosonized formulation of the model, we propose an analog circuit-QED implementation that is native to the platform, requires minimal ingredients and approximations, and enables practical schemes for particle wave-packet preparation and evolution. Furthermore, working in the thermodynamic limit, we use uniform-matrix-product-state tensor networks to construct multi-particle wave-packet states, evolve them in time, and detect outgoing particles post collision. This facilitates the numerical simulation of scattering experiments in both confined and deconfined regimes of the model at different energies, giving rise to rich phenomenology, including inelastic production of quark and meson states, meson disintegration, and dynamical string formation and breaking. We obtain elastic and inelastic scattering cross sections, together with time-resolved momentum and position distributions of the outgoing particles. This study highlights the role of classical and quantum simulation in enhancing our understanding of scattering processes in quantum field theories in real time.
翻訳日:2023-07-07 16:31:35 公開日:2023-07-05
# モデル不特定化下での条件付き独立性テスト

Conditional independence testing under model misspecification ( http://arxiv.org/abs/2307.02520v1 )

ライセンス: Link先を確認
Felipe Maia Polo, Yuekai Sun, Moulinath Banerjee(参考訳) 条件付き独立テスト(CI)は、現代の統計学と機械学習において基本的で難しい。 現代のCIテストの多くの手法は、回帰関数やベイズ予測器を中間ステップとして学習する強力な教師付き学習法に依存している。 教師付き学習手法が回帰関数やベイズ予測器を正確に推定した場合は,Type-Iの誤差を制御することが保証されるが,モデルの誤特定により失敗する場合の動作は理解されない。 より広い意味では、普遍的近似子(ディープニューラルネットなど)が用いられても、モデルの誤特定が発生することがある。 次に,回帰型ciテストの性能をモデル誤特定下で検証する。 具体的には,不特定化誤差に依存する3つの回帰に基づくテストの誤差に対する新しい近似あるいは上限を提案する。 さらに,モデル誤特定に対して頑健な新しい回帰型ciテストであるrao-blackwellized predictor test (rbpt)を導入する。 最後に, 人工的および実データを用いた実験を行い, 理論と手法の有用性を示す。

Conditional independence (CI) testing is fundamental and challenging in modern statistics and machine learning. Many modern methods for CI testing rely on powerful supervised learning methods to learn regression functions or Bayes predictors as an intermediate step. Although the methods are guaranteed to control Type-I error when the supervised learning methods accurately estimate the regression functions or Bayes predictors, their behavior is less understood when they fail due to model misspecification. In a broader sense, model misspecification can arise even when universal approximators (e.g., deep neural nets) are employed. Then, we study the performance of regression-based CI tests under model misspecification. Namely, we propose new approximations or upper bounds for the testing errors of three regression-based tests that depend on misspecification errors. Moreover, we introduce the Rao-Blackwellized Predictor Test (RBPT), a novel regression-based CI test robust against model misspecification. Finally, we conduct experiments with artificial and real data, showcasing the usefulness of our theory and methods.
翻訳日:2023-07-07 16:31:12 公開日:2023-07-05
# 新しい方法を探る: 新機能を学習し、エラー一貫性を減らすために表現の相違を強制する

Exploring new ways: Enforcing representational dissimilarity to learn new features and reduce error consistency ( http://arxiv.org/abs/2307.02516v1 )

ライセンス: Link先を確認
Tassilo Wald and Constantin Ulrich and Fabian Isensee and David Zimmerer and Gregor Koehler and Michael Baumgartner and Klaus H. Maier-Hein(参考訳) 独立して訓練された機械学習モデルは、同様の特徴を学ぶ傾向がある。 独立に訓練されたモデルの集合を考えると、これは相関予測と共通の失敗モードをもたらす。 出力予測やロジットのデコリレーションに着目した以前の試みは、特に最適化目標の矛盾によるモデル精度の低下による混合結果をもたらした。 本稿では,訓練対象モデルの類似度を計測する代わりに,表現類似性フィールドの手法を利用して訓練中の相違性を促進する手法を提案する。 この目的のために,アーキテクチャ間の異なる深さで異同する中間表現を推進し,不連続な障害モードで頑健なアンサンブルを学習する。 高い異種中間表現は相関の少ない出力予測とわずかに誤差の整合性が低下し,アンサンブル精度が向上することを示す。 これにより、中間表現間の接続とその出力予測への影響について、第1の光を当てる。

Independently trained machine learning models tend to learn similar features. Given an ensemble of independently trained models, this results in correlated predictions and common failure modes. Previous attempts focusing on decorrelation of output predictions or logits yielded mixed results, particularly due to their reduction in model accuracy caused by conflicting optimization objectives. In this paper, we propose the novel idea of utilizing methods of the representational similarity field to promote dissimilarity during training instead of measuring similarity of trained models. To this end, we promote intermediate representations to be dissimilar at different depths between architectures, with the goal of learning robust ensembles with disjoint failure modes. We show that highly dissimilar intermediate representations result in less correlated output predictions and slightly lower error consistency, resulting in higher ensemble accuracy. With this, we shine first light on the connection between intermediate representations and their impact on the output predictions.
翻訳日:2023-07-07 16:30:55 公開日:2023-07-05
# 患者音声と音声データを用いたアルツハイマー病検出のためのマルチモーダルアプローチの探索

Exploring Multimodal Approaches for Alzheimer's Disease Detection Using Patient Speech Transcript and Audio Data ( http://arxiv.org/abs/2307.02514v1 )

ライセンス: Link先を確認
Hongmin Cai, Xiaoke Huang, Zhengliang Liu, Wenxiong Liao, Haixing Dai, Zihao Wu, Dajiang Zhu, Hui Ren, Quanzheng Li, Tianming Liu, and Xiang Li(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。 ADは患者の言語理解と表現能力を損なうため、AD患者のスピーチはこの疾患の指標として機能する。 本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。 提案手法は、事前訓練された言語モデルと、音声書き起こしからグラフを構築するグラフニューラルネットワーク(GNN)を含み、AD検出のためにGNNを用いて特徴を抽出する。 同義語置換、GPTベースの拡張器などを含むデータ拡張技術は、小さなデータセットサイズに対処するために用いられた。 音声データも導入され、WavLMモデルは音声特徴抽出に使用された。 これらの機能は様々な方法でテキスト機能と融合した。 最後に、音声の書き起こしを音声に変換し、それを用いて元の音声と対照学習を行うことにより、コントラスト学習アプローチを試みた。 以上の方法で集中的な実験と解析を行った。 音声および音声データを用いたAD検出における課題と潜在的な解決策について検討した。

Alzheimer's disease (AD) is a common form of dementia that severely impacts patient health. As AD impairs the patient's language understanding and expression ability, the speech of AD patients can serve as an indicator of this disease. This study investigates various methods for detecting AD using patients' speech and transcripts data from the DementiaBank Pitt database. The proposed approach involves pre-trained language models and Graph Neural Network (GNN) that constructs a graph from the speech transcript, and extracts features using GNN for AD detection. Data augmentation techniques, including synonym replacement, GPT-based augmenter, and so on, were used to address the small dataset size. Audio data was also introduced, and WavLM model was used to extract audio features. These features were then fused with text features using various methods. Finally, a contrastive learning approach was attempted by converting speech transcripts back to audio and using it for contrastive learning with the original audio. We conducted intensive experiments and analysis on the above methods. Our findings shed light on the challenges and potential solutions in AD detection using speech and audio data.
翻訳日:2023-07-07 16:30:39 公開日:2023-07-05
# 床計画例における計算設計のための拡散モデル

Diffusion Models for Computational Design at the Example of Floor Plans ( http://arxiv.org/abs/2307.02511v1 )

ライセンス: Link先を確認
Joern Ploennigs, Markus Berger(参考訳) 拡散モデルに基づくAI画像生成は、簡単なテキストプロンプトから画像を生成する能力について、近年広く議論されている。 しかし、土木工学の実用化には、与えられた制約のために特定の建設計画を作成する必要がある。 本稿では,これらの拡散型AIジェネレータのフロアプラン例における計算設計能力について検討し,その限界を同定する。 拡散モデルがどのように機能するかを説明し、セマンティックエンコーディングを改善した新しい拡散モデルを提案する。 いくつかの実験では、生成されたフロアプランの有効性を6%から90%に改善し、異なる例に対するクエリ性能を向上できることを示した。 我々は,これらのモデルの短期的発見と今後の研究課題の導出を行い,拡散モデルと構築情報モデリングを組み合わせる必要性について論じる。 これにより、土木工学における拡散モデルの現状と今後の方向性に関する重要な知見を提供する。

AI Image generators based on diffusion models are widely discussed recently for their capability to create images from simple text prompts. But, for practical use in civil engineering they need to be able to create specific construction plans for given constraints. Within this paper we explore the capabilities of those diffusion-based AI generators for computational design at the example of floor plans and identify their current limitation. We explain how the diffusion-models work and propose new diffusion models with improved semantic encoding. In several experiments we show that we can improve validity of generated floor plans from 6% to 90% and query performance for different examples. We identify short comings and derive future research challenges of those models and discuss the need to combine diffusion models with building information modelling. With this we provide key insights into the current state and future directions for diffusion models in civil engineering.
翻訳日:2023-07-07 16:30:20 公開日:2023-07-05
# マージツリー(および永続化図)のwassersteinオートエンコーダ

Wasserstein Auto-Encoders of Merge Trees (and Persistence Diagrams) ( http://arxiv.org/abs/2307.02509v1 )

ライセンス: Link先を確認
Mahieu Pont, Julien Tierny(参考訳) 本稿では,古典的自動エンコーダニューラルネットワークアーキテクチャの新たな拡張であるmt-wae(wasserstein auto-encoding of merge trees)の計算フレームワークを提案する。 ベクトル化データを操作する従来のオートエンコーダとは対照的に,ネットワークの各層で関連する距離空間上のマージツリーを明示的に操作することにより,精度と解釈性が向上した。 我々の新しいニューラルネットワークアプローチは、マージツリーエンコーディングにおける以前の線形試行[65]の非線形一般化と解釈できる。 永続化ダイアグラムにも簡単に拡張できます。 公開アンサンブルに関する大規模な実験は、MT-WAE計算を平均数分のオーダーで行うことで、我々のアルゴリズムの効率を実証している。 マージツリーエンコーディング [65] に関する以前の研究から適応した2つのアプリケーションにおいて,我々の貢献の有用性を示す。 まず、mt-waeをデータ削減に適用し、自動エンコーダの最終層でそれらの座標を簡潔に表現することでマージツリーを確実に圧縮する。 第2に,自動エンコーダの潜伏空間を利用して,アンサンブルデータの視覚的解析を行うことにより,次元の低減を図示する。 我々は2つのペナルティ項を導入し,マージツリー間のワッサースタイン距離とクラスタ間の潜在空間の保存を支援することにより,フレームワークの汎用性を示す。 どちらのアプリケーションでも、定量的実験は我々のフレームワークの関連性を評価する。 最後に、再現性に使用できるC++の実装を提供します。

This paper presents a computational framework for the Wasserstein auto-encoding of merge trees (MT-WAE), a novel extension of the classical auto-encoder neural network architecture to the Wasserstein metric space of merge trees. In contrast to traditional auto-encoders which operate on vectorized data, our formulation explicitly manipulates merge trees on their associated metric space at each layer of the network, resulting in superior accuracy and interpretability. Our novel neural network approach can be interpreted as a non-linear generalization of previous linear attempts [65] at merge tree encoding. It also trivially extends to persistence diagrams. Extensive experiments on public ensembles demonstrate the efficiency of our algorithms, with MT-WAE computations in the orders of minutes on average. We show the utility of our contributions in two applications adapted from previous work on merge tree encoding [65]. First, we apply MT-WAE to data reduction and reliably compress merge trees by concisely representing them with their coordinates in the final layer of our auto-encoder. Second, we document an application to dimensionality reduction, by exploiting the latent space of our auto-encoder, for the visual analysis of ensemble data. We illustrate the versatility of our framework by introducing two penalty terms, to help preserve in the latent space both the Wasserstein distances between merge trees, as well as their clusters. In both applications, quantitative experiments assess the relevance of our framework. Finally, we provide a C++ implementation that can be used for reproducibility.
翻訳日:2023-07-07 16:30:07 公開日:2023-07-05
# 本線自動列車ホーン及びブレーキ性能指標

Mainline Automatic Train Horn and Brake Performance Metric ( http://arxiv.org/abs/2307.02586v1 )

ライセンス: Link先を確認
Rustam Tagiew(参考訳) 本稿では,運転者知覚システムのための主線レール指向性能指標の導入について論じる。 列車の先頭の知覚はいくつかの部分関数に分けられる。 本稿では,障害物検出部分関数の予備サブメトリックを提案する。 著者の知る限りでは、障害物検出に関する他の提案は存在しない。 下位機能に対する一連のサブメトリックは、知覚システムの比較を容易にし、人間の運転性能の測定をガイドするべきである。 これはまた、所定の操作設計領域における所定の知覚系の事故数を標準化した予測にも有用である。 特に、障害物検出サブメトリックの提案のために、プロの読者がフィードバックと量的情報を著者に提供するよう招待される。 フィードバックの分析結果は、後に別々に公開される。

This paper argues for the introduction of a mainline rail-oriented performance metric for driver-replacing on-board perception systems. Perception at the head of a train is divided into several subfunctions. This article presents a preliminary submetric for the obstacle detection subfunction. To the best of the author's knowledge, no other such proposal for obstacle detection exists. A set of submetrics for the subfunctions should facilitate the comparison of perception systems among each other and guide the measurement of human driver performance. It should also be useful for a standardized prediction of the number of accidents for a given perception system in a given operational design domain. In particular, for the proposal of the obstacle detection submetric, the professional readership is invited to provide their feedback and quantitative information to the author. The analysis results of the feedback will be published separately later.
翻訳日:2023-07-07 16:25:04 公開日:2023-07-05
# 可動量子ドットに基づく常・超伝導ナノ構造の電気機械現象

Electromechanical phenomena in normal and superconducting nanostructures based on a movable quantum dot ( http://arxiv.org/abs/2307.02584v1 )

ライセンス: Link先を確認
O.M. Bahrova(参考訳) この論文は、可動量子ドットに基づくメソスコピック系における電気力学的カップリングによって生じる新しい基本現象の研究に費やされている。

The dissertation is devoted to the study of new fundamental phenomena which emerge due to electromechanical coupling in mesoscopic systems based on movable quantum dot.
翻訳日:2023-07-07 16:24:54 公開日:2023-07-05
# マルチモーダル・テンポラル・フュージョン変換器は需要予測に優れている

Multimodal Temporal Fusion Transformers Are Good Product Demand Forecasters ( http://arxiv.org/abs/2307.02578v1 )

ライセンス: Link先を確認
Maarten Sukel, Stevan Rudinac, Marcel Worring(参考訳) マルチモーダル需要予測は, 視覚情報, テキスト情報, コンテキスト情報を用いた製品需要予測を目的とした。 本稿では,畳み込み,グラフベース,トランスベースアーキテクチャを用いたマルチモーダル製品需要予測手法を提案する。 需要予測の伝統的なアプローチは、過去の需要、製品カテゴリ、季節やイベントなどの追加のコンテキスト情報に依存する。 しかし、これらのアプローチにはいくつかの欠点があり、例えばコールドスタート問題により、特定の製品で十分な履歴データが手に入るまで製品需要を予測することが難しくなり、カテゴリーのダイナミクスを適切に扱うことができない。 製品イメージやテキスト記述といったマルチモーダルな情報を取り入れることで,従来のアプローチの欠点に対処し,それを上回ることを目指しています。 大規模実世界のデータセットで実施した実験は,提案手法が幅広い製品に対する需要を効果的に予測することを示している。 本研究で提示されたマルチモーダルパイプラインは,予測の精度と信頼性を高め,製品需要予測におけるマルチモーダル情報活用の可能性を示す。

Multimodal demand forecasting aims at predicting product demand utilizing visual, textual, and contextual information. This paper proposes a method for multimodal product demand forecasting using convolutional, graph-based, and transformer-based architectures. Traditional approaches to demand forecasting rely on historical demand, product categories, and additional contextual information such as seasonality and events. However, these approaches have several shortcomings, such as the cold start problem making it difficult to predict product demand until sufficient historical data is available for a particular product, and their inability to properly deal with category dynamics. By incorporating multimodal information, such as product images and textual descriptions, our architecture aims to address the shortcomings of traditional approaches and outperform them. The experiments conducted on a large real-world dataset show that the proposed approach effectively predicts demand for a wide range of products. The multimodal pipeline presented in this work enhances the accuracy and reliability of the predictions, demonstrating the potential of leveraging multimodal information in product demand forecasting.
翻訳日:2023-07-07 16:24:51 公開日:2023-07-05
# qubo.jl:quadratic unconstrained binary optimizationのためのjuliaエコシステム

QUBO.jl: A Julia Ecosystem for Quadratic Unconstrained Binary Optimization ( http://arxiv.org/abs/2307.02577v1 )

ライセンス: Link先を確認
Pedro Maciel Xavier, Pedro Ripper, Tiago Andrade, Joaquim Dias Garcia, Nelson Maculan, David E. Bernal Neira(参考訳) QUBO.jlは、QUBO(Quadratic Unconstrained Binary Optimization)インスタンスを扱うための、エンドツーエンドのJuliaパッケージである。 本ツールは,標準的な最適化形式がQUBOと等価である多くの物理および物理に着想を得た解法において,簡単な適用のために幅広いJuMP問題を変換することを目的としている。 これらの手法には、量子アニーリング、量子ゲート回路最適化アルゴリズム(量子最適化交互アンサッツ、変分量子固有解法)、コヒーレントイジングマシンやシミュレーション分岐マシンなどのハードウェアアクセラレーションプラットフォーム、さらにシミュレートアニーリングのようなより伝統的な方法が含まれる。 QUBO.jlは、修正作業の他に、上述したハードウェアと対話し、様々なファイルフォーマットでQUBOモデルを送信し、その後の分析結果を取得することができる。 QUBO.jl は JuMP / MathOptInterface (MOI) 層として書かれ、入力フレームと出力フレームを自動的にマッピングし、スムーズなモデリング体験を提供する。

We present QUBO.jl, an end-to-end Julia package for working with QUBO (Quadratic Unconstrained Binary Optimization) instances. This tool aims to convert a broad range of JuMP problems for straightforward application in many physics and physics-inspired solution methods whose standard optimization form is equivalent to the QUBO. These methods include quantum annealing, quantum gate-circuit optimization algorithms (Quantum Optimization Alternating Ansatz, Variational Quantum Eigensolver), other hardware-accelerated platforms, such as Coherent Ising Machines and Simulated Bifurcation Machines, and more traditional methods such as simulated annealing. Besides working with reformulations, QUBO.jl allows its users to interface with the aforementioned hardware, sending QUBO models in various file formats and retrieving results for subsequent analysis. QUBO.jl was written as a JuMP / MathOptInterface (MOI) layer that automatically maps between the input and output frames, thus providing a smooth modeling experience.
翻訳日:2023-07-07 16:24:33 公開日:2023-07-05
# サハラ以南のアフリカにおける既存の土地被覆地図はどの程度正確か?

How accurate are existing land cover maps for agriculture in Sub-Saharan Africa? ( http://arxiv.org/abs/2307.02575v1 )

ライセンス: Link先を確認
Hannah Kerner, Catherine Nakalembe, Adam Yang, Ivan Zvonkov, Ryan McWeeny, Gabriel Tseng, Inbal Becker-Reshef(参考訳) 衛星地球観測(EO)は、作物の状態や食糧生産を評価するための安価でタイムリーな情報を提供することができる。 このような監視システムは、食糧不安全と農業統計の希薄なアフリカでは不可欠である。 EOをベースとしたモニタリングシステムは、作物に関する情報を提供するために正確な作物地図を必要とするが、アフリカ諸国の作物を最も正確に識別する多くの土地被覆地図のうちどれかを特定するためのデータが不足している。 本研究は,8カ国の統計的に厳密な参照データセットを用いて,アフリカの作物分類とeoベースの農業モニタリングに適した土地被覆地図11点の定量的評価と相互比較を提供する。 本研究の結果は,ユーザのニーズに最も適した地図を判断し,地図間の不整合の解消と,低精度領域における精度向上に重点を置いた今後の作業を促進することを期待する。

Satellite Earth observations (EO) can provide affordable and timely information for assessing crop conditions and food production. Such monitoring systems are essential in Africa, where there is high food insecurity and sparse agricultural statistics. EO-based monitoring systems require accurate cropland maps to provide information about croplands, but there is a lack of data to determine which of the many available land cover maps most accurately identify cropland in African countries. This study provides a quantitative evaluation and intercomparison of 11 publicly available land cover maps to assess their suitability for cropland classification and EO-based agriculture monitoring in Africa using statistically rigorous reference datasets from 8 countries. We hope the results of this study will help users determine the most suitable map for their needs and encourage future work to focus on resolving inconsistencies between maps and improving accuracy in low-accuracy regions.
翻訳日:2023-07-07 16:24:10 公開日:2023-07-05
# ストリートビュー画像とOpenStreetMapからの半教師付き学習による建物高さの自動推定

Semi-supervised Learning from Street-View Images and OpenStreetMap for Automatic Building Height Estimation ( http://arxiv.org/abs/2307.02574v1 )

ライセンス: Link先を確認
Hao Li, Zhendong Yuan, Gabriel Dax, Gefei Kong, Hongchao Fan, Alexander Zipf, Martin Werner(参考訳) 大規模地理空間情報(vgi)を用いた3次元都市モデルの自動導出には,正確な建物の高さ推定が重要である。 しかし、低コストなVGIデータに基づく大規模建物の高さ推定のための自動解が現在欠落している。 VGIデータプラットフォーム、特にOpenStreetMap(OSM)とクラウドソースのストリートビューイメージ(SVI)の開発は、この研究ギャップを埋めるための刺激的な機会を提供する。 本研究では,Mapillary SVIとOSMデータから建物の高さを自動的に推定し,低コストでオープンソースの3D都市モデリングをLoD1で生成する半教師付き学習手法を提案する。 The proposed method consists of three parts: first, we propose an SSL schema with the option of setting a different ratio of "pseudo label" during the supervised regression; second, we extract multi-level morphometric features from OSM data (i.e., buildings and streets) for the purposed of inferring building height; last, we design a building floor estimation workflow with a pre-trained facade object detection network to generate "pseudo label" from SVI and assign it to the corresponding OSM building footprint. 本研究では,ドイツハイデルベルク市におけるSSL方式の有効性を検証し,建物の高さの基準データに対してモデル性能を評価する。 ランダムフォレスト(rf)、サポートベクターマシン(svm)、畳み込みニューラルネットワーク(cnn)という3つの異なる回帰モデルに基づいて、ssl法は、平均絶対誤差(mae)約2.1メートルのビルの高さを推定する上で、明確なパフォーマンス向上につながる。 予備的な結果は、低コストなvgiデータに基づいて提案手法をスケールアップする上での今後の取り組みに有望であり、また、さまざまなデータ品質と可用性を備えたリージョンや領域での可能性も期待でき、モチベーションを与えてくれます。

Accurate building height estimation is key to the automatic derivation of 3D city models from emerging big geospatial data, including Volunteered Geographical Information (VGI). However, an automatic solution for large-scale building height estimation based on low-cost VGI data is currently missing. The fast development of VGI data platforms, especially OpenStreetMap (OSM) and crowdsourced street-view images (SVI), offers a stimulating opportunity to fill this research gap. In this work, we propose a semi-supervised learning (SSL) method of automatically estimating building height from Mapillary SVI and OSM data to generate low-cost and open-source 3D city modeling in LoD1. The proposed method consists of three parts: first, we propose an SSL schema with the option of setting a different ratio of "pseudo label" during the supervised regression; second, we extract multi-level morphometric features from OSM data (i.e., buildings and streets) for the purposed of inferring building height; last, we design a building floor estimation workflow with a pre-trained facade object detection network to generate "pseudo label" from SVI and assign it to the corresponding OSM building footprint. In a case study, we validate the proposed SSL method in the city of Heidelberg, Germany and evaluate the model performance against the reference data of building heights. Based on three different regression models, namely Random Forest (RF), Support Vector Machine (SVM), and Convolutional Neural Network (CNN), the SSL method leads to a clear performance boosting in estimating building heights with a Mean Absolute Error (MAE) around 2.1 meters, which is competitive to state-of-the-art approaches. The preliminary result is promising and motivates our future work in scaling up the proposed method based on low-cost VGI data, with possibilities in even regions and areas with diverse data quality and availability.
翻訳日:2023-07-07 16:23:54 公開日:2023-07-05
# 乱数生成器としてのプログラム可能な量子アニーラの解析

Analysis of a Programmable Quantum Annealer as a Random Number Generator ( http://arxiv.org/abs/2307.02573v1 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 量子デバイスは、量子状態の測定が決定論的ではないため、非決定論的に乱数を生成する非常に有用な関数を提供する。 つまり、量子デバイスは、ある一様重ね合わせで量子ビットを生成し、それらの量子ビットの状態を測定することができる。 均一な重ね合わせにおける量子ビットの準備が不偏であれば、量子コンピュータは高エントロピーでセキュアな乱数を生成するのに使うことができる。 通常、そのような量子システムの準備と測定には、本質的に決定論的アルゴリズムである古典的な擬似乱数生成器(PRNG)よりも時間を要する。 したがって、量子乱数生成器(QRNG)の典型的な用途は、PRNGに対して高いエントロピー安全な種子を提供することである。 量子アニーリング(quantum annealing, qa)は、アディアバティック量子計算の緩和形であり、プログラム可能なイジングモデルの基底状態解を探索するために量子揺らぎを用いる量子計算のアナログ型である。 本稿では,従来のD-Wave QA乱数生成器よりも大幅に大きい200億ビット以上のQA測定を行うD-Wave 2000Q量子アニールによる広範囲なランダム数結果について述べる。 現代の量子アニーラーは環境からのノイズや校正誤差に影響を受けやすく、一般に偏りのないサンプリング器ではない。 したがって、ノイズ量子アニールが非バイアスQRNGとして効果的に機能できるかどうかを定量化することは興味深い。 量子アニール器から収集されたデータの量は、NIST SP 800-22 Rev 1aテストスーツを用いてランダムビットの包括的な分析を可能にする。 ランダムネステストは、D-Wave 2000Qから生成されたランダムビットがバイアスを受けており、予測不可能なランダムビットシーケンスではないことを示す。

Quantum devices offer a highly useful function - that is generating random numbers in a non-deterministic way since the measurement of a quantum state is not deterministic. This means that quantum devices can be constructed that generate qubits in some uniform superposition and then measure the state of those qubits. If the preparation of the qubits in a uniform superposition is unbiased, then quantum computers can be used to create high entropy, secure random numbers. Typically, preparing and measuring such quantum systems requires more time compared to classical pseudo random number generators (PRNGs) which are inherently deterministic algorithms. Therefore, the typical use of quantum random number generators (QRNGs) is to provide high entropy secure seeds for PRNGs. Quantum annealing (QA) is an analog type of quantum computation that is a relaxed form of adiabatic quantum computation and uses quantum fluctuations in order to search for ground state solutions of a programmable Ising model. In this article we present extensive experimental random number results from a D-Wave 2000Q quantum annealer, totaling over 20 billion bits of QA measurements, which is significantly larger than previous D-Wave QA random number generator studies have used. Modern quantum annealers are susceptible to noise from environmental sources and calibration errors, and are not in general unbiased samplers. Therefore, it is of interest to quantify whether noisy quantum annealers can effectively function as an unbiased QRNG. The amount of data that was collected from the quantum annealer allows a comprehensive analysis of the random bits to be performed using the NIST SP 800-22 Rev 1a testsuite. The randomness tests show that the generated random bits from the D-Wave 2000Q are biased, and not unpredictable random bit sequences.
翻訳日:2023-07-07 16:23:14 公開日:2023-07-05
# 高次元問題に対する基底適応を用いた条件付きKorhunen-Lo\'{e}ve回帰モデル:不確実量化と逆モデリング

Conditional Korhunen-Lo\'{e}ve regression model with Basis Adaptation for high-dimensional problems: uncertainty quantification and inverse modeling ( http://arxiv.org/abs/2307.02572v1 )

ライセンス: Link先を確認
Yu-Hong Yeung, Ramakrishna Tipireddy, David A. Barajas-Solano, Alexandre M. Tartakovsky(参考訳) 本研究では,不確かさの定量化と高次元問題におけるパラメータ推定への応用を目的として,物理系の可観測応答モデルの精度を向上させる手法を提案する。 実験者は、空間的に不均一なパラメータ場の有限次元表現を、無条件の共分散核の特定の選択に対して、truncated unconditional Karhunen-Lo\'{e}ve expansions (KLEs) を用いて定式化し、KLEの確率変数に対する可観測応答の代理モデルを構築する。 パラメータフィールドの直接測定が可能となると、パラメータフィールドを条件付きKarhunen-Lo\'{e}ve展開(CKLEs)で表現することで、これらのサロゲートモデルの精度を向上させることを提案する。 CKLEは、ガウス過程の回帰による直接測定に基づいて非条件展開の共分散核を条件付け、対応するKLEを切断することによって構成される。 提案手法は,ハンフォード遺跡の地下水流動モデルにおいて空間的に離散的な観測位置で測定された定常水理頭応答の基底適応(BA)法による代理モデルの構築を,モデルの対数伝達場1000次元表現の関数として適用する。 CKLEに基づく油圧ヘッドのBAサロゲートモデルは,前向き不確実性定量化タスクの無条件展開に基づくBAサロゲートモデルよりも精度が高いことがわかった。 さらに, CKLEを用いたBAサロゲートモデルを用いて計算した油圧透過率場の逆推定は, 非条件のBAサロゲートモデルより精度が高いことがわかった。

We propose a methodology for improving the accuracy of surrogate models of the observable response of physical systems as a function of the systems' spatially heterogeneous parameter fields with applications to uncertainty quantification and parameter estimation in high-dimensional problems. Practitioners often formulate finite-dimensional representations of spatially heterogeneous parameter fields using truncated unconditional Karhunen-Lo\'{e}ve expansions (KLEs) for a certain choice of unconditional covariance kernel and construct surrogate models of the observable response with respect to the random variables in the KLE. When direct measurements of the parameter fields are available, we propose improving the accuracy of these surrogate models by representing the parameter fields via conditional Karhunen-Lo\'{e}ve expansions (CKLEs). CKLEs are constructed by conditioning the covariance kernel of the unconditional expansion on the direct measurements via Gaussian process regression and then truncating the corresponding KLE. We apply the proposed methodology to constructing surrogate models via the Basis Adaptation (BA) method of the stationary hydraulic head response, measured at spatially discrete observation locations, of a groundwater flow model of the Hanford Site, as a function of the 1,000-dimensional representation of the model's log-transmissivity field. We find that BA surrogate models of the hydraulic head based on CKLEs are more accurate than BA surrogate models based on unconditional expansions for forward uncertainty quantification tasks. Furthermore, we find that inverse estimates of the hydraulic transmissivity field computed using CKLE-based BA surrogate models are more accurate than those computed using unconditional BA surrogate models.
翻訳日:2023-07-07 16:22:19 公開日:2023-07-05
# 抽象テキスト要約における名前付きエンティティ包含

Named Entity Inclusion in Abstractive Text Summarization ( http://arxiv.org/abs/2307.02570v1 )

ライセンス: Link先を確認
Sergey Berezin, Tatiana Batura(参考訳) 名前付きエンティティの省略 - 現在の多くの抽象的なテキスト要約の欠点に対処します。 テキスト中の名前付きエンティティに対するモデルの注意を高めるために、カスタム事前学習目標を提案する。 まず、名前付きエンティティ認識モデルRoBERTaをトレーニングし、テキスト内の名前付きエンティティを決定する。 その後、このモデルはテキスト内の名前付きエンティティをマスクするために使用され、BARTモデルはそれらを再構築するために訓練される。 次に、BARTモデルを要約タスクに微調整する。 実験の結果、この事前学習手法は、名前付きエンティティ包含精度とリコールメトリックを改善した。

We address the named entity omission - the drawback of many current abstractive text summarizers. We suggest a custom pretraining objective to enhance the model's attention on the named entities in a text. At first, the named entity recognition model RoBERTa is trained to determine named entities in the text. After that, this model is used to mask named entities in the text and the BART model is trained to reconstruct them. Next, the BART model is fine-tuned on the summarization task. Our experiments showed that this pretraining approach improves named entity inclusion precision and recall metrics.
翻訳日:2023-07-07 16:21:43 公開日:2023-07-05
# 因果順序のない相関の非古典性

Nonclassicality in correlations without causal order ( http://arxiv.org/abs/2307.02565v1 )

ライセンス: Link先を確認
Ravi Kunjwal and Ognyan Oreshkov(参考訳) 因果不等式 (causal inequality) は、局所演算によって実現可能な相関に関するデバイス非依存の制約である。 バイパートイトのシナリオにおける因果不等式は、その違反のためにプロセス行列フレームワーク内の非古典的資源を必要とするが、古典的資源に対する違反を認める三部作不等式が存在する。 三部会の事件は、非古典性の証人としての因果不等式違反の状況、すなわち、因果不等式違反に量子効果が一般的に必要であると考える優先的な理由に疑問を呈する。 ここでは、因果不等式を超えた相関関係の古典性-決定論的整合性-の概念を提案する。 相関関係における決定論的整合性の失敗を、非古典性の概念として機能する反理性と呼ぶ。 決定論的整合性はベルの不等式(非シグナリング相関の非古典性の証人として機能する)の適切な一般化を慎重に検討することによる。 これは自然に、局所隠れ変数モデルの適切な類似物としてのプロセス行列フレームワークの古典的な決定論的極限をもたらす。 次に、古典から最も非古典的までの相関の集合の階層を定義し、それらの間の厳密な包含を証明する。 また,「反ノミーのロバストネス」と呼ばれる相関関係のアンチノミリティの尺度を提案し,この枠組みを二部的および三部的シナリオに適用する。 この作品の重要な貢献は、ギス・ユア・ニーバーの入力(GYNI)ゲーム(Guess Your Neighbour's Input、GYNIN)の修正にインスパイアされた、因果不平等を超えた明示的な非古典的な目撃者である。

Causal inequalities are device-independent constraints on correlations realizable via local operations under the assumption of definite causal order between these operations. While causal inequalities in the bipartite scenario require nonclassical resources within the process-matrix framework for their violation, there exist tripartite causal inequalities that admit violations with classical resources. The tripartite case puts into question the status of a causal inequality violation as a witness of nonclassicality, i.e., there is no a priori reason to believe that quantum effects are in general necessary for a causal inequality violation. Here we propose a notion of classicality for correlations--termed deterministic consistency--that goes beyond causal inequalities. We refer to the failure of deterministic consistency for a correlation as its antinomicity, which serves as our notion of nonclassicality. Deterministic consistency is motivated by a careful consideration of the appropriate generalization of Bell inequalities--which serve as witnesses of nonclassicality for non-signalling correlations--to the case of correlations without any non-signalling constraints. This naturally leads us to the classical deterministic limit of the process matrix framework as the appropriate analogue of a local hidden variable model. We then define a hierarchy of sets of correlations--from the classical to the most nonclassical--and prove strict inclusions between them. We also propose a measure for the antinomicity of correlations--termed 'robustness of antinomy'--and apply our framework in bipartite and tripartite scenarios. A key contribution of this work is an explicit nonclassicality witness that goes beyond causal inequalities, inspired by a modification of the Guess Your Neighbour's Input (GYNI) game that we term the Guess Your Neighbour's Input or NOT (GYNIN) game.
翻訳日:2023-07-07 16:21:25 公開日:2023-07-05
# Federated Epidemic Surveillance

Federated Epidemic Surveillance ( http://arxiv.org/abs/2307.02616v1 )

ライセンス: Link先を確認
Ruiqi Lyu, Bryan Wilder, Roni Rosenfeld(参考訳) 特に重要なデータが分散され、利害関係者が共有を望まない場合、パンデミックの監視は困難なタスクである。 この障害を克服するために、フェデレーションされた方法論は、エンティティが提供しようとするより繊細な証拠を組み込むために開発されるべきである。 本研究は,各カストディアンファイアウォールの背後で仮説テストをプッシュし,その結果を組み合わせてメタアナリシスを行い,仮説テストの再構築と推論の最適化に最適なアプローチを決定することを目的とした。 提案する仮説テストの特性を示すために,指標のサージを同定し,実および半合成データに対するパワー解析および実験を行うための仮説テストフレームワークを提案し,$p$-valuesを組み合わせるための適切な方法を提案する。 以上の結果から,パンデミック監視のためのフェデレーション手法として$p$-valueの組み合わせを用いることで,利用可能なデータソースの統合に関する貴重な洞察を提供する可能性が示唆された。

The surveillance of a pandemic is a challenging task, especially when crucial data is distributed and stakeholders cannot or are unwilling to share. To overcome this obstacle, federated methodologies should be developed to incorporate less sensitive evidence that entities are willing to provide. This study aims to explore the feasibility of pushing hypothesis tests behind each custodian's firewall and then meta-analysis to combine the results, and to determine the optimal approach for reconstructing the hypothesis test and optimizing the inference. We propose a hypothesis testing framework to identify a surge in the indicators and conduct power analyses and experiments on real and semi-synthetic data to showcase the properties of our proposed hypothesis test and suggest suitable methods for combining $p$-values. Our findings highlight the potential of using $p$-value combination as a federated methodology for pandemic surveillance and provide valuable insights into integrating available data sources.
翻訳日:2023-07-07 16:13:35 公開日:2023-07-05
# 単語獲得のための人間インスピレーションによる進行的アライメントと比較学習

Human Inspired Progressive Alignment and Comparative Learning for Grounded Word Acquisition ( http://arxiv.org/abs/2307.02615v1 )

ライセンス: Link先を確認
Yuwei Bao, Barrett Martin Lattimer, Joyce Chai(参考訳) 人間の言語習得は効率的で、監督され、継続的なプロセスである。 本研究では,人間の赤ちゃんが最初の言語を習得する方法からインスピレーションを得て,比較学習による単語獲得のための計算プロセスを開発した。 認知的発見に動機づけられ、計算モデルが様々な属性の類似性と差異を比較し、各共有言語ラベルの共通情報をフィルタリングし抽出することのできる、小さなデータセットを作成した。 我々は,単語の獲得を情報フィルタリングプロセスだけでなく,表現記号マッピングとして捉える。 この手順は、一定の語彙サイズや識別目的を伴わず、モデルがより効率的により多くの概念を学習できるようにする。 制御実験で得られた結果から, 接地単語の効率的な連続学習の可能性が示唆された。

Human language acquisition is an efficient, supervised, and continual process. In this work, we took inspiration from how human babies acquire their first language, and developed a computational process for word acquisition through comparative learning. Motivated by cognitive findings, we generated a small dataset that enables the computation models to compare the similarities and differences of various attributes, learn to filter out and extract the common information for each shared linguistic label. We frame the acquisition of words as not only the information filtration process, but also as representation-symbol mapping. This procedure does not involve a fixed vocabulary size, nor a discriminative objective, and allows the models to continually learn more concepts efficiently. Our results in controlled experiments have shown the potential of this approach for efficient continual learning of grounded words.
翻訳日:2023-07-07 16:13:18 公開日:2023-07-05
# ハイブリッド量子古典系:準自由マルコフ力学

Hybrid quantum-classical systems: Quasi-free Markovian dynamics ( http://arxiv.org/abs/2307.02611v1 )

ライセンス: Link先を確認
Alberto Barchielli and Reinhard Werner(参考訳) 有限自由度を持つ量子古典ハイブリッド系の場合、最も一般的な動的半群を特徴づける問題は「準自由」の制限の下で解決される。 これはガウス力学の一般化であり、ハイゼンベルク記述において(ハイブリッド)ワイル作用素をワイル作用素に送る性質によって定義される。 結果は L'evy-Khintchine の公式の量子一般化であり、ガウスとジャンプの寄与を含んでいる。 副産物として、最も一般的なハイブリッド量子力学半群が得られ、古典的にはリウヴィル方程式とコルモゴロフ-フォッカー-プランク方程式が含まれる。 古典的サブシステムは、原則として、摂動することなく観測することができるので、連続時間においても量子系から情報を抽出することができる。 動力学は、一般時間 t におけるハイブリッド状態を与えるように定式化されているが、多重時間確率の抽出方法と、それらを正の演算子値測度および計測器の量子概念と接続する方法を示す。 力学半群の生成器の構造を解析し、非準自由ケースへの展開方法を理解し、可能な古典量子相互作用を理解するために、特に、量子系から情報を抽出することを可能にするすべての相互作用項は、量子成分のダイナミクスに散逸が存在しない場合、必然的に消滅する。 古典的成分が量子的成分にノイズを入力し、古典的システムが量子的成分の振る舞いに関する情報を抽出する方法を示す具体的な例が与えられる。

In the case of a quantum-classical hybrid system with a finite number of degrees of freedom, the problem of characterizing the most general dynamical semigroup is solved, under the restriction of being "quasi-free". This is a generalization of a Gaussian dynamics, and it is defined by the property of sending (hybrid) Weyl operators into Weyl operators in the Heisenberg description. The result is a quantum generalization of the L\'evy-Khintchine formula; Gaussian and jump contributions are included. As a byproduct, the most general hybrid quantum-dynamical semigroup is obtained; on the classical side the Liouville equation and the Kolmogorov-Fokker-Planck equation are included. As a classical subsystem can be, in principle, observed without perturbing it, information can be extracted from the quantum system, even in continuous time; indeed, the whole construction is related to the theory of quantum measurements in continuous time. While the dynamics is formulated to give the hybrid state at a generic time t, we show how to extract multi-time probabilities and how to connect them to the quantum notions of positive operator valued measure and instrument. The structure of the generator of the dynamical semigroup is analyzed, in order to understand how to go on to non quasi-free cases and to understand the possible classical-quantum interactions; in particular, all the interaction terms which allow to extract information from the quantum system necessarily vanish if no dissipation is present in the dynamics of the quantum component. A concrete example is given, showing how a classical component can input noise into a quantum one and how the classical system can extract information on the behaviour of the quantum one.
翻訳日:2023-07-07 16:13:05 公開日:2023-07-05
# MRecGen:マルチモーダル適切な反応発生装置

MRecGen: Multimodal Appropriate Reaction Generator ( http://arxiv.org/abs/2307.02609v1 )

ライセンス: Link先を確認
Jiaqi Xu, Cheng Luo, Weicheng Xie, Linlin Shen, Xiaofeng Liu, Lu Liu, Hatice Gunes, Siyang Song(参考訳) 言語的および非言語的人間の反応生成は、同じ行動に反応するのに異なる反応が適しているため、困難なタスクである。 本稿では、入力されたユーザの行動に応じて、適切かつ現実的なヒューマンスタイルの反応(同期テキスト、オーディオ、ビデオストリーム形式で表示)を生成できる、最初の多重およびマルチモーダル(言語的および非言語的)な人間反応生成フレームワークを提案する。 この手法は、適切な仮想エージェント/ロボット動作を生成することにより、様々な人間とコンピュータの相互作用シナリオに適用することができる。 デモは \url{https://github.com/ssysteve/mrecgen}で公開しています。

Verbal and non-verbal human reaction generation is a challenging task, as different reactions could be appropriate for responding to the same behaviour. This paper proposes the first multiple and multimodal (verbal and nonverbal) appropriate human reaction generation framework that can generate appropriate and realistic human-style reactions (displayed in the form of synchronised text, audio and video streams) in response to an input user behaviour. This novel technique can be applied to various human-computer interaction scenarios by generating appropriate virtual agent/robot behaviours. Our demo is available at \url{https://github.com/SSYSteve/MRecGen}.
翻訳日:2023-07-07 16:12:36 公開日:2023-07-05
# 単一空間を用いたEvade ChatGPT検出器

Evade ChatGPT Detectors via A Single Space ( http://arxiv.org/abs/2307.02599v1 )

ライセンス: Link先を確認
Shuyang Cai and Wanyun Cui(参考訳) ChatGPTは革命的な社会的価値をもたらすが、AI生成コンテンツの誤用も懸念する。 その結果、ChatGPTによってコンテンツが生成されるか、人間によって生成されるかが重要な疑問である。 既存の検出器は、人間生成コンテンツとAI生成コンテンツの間に分散的なギャップがあるという仮定に基づいて構築されている。 これらのギャップは一般に統計情報や分類器を用いて識別される。 我々の研究は検出器における分布ギャップの仮定に挑戦する。 検知器は人間生成コンテンツとAI生成コンテンツのセマンティックスとスタイリスティックなギャップを効果的に識別できない。 代わりに、余剰空間のような「部分差」が検出に不可欠となる。 この発見に基づいて,検出を回避するSpaceInfi戦略を提案する。 実験では、複数のベンチマークと検出器でこの戦略の有効性を示す。 また,spaceinfiが過度検出の回避に成功している理由を理論的に説明する。 より応用性の高いChatGPT検出器の理解と構築のための新たな知見と課題を提供する。

ChatGPT brings revolutionary social value but also raises concerns about the misuse of AI-generated content. Consequently, an important question is how to detect whether content is generated by ChatGPT or by human. Existing detectors are built upon the assumption that there are distributional gaps between human-generated and AI-generated content. These gaps are typically identified using statistical information or classifiers. Our research challenges the distributional gap assumption in detectors. We find that detectors do not effectively discriminate the semantic and stylistic gaps between human-generated and AI-generated content. Instead, the "subtle differences", such as an extra space, become crucial for detection. Based on this discovery, we propose the SpaceInfi strategy to evade detection. Experiments demonstrate the effectiveness of this strategy across multiple benchmarks and detectors. We also provide a theoretical explanation for why SpaceInfi is successful in evading perplexity-based detection. Our findings offer new insights and challenges for understanding and constructing more applicable ChatGPT detectors.
翻訳日:2023-07-07 16:12:24 公開日:2023-07-05
# 潜在変数同定のための付加デコーダと直交生成物外挿

Additive Decoders for Latent Variables Identification and Cartesian-Product Extrapolation ( http://arxiv.org/abs/2307.02598v1 )

ライセンス: Link先を確認
S\'ebastien Lachapelle, Divyat Mahajan, Ioannis Mitliagkas, Simon Lacoste-Julien(参考訳) 表現学習における潜時変数識別と「サポート外」画像生成の問題に対処する。 オブジェクト中心表現学習(OCRL)に使用されるデコーダを連想させる加法体と呼ばれるデコーダのクラスでは,どちらも可能であり,オブジェクト固有画像の和として分解できる画像に適していることを示す。 我々は,加法デコーダを用いた再構成問題を正確に解く条件を提供し,置換や可逆変換に至るまでの潜在変数のブロックを同定する。 この保証は潜在因子の分布に関する非常に弱い仮定にのみ依存するが、これは統計的依存関係を示し、ほぼ任意に形づくった支持を持つ可能性がある。 その結果、非線形独立成分分析(ica)が可能となる新しい設定を提供し、ocrl法の理論的理解を付加する。 また,加法デコーダは,変化の観測された因子を新しい方法で再結合することにより,新たな画像を生成することができることを理論的に示す。 擬似データに対する識別可能性と外挿性の両方に添加性が重要であることを実証的に示す。

We tackle the problems of latent variables identification and "out-of-support" image generation in representation learning. We show that both are possible for a class of decoders that we call additive, which are reminiscent of decoders used for object-centric representation learning (OCRL) and well suited for images that can be decomposed as a sum of object-specific images. We provide conditions under which exactly solving the reconstruction problem using an additive decoder is guaranteed to identify the blocks of latent variables up to permutation and block-wise invertible transformations. This guarantee relies only on very weak assumptions about the distribution of the latent factors, which might present statistical dependencies and have an almost arbitrarily shaped support. Our result provides a new setting where nonlinear independent component analysis (ICA) is possible and adds to our theoretical understanding of OCRL methods. We also show theoretically that additive decoders can generate novel images by recombining observed factors of variations in novel ways, an ability we refer to as Cartesian-product extrapolation. We show empirically that additivity is crucial for both identifiability and extrapolation on simulated data.
翻訳日:2023-07-07 16:12:11 公開日:2023-07-05
# ニューロモルフィックイメージングのためのgnepに基づく動的セグメンテーションと運動推定

GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging ( http://arxiv.org/abs/2307.02595v1 )

ライセンス: Link先を確認
Harbir Antil and David Sayre(参考訳) 本稿では,画像分割と動き推定の領域におけるイベントベースカメラの応用について検討する。 これらのカメラは、従来のフレームベースの画像取得から離れ、非同期イベントの連続ストリームとして視覚情報をキャプチャすることで、画期的な技術を提供する。 イベントストリームから得られる時間的・空間的情報を利用してセグメント化と速度推定を行う一般化ナッシュ平衡に基づくフレームワークを提案する。 理論的基礎を確立するために, 存在条件を導出し, 平衡計算のための多レベル最適化法を提案する。 このアプローチの有効性は、一連の実験を通じて示される。

This paper explores the application of event-based cameras in the domains of image segmentation and motion estimation. These cameras offer a groundbreaking technology by capturing visual information as a continuous stream of asynchronous events, departing from the conventional frame-based image acquisition. We introduce a Generalized Nash Equilibrium based framework that leverages the temporal and spatial information derived from the event stream to carry out segmentation and velocity estimation. To establish the theoretical foundations, we derive an existence criteria and propose a multi-level optimization method for calculating equilibrium. The efficacy of this approach is shown through a series of experiments.
翻訳日:2023-07-07 16:11:50 公開日:2023-07-05
# 相対論的量子場理論における熱化状態の重ね合わせ

Superpositions of thermalisation states in relativistic quantum field theory ( http://arxiv.org/abs/2307.02593v1 )

ライセンス: Link先を確認
Joshua Foo and Magdalena Zych(参考訳) 相対論的量子情報と量子熱力学の最近の結果は、量子状態において、同じ単一熱化チャネルの量子制御された適用を受けると、システムが熱化に失敗することを独立に示した。 例えば、一定の固有加速度を持つ加速系は、unruh温度として知られる加速度依存温度に熱する。 しかし、同じ適切な加速を共有する空間変換軌道の重畳における同じ系は熱分解に失敗する。 ここでは、相対論的非慣性参照フレームにおける量子場理論の枠組みを用いて、これらの結果を説明する。 空間的変換の重ね合わせで加速するプローブが、不測のフィールドモードの集合とどのように相互作用するかを示す。 モードが直交する特別な場合(例えば、リンドラーのくさびが運動平面に直交する方向に変換される場合)、熱化は実際に結果をもたらし、ここで与えられた説明を裏付ける。 次に、この記述が量子制御熱化による温度の量子的側面を研究するための情報理論的なアプローチとどのように関係するかについて議論する。 本研究は、量子情報、相対論的物理学、および量子熱力学の研究の間の関係を描き、特に相対論的量子効果が量子熱力学シナリオの自然な実現をもたらすことを示す。

Recent results in relativistic quantum information and quantum thermodynamics have independently shown that in the quantum regime, a system may fail to thermalise when subject to quantum-controlled application of the same, single thermalisation channel. For example, an accelerating system with fixed proper acceleration is known to thermalise to an acceleration-dependent temperature, known as the Unruh temperature. However, the same system in a superposition of spatially translated trajectories that share the same proper acceleration fails to thermalise. Here, we provide an explanation of these results using the framework of quantum field theory in relativistic noninertial reference frames. We show how a probe that accelerates in a superposition of spatial translations interacts with incommensurate sets of field modes. In special cases where the modes are orthogonal (for example, when the Rindler wedges are translated in a direction orthogonal to the plane of motion), thermalisation does indeed result, corroborating the here provided explanation. We then discuss how this description relates to an information-theoretic approach aimed at studying quantum aspects of temperature through quantum-controlled thermalisations. The present work draws a connection between research in quantum information, relativistic physics, and quantum thermodynamics, in particular showing that relativistic quantum effects can provide a natural realisation of quantum thermodynamical scenarios.
翻訳日:2023-07-07 16:11:40 公開日:2023-07-05
# ODD: NLPに基づくオピオイド関連異常検出のためのベンチマークデータセット

ODD: A Benchmark Dataset for the NLP-based Opioid Related Aberrant Behavior Detection ( http://arxiv.org/abs/2307.02591v1 )

ライセンス: Link先を確認
Sunjae Kwon, Xun Wang, Weisong Liu, Emily Druhl, Minhee L. Sung, Joel I. Reisman, Wenjun Li, Robert D. Kerns, William Becker, Hong Yu(参考訳) オピオイド関連異常行動(ORAB)はオピオイド過剰摂取の新しい危険因子である。 これまで、オラブは主に調査の結果と薬物投与の監視によって評価されてきた。 しかし、そのような方法はスケールアップできず、異常な行動のスペクトル全体をカバーできない。 一方、ORABは電子健康記録に広く記録されている。 本稿では,ORAB 検出データセットのためのバイオメディカル自然言語処理ベンチマークである ODD を提案する。 ODDは、750以上の公開EHRノートからなるエキスパートアノテーション付きデータセットである。 ODDは患者のEHRノートからORABを識別し、それらを9つのカテゴリに分類するように設計されている。 1)確認された異常行動 2)異常行為を示唆する。 3)オピオイド, 4) 表示。 5)オピオイド依存性の診断。 6)ベンゾジアゼピン。 7) 薬効の変化。 8)中枢神経系関連、及び 9) 健康の社会的決定要因。 orabを識別するために,2つの最先端自然言語処理モデル(事前学習言語モデルとプロンプトチューニングアプローチ)を検討した。 実験の結果, 早期調整モデルでは, ほとんどのカテゴリーでファインチューニングモデルよりも優れており, 特に異常なカテゴリー(推奨異常行動, 診断オピオイド依存性, メディケーション変化)では上昇率が高かった。 最良のモデルは精密リコール曲線下の領域において83.92\%の最高値を達成したが、稀なクラス(異常行動、オピオイド依存の診断、薬物変化)は依然として性能改善の余地が大きい。

Opioid related aberrant behaviors (ORAB) present novel risk factors for opioid overdose. Previously, ORAB have been mainly assessed by survey results and by monitoring drug administrations. Such methods however, cannot scale up and do not cover the entire spectrum of aberrant behaviors. On the other hand, ORAB are widely documented in electronic health record notes. This paper introduces a novel biomedical natural language processing benchmark dataset named ODD, for ORAB Detection Dataset. ODD is an expert-annotated dataset comprising of more than 750 publicly available EHR notes. ODD has been designed to identify ORAB from patients' EHR notes and classify them into nine categories; 1) Confirmed Aberrant Behavior, 2) Suggested Aberrant Behavior, 3) Opioids, 4) Indication, 5) Diagnosed opioid dependency, 6) Benzodiapines, 7) Medication Changes, 8) Central Nervous System-related, and 9) Social Determinants of Health. We explored two state-of-the-art natural language processing (NLP) models (finetuning pretrained language models and prompt-tuning approaches) to identify ORAB. Experimental results show that the prompt-tuning models outperformed the finetuning models in most cateogories and the gains were especially higher among uncommon categories (Suggested aberrant behavior, Diagnosed opioid dependency and Medication change). Although the best model achieved the highest 83.92\% on area under precision recall curve, uncommon classes (Suggested Aberrant Behavior, Diagnosed Opioid Dependence, and Medication Change) still have a large room for performance improvement.
翻訳日:2023-07-07 16:11:18 公開日:2023-07-05
# transformerg2g:transformerを用いた時間グラフ埋め込み学習のための適応時間ステップ

TransformerG2G: Adaptive time-stepping for learning temporal graph embeddings using transformers ( http://arxiv.org/abs/2307.02588v1 )

ライセンス: Link先を確認
Alan John Varghese, Aniruddha Bora, Mengjia Xu, George Em Karniadakis(参考訳) 動的グラフ埋め込みは、様々なアプリケーションにおける多様な時間グラフ解析タスク(リンク予測、ノード分類、レコメンダシステム、異常検出、グラフ生成など)に対処するための非常に効果的な手法として登場した。 このような時間グラフは異質な過渡的ダイナミクス、時間間隔の変化、その進化を通して高度に進化するノードの特徴を示す。 したがって、歴史的グラフコンテキストからの長距離依存関係を組み込むことは、時間的ダイナミクスを正確に学習する上で重要な役割を果たす。 本稿では,不確かさを定量化したグラフ埋め込みモデルtransformerg2gを開発した。これは,先進的なトランスフォーマーエンコーダを利用して,現在の状態 (t$) と以前の状況 (タイムスタンプ [$t-1, t-l$], $l$ is the length of context) から中間ノード表現を学習する。 さらに、2つの射影層を用いて低次元多変量ガウス分布を生成し、各ノードの潜伏埋め込みをtimetamp$t$で行う。 茶のプロットで測定した「ノベルティ」のレベルが異なる多様なベンチマークについて考察する。 提案したTransformerG2Gモデルは, リンク予測精度と計算効率の両面から, 従来の多段階法と先行研究(DynG2G)より優れていることを示す。 さらに、複数のグラフスナップショットにまたがる学習時間依存の注意重みは、変換器によって実現された自動適応時間ステップの開発を明らかにする。 注意重みを調べることで、時間的依存関係を解明し、影響力のある要素を特定し、グラフ構造内の複雑な相互作用についての洞察を得ることができる。 例えば,グラフトポロジー進化の様々な段階において,注意重みとノード次数との間に強い相関関係を見出した。

Dynamic graph embedding has emerged as a very effective technique for addressing diverse temporal graph analytic tasks (i.e., link prediction, node classification, recommender systems, anomaly detection, and graph generation) in various applications. Such temporal graphs exhibit heterogeneous transient dynamics, varying time intervals, and highly evolving node features throughout their evolution. Hence, incorporating long-range dependencies from the historical graph context plays a crucial role in accurately learning their temporal dynamics. In this paper, we develop a graph embedding model with uncertainty quantification, TransformerG2G, by exploiting the advanced transformer encoder to first learn intermediate node representations from its current state ($t$) and previous context (over timestamps [$t-1, t-l$], $l$ is the length of context). Moreover, we employ two projection layers to generate lower-dimensional multivariate Gaussian distributions as each node's latent embedding at timestamp $t$. We consider diverse benchmarks with varying levels of ``novelty" as measured by the TEA plots. Our experiments demonstrate that the proposed TransformerG2G model outperforms conventional multi-step methods and our prior work (DynG2G) in terms of both link prediction accuracy and computational efficiency, especially for high degree of novelty. Furthermore, the learned time-dependent attention weights across multiple graph snapshots reveal the development of an automatic adaptive time stepping enabled by the transformer. Importantly, by examining the attention weights, we can uncover temporal dependencies, identify influential elements, and gain insights into the complex interactions within the graph structure. For example, we identified a strong correlation between attention weights and node degree at the various stages of the graph topology evolution.
翻訳日:2023-07-07 16:10:51 公開日:2023-07-05
# フロッケハミルトニアンのランダムマトリックスアンサンブルにおけるエネルギー移動

Energy Transfer in Random-Matrix ensembles of Floquet Hamiltonians ( http://arxiv.org/abs/2307.02639v1 )

ライセンス: Link先を確認
Christina Psaroudaki, Gil Refael(参考訳) 二重駆動ランダムマトリクス・フロケハミルトニアンのアンサンブルにおけるエネルギー移動の統計的性質を普遍対称性の議論に基づいて検討する。 エネルギーポンプ効率分布P(E)は、ハミルトンパラメータアンサンブルとフロケ作用素の固有値統計に関連付けられている。 特定のハミルトニアンのアンサンブルに対して、p(e) は瞬時ハミルトニアンの対称性の破れとは関係のない遷移をとる。 フロッケ固有値スペーシング分布は、一般的な非可積分ハミルトニアン族を構成すると考えられるアンサンブルを示している。 ハミルトン工学へのステップとして,相対パラメータの重要性を理解する機械学習分類器を開発し,高い変換効率を実現する。 本研究では, 断熱ポンプ以外の新しい汎用力学過程における周波数変換効果の一般的な枠組みとしてランダム・フロッケ・ハミルトニアンを提案する。

We explore the statistical properties of energy transfer in ensembles of doubly-driven Random- Matrix Floquet Hamiltonians, based on universal symmetry arguments. The energy pumping efficiency distribution P(E) is associated with the Hamiltonian parameter ensemble and the eigenvalue statistics of the Floquet operator. For specific Hamiltonian ensembles, P(E) undergoes a transition that cannot be associated with a symmetry breaking of the instantaneous Hamiltonian. The Floquet eigenvalue spacing distribution indicates the considered ensembles constitute generic nonintegrable Hamiltonian families. As a step towards Hamiltonian engineering, we develop a machine-learning classifier to understand the relative parameter importance in resulting high conversion efficiency. We propose Random Floquet Hamiltonians as a general framework to investigate frequency conversion effects in a new class of generic dynamical processes beyond adiabatic pumps.
翻訳日:2023-07-07 16:05:00 公開日:2023-07-05
# Surge Routing: 自律ライダーのためのイベントインフォームドマルチエージェント強化学習

Surge Routing: Event-informed Multiagent Reinforcement Learning for Autonomous Rideshare ( http://arxiv.org/abs/2307.02637v1 )

ライセンス: Link先を確認
Daniel Garces and Stephanie Gil(参考訳) カンファレンス、コンサート、スポーツゲームのような大規模なイベントは、平均的な需要パターンで捉えられていない乗車サービスの需要が急増し、ルーティングアルゴリズムに固有の課題を生じさせる。 本稿では,インターネットからイベントデータを抽出して需要の急増を予測・適応し,他のルーティングプロトコルよりも多くの要求を処理する協調的なルーティングおよびピックアップポリシを生成する,自律型タクシー群のための学習フレームワークを提案する。 私たちはこれを組み合わせて達成し (i)インターネットをスクレイピングしてイベント情報を生成し、需要を予測するニューラルネットワークの入力機能として使用できる密集したベクトル表現を生成するイベント処理フレームワーク (ii)これらの濃密なベクトル表現を用いて、地図全体の時間需要を予測する2つのニューラルネットワークシステム (三)地域住民のスケジュールを利用して、公共の需要データを道路交差点の離散化にマッピングする確率的アプローチ、及び、最後に、 (4) モデルに基づく拡張学習フレームワークで, 分岐点の予測需要を利用して, サンプリング確度に制限のあるワンエージェント・アット・ア・タイム・ロールアウトを用いて, 急上昇・ルートタクシーを予想する。 2022年のニューヨークでの実際のライドシェアデータと、マンハッタンの300のユニークな会場で2000以上のイベントに関する情報を使って、ルーティングとピックアップのポリシーを学びます。 私たちは、38の異なるセクタ(2235の交差点)の地図上で、100台のタクシーでこのアプローチをテストします。 実験結果から,本手法は1分あたり平均6ドル以上の要求(1時間あたり約360ドル)を提供するルーティングポリシが,サージ需要条件を扱う運用研究において,他のモデルベースのrlフレームワークや他の古典的アルゴリズムよりも優れていることを示した。

Large events such as conferences, concerts and sports games, often cause surges in demand for ride services that are not captured in average demand patterns, posing unique challenges for routing algorithms. We propose a learning framework for an autonomous fleet of taxis that scrapes event data from the internet to predict and adapt to surges in demand and generates cooperative routing and pickup policies that service a higher number of requests than other routing protocols. We achieve this through a combination of (i) an event processing framework that scrapes the internet for event information and generates dense vector representations that can be used as input features for a neural network that predicts demand; (ii) a two neural network system that predicts hourly demand over the entire map, using these dense vector representations; (iii) a probabilistic approach that leverages locale occupancy schedules to map publicly available demand data over sectors to discretized street intersections; and finally, (iv) a scalable model-based reinforcement learning framework that uses the predicted demand over intersections to anticipate surges and route taxis using one-agent-at-a-time rollout with limited sampling certainty equivalence. We learn routing and pickup policies using real NYC ride share data for 2022 and information for more than 2000 events across 300 unique venues in Manhattan. We test our approach with a fleet of 100 taxis on a map with 38 different sectors (2235 street intersections). Our experimental results demonstrate that our method obtains routing policies that service $6$ more requests on average per minute (around $360$ more requests per hour) than other model-based RL frameworks and other classical algorithms in operations research when dealing with surge demand conditions.
翻訳日:2023-07-07 16:04:45 公開日:2023-07-05
# neural schr\"odinger forgingに基づくハイブリッド基底状態量子アルゴリズム

Hybrid Ground-State Quantum Algorithms based on Neural Schr\"odinger Forging ( http://arxiv.org/abs/2307.02633v1 )

ライセンス: Link先を確認
Paulin de Schoulepnikoff, Oriel Kiss, Sofia Vallecorsa, Giuseppe Carleo and Michele Grossi(参考訳) エンタングルメント鍛造ベースの変分アルゴリズムは、基底状態問題に対処するために量子システムの二分割を利用する。 これらのアプローチの主な制限は、システム全体のシュミット分解を実行する際に、多くのポテンシャル基底状態、またはビットストリングに必要となる指数的な和である。 この課題を克服するために,生成型ニューラルネットワークを用いたエンタングルメント鍛造法を提案する。 複雑性が増大するシステムの実証実験を通じて,提案アルゴリズムは,既存のエンタングルメント鍛造の標準実装と比較して,同等あるいは優れた性能を実現することを示す。 さらに、必要なリソースの量を制御することによって、後者の制約がハイゼンベルク鍛造手順と関連付けられているような非置換不変系と同様に、このスキームをより大きく適用することができる。 本研究では, 1次元リング, 2次元三角格子トポロジー, 核殻モデル構成を示すスピンモデルを用いて数値シミュレーションを行った。

Entanglement forging based variational algorithms leverage the bi-partition of quantum systems for addressing ground state problems. The primary limitation of these approaches lies in the exponential summation required over the numerous potential basis states, or bitstrings, when performing the Schmidt decomposition of the whole system. To overcome this challenge, we propose a new method for entanglement forging employing generative neural networks to identify the most pertinent bitstrings, eliminating the need for the exponential sum. Through empirical demonstrations on systems of increasing complexity, we show that the proposed algorithm achieves comparable or superior performance compared to the existing standard implementation of entanglement forging. Moreover, by controlling the amount of required resources, this scheme can be applied to larger, as well as non permutation invariant systems, where the latter constraint is associated with the Heisenberg forging procedure. We substantiate our findings through numerical simulations conducted on spins models exhibiting one-dimensional ring, two-dimensional triangular lattice topologies, and nuclear shell model configurations.
翻訳日:2023-07-07 16:04:14 公開日:2023-07-05
# デザインと最適化によるQ-Learningの安定性

Stability of Q-Learning Through Design and Optimism ( http://arxiv.org/abs/2307.02632v1 )

ライセンス: Link先を確認
Sean Meyn(参考訳) q-learningは1980年代にchris watkinsの論文で紹介されて以来、強化学習ツールキットの重要な部分となっている。 本論文の目的は,2023年6月にナンシー・フランスで発表されたINFORMS APS inaugural Applied Probability Trust Plenary Lectureに関する,確率近似とQ-ラーニングに関するチュートリアルである。 また,これらのアルゴリズムの安定性を確保するための新しい手法と,他の設定での確率近似を提案する。 1. 線形関数近似を用いたQ-ラーニングの安定性は、30年以上にわたって研究のトピックとして公開されてきた。 修正ギブスポリシーの形で適切な楽観的なトレーニングを行うことで、予想されるベルマン方程式の解が存在し、アルゴリズムは(有界パラメータ推定の観点から)安定であることを示す。 コンバージェンスは研究のための多くのオープンなトピックの1つだ。 2. 新しいzap zeroアルゴリズムは、行列反転を伴わないニュートン-ラフソン流を近似するように設計されている。 アルゴリズムの平均フローベクトル場に対する軽度の仮定の下で安定で収束し、基礎となるマルコフ連鎖上の互換性のある統計的仮定である。 このアルゴリズムは確率近似に対する一般的なアプローチであり、特に非線形関数近似においても「oblivious」トレーニングを伴うQ-ラーニングに適用できる。

Q-learning has become an important part of the reinforcement learning toolkit since its introduction in the dissertation of Chris Watkins in the 1980s. The purpose of this paper is in part a tutorial on stochastic approximation and Q-learning, providing details regarding the INFORMS APS inaugural Applied Probability Trust Plenary Lecture, presented in Nancy France, June 2023. The paper also presents new approaches to ensure stability and potentially accelerated convergence for these algorithms, and stochastic approximation in other settings. Two contributions are entirely new: 1. Stability of Q-learning with linear function approximation has been an open topic for research for over three decades. It is shown that with appropriate optimistic training in the form of a modified Gibbs policy, there exists a solution to the projected Bellman equation, and the algorithm is stable (in terms of bounded parameter estimates). Convergence remains one of many open topics for research. 2. The new Zap Zero algorithm is designed to approximate the Newton-Raphson flow without matrix inversion. It is stable and convergent under mild assumptions on the mean flow vector field for the algorithm, and compatible statistical assumption on an underlying Markov chain. The algorithm is a general approach to stochastic approximation which in particular applies to Q-learning with "oblivious" training even with non-linear function approximation.
翻訳日:2023-07-07 16:03:58 公開日:2023-07-05
# AML治療プロトコルに関する意思決定を支援するための説明可能なモデル

An explainable model to support the decision about the therapy protocol for AML ( http://arxiv.org/abs/2307.02631v1 )

ライセンス: Link先を確認
Jade M. Almeida, Giovanna A. Castro, Jo\~ao A. Machado-Neto, Tiago A. Almeida(参考訳) 急性骨髄性白血病(AML)は最も攻撃的な血液腫瘍の1つである。 適切な治療に関する専門医の判断を支援するため、AML患者は細胞遺伝学的および分子学的特徴に応じて予後を判断し、しばしば3つの危険カテゴリー(好適、中性、悪)に分けられる。 しかし、現在のリスク分類には、同一のリスクグループの患者間の不均一性や中間リスクカテゴリの明確な定義など、既知の問題がある。 さらに、ほとんどのAML患者は中間リスク分類を受けるため、専門医はしばしば他の検査や分析を要求し、治療が遅れて臨床症状が悪化する。 本稿では、患者の生存予測に基づいて、最も適切な治療プロトコルの決定を支援するためのデータ分析と説明可能な機械学習モデルを提案する。 予測モデルが説明可能であることに加えて、得られた結果は有望であり、専門家の意思決定を安全に支援できることを示す。 最も重要なことは、この研究で得られた知見が、より良い治療と予後マーカーに向けた新しい研究の道を開く可能性を秘めていることだ。

Acute Myeloid Leukemia (AML) is one of the most aggressive types of hematological neoplasm. To support the specialists' decision about the appropriate therapy, patients with AML receive a prognostic of outcomes according to their cytogenetic and molecular characteristics, often divided into three risk categories: favorable, intermediate, and adverse. However, the current risk classification has known problems, such as the heterogeneity between patients of the same risk group and no clear definition of the intermediate risk category. Moreover, as most patients with AML receive an intermediate-risk classification, specialists often demand other tests and analyses, leading to delayed treatment and worsening of the patient's clinical condition. This paper presents the data analysis and an explainable machine-learning model to support the decision about the most appropriate therapy protocol according to the patient's survival prediction. In addition to the prediction model being explainable, the results obtained are promising and indicate that it is possible to use it to support the specialists' decisions safely. Most importantly, the findings offered in this study have the potential to open new avenues of research toward better treatments and prognostic markers.
翻訳日:2023-07-07 16:03:35 公開日:2023-07-05
# SkipDecode: 効率的なLCM推論のためのバッチとキャッシュによる自動回帰的スキップデコーディング

SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference ( http://arxiv.org/abs/2307.02628v1 )

ライセンス: Link先を確認
Luciano Del Corro, Allie Del Giorno, Sahaj Agarwal, Bin Yu, Ahmed Awadallah, Subhabrata Mukherjee(参考訳) 自己回帰型大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて顕著な進歩を遂げている。 しかし、それらは自己回帰トークン・バイ・トークン生成による高い計算コストと遅延を引き起こす。 この問題に対処するために,アーリーエクイット戦略を用いて計算コストを削減する手法がいくつか提案されている。 これらの戦略により、各トークンに全計算グラフを適用することなく、少ない計算を使用する高速なテキスト生成が可能になる。 既存のトークンレベルの早期終了メソッドはオンライン推論に有望な結果を示すが、バッチ推論やキーバリューキャッシュに簡単に適用することはできない。 これは、バッチの終了時に最後のトークンがコンピューティングを停止するまで待たなければならないためです。 これはそのような手法の実用化を厳しく制限する。 本論文では,バッチ推論とKVキャッシングをシームレスに行うための,単純かつ効果的なトークンレベルの早期終了手法であるSkipDecodeを提案する。 これは、各シーケンス位置のバッチ内の各トークンに対して特異な出口点を設定することで、以前の制約を克服する。 また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。 以前の作業のように計算を早期に終了させるのではなく、計算リソースの大部分を上位層に割り当てることにより、後のトークンが以前のトークンによる計算費用の恩恵を受けることができるのです。 実験の結果,skipdecodeは様々なタスクで2倍から5倍の高速化が可能であった。 これは13億と67億のパラメータからなるOPTモデルを使用して達成され、バッチ処理やKVキャッシュ最適化技術と直接互換性がある。

Autoregressive large language models (LLMs) have made remarkable progress in various natural language generation tasks. However, they incur high computation cost and latency resulting from the autoregressive token-by-token generation. To address this issue, several approaches have been proposed to reduce computational cost using early-exit strategies. These strategies enable faster text generation using reduced computation without applying the full computation graph to each token. While existing token-level early exit methods show promising results for online inference, they cannot be readily applied for batch inferencing and Key-Value caching. This is because they have to wait until the last token in a batch exits before they can stop computing. This severely limits the practical application of such techniques. In this paper, we propose a simple and effective token-level early exit method, SkipDecode, designed to work seamlessly with batch inferencing and KV caching. It overcomes prior constraints by setting up a singular exit point for every token in a batch at each sequence position. It also guarantees a monotonic decrease in exit points, thereby eliminating the need to recompute KV Caches for preceding tokens. Rather than terminating computation prematurely as in prior works, our approach bypasses lower to middle layers, devoting most of the computational resources to upper layers, allowing later tokens to benefit from the compute expenditure by earlier tokens. Our experimental results show that SkipDecode can obtain 2x to 5x inference speedups with negligible regression across a variety of tasks. This is achieved using OPT models of 1.3 billion and 6.7 billion parameters, all the while being directly compatible with batching and KV caching optimization techniques.
翻訳日:2023-07-07 16:03:17 公開日:2023-07-05
# 大規模クラウドデータベースにおけるリアルタイムワークロードパターン解析

Real-time Workload Pattern Analysis for Large-scale Cloud Databases ( http://arxiv.org/abs/2307.02626v1 )

ライセンス: Link先を確認
Jiaqi Wang, Tianyi Li, Anni Wang, Xiaoze Liu, Lu Chen, Jie Chen, Jianye Liu, Junyang Wu, Feifei Li, Yunjun Gao(参考訳) データベースサービスをクラウドシステム上でホストすることは、一般的に実践されている。 これにより、データベースワークロードの量が増加し、パターン分析の機会が生まれました。 ビジネスロジックの観点からワークロードパターンを発見することは、データベースシステムのトレンドと特性をよりよく理解するために役立ちます。 しかし、既存のワークロードパターン発見システムは、業界で一般的に使われている大規模クラウドデータベースには適していない。 これは、大規模なクラウドデータベースのワークロードパターンが、通常データベースよりもはるかに複雑なためです。 本稿では,複雑な大規模ワークロードにおけるワークロードパターンを検出するリアルタイムシステムであるAlibaba Workload Miner(AWM)を提案する。 AWMはユーザリクエストからログされたSQLクエリパターンをエンコードし、発見し、発見したパターンに基づいてクエリ処理を最適化する。 まず、データ収集および前処理モジュールは、ストリーミングクエリログを収集し、リッチなセマンティックコンテキストと実行機能を備えた高次元の機能埋め込みにエンコードする。 次に、オンラインワークロードマイニングモジュールは、ビジネスグループによるエンコードされたクエリを分離し、各グループのワークロードパターンを検出する。 一方、オフライントレーニングモジュールはラベルを収集し、ラベルを使用して分類モデルを訓練する。 最後に、パターンベースのOptimizing Moduleは、発見されたパターンを利用して、クラウドデータベースのクエリ処理を最適化する。 1つの合成データセットと2つの実生活データセット(Alibaba Cloudデータベースから抽出された)に対する大規模な実験結果から、AWMはパターン発見の精度を66%向上し、オンライン推論のレイテンシを22%削減している。

Hosting database services on cloud systems has become a common practice. This has led to the increasing volume of database workloads, which provides the opportunity for pattern analysis. Discovering workload patterns from a business logic perspective is conducive to better understanding the trends and characteristics of the database system. However, existing workload pattern discovery systems are not suitable for large-scale cloud databases which are commonly employed by the industry. This is because the workload patterns of large-scale cloud databases are generally far more complicated than those of ordinary databases. In this paper, we propose Alibaba Workload Miner (AWM), a real-time system for discovering workload patterns in complicated large-scale workloads. AWM encodes and discovers the SQL query patterns logged from user requests and optimizes the querying processing based on the discovered patterns. First, Data Collection & Preprocessing Module collects streaming query logs and encodes them into high-dimensional feature embeddings with rich semantic contexts and execution features. Next, Online Workload Mining Module separates encoded queries by business groups and discovers the workload patterns for each group. Meanwhile, Offline Training Module collects labels and trains the classification model using the labels. Finally, Pattern-based Optimizing Module optimizes query processing in cloud databases by exploiting discovered patterns. Extensive experimental results on one synthetic dataset and two real-life datasets (extracted from Alibaba Cloud databases) show that AWM enhances the accuracy of pattern discovery by 66% and reduce the latency of online inference by 22%, compared with the state-of-the-arts.
翻訳日:2023-07-07 16:02:48 公開日:2023-07-05
# グラディエントグラフラプラシア正規化器を用いたレチネックスベース画像デノイング/コントラスト強調

Retinex-based Image Denoising / Contrast Enhancement using Gradient Graph Laplacian Regularizer ( http://arxiv.org/abs/2307.02625v1 )

ライセンス: Link先を確認
Yeganeh Gharedaghi, Gene Cheung, Xianming Liu(参考訳) 低照度で撮影された画像は、しばしば取得ノイズによって腐敗する。 グラフベース正規化の最近の進歩を生かして,画像の復調とコントラスト向上を行う高速Retinexベースの復元手法を提案する。 具体的には、retinex理論により、まず各ピクセルは反射率と照明成分の乗算であると仮定する。 次に、反射率と照明成分は、それぞれグラフ Laplacian regularizer (GLR) および勾配グラフ Laplacian regularizer (GGLR) を介して復元できる、分割定数 (PWC) および連続片幅平面 (PWP) 信号であると仮定する。 glr と gglr によって正規化された二次目的を定式化し、共役勾配 (cg) を効率的に解いて線形系を解いて収束するまで交互に最小化する。 実験結果から,本アルゴリズムは計算複雑性を著しく低減しつつ,競争力のある画像品質を実現することが示された。

Images captured in poorly lit conditions are often corrupted by acquisition noise. Leveraging recent advances in graph-based regularization, we propose a fast Retinex-based restoration scheme that denoises and contrast-enhances an image. Specifically, by Retinex theory we first assume that each image pixel is a multiplication of its reflectance and illumination components. We next assume that the reflectance and illumination components are piecewise constant (PWC) and continuous piecewise planar (PWP) signals, which can be recovered via graph Laplacian regularizer (GLR) and gradient graph Laplacian regularizer (GGLR) respectively. We formulate quadratic objectives regularized by GLR and GGLR, which are minimized alternately until convergence by solving linear systems -- with improved condition numbers via proposed preconditioners -- via conjugate gradient (CG) efficiently. Experimental results show that our algorithm achieves competitive visual image quality while reducing computation complexity noticeably.
翻訳日:2023-07-07 16:02:24 公開日:2023-07-05
# FLuID:不変ドロップアウトを用いたフェデレーション学習におけるストラグラーの緩和

FLuID: Mitigating Stragglers in Federated Learning using Invariant Dropout ( http://arxiv.org/abs/2307.02623v1 )

ライセンス: Link先を確認
Irene Wang, Prashant J. Nair, Divya Mahajan(参考訳) federated learning(fl)は、機械学習モデルを個々のモバイルデバイス上でローカルにトレーニングし、モデル更新を共有サーバ経由で同期可能にする。 このアプローチはユーザのプライバシを保護するが、デバイス間のパフォーマンス能力が異なるため、異種なトレーニング環境も生成する。 その結果、パフォーマンスの低いストラグラーデバイスは、flの全体的なトレーニング時間を決定することが多い。 本研究では,システム全体のトレーニング負荷を動的にバランスさせることにより,トラグラーによるパフォーマンスボトルネックを軽減することを目的とする。 Invariant Dropoutは,重み更新閾値に基づいてサブモデルを抽出し,精度への影響を最小限に抑える手法である。 このドロップアウト技術に基づいて,適応型学習フレームワークであるFederated Learning using Invariant Dropout (FLuID)を開発した。 FLuIDは計算強度を制御し、モデル品質に影響を与えることなくストラグラーデバイスへの負荷を低減する軽量なサブモデル抽出を提供する。 提案手法は,非ストラグラーデバイスからのニューロン更新を利用して,クライアントの性能プロファイルに基づいて,各ストラグラーに適したサブモデルを構築する。 さらに、FLuIDは実行条件が変化するにつれてストラグラーの変化に動的に対応できる。 5つの実世界のモバイルクライアントを用いてFLuIDを評価する。 評価によると、Invariant Dropoutは、動的で実行時のアプローチを通じてストラグラーのパフォーマンスボトルネックを緩和しながら、ベースラインモデルの効率を維持する。

Federated Learning (FL) allows machine learning models to train locally on individual mobile devices, synchronizing model updates via a shared server. This approach safeguards user privacy; however, it also generates a heterogeneous training environment due to the varying performance capabilities across devices. As a result, straggler devices with lower performance often dictate the overall training time in FL. In this work, we aim to alleviate this performance bottleneck due to stragglers by dynamically balancing the training load across the system. We introduce Invariant Dropout, a method that extracts a sub-model based on the weight update threshold, thereby minimizing potential impacts on accuracy. Building on this dropout technique, we develop an adaptive training framework, Federated Learning using Invariant Dropout (FLuID). FLuID offers a lightweight sub-model extraction to regulate computational intensity, thereby reducing the load on straggler devices without affecting model quality. Our method leverages neuron updates from non-straggler devices to construct a tailored sub-model for each straggler based on client performance profiling. Furthermore, FLuID can dynamically adapt to changes in stragglers as runtime conditions shift. We evaluate FLuID using five real-world mobile clients. The evaluations show that Invariant Dropout maintains baseline model efficiency while alleviating the performance bottleneck of stragglers through a dynamic, runtime approach.
翻訳日:2023-07-07 16:02:03 公開日:2023-07-05
# コスト感性強化学習における動的観察ポリシー

Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2307.02620v1 )

ライセンス: Link先を確認
Colin Bellinger, Mark Crowley, Isaac Tamblyn(参考訳) 強化学習(rl)は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成といった複雑なタスクのための高度な制御ポリシーを学ぶことが示されている。 しかしながら、RLの行動知覚サイクルは一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。 しかし、深海や惑星のロボット探査、材料設計、医学といった応用においては、環境の状態を計測したり、近似したりするコストが高くなる可能性がある。 本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。 このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。 その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることを示す。

Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as deep-sea and planetary robot exploration, materials design and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature.
翻訳日:2023-07-07 16:01:39 公開日:2023-07-05
# AI4OPT:AI Institute for Advances in Optimization

AI4OPT: AI Institute for Advances in Optimization ( http://arxiv.org/abs/2307.02671v1 )

ライセンス: Link先を確認
Pascal Van Hentenryck, Kevin Dalmeijer(参考訳) この記事は、NSF AI Institute for Advances in OptimizationであるAI4OPTの短い紹介である。 AI4OPTはAIと最適化を融合させ、サプライチェーン、エネルギーシステム、チップの設計と製造、持続可能な食品システムのエンドユースケースにインスパイアされている。 AI4OPTはまた、工学のためのAIの縦方向の教育経路を提供するために、その「教師を教える」哲学を適用している。

This article is a short introduction to AI4OPT, the NSF AI Institute for Advances in Optimization. AI4OPT fuses AI and Optimization, inspired by end-use cases in supply chains, energy systems, chip design and manufacturing, and sustainable food systems. AI4OPT also applies its "teaching the teachers" philosophy to provide longitudinal educational pathways in AI for engineering.
翻訳日:2023-07-07 15:54:26 公開日:2023-07-05
# 情報プライバシー実践の透明性に関する一設計理論

A design theory for transparency of information privacy practices ( http://arxiv.org/abs/2307.02665v1 )

ライセンス: Link先を確認
Tobias Dehling, Ali Sunyaev(参考訳) 社会全体の情報システム(IS)の普及は、社会的価値としてのプライバシーに対する深刻な脅威を増している。 この脅威を軽減する1つのアプローチは、情報プライバシプラクティス(TIPP)の透明性を確立することで、消費者が情報をどのように処理するかをよりよく理解できるようにすることである。 しかし、情報処理の量が増え続ける中、透明なアーティファクト(プライバシー通知など)の設計は明らかにこのアプローチに従わなかった。 したがって、情報処理がプライバシの期待に合致するかどうかを確認するため、消費者は「樹木の森」を見ることができない状況に直面する。 鍵となる問題は、包括的情報提示が情報過負荷をもたらすことであり、したがってTIPPの確立には非生産的である。 我々は、透明性アーティファクトの設計論理から離れ、プライバシーを社会的価値とする観点からTIPPを確立するのに有用な透明性アーティファクト設計のための理論基盤(TIPP理論)を開発する。 本稿では,社会工学的相互作用を捉えるためのTIPP理論について述べる。 第1部は、ISアーティファクトとプライバシに関する抽象的な知識を透明性アーティファクトの社会的サブシステムの記述に変換し、第2部は、対応するISデザイン理論の形で規範的な設計知識を伝達する。 TIPP理論は、プライバシー概念の複雑さから、あらゆるISでTIPPを確立するのに役立つ透明性アーティファクトのメタデザインへのブリッジを確立する。 本質的には、透明性のアーティファクトは包括的な情報を提供するだけでなく、消費者の現在の情報ニーズにも適応しなければならない。

The rising diffusion of information systems (IS) throughout society poses an increasingly serious threat to privacy as a social value. One approach to alleviating this threat is to establish transparency of information privacy practices (TIPP) so that consumers can better understand how their information is processed. However, the design of transparency artifacts (eg, privacy notices) has clearly not followed this approach, given the ever-increasing volume of information processing. Hence, consumers face a situation where they cannot see the 'forest for the trees' when aiming to ascertain whether information processing meets their privacy expectations. A key problem is that overly comprehensive information presentation results in information overload and is thus counterproductive for establishing TIPP. We depart from the extant design logic of transparency artifacts and develop a theoretical foundation (TIPP theory) for transparency artifact designs useful for establishing TIPP from the perspective of privacy as a social value. We present TIPP theory in two parts to capture the sociotechnical interplay. The first part translates abstract knowledge on the IS artifact and privacy into a description of social subsystems of transparency artifacts, and the second part conveys prescriptive design knowledge in form of a corresponding IS design theory. TIPP theory establishes a bridge from the complexity of the privacy concept to a metadesign for transparency artifacts that is useful to establish TIPP in any IS. In essence, transparency artifacts must accomplish more than offering comprehensive information; they must also be adaptive to the current information needs of consumers.
翻訳日:2023-07-07 15:54:18 公開日:2023-07-05
# 安全・自律走行ナビゲーションのための通信・制御・機械学習の収束

Convergence of Communications, Control, and Machine Learning for Secure and Autonomous Vehicle Navigation ( http://arxiv.org/abs/2307.02663v1 )

ライセンス: Link先を確認
Tengchan Zeng, Aidin Ferdowsi, Omid Semiari, Walid Saad, Choong Seon Hong(参考訳) 接続された自動運転車(CAV)は、交通事故におけるヒューマンエラーを低減し、道路効率を向上し、配達からスマートシティ監視まで様々なタスクを実行する。 これらの利点を享受するには、CAVが自動で目的地に向かう必要がある。 この目的のために、各CAVのナビゲーションコントローラは、縦方向と横方向の動作を決定するために、センサーや無線システムによって収集された情報を活用する必要がある。 しかし、CAVのための自律ナビゲーションを可能にするには、コミュニケーション、制御、学習システムの収束した統合が必要である。 本稿の目的は、この収束に関連する課題を明確に明らかにし、それらを2つの主要なユースケースで解決するソリューションを提案することである。 特に、非協調型CAVのナビゲーションに関わる課題は、安定した経路追跡、サイバー物理攻撃に対する堅牢な制御、適応型ナビゲーションコントローラの設計である。 一方、複数のCAVがナビゲーション中の動作を調整する際には、安定した形成、高速協調学習、分散侵入検知などの基本的な問題を分析する。 いずれの場合においても,コミュニケーション理論,制御理論,機械学習の収束を利用したソリューションが提案されている。 提案手法の利点を示すための予備シミュレーション結果を提供する。

Connected and autonomous vehicles (CAVs) can reduce human errors in traffic accidents, increase road efficiency, and execute various tasks ranging from delivery to smart city surveillance. Reaping these benefits requires CAVs to autonomously navigate to target destinations. To this end, each CAV's navigation controller must leverage the information collected by sensors and wireless systems for decision-making on longitudinal and lateral movements. However, enabling autonomous navigation for CAVs requires a convergent integration of communication, control, and learning systems. The goal of this article is to explicitly expose the challenges related to this convergence and propose solutions to address them in two major use cases: Uncoordinated and coordinated CAVs. In particular, challenges related to the navigation of uncoordinated CAVs include stable path tracking, robust control against cyber-physical attacks, and adaptive navigation controller design. Meanwhile, when multiple CAVs coordinate their movements during navigation, fundamental problems such as stable formation, fast collaborative learning, and distributed intrusion detection are analyzed. For both cases, solutions using the convergence of communication theory, control theory, and machine learning are proposed to enable effective and secure CAV navigation. Preliminary simulation results are provided to show the merits of proposed solutions.
翻訳日:2023-07-07 15:53:52 公開日:2023-07-05
# エリート投票による多目的最適化

Many-objective Optimization via Voting for Elites ( http://arxiv.org/abs/2307.02661v1 )

ライセンス: Link先を確認
Jackson Dean and Nick Cheney(参考訳) 現実世界の問題は、しばしば多くの目的で構成され、それらを慎重にトレードオフする解決策を必要とする。 現在の多目的最適化へのアプローチは、重み付けされた一目的パラダイムにおける目的の重要性や拡散の知識、多目的パレート最適化における次元性の呪いを克服する巨大な集団など、困難な仮定を必要とすることが多い。 MAP-Elitesのような多目的進化アルゴリズムと品質多様性アルゴリズムの要素を組み合わせることで,多目的最適化を提案する。 moveは、目的関数のさまざまなサブセットでうまく機能するエリートマップを維持している。 14-目的画像ニューロエボリューション問題では、MOVEは50人のエリートで有効であり、単純単目的ベースラインよりも優れていることを示す。 アルゴリズムのパフォーマンスは、(親が目的の異なるサブセットにエリートな子を産むために)ビンを飛び越えるソリューションに依存していることが分かりました。 このタイプのゴールスイッチングは,ステップストーンの自動識別やカリキュラム学習のための暗黙の手法であることが示唆された。 我々はMOVEとMAP-Elitesの類似点と相違点についてコメントし、アプローチの理解を支援するための洞察を提供し、このアプローチが多くの客観的問題に一般的に使われることを知らせる将来の研究を提案する。

Real-world problems are often comprised of many objectives and require solutions that carefully trade-off between them. Current approaches to many-objective optimization often require challenging assumptions, like knowledge of the importance/difficulty of objectives in a weighted-sum single-objective paradigm, or enormous populations to overcome the curse of dimensionality in multi-objective Pareto optimization. Combining elements from Many-Objective Evolutionary Algorithms and Quality Diversity algorithms like MAP-Elites, we propose Many-objective Optimization via Voting for Elites (MOVE). MOVE maintains a map of elites that perform well on different subsets of the objective functions. On a 14-objective image-neuroevolution problem, we demonstrate that MOVE is viable with a population of as few as 50 elites and outperforms a naive single-objective baseline. We find that the algorithm's performance relies on solutions jumping across bins (for a parent to produce a child that is elite for a different subset of objectives). We suggest that this type of goal-switching is an implicit method to automatic identification of stepping stones or curriculum learning. We comment on the similarities and differences between MOVE and MAP-Elites, hoping to provide insight to aid in the understanding of that approach $\unicode{x2013}$ and suggest future work that may inform this approach's use for many-objective problems in general.
翻訳日:2023-07-07 15:53:34 公開日:2023-07-05
# 意味セグメンテーションのための球状特徴ピラミッドネットワーク

Spherical Feature Pyramid Networks For Semantic Segmentation ( http://arxiv.org/abs/2307.02658v1 )

ライセンス: Link先を確認
Thomas Walker, Varun Anand, Pavlos Andreadis(参考訳) 従来の平面法では球面画像をユークリッド平面に投影する必要があるため、球面データのセマンティックセグメンテーションは機械学習では難しい問題である。 基本的に異なるトポロジ上の信号を表現することは、ネットワーク性能に影響を及ぼすエッジと歪みをもたらす。 近年、グラフベースのアプローチはこれらの課題を克服し、球面メッシュ上の信号を表現することで、大幅な改善を実現している。 球状セグメンテーションへの現在のアプローチは、UNetアーキテクチャの変種のみを使用するため、より成功した平面アーキテクチャは未探索のままである。 平面画像分割における特徴ピラミッドネットワーク(fpns)の成功に触発されて,グラフベースの球面cnnのピラミッド階層を利用して球面fpnを設計する。 球面fpnモデルは球面のunetsに対して一貫した改善を示し、パラメータは少ない。 スタンフォードの2D-3D-Sデータセットでは、これまでの球面CNNよりも3.75IoUポイント向上した48.75のmIOUで最先端のパフォーマンスを達成した。

Semantic segmentation for spherical data is a challenging problem in machine learning since conventional planar approaches require projecting the spherical image to the Euclidean plane. Representing the signal on a fundamentally different topology introduces edges and distortions which impact network performance. Recently, graph-based approaches have bypassed these challenges to attain significant improvements by representing the signal on a spherical mesh. Current approaches to spherical segmentation exclusively use variants of the UNet architecture, meaning more successful planar architectures remain unexplored. Inspired by the success of feature pyramid networks (FPNs) in planar image segmentation, we leverage the pyramidal hierarchy of graph-based spherical CNNs to design spherical FPNs. Our spherical FPN models show consistent improvements over spherical UNets, whilst using fewer parameters. On the Stanford 2D-3D-S dataset, our models achieve state-of-the-art performance with an mIOU of 48.75, an improvement of 3.75 IoU points over the previous best spherical CNN.
翻訳日:2023-07-07 15:53:10 公開日:2023-07-05
# 量子ノイズを用いた古典レーダの探査

Revealing spoofing of classical radar using quantum noise ( http://arxiv.org/abs/2307.02656v1 )

ライセンス: Link先を確認
Jonathan N. Blakely, Shawn D. Pethel, Kurt Jacobs(参考訳) レーダーのような電磁リモートセンシング技術は、スプーフパルスを生成するターゲットによって誤解を招くことがある。 通常、フェルビブ・スプーファーは、説得力のあるスプーフパルスを設計するために受信パルスを特徴付ける測定を行う必要がある。 このような測定の精度は最終的に量子ノイズによって制限される。 本稿では,先行理論研究において無視された実用的重要性の影響を含む電磁スプーフィングのモデルを紹介する。 特に、モデルには、熱的背景ノイズとデジタル量子化ノイズ、および伝送、伝播、受信の損失が含まれている。 量子物理学で許容されるスパウファーを検出する最適確率を導出する。 ヘテロダイン受信としきい値設定がこの最適性能に近づいたことを示す。 最後に、受信パルス列からのベイズ推定により、spoof検出における高い確実性が得られることを示す。 これらの結果から, 量子ノイズによるスプーフパルスの誤差を観測することで, 事実上実現可能な受信機を検出できる可能性が示唆された。

Electromagnetic remote sensing technologies such as radar can be mislead by targets that generate spoof pulses. Typically, a would-be spoofer must make measurements to characterize a received pulse in order to design a convincing spoof pulse. The precision of such measurements are ultimately limited by quantum noise. Here we introduce a model of electromagnetic spoofing that includes effects of practical importance that were neglected in prior theoretical studies. In particular, the model includes thermal background noise and digital quantization noise, as well as loss in transmission, propagation, and reception. We derive the optimal probability of detecting a spoofer allowed by quantum physics. We show that heterodyne reception and thresholding closely approaches this optimal performance. Finally, we show that a high degree of certainty in spoof detection can be reached by Bayesian inference from a sequence of received pulses. Together these results suggest that a practically realizable receiver could plausibly detect a radar spoofer by observing errors in the spoof pulses due to quantum noise.
翻訳日:2023-07-07 15:52:50 公開日:2023-07-05
# 構造的欠損の完全な特徴化

A Complete Characterisation of Structured Missingness ( http://arxiv.org/abs/2307.02650v1 )

ライセンス: Link先を確認
James Jackson, Robin Mitra, Niels Hagenbuch, Sarah McGough, Chris Harbron(参考訳) 巨大な複雑なデータソースを処理する能力はますます増加しており、大規模データベースで欠落した値を扱う方法など、対処すべき、新たな重要な研究課題を提供します。 Mitra et al. (2023) は、欠損が基盤となる構造を持つ構造的欠損(SM)現象を指摘した。 既存の欠落機構を定義する分類法は、変数の欠落指示ベクトル $M_1$, $M_2$, ..., $M_p$ がデータ行列 $\mathbf{X}$ の関連部分を条件付けした後独立であると仮定する。 これは多変量設定でSMを特徴づけるのには不適当であるので、各${M}_j$は$\mathbf{M}_{-j}$(つまり、${M}_j$以外のすべての欠落指標ベクトル)に加えて$\mathbf{X}$に依存することができるSMの分類を導入します。 この新たなフレームワークは、mcar、mar、mnar(rubin、1976)によく確立された分解に組み込まれており、メカニズムをより広い設定に再キャストすることができ、$\mathbf{x}$ と $\mathbf{m}_{-j}$ on ${m}_j$ の組み合わせ効果を考えることができる。 また、シミュレーションを通じて、SMが推測と予測に与える影響を実証し、非特定全国(米国)臨床ゲノムデータベース(CGDB)におけるSMの文脈的事例を考察した。 我々はSMへの関心を刺激し、この現象をタイムリーに研究することを望んでいる。

Our capacity to process large complex data sources is ever-increasing, providing us with new, important applied research questions to address, such as how to handle missing values in large-scale databases. Mitra et al. (2023) noted the phenomenon of Structured Missingness (SM), which is where missingness has an underlying structure. Existing taxonomies for defining missingness mechanisms typically assume that variables' missingness indicator vectors $M_1$, $M_2$, ..., $M_p$ are independent after conditioning on the relevant portion of the data matrix $\mathbf{X}$. As this is often unsuitable for characterising SM in multivariate settings, we introduce a taxonomy for SM, where each ${M}_j$ can depend on $\mathbf{M}_{-j}$ (i.e., all missingness indicator vectors except ${M}_j$), in addition to $\mathbf{X}$. We embed this new framework within the well-established decomposition of mechanisms into MCAR, MAR, and MNAR (Rubin, 1976), allowing us to recast mechanisms into a broader setting, where we can consider the combined effect of $\mathbf{X}$ and $\mathbf{M}_{-j}$ on ${M}_j$. We also demonstrate, via simulations, the impact of SM on inference and prediction, and consider contextual instances of SM arising in a de-identified nationwide (US-based) clinico-genomic database (CGDB). We hope to stimulate interest in SM, and encourage timely research into this phenomenon.
翻訳日:2023-07-07 15:52:36 公開日:2023-07-05
# ランドウアーの原理についての一考察

A Note on Landauer's Principle ( http://arxiv.org/abs/2307.02643v1 )

ライセンス: Link先を確認
R. E. Kastner, Andreas Schlatter(参考訳) ランダウアーの原理の形式は、共役可観測物に付随する合同エントロピーを参照して、熱システムに対して成り立つ。 可逆な物理過程に対する補償エントロピーの源は、互いに相容れない可観測物の値に付随する既約不確実性に起因することが示されている。 関連する不可逆性は、一般的に仮定されるように、古典記憶装置の消去よりも量子測定のものである。

A form of Landauer's Principle is shown to hold for thermal systems by reference to the joint entropy associated with conjugate observables. It is shown that the source of the compensating entropy for irreversible physical processes is due to the irreducible uncertainty attending values of such mutually incompatible observables. The relevant irreversibility is argued to be that of quantum measurement rather than erasure of classical memory devices, as commonly assumed.
翻訳日:2023-07-07 15:52:02 公開日:2023-07-05
# クラスインクリメンタル学習のためのアクティブクラス選択

Active Class Selection for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2307.02641v1 )

ライセンス: Link先を確認
Christopher McClurg, Ali Ayub, Harsh Tyagi, Sarah M. Rajtmajer, and Alan R. Wagner(参考訳) 現実世界のアプリケーションでは、ロボットはユーザーとの限られたインタラクションを通じて環境の中で継続的に学習する必要がある。 これに向けて、マイショットクラスインクリメンタルラーニング(fscil)とアクティブクラスセレクション(acs)の先行研究は有望な結果を得たが、制約付きセットアップでテストされた。 そこで本稿では,FSCIL と ACS のアイデアを組み合わせて,自律型エージェントが環境における最も情報性の高いオブジェクトにのみラベルを付けることで,新たなオブジェクトを継続的に学習することのできる,新たなフレームワークを開発する。 この目的のために、我々は最先端(SOTA)のFSCILモデルを構築し、ACS文献の技法で拡張する。 Few-shot Incremental Active class SeleCtiOn (FIASco)と呼ぶ。 さらに、フィールドベースのナビゲーション手法をモデルに統合し、エージェントがFIAScoモデルを介してその知覚データを処理し、推論し、環境で最も情報に富んだ物体に向かって移動し、その物体に関するデータをセンサを通して収集し、FIAScoモデルを漸進的に更新することのできる、完全なフレームワークを開発する。 シミュレーションエージェントと実ロボットの実験結果は,実世界のロボット応用における本手法の意義を示している。

For real-world applications, robots will need to continually learn in their environments through limited interactions with their users. Toward this, previous works in few-shot class incremental learning (FSCIL) and active class selection (ACS) have achieved promising results but were tested in constrained setups. Therefore, in this paper, we combine ideas from FSCIL and ACS to develop a novel framework that can allow an autonomous agent to continually learn new objects by asking its users to label only a few of the most informative objects in the environment. To this end, we build on a state-of-the-art (SOTA) FSCIL model and extend it with techniques from ACS literature. We term this model Few-shot Incremental Active class SeleCtiOn (FIASco). We further integrate a potential field-based navigation technique with our model to develop a complete framework that can allow an agent to process and reason on its sensory data through the FIASco model, navigate towards the most informative object in the environment, gather data about the object through its sensors and incrementally update the FIASco model. Experimental results on a simulated agent and a real robot show the significance of our approach for long-term real-world robotics applications.
翻訳日:2023-07-07 15:51:54 公開日:2023-07-05
# プラスチック手術ソーシャルメディアポストの教師なし感性分析

Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts ( http://arxiv.org/abs/2307.02640v1 )

ライセンス: Link先を確認
Alexandrea K. Ramnarine(参考訳) ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿の収集は、主にテキストデータの量と速度に基づいて人工知能(AI)のユースケースに使われていない。 自然言語処理(英: natural language processing、nlp)は、aiのサブフィールドであり、コーパスと呼ばれる文書を人間の言語理解でコンピュータを訓練する。 単語ランキング法、用語周波数逆文書頻度(TF-IDF)を用いて、文書にまたがる機能を作成することで、人間が手動でラベル付けすることなく文書をグループ化できる教師なしの分析、機械学習(ML)を実行することができる。 t-distributed stochastic neighbor embedded(t-sne)、k-means clustering(k-means clustering)、latent dirichlet allocation(lda)といった大規模なデータセットを使用して、トップワードを学習し、redditとtwitterの組み合わせコーパスでトピックを生成する。 極めて単純なディープラーニングモデルを用いて、教師なし分析の応用結果によって、90%近い精度でツイートやsubredditの投稿に基づいて、コンピュータがプラスチック手術に対する否定的、肯定的、中立的なユーザーの感情を予測できることが示されている。 さらに、このモデルは、非教師なし感傷タスクにおいて、従前の教師なし文書分類タスクよりも高い精度を達成することができる。 したがって、教師なし学習はNLPタスクのためのソーシャルメディア文書のラベル付けに有効な選択肢であると考えられる。

The massive collection of user posts across social media platforms is primarily untapped for artificial intelligence (AI) use cases based on the sheer volume and velocity of textual data. Natural language processing (NLP) is a subfield of AI that leverages bodies of documents, known as corpora, to train computers in human-like language understanding. Using a word ranking method, term frequency-inverse document frequency (TF-IDF), to create features across documents, it is possible to perform unsupervised analytics, machine learning (ML) that can group the documents without a human manually labeling the data. For large datasets with thousands of features, t-distributed stochastic neighbor embedding (t-SNE), k-means clustering and Latent Dirichlet allocation (LDA) are employed to learn top words and generate topics for a Reddit and Twitter combined corpus. Using extremely simple deep learning models, this study demonstrates that the applied results of unsupervised analysis allow a computer to predict either negative, positive, or neutral user sentiment towards plastic surgery based on a tweet or subreddit post with almost 90% accuracy. Furthermore, the model is capable of achieving higher accuracy on the unsupervised sentiment task than on a rudimentary supervised document classification task. Therefore, unsupervised learning may be considered a viable option in labeling social media documents for NLP tasks.
翻訳日:2023-07-07 15:51:32 公開日:2023-07-05
# ディープラーニングにおける損失関数とメトリクス。 レビュー

Loss Functions and Metrics in Deep Learning. A Review ( http://arxiv.org/abs/2307.02694v1 )

ライセンス: Link先を確認
Juan Terven, Diana M. Cordova-Esparza, Alfonzo Ramirez-Pedraza, Edgar A. Chavez-Urbiola(参考訳) ディープラーニングの重要なコンポーネントの1つは、モデルのトレーニングと評価に使用される損失関数とパフォーマンスメトリクスの選択である。 本稿では,ディープラーニングにおける損失関数と性能測定について概説する。 それぞれの手法の利点と限界について検討し,様々なディープラーニング問題への応用について解説する。 本レビューは,最も一般的なディープラーニングタスクで使用される損失関数とパフォーマンス指標の包括的図を示し,実践者が特定のタスクに最適な方法を選択するのを助けることを目的とする。

One of the essential components of deep learning is the choice of the loss function and performance metrics used to train and evaluate models. This paper reviews the most prevalent loss functions and performance measurements in deep learning. We examine the benefits and limits of each technique and illustrate their application to various deep-learning problems. Our review aims to give a comprehensive picture of the different loss functions and performance indicators used in the most common deep learning tasks and help practitioners choose the best method for their specific task.
翻訳日:2023-07-07 15:44:51 公開日:2023-07-05
# カーネル, データと物理

Kernels, Data & Physics ( http://arxiv.org/abs/2307.02693v1 )

ライセンス: Link先を確認
Francesco Cagnetta, Deborah Oliveira, Mahalakshmi Sabanayagam, Nikolaos Tsilivis, Julia Kempe(参考訳) ユリア・ケンペ(julia kempe)教授がles houchesのsummer school "statistical physics of machine learning"で行った講義ノート。 このノートは、機械学習における問題に対するいわゆるNTKアプローチについて論じており、これは、抽出可能なカーネルの定式化を見つけることによって、一般に解決不可能な問題の理解を得ることから成り立っている。 主にデータ蒸留や対向ロバスト性といった実践的な応用に焦点を当て,帰納バイアスの例についても論じる。

Lecture notes from the course given by Professor Julia Kempe at the summer school "Statistical physics of Machine Learning" in Les Houches. The notes discuss the so-called NTK approach to problems in machine learning, which consists of gaining an understanding of generally unsolvable problems by finding a tractable kernel formulation. The notes are mainly focused on practical applications such as data distillation and adversarial robustness, examples of inductive bias are also discussed.
翻訳日:2023-07-07 15:44:45 公開日:2023-07-05
# sacha: 部分的に観察可能なマルチエージェント探索のためのヒューリスティックな注意に基づくソフトアクタ-クリティック

SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially Observable Multi-Agent Path Finding ( http://arxiv.org/abs/2307.02691v1 )

ライセンス: Link先を確認
Qiushi Lin, Hang Ma(参考訳) マルチエージェント経路探索(mapf)は、エージェントが与えられた目標位置への衝突のない経路を計画しなければならない、多くの大規模ロボットシステムにとって重要な要素である。 近年,分散化された単一エージェント政策を中央集権的に学習することでMAPFの部分観測可能変種を解決するために,マルチエージェント強化学習が導入されている。 しかし、既存の学習に基づく手法は、複雑なマルチエージェント協調、特に密集した環境では、この設定の非定常性のために効果がない。 この課題に対処するために,エージェント間の協力を促進するために,アクターと批評家の両方に新たなヒューリスティックな注意機構を用いた,ソフトアクター批判(SACHA)と呼ばれるマルチエージェントアクター批判手法を提案する。 SACHAは、各エージェントのニューラルネットワークを学習し、複数のエージェントから最も短い経路ヒューリスティックガイダンスに選択的に注意を払うことにより、よりスケーラブルな協調学習を可能にする。 SACHAはまた、既存のマルチエージェントアクター批判フレームワークを拡張し、各エージェントを中心とした新しい批評家を導入して、$Q$-valueを近似する。 完全に観察可能な批評家を使用する既存の方法と比較して,エージェント中心のマルチエージェントアクタ-クリティック手法は,エージェント数や環境の異なるmapfインスタンスに対して,より公平なクレジット割り当てと学習ポリシーの一般化性が向上する。 また,エージェント間の情報交換を可能にするために,エージェントのポリシネットワークに通信モジュールを組み込むsacha(c)を実装した。 sachaとsacha(c)の両方を様々なmapfインスタンスで評価し、成功率とソリューションの品質に関して、最先端の学習ベースのmapfメソッドよりも優れた改善を示す。

Multi-Agent Path Finding (MAPF) is a crucial component for many large-scale robotic systems, where agents must plan their collision-free paths to their given goal positions. Recently, multi-agent reinforcement learning has been introduced to solve the partially observable variant of MAPF by learning a decentralized single-agent policy in a centralized fashion based on each agent's partial observation. However, existing learning-based methods are ineffective in achieving complex multi-agent cooperation, especially in congested environments, due to the non-stationarity of this setting. To tackle this challenge, we propose a multi-agent actor-critic method called Soft Actor-Critic with Heuristic-Based Attention (SACHA), which employs novel heuristic-based attention mechanisms for both the actors and critics to encourage cooperation among agents. SACHA learns a neural network for each agent to selectively pay attention to the shortest path heuristic guidance from multiple agents within its field of view, thereby allowing for more scalable learning of cooperation. SACHA also extends the existing multi-agent actor-critic framework by introducing a novel critic centered on each agent to approximate $Q$-values. Compared to existing methods that use a fully observable critic, our agent-centered multi-agent actor-critic method results in more impartial credit assignment and better generalizability of the learned policy to MAPF instances with varying numbers of agents and types of environments. We also implement SACHA(C), which embeds a communication module in the agent's policy network to enable information exchange among agents. We evaluate both SACHA and SACHA(C) on a variety of MAPF instances and demonstrate decent improvements over several state-of-the-art learning-based MAPF methods with respect to success rate and solution quality.
翻訳日:2023-07-07 15:44:37 公開日:2023-07-05
# 構造化された注意によるコンテキスト内デモのスケーリング

Scaling In-Context Demonstrations with Structured Attention ( http://arxiv.org/abs/2307.02690v1 )

ライセンス: Link先を確認
Tianle Cai, Kaixuan Huang, Jason D. Lee, Mengdi Wang(参考訳) 最近の大規模言語モデル(LLM)の急増は、コンテキスト内学習、すなわち"学習"をパラメータを更新せずにコンテキスト内のいくつかのデモからタスクを実行する能力を強調している。 しかし、コンテキスト内学習の能力はモデルアーキテクチャによって制限される。 1) デモンストレーションの使用は,位置埋め込みによる最大文長によって制限される。 2 注意の二次的複雑さは、より効率的な実演の使用を妨げる。 3) LLMは実験の順序に敏感であることが示されている。 本研究では、文脈内学習のためのより良いアーキテクチャ設計を提案することで、これらの課題に取り組む。 本研究では,SAICL(Structured Attention for In-Context Learning)を提案する。SAICL(Structured Attention for In-Context Learning)は,コンテキスト内学習用に設計された構造化された注意機構によって,実演間の不要な依存関係を排除し,モデルを実演の置換に不変にする。 我々は,SAICLをメタトレーニングフレームワークで評価し,SAICLが最大3.4倍の推論速度を得ながら,注目度以上の性能を達成することを示す。 SAICLはまた、それぞれのデモを独立して処理する強力なFusion-in-Decoder(FiD)ベースラインを一貫して上回っている。 最後に、線形性により、SAICLは、スケーリングによって連続的なパフォーマンス向上を伴う数百のデモに簡単にスケールできることを示します。

The recent surge of large language models (LLMs) highlights their ability to perform in-context learning, i.e., "learning" to perform a task from a few demonstrations in the context without any parameter updates. However, their capabilities of in-context learning are limited by the model architecture: 1) the use of demonstrations is constrained by a maximum sentence length due to positional embeddings; 2) the quadratic complexity of attention hinders users from using more demonstrations efficiently; 3) LLMs are shown to be sensitive to the order of the demonstrations. In this work, we tackle these challenges by proposing a better architectural design for in-context learning. We propose SAICL (Structured Attention for In-Context Learning), which replaces the full-attention by a structured attention mechanism designed for in-context learning, and removes unnecessary dependencies between individual demonstrations, while making the model invariant to the permutation of demonstrations. We evaluate SAICL in a meta-training framework and show that SAICL achieves comparable or better performance than full attention while obtaining up to 3.4x inference speed-up. SAICL also consistently outperforms a strong Fusion-in-Decoder (FiD) baseline which processes each demonstration independently. Finally, thanks to its linear nature, we demonstrate that SAICL can easily scale to hundreds of demonstrations with continuous performance gains with scaling.
翻訳日:2023-07-07 15:44:01 公開日:2023-07-05
# テキスト強化学習のための抽象的意味表現における記号規則の学習

Learning Symbolic Rules over Abstract Meaning Representations for Textual Reinforcement Learning ( http://arxiv.org/abs/2307.02689v1 )

ライセンス: Link先を確認
Subhajit Chaudhury, Sarathkrishna Swaminathan, Daiki Kimura, Prithviraj Sen, Keerthiram Murugesan, Rosario Uceda-Sosa, Michiaki Tatsubori, Achille Fokoue, Pavan Kapanipathi, Asim Munawar and Alexander Gray(参考訳) テキストベースの強化学習エージェントは、主に埋め込みベースの表現を持つニューラルネットワークベースのモデルであり、しばしば目に見えないゲームにうまく一般化しない解釈不能なポリシーを学ぶ。 一方、ニューロシンボリックな手法、特に中間形式表現を利用する手法は、言語理解タスクにおいて重要な注目を集めている。 これは、固有の解釈可能性、トレーニングデータのより少ない要件、そして目に見えないデータを持つシナリオで一般化できるという利点がある。 そこで本稿では,汎用意味解析システムとルール帰納システムを組み合わせて,抽象解釈可能なルールをポリシーとして学習する,モジュール型 NEuro-Symbolic Textual Agent (NESTA) を提案する。 確立されたテキストベースのゲームベンチマークを用いた実験により,本手法は,未知覚テストゲームへのより良い一般化と,少ないトレーニングインタラクションによる学習を実現することにより,深層強化学習ベース手法よりも優れていることが示された。

Text-based reinforcement learning agents have predominantly been neural network-based models with embeddings-based representation, learning uninterpretable policies that often do not generalize well to unseen games. On the other hand, neuro-symbolic methods, specifically those that leverage an intermediate formal representation, are gaining significant attention in language understanding tasks. This is because of their advantages ranging from inherent interpretability, the lesser requirement of training data, and being generalizable in scenarios with unseen data. Therefore, in this paper, we propose a modular, NEuro-Symbolic Textual Agent (NESTA) that combines a generic semantic parser with a rule induction system to learn abstract interpretable rules as policies. Our experiments on established text-based game benchmarks show that the proposed NESTA method outperforms deep reinforcement learning-based techniques by achieving better generalization to unseen test games and learning from fewer training interactions.
翻訳日:2023-07-07 15:43:37 公開日:2023-07-05
# テキストとモーメントの同時最適化によるゼロショット映像キャプション

Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment ( http://arxiv.org/abs/2307.02682v1 )

ライセンス: Link先を確認
Yongrae Jo, Seongyun Lee, Aiden SJ Lee, Hyunji Lee, Hanseok Oh, Minjoon Seo(参考訳) 意味のある瞬間をローカライズし、ビデオの関連キャプションを生成するタスクであるデンスビデオキャプションは、しばしば、テキストと組み合わせた注釈付きビデオセグメントの大規模で高価なコーパスを必要とする。 アノテーションのコストを最小限に抑えるため,ゼロショット方式で高密度動画キャプションを実現するZeroTAを提案する。 本手法では,ビデオやアノテーションを一切必要とせず,入力のみを最適化することで,テスト時に各入力ビデオ内のイベントをローカライズし,記述する。 これは、ビデオ内の時間的セグメントを表すソフトモーメントマスクを導入し、それを言語モデルのプレフィックスパラメータと共同で最適化することで実現される。 この共同最適化は、生成したテキストとビデオ内のモーメントとのマッチングスコアを最大化することにより、凍結した言語生成モデル(GPT-2)と凍結した視覚言語コントラストモデル(CLIP)とを一致させる。 また,一対の時間的iou損失を導入することで,ソフトモーメントマスクのセットがビデオ内の複数の異なるイベントをキャプチャできる。 本手法では,映像内で様々な重要なイベントを効果的に発見し,その結果得られたキャプションを適切に記述する。 実証実験の結果、ZeroTAはゼロショットベースラインを超え、広く使用されているベンチマークであるCystoNet Captionsの最先端の数ショットメソッドよりも優れていた。 さらに,提案手法は,ドメイン外のシナリオで評価した場合の教師あり手法に比べ,より頑健性を示す。 この研究は、言語生成モデルや視覚言語モデルといった広く使われているモデルが、ビデオの時間的側面を理解するという新しい能力を解き放つ可能性に関する洞察を提供する。

Dense video captioning, a task of localizing meaningful moments and generating relevant captions for videos, often requires a large, expensive corpus of annotated video segments paired with text. In an effort to minimize the annotation cost, we propose ZeroTA, a novel method for dense video captioning in a zero-shot manner. Our method does not require any videos or annotations for training; instead, it localizes and describes events within each input video at test time by optimizing solely on the input. This is accomplished by introducing a soft moment mask that represents a temporal segment in the video and jointly optimizing it with the prefix parameters of a language model. This joint optimization aligns a frozen language generation model (i.e., GPT-2) with a frozen vision-language contrastive model (i.e., CLIP) by maximizing the matching score between the generated text and a moment within the video. We also introduce a pairwise temporal IoU loss to let a set of soft moment masks capture multiple distinct events within the video. Our method effectively discovers diverse significant events within the video, with the resulting captions appropriately describing these events. The empirical results demonstrate that ZeroTA surpasses zero-shot baselines and even outperforms the state-of-the-art few-shot method on the widely-used benchmark ActivityNet Captions. Moreover, our method shows greater robustness compared to supervised methods when evaluated in out-of-domain scenarios. This research provides insight into the potential of aligning widely-used models, such as language generation models and vision-language models, to unlock a new capability: understanding temporal aspects of videos.
翻訳日:2023-07-07 15:43:20 公開日:2023-07-05
# 野生における顔画像品質が顔認識に及ぼす影響に関する研究

A Study on the Impact of Face Image Quality on Face Recognition in the Wild ( http://arxiv.org/abs/2307.02679v1 )

ライセンス: Link先を確認
Na Zhang(参考訳) ディープラーニングは最近、顔認識への関心が高まっている。 顔認識に現れる様々な問題に対処するために,多数のディープラーニング手法が提案されている。 かなり深い手法が、特定のデータベースで人間レベルの顔認証性能を獲得した、あるいは超えていると主張した。 私たちが知っているように、顔画像の品質は、例えば手作りの機能を備えたモデル駆動方式など、従来の顔認識方法にとって大きな課題となる。 しかし、顔の画質が深層学習方法や人的パフォーマンスに与える影響についてはほとんど研究されていない。 したがって, 顔画像の品質は, 深層学習に基づく顔認識の課題の1つであり, 特に制約のない状態での課題である。 これを踏まえて,この問題を人間レベルでさらに検討する。 本稿では,顔画像を3つの異なる品質セットに分割し,荒野における顔画像の深層学習手法の性能評価を行い,これらの品質データを用いた人間の顔検証実験を設計する。 以上の結果から,深層学習では品質課題を徹底的に検討する必要があること,品質ギャップが大きい異なる顔画像間の関係を構築する上で,人間自身の能力が向上していること,深層学習の方法が人間レベルを超えることは楽観的すぎることなどが分かる。

Deep learning has received increasing interests in face recognition recently. Large quantities of deep learning methods have been proposed to handle various problems appeared in face recognition. Quite a lot deep methods claimed that they have gained or even surpassed human-level face verification performance in certain databases. As we know, face image quality poses a great challenge to traditional face recognition methods, e.g. model-driven methods with hand-crafted features. However, a little research focus on the impact of face image quality on deep learning methods, and even human performance. Therefore, we raise a question: Is face image quality still one of the challenges for deep learning based face recognition, especially in unconstrained condition. Based on this, we further investigate this problem on human level. In this paper, we partition face images into three different quality sets to evaluate the performance of deep learning methods on cross-quality face images in the wild, and then design a human face verification experiment on these cross-quality data. The result indicates that quality issue still needs to be studied thoroughly in deep learning, human own better capability in building the relations between different face images with large quality gaps, and saying deep learning method surpasses human-level is too optimistic.
翻訳日:2023-07-07 15:42:48 公開日:2023-07-05
# パネルデータ更新:価格上昇率を例に

Panel Data Nowcasting: The Case of Price-Earnings Ratios ( http://arxiv.org/abs/2307.02673v1 )

ライセンス: Link先を確認
Andrii Babii and Ryan T. Ball and Eric Ghysels and Jonas Striaukas(参考訳) この論文は、異なる周波数でサンプリングされた時系列からなるパネルデータによる nowcasting のために構造化機械学習回帰を用いる。 異なる周波数でサンプリングされたマクロ経済・金融・ニュース時系列の大規模部門における企業利益予測の問題に動機づけられ,混合周波数時系列パネルデータ構造を活用できるスパースグループlasso正則化に焦点をあてた。 実験結果から,機械学習パネルデータ回帰モデルの性能は,アナリストの予測,予測の組み合わせ,企業固有の時系列回帰モデル,標準機械学習手法よりも優れていることが示された。

The paper uses structured machine learning regressions for nowcasting with panel data consisting of series sampled at different frequencies. Motivated by the problem of predicting corporate earnings for a large cross-section of firms with macroeconomic, financial, and news time series sampled at different frequencies, we focus on the sparse-group LASSO regularization which can take advantage of the mixed frequency time series panel data structures. Our empirical results show the superior performance of our machine learning panel data regression models over analysts' predictions, forecast combinations, firm-specific time series regression models, and standard machine learning methods.
翻訳日:2023-07-07 15:42:27 公開日:2023-07-05
# GIT:勾配と不変変換を用いた不確かさ・外分布・逆サンプルの検出

GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations ( http://arxiv.org/abs/2307.02672v1 )

ライセンス: Link先を確認
Julia Lust and Alexandru P. Condurache(参考訳) ディープニューラルネットワークは、過信的な予測を行い、特に安全クリティカルなアプリケーションにおいて、誤分類のために追加の検出器を必要とすることが多い。 既存の検出方法は通常、誤った予測の理由として、敵攻撃や配布外サンプルのみに焦点を当てる。 しかし、一般化誤差は、様々な理由から、しばしば学習の難しさと関連する不変性によって生じる。 そこで我々は,勾配情報と不変変換を併用した一般化誤差検出のための総合的手法であるGITを提案する。 この非分散変換は、誤分類されたサンプルをニューラルネットワークの一般化領域に戻すように設計され、勾配情報は、変換されたサンプルを用いたニューラルネットワークの初期予測と対応する固有計算との矛盾を測定する。 本実験は,各種ネットワークアーキテクチャ,問題設定,摂動型に関する最先端技術と比較して,GITの優れた性能を示す。

Deep neural networks tend to make overconfident predictions and often require additional detectors for misclassifications, particularly for safety-critical applications. Existing detection methods usually only focus on adversarial attacks or out-of-distribution samples as reasons for false predictions. However, generalization errors occur due to diverse reasons often related to poorly learning relevant invariances. We therefore propose GIT, a holistic approach for the detection of generalization errors that combines the usage of gradient information and invariance transformations. The invariance transformations are designed to shift misclassified samples back into the generalization area of the neural network, while the gradient information measures the contradiction between the initial prediction and the corresponding inherent computations of the neural network using the transformed sample. Our experiments demonstrate the superior performance of GIT compared to the state-of-the-art on a variety of network architectures, problem setups and perturbation types.
翻訳日:2023-07-07 15:42:16 公開日:2023-07-05
# OpenDelta: 事前訓練されたモデルのパラメータ効率適応のためのプラグアンドプレイライブラリ

OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of Pre-trained Models ( http://arxiv.org/abs/2307.03084v1 )

ライセンス: Link先を確認
Shengding Hu, Ning Ding, Weilin Zhao, Xingtai Lv, Zhen Zhang, Zhiyuan Liu, Maosong Sun(参考訳) 大規模事前学習モデル(PTM)のスケールは、全パラメータの微調整に伴う高い最適化オーバーヘッドとストレージコストのため、下流タスクに適応する上で大きな課題となる。 これに対処するために、多くの研究は、バックボーンモデルのパラメータを固定しながら、パラメータの小さなサブセットのみを「デルタモジュール」として更新する「デルタチューニング」と呼ばれるパラメータ効率の高いチューニング手法を探求している。 しかし、バックボーン PTM のコードを直接修正する既存の実装や、各 PTM のハードコード固有のデルタチューニング手法により、デルタチューニングの実用性と柔軟性は制限されている。 本稿では,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することにより,これらの制限を克服するオープンソースライブラリOpenDeltaを提案する。 我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。 OpenDeltaはシンプルでモジュール的で拡張可能なように設計されており、研究者や実践者が大規模なPTMを効率的に適応するための包括的なプラットフォームを提供する。

The scale of large pre-trained models (PTMs) poses significant challenges in adapting to downstream tasks due to the high optimization overhead and storage costs associated with full-parameter fine-tuning. To address this, many studies explore parameter-efficient tuning methods, also framed as "delta tuning", which updates only a small subset of parameters, known as "delta modules", while keeping the backbone model's parameters fixed. However, the practicality and flexibility of delta tuning have been limited due to existing implementations that directly modify the code of the backbone PTMs and hard-code specific delta tuning methods for each PTM. In this paper, we present OpenDelta, an open-source library that overcomes these limitations by providing a plug-and-play implementation of various delta tuning methods. Our novel techniques eliminate the need to modify the backbone PTMs' code, making OpenDelta compatible with different, even novel PTMs. OpenDelta is designed to be simple, modular, and extensible, providing a comprehensive platform for researchers and practitioners to adapt large PTMs efficiently.
翻訳日:2023-07-07 13:25:35 公開日:2023-07-05
# アルミニウム超伝導共振器の2レベル飽和下での異常損失低減

Anomalous Loss Reduction Below Two-Level System Saturation in Aluminum Superconducting Resonators ( http://arxiv.org/abs/2109.11742v4 )

ライセンス: Link先を確認
Tamin Tai, Jingnan Cai, Steven M. Anlage(参考訳) 超伝導共振器は量子コンピューティングのためのキュービットリードアウトや運動インダクタンス検出器など多くの用途で広く使われている。 これらの共振器は、多くの損失とノイズ機構、特に、少数の光子と低温状態において主な損失源となる2レベル系(TLS)による消音の影響を受けやすい。 本研究では, 容量結合型半波長コプラナー導波路共振器について検討した。 意外なことに, 共振器の損失は低励磁温度とTLS飽和度以下の温度で減少することが観察された。 この挙動は、TLSの離散アンサンブルにおけるTLSと共振光子周波数の遅延を減らし、TLSの温度と電力を低下させることによるTLS共鳴応答帯域の減少に起因する。 TLSの応答帯域幅が共振器からの遅延よりも小さい場合、共振器応答が小さくなり、損失が減少する。 より高い励起力では、損失は一般化トンネルモデル(GTM)の予測と一致する対数的パワー依存に従う。 離散TLSアンサンブルとGTMを組み合わせたモデルを提案し、測定した共振器内部損失の温度と電力依存性を合理的パラメータと一致させる。

Superconducting resonators are widely used in many applications such as qubit readout for quantum computing, and kinetic inductance detectors. These resonators are susceptible to numerous loss and noise mechanisms, especially the dissipation due to two-level systems (TLS) which become the dominant source of loss in the few-photon and low temperature regime. In this study, capacitively-coupled aluminum half-wavelength coplanar waveguide resonators are investigated. Surprisingly, the loss of the resonators was observed to decrease with a lowering temperature at low excitation powers and temperatures below the TLS saturation. This behavior is attributed to the reduction of the TLS resonant response bandwidth with decreasing temperature and power to below the detuning between the TLS and the resonant photon frequency in a discrete ensemble of TLS. When response bandwidths of TLS are smaller than their detunings from the resonance, the resonant response and thus the loss is reduced. At higher excitation powers, the loss follows a logarithmic power dependence, consistent with predictions from the generalized tunneling model (GTM). A model combining the discrete TLS ensemble with the GTM is proposed and matches the temperature and power dependence of the measured internal loss of the resonator with reasonable parameters.
翻訳日:2023-07-07 09:15:47 公開日:2023-07-05
# 効率的なキーワードスポッティングのための放送残差学習

Broadcasted Residual Learning for Efficient Keyword Spotting ( http://arxiv.org/abs/2106.04140v4 )

ライセンス: Link先を確認
Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung(参考訳) キーワードスポッティングは、スマートデバイスでのデバイス起動とユーザインタラクションにおいて重要な役割を果たすため、重要な研究分野である。 しかし、携帯電話などの限られたリソースを持つデバイスで効率的に動作しながらエラーを最小限に抑えることは困難である。 本稿では,モデルサイズと計算負荷を小さくして高精度な残差学習を実現する。 残差関数のほとんどを1次元の時間的畳み込みとして構成するが、2次元の畳み込みは時間的出力を周波数・時間的次元に拡張するブロードキャストド・リシデント接続を用いて行う。 この残差マッピングにより、従来の畳み込みニューラルネットワークよりもはるかに少ない計算で有用な音声特徴を効果的に表現することができる。 また,broadcast-residual network (bc-resnet) という新しいネットワークアーキテクチャを提案する。 bc-resnetsはgoogle speech commandデータセットv1とv2で98.0%と98.7%のtop-1精度を達成し、計算量やパラメータの少ない従来のアプローチを一貫して上回っている。 コードはhttps://github.com/Qualcomm-AI-research/bcresnetで入手できる。

Keyword spotting is an important research field because it plays a key role in device wake-up and user interaction on smart devices. However, it is challenging to minimize errors while operating efficiently in devices with limited resources such as mobile phones. We present a broadcasted residual learning method to achieve high accuracy with small model size and computational load. Our method configures most of the residual functions as 1D temporal convolution while still allows 2D convolution together using a broadcasted-residual connection that expands temporal output to frequency-temporal dimension. This residual mapping enables the network to effectively represent useful audio features with much less computation than conventional convolutional neural networks. We also propose a novel network architecture, Broadcasting-residual network (BC-ResNet), based on broadcasted residual learning and describe how to scale up the model according to the target device's resources. BC-ResNets achieve state-of-the-art 98.0% and 98.7% top-1 accuracy on Google speech command datasets v1 and v2, respectively, and consistently outperform previous approaches, using fewer computations and parameters. Code is available at https://github.com/Qualcomm-AI-research/bcresnet.
翻訳日:2023-07-07 01:06:50 公開日:2023-07-05
# モデル選択のための合成データ

Synthetic Data for Model Selection ( http://arxiv.org/abs/2105.00717v2 )

ライセンス: Link先を確認
Alon Shoshan, Nadav Bhonker, Igor Kviatkovsky, Matan Fintz, Gerard Medioni(参考訳) 合成データ生成手法の最近の進歩により、実際のものとはほとんど区別できない高光写実性画像の作成が可能になった。 さらに、合成生成パイプラインは無制限に画像を生成できる可能性がある。 高いフォトリアリズムとスケールの組み合わせは、合成データを様々な機械学習(ML)パイプラインを改善するための有望な候補に変える。 これまでのところ、この分野の大規模な研究は、トレーニングデータの強化と拡大によって、トレーニングに合成画像を使うことに重点を置いている。 本研究は, 合成データを用いた学習とは対照的に, 合成データがモデル選択に有用かどうかを考察する。 画像分類のタスクを考慮すると、データが不足している場合には、合成データを使用して保持された検証セットを置き換え、より大きなデータセットでトレーニングできることが示される。 また、実領域に適合するように合成誤差推定を校正する新しい手法も導入する。 このようなキャリブレーションは,モデル選択のための合成データの有用性を著しく向上させることを示す。

Recent breakthroughs in synthetic data generation approaches made it possible to produce highly photorealistic images which are hardly distinguishable from real ones. Furthermore, synthetic generation pipelines have the potential to generate an unlimited number of images. The combination of high photorealism and scale turn synthetic data into a promising candidate for improving various machine learning (ML) pipelines. Thus far, a large body of research in this field has focused on using synthetic images for training, by augmenting and enlarging training data. In contrast to using synthetic data for training, in this work we explore whether synthetic data can be beneficial for model selection. Considering the task of image classification, we demonstrate that when data is scarce, synthetic data can be used to replace the held out validation set, thus allowing to train on a larger dataset. We also introduce a novel method to calibrate the synthetic error estimation to fit that of the real domain. We show that such calibration significantly improves the usefulness of synthetic data for model selection.
翻訳日:2023-07-07 01:06:24 公開日:2023-07-05
# SCEI:IoTシステムのためのスマートコントラクト駆動エッジインテリジェンスフレームワーク

SCEI: A Smart-Contract Driven Edge Intelligence Framework for IoT Systems ( http://arxiv.org/abs/2103.07050v2 )

ライセンス: Link先を確認
Chenhao Xu, Jiaqi Ge, Yong Li, Yao Deng, Longxiang Gao, Mengshi Zhang, Yong Xiang, Xi Zheng(参考訳) federated learning(fl)は、データプライバシを維持しながら、エッジデバイス上の共有モデルの協調トレーニングを可能にする。 flは独立かつ同一分散(iid)データセットを扱う場合に有効であるが、非iidデータセットでは問題となる。 様々なパーソナライズされたアプローチが提案されているが、実際のシナリオ(例えば、時間や場所によって変化するスマートトランスポートシステムにおけるドライバの振る舞い)でよく見られるような、データ分散の根本的な変化には対処できない。 さらに、不明なデバイス間の信頼の懸念や集中型アグリゲータに対するセキュリティの懸念も、新たな課題となっている。 これらの課題に対処するために,ブロックチェーンとフェデレーション学習に基づく動的に最適化された個人深層学習方式を提案する。 具体的には、ブロックチェーンに実装された革新的なスマートコントラクトによって、分散エッジデバイスがパーソナライズされたモデルの最適な重み付けに関するコンセンサスに達することができる。 複数のモデルと実世界のデータセットを用いた実験により,提案手法は従来のフェデレーションとパーソナライズされた学習手法と比較して精度が高く,より高速な収束を実現することが示された。

Federated learning (FL) enables collaborative training of a shared model on edge devices while maintaining data privacy. FL is effective when dealing with independent and identically distributed (iid) datasets, but struggles with non-iid datasets. Various personalized approaches have been proposed, but such approaches fail to handle underlying shifts in data distribution, such as data distribution skew commonly observed in real-world scenarios (e.g., driver behavior in smart transportation systems changing across time and location). Additionally, trust concerns among unacquainted devices and security concerns with the centralized aggregator pose additional challenges. To address these challenges, this paper presents a dynamically optimized personal deep learning scheme based on blockchain and federated learning. Specifically, the innovative smart contract implemented in the blockchain allows distributed edge devices to reach a consensus on the optimal weights of personalized models. Experimental evaluations using multiple models and real-world datasets demonstrate that the proposed scheme achieves higher accuracy and faster convergence compared to traditional federated and personalized learning approaches.
翻訳日:2023-07-07 01:06:11 公開日:2023-07-05
# one-step abductive multi-target learningによるノイズラベルの取り扱いとhelicobacter pyloriセグメンテーションへの応用

Handling Noisy Labels via One-Step Abductive Multi-Target Learning and Its Application to Helicobacter Pylori Segmentation ( http://arxiv.org/abs/2011.14956v4 )

ライセンス: Link先を確認
Yongquan Yang, Yiming Yang, Jie Chen, Jiayi Zheng, Zhongxi Zheng(参考訳) ノイズの多いラベルから学ぶことは、多くの現実世界のシナリオにおいて正確な接地ラベルがないため、重要な関心事である。 実際には、この問題に対する様々なアプローチは、まず、潜在的にノイズの多いラベル付きインスタンスに対応する修正を行い、次に、修正された情報で予測モデルを更新する。 しかし, 病理組織学などの特定の領域では, 複雑な雑音を伴うラベルを手作業で達成することは困難か不可能であることが多い。 この状況は、より難しい2つの問題を引き起こす。 1) 潜在的に騒がしいラベル付きインスタンスに対応する補正を行う手法には,ラベルに存在する複雑なノイズによる制約がある。 2) バリデーション・テストの適切な評価戦略は, 騒音のない地中ラベルの収集が難しいため不明確である。 本稿では,この2つの課題の軽減に着目する。 そこで,本研究では,学習モデルの予測を制約するために,多目的学習手順を通じ,機械学習に一段階論理推論を課す一段階帰納的多目標学習(osamtl)を提案する。 そこで,本研究では,osamtlの1段階論理推論の結果から得られた学習モデルの予測と論理事実とのコンピテンシーを推定することにより,アプローチのアウトプットの論理合理性を評価する論理評価式(laf)を提案する。 mhwsia の helicobacter pylori (h. pylori) セグメンテーションタスクに osamtl と laf を適用することで、osamtl がより合理的な予測を論理的に達成できることを示した。

Learning from noisy labels is an important concern because of the lack of accurate ground-truth labels in plenty of real-world scenarios. In practice, various approaches for this concern first make some corrections corresponding to potentially noisy-labeled instances, and then update predictive model with information of the made corrections. However, in specific areas, such as medical histopathology whole slide image analysis (MHWSIA), it is often difficult or even impossible for experts to manually achieve the noisy-free ground-truth labels which leads to labels with complex noise. This situation raises two more difficult problems: 1) the methodology of approaches making corrections corresponding to potentially noisy-labeled instances has limitations due to the complex noise existing in labels; and 2) the appropriate evaluation strategy for validation/testing is unclear because of the great difficulty in collecting the noisy-free ground-truth labels. In this paper, we focus on alleviating these two problems. For the problem 1), we present one-step abductive multi-target learning (OSAMTL) that imposes a one-step logical reasoning upon machine learning via a multi-target learning procedure to constrain the predictions of the learning model to be subject to our prior knowledge about the true target. For the problem 2), we propose a logical assessment formula (LAF) that evaluates the logical rationality of the outputs of an approach by estimating the consistencies between the predictions of the learning model and the logical facts narrated from the results of the one-step logical reasoning of OSAMTL. Applying OSAMTL and LAF to the Helicobacter pylori (H. pylori) segmentation task in MHWSIA, we show that OSAMTL is able to enable the machine learning model achieving logically more rational predictions, which is beyond various state-of-the-art approaches in handling complex noisy labels.
翻訳日:2023-07-07 01:05:05 公開日:2023-07-05
# CTR予測のためのアンサンブル知識蒸留

Ensemble Knowledge Distillation for CTR Prediction ( http://arxiv.org/abs/2011.04106v2 )

ライセンス: Link先を確認
Jieming Zhu, Jinyang Liu, Weiqi Li, Jincai Lai, Xiuqiang He, Liang Chen, Zibin Zheng(参考訳) 近年、深層学習に基づくモデルがクリックスルー率(CTR)予測のために広く研究され、多くの産業アプリケーションにおいて予測精度が向上している。 しかし、現在の研究は主に複雑なネットワークアーキテクチャを構築し、高度な機能相互作用と動的なユーザー行動をよりよく捉えることに焦点を当てている。 モデル複雑性の増加は、オンライン推論を遅くし、リアルタイムアプリケーションでの採用を妨げる可能性がある。 代わりに、知識蒸留(KD)に基づく新しいモデルトレーニング戦略を目標としています。 KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。 KD戦略は、バニラDNNモデルとして学生モデルを単純化するだけでなく、最先端の教師モデルよりも大幅に精度を向上する。 この利点は、より正確な学生モデルトレーニングのための強力な教師のアンサンブルの使用をさらに探求する動機となっている。 また,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。 12の既存モデルと3つの産業データセットに対して包括的な実験を行います。 オフラインおよびオンラインA/Bテストの結果は、我々のKDベースのトレーニング戦略の有効性を示している。

Recently, deep learning-based models have been widely studied for click-through rate (CTR) prediction and lead to improved prediction accuracy in many industrial applications. However, current research focuses primarily on building complex network architectures to better capture sophisticated feature interactions and dynamic user behaviors. The increased model complexity may slow down online inference and hinder its adoption in real-time applications. Instead, our work targets at a new model training strategy based on knowledge distillation (KD). KD is a teacher-student learning framework to transfer knowledge learned from a teacher model to a student model. The KD strategy not only allows us to simplify the student model as a vanilla DNN model but also achieves significant accuracy improvements over the state-of-the-art teacher models. The benefits thus motivate us to further explore the use of a powerful ensemble of teachers for more accurate student model training. We also propose some novel techniques to facilitate ensembled CTR prediction, including teacher gating and early stopping by distillation loss. We conduct comprehensive experiments against 12 existing models and across three industrial datasets. Both offline and online A/B testing results show the effectiveness of our KD-based training strategy.
翻訳日:2023-07-07 01:04:28 公開日:2023-07-05
# 3次元点雲の部分分割に対するクロスシェイプ注意

Cross-Shape Attention for Part Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2003.09053v6 )

ライセンス: Link先を確認
Marios Loizou, Siddhant Garg, Dmitry Petrov, Melinos Averkiou, Evangelos Kalogerakis(参考訳) 本稿では,3次元形状分割を目的とし,コレクション内の形状にまたがる点的特徴表現を伝播する深層学習手法を提案する。 形状の特徴と他の形状との相互作用を可能にするクロスシェイプアテンション機構を提案する。 このメカニズムは、点間の相互作用の度合いと、形状間の特徴伝播の仲介の両方を評価し、その結果の点次特徴表現の精度と一貫性を向上させる。 また,各試験形状に対して,横断型注意操作に適した形状を選択する形状検索手法を提案する。 我々の実験は、私たちのアプローチが人気のPartNetデータセットに最先端の結果をもたらすことを示した。

We present a deep learning method that propagates point-wise feature representations across shapes within a collection for the purpose of 3D shape segmentation. We propose a cross-shape attention mechanism to enable interactions between a shape's point-wise features and those of other shapes. The mechanism assesses both the degree of interaction between points and also mediates feature propagation across shapes, improving the accuracy and consistency of the resulting point-wise feature representations for shape segmentation. Our method also proposes a shape retrieval measure to select suitable shapes for cross-shape attention operations for each test shape. Our experiments demonstrate that our approach yields state-of-the-art results in the popular PartNet dataset.
翻訳日:2023-07-07 01:03:38 公開日:2023-07-05
# 多くの相互作用する世界アプローチにおける固有状態: 1d と 2d の基底状態と 1d の励起状態(ロングバージョン)

Eigenstates in the Many Interacting Worlds approach: Ground states in 1D and 2D and excited states in 1D (long version) ( http://arxiv.org/abs/1712.01918v3 )

ライセンス: Link先を確認
Hannes Herrmann, Michael J. W. Hall, Howard M. Wiseman, Dirk - Andr\'e Deckert(参考訳) 近年,波動関数を持たない量子理論へのMIWアプローチが提案されている。 このアプローチはシュル=オディンガー方程式の数値積分器に極めて自然に導かれる。 このような積分器はより自由度の高い固定格子法よりも有利であることが示唆されている。 しかし、しかしながら、複数の空間次元および/または複数の粒子のコンクリートMIWモデルについてはほとんど分かっていない。 本研究は、任意の自由度を扱うためのMIW法をさらに発展させ、一次元における一粒子基底と励起状態の計算と2次元における基底状態に対する対応する数値的実装の体系的研究を行う。 このステップにより、より高い自由度を治療し、さらなる研究を刺激したいと考えています。

Recently the Many-Interacting-Worlds (MIW) approach to a quantum theory without wave functions was proposed. This approach leads quite naturally to numerical integrators of the Schr\"odinger equation. It has been suggested that such integrators may feature advantages over fixed-grid methods for higher numbers of degrees of freedom. However, as yet, little is known about concrete MIW models for more than one spatial dimension and/or more than one particle. In this work we develop the MIW approach further to treat arbitrary degrees of freedom, and provide a systematic study of a corresponding numerical implementation for computing one-particle ground and excited states in one dimension, and ground states in two spatial dimensions. With this step towards the treatment of higher degrees of freedom we hope to stimulate their further study.
翻訳日:2023-07-07 01:03:25 公開日:2023-07-05
# the devil is the margin: ネットワークキャリブレーションのためのマージンベースのラベル平滑化

The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration ( http://arxiv.org/abs/2111.15430v4 )

ライセンス: Link先を確認
Bingyuan Liu, Ismail Ben Ayed, Adrian Galdran, Jose Dolz(参考訳) ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究は、それらの調整が不十分であることを示しており、過密な予測を生じさせている。 トレーニング中のクロスエントロピーの最小化により、オーバーフィッティングによってミスキャリブレーションが悪化し、予測されたソフトマックス確率を1つのホットラベル割り当てと一致させる。 これにより、残りのアクティベーションよりもはるかに大きい正しいクラスのpre-softmaxアクティベーションが得られる。 文献からの最近の証拠は、予測のエントロピーの暗黙的または明示的な最大化を埋め込んだ損失関数は、最先端のキャリブレーション性能をもたらすことを示唆している。 現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。 特に、これらの損失は、ロジット距離の等式制約を課す線形ペナルティ(あるいはラグランジアン)の近似と見なすことができる。 このことは、そのような基礎となる等式制約の重要な制限であり、従って勾配が常に非形式的解に向かって進み、勾配に基づく最適化の際の判別性能とモデルのキャリブレーションの最良の妥協点に達するのを防いでいることを示している。 本稿では,不等式制約に基づく簡易かつ柔軟な一般化を提案し,ロジット距離に制御可能なマージンを課す。 画像分類,セマンティックセグメンテーション,NLPベンチマークの総合的な実験により,本手法は識別性能に影響を与えることなく,ネットワークキャリブレーションの観点で,これらのタスクに新たな最先端結果を設定することを示した。 コードはhttps://github.com/by-liu/MbLSで公開されている。

In spite of the dominant performances of deep neural networks, recent works have shown that they are poorly calibrated, resulting in over-confident predictions. Miscalibration can be exacerbated by overfitting due to the minimization of the cross-entropy during training, as it promotes the predicted softmax probabilities to match the one-hot label assignments. This yields a pre-softmax activation of the correct class that is significantly larger than the remaining activations. Recent evidence from the literature suggests that loss functions that embed implicit or explicit maximization of the entropy of predictions yield state-of-the-art calibration performances. We provide a unifying constrained-optimization perspective of current state-of-the-art calibration losses. Specifically, these losses could be viewed as approximations of a linear penalty (or a Lagrangian) imposing equality constraints on logit distances. This points to an important limitation of such underlying equality constraints, whose ensuing gradients constantly push towards a non-informative solution, which might prevent from reaching the best compromise between the discriminative performance and calibration of the model during gradient-based optimization. Following our observations, we propose a simple and flexible generalization based on inequality constraints, which imposes a controllable margin on logit distances. Comprehensive experiments on a variety of image classification, semantic segmentation and NLP benchmarks demonstrate that our method sets novel state-of-the-art results on these tasks in terms of network calibration, without affecting the discriminative performance. The code is available at https://github.com/by-liu/MbLS .
翻訳日:2023-07-07 00:58:23 公開日:2023-07-05
# ランダム位相熱波動関数法による強磁場中の光解離のシミュレーション

Simulating photo-dissociation in strong field by the random phase thermal wavefunction approach ( http://arxiv.org/abs/2110.12458v2 )

ライセンス: Link先を確認
Bar Ezra, Ronnie Kosloff, Shimshon Kallush(参考訳) 光解離過程のシミュレーションは、関連する状態の数が非常に大きい場合の課題である。 回転ダイナミクスを組み込んだ強磁場光解離過程に対するab-initio量子モデルを提案する。 ランダム位相熱波動関数法を用いて計算複雑性を低減した。 シミュレーション結果は、光フラグメントの運動量角分布のような実験的観測可能と類似している。 2つの場の強度でこれらの観測対象の収束を研究した。 シミュレーション法は、正確な直接数値法の到達範囲をはるかに超えた実験条件下での広帯域時間領域分光に応用することができる。

Simulating photo-dissociation processes is a challenging task when the number of states involved is significantly large. We present an ab-initio quantum model for strong field photo-dissociation processes which incorporates rotational dynamics. The computational complexity was reduced by employing the random phase thermal wavefunction method. The simulation outcome are analogous to experimental observable, such as the momentum angular distribution of the photo-fragments. We studied the convergence of these observables at two field intensities. The simulation method can be applied to wide-ranging time-domain spectroscopy at experimental conditions far beyond the reach of accurate direct numerical methods.
翻訳日:2023-07-07 00:56:26 公開日:2023-07-05
# バッチ強化学習における受動的データ収集の呪い

The Curse of Passive Data Collection in Batch Reinforcement Learning ( http://arxiv.org/abs/2106.09973v3 )

ライセンス: Link先を確認
Chenjun Xiao, Ilbin Lee, Bo Dai, Dale Schuurmans, Csaba Szepesvari(参考訳) 高い利害関係のアプリケーションでは、アクティブな実験は危険すぎると考えられ、データはしばしば受動的に収集される。 バンディットやパッシブデータ収集、アクティブデータ収集といった単純な場合も同様に有効であるが、制御された状態のシステムからデータを集める場合、パッシブサンプリングのコストははるかに高くなる。 現在の論文の主な焦点は、この価格の特徴付けである。 例えば、episodic finite state-action markov decision process (mdps) with $\mathrm{s}$ states and $\mathrm{a}$ actions で学習すると、最高の(しかし受動的に選択された)ロギングポリシーである$\omega(\mathrm{a}^{\min(\mathrm{s}-1, h)}/\varepsilon^2)$ episodes が$\epsilon$-optimal policy を得るのに必要(かつ十分)であり、$h$ はエピソードの長さである。 これは、サンプルの複雑さがアクティブなデータ収集の場合と比較して指数関数的に爆発することを示している。 また,これらの結果は,関数近似の存在下での他の基準や学習など,様々な方向に拡張され,同様の結論が得られた。 この結果の顕著な特徴は、受動的学習を難しくする要因を理解するために重要である指数を鋭く特徴づけることである。

In high stake applications, active experimentation may be considered too risky and thus data are often collected passively. While in simple cases, such as in bandits, passive and active data collection are similarly effective, the price of passive sampling can be much higher when collecting data from a system with controlled states. The main focus of the current paper is the characterization of this price. For example, when learning in episodic finite state-action Markov decision processes (MDPs) with $\mathrm{S}$ states and $\mathrm{A}$ actions, we show that even with the best (but passively chosen) logging policy, $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H)}/\varepsilon^2)$ episodes are necessary (and sufficient) to obtain an $\epsilon$-optimal policy, where $H$ is the length of episodes. Note that this shows that the sample complexity blows up exponentially compared to the case of active data collection, a result which is not unexpected, but, as far as we know, have not been published beforehand and perhaps the form of the exact expression is a little surprising. We also extend these results in various directions, such as other criteria or learning in the presence of function approximation, with similar conclusions. A remarkable feature of our result is the sharp characterization of the exponent that appears, which is critical for understanding what makes passive learning hard.
翻訳日:2023-07-07 00:55:23 公開日:2023-07-05
# SAITS: 自己注意に基づく時系列計算

SAITS: Self-Attention-based Imputation for Time Series ( http://arxiv.org/abs/2202.08516v5 )

ライセンス: Link先を確認
Wenjie Du, David Cote, Yan Liu(参考訳) 時系列データの欠落は、高度な分析方法に障害を課す広範囲な問題である。 一般的な解決策はインプテーションであり、どの値を埋めるべきかを決めることが基本的な課題である。 本稿では,多変量時系列における値計算の欠落に対する自己注意機構に基づくSAITSを提案する。 SAITSは共同最適化アプローチによって訓練され、2つの対角行列自己注意ブロック(DMSA)の重み付け組み合わせから欠落値を学ぶ。 dmsaは、時間ステップ間の時間依存性と特徴相関の両方を明示的に捉え、インプテーション精度とトレーニング速度を改善する。 一方、重み付け合成設計では、注意マップと不足情報に基づいて、2つのDMSAブロックから学習した表現に重みを動的に割り当てることができる。 広範かつ質的な実験により,SAITSは時系列計算タスクにおける最先端手法を効率よく上回り,実世界の不完全時系列データに基づくパターン認識モデルの学習性能を向上させるためのSAITSの可能性を明らかにする。 コードはGitHubでhttps://github.com/WenjieDu/SAITSで公開されている。

Missing data in time series is a pervasive problem that puts obstacles in the way of advanced analysis. A popular solution is imputation, where the fundamental challenge is to determine what values should be filled in. This paper proposes SAITS, a novel method based on the self-attention mechanism for missing value imputation in multivariate time series. Trained by a joint-optimization approach, SAITS learns missing values from a weighted combination of two diagonally-masked self-attention (DMSA) blocks. DMSA explicitly captures both the temporal dependencies and feature correlations between time steps, which improves imputation accuracy and training speed. Meanwhile, the weighted-combination design enables SAITS to dynamically assign weights to the learned representations from two DMSA blocks according to the attention map and the missingness information. Extensive experiments quantitatively and qualitatively demonstrate that SAITS outperforms the state-of-the-art methods on the time-series imputation task efficiently and reveal SAITS' potential to improve the learning performance of pattern recognition models on incomplete time-series data from the real world. The code is open source on GitHub at https://github.com/WenjieDu/SAITS.
翻訳日:2023-07-07 00:45:28 公開日:2023-07-05
# 語彙対称性としての組成性

Compositionality as Lexical Symmetry ( http://arxiv.org/abs/2201.12926v2 )

ライセンス: Link先を確認
Ekin Aky\"urek and Jacob Andreas(参考訳) 意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。 多くの既存のアプローチは、文解釈の合成プロセスを強制するモデルアーキテクチャによってこの制限を克服している。 本稿では,モデルよりもデータ分布の対称性に対する制約として,構成性のドメイン一般およびモデル非依存的な定式化を提案する。 非公式に、あるタスクが合成モデルによって解くことができるとき、対応するデータ拡張スキーム(例を他のよく形成された例に変換する手順)があり、同じタスクを解くように訓練されたモデルに構成的帰納的バイアスを与える。 LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。 既存の構成データ拡張手順とは異なり、LEXSYMはテキスト、構造化データ、さらには画像に不可知的にデプロイできる。 COGSセマンティックパーシング、SCANおよびALCHEMY命令、CLEVR-COGENT視覚的質問応答データセットにおいて、最先端のタスク固有モデルに適合または超越する。

In tasks like semantic parsing, instruction following, and question answering, standard deep networks fail to generalize compositionally from small datasets. Many existing approaches overcome this limitation with model architectures that enforce a compositional process of sentence interpretation. In this paper, we present a domain-general and model-agnostic formulation of compositionality as a constraint on symmetries of data distributions rather than models. Informally, we prove that whenever a task can be solved by a compositional model, there is a corresponding data augmentation scheme -- a procedure for transforming examples into other well formed examples -- that imparts compositional inductive bias on any model trained to solve the same task. We describe a procedure called LEXSYM that discovers these transformations automatically, then applies them to training data for ordinary neural sequence models. Unlike existing compositional data augmentation procedures, LEXSYM can be deployed agnostically across text, structured data, and even images. It matches or surpasses state-of-the-art, task-specific models on COGS semantic parsing, SCAN and ALCHEMY instruction following, and CLEVR-COGENT visual question answering datasets.
翻訳日:2023-07-07 00:45:06 公開日:2023-07-05
# STEdge:多層指導と正規化による自己学習エッジ検出

STEdge: Self-training Edge Detection with Multi-layer Teaching and Regularization ( http://arxiv.org/abs/2201.05121v2 )

ライセンス: Link先を確認
Yunfan Ye, Renjiao Yi, Zhiping Cai, Kai Xu(参考訳) 学習に基づくエッジ検出は,手作業で取得するのが面倒なピクセル単位のアノテーションで強く管理されている。 本研究では,大規模非ラベル画像データセットの未処理富を活用して,自己学習エッジ検出の問題点について検討する。 我々は多層正規化と自己学習による自己教師型フレームワークを設計する。 特に、入力画像とその摂動対応に対して一貫性を持たせるために、複数のレイヤの出力を強制する一貫性規則化を課す。 l0-smoothingを"摂動(perturbation)"として採用し,自己教師付き学習におけるクラスタ仮定に従えば,高度境界に接するエッジ予測を奨励する。 一方、ネットワークは、Cannyエッジで初期化され、トレーニングが進むにつれてネットワークによって反復的に洗練される擬似ラベルによって、多層監視によってトレーニングされる。 正規化と自己学習は精度とリコールのバランスが良く、教師付きメソッドよりも大幅にパフォーマンスが向上し、ターゲットデータセットに軽量な改善が加えられた。 さらに,本手法は強力なデータセット間一般化性を示す。 例えば、最先端の手法と比較して、未確認のBIPEDデータセットでテストすると、ODSが4.8%改善され、OISが5.8%改善された。

Learning-based edge detection has hereunto been strongly supervised with pixel-wise annotations which are tedious to obtain manually. We study the problem of self-training edge detection, leveraging the untapped wealth of large-scale unlabeled image datasets. We design a self-supervised framework with multi-layer regularization and self-teaching. In particular, we impose a consistency regularization which enforces the outputs from each of the multiple layers to be consistent for the input image and its perturbed counterpart. We adopt L0-smoothing as the 'perturbation' to encourage edge prediction lying on salient boundaries following the cluster assumption in self-supervised learning. Meanwhile, the network is trained with multi-layer supervision by pseudo labels which are initialized with Canny edges and then iteratively refined by the network as the training proceeds. The regularization and self-teaching together attain a good balance of precision and recall, leading to a significant performance boost over supervised methods, with lightweight refinement on the target dataset. Furthermore, our method demonstrates strong cross-dataset generality. For example, it attains 4.8% improvement for ODS and 5.8% for OIS when tested on the unseen BIPED dataset, compared to the state-of-the-art methods.
翻訳日:2023-07-07 00:44:47 公開日:2023-07-05
# ボソンサンプリングによる同一ボソンの作業分布の効率的なシミュレーション

Efficiently simulating the work distribution of identical bosons with boson sampling ( http://arxiv.org/abs/2201.01562v3 )

ライセンス: Link先を確認
Wen-Qiang Liu and Zhang-qi Yin(参考訳) ボーソンサンプリングは理論的に提案され、量子計算の利点を示すために実験的に実証されている。 しかし、ボソンサンプリングの実践的応用の深い理解はいまだに欠けている。 本稿では、1次元量子ピストン系における複数の同一ボソンの作業分布のシミュレートにボソンサンプリングを用いることを提案する。 ワーク分布をボソンサンプリングにリンクし,マルチボソン固有状態間の遷移振幅行列を数値計算し,その行列をボソンサンプリングの線形光学ネットワークにマッピングする。 グループ化確率推定法を用いて、ボソンサンプリングの出力確率を通して効率よく作業分布をシミュレートすることができる。 このスキームは、少なくともサンプルと光学素子の多項式数を必要とする。 この研究は、光子と線形光学のみを用いた複雑な量子ワーク分布の計算への新しい道を開く。

Boson sampling has been theoretically proposed and experimentally demonstrated to show quantum computational advantages. However, it still lacks the deep understanding of the practical applications of boson sampling. Here we propose that boson sampling can be used to simulate the work distribution of multiple identical bosons in a one-dimensional quantum piston system. We link the work distribution to boson sampling and numerically calculate the transition amplitude matrix between the multi-boson eigenstates, and then map the matrix to a linear optical network of boson sampling. The work distribution can be efficiently simulated through the output probabilities of boson sampling by using the method of the grouped probability estimation. The scheme requires at most the polynomial number of the samples and the optical elements. The work opens up a new path towards the calculation of complex quantum work distribution using only photons and linear optics.
翻訳日:2023-07-07 00:44:06 公開日:2023-07-05
# 非視覚マーカーを用いた持続的動物識別

Persistent Animal Identification Leveraging Non-Visual Markers ( http://arxiv.org/abs/2112.06809v7 )

ライセンス: Link先を確認
Michael P. J. Camilleri and Li Zhang and Rasneer S. Bains and Andrew Zisserman and Christopher K. I. Williams(参考訳) 本研究の目的は, 生物学的研究における自動行動認識の先駆けとして, 乱雑なホームケージ環境における各マウスの識別と識別を提供することである。 これは非常に難しい問題です。 (i)各マウスの視覚的特徴の区別の欠如 (ii)一定の閉塞を伴うシーンの閉じた領域は、標準的な視覚追跡アプローチが使用不可能となる。 しかし、各マウスの位置の粗い推定は独自のRFIDインプラントから可能であるため、(弱)追跡情報と身元に関する粗い情報とを最適に組み合わせることが可能である。 目的を達成するために、私たちは以下の重要な貢献をします。 (a)代入問題としてのオブジェクト識別問題の定式化(整数線形計画法を用いて解決) b)トラックレットとRFIDデータの親和性に関する新しい確率モデル。 後者は、粗い局所化が与えられた物体検出の原則的確率的処理を提供するため、モデルの重要な部分である。 本手法は, 動物識別の精度を77%向上し, 動物が隠れているときの急激な検出を拒否できる。

Our objective is to locate and provide a unique identifier for each mouse in a cluttered home-cage environment through time, as a precursor to automated behaviour recognition for biological research. This is a very challenging problem due to (i) the lack of distinguishing visual features for each mouse, and (ii) the close confines of the scene with constant occlusion, making standard visual tracking approaches unusable. However, a coarse estimate of each mouse's location is available from a unique RFID implant, so there is the potential to optimally combine information from (weak) tracking with coarse information on identity. To achieve our objective, we make the following key contributions: (a) the formulation of the object identification problem as an assignment problem (solved using Integer Linear Programming), and (b) a novel probabilistic model of the affinity between tracklets and RFID data. The latter is a crucial part of the model, as it provides a principled probabilistic treatment of object detections given coarse localisation. Our approach achieves 77% accuracy on this animal identification problem, and is able to reject spurious detections when the animals are hidden.
翻訳日:2023-07-07 00:43:39 公開日:2023-07-05
# 火災と闘う: 生成バイアス変換によるバイアスフリーデータなしの対比的デバイアス

Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data via Generative Bias-transformation ( http://arxiv.org/abs/2112.01021v2 )

ライセンス: Link先を確認
Yeonsung Jung, Hajin Shim, June Yong Yang, Eunho Yang(参考訳) ディープニューラルネットワーク(DNN)は、過容量ネットワークを一般化する印象的な能力にもかかわらず、しばしば、識別タスクのタスク関連情報ではなく、ショートカットとして悪性バイアスに大きく依存する。 この問題に対処するために、近年の研究はバイアスに関する補助的な情報を利用しており、これは実際には得られない。 しかしながら、これらの手法の成功は、満たしていない仮定のため、必ずしも保証されない。 本稿では, バイアスラベルやバイアスフリーサンプルを使わずに機能する, 生成バイアス変換(cdvg)によるコントラストデバイアス手法を提案する。 識別モデルだけでなく画像翻訳モデルも悪性バイアスに焦点をあてる傾向にあるという我々の観察に触発されたCDvGは、タスク関連情報を保存しながら、画像翻訳モデルを用いて1つのバイアスモードを別のバイアスに変換する。 さらに、バイアス変換されたビューは、対比学習を通じて互いに設定され、バイアス不変表現を学習する。 本手法は, バイアスのないサンプルが不足あるいは欠落している場合に, 従来の手法に比べて優れた性能を示す。 さらに、CDvGは、様々な実験結果によって示されるように、プラグアンドプレイ方式でバイアスのないサンプルにフォーカスする手法と統合することができる。

Deep neural networks (DNNs), despite their impressive ability to generalize over-capacity networks, often rely heavily on malignant bias as shortcuts instead of task-related information for discriminative tasks. To address this problem, recent studies utilize auxiliary information related to the bias, which is rarely obtainable in practice, or sift through a handful of bias-free samples for debiasing. However, the success of these methods is not always guaranteed due to the unfulfilled presumptions. In this paper, we propose a novel method, Contrastive Debiasing via Generative Bias-transformation (CDvG), which works without explicit bias labels or bias-free samples. Motivated by our observation that not only discriminative models but also image translation models tend to focus on the malignant bias, CDvG employs an image translation model to transform one bias mode into another while preserving the task-relevant information. Additionally, the bias-transformed views are set against each other through contrastive learning to learn bias-invariant representations. Our method demonstrates superior performance compared to prior approaches, especially when bias-free samples are scarce or absent. Furthermore, CDvG can be integrated with the methods that focus on bias-free samples in a plug-and-play manner for additional enhancements, as demonstrated by diverse experimental results.
翻訳日:2023-07-07 00:43:21 公開日:2023-07-05
# 光学場におけるエンタングルメントインジケータの改良と非ガウス性誘導型明るい真空の事象対応実験への応用

Improved entanglement indicators for optical fields and its application in the event-ready experiment for bright squeezed vacuum with induced non-gaussianity ( http://arxiv.org/abs/2205.05641v3 )

ライセンス: Link先を確認
Bianka Woloncewicz, Tamoghna Das, Marek \.Zukowski(参考訳) 4モードの光学場、すなわち2モードの直交偏光を持つ2つのビームに対する分離性条件のより良いバージョンが与えられる。 我々の条件はばらつきを伴う。 彼らの意味は直感的であり、その実装は実現可能である。 すなわち、与えられた量子状態において、平均値の周りのデータの拡散が分離可能な状態の集合に対して予測される最小の拡散よりも小さい場合、与えられた状態は絡み合う。 我々の条件は標準量子ストークス観測値と正規化ストークス観測値に対して定式化されており、分散を含む4つのモード光学場に対する以前の条件よりも効率的である。 我々は、光子の追加または減算によって得られる非ガウス性誘導非ガウス性を用いて、明るい圧縮真空の条件を試験する。 また,イベント対応実験において,そのような状態を生成するための実践的な実験手法を提案する。

Better versions of separability conditions for four mode optical fields, i.e. two beams with two modes of mutually orthogonal polarization are given. Our conditions involve variances. Their meaning is intuitive and their implementation is feasible. Namely, if for a given quantum state the spread of the data around its mean value is smaller than the minimal spread predicted for the set of separable states, then the given state is entangled. Our conditions are formulated for standard quantum Stokes observables and normalized Stokes observables and result to be more efficient that the previous conditions for four mode optical fields involving variances. We test our conditions for bright squeezed vacuum with (and without) induced non-gaussianity obtained by addition or subtraction of photons. Also we propose a practical experimental scheme of how to generate such states for an event-ready experiment.
翻訳日:2023-07-07 00:37:32 公開日:2023-07-05
# 視覚的アフォーアンス学習に向けて--アフォーアンスセグメンテーションと認識のためのベンチマーク

Towards Visual Affordance Learning: A Benchmark for Affordance Segmentation and Recognition ( http://arxiv.org/abs/2203.14092v2 )

ライセンス: Link先を確認
Zeyad Khalifa, Syed Afaq Ali Shah(参考訳) 物体の物理的およびテクスチュラルな属性は、コンピュータビジョンにおける認識、検出、セグメンテーションタスクのために広く研究されている。 ~大規模イメージネットなどのデータセットは,深層ニューラルネットワークを用いた特徴学習や,手作りの特徴抽出のために提案されている。 オブジェクトとインテリジェントに対話するには、ロボットやインテリジェントマシンは、従来の物理的/テクスチャ的属性を超えて推測し、視覚的手当と呼ばれる視覚的な手掛かりを理解して学習し、手頃な認識、検出、セグメンテーションを行う能力が必要です。 現在、視覚的余裕の理解と学習のための大規模なデータセットは公開されていない。 本稿では,37の対象カテゴリから4710のrgbd画像を対象に,15の視覚対応カテゴリを付記した,大規模多視点rgbdビジュアルアフォーアンス学習データセットを提案する。 私たちの知る限りでは、これは初めての、そして最大のマルチビューのrgbdビジュアルアプライアンス学習データセットです。 我々は、一般的な視覚変換器と畳み込みニューラルネットワークを用いて、割当セグメンテーションと認識タスクのためのデータセットをベンチマークする。 いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。 実験結果は,データセットの難解な性質を示し,新しいロバストでロバストな学習アルゴリズムの可能性を示す。 データセットはhttps://sites.google.com/view/afaqshah/datasetで公開されている。

The physical and textural attributes of objects have been widely studied for recognition, detection and segmentation tasks in computer vision.~A number of datasets, such as large scale ImageNet, have been proposed for feature learning using data hungry deep neural networks and for hand-crafted feature extraction. To intelligently interact with objects, robots and intelligent machines need the ability to infer beyond the traditional physical/textural attributes, and understand/learn visual cues, called visual affordances, for affordance recognition, detection and segmentation. To date there is no publicly available large dataset for visual affordance understanding and learning. In this paper, we introduce a large scale multi-view RGBD visual affordance learning dataset, a benchmark of 47210 RGBD images from 37 object categories, annotated with 15 visual affordance categories. To the best of our knowledge, this is the first ever and the largest multi-view RGBD visual affordance learning dataset. We benchmark the proposed dataset for affordance segmentation and recognition tasks using popular Vision Transformer and Convolutional Neural Networks. Several state-of-the-art deep learning networks are evaluated each for affordance recognition and segmentation tasks. Our experimental results showcase the challenging nature of the dataset and present definite prospects for new and robust affordance learning algorithms. The dataset is publicly available at https://sites.google.com/view/afaqshah/dataset.
翻訳日:2023-07-07 00:36:08 公開日:2023-07-05
# 横結合量子ビットにおける熱伝達:共通貯留層を有する光制御熱変調器

Heat transfer in transversely coupled qubits: Optically controlled thermal modulator with common reservoirs ( http://arxiv.org/abs/2203.14050v3 )

ライセンス: Link先を確認
Yi-jia Yang, Yu-qiang Liu and Chang-shui Yu(参考訳) 本稿では,2種類の熱貯留層に接触する2つの逆結合量子ビットによる熱伝達を系統的に研究した。 1つは独立した熱貯水池で、1つの量子ビットのみと相互作用し、もう1つは2つの量子ビットと同時に相互作用できる共通の熱貯水池である。 独立した熱貯水池と比較すると、一般的な貯水池は常に熱流を抑制する。 しかし、高い固有周波数に対応する散逸速度が低い固有周波数に対応するものよりも著しく高い場合、共通環境は熱電流を高めることができる。 特に、2つの量子ビットと適切な散逸の共振結合の場合、定常状態は、進化せず、ゼロ熱電流に寄与しない定常ダーク状態と、最大熱電流に対応する残留定常状態とに分解することができる。 この暗黒状態により、外部制御フィールドで定常的な熱電流を制御し、熱変調器を設計できる。 さらに, 系と貯水池の間の散逸性サブチャネルには逆熱流が存在する可能性があり, 一般的な蓄熱器の抑制の役割を解釈している。 また,システムのcoa(concurrence of assistance)を計算し,熱流とcoaが温度と同一の傾向であることを見出し,さらに熱輸送を規制する資源として絡み合いが考えられることを示した。

This paper systematically studied heat transfer through two transversely coupled qubits in contact with two types of heat reservoirs. One is the independent heat reservoir which essentially interacts with only a single qubit, the other is the common heat reservoir which is allowed to simultaneously interact with two qubits. Compared to independent heat reservoirs, common reservoirs always suppress heat current in most cases. However, the common environment could enhance heat current, if the dissipation rate corresponding to the higher eigenfrequency is significantly higher than that corresponding to the lower eigenfrequency. In particular, in the case of resonant coupling of two qubits and the proper dissipations, the steady state can be decomposed into a stationary dark state which doesn't evolve and contributes zero heat current, and a residual steady state which corresponds to the maximal heat current. This dark state enables us to control steady-state heat current with an external control field and design a thermal modulator. In addition, we find that inverse heat currents could be present in the dissipative subchannels between the system and reservoirs, which interprets the suppression roles of common heat reservoirs. We also calculate the concurrence of assistance (COA) of the system and find that heat current and COA have the same trend with temperature, which further indicates that entanglement can be regarded as a resource to regulate heat transport.
翻訳日:2023-07-07 00:35:43 公開日:2023-07-05
# ブロックチェーンネットワークにおけるサイバー攻撃検出のための協調学習

Collaborative Learning for Cyberattack Detection in Blockchain Networks ( http://arxiv.org/abs/2203.11076v3 )

ライセンス: Link先を確認
Tran Viet Khoa, Do Hai Son, Dinh Thai Hoang, Nguyen Linh Trung, Tran Thi Thuy Quynh, Diep N. Nguyen, Nguyen Viet Ha and Eryk Dutkiewicz(参考訳) この記事では、侵入攻撃を調査し、ブロックチェーンネットワークのための新しいサイバー攻撃検出フレームワークを開発することを目的とする。 具体的には、まず実験室でブロックチェーンネットワークを設計、実装します。 このブロックチェーンネットワークは、学習モデルのための実際のトラフィックデータ(通常のデータと攻撃データの両方を含む)を生成し、提案した侵入検出フレームワークのパフォーマンスを評価するためにリアルタイム実験を実装するための2つの目的を提供する。 私たちの知る限りでは、ブロックチェーンネットワークにおけるサイバー攻撃の研究所で合成された最初のデータセットです。 次に,ブロックチェーンネットワークへの効率的な展開による攻撃検出を可能にする,新たな協調学習モデルを提案する。 提案された学習モデルの主なアイデアは、ブロックチェーンノードが積極的にデータを収集し、データから学んだ知識を共有し、ネットワーク内の他のブロックチェーンノードと知識を交換できるようにすることである。 このように、ネットワーク内のすべてのノードからの知識を活用できるだけでなく、従来の集中型学習ソリューションのような集中型ノードでのトレーニングのために、すべての生データを収集する必要がない。 このようなフレームワークは、ネットワークの過度なオーバーヘッド/混雑だけでなく、ローカルデータのプライバシを公開するリスクも回避できる。 集中シミュレーションとリアルタイム実験の両方において,提案する協調学習に基づく侵入検知フレームワークが,攻撃検出において最大97.7%の精度を達成できることが明らかである。

This article aims to study intrusion attacks and then develop a novel cyberattack detection framework for blockchain networks. Specifically, we first design and implement a blockchain network in our laboratory. This blockchain network will serve two purposes, i.e., to generate the real traffic data (including both normal data and attack data) for our learning models and implement real-time experiments to evaluate the performance of our proposed intrusion detection framework. To the best of our knowledge, this is the first dataset that is synthesized in a laboratory for cyberattacks in a blockchain network. We then propose a novel collaborative learning model that allows efficient deployment in the blockchain network to detect attacks. The main idea of the proposed learning model is to enable blockchain nodes to actively collect data, share the knowledge learned from its data, and then exchange the knowledge with other blockchain nodes in the network. In this way, we can not only leverage the knowledge from all the nodes in the network but also do not need to gather all raw data for training at a centralized node like conventional centralized learning solutions. Such a framework can also avoid the risk of exposing local data's privacy as well as the excessive network overhead/congestion. Both intensive simulations and real-time experiments clearly show that our proposed collaborative learning-based intrusion detection framework can achieve an accuracy of up to 97.7% in detecting attacks.
翻訳日:2023-07-07 00:35:09 公開日:2023-07-05
# ソフトマックスフリーリニアトランス

Softmax-free Linear Transformers ( http://arxiv.org/abs/2207.03341v2 )

ライセンス: Link先を確認
Li Zhang, Jiachen Lu, Junge Zhang, Xiatian Zhu, Jianfeng Feng, Tao Xiang(参考訳) 視覚変換器(ViT)は視覚知覚タスクの最先端を推し進めている。 ViTの強度を支える自己保持機構は、計算とメモリ使用の両方において二次的な複雑さを持つ。 これは、線形複雑性における自己着脱を近似する発展を動機付ける。 しかし、本研究では、既存の手法が理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことが明らかにされている。 これらの限界は、近似中におけるsoftmax-based self-attentionの継承、すなわちsoftmax関数を用いてトークン特徴ベクトル間のスケールド・ドット積の正規化に根ざしている。 ソフトマックス演算を保存するため、その後の線形化に挑戦する。 この知見により、Softmax-Free Transformers (SOFT) のファミリーが提案されている。 具体的には、ガウス核関数はドット積の類似性を置き換えるために採用され、完全な自己注意行列をローランク行列分解の下で近似することができる。 計算ロバスト性については, 前過程のみの反復ニュートン・ラフソン法を用いてムーア・ペンローズ逆関数を推定し, その理論的勾配を後工程に1回だけ計算する。 適用性(例えば、高密度予測タスク)をさらに拡大するために、効率的な対称正規化技術を導入する。 ImageNet, COCO, ADE20K の大規模な実験により, 我々の SOFT は既存の ViT 変種の計算効率を大幅に向上することを示した。 線形複雑性では、より長いトークンシーケンスがSOFTによって許容され、精度と複雑さのトレードオフが優れている。 コードとモデルはhttps://github.com/fudan-zvg/softで入手できる。

Vision transformers (ViTs) have pushed the state-of-the-art for visual perception tasks. The self-attention mechanism underpinning the strength of ViTs has a quadratic complexity in both computation and memory usage. This motivates the development of approximating the self-attention at linear complexity. However, an in-depth analysis in this work reveals that existing methods are either theoretically flawed or empirically ineffective for visual recognition. We identify that their limitations are rooted in the inheritance of softmax-based self-attention during approximations, that is, normalizing the scaled dot-product between token feature vectors using the softmax function. As preserving the softmax operation challenges any subsequent linearization efforts. By this insight, a family of Softmax-Free Transformers (SOFT) are proposed. Specifically, a Gaussian kernel function is adopted to replace the dot-product similarity, enabling a full self-attention matrix to be approximated under low-rank matrix decomposition. For computational robustness, we estimate the Moore-Penrose inverse using an iterative Newton-Raphson method in the forward process only, while calculating its theoretical gradients only once in the backward process. To further expand applicability (e.g., dense prediction tasks), an efficient symmetric normalization technique is introduced. Extensive experiments on ImageNet, COCO, and ADE20K show that our SOFT significantly improves the computational efficiency of existing ViT variants. With linear complexity, much longer token sequences are permitted by SOFT, resulting in superior trade-off between accuracy and complexity. Code and models are available at https://github.com/fudan-zvg/SOFT.
翻訳日:2023-07-07 00:26:49 公開日:2023-07-05
# 動的ランク付けと翻訳同期

Dynamic Ranking and Translation Synchronization ( http://arxiv.org/abs/2207.01455v3 )

ライセンス: Link先を確認
Ernesto Araya, Eglantine Karl\'e, Hemant Tyagi(参考訳) スポーツトーナメントやレコメンデーションシステムなど,多くのアプリケーションにおいて,1組の$n$アイテム(またはプレイヤー)のペア比較からなる廃棄データがある。 目的は、このデータを使って各項目の潜在強度と/またはランキングを推測することである。 この問題の既存の結果は、主に単一の比較グラフ$G$からなる設定に焦点を当てている。 しかし、ペア比較データが時間とともに進化するシナリオ(例えばスポーツトーナメント)が存在する。 この動的設定の理論的結果は比較的限定的であり,本論文の焦点となっている。 我々は, 動的設定への \emph{translation synchro}問題の拡張について検討する。 ここで $\mathcal{T} \subset [0,1]$ は時間領域を表す格子であり、各項目 $i$ と time $t\in \mathcal{T}$ に対して、関連する未知の強度パラメータ $z^*_{t,i}\in \mathbb{R}$ が存在する。 我々は、$t\in\mathcal{T}$ に対して、強度ベクトル $z^*_t=(z^*_{t,1},\dots,z^*_{t,n})$ を $z^*_{t,i}-z^*_{t,j}$ のノイズ測定から回復することを目指している。 我々は,$z^*_t$ が$t$ で滑らかに発展することを仮定し,smooness-penalized least squares 法に基づく2つの推定器と,smoothness operator の低周波固有空間への射影に基づく2つの推定器を提案する。 どちらの推定子に対しても、$g_t$ がすべての$t\in \mathcal{t}$ に対して連結であると仮定して、$\ell_2$ 推定誤差の有限なサンプル境界を提供し、グリッドサイズ $|\mathcal{t}|$ の点で提案手法の一貫性を証明する。 理論的な知見を合成データと実データの実験で補完する。

In many applications, such as sport tournaments or recommendation systems, we have at our disposal data consisting of pairwise comparisons between a set of $n$ items (or players). The objective is to use this data to infer the latent strength of each item and/or their ranking. Existing results for this problem predominantly focus on the setting consisting of a single comparison graph $G$. However, there exist scenarios (e.g., sports tournaments) where the the pairwise comparison data evolves with time. Theoretical results for this dynamic setting are relatively limited and is the focus of this paper. We study an extension of the \emph{translation synchronization} problem, to the dynamic setting. In this setup, we are given a sequence of comparison graphs $(G_t)_{t\in \mathcal{T}}$, where $\mathcal{T} \subset [0,1]$ is a grid representing the time domain, and for each item $i$ and time $t\in \mathcal{T}$ there is an associated unknown strength parameter $z^*_{t,i}\in \mathbb{R}$. We aim to recover, for $t\in\mathcal{T}$, the strength vector $z^*_t=(z^*_{t,1},\dots,z^*_{t,n})$ from noisy measurements of $z^*_{t,i}-z^*_{t,j}$, where $\{i,j\}$ is an edge in $G_t$. Assuming that $z^*_t$ evolves smoothly in $t$, we propose two estimators -- one based on a smoothness-penalized least squares approach and the other based on projection onto the low frequency eigenspace of a suitable smoothness operator. For both estimators, we provide finite sample bounds for the $\ell_2$ estimation error under the assumption that $G_t$ is connected for all $t\in \mathcal{T}$, thus proving the consistency of the proposed methods in terms of the grid size $|\mathcal{T}|$. We complement our theoretical findings with experiments on synthetic and real data.
翻訳日:2023-07-07 00:26:25 公開日:2023-07-05
# 効率的なビュー合成のための微分点ベース放射場

Differentiable Point-Based Radiance Fields for Efficient View Synthesis ( http://arxiv.org/abs/2205.14330v4 )

ライセンス: Link先を確認
Qiang Zhang, Seung-Hwan Baek, Szymon Rusinkiewicz, Felix Heide(参考訳) 効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。 学習点表現に賛成してボリュームベースの表現から離れることで、トレーニングと推論の両方において、メモリと実行時の桁違い以上の既存のメソッドを改善します。 この方法は、一様にサンプリングされたランダムな点クラウドから始まり、ポイント毎の位置とビュー依存の外観を学習し、微分可能なsplatベースのレンダラを使用して、一連の入力画像にマッチするモデルを発展させる。 提案手法は,トレーニングと推論の両方において最大300倍高速であり,品質の犠牲は少なく,静的シーンでは10mb以下のメモリを使用する。 ダイナミックなシーンでは,STNeRFより2桁早く,ほぼインタラクティブなレートでレンダリングし,時間的コヒーレンシの正則化を伴わずとも高画質と時間的コヒーレンスを維持する。

We propose a differentiable rendering algorithm for efficient novel view synthesis. By departing from volume-based representations in favor of a learned point representation, we improve on existing methods more than an order of magnitude in memory and runtime, both in training and inference. The method begins with a uniformly-sampled random point cloud and learns per-point position and view-dependent appearance, using a differentiable splat-based renderer to evolve the model to match a set of input images. Our method is up to 300x faster than NeRF in both training and inference, with only a marginal sacrifice in quality, while using less than 10~MB of memory for a static scene. For dynamic scenes, our method trains two orders of magnitude faster than STNeRF and renders at near interactive rate, while maintaining high image quality and temporal coherence even without imposing any temporal-coherency regularizers.
翻訳日:2023-07-07 00:24:05 公開日:2023-07-05
# 総合的手書きパラグラフテキスト認識システム:LexiconNet

A Comprehensive Handwritten Paragraph Text Recognition System: LexiconNet ( http://arxiv.org/abs/2205.11018v3 )

ライセンス: Link先を確認
Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore and Anuj Sharma(参考訳) 本研究では,2つの最先端手法を用いて,垂直注意ネットワークとワードビームサーチを用いた手書きテキスト認識手法を提案する。 アテンションモジュールは内部ラインセグメンテーションに責任を持ち、結果としてページをラインバイラインで処理する。 復号化ステップでは、時間的分類に基づく単語ビーム検索デコーダを後処理ステップとして追加した。 本研究では,レキシコンデコーダを後処理としてエンドツーエンドの段落認識システムを提案する。 本手順では,標準データセットについて最新結果を報告する。 IAMデータセットは27.19%改善、1.13%がRIMESで40.83%改善、2.43%がREAD-16データセットで32.31%改善、43.02%改善、2.94%がRIMESデータセットで56.25%改善、7.35%がREAD-2016データセットで47.27%改善。 本研究で報告された文字誤り率と単語誤り率は,文献で報告された結果を上回った。

In this study, we have presented an efficient procedure using two state-of-the-art approaches from the literature of handwritten text recognition as Vertical Attention Network and Word Beam Search. The attention module is responsible for internal line segmentation that consequently processes a page in a line-by-line manner. At the decoding step, we have added a connectionist temporal classification-based word beam search decoder as a post-processing step. In this study, an end-to-end paragraph recognition system is presented with a lexicon decoder as a post-processing step. Our procedure reports state-of-the-art results on standard datasets. The reported character error rate is 3.24% on the IAM dataset with 27.19% improvement, 1.13% on RIMES with 40.83% improvement and 2.43% on the READ-16 dataset with 32.31% improvement from existing literature and the word error rate is 8.29% on IAM dataset with 43.02% improvement, 2.94% on RIMES dataset with 56.25% improvement and 7.35% on READ-2016 dataset with 47.27% improvement from the existing results. The character error rate and word error rate reported in this work surpass the results reported in the literature.
翻訳日:2023-07-07 00:23:48 公開日:2023-07-05
# 一般化確率支配による分類器の統計的比較

Statistical Comparisons of Classifiers by Generalized Stochastic Dominance ( http://arxiv.org/abs/2209.01857v2 )

ライセンス: Link先を確認
Christoph Jansen (1), Malte Nalenz (1), Georg Schollmeyer (1), Thomas Augustin (1) ((1) Ludwig-Maximilians-Universit\"at Munich)(参考訳) 機械学習アルゴリズムの開発において重要な問題であるが、いくつかの基準に関して、複数のデータセットに対して分類器を比較する方法にはまだ合意がない。 すべての比較フレームワークは(少なくとも)品質基準の多重性、データセットの多重性、データセットの選択のランダム性という3つの基本的な課題に直面しています。 本稿では,最近の意思決定理論の展開を取り入れた,鮮明な議論に新たな視点を加える。 いわゆる選好システムに基づいて、我々のフレームワークは確率支配という一般化された概念によって分類器をランク付けする。 さらに, 一般化確率優位性は, 容易に扱いやすい線形プログラムを解き, 適応された2サンプル観測ランダム化テストを用いて統計的に検証することで実現可能であることを示す。 これは、同時に複数の品質基準に関して、複数のデータセットに対して分類器を統計的に比較するための強力なフレームワークとなる。 我々は、シミュレーション研究と標準ベンチマークデータセットのセットで、我々のフレームワークを説明し、調査する。

Although being a crucial question for the development of machine learning algorithms, there is still no consensus on how to compare classifiers over multiple data sets with respect to several criteria. Every comparison framework is confronted with (at least) three fundamental challenges: the multiplicity of quality criteria, the multiplicity of data sets and the randomness of the selection of data sets. In this paper, we add a fresh view to the vivid debate by adopting recent developments in decision theory. Based on so-called preference systems, our framework ranks classifiers by a generalized concept of stochastic dominance, which powerfully circumvents the cumbersome, and often even self-contradictory, reliance on aggregates. Moreover, we show that generalized stochastic dominance can be operationalized by solving easy-to-handle linear programs and moreover statistically tested employing an adapted two-sample observation-randomization test. This yields indeed a powerful framework for the statistical comparison of classifiers over multiple data sets with respect to multiple quality criteria simultaneously. We illustrate and investigate our framework in a simulation study and with a set of standard benchmark data sets.
翻訳日:2023-07-07 00:17:27 公開日:2023-07-05
# 非信号境界上の量子相関:自己テストなど

Quantum correlations on the no-signaling boundary: self-testing and more ( http://arxiv.org/abs/2207.13850v3 )

ライセンス: Link先を確認
Kai-Siang Chen, Gelo Noel M. Tabia, Chellasamy Jebarathinam, Shiladitya Mal, Jun-Yi Wu, Yeong-Cherng Liang(参考訳) デバイス非依存の量子情報では、ベルテストにおいて空間的に分離されたパーティによって観測される局所的な測定結果の相関が基本的役割を果たす。 量子論において許容される相関の集合がベル局所集合と無符号集合の間に厳密に存在することは長く知られているが、量子集合の幾何学に関する多くの疑問は未解決のままである。 ここで、量子集合の境界が最も単純なベルシナリオにおける無符号集合と一致する場合の問題を再検討する。 特に、$k$0確率を含むこれらの共通境界の各クラスに対して、これらの(極端)相関を実現する量子戦略の$(5-k)$-パラメーター族を提供する。 さらに、ハーディ型相関の既知の例以上の非自明なクラスで自己テストが可能であることを証明し、これらの自己テスト結果の堅牢性を支持する数値的証拠を提供する。 これらのクラスから1パラメータの自己検査相関の候補を同定した。 本研究の副産物として、極端非局所相関につながる量子ビット戦略が局所単位同値である場合、自己検証文は確実に従う。 興味深いことに、無信号境界で発見されたこれらの自己テスト相関はすべて、証明不能である。 有限次元の最大絡み合った状態から生じる量子相関の集合 $\mathcal{M}$ の類似特性も提供される。 この最後の結果を確立するために、最も単純なベルシナリオにおける$\mathcal{M}$のすべての相関がベル対と射影測度を用いて達成できるような凸結合として達成可能であることを示す。 すると、極大クレーター・ホルン・シモニー・ホルトベルの不等式は、任意の最大絡み合った2量子状態と、そのような状態の自己テストに関するノーゴー定理によって破られる。

In device-independent quantum information, correlations between local measurement outcomes observed by spatially separated parties in a Bell test play a fundamental role. Even though it is long-known that the set of correlations allowed in quantum theory lies strictly between the Bell-local set and the no-signaling set, many questions concerning the geometry of the quantum set remain unanswered. Here, we revisit the problem of when the boundary of the quantum set coincides with the no-signaling set in the simplest Bell scenario. In particular, for each Class of these common boundaries containing $k$ zero probabilities, we provide a $(5-k)$-parameter family of quantum strategies realizing these (extremal) correlations. We further prove that self-testing is possible in all nontrivial Classes beyond the known examples of Hardy-type correlations, and provide numerical evidence supporting the robustness of these self-testing results. Candidates of one-parameter families of self-testing correlations from some of these Classes are identified. As a byproduct of our investigation, if the qubit strategies leading to an extremal nonlocal correlation are local-unitarily equivalent, a self-testing statement provably follows. Interestingly, all these self-testing correlations found on the no-signaling boundary are provably non-exposed. An analogous characterization for the set $\mathcal{M}$ of quantum correlations arising from finite-dimensional maximally entangled states is also provided. En route to establishing this last result, we show that all correlations of $\mathcal{M}$ in the simplest Bell scenario are attainable as convex combinations of those achievable using a Bell pair and projective measurements. In turn, we obtain the maximal Clauser-Horne-Shimony-Holt Bell inequality violation by any maximally entangled two-qudit state and a no-go theorem regarding the self-testing of such states.
翻訳日:2023-07-07 00:15:36 公開日:2023-07-05
# クロスフィーチャーアテンションを有する軽量ビジョントランス

Lightweight Vision Transformer with Cross Feature Attention ( http://arxiv.org/abs/2207.07268v2 )

ライセンス: Link先を確認
Youpeng Zhao, Huadong Tang, Yingying Jiang, Yong A and Qiang Wu(参考訳) 近年の視覚変換器(ViT)の進歩は,視覚認識タスクにおいて大きな成果を上げている。 畳み込みニューラルネットワーク(CNN)は空間帰納バイアスを利用して視覚表現を学習するが、これらのネットワークは空間的に局所的である。 ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。 本稿では,トランスの計算コストを削減し,効率的なモバイルCNNを組み合わせることで,グローバルとローカルの両方の表現を学習するための汎用バックボーンとして機能する,新しい軽量CNN-ViTハイブリッドモデルであるXFormerを提案する。 実験の結果、XFormerはさまざまなタスクやデータセットで多くのCNNやViTベースのモデルより優れています。 ImageNet1Kデータセットでは、XFormerは5.5百万のパラメータで78.5%のTop-1精度を達成しており、同じ数のパラメータに対してEfficientNet-B0(CNNベース)とDeiT(ViTベース)よりも2.2%と6.3%正確である。 私たちのモデルは、オブジェクト検出やセマンティクスセグメンテーションタスクへの転送でもうまく機能します。 MS COCOデータセットでは、XFormerは6.3Mパラメータと3.8G FLOPしか持たないYOLOv3フレームワークのMobileNetV2を10.5 AP (22.7 -> 33.2 AP)で上回っている。 Cityscapesデータセットでは、単純なオールMLPデコーダだけで、mIoUが78.5、FPSが15.3で、最先端の軽量セグメンテーションネットワークを上回っている。

Recent advances in vision transformers (ViTs) have achieved great performance in visual recognition tasks. Convolutional neural networks (CNNs) exploit spatial inductive bias to learn visual representations, but these networks are spatially local. ViTs can learn global representations with their self-attention mechanism, but they are usually heavy-weight and unsuitable for mobile devices. In this paper, we propose cross feature attention (XFA) to bring down computation cost for transformers, and combine efficient mobile CNNs to form a novel efficient light-weight CNN-ViT hybrid model, XFormer, which can serve as a general-purpose backbone to learn both global and local representation. Experimental results show that XFormer outperforms numerous CNN and ViT-based models across different tasks and datasets. On ImageNet1K dataset, XFormer achieves top-1 accuracy of 78.5% with 5.5 million parameters, which is 2.2% and 6.3% more accurate than EfficientNet-B0 (CNN-based) and DeiT (ViT-based) for similar number of parameters. Our model also performs well when transferring to object detection and semantic segmentation tasks. On MS COCO dataset, XFormer exceeds MobileNetV2 by 10.5 AP (22.7 -> 33.2 AP) in YOLOv3 framework with only 6.3M parameters and 3.8G FLOPs. On Cityscapes dataset, with only a simple all-MLP decoder, XFormer achieves mIoU of 78.5 and FPS of 15.3, surpassing state-of-the-art lightweight segmentation networks.
翻訳日:2023-07-07 00:15:07 公開日:2023-07-05
# 3次元シーケンシャルデータの擬似ラベル作成のための教師

Teachers in concordance for pseudo-labeling of 3D sequential data ( http://arxiv.org/abs/2207.06079v2 )

ライセンス: Link先を確認
Awet Haileslassie Gebrehiwot, Patrik Vacek, David Hurych, Karel Zimmermann, Patrick Perez, Tom\'a\v{s} Svoboda(参考訳) 自動擬似ラベル付けは、大量のシーケンシャルな未ラベルデータをタップする強力なツールである。 特に、パフォーマンス要件が極端であり、データセットが大きく、手動ラベリングが非常に難しい自動運転の安全クリティカルな応用に魅力があります。 本稿では,複数の教員を訓練し,異なる時間情報にアクセスすることで,教師-学生間における擬似ラベリング手法を強化するために,点雲のシーケンスを活用することを提案する。 この教師のセットはconcordanceと呼ばれ、標準的な方法よりも生徒の訓練に高品質な擬似ラベルを提供している。 複数の教師の出力は、新しい疑似ラベル信頼誘導基準によって結合される。 実験評価は3dポイントクラウドドメインと都市運転シナリオに着目した。 3つのベンチマークデータセット上での3次元セマンティックセグメンテーションと3次元オブジェクト検出に適用した手法の性能を示す。 たった20%の手動ラベルを使うアプローチは、完全に教師された手法よりも優れています。 トレーニングデータにほとんど現れないクラスでは、注目すべきパフォーマンス向上を達成している。

Automatic pseudo-labeling is a powerful tool to tap into large amounts of sequential unlabeled data. It is specially appealing in safety-critical applications of autonomous driving, where performance requirements are extreme, datasets are large, and manual labeling is very challenging. We propose to leverage sequences of point clouds to boost the pseudolabeling technique in a teacher-student setup via training multiple teachers, each with access to different temporal information. This set of teachers, dubbed Concordance, provides higher quality pseudo-labels for student training than standard methods. The output of multiple teachers is combined via a novel pseudo label confidence-guided criterion. Our experimental evaluation focuses on the 3D point cloud domain and urban driving scenarios. We show the performance of our method applied to 3D semantic segmentation and 3D object detection on three benchmark datasets. Our approach, which uses only 20% manual labels, outperforms some fully supervised methods. A notable performance boost is achieved for classes rarely appearing in training data.
翻訳日:2023-07-07 00:14:09 公開日:2023-07-05
# 新規環境における不確実性を考慮したライダー位置認識

Uncertainty-Aware Lidar Place Recognition in Novel Environments ( http://arxiv.org/abs/2210.01361v2 )

ライセンス: Link先を確認
Keita Mason, Joshua Knights, Milad Ramezani, Peyman Moghadam and Dimity Miller(参考訳) 最先端のライダー位置認識モデルは、トレーニングデータセットとは異なる環境でテストした場合、信頼性の低いパフォーマンスを示し、複雑で進化する環境での使用を制限する。 そこで本研究では,不確実性を考慮したライダー位置認識の課題について検討する。 本稿では,新たな評価プロトコルを導入し,5つの不確実性推定手法と3つの大規模データセットを対象とした,最初の総合ベンチマークを提案する。 以上の結果から,アンサンブル手法は高い性能を持つ手法であり,新しい環境におけるライダー位置認識と不確実性推定の性能を一貫して向上させるが,計算コストはかかる。 コードはhttps://github.com/csiro-robotics/Uncertainty-LPRで公開されている。

State-of-the-art lidar place recognition models exhibit unreliable performance when tested on environments different from their training dataset, which limits their use in complex and evolving environments. To address this issue, we investigate the task of uncertainty-aware lidar place recognition, where each predicted place must have an associated uncertainty that can be used to identify and reject incorrect predictions. We introduce a novel evaluation protocol and present the first comprehensive benchmark for this task, testing across five uncertainty estimation techniques and three large-scale datasets. Our results show that an Ensembles approach is the highest performing technique, consistently improving the performance of lidar place recognition and uncertainty estimation in novel environments, though it incurs a computational cost. Code is publicly available at https://github.com/csiro-robotics/Uncertainty-LPR.
翻訳日:2023-07-07 00:05:23 公開日:2023-07-05
# petzマップによるエンタングルメントウェッジの明示的再構成

Explicit reconstruction of the entanglement wedge via the Petz map ( http://arxiv.org/abs/2210.00602v2 )

ライセンス: Link先を確認
Eyoab Bahiru and Niloofar Vardian(参考訳) 我々は,petzリカバリチャネルを用いたads/cftにおける絡み合いウェッジ再構成について検討する。 境界上の球面領域の場合、petzマップがads-rindler hkllの再構成を再現していることを示す。 さらに、境界の一般部分領域については、[1, 2] で先に提案されたようなモジュラーフローの性質を用いて、局所バルク場の境界表現が絡み合いのくさびにあるのと同じものを得ることができる。

We revisit entanglement wedge reconstruction in AdS/CFT using the Petz recovery channel. In the case of a spherical region on the boundary, we show that the Petz map reproduces the AdS-Rindler HKLL reconstruction. Moreover, for a generic subregion of the boundary, we could obtain the same boundary representation of a local bulk field lies in the entanglement wedge as the one proposed earlier in [1, 2] using properties of the modular flow.
翻訳日:2023-07-07 00:04:51 公開日:2023-07-05
# Attribute-Discriminative Latent Space を用いた言語解毒

Language Detoxification with Attribute-Discriminative Latent Space ( http://arxiv.org/abs/2210.10329v2 )

ライセンス: Link先を確認
Jin Myung Kwak, Minseon Kim and Sung Ju Hwang(参考訳) トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得たが、侮辱、脅し、挑発といった有害なテキストを生成でき、現実世界の応用を制限できる。 この問題を解決するために、いくつかのテキスト生成手法は、追加のLMや摂動を用いて有害なテキストを解毒することを目的としている。 しかし、従来の手法では、現実のアプリケーションでは重大なボトルネックとなる過剰なメモリ、計算、時間を必要とする。 このような制限に対処するために,属性弁別的潜在空間を用いた効率的かつ効率的な言語デトキシフィケーション手法を提案する。 具体的には、元のトランスフォーマーlmの潜在空間を、投影ブロックと属性判別器を用いてテキストをその属性でよく区別する識別的潜在空間に投影する。 これにより、LMは最小限のメモリと計算オーバーヘッドでテキスト生成を制御することができる。 提案手法は,非対応言語と対話生成タスクにおける属性識別言語モデル (adlm) の有効性を検証し,性能と効率においてベースラインを有意に上回っている。

Transformer-based Language Models (LMs) have achieved impressive results on natural language understanding tasks, but they can also generate toxic text such as insults, threats, and profanity, limiting their real-world applications. To overcome this issue, a few text generation approaches aim to detoxify toxic texts using additional LMs or perturbations. However, previous methods require excessive memory, computations, and time which are serious bottlenecks in their real-world application. To address such limitations, we propose an effective yet efficient method for language detoxification using an attribute-discriminative latent space. Specifically, we project the latent space of an original Transformer LM onto a discriminative latent space that well-separates texts by their attributes using a projection block and an attribute discriminator. This allows the LM to control the text generation to be non-toxic with minimal memory and computation overhead. We validate our model, Attribute-Discriminative Language Model (ADLM) on detoxified language and dialogue generation tasks, on which our method significantly outperforms baselines both in performance and efficiency.
翻訳日:2023-07-06 23:57:16 公開日:2023-07-05
# SignReLUニューラルネットワークとその近似能力

SignReLU neural network and its approximation ability ( http://arxiv.org/abs/2210.10264v2 )

ライセンス: Link先を確認
Jianfei Li, Han Feng and Ding-Xuan Zhou(参考訳) 近年、ディープニューラルネットワーク(DNN)は科学やテクノロジーの様々な分野において大きな注目を集めている。 活性化関数は、DNNのニューロンが受信信号をどのように処理するかを定義する。 これらは非線形変換を学習し、連続するニューロン層間で多様な計算を行うために不可欠である。 ここ数年、研究者はDNNの能力と成功を説明するための近似能力を調査してきた。 本稿では,SignReLUと呼ばれる,異なるアクティベーション関数を用いたDNNの近似能力について検討する。 理論的な結果から,SignReLUネットワークは近似性能において合理的およびReLUネットワークよりも優れていた。 SignReLUと既存のアクティベーションであるReLU, LeakyReLU, ELUの比較実験を行い,SignReLUの実用性能について検討した。

Deep neural networks (DNNs) have garnered significant attention in various fields of science and technology in recent years. Activation functions define how neurons in DNNs process incoming signals for them. They are essential for learning non-linear transformations and for performing diverse computations among successive neuron layers. In the last few years, researchers have investigated the approximation ability of DNNs to explain their power and success. In this paper, we explore the approximation ability of DNNs using a different activation function, called SignReLU. Our theoretical results demonstrate that SignReLU networks outperform rational and ReLU networks in terms of approximation performance. Numerical experiments are conducted comparing SignReLU with the existing activations such as ReLU, Leaky ReLU, and ELU, which illustrate the competitive practical performance of SignReLU.
翻訳日:2023-07-06 23:56:55 公開日:2023-07-05
# 連続学習のための排他的スーパーマスクサブネットワーク訓練

Exclusive Supermask Subnetwork Training for Continual Learning ( http://arxiv.org/abs/2210.10209v2 )

ライセンス: Link先を確認
Prateek Yadav, Mohit Bansal(参考訳) 継続的な学習(CL)手法は、破滅的な忘れ込みを避けながら、時間とともに知識を蓄積することに焦点を当てている。 最近、wortsman et al. (2020) はランダムに初期化された固定されたベースネットワーク(モデル)を使い、新しいタスクごとにスーパーマスクを見つけ、各重みを選択的に保持または削除してサブネットワークを生成するclメソッド supsup を提案した。 ネットワークの重みが更新されないため、忘れることを防ぐ。 忘れてはならないが、固定重みが表現力を制限するため、SupSupの性能は準最適である。 さらに、新しいタスクが学習された場合、モデル内に知識の蓄積や転送は行われない。 そこで我々はExSSNeT(Exclusive Supermask SubNEtwork Training)を提案する。 これにより、後続のタスクによる共有重みへの相反する更新が回避され、パフォーマンスが向上し、忘れてしまっている。 さらに,これまでに獲得した知識を活用し,新しいタスクをより高速に学習できる新しいknベースの知識伝達モジュールを提案する。 我々は,exSSNeTが,NLPとVisionの両方の領域において,忘れを防止しつつ,従来手法よりも優れていることを示す。 さらに、ExSSNeTはモデルパラメータの2-10%を活性化するスパースマスクに対して特に有利であり、SupSupよりも平均8.3%改善した。 さらに、ExSSNeTは多数のタスク(100)にスケールする。 私たちのコードはhttps://github.com/prateeky2806/exessnetで利用可能です。

Continual Learning (CL) methods focus on accumulating knowledge over time while avoiding catastrophic forgetting. Recently, Wortsman et al. (2020) proposed a CL method, SupSup, which uses a randomly initialized, fixed base network (model) and finds a supermask for each new task that selectively keeps or removes each weight to produce a subnetwork. They prevent forgetting as the network weights are not being updated. Although there is no forgetting, the performance of SupSup is sub-optimal because fixed weights restrict its representational power. Furthermore, there is no accumulation or transfer of knowledge inside the model when new tasks are learned. Hence, we propose ExSSNeT (Exclusive Supermask SubNEtwork Training), that performs exclusive and non-overlapping subnetwork weight training. This avoids conflicting updates to the shared weights by subsequent tasks to improve performance while still preventing forgetting. Furthermore, we propose a novel KNN-based Knowledge Transfer (KKT) module that utilizes previously acquired knowledge to learn new tasks better and faster. We demonstrate that ExSSNeT outperforms strong previous methods on both NLP and Vision domains while preventing forgetting. Moreover, ExSSNeT is particularly advantageous for sparse masks that activate 2-10% of the model parameters, resulting in an average improvement of 8.3% over SupSup. Furthermore, ExSSNeT scales to a large number of tasks (100). Our code is available at https://github.com/prateeky2806/exessnet.
翻訳日:2023-07-06 23:56:41 公開日:2023-07-05
# UniTune:単一画像上の拡散モデルを微調整したテキスト駆動画像編集

UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image ( http://arxiv.org/abs/2210.09477v4 )

ライセンス: Link先を確認
Dani Valevski, Matan Kalman, Eyal Molad, Eyal Segalis, Yossi Matias, Yaniv Leviathan(参考訳) テキスト駆動画像生成手法は近年,文字記述を提供することで,カジュアルなユーザによる高品質な画像生成を実現している。 しかし、既存のイメージを編集する同様の機能は、まだ手が届かない。 テキストによる画像編集は通常、編集マスクが必要であり、重要な視覚的な変更を必要とする編集に苦労し、編集された部分の特定の詳細を保持できない。 本稿では,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。 また、サンプリング前の確率的サンプリングをベース画像のノイズバージョンで初期化し、サンプリング後のベース画像から関連する詳細を補間することで、編集作業の質をさらに高めることを示す。 これらの観測と組み合わせて,新しい画像編集手法UniTuneを提案する。 unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い忠実性を維持しながら編集を実行する。 unituneはマスクやスケッチなどの追加入力を必要とせず、再トレーニングせずに同じイメージで複数の編集を実行することができる。 本手法は,imagenモデルを用いて様々なユースケースでテストを行う。 従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。

Text-driven image generation methods have shown impressive results recently, allowing casual users to generate high quality images by providing textual descriptions. However, similar capabilities for editing existing images are still out of reach. Text-driven image editing methods usually need edit masks, struggle with edits that require significant visual changes and cannot easily keep specific details of the edited portion. In this paper we make the observation that image-generation models can be converted to image-editing models simply by fine-tuning them on a single image. We also show that initializing the stochastic sampler with a noised version of the base image before the sampling and interpolating relevant details from the base image after sampling further increase the quality of the edit operation. Combining these observations, we propose UniTune, a novel image editing method. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high fidelity to the input image. UniTune does not require additional inputs, like masks or sketches, and can perform multiple edits on the same image without retraining. We test our method using the Imagen model in a range of different use cases. We demonstrate that it is broadly applicable and can perform a surprisingly wide range of expressive editing operations, including those requiring significant visual changes that were previously impossible.
翻訳日:2023-07-06 23:55:36 公開日:2023-07-05
# クーロン電位による対の速度に及ぼす宇宙弦の影響

Influence of a cosmic string on the rate of pairs produced by the Coulomb potential ( http://arxiv.org/abs/2210.08827v2 )

ライセンス: Link先を確認
B. Belbaki, A. Bounames(参考訳) 本研究では、外部電界のクーロンポテンシャルによる粒子生成現象を、静的宇宙弦の重力場の存在下で研究する。 そのため、一般化されたクライン・ゴルドン方程式とディラック方程式が解かれ、ボゴリューボフ変換を用いて生成粒子の確率と数密度を計算する。 宇宙糸の存在は粒子の生成を促進することが示されている。 大統一理論(gut)宇宙弦では、クーロンポテンシャル核電荷が$z\geq206$、スピン1/2粒子が$z\geq275$であればスピンレス粒子の生成が可能である。

We study particle creation phenomenon by the Coulomb potential of an external electric field in the presence of a gravitational field of a static cosmic string. For that, the generalized Klein-Gordon and Dirac equations are solved, and by using the Bogoliubov transformation we calculate the probability and the number density of created particles. It is shown that the presence of the cosmic string enhances the particle production. For the grand unified theory (GUT) cosmic string, the production of spinless particles is possible if the Coulomb potential nucleus charge $Z\geq206$, and for spin-1/2 particles if $Z\geq275$.
翻訳日:2023-07-06 23:55:15 公開日:2023-07-05
# 年齢予測性能は、深部、表層、小脳白質接続で異なる

Age Prediction Performance Varies Across Deep, Superficial, and Cerebellar White Matter Connections ( http://arxiv.org/abs/2211.07398v2 )

ライセンス: Link先を確認
Yuxiang Wei, Tengfei Xue, Yogesh Rathi, Nikos Makris, Fan Zhang, Lauren J. O'Donnell(参考訳) 脳の白質(wm)は、人間の寿命の間、発達過程および変性過程を経る。 WMの解剖学的領域と年齢との関係を検討するため,深部,表層,小脳WMの線維クラスターに微粒化した拡散磁気共鳴画像撮影法について検討した。 本研究では,大規模畳み込みカーネルと逆ボトルネックを利用した,ディープラーニングに基づく年齢予測モデルを提案する。 本研究では,複数面混合データの拡張と,予測範囲での年齢予測を促進する事前知識に基づく損失関数を用いて,性能改善を行う。 ヒトコネクトームプロジェクト(hcp)から得られた健常成人945名(22-37歳)のデータセットについて検討した。 実験の結果,提案モデルは平均絶対誤差2.59年を達成し,比較法を上回った。 このコホートでは,深部WMが最も年齢予測に有意であり,浅部WMが最も有意である。 総じて、最も予測可能なWM路は、深部WMからの視床前頭葉と小脳内入力と小脳WMからのPurkinje路である。

The brain's white matter (WM) undergoes developmental and degenerative processes during the human lifespan. To investigate the relationship between WM anatomical regions and age, we study diffusion magnetic resonance imaging tractography that is finely parcellated into fiber clusters in the deep, superficial, and cerebellar WM. We propose a deep-learning-based age prediction model that leverages large convolutional kernels and inverted bottlenecks. We improve performance using novel discrete multi-faceted mix data augmentation and a novel prior-knowledge-based loss function that encourages age predictions in the expected range. We study a dataset of 965 healthy young adults (22-37 years) derived from the Human Connectome Project (HCP). Experimental results demonstrate that the proposed model achieves a mean absolute error of 2.59 years and outperforms compared methods. We find that the deep WM is the most informative for age prediction in this cohort, while the superficial WM is the least informative. Overall, the most predictive WM tracts are the thalamo-frontal tract from the deep WM and the intracerebellar input and Purkinje tract from the cerebellar WM.
翻訳日:2023-07-06 23:46:25 公開日:2023-07-05
# 非線形システム同定のための深部部分空間エンコーダ

Deep Subspace Encoders for Nonlinear System Identification ( http://arxiv.org/abs/2210.14816v2 )

ライセンス: Link先を確認
Gerben I. Beintema, Maarten Schoukens, Roland T\'oth(参考訳) 非線形システム同定にArtificial Neural Networks (ANN) を用いることは有望なアプローチであることが証明されているが、最近の研究成果にもかかわらず、多くの実用的および理論的問題が未解決のままである。 具体的には、ノイズハンドリングとモデル、予測誤差の最小化による一貫性と信頼性評価の問題が最も深刻な問題である。 後者には、データサンプルの数や最適化中の不安定性の発生の観点から計算コストの爆発など、多くの実践的な課題がある。 本稿では,減算予測損失と状態推定のための部分空間エンコーダを用いた手法を提案することで,この問題を克服することを目的とする。 時系列から複数の切断された部分を選択して平均予測損失を算出することにより、切断予測損失を算出する。 減算予測損失を最小限に抑える計算効率の高い推定方法を得るため、ニューラルネットワークで表される部分空間エンコーダを導入する。 このエンコーダは、推定モデルの状態再構成可能性マップを近似して、過去の入力と出力が与えられた各トランケートされたサブセクションの初期状態を提供する。 理論的解析により,提案手法は局所的に一貫した条件下で最適化安定性を向上し,各部分間の重複を許容してデータ効率の向上を実現する。 最後に,実例と最先端ベンチマーク結果を用いた実践的洞察とユーザガイドラインを提供する。

Using Artificial Neural Networks (ANN) for nonlinear system identification has proven to be a promising approach, but despite of all recent research efforts, many practical and theoretical problems still remain open. Specifically, noise handling and models, issues of consistency and reliable estimation under minimisation of the prediction error are the most severe problems. The latter comes with numerous practical challenges such as explosion of the computational cost in terms of the number of data samples and the occurrence of instabilities during optimization. In this paper, we aim to overcome these issues by proposing a method which uses a truncated prediction loss and a subspace encoder for state estimation. The truncated prediction loss is computed by selecting multiple truncated subsections from the time series and computing the average prediction loss. To obtain a computationally efficient estimation method that minimizes the truncated prediction loss, a subspace encoder represented by an artificial neural network is introduced. This encoder aims to approximate the state reconstructability map of the estimated model to provide an initial state for each truncated subsection given past inputs and outputs. By theoretical analysis, we show that, under mild conditions, the proposed method is locally consistent, increases optimization stability, and achieves increased data efficiency by allowing for overlap between the subsections. Lastly, we provide practical insights and user guidelines employing a numerical example and state-of-the-art benchmark results.
翻訳日:2023-07-06 23:44:08 公開日:2023-07-05
# Artificial ASMR:サイバー心理学的アプローチ

Artificial ASMR: A Cyber-Psychological Approach ( http://arxiv.org/abs/2210.14321v3 )

ライセンス: Link先を確認
Zexin Fang, Bin Han, C. Clark Cao, and Hans. D. Schotten(参考訳) 自律感覚メリディアン反応(ASMR)の人気は過去10年間に急上昇したが、ASMRの効果を正確に引き起こした科学的研究はほとんど未熟であり、最も一般的なトリガーは、ASMRクリップが一般的に豊かな意味情報を提供することである。 本稿では,ASMR音声の一般的な音響パターンに注目され,音声信号の周期的特徴とASMR効果の誘発効果の相関について検討した。 信号処理,人工知能,実験心理学を組み合わせるサイバー心理学的アプローチを用いて,asmr関連音響特徴を定量化し,asmrクリップをランダムに巡回パターンで合成するが,asmr効果を誘発する効果が証明された聴衆に識別可能なシナリオを提供しない,asmrクリップを合成する。

The popularity of Autonomous Sensory Meridian Response (ASMR) has skyrockted over the past decade, but scientific studies on what exactly triggered ASMR effect remain few and immature, one most commonly acknowledged trigger is that ASMR clips typically provide rich semantic information. With our attention caught by the common acoustic patterns in ASMR audios, we investigate the correlation between the cyclic features of audio signals and their effectiveness in triggering ASMR effects. A cyber-psychological approach that combines signal processing, artificial intelligence, and experimental psychology is taken, with which we are able to quantize ASMR-related acoustic features, and therewith synthesize ASMR clips with random cyclic patterns but not delivering identifiably scenarios to the audience, which were proven to be effective in triggering ASMR effects.
翻訳日:2023-07-06 23:43:46 公開日:2023-07-05
# 位相ロックのない双フィールド量子鍵分布

Twin-field quantum key distribution without phase locking ( http://arxiv.org/abs/2212.04311v3 )

ライセンス: Link先を確認
Wei Li, Likang Zhang, Yichen Lu, Zheng-Ping Li, Cong Jiang, Yang Liu, Jia Huang, Hao Li, Zhen Wang, Xiang-Bin Wang, Qiang Zhang, Lixing You, Feihu Xu, Jian-Wei Pan(参考訳) ツインフィールド量子鍵分布(TF-QKD)は、長いハールファイバ上での実用的な量子通信のための有望な解である。 しかし、TF-QKDの以前のデモでは、フェーズロック技術が双対光場をコヒーレントに制御し、必然的に余分なファイバーチャネルと周辺ハードウェアでシステムを複雑化する必要があった。 本稿では,単一光子干渉パターンを復元し,tf-qkd \emph{without} 位相ロックを実現する手法を提案する。 提案手法では,通信時間を参照フレームと量子フレームに分割し,参照フレームがグローバル位相参照を確立するフレキシブルなスキームとして機能する。 そこで本研究では,高速フーリエ変換に基づくアルゴリズムを開発し,データ後処理による位相参照を効率的に調整する。 標準光ファイバ上の短距離から長距離の非相同期tf-qkdを示す。 50km標準繊維では1.27Mbit/sの秘密鍵レート(SKR)、504km標準繊維では、リピータレス秘密鍵容量の34倍の秘密鍵レートスケーリングが得られる。 我々の研究は、TF-QKDのスケーラブルで実用的なソリューションを提供しており、その広範なアプリケーションに向けた重要なステップを示しています。

Twin-field quantum key distribution (TF-QKD) has emerged as a promising solution for practical quantum communication over long-haul fiber. However, previous demonstrations on TF-QKD require the phase locking technique to coherently control the twin light fields, inevitably complicating the system with extra fiber channels and peripheral hardware. Here we propose and demonstrate an approach to recover the single-photon interference pattern and realize TF-QKD \emph{without} phase locking. Our approach separates the communication time into reference frames and quantum frames, where the reference frames serve as a flexible scheme for establishing the global phase reference. To do so, we develop a tailored algorithm based on fast Fourier transform to efficiently reconcile the phase reference via data post-processing. We demonstrate no-phase-locking TF-QKD from short to long distances over standard optical fibers. At 50-km standard fiber, we produce a high secret key rate (SKR) of 1.27 Mbit/s, while at 504-km standard fiber, we obtain the repeater-like key rate scaling with a SKR of 34 times higher than the repeaterless secret key capacity. Our work provides a scalable and practical solution to TF-QKD, thus representing an important step towards its wide applications.
翻訳日:2023-07-06 23:38:06 公開日:2023-07-05
# 高エネルギー渦状態衝突における閾値効果

Threshold effects in high-energy vortex state collisions ( http://arxiv.org/abs/2212.03624v2 )

ライセンス: Link先を確認
Bei Liu, Igor P. Ivanov(参考訳) 調整可能な軌道角運動量(OAM)を持つ渦状態、原子、核、高エネルギー物理学における新しい機会の開き、従来の散乱実験では利用できないような、非平面波状態と非自明な位相構造で生成された粒子の衝突。 近年、高エネルギーの渦光子によって開始される$\gamma d \to pn$や$\gamma p \to \Delta^+$のような光誘起過程は、渦光子軸に対するターゲットハドロンの衝撃パラメータ$b$として顕著な閾値シフトと大きさの断面増強を示すべきであると議論された。 本研究では,この効果が散乱過程の量子場理論的処理の中に存在するかどうかを理論的に検討する。 我々は点状で非拡散標的粒子の半古典的な仮定に頼らず、ラゲール・ガウスとコンパクトガウス波パケットとして調製された2つの光粒子の衝突における重粒子対生成のおもちゃ過程を考察し、断面のしきい値挙動に特に注意を払う。 我々は,波状パケットの非単色性による閾値スミアリングを観測するが,ほぼ閾値の増大は確認しない。 代わりに、2つのガウス波パケット衝突と比較すると、OAM関連のディップは$b\to 0$である。

Collisions of particles prepared in non--plane-wave states with a non-trivial phase structure, such as vortex states carrying an adjustable orbital angular momentum (OAM), open novel opportunities in atomic, nuclear, and high-energy physics unavailable for traditional scattering experiments. Recently, it was argued that photoinduced processes such as $\gamma d \to pn$ and $\gamma p \to \Delta^+$ initiated by a high-energy vortex photon should display a remarkable threshold shift and a sizable cross section enhancement as the impact parameter $b$ of the target hadron with respect to the vortex photon axis goes to zero. In this work, we theoretically explore whether this effect exists within the quantum-field-theoretic treatment of the scattering process. We do not rely on the semiclassical assumption of pointlike, non-spreading target particle and, instead, consider the toy process of heavy particle pair production in collision of two light particles prepared as a Laguerre-Gaussian and a compact Gaussian wave packets, paying special attention to the threshold behavior of the cross section. We do observe threshold smearing due to non-monochromaticity of the wave packets, but we do not confirm the near-threshold enhancement. Instead we find an OAM-related dip at $b\to 0$ as compared with the two Gaussian wave packet collision.
翻訳日:2023-07-06 23:37:41 公開日:2023-07-05
# 表面マイニングにおける自動化とAI技術 -Pilbaraにおけるオープンピット操作の簡単な紹介-

Automation and AI Technology in Surface Mining With a Brief Introduction to Open-Pit Operations in the Pilbara ( http://arxiv.org/abs/2301.09771v4 )

ライセンス: Link先を確認
Raymond Leung, Andrew J Hill, Arman Melkumyan(参考訳) 本稿では,鉱業,特に西オーストラリアのピルバラ鉄鉱地帯で発生した工学的問題,技術革新,ロボット開発,自動化の取り組みについて概説する。 目標は、テクノロジの展望を描き、エンジニアリングのオーディエンスに関連する問題を強調して、aiとマイニングの自動化トレンドに対する意識を高めることだ。 読者はマイニングに関する事前知識がなく、集中した議論と一般的なオープンピットマイニング操作の短い要約を通じて徐々にコンテキストを構築していると仮定している。 主要な活動は、資源開発、鉱業、鉄道、港湾事業の観点で分類することができる。 鉱物探査から鉱石の出荷まで、その中間にはおよそ9つの段階がある。 地質学的アセスメント、鉱山計画と開発、生産の掘削と調査、爆破と掘削、鉱石と廃棄物の輸送、解体とスクリーン、ストックパイルとロードアウト、鉄道網の流通、および鉱石車ダンピングなどである。 目的は、これらのプロセスを説明し、10年にわたる産業大学と研究開発のパートナーシップの観点から、課題や機会について洞察を提供することである。

This survey article provides a synopsis on some of the engineering problems, technological innovations, robotic development and automation efforts encountered in the mining industry -- particularly in the Pilbara iron-ore region of Western Australia. The goal is to paint the technology landscape and highlight issues relevant to an engineering audience to raise awareness of AI and automation trends in mining. It assumes the reader has no prior knowledge of mining and builds context gradually through focused discussion and short summaries of common open-pit mining operations. The principal activities that take place may be categorized in terms of resource development, mine-, rail- and port operations. From mineral exploration to ore shipment, there are roughly nine steps in between. These include: geological assessment, mine planning and development, production drilling and assaying, blasting and excavation, transportation of ore and waste, crush and screen, stockpile and load-out, rail network distribution, and ore-car dumping. The objective is to describe these processes and provide insights on some of the challenges/opportunities from the perspective of a decade-long industry-university R&D partnership.
翻訳日:2023-07-06 23:27:54 公開日:2023-07-05
# 自己テストにおける反例

Counterexamples in self-testing ( http://arxiv.org/abs/2212.11572v3 )

ライセンス: Link先を確認
Laura Man\v{c}inska and Simon Schmidt(参考訳) 近年、自己検査は量子デバイスの実用的検証から深い複雑性理論結果に至るまで、リッチで活発な研究領域に成長している。 自己テストにより、古典的検証者は、例えば非局所ゲームにおいてアリスとボブによって、どの量子測定値とどの状態が使われているかを推測することができる。 したがって、自己テストとノイズに耐性のある従兄弟であるロバストな自己テストは、非ローカルゲームにとって望ましい機能である。 予想とは対照的に、自己テストが失敗するかどうかに関して、私たちはかなり不完全な理解を持っています。 特に、量子アドバンテージを持つ2つの非局所ゲームやベルの不等式が特定の量子状態の存在を証明できるのではないだろうか? また、すべての自己テスト結果が十分な工夫と努力で堅牢に変換できる場合もありますか? 我々は、単純で完全に明示的な反例を提供することで、これらの疑問に否定的に答える。 この目的のために、2つの非局所ゲーム $\mathcal{G}_1$ と $\mathcal{G}_2$ が与えられた場合、プレイヤーがペアの質問を受け取り、プレイしたいゲームを選択する$(\mathcal{G}_1 \lor \mathcal{G}_2)$-game を導入する。 プレイヤーが同じゲームを選び、与えられた答えで勝ち取ると、プレイヤーは勝つ。 私たちの反例はこのゲームに基づいており、この種のゲームには独立した関心があると信じています。

In the recent years self-testing has grown into a rich and active area of study with applications ranging from practical verification of quantum devices to deep complexity theoretic results. Self-testing allows a classical verifier to deduce which quantum measurements and on what state are used, for example, by provers Alice and Bob in a nonlocal game. Hence, self-testing as well as its noise-tolerant cousin -- robust self-testing -- are desirable features for a nonlocal game to have. Contrary to what one might expect, we have a rather incomplete understanding of if and how self-testing could fail to hold. In particular, could it be that every 2-party nonlocal game or Bell inequality with a quantum advantage certifies the presence of a specific quantum state? Also, is it the case that every self-testing result can be turned robust with enough ingeniuty and effort? We answer these questions in the negative by providing simple and fully explicit counterexamples. To this end, given two nonlocal games $\mathcal{G}_1$ and $\mathcal{G}_2$, we introduce the $(\mathcal{G}_1 \lor \mathcal{G}_2)$-game, in which the players get pairs of questions and choose which game they want to play. The players win if they choose the same game and win it with the answers they have given. Our counterexamples are based on this game and we believe this class of games to be of independent interest.
翻訳日:2023-07-06 23:27:11 公開日:2023-07-05
# ホログラフィー量子スカー

Holographic Quantum Scars ( http://arxiv.org/abs/2212.05962v3 )

ライセンス: Link先を確認
Diego Liska, Vladimir Gritsev, Ward Vleeshouwers, Ji\v{r}\'i Min\'a\v{r}(参考訳) ホログラフィーの文脈における量子多体傷の構成について論じる。 二次元共形場の理論を考察し、その力学対称性をヴィラソロ環を通じて自然に実現し、傷ついた状態を構築する。 Loschmidt振幅の研究により、状態の周期的特性を評価する。 幾何学的解釈により、応力テンソルの期待値とこれらの傷つき状態の絡み合いエントロピーを計算することができる。 これらのホログラフィック双対は、ブラックホールしきい値以上のエネルギーであっても、空のAdSと微分同相によって関連していることを示す。 また,スカーレッド状態における期待値は一般に非熱的であり,典型的な (バルク) 状態に対する$\sqrt{e}$ とは対照的に,そのエントロピーが $\log(e)$ のエネルギーとともに増大することを示した。 さらに、スカーレッド状態が無限エネルギーを持つ極限において、発散あるいは消滅する絡み合いエントロピーに関連するCFT平面上の固定点を同定する。

We discuss a construction of quantum many-body scars in the context of holography. We consider two-dimensional conformal field theories and use their dynamical symmetries, naturally realized through the Virasoro algebra, to construct scarred states. By studying their Loschmidt amplitude, we evaluate the states' periodic properties. A geometrical interpretation allows us to compute the expectation value of the stress tensor and entanglement entropy of these scarred states. We show that their holographic dual is related by a diffeomorphism to empty AdS, even for energies above the black hole threshold. We also demonstrate that expectation values in the scarred states are generally non-thermal and that their entanglement entropy grows with the energy as $\log(E)$ in contrast to $\sqrt{E}$ for the typical (bulk) states. Furthermore, we identify fixed points on the CFT plane associated with divergent or vanishing entanglement entropy in the limit where the scarred states have infinite energy.
翻訳日:2023-07-06 23:25:07 公開日:2023-07-05
# rpn: 言語理解のためのディープラーニングにおける単語ベクトルレベルデータ拡張アルゴリズム

RPN: A Word Vector Level Data Augmentation Algorithm in Deep Learning for Language Understanding ( http://arxiv.org/abs/2212.05961v3 )

ライセンス: Link先を確認
Zhengqing Yuan, Xiaolong Zhang, Yue Wang, Xuecong Hou, Huiwen Xue, Zhuanzhe Zhao and Yongming Liu(参考訳) データ拡張は、モデルパフォーマンスを改善するために機械学習で広く使われているテクニックである。 しかし、自然言語理解(NLU)における既存のデータ拡張技術は、自然言語のバリエーションの複雑さを完全にとらえるには至らず、大規模なデータセットに適用することは困難である。 本稿では,単語ベクトルレベルで動作させる新しいデータ拡張手法であるRandom Position Noise (RPN)アルゴリズムを提案する。 rpnは、選択された単語ベクトルの既存の値に基づいてノイズを導入することで、元のテキストの単語埋め込みを修正し、よりきめ細かい修正を可能にし、自然言語のバリエーションをよりよく捉えることができる。 従来のデータ拡張方法とは異なり、RPNは仮想サンプル更新中に計算グラフの勾配を必要としないため、大規模なデータセットに適用しやすくなる。 実験の結果、RPNは感情分析、自然言語推論、パラフレーズ検出など、様々なNLUタスクにおいて、既存のデータ拡張技術よりも一貫して優れていることが示された。 さらに、RPNは低リソース環境では良好に動作し、ワード埋め込み層を備えたモデルにも適用できる。 提案したRPNアルゴリズムは,NLUの性能向上と,大規模NLUタスクにおける従来のデータ拡張技術に関連する課題に対処するための有望な手法である。 実験の結果、RPNアルゴリズムは7つのNLUタスクすべてにおいて最先端の性能を達成し、実世界のNLUアプリケーションの有効性と可能性を強調した。

Data augmentation is a widely used technique in machine learning to improve model performance. However, existing data augmentation techniques in natural language understanding (NLU) may not fully capture the complexity of natural language variations, and they can be challenging to apply to large datasets. This paper proposes the Random Position Noise (RPN) algorithm, a novel data augmentation technique that operates at the word vector level. RPN modifies the word embeddings of the original text by introducing noise based on the existing values of selected word vectors, allowing for more fine-grained modifications and better capturing natural language variations. Unlike traditional data augmentation methods, RPN does not require gradients in the computational graph during virtual sample updates, making it simpler to apply to large datasets. Experimental results demonstrate that RPN consistently outperforms existing data augmentation techniques across various NLU tasks, including sentiment analysis, natural language inference, and paraphrase detection. Moreover, RPN performs well in low-resource settings and is applicable to any model featuring a word embeddings layer. The proposed RPN algorithm is a promising approach for enhancing NLU performance and addressing the challenges associated with traditional data augmentation techniques in large-scale NLU tasks. Our experimental results demonstrated that the RPN algorithm achieved state-of-the-art performance in all seven NLU tasks, thereby highlighting its effectiveness and potential for real-world NLU applications.
翻訳日:2023-07-06 23:24:47 公開日:2023-07-05
# 量子多体格子モデルの鈴木-トロッター分解の量子シミュレーションコスト

Quantum simulation costs for Suzuki-Trotter decomposition of quantum many-body lattice models ( http://arxiv.org/abs/2302.04698v2 )

ライセンス: Link先を確認
Nathan M. Myers, Ryan Scott, Kwon Park, Vito W. Scarola(参考訳) 量子コンピュータは、古典的デバイス上のシステムサイズと指数関数的にスケールするタスクである量子システムのダイナミクスを効率的にシミュレートする能力を提供する。 短期量子コンピュータが多体系をシミュレートする可能性を評価するために、一階整流子スケーリングに基づくフェルミオン格子モデルの時間発展を正確にシミュレートするために必要となるトロッターステップの数の境界を直接計算する形式を開発した。 この形式を、凝縮物物理学に特有な2つの密接に関連する多体モデル、ハバードモデルとt-jモデルに適用する。 トロッター深度の比較はまずハバードモデルに有利に思われるが, モデルパラメータと正確なシミュレーションのための許容誤差を慎重に検討すると, t-Jモデルにかなり有利であることがわかった。 これらの結果とフォーマリズムは、量子シミュレーションコストの大幅な改善の舞台となった。

Quantum computers offer the potential to efficiently simulate the dynamics of quantum systems, a task whose difficulty scales exponentially with system size on classical devices. To assess the potential for near-term quantum computers to simulate many-body systems we develop a formalism to straightforwardly compute bounds on the number of Trotter steps needed to accurately simulate the time evolution of fermionic lattice models based on the first-order commutator scaling. We apply this formalism to two closely related many-body models prominent in condensed matter physics, the Hubbard and t-J models. We find that, while a naive comparison of the Trotter depth first seems to favor the Hubbard model, careful consideration of the model parameters and the allowable error for accurate simulation leads to a substantial advantage in favor of the t-J model. These results and formalism set the stage for significant improvements in quantum simulation costs.
翻訳日:2023-07-06 23:18:07 公開日:2023-07-05
# ProtST:タンパク質配列とバイオメディカルテキストのマルチモーダル学習

ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts ( http://arxiv.org/abs/2301.12040v2 )

ライセンス: Link先を確認
Minghao Xu, Xinyu Yuan, Santiago Miret, Jian Tang(参考訳) 現在のタンパク質言語モデル(plm)は、主にそれらの配列に基づいてタンパク質の表現を学習し、共進化的な情報をうまく捉えているが、タンパク質の表現学習の最終目標であるタンパク質の機能を明示的に獲得することはできない。 幸いなことに、多くのタンパク質では、それらの様々な機能を記述するために、それらのテキスト的特性記述が利用可能である。 この事実に動機づけられ、まずprotdescribeデータセットを構築し、その機能とその他の重要な特性のテキスト記述でタンパク質配列を増強する。 本稿では,タンパク質配列の事前学習とバイオメディカルテキストによる理解を促進するためのProtSTフレームワークを提案する。 プレトレーニング中,我々は3種類のタスク,すなわちユニモーダルマスク予測,マルチモーダル表現アライメント,マルチモーダルマスク予測をデザインし,異なる粒度を持つタンパク質特性情報を持つplmを強化し,同時にplmの本来の表現力を保持する。 下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。 多様な表現学習ベンチマークにおいて, ProtST による PLM の優位性を検証する。 ゼロショット設定では, ゼロショットタンパク質分類におけるProtSTの有効性が示され, また, ProtSTは機能アノテーションなしで大規模データベースから機能的タンパク質検索を可能にする。

Current protein language models (PLMs) learn protein representations mainly based on their sequences, thereby well capturing co-evolutionary information, but they are unable to explicitly acquire protein functions, which is the end goal of protein representation learning. Fortunately, for many proteins, their textual property descriptions are available, where their various functions are also described. Motivated by this fact, we first build the ProtDescribe dataset to augment protein sequences with text descriptions of their functions and other important properties. Based on this dataset, we propose the ProtST framework to enhance Protein Sequence pre-training and understanding by biomedical Texts. During pre-training, we design three types of tasks, i.e., unimodal mask prediction, multimodal representation alignment and multimodal mask prediction, to enhance a PLM with protein property information with different granularities and, at the same time, preserve the PLM's original representation power. On downstream tasks, ProtST enables both supervised learning and zero-shot prediction. We verify the superiority of ProtST-induced PLMs over previous ones on diverse representation learning benchmarks. Under the zero-shot setting, we show the effectiveness of ProtST on zero-shot protein classification, and ProtST also enables functional protein retrieval from a large-scale database without any function annotation.
翻訳日:2023-07-06 23:16:42 公開日:2023-07-05
# SOBER:離散空間と混合空間上の高並列ベイズ最適化とベイズ四分法

SOBER: Highly Parallel Bayesian Optimization and Bayesian Quadrature over Discrete and Mixed Spaces ( http://arxiv.org/abs/2301.11832v4 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Saad Hamid, Martin J{\o}rgensen, Harald Oberhauser, Micheal A. Osborne(参考訳) Batch Bayesian optimization と Bayesian quadrature は、高価な対物関数を並列にクエリできる最適化と二次化を行うサンプル効率のよい方法であることが示されている。 しかし、現在の手法は大規模なバッチサイズにはスケールしない -- 実際には頻繁なデシデラタム(例えば、薬物の発見やシミュレーションに基づく推論)である。 本稿では,分散空間上の任意の獲得関数とカーネルを持つ,スケーラブルで多様なバッチグローバル最適化と定式化を実現する新しいアルゴリズム SOBER を提案する。 我々のアプローチの鍵は、二次問題としてグローバル最適化のためのバッチ選択を再構成することであり、これは獲得関数の最大化(非凸)をカーネル再結合(凸)に緩和する。 グローバル最適化と二次のブリッジは、搾取ベイズ最適化と探索ベイズ二次のメリットをバランスさせることで、両方のタスクを効率的に解決することができる。 実世界の12のタスクにおいて,SOBERが11の競争ベースラインを上回っていることを示す。

Batch Bayesian optimisation and Bayesian quadrature have been shown to be sample-efficient methods of performing optimisation and quadrature where expensive-to-evaluate objective functions can be queried in parallel. However, current methods do not scale to large batch sizes -- a frequent desideratum in practice (e.g. drug discovery or simulation-based inference). We present a novel algorithm, SOBER, which permits scalable and diversified batch global optimisation and quadrature with arbitrary acquisition functions and kernels over discrete and mixed spaces. The key to our approach is to reformulate batch selection for global optimisation as a quadrature problem, which relaxes acquisition function maximisation (non-convex) to kernel recombination (convex). Bridging global optimisation and quadrature can efficiently solve both tasks by balancing the merits of exploitative Bayesian optimisation and explorative Bayesian quadrature. We show that SOBER outperforms 11 competitive baselines on 12 synthetic and diverse real-world tasks.
翻訳日:2023-07-06 23:15:55 公開日:2023-07-05
# FedSpeed: ローカルインターバルの拡大、コミュニケーションラウンドの削減、一般化の精度向上

FedSpeed: Larger Local Interval, Less Communication Round, and Higher Generalization Accuracy ( http://arxiv.org/abs/2302.10429v2 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Tiansheng Huang, Liang Ding, Dacheng Tao(参考訳) Federated Learningは、データプライバシ保護を備えた多数のローカルデバイスを通じて、グローバルモデルを共同でトレーニングする、新興の分散機械学習フレームワークである。 その性能は、局所的不整合最適と局所的過度適合による頑丈なクライアントドリフトによってもたらされる非消滅バイアスに悩まされる。 本稿では,これらの問題によって生じる負の影響を緩和する,新しい実用的な手法であるフェデスピードを提案する。 具体的には、FedSpeedが現在のローカルアップデートにprox-correction項を適用して、prox-termによって導入されたバイアスを効率的に削減する。 さらに、フェデスピードは、近傍の余分な勾配上昇ステップから計算された摂動とバニラ確率勾配とを融合し、局所的な過剰フィッティングの問題を軽減する。 我々の理論的解析は、収束速度が通信ラウンド$T$と局所区間$K$の双方に関係していることを示し、適切な局所区間を設定する場合、上限$\small \mathcal{O}(1/T)$である。 さらに,提案するフェデスピードの効率を実証するために,実世界のデータセットを広範囲に実験し,いくつかのベースラインよりも高速に動作し,一般的なfl実験環境での最先端(sota)性能を実現する。 私たちのコードは \url{https://github.com/woodenchild95/FL-Simulator.git} で利用可能です。

Federated learning is an emerging distributed machine learning framework which jointly trains a global model via a large number of local devices with data privacy protections. Its performance suffers from the non-vanishing biases introduced by the local inconsistent optimal and the rugged client-drifts by the local over-fitting. In this paper, we propose a novel and practical method, FedSpeed, to alleviate the negative impacts posed by these problems. Concretely, FedSpeed applies the prox-correction term on the current local updates to efficiently reduce the biases introduced by the prox-term, a necessary regularizer to maintain the strong local consistency. Furthermore, FedSpeed merges the vanilla stochastic gradient with a perturbation computed from an extra gradient ascent step in the neighborhood, thereby alleviating the issue of local over-fitting. Our theoretical analysis indicates that the convergence rate is related to both the communication rounds $T$ and local intervals $K$ with a upper bound $\small \mathcal{O}(1/T)$ if setting a proper local interval. Moreover, we conduct extensive experiments on the real-world dataset to demonstrate the efficiency of our proposed FedSpeed, which performs significantly faster and achieves the state-of-the-art (SOTA) performance on the general FL experimental settings than several baselines. Our code is available at \url{https://github.com/woodenchild95/FL-Simulator.git}.
翻訳日:2023-07-06 23:07:47 公開日:2023-07-05
# エネルギー貯蔵量子系の電池容量

The battery capacity of energy-storing quantum systems ( http://arxiv.org/abs/2302.09905v2 )

ライセンス: Link先を確認
Xue Yang, Yan-Han Yang, Mir Alimuddin, Raffaele Salvia, Shao-Ming Fei, Li-Ming Zhao, Stefan Nimmrichter, Ming-Xing Luo(参考訳) 量子バッテリ容量は、エネルギーを蓄え供給する量子システムのポテンシャルを表わすメリットの象徴としてこの手紙で紹介される。 これは、系のユニタリ進化によって到達できる最高エネルギーと最低エネルギーの差として定義される。 この関数はエルゴトロピーと密接に結びついているが、系の一時的なエネルギーレベルには依存しない。 量子バッテリの容量は、バッテリ状態のエントロピーや、コヒーレンスや絡み合いの尺度と直接リンクすることができる。

The quantum battery capacity is introduced in this letter as a figure of merit that expresses the potential of a quantum system to store and supply energy. It is defined as the difference between the highest and the lowest energy that can be reached by means of the unitary evolution of the system. This function is closely connected to the ergotropy, but it does not depend on the temporary level of energy of the system. The capacity of a quantum battery can be directly linked with the entropy of the battery state, as well as with measures of coherence and entanglement.
翻訳日:2023-07-06 23:07:21 公開日:2023-07-05
# グラフに基づく半教師あり学習のための擬似コントラスト学習

Pseudo Contrastive Learning for Graph-based Semi-supervised Learning ( http://arxiv.org/abs/2302.09532v2 )

ライセンス: Link先を確認
Weigang Lu, Ziyu Guan, Wei Zhao, Yaming Yang, Yuanhai Lv, Baosheng Yu, Dacheng Tao(参考訳) Pseudo Labelingは、半教師付きグラフニューラルネットワーク(GNN)の性能を向上させるために、自信のある予測に基づいて追加の擬似ラベルを生成する手法である。 しかし,与えられたラベルに対する分類目標の感度から,生成する疑似ラベルの品質が長年の関心事となっている。 aノードが特定のクラスに属している'ことを示す信頼できない分類監督を避けるために、``2ノードは同じクラスに属していない'を示すフォールトトレラントなコントラスト監督を推奨する。 従って、高品質な擬似ラベルを生成する問題は、信頼性の高い負のペアを識別する緩和版に変換される。 そこで我々は,Pseudo Contrastive Learning (PCL) と呼ばれるGNNのための汎用フレームワークを提案する。 正と負の擬ラベルが同じクラスをターゲットとする2つのノードを分離する。 トポロジカルな知識を学習に取り入れるために、より小さなトポロジカルな距離を持つ負のペアを分離するのにより多くの労力を費やすトポロジカルに重み付けされた対照的な損失を考案する。 実験では,pclを様々なgnnに適用し,実世界の5つのグラフにおける他の一般的な手法と一貫して比較した。

Pseudo Labeling is a technique used to improve the performance of semi-supervised Graph Neural Networks (GNNs) by generating additional pseudo-labels based on confident predictions. However, the quality of generated pseudo-labels has been a longstanding concern due to the sensitivity of the classification objective with respect to the given labels. To avoid the untrustworthy classification supervision indicating ``a node belongs to a specific class,'' we favor the fault-tolerant contrasting supervision demonstrating ``two nodes do not belong to the same class.'' Thus, the problem of generating high-quality pseudo-labels is then transformed into a relaxed version, i.e., identifying reliable negative pairs. To achieve this, we propose a general framework for GNNs, termed Pseudo Contrastive Learning (PCL). It separates two nodes whose positive and negative pseudo-labels target the same class. To incorporate topological knowledge into learning, we devise a topologically weighted contrastive loss that spends more effort separating negative pairs with smaller topological distances. Experimentally, we apply PCL to various GNNs, which consistently outperform their counterparts using other popular general techniques on five real-world graphs.
翻訳日:2023-07-06 23:07:10 公開日:2023-07-05
# 測地線距離空間上の動的後悔の最小化

Minimizing Dynamic Regret on Geodesic Metric Spaces ( http://arxiv.org/abs/2302.08652v2 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang, Jacob Abernethy(参考訳) 本稿では,完備リーマン多様体上の一般の動的後悔を最小化することが目的とする逐次決定問題を考える。 測地距離空間としても知られるそのような領域におけるオフライン最適化の課題は、最近大きな注目を集めている。 オンライン・セッティングの注目度は大幅に低下しており、ユークリッド・セッティングにおける結果の本体がリーマン多様体の領域に移植されるかどうかという疑問が残されており、新たな課題(例えば曲率)が生まれている。 本稿では,不適切な学習が許されるたびに非正の曲率を持つ多様体上で楽観的な後悔を得る方法を示し,適応的非回帰アルゴリズムを提案する。 私たちの知る限りでは、これは一般的な動的後悔を考慮し、測地線距離空間で使える「最適」オンライン学習アルゴリズムを開発する最初の作品である。

In this paper, we consider the sequential decision problem where the goal is to minimize the general dynamic regret on a complete Riemannian manifold. The task of offline optimization on such a domain, also known as a geodesic metric space, has recently received significant attention. The online setting has received significantly less attention, and it has remained an open question whether the body of results that hold in the Euclidean setting can be transplanted into the land of Riemannian manifolds where new challenges (e.g., curvature) come into play. In this paper, we show how to get optimistic regret bound on manifolds with non-positive curvature whenever improper learning is allowed and propose an array of adaptive no-regret algorithms. To the best of our knowledge, this is the first work that considers general dynamic regret and develops "optimistic" online learning algorithms which can be employed on geodesic metric spaces.
翻訳日:2023-07-06 23:06:44 公開日:2023-07-05
# LEVER: 実行で言語からコード生成を検証することを学ぶ

LEVER: Learning to Verify Language-to-Code Generation with Execution ( http://arxiv.org/abs/2302.08468v2 )

ライセンス: Link先を確認
Ansong Ni, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, Xi Victoria Lin(参考訳) コードで訓練された大規模言語モデル(コードllm)の出現は、言語対コード生成の著しい進歩をもたらした。 この領域における最先端のアプローチは、LCMデコーディングとサンプルプルーニングを組み合わせ、実行結果に基づいてテストケースやヒューリスティックを使って再ランク付けする。 しかし、多くの現実世界の言語からコードへのアプリケーションでテストケースを取得することは困難であり、ヒューリスティックスは、しばしばプログラムの正確さを示すデータ型や値範囲といった実行結果の意味的特徴をうまく把握できない。 そこで本研究では,プログラムの実行結果を学習することで,言語間コード生成を改善するシンプルな手法であるLEVERを提案する。 具体的には、自然言語入力やプログラム自体とその実行結果に基づいて、llmからサンプリングされたプログラムが正しいかどうかを判断するために検証者を訓練する。 サンプルプログラムは、検証スコアとLCM生成確率を組み合わせ、同じ実行結果でプログラムをマーカライズすることにより再ランクされる。 テーブルQA、数学QA、基本的なPythonプログラミングの領域にまたがる4つのデータセットにおいて、LEVERはLLMs(4.6%から10.9%)を一貫して改善し、それらすべてに対して新しい最先端の結果を得る。

The advent of large language models trained on code (code LLMs) has led to significant progress in language-to-code generation. State-of-the-art approaches in this area combine LLM decoding with sample pruning and reranking using test cases or heuristics based on the execution results. However, it is challenging to obtain test cases for many real-world language-to-code applications, and heuristics cannot well capture the semantic features of the execution results, such as data type and value range, which often indicates the correctness of the program. In this work, we propose LEVER, a simple approach to improve language-to-code generation by learning to verify the generated programs with their execution results. Specifically, we train verifiers to determine whether a program sampled from the LLMs is correct or not based on the natural language input, the program itself and its execution results. The sampled programs are reranked by combining the verification score with the LLM generation probability, and marginalizing over programs with the same execution results. On four datasets across the domains of table QA, math QA and basic Python programming, LEVER consistently improves over the base code LLMs(4.6% to 10.9% with code-davinci-002) and achieves new state-of-the-art results on all of them.
翻訳日:2023-07-06 23:06:19 公開日:2023-07-05
# Redditのニュース討論におけるイデオロギー的分離よりもデモグラフィーの証拠

Evidence of Demographic rather than Ideological Segregation in News Discussion on Reddit ( http://arxiv.org/abs/2302.07598v2 )

ライセンス: Link先を確認
Corrado Monti, Jacopo D'Ignazi, Michele Starnini, Gianmarco De Francisci Morales(参考訳) 我々は、イデオロギーグループと人口統計グループの間で、典型的な意見形成コンテキストにおけるホモフィアとヘテロフィアリーを評価する:現在のニュースのオンライン議論。 われわれはRedditのr/newsコミュニティで5年間にわたってユーザーインタラクションを分析している。 次に,これらのユーザの人口動態とイデオロギー特性を推定する。 注意深いネットワークヌルモデルとの比較により、どの属性のペアが相互作用を助長し、どれがそれを阻害するかを確立した。 個人は反対のイデオロギー的側面に関わり、これはエコー室の物語と矛盾する。 個人が自身のグループ内で相互作用する傾向があるため、そのような属性が直接観察できないオンライン環境においても、人口動態群はホモフレンドリである。 特に、年齢と収入の分離は、何年にもわたって一貫して観察され、ユーザーは異なるグループに属している場合の相互作用を避ける傾向にある。 これらの結果は、異なるニューストピックにおける各人口集団の関心度を制御した後も継続する。 本研究は,ソーシャルメディア上のイデオロギー的なエコー・チェンバーではなく,より分断された社会との関わりが増しているという,情緒的分極理論と一致している。 私たちは匿名化されたデータセットと結果を再現するすべてのコードを公開した。

We evaluate homophily and heterophily among ideological and demographic groups in a typical opinion formation context: online discussions of current news. We analyze user interactions across five years in the r/news community on Reddit, one of the most visited websites in the United States. Then, we estimate demographic and ideological attributes of these users. Thanks to a comparison with a carefully-crafted network null model, we establish which pairs of attributes foster interactions and which ones inhibit them. Individuals prefer to engage with the opposite ideological side, which contradicts the echo chamber narrative. Instead, demographic groups are homophilic, as individuals tend to interact within their own group - even in an online setting where such attributes are not directly observable. In particular, we observe age and income segregation consistently across years: users tend to avoid interactions when belonging to different groups. These results persist after controlling for the degree of interest by each demographic group in different news topics. Our findings align with the theory that affective polarization - the difficulty in socializing across political boundaries-is more connected with an increasingly divided society, rather than ideological echo chambers on social media. We publicly release our anonymized data set and all the code to reproduce our results: https://github.com/corradomonti/demographic-homophily
翻訳日:2023-07-06 23:05:03 公開日:2023-07-05
# 量子ウォークにおけるセデンタリネス

Sedentariness in quantum walks ( http://arxiv.org/abs/2303.06297v3 )

ライセンス: Link先を確認
Hermie Monterde(参考訳) sedentary vertex の概念を形式化し、Godsil [Linear Algebra Appl. 614:356-375, 2021] によって導入された sedentary family of graph の概念を緩和する。 グラフ内の与えられた頂点がセデンタリ性を示すのに十分な条件を提供する。 また、少なくとも双子が2人いる頂点(隣人を共有する頂点)は鎮静剤であることも示している。 従属的な強共スペクトル頂点を含む無限個のグラフが存在することを証明し、強共スペクトルがかなり良好な状態移動に必要な条件であるにもかかわらず、他の頂点への高い確率状態移動に抵抗する強共スペクトル頂点が存在することを証明した。 さらに、グラフの積におけるセデンタリティの結果を導き、完全なグラフと星のカルテシアン力のような新しいセデンタリー族を構築することができる。

We formalize the notion of a sedentary vertex and present a relaxation of the concept of a sedentary family of graphs introduced by Godsil [Linear Algebra Appl. 614:356-375, 2021]. We provide sufficient conditions for a given vertex in a graph to exhibit sedentariness. We also show that a vertex with at least two twins (vertices that share the same neighbours) is sedentary. We prove that there are infinitely many graphs containing strongly cospectral vertices that are sedentary, which reveals that, even though strong cospectrality is a necessary condition for pretty good state transfer, there are strongly cospectral vertices which resist high probability state transfer to other vertices. Moreover, we derive results about sedentariness in products of graphs which allow us to construct new sedentary families, such as Cartesian powers of complete graphs and stars.
翻訳日:2023-07-06 22:59:29 公開日:2023-07-05
# 単一波動関数から高次中心電荷を抽出する

Extracting higher central charge from a single wave function ( http://arxiv.org/abs/2303.04822v3 )

ライセンス: Link先を確認
Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu(参考訳) 2+1)Dトポロジカル秩序相は、キラル中心電荷$c_-$が消滅しても、ギャップ可能なエッジを持つかもしれない。 近年,キラル中心電荷の'higher'バージョンと見なされる量によって,先端を突き出すのに$c_-$を超えるさらなる障害が生じることが判明した。 この手紙では、高次中心電荷は位相的に順序付けられた状態の波動関数に作用する \textit{partial rotation} 作用素の期待値によって特徴づけられることを示した。 これにより、1つの波動関数から高い中心電荷を抽出し、量子コンピュータで評価することができる。 高次中心電荷のキャラクタリゼーションは、エッジ共形場理論のモジュラー特性と、それぞれ$\mathrm{U}(1)_2$およびIsingトポロジカルオーダーに対応する、$\nu=1/2$bosonic Laughlin状態とKITEの非アベリアギャップ位相による数値結果から解析的に導かれる。 この文字は、(2+1)dボソニック位相次数が$c_-$を超える、(2+1)dボソニック位相次数のガッパブルエッジに対する一連の障害を得るための数値的方法を確立し、(2+1)dボソニックアーベル位相位数がガッパブルエッジを持つか否かを完全に決定する。 また、単一波動関数上の部分回転の期待値は、リーブ・シュルツ・マティス型定理を思わせる (2+1)D ボソニックトポロジー次数のバルク境界系の低エネルギースペクトルに制約を与えることを指摘した。

A (2+1)D topologically ordered phase may or may not have a gappable edge, even if its chiral central charge $c_-$ is vanishing. Recently, it is discovered that a quantity regarded as a ``higher'' version of chiral central charge gives a further obstruction beyond $c_-$ to gapping out the edge. In this Letter, we show that the higher central charges can be characterized by the expectation value of the \textit{partial rotation} operator acting on the wavefunction of the topologically ordered state. This allows us to extract the higher central charge from a single wavefunction, which can be evaluated on a quantum computer. Our characterization of the higher central charge is analytically derived from the modular properties of edge conformal field theory, as well as the numerical results with the $\nu=1/2$ bosonic Laughlin state and the non-Abelian gapped phase of the Kitaev honeycomb model, which corresponds to $\mathrm{U}(1)_2$ and Ising topological order respectively. The letter establishes a numerical method to obtain a set of obstructions to the gappable edge of (2+1)D bosonic topological order beyond $c_-$, which enables us to completely determine if a (2+1)D bosonic Abelian topological order has a gappable edge or not. We also point out that the expectation values of the partial rotation on a single wavefunction put a constraint on the low-energy spectrum of the bulk-boundary system of (2+1)D bosonic topological order, reminiscent of the Lieb-Schultz-Mattis type theorems.
翻訳日:2023-07-06 22:58:55 公開日:2023-07-05
# 因果依存性プロット

Causal Dependence Plots ( http://arxiv.org/abs/2303.04209v2 )

ライセンス: Link先を確認
Joshua R. Loftus, Lucius E. J. Bynum, Sakina Hansen(参考訳) 人工知能や機械学習モデルの説明がますます重要である。 このようなデータ駆動システムを使うには、データ入力に慎重に依存する方法を含む、世界との相互作用の仕方を理解する必要がある。 本研究では、ある変数--結果--が他の変数の変化にどのように依存するかを視覚化するために、因果依存性プロット(CDP)を開発します。 重要な点として、CDPは他の予測子を一定にするか、独立であると仮定して、標準的な方法とは異なる。 cdpは因果的結論が因果的仮定を必要とするため、補助的因果モデルを用いる。 シミュレーションと実データ実験により,cdpと因果学習や感度分析の手法をモジュール的に組み合わせることができることを示した。 入力出力依存を因果的に考えることが多いため、cdpはxaiや解釈可能な機械学習ツールキットの強力なツールとなり、科学的機械学習やアルゴリズム的公平性といったアプリケーションに貢献する。

Explaining artificial intelligence or machine learning models is increasingly important. To use such data-driven systems wisely we must understand how they interact with the world, including how they depend causally on data inputs. In this work we develop Causal Dependence Plots (CDPs) to visualize how one variable--an outcome--depends on changes in another variable--a predictor--$\textit{along with any consequent causal changes in other predictor variables}$. Crucially, CDPs differ from standard methods based on holding other predictors constant or assuming they are independent. CDPs make use of an auxiliary causal model because causal conclusions require causal assumptions. With simulations and real data experiments, we show CDPs can be combined in a modular way with methods for causal learning or sensitivity analysis. Since people often think causally about input-output dependence, CDPs can be powerful tools in the xAI or interpretable machine learning toolkit and contribute to applications like scientific machine learning and algorithmic fairness.
翻訳日:2023-07-06 22:58:17 公開日:2023-07-05
# AMIGO:ギガピクセル画像の表現学習のための共有コンテキスト処理付きスパースマルチモードグラフ変換器

AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images ( http://arxiv.org/abs/2303.00865v2 )

ライセンス: Link先を確認
Ramin Nakhli, Puria Azadi Moghadam, Haoyang Mi, Hossein Farahani, Alexander Baras, Blake Gilks, Ali Bashashati(参考訳) ギガピクセル全体のslide histopathology images (wsi)の処理は計算コストのかかる作業である。 複数インスタンス学習(MIL)は、WSIを処理するための従来のアプローチとなり、これらのイメージは、さらなる処理のためにより小さなパッチに分割される。 しかし、MILベースの手法はパッチ内の個々の細胞についての明示的な情報を無視する。 本稿では,共有コンテキスト処理の新しい概念を定義することにより,組織内のセルナーグラフを用いて,組織階層構造を生かしながら患者に対して単一の表現を提供するマルチモーダルグラフトランスフォーマ(amigo)を考案し,細胞レベルと組織レベルの情報のダイナミックなフォーカスを可能にした。 我々はサバイバル予測における複数の最先端手法に対するモデルの性能をベンチマークし,階層的ビジョントランスフォーマー (vit) を含む全手法を有意に上回ることを示した。 さらに重要なことは、我々のモデルは欠落した情報に対して強い堅牢性を示し、20%の低いデータで同じパフォーマンスを達成できることを示しています。 最後に、2つの異なるがんデータセットにおいて、我々のモデルが患者を低リスク群と高リスク群に分類できることを示した。 また,188例の組織マイクロアレイ(TMA)コアと生存情報を含む免疫組織化学画像(InUIT)の大規模なデータセットも公開し,この文脈で最大の公開データセットの1つである。

Processing giga-pixel whole slide histopathology images (WSI) is a computationally expensive task. Multiple instance learning (MIL) has become the conventional approach to process WSIs, in which these images are split into smaller patches for further processing. However, MIL-based techniques ignore explicit information about the individual cells within a patch. In this paper, by defining the novel concept of shared-context processing, we designed a multi-modal Graph Transformer (AMIGO) that uses the celluar graph within the tissue to provide a single representation for a patient while taking advantage of the hierarchical structure of the tissue, enabling a dynamic focus between cell-level and tissue-level information. We benchmarked the performance of our model against multiple state-of-the-art methods in survival prediction and showed that ours can significantly outperform all of them including hierarchical Vision Transformer (ViT). More importantly, we show that our model is strongly robust to missing information to an extent that it can achieve the same performance with as low as 20% of the data. Finally, in two different cancer datasets, we demonstrated that our model was able to stratify the patients into low-risk and high-risk groups while other state-of-the-art methods failed to achieve this goal. We also publish a large dataset of immunohistochemistry images (InUIT) containing 1,600 tissue microarray (TMA) cores from 188 patients along with their survival information, making it one of the largest publicly available datasets in this context.
翻訳日:2023-07-06 22:58:02 公開日:2023-07-05
# exp-concave統計学習における局所ノルムの検討

Exploring Local Norms in Exp-concave Statistical Learning ( http://arxiv.org/abs/2302.10726v2 )

ライセンス: Link先を確認
Nikita Puchkin, Nikita Zhivotovskiy(参考訳) 凸クラスにおける経験的リスク最小化を用いて,exp-concave損失を伴う確率的凸最適化の問題を考える。 いくつかの先行研究で提起された質問に対して、$d$が凸参照集合の次元、$n$がサンプルサイズ、$\delta$が信頼レベルである有界なexp-concave損失の広いクラスに対して、$o(d / n + \log(1 / \delta) /n )$の過剰なリスク境界が有効である。 この結果は損失の勾配と局所ノルムの概念に関する統一幾何学的仮定に基づいている。

We consider the problem of stochastic convex optimization with exp-concave losses using Empirical Risk Minimization in a convex class. Answering a question raised in several prior works, we provide a $O( d / n + \log( 1 / \delta) / n )$ excess risk bound valid for a wide class of bounded exp-concave losses, where $d$ is the dimension of the convex reference set, $n$ is the sample size, and $\delta$ is the confidence level. Our result is based on a unified geometric assumption on the gradient of losses and the notion of local norms.
翻訳日:2023-07-06 22:55:46 公開日:2023-07-05
# 機械心理学:心理学的手法を用いた大規模言語モデルにおける創発的能力と行動の調査

Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods ( http://arxiv.org/abs/2303.13988v3 )

ライセンス: Link先を確認
Thilo Hagendorff(参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。 急速な技術進歩と極端な汎用性により、LLMは今や数百万人のユーザを抱えており、情報検索、コンテンツ生成、問題解決などの主要なゴート技術になりつつある。 そのため、その能力を徹底的に評価し、精査することが重要である。 現在のllmでは、ますます複雑で新しい行動パターンがみられるため、もともと人間をテストするために設計された心理学実験の参加者として扱うことができる。 そこで本研究では,「機械心理学」と呼ばれる新しい研究分野を紹介する。 この論文は、心理学の異なるサブフィールドがLLMの行動テストにどのように影響するかを概説する。 機械心理学研究の方法論的基準を定義しており、特にプロンプトデザインのポリシーに焦点を当てている。 さらに、LLMで発見された行動パターンがどのように解釈されるかを記述する。 要約すると、機械心理学は従来の自然言語処理ベンチマークでは検出できないLLMの創発的能力を発見することを目的としている。

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Due to rapid technological advances and their extreme versatility, LLMs nowadays have millions of users and are at the cusp of being the main go-to technology for information retrieval, content generation, problem-solving, etc. Therefore, it is of great importance to thoroughly assess and scrutinize their capabilities. Due to increasingly complex and novel behavioral patterns in current LLMs, this can be done by treating them as participants in psychology experiments that were originally designed to test humans. For this purpose, the paper introduces a new field of research called "machine psychology". The paper outlines how different subfields of psychology can inform behavioral tests for LLMs. It defines methodological standards for machine psychology research, especially by focusing on policies for prompt designs. Additionally, it describes how behavioral patterns discovered in LLMs are to be interpreted. In sum, machine psychology aims to discover emergent abilities in LLMs that cannot be detected by most traditional natural language processing benchmarks.
翻訳日:2023-07-06 22:47:35 公開日:2023-07-05
# 終端物体検出のためのDense Distinct Query

Dense Distinct Query for End-to-End Object Detection ( http://arxiv.org/abs/2303.12776v2 )

ライセンス: Link先を確認
Shilong Zhang, Xinjiang Wang, Jiaqi Wang, Jiangmiao Pang, Chengqi Lyu, Wenwei Zhang, Ping Luo, Kai Chen(参考訳) オブジェクト検出における1対1のラベル割り当ては、後処理としての非最大抑圧(NMS)の必要性を回避し、パイプラインをエンドツーエンドにする。 しかし、広く使われているスパースクエリは高いリコールを保証することができず、高密度クエリは必然的に同様のクエリをもたらし、最適化の困難に直面するため、新しいジレンマを引き起こす。 スパースクエリと高密度クエリの両方が問題となるので、エンドツーエンドのオブジェクト検出で期待されるクエリは何ですか? 本稿では,Dense Distinct Queries (DDQ) の解法を示す。 具体的には、まず従来の検出器のように密度の高いクエリを配置し、次に1対1の割り当てに対して異なるクエリを選択する。 DDQは、従来のエンドツーエンド検出器と最近のエンドツーエンド検出器の利点を融合させ、FCN、R-CNN、DETRなどの様々な検出器の性能を大幅に向上させる。 最も印象的なことに、DDQ-DETRはResNet-50のバックボーンを使用して12時間以内にMS-COCOデータセット上で52.1 APを達成した。 DDQはまた、混雑したシーンでエンドツーエンド検出器の利点を共有し、CrowdHumanで93.8 APを達成した。 DDQが研究者に、従来の方法とエンドツーエンドの検出器の相補性を考えることを願っている。 ソースコードは \url{https://github.com/jshilong/DDQ} にある。

One-to-one label assignment in object detection has successfully obviated the need for non-maximum suppression (NMS) as postprocessing and makes the pipeline end-to-end. However, it triggers a new dilemma as the widely used sparse queries cannot guarantee a high recall, while dense queries inevitably bring more similar queries and encounter optimization difficulties. As both sparse and dense queries are problematic, then what are the expected queries in end-to-end object detection? This paper shows that the solution should be Dense Distinct Queries (DDQ). Concretely, we first lay dense queries like traditional detectors and then select distinct ones for one-to-one assignments. DDQ blends the advantages of traditional and recent end-to-end detectors and significantly improves the performance of various detectors including FCN, R-CNN, and DETRs. Most impressively, DDQ-DETR achieves 52.1 AP on MS-COCO dataset within 12 epochs using a ResNet-50 backbone, outperforming all existing detectors in the same setting. DDQ also shares the benefit of end-to-end detectors in crowded scenes and achieves 93.8 AP on CrowdHuman. We hope DDQ can inspire researchers to consider the complementarity between traditional methods and end-to-end detectors. The source code can be found at \url{https://github.com/jshilong/DDQ}.
翻訳日:2023-07-06 22:47:18 公開日:2023-07-05
# ゼルドビッチ数:電磁場に対する普遍次元のない測度

The Zeldovich number: A universal dimensionless measure for the electromagnetic field ( http://arxiv.org/abs/2303.12183v2 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) この研究では、もともと自由電磁場のために導かれ、光子の個数として解釈されたツェルドヴィッチの公式を拡張した。 この拡張公式は、古典的および量子論において、様々な源によって生成される自由場と場という電磁場全体の強さの普遍的な次元のない測度を与える。 特に、マクロ系に対するこの数(ゼルドビッチ数)は 10^{20}$ のオーダーで巨大である。 基底状態の水素原子は0.025に等しく、キセノン原子では約50である。

In this work we extend the Zeldovich formula, which was originally derived for the free electromagnetic field and was interpreted as the number of photons. We show that our extended formula gives a universal dimensionless measure of the overall strength of electromagnetic fields: free fields and fields produced by various sources, in classical and in quantum theory. In particular, we find that this number (the Zeldovich number) for macroscopic systems is huge, of the order of $10^{20}$. For the hydrogen atom in the ground state it is equal to 0.025 and for the xenon atom it is around 50.
翻訳日:2023-07-06 22:46:53 公開日:2023-07-05
# グラフ上のランダム逆問題:分散オンライン学習

Random Inverse Problems Over Graphs: Decentralized Online Learning ( http://arxiv.org/abs/2303.11789v3 )

ライセンス: Link先を確認
Tao Li and Xiwei Zhang(参考訳) 本稿では,グラフ上の実時間観測によるランダム逆問題の枠組みを確立し,Hilbert空間における分散パラメータ推定とカーネルHilbert空間の再生成における最小二乗問題(RKHS-LMS)を統一するオンラインデータストリームに基づく分散オンライン学習アルゴリズムを提案する。 アルゴリズム収束を、l2-バウンドマルティンゲール差分項を持つヒルベルト空間におけるランダムな時間変化差分方程式の漸近安定性に変換し、l2-漸近安定性理論を発展させる。 ネットワークグラフが連結であり、フォワード作用素の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの見積もりは平均二乗であり、ほぼ確実に一致している。 rkhsの分散学習問題をグラフ上のランダムな逆問題に等価に転送することにより、非定常および非独立なオンラインデータストリームに基づくrkhsにおける分散オンライン学習アルゴリズムを提案し、ランダム入力データによって誘導される演算子が励起条件の無限次元時空間持続性を満たす場合、アルゴリズムが平均2乗でほぼ確実に一貫性があることを証明する。

We establish a framework of random inverse problems with real-time observations over graphs, and present a decentralized online learning algorithm based on online data streams, which unifies the distributed parameter estimation in Hilbert space and the least mean square problem in reproducing kernel Hilbert space (RKHS-LMS). We transform the algorithm convergence into the asymptotic stability of randomly time-varying difference equations in Hilbert space with L2-bounded martingale difference terms and develop the L2 -asymptotic stability theory. It is shown that if the network graph is connected and the sequence of forward operators satisfies the infinitedimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. By equivalently transferring the distributed learning problem in RKHS to the random inverse problem over graphs, we propose a decentralized online learning algorithm in RKHS based on non-stationary and non-independent online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition.
翻訳日:2023-07-06 22:46:41 公開日:2023-07-05
# 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン

Robust incremental learning pipelines for temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v6 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,財務時相表型データセット上での回帰タスクに対する頑健な深層学習モデルを提案する。 一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、データの分散シフトに対応するために、マシンラーニングモデルがインクリメンタルに構築される。 自己相似性の概念を用いて、モデルは必要な複雑性のモデルを構築するために、機械学習メソッドの基本的なビルディングブロック、決定木のみを使用する。 このモデルは、金融データセットに共通する状態変化、脂肪尾分布、低信号-雑音比などの悪条件下での堅牢な性能を示す。 モデルロバスト性は,NumeraiデータセットでトレーニングされたXGBoostモデルを用いて,モデル複雑性やデータサンプリング設定などの異なるハイパーパラメータの下で研究される。 異なるモデルスナップショット上のXGBoostモデルの2層ディープアンサンブルは、異なる市場体制下で高品質な予測を提供することを示す。 3つのシナリオ (小, 標準, 大規模) において, xgboost モデルを比較して, モデル性能はモデルサイズに対して単調に増大し, 一般化の上界に向かって収束することを示した。 私たちのモデルは、特殊なニューラルアーキテクチャを使用しず、各ベースモデルを並列に独立にトレーニングできるため、他の機械学習モデルよりもはるかに低いハードウェア要件で効率的です。

In this paper, we present a robust deep incremental learning model for regression tasks on financial temporal tabular datasets. Using commonly available tabular and time-series prediction models as building blocks, a machine-learning model is built incrementally to adapt to distributional shifts in data. Using the concept of self-similarity, the model uses only a basic building block of machine learning methods, decision trees to build models of any required complexity. The model is demonstrated to have robust performances under adverse situations such as regime changes, fat-tailed distributions and low signal-to-noise ratios which is common in financial datasets. Model robustness are studied under different hyper-parameters such as model complexity and data sampling settings using XGBoost models trained on the Numerai dataset as a detailed case study. The two layer deep ensemble of XGBoost models over different model snapshots is demonstrated to deliver high quality predictions under different market regimes. Comparing the XGBoost models with different number of boosting rounds in three scenarios (small, standard and large), we demonstrated the model performances are monotonic increasing with respect to model sizes and converges towards the generalisation upper bound. Our model is efficient with much lower hardware requirement than other machine learning models as no specialised neural architectures are used and each base model can be independently trained in parallel.
翻訳日:2023-07-06 22:45:27 公開日:2023-07-05
# 教育データサイエンス研究を学区と共有するall a-board

All a-board: sharing educational data science research with school districts ( http://arxiv.org/abs/2304.08967v2 )

ライセンス: Link先を確認
Nabeel Gillani and Doug Beeferman and Cassandra Overney and Christine Vega-Pourheydarian and Deb Roy(参考訳) 教育データ科学者は、しばしば、調査結果を政策、市民社会、その他のチャネルを通じて持続的な変化に翻訳することを望んで研究を行う。 However, the bridge from research to practice can be fraught with sociopolitical frictions that impede, or altogether block, such translations -- especially when they are contentious or otherwise difficult to achieve. Focusing on one entrenched educational equity issue in US public schools -- racial and ethnic segregation -- we conduct randomized email outreach experiments and surveys to explore how local school districts respond to algorithmically-generated school catchment areas ("attendance boundaries") designed to foster more diverse and integrated schools. 800以上の教育学区で選出された約4,320人の教育委員会メンバーに、境界変更の可能性を伝えるコールドメールは、大きな平均オープンレートが40%近くであることを示しているが、そのような変更を示すインタラクティブなダッシュボードでは、クリックスルー率が2.5%と比較的低い。 しかし、さまざまなメッセージ技術、特に人種や民族の多様性の問題と、他のトップレベルの問題(学校の能力計画など)に反応するように見える。 一方、メディアの報道は、特に分離された地域では、より多くのダッシュボードへのエンゲージメントを促進する。 教育委員会と各地区のコミュニティメンバーによる小規模ながら豊かな調査回答は、より多様な学校を育てるために境界変更を実施するためのデータと運用上のボトルネックを特定し、これらの変更の潜在的な実行可能性に関する肯定的なコメントも共有している。 共に,システムレベルの変化を通じて教育的不平等を橋渡しすることを目的とした,より効果的な研究を広める教育データ科学者を支援する。

Educational data scientists often conduct research with the hopes of translating findings into lasting change through policy, civil society, or other channels. However, the bridge from research to practice can be fraught with sociopolitical frictions that impede, or altogether block, such translations -- especially when they are contentious or otherwise difficult to achieve. Focusing on one entrenched educational equity issue in US public schools -- racial and ethnic segregation -- we conduct randomized email outreach experiments and surveys to explore how local school districts respond to algorithmically-generated school catchment areas ("attendance boundaries") designed to foster more diverse and integrated schools. Cold email outreach to approximately 4,320 elected school board members across over 800 school districts informing them of potential boundary changes reveals a large average open rate of nearly 40%, but a relatively small click-through rate of 2.5% to an interactive dashboard depicting such changes. Board members, however, appear responsive to different messaging techniques -- particularly those that dovetail issues of racial and ethnic diversity with other top-of-mind issues (like school capacity planning). On the other hand, media coverage of the research drives more dashboard engagement, especially in more segregated districts. A small but rich set of survey responses from school board and community members across several districts identify data and operational bottlenecks to implementing boundary changes to foster more diverse schools, but also share affirmative comments on the potential viability of such changes. Together, our findings may support educational data scientists in more effectively disseminating research that aims to bridge educational inequalities through systems-level change.
翻訳日:2023-07-06 22:39:50 公開日:2023-07-05
# 反強磁性体における温度異方性共役マグノンスクイーズ

Temperature-anisotropy conjugate magnon squeezing in antiferromagnets ( http://arxiv.org/abs/2304.07602v2 )

ライセンス: Link先を確認
Mahroo Shiranzaei, Jonas Fransson, Vahid Azimi-Mousolou(参考訳) 量子スクイーズ(quantum squeezing)は、量子科学と技術分野における重要な資産である。 本研究では,一軸反強磁性体中の2モードマグノン状態における量子揺らぎのスクイーズに及ぼす温度と異方性の影響について検討する。 解析により、これらの二部構造マグノン系の固有非線形性は、温度と異方性によって駆動される全てのエネルギー固有基底状態の共役マグノンスクイーズ効果を引き起こすことが判明した。 温度が振幅スクイーズを引き起こすのに対し、異方性は位相スクイーズを引き起こすことを示す。 さらに,マグノン・アイジネギー状態の2モードスクイーズ特性が振幅スクイーズ現象と関連していることが観察された。 これは、2モードマグノンスクイーズにおける温度の建築的影響と異方性の破壊的影響を浮き彫りにしている。 しかし, 解析の結果, 異方性の破壊効果は有界であることがわかった。 所与の温度で、運動量(位相)二次体のスクイーズ(あるいは同値)において、位置(振幅)二次体のストレッチ(英語版)が、異方性の有限値の後に異方性の定数関数に近づくことを示す。 さらに本研究では, 高温, 異方性レベルが小さく, ブリルアンゾーン中心に近く, 高いマグノン圧縮係数が達成できることを実証した。 これらの特徴は、ここで調べる一軸反強磁性材料中の低エネルギーマグノンに特有である。

Quantum squeezing is an essential asset in the field of quantum science and technology. In this study, we investigate the impact of temperature and anisotropy on squeezing of quantum fluctuations in two-mode magnon states within uniaxial antiferromagnetic materials. Through our analysis, we discover that the inherent nonlinearity in these bipartite magnon systems gives rise to a conjugate magnon squeezing effect across all energy eigenbasis states, driven by temperature and anisotropy. We show that temperature induces amplitude squeezing, whereas anisotropy leads to phase squeezing. In addition, we observe that the two-mode squeezing characteristic of magnon eigenenergy states is associated with amplitude squeezing. This highlights the constructive impact of temperature and the destructive impact of anisotropy on two-mode magnon squeezing. Nonetheless, our analysis shows that the destructive effect of anisotropy is bounded. We demonstrate this by showing that, at a given temperature, the squeezing of the momentum (phase) quadrature (or equivalently, the stretching of the position (amplitude) quadrature) approaches a constant function of anisotropy after a finite value of anisotropy. Moreover, our study demonstrates that higher magnon squeeze factors can be achieved at higher temperatures, smaller levels of anisotropy, and closer to the Brillouin zone center. All these characteristics are specific to low-energy magnons in the uniaxial antiferromagnetic materials that we examine here.
翻訳日:2023-07-06 22:39:23 公開日:2023-07-05
# PlantDet: 3リバーソース領域におけるプラント検出のベンチマーク

PlantDet: A benchmark for Plant Detection in the Three-Rivers-Source Region ( http://arxiv.org/abs/2304.04963v2 )

ライセンス: Link先を確認
Huanhuan Li, Xuechao Zou, Yu-an Zhang, Jiangcai Zhaba, Guomei Li, Lamao Yongga(参考訳) 三河水源地域は中国の非常に重要な自然保護区であり、無汚染の植物資源が豊富にある。 植物研究と知的植物管理の実践的要件を満たすため,三河水源地域(PTRS)における植物検出のための大規模データセットを構築した。 このデータセットは、2160*3840ピクセルの6965の高解像度画像で構成され、様々なセンサーやプラットフォームで撮影され、様々な形状や大きさのオブジェクトが特徴である。 その後、植物画像解釈の専門家のチームは、これらの画像を21の一般的なオブジェクトカテゴリで注釈付けした。 PTRS画像には122,300個の植物の葉があり、それぞれ水平長方形でラベル付けされている。 ptrsは植物間の密集した咬合、葉の分解能の変化、高機能な類似性などの課題を提示し、plantdetと呼ばれる新しい物体検出ネットワークの開発を促した。 このネットワークは、ウィンドウベースの効率的なセルフアテンションモジュール(stブロック)を使用して、複数のスケールでロバストな特徴表現を生成し、小さくて密集したオブジェクトの検出効率を向上させる。 実験により,提案するプラント検出ベンチマークの有効性を88.1%,平均平均精度(map)77.6%,基準値と比較して高いリコール率で検証した。 さらに,本手法は,小型オブジェクトの欠落を効果的に克服する。 この分野のさらなる研究を進めるために、私たちのデータとコードを関係者と共有するつもりです。

The Three-River-Source region is a highly significant natural reserve in China that harbors a plethora of untamed botanical resources. To meet the practical requirements of botanical research and intelligent plant management, we construct a large-scale dataset for Plant detection in the Three-River-Source region (PTRS). This dataset comprises 6965 high-resolution images of 2160*3840 pixels, captured by diverse sensors and platforms, and featuring objects of varying shapes and sizes. Subsequently, a team of botanical image interpretation experts annotated these images with 21 commonly occurring object categories. The fully annotated PTRS images contain 122, 300 instances of plant leaves, each labeled by a horizontal rectangle. The PTRS presents us with challenges such as dense occlusion, varying leaf resolutions, and high feature similarity among plants, prompting us to develop a novel object detection network named PlantDet. This network employs a window-based efficient self-attention module (ST block) to generate robust feature representation at multiple scales, improving the detection efficiency for small and densely-occluded objects. Our experimental results validate the efficacy of our proposed plant detection benchmark, with a precision of 88.1%, a mean average precision (mAP) of 77.6%, and a higher recall compared to the baseline. Additionally, our method effectively overcomes the issue of missing small objects. We intend to share our data and code with interested parties to advance further research in this field.
翻訳日:2023-07-06 22:38:09 公開日:2023-07-05
# ステップバイステップ! 学習データが少ない大規模言語モデルと小モデルサイズの性能向上

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes ( http://arxiv.org/abs/2305.02301v2 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister(参考訳) 大規模言語モデル(LLM)のデプロイは、メモリ非効率で、実用的なアプリケーションには計算集約的であるため、難しい。 反応として、研究者は人間のラベルで微調整するか、LLM生成ラベルを使って蒸留することで、より小さなタスク固有のモデルを訓練する。 しかし、微調整と蒸留はLLMに匹敵する性能を達成するために大量の訓練データを必要とする。 新しいメカニズムであるDistilling Step-by-stepを導入する。 (a)LDMより優れた小型モデルを訓練し、 b)微調整や蒸留で必要なトレーニングデータの少ない活用により達成する。 提案手法は,マルチタスク・フレームワーク内での小型モデルのトレーニングを補助的に行うため,LCMの合理性を抽出する。 まず, 4つのnlpベンチマークにおいて, 微調整と蒸留に比較して, ラベル付き/ラベルなしのトレーニング例をはるかに少なくして, 良好な性能を実現する機構を示す。 第二に、数発のLPMに比べて、かなり小さなモデルサイズで性能が向上する。 第3に、モデルサイズとLLMを上回るデータ量の両方を削減し、微調整された770M T5モデルは、ベンチマークで利用可能なデータの80%しか使用していない540B PaLMモデルよりも優れています。 コードはhttps://github.com/google-research/distilling-step-by-step.comでリリースします。

Deploying large language models (LLMs) is challenging because they are memory inefficient and compute-intensive for practical applications. In reaction, researchers train smaller task-specific models by either finetuning with human labels or distilling using LLM-generated labels. However, finetuning and distillation require large amounts of training data to achieve comparable performance to LLMs. We introduce Distilling step-by-step, a new mechanism that (a) trains smaller models that outperform LLMs, and (b) achieves so by leveraging less training data needed by finetuning or distillation. Our method extracts LLM rationales as additional supervision for training small models within a multi-task framework. We present three findings across 4 NLP benchmarks: First, compared to both finetuning and distillation, our mechanism achieves better performance with much fewer labeled/unlabeled training examples. Second, compared to few-shot prompted LLMs, we achieve better performance using substantially smaller model sizes. Third, we reduce both the model size and the amount of data required to outperform LLMs; our finetuned 770M T5 model outperforms the few-shot prompted 540B PaLM model using only 80% of available data on a benchmark, whereas standard finetuning the same T5 model struggles to match even by using 100% of the dataset. We release the code at: https://github.com/google-research/distilling-step-by-step .
翻訳日:2023-07-06 22:28:29 公開日:2023-07-05
# トップ1分解特徴のヒュージングロジットによる対向移動性の向上

Boosting Adversarial Transferability via Fusing Logits of Top-1 Decomposed Feature ( http://arxiv.org/abs/2305.01361v3 )

ライセンス: Link先を確認
Juanjuan Weng and Zhiming Luo and Dazhen Lin and Shaozi Li and Zhun Zhong(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、高い転送性を持ち、未知のブラックボックスモデルを攻撃するために使用できる、敵のサンプルに対して非常に脆弱であることが示されている。 逆行性サンプルの伝達性を改善するために、中層におけるニューロンの活性化を阻害するいくつかの機能ベースの逆行性攻撃法が提案されている。 しかし、現在の最先端の機能ベースの攻撃方法は、一般的にニューロンの重要性を推定するために追加の計算コストを必要とする。 そこで本研究では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃手法を提案する。 我々のアプローチは、中間層の特徴から分解された大きな特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。 具体的には,分解されたtop-1特異値関連特徴を保持して出力ロジットを演算し,元のロジットと組み合わせて敵のサンプルを最適化することで攻撃を行う。 提案手法の有効性を検証し,各種ベースラインに容易に組み込むことにより,通常訓練されたCNNと先進防衛戦略を妨害する対向サンプルの転送性を大幅に向上させる。 この研究のソースコードはhttps://github.com/WJJLL/SVD-SSAで公開されている。

Recent research has shown that Deep Neural Networks (DNNs) are highly vulnerable to adversarial samples, which are highly transferable and can be used to attack other unknown black-box models. To improve the transferability of adversarial samples, several feature-based adversarial attack methods have been proposed to disrupt neuron activation in the middle layers. However, current state-of-the-art feature-based attack methods typically require additional computation costs for estimating the importance of neurons. To address this challenge, we propose a Singular Value Decomposition (SVD)-based feature-level attack method. Our approach is inspired by the discovery that eigenvectors associated with the larger singular values decomposed from the middle layer features exhibit superior generalization and attention properties. Specifically, we conduct the attack by retaining the decomposed Top-1 singular value-associated feature for computing the output logits, which are then combined with the original logits to optimize adversarial examples. Our extensive experimental results verify the effectiveness of our proposed method, which can be easily integrated into various baselines to significantly enhance the transferability of adversarial samples for disturbing normally trained CNNs and advanced defense strategies. The source code of this study is available at https://github.com/WJJLL/SVD-SSA
翻訳日:2023-07-06 22:28:06 公開日:2023-07-05
# 2体視点によるフェルミオン多体系の断熱的基底状態形成

Adiabatic ground state preparation of fermionic many-body systems from a two-body perspective ( http://arxiv.org/abs/2305.01284v3 )

ライセンス: Link先を確認
Dyon van Vreumingen, Kareljan Schoutens(参考訳) フェルミオン多体ハミルトニアンの基底状態を作成するためのよく知られた方法は、特定の時間依存ハミルトニアンの下の近似基底状態に向かって、容易に準備できる状態が時間発展する断熱状態準備である。 しかし、進化においてどの経路を取るかは不明であり、最も一般的な方法である直接線形補間は最適ではないかもしれない。 本研究では,残差ハミルトニアンの2体射影のスペクトル分解(最終ハミルトニアンと初期ハミルトニアンの違い)に基づいて,新しいタイプの断熱経路を探索する。 この分解は、断片的または複合的な方法で断熱的に補間されるハミルトニアン項の集合を定義する。 フェルミ・ハバードモデルを用いた部分的部分的補間の有用性を実証し,対称性により直接的(完全に結合された)補間においてレベル交差が発生する。 直接経路からのこの特定の偏差が関連する対称性を適切に破り、水平交差を回避し、断熱的通過を可能にすることを示す。 一方、すべてのハミルトニアン項を別々に補間する完全区分スキームは、直接補間のために$o(l^4/\delta^3)$ に対して、経路に沿った単体モード $l$ と最小ギャップ $\delta$ に対して、最悪の場合には$o(l^6/\delta^3)$ となる。 この準最適性の結果は、必要な対称性を破る用語のみが部分的な補間を考慮すべきであり、残りは直接補間として扱われるべきであることを示唆している。

A well-known method to prepare ground states of fermionic many-body hamiltonians is adiabatic state preparation, in which an easy to prepare state is time-evolved towards an approximate ground state under a specific time-dependent hamiltonian. However, which path to take in the evolution is often unclear, and a direct linear interpolation, which is the most common method, may not be optimal. In this work, we explore new types of adiabatic paths based on the spectral decomposition of the two-body projection of the residual hamiltonian (the difference between the final and initial hamiltonian). The decomposition defines a set of hamiltonian terms which may be adiabatically interpolated in a piecewise or combined fashion. We demonstrate the usefulness of partially piecewise interpolation through examples involving Fermi-Hubbard models where, due to symmetries, level crossings occur in direct (fully combined) interpolation. We show that this specific deviation from a direct path appropriately breaks the relevant symmetries, thus avoiding level crossings and enabling an adiabatic passage. On the other hand, we show that a fully piecewise scheme, which interpolates every hamiltonian term separately, exhibits a worst-case complexity of $O(L^6/\Delta^3)$ as compared to $O(L^4/\Delta^3)$ for direct interpolation, in terms of the number of one-body modes $L$ and the minimal gap $\Delta$ along the path. This suboptimality result suggests that only those terms which break necessary symmetries should be taken into account for piecewise interpolation, while the rest is treated with direct interpolation.
翻訳日:2023-07-06 22:27:45 公開日:2023-07-05
# MFCCに基づく音声分類のためのトランスフォーマーに基づくシーケンスラベリング

Transformer-based Sequence Labeling for Audio Classification based on MFCCs ( http://arxiv.org/abs/2305.00417v2 )

ライセンス: Link先を確認
C. S. Sonali, Chinmayi B S, Ahana Balasubramanian(参考訳) 音声分類は音声や音楽認識などの分野において不可欠である。 Mel-SpectrogramsやMFCCsのような音声信号から特徴抽出は、音声分類における重要なステップである。 これらの特徴は分類のために分光図に変換される。 研究者は、スペクトログラムを分類する従来の機械学習やディープラーニングの手法を含む様々な技術を調査してきたが、これらは計算コストが高い可能性がある。 このプロセスを単純化するために、NLPのシーケンス分類にインスパイアされたより簡単なアプローチが利用できる。 MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。 モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、UrbanSound8kデータセットでモデルをトレーニングした際の最高精度は95.2%であった。 モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。

Audio classification is vital in areas such as speech and music recognition. Feature extraction from the audio signal, such as Mel-Spectrograms and MFCCs, is a critical step in audio classification. These features are transformed into spectrograms for classification. Researchers have explored various techniques, including traditional machine and deep learning methods to classify spectrograms, but these can be computationally expensive. To simplify this process, a more straightforward approach inspired by sequence classification in NLP can be used. This paper proposes a Transformer-encoder-based model for audio classification using MFCCs. The model was benchmarked against the ESC-50, Speech Commands v0.02 and UrbanSound8k datasets and has shown strong performance, with the highest accuracy of 95.2% obtained upon training the model on the UrbanSound8k dataset. The model consisted of a mere 127,544 total parameters, making it light-weight yet highly efficient at the audio classification task.
翻訳日:2023-07-06 22:26:47 公開日:2023-07-05
# リモートセンシングにおけるビジュアルチャットGPTの可能性

The Potential of Visual ChatGPT For Remote Sensing ( http://arxiv.org/abs/2304.13009v2 )

ライセンス: Link先を確認
Lucas Prado Osco, Eduardo Lopes de Lemos, Wesley Nunes Gon\c{c}alves, Ana Paula Marques Ramos and Jos\'e Marcato Junior(参考訳) 自然言語処理(NLP)の最近の進歩、特にディープラーニングベースのコンピュータビジョン技術に関連するLarge Language Models(LLMs)は、様々なタスクを自動化する可能性を示している。 1つの注目すべきモデルはVisual ChatGPTであり、これはChatGPTのLLM機能とビジュアル計算を組み合わせて、効果的な画像解析を可能にする。 テキスト入力に基づく画像の処理能力は、様々な分野に革命をもたらす可能性がある。 しかし、リモートセンシング領域での応用は未検討のままである。 GPTアーキテクチャ上に構築された最先端のLCMである Visual ChatGPT は,リモートセンシング領域に関連する画像処理の課題に対処するための最初の論文である。 現在の機能の中で、Visual ChatGPTは画像のテキスト記述を生成し、キャニーエッジと直線検出を実行し、画像セグメンテーションを実行することができる。 これらは画像コンテンツに関する貴重な洞察を与え、情報の解釈と抽出を容易にする。 衛星画像の公開データセットにおけるこれらの技術の適用性を探ることで、リモートセンシング画像を扱う際の現在のモデルの限界を実証し、その課題と今後の展望を明らかにする。 LLMとビジュアルモデルの組み合わせは、まだ開発の初期段階であるが、リモートセンシング画像処理を変換し、現場でアクセスしやすく実用的な応用機会を生み出す大きな可能性を秘めている。

Recent advancements in Natural Language Processing (NLP), particularly in Large Language Models (LLMs), associated with deep learning-based computer vision techniques, have shown substantial potential for automating a variety of tasks. One notable model is Visual ChatGPT, which combines ChatGPT's LLM capabilities with visual computation to enable effective image analysis. The model's ability to process images based on textual inputs can revolutionize diverse fields. However, its application in the remote sensing domain remains unexplored. This is the first paper to examine the potential of Visual ChatGPT, a cutting-edge LLM founded on the GPT architecture, to tackle the aspects of image processing related to the remote sensing domain. Among its current capabilities, Visual ChatGPT can generate textual descriptions of images, perform canny edge and straight line detection, and conduct image segmentation. These offer valuable insights into image content and facilitate the interpretation and extraction of information. By exploring the applicability of these techniques within publicly available datasets of satellite images, we demonstrate the current model's limitations in dealing with remote sensing images, highlighting its challenges and future prospects. Although still in early development, we believe that the combination of LLMs and visual models holds a significant potential to transform remote sensing image processing, creating accessible and practical application opportunities in the field.
翻訳日:2023-07-06 22:26:15 公開日:2023-07-05
# 深部ニューラルネットワークの統計的最適性

Statistical Optimality of Deep Wide Neural Networks ( http://arxiv.org/abs/2305.02657v3 )

ライセンス: Link先を確認
Yicheng Li, Zixiong Yu, Guhan Chen, Qian Lin(参考訳) 本稿では、有界領域 $\mathcal X \subset \mathbb R^{d}$ 上で定義された深いフィードフォワード ReLU ニューラルネットワークの一般化能力を考察する。 まず、ニューラルネットワークの一般化能力は、対応するディープ・ニューラル・タンジェント・カーネル(NTK)の回帰によって完全に特徴づけられることを示した。 次に、深部NTKのスペクトル特性を調査し、深部NTKが$\mathcal{X}$で正定値であり、その固有値減衰率は$(d+1)/d$であることを示す。 カーネル回帰の確立された理論により、対応するNTKに付随する再生カーネルヒルベルト空間(RKHS)に回帰関数が存在することを仮定して、勾配降下により訓練された多層ワイドニューラルネットワークが最小最大値を達成することを結論付ける。 最後に、オーバーフィットした多層ニューラルネットワークは$\mathbb S^{d}$ではうまく一般化できないことを示す。 我々は、$\mathbb r^{d}$ 上の ntk の固有値減衰率を決定する技術上の貢献は、独立した利益であると信じている。

In this paper, we consider the generalization ability of deep wide feedforward ReLU neural networks defined on a bounded domain $\mathcal X \subset \mathbb R^{d}$. We first demonstrate that the generalization ability of the neural network can be fully characterized by that of the corresponding deep neural tangent kernel (NTK) regression. We then investigate on the spectral properties of the deep NTK and show that the deep NTK is positive definite on $\mathcal{X}$ and its eigenvalue decay rate is $(d+1)/d$. Thanks to the well established theories in kernel regression, we then conclude that multilayer wide neural networks trained by gradient descent with proper early stopping achieve the minimax rate, provided that the regression function lies in the reproducing kernel Hilbert space (RKHS) associated with the corresponding NTK. Finally, we illustrate that the overfitted multilayer wide neural networks can not generalize well on $\mathbb S^{d}$. We believe our technical contributions in determining the eigenvalue decay rate of NTK on $\mathbb R^{d}$ might be of independent interests.
翻訳日:2023-07-06 22:17:34 公開日:2023-07-05
# LM-CPPF:コントラストプロンプトに基づくFew-Shotファインチューニングのためのパラフレージングガイドデータ拡張

LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning ( http://arxiv.org/abs/2305.18169v3 )

ライセンス: Link先を確認
Amirhossein Abaskohi, Sascha Rothe, Yadollah Yaghoobzadeh(参考訳) 近年,NLPのための事前学習言語モデルの開発が著しく進展している。 しかし、これらのモデルは小さなデータセットを微調整する際にしばしば苦労する。 この問題に対処するため、研究者は様々な適応アプローチを提案している。 プロンプトベースのチューニングは、特に大型モデルにおいて、間違いなく最も一般的な方法である。 これまでの研究では、プロンプトベースの微調整にコントラスト学習を加えることは、モデルがクラス間でより識別可能な埋め込みを生成するのに役立つため効果的であり、モデルがポジティブな例とネガティブな例から同時に学ぶことにより、サンプル効率も向上することを示している。 コントラスト学習の最も重要な要素の1つはデータ拡張であるが、コンピュータビジョンとは異なり、nlpの効果的なデータ拡張は依然として困難である。 本稿では,生成言語モデル,特に GPT-3 や OPT-175B のような大規模言語モデルを用いて,プロンプトに基づく言語モデルの微調整を行う LM-CPPF を提案する。 複数のテキスト分類ベンチマークを用いた実験により,この拡張手法が,データ拡張,バック翻訳,複数テンプレートなど他の手法よりも優れていることが示された。

In recent years, there has been significant progress in developing pre-trained language models for NLP. However, these models often struggle when fine-tuned on small datasets. To address this issue, researchers have proposed various adaptation approaches. Prompt-based tuning is arguably the most common way, especially for larger models. Previous research shows that adding contrastive learning to prompt-based fine-tuning is effective as it helps the model generate embeddings that are more distinguishable between classes, and it can also be more sample-efficient as the model learns from positive and negative examples simultaneously. One of the most important components of contrastive learning is data augmentation, but unlike computer vision, effective data augmentation for NLP is still challenging. This paper proposes LM-CPPF, Contrastive Paraphrasing-guided Prompt-based Fine-tuning of Language Models, which leverages prompt-based few-shot paraphrasing using generative language models, especially large language models such as GPT-3 and OPT-175B, for data augmentation. Our experiments on multiple text classification benchmarks show that this augmentation method outperforms other methods, such as easy data augmentation, back translation, and multiple templates.
翻訳日:2023-07-06 20:34:59 公開日:2023-07-05
# 量子コンピュータ技術を用いた時系列画像のクラスタリング手法

Clustering Method for Time-Series Images Using Quantum-Inspired Computing Technology ( http://arxiv.org/abs/2305.16656v2 )

ライセンス: Link先を確認
Tomoki Inoue, Koyo Kubota, Tsubasa Ikami, Yasuhiro Egami, Hiroki Nagai, Takahiro Kashikawa, Koichi Kimura, Yu Matsuda(参考訳) 時系列クラスタリングは、クラスタに関する事前知識がなければ、時系列データの強力なデータマイニング技術として機能する。 大規模な時系列データを取得し,様々な研究分野に利用している。 そのため,計算コストの低いクラスタリングが必要となる。 シミュレーションアニーリングマシンのような量子インスパイアされたコンピューティング技術は、組合せ最適化の問題を高速かつ正確に解くという点で、従来のコンピュータを上回り、既存の手法で達成することが難しいクラスタリングタスクを達成することを約束している。 本研究では,アニーリングマシンを用いた時系列クラスタリング手法を提案する。 提案手法は,外乱に対する堅牢性を維持しつつ,時系列データを互いに近接するクラスタに均等に分類することを容易にする。 さらに、その適用範囲は時系列画像にも及ぶ。 提案手法を,オンライン分散データセットをクラスタリングする標準的な方法と比較した。 既存の手法では、ユークリッド距離メトリックに基づいて各データ間の距離を計算し、k-means++法を用いてクラスタリングを行う。 どちらの手法も同等の結果が得られた。 さらに,信号対雑音比が約1。 約2%の信号変動にもかかわらず,提案手法はクラスタ間の重なりを伴わずに効果的にデータを分類した。 対照的に,既存の標準手法と条件付き画像サンプリング(CIS)手法によるクラスタリングの結果は,重なり合うクラスタを表示するフロー計測データの特殊な手法である。 その結果,提案手法は他の2手法よりも優れた結果が得られ,優れたクラスタリング手法としての可能性を示した。

Time-series clustering serves as a powerful data mining technique for time-series data in the absence of prior knowledge about clusters. A large amount of time-series data with large size has been acquired and used in various research fields. Hence, clustering method with low computational cost is required. Given that a quantum-inspired computing technology, such as a simulated annealing machine, surpasses conventional computers in terms of fast and accurately solving combinatorial optimization problems, it holds promise for accomplishing clustering tasks that are challenging to achieve using existing methods. This study proposes a novel time-series clustering method that leverages an annealing machine. The proposed method facilitates an even classification of time-series data into clusters close to each other while maintaining robustness against outliers. Moreover, its applicability extends to time-series images. We compared the proposed method with a standard existing method for clustering an online distributed dataset. In the existing method, the distances between each data are calculated based on the Euclidean distance metric, and the clustering is performed using the k-means++ method. We found that both methods yielded comparable results. Furthermore, the proposed method was applied to a flow measurement image dataset containing noticeable noise with a signal-to-noise ratio of approximately 1. Despite a small signal variation of approximately 2%, the proposed method effectively classified the data without any overlap among the clusters. In contrast, the clustering results by the standard existing method and the conditional image sampling (CIS) method, a specialized technique for flow measurement data, displayed overlapping clusters. Consequently, the proposed method provides better results than the other two methods, demonstrating its potential as a superior clustering method.
翻訳日:2023-07-06 20:34:17 公開日:2023-07-05
# mix-of-expertsは命令チューニングを満たしている:大規模言語モデルにおける勝利の組み合わせ

Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models ( http://arxiv.org/abs/2305.14705v2 )

ライセンス: Link先を確認
Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei, Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu, Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt Keutzer, Trevor Darrell, Denny Zhou(参考訳) Sparse Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)に学習可能なパラメータを追加するために、推論コストを増大させることなく使用できるニューラルネットワーク設計である。 命令チューニングは、命令に従うようにllmを訓練するテクニックである。 我々はこれらの2つのアプローチを組み合わせることを提唱し、MoEモデルは高密度モデルよりも命令チューニングの恩恵を受けることを見出した。 特に,3つの実験施設で経験的研究を行う。 (i)命令のチューニングを伴わない個々の下流タスクの直接微調整 (ii)ダウンストリームタスクのインストラクションチューニングに続いて、インコンテキストの少数またはゼロショットの一般化 (iii)個別のダウンストリームタスクの微調整により補う命令チューニング。 最初のシナリオでは、moeモデル全体が同一の計算能力を持つ密度の低いモデルである。 しかし、この物語は命令チューニング(第2シナリオと第3シナリオ)の導入によって劇的に変化し、タスク固有の微調整と独立して使用される。 我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクでFLAN-PALM-62Bの性能を上回る。 FLAN-MOEによって具現化された進歩は、タスクに依存しない学習の枠組みにおいて、大規模で高性能な言語モデルの設計原則を再評価するきっかけとなった。

Sparse Mixture-of-Experts (MoE) is a neural architecture design that can be utilized to add learnable parameters to Large Language Models (LLMs) without increasing inference cost. Instruction tuning is a technique for training LLMs to follow instructions. We advocate combining these two approaches, as we find that MoE models benefit more from instruction tuning than dense models. In particular, we conduct empirical studies across three experimental setups: (i) Direct finetuning on individual downstream tasks devoid of instruction tuning; (ii) Instructiontuning followed by in-context few-shot or zero-shot generalization on downstream tasks; and (iii) Instruction tuning supplemented by further finetuning on individual downstream tasks. In the first scenario, MoE models overall underperform dense models of identical computational capacity. This narrative, however, dramatically changes with the introduction of instruction tuning (second and third scenario), used independently or in conjunction with task-specific finetuning. Our most powerful model, FLAN-MOE-32B, surpasses the performance of FLAN-PALM-62B on four benchmark tasks, while using only a third of the FLOPs. The advancements embodied byFLAN-MOE inspire a reevaluation of the design principles of large-scale, high-performance language models in the framework of task-agnostic learning.
翻訳日:2023-07-06 20:33:09 公開日:2023-07-05
# 近時間(dlハイドロフラン)における洪水地域評価のためのディープラーニング流体力学予測

Deep Learning Hydrodynamic Forecasting for Flooded Region Assessment in Near-Real-Time (DL Hydro-FRAN) ( http://arxiv.org/abs/2305.12052v2 )

ライセンス: Link先を確認
Francisco Haces-Garcia, Natalya Maslennikova, Craig L Glennie, Hanadi S Rifai, Vedhus Hoskere, Nima Ekhtari(参考訳) 流動的な洪水モデリングは、暴風の水理学的および水理予測を改善する。 しかし、高分解能流体力学に必要な計算集約的な数値解は、歴史的に準リアルタイム洪水予測におけるそれらの実装を妨げてきた。 本研究では,複数の深層ニューラルネットワーク (dnn) アーキテクチャが水力学フラッドモデルの最適化に適しているかを検討する。 2次元HEC-RAS流体力学モデルを用いて, 低解像度の都市環境下での多目的洪水のシミュレーションを行った。 これらのシミュレーションはDNNのための訓練セットに組み立てられ、洪水の深さと速度を予測するために使用された。 dnnsの予測は水力学的な洪水モデルと比較され、研究エリアの細胞浸水深さについて中央値のrmseが約2mmと良好な一致を示した。 dnnsは従来の水力力学モデルよりも34.2倍から72.4倍の速さで予測計算時間を大幅に改善した。 HEC-RASの完全モーメント方程式と拡散方程式の間にはほとんど変化は見られなかったが、影響方程式の選択とDNNアーキテクチャの構成について重要な数値安定性の考察が発見された。 本研究の結果から,DNNは洪水モデルを大幅に最適化し,ほぼリアルタイムに洪水を予測できることがわかった。

Hydrodynamic flood modeling improves hydrologic and hydraulic prediction of storm events. However, the computationally intensive numerical solutions required for high-resolution hydrodynamics have historically prevented their implementation in near-real-time flood forecasting. This study examines whether several Deep Neural Network (DNN) architectures are suitable for optimizing hydrodynamic flood models. Several pluvial flooding events were simulated in a low-relief high-resolution urban environment using a 2D HEC-RAS hydrodynamic model. These simulations were assembled into a training set for the DNNs, which were then used to forecast flooding depths and velocities. The DNNs' forecasts were compared to the hydrodynamic flood models, and showed good agreement, with a median RMSE of around 2 mm for cell flooding depths in the study area. The DNNs also improved forecast computation time significantly, with the DNNs providing forecasts between 34.2 and 72.4 times faster than conventional hydrodynamic models. The study area showed little change between HEC-RAS' Full Momentum Equations and Diffusion Equations, however, important numerical stability considerations were discovered that impact equation selection and DNN architecture configuration. Overall, the results from this study show that DNNs can greatly optimize hydrodynamic flood modeling, and enable near-real-time hydrodynamic flood forecasting.
翻訳日:2023-07-06 20:31:59 公開日:2023-07-05
# バイモーダル量子ドットマイクロピラーレーザーにおけるノイズ誘起ダイナミクスと光子統計

Noise-induced dynamics and photon statistics in bimodal quantum-dot micropillar lasers ( http://arxiv.org/abs/2306.06556v2 )

ライセンス: Link先を確認
Yanqiang Guo, Jianfei Zhang, Xiaomin Guo, Stephan Reitzenstein and Liantuan Xiao(参考訳) 量子ドットマイクロピラーレーザー(QDML)の発光特性は、ナノフォトニクスと非線形ダイナミクスの交点に位置し、古典系と量子系の光学的界面を研究するための理想的なプラットフォームを提供する。 本研究では, 直交二モード出力を持つ雑音誘起バイモーダルQDMLをモデル化し, 非線形力学, 確率モードジャンプ, および確率雑音強度の変動を伴う量子統計量について検討した。 ノイズ誘起効果は、強震モードと弱震モードの2つの強度分岐点の出現につながり、強震モードの最大出力パワーは、雑音強度が増加するにつれて大きくなる。 2つのモードの反相関は、第2の強度分岐点で最大に達する。 デュアルモード確率ジャンプ周波数と有効帯域幅は、ノイズ誘起効果の下で100GHzおよび30GHzを超える。 さらに、両モードの雑音誘起光子相関は、低射出電流領域において同時に超熱的凝集効果(g^{(2)}(0)>2$)を示す。 強モードの$g^{(2)}(0)$-値は、高インジェクション電流領域で6以上に達することができる。 両モードの光子束(g^{(2)}(0)>1$)は幅広いノイズ強度と注入電流で観測される。 ノイズ誘起効果の存在下では、強モードまたは弱モードの光子数分布はボース・アインシュタイン分布とポアソン分布の混合である。 ノイズ強度が増加するにつれて、強モードの光子数分布はボース・アインシュタイン分布に支配され、高射出電流領域ではポアソン分布の割合が増加し、弱モードの光子数が減少する。 本研究は,量子センシング測定の時空間分解能を向上させるための超結合型量子集積光源の開発に寄与する。

Emission characteristics of quantum-dot micropillar lasers (QDMLs) are located at the intersection of nanophotonics and nonlinear dynamics, which provides an ideal platform for studying the optical interface between classical and quantum systems. In this work, a noise-induced bimodal QDML with orthogonal dual-mode outputs is modeled, and nonlinear dynamics, stochastic mode jumping and quantum statistics with the variation of stochastic noise intensity are investigated. Noise-induced effects lead to the emergence of two intensity bifurcation points for the strong and the weak mode, and the maximum output power of the strong mode becomes larger as the noise intensity increases. The anti-correlation of the two modes reaches the maximum at the second intensity bifurcation point. The dual-mode stochastic jumping frequency and effective bandwidth can exceed 100 GHz and 30 GHz under the noise-induced effect. Moreover, the noise-induced photon correlations of both modes simultaneously exhibit super-thermal bunching effects ($g^{(2)}(0)>2$) in the low injection current region. The $g^{(2)}(0)$-value of the strong mode can reach over 6 in the high injection current region. Photon bunching ($g^{(2)}(0)>1$) of both modes is observed over a wide range of noise intensities and injection currents. In the presence of the noise-induced effect, the photon number distribution of the strong or the weak mode is a mixture of Bose-Einstein and Poisson distributions. As the noise intensity increases, the photon number distribution of the strong mode is dominated by the Bose-Einstein distribution, and the proportion of the Poisson distribution is increased in the high injection current region, while that of the weak mode is reduced. Our results contribute to the development preparation of super-bunching quantum integrated light sources for improving the spatiotemporal resolution of quantum sensing measurements.
翻訳日:2023-07-06 20:25:44 公開日:2023-07-05
# GPT-FL: モデル支援フェデレーション学習の生成

GPT-FL: Generative Pre-trained Model-Assisted Federated Learning ( http://arxiv.org/abs/2306.02210v2 )

ライセンス: Link先を確認
Tuo Zhang, Tiantian Feng, Samiul Alam, Dimitrios Dimitriadis, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr(参考訳) 本稿では,gpt-flを提案する。これは生成型事前学習モデル支援連合学習(fl)フレームワークである。 GPT-FLは、生成前訓練されたモデルを利用して、多様化された合成データを生成する。 これらの生成されたデータは、サーバ上のダウンストリームモデルをトレーニングするために使用され、標準のflフレームワークの下でプライベートクライアントデータと微調整される。 gpt-flは, モデルテストの精度, 通信効率, クライアントサンプリング効率の点で, 最先端fl法を一貫して上回っている。 総合的アブレーション解析により, 合成データによって生成された下流モデルが, gpt-flで観測された顕著な精度向上に寄与し, flトレーニング中の勾配多様性の方向を制御する上で重要な役割を担っていることを見出した。 また、目標データが事前訓練された生成モデルの領域内か外部かにかかわらず、gpt-flは、flまたは合成データのみで訓練されたモデルによって得られた結果よりも、一貫して著しい性能向上を達成している。

In this work, we propose GPT-FL, a generative pre-trained model-assisted federated learning (FL) framework. At its core, GPT-FL leverages generative pre-trained models to generate diversified synthetic data. These generated data are used to train a downstream model on the server, which is then fine-tuned with private client data under the standard FL framework. We show that GPT-FL consistently outperforms state-of-the-art FL methods in terms of model test accuracy, communication efficiency, and client sampling efficiency. Through comprehensive ablation analysis, we discover that the downstream model generated by synthetic data plays a crucial role in controlling the direction of gradient diversity during FL training, which enhances convergence speed and contributes to the notable accuracy boost observed with GPT-FL. Also, regardless of whether the target data falls within or outside the domain of the pre-trained generative model, GPT-FL consistently achieves significant performance gains, surpassing the results obtained by models trained solely with FL or synthetic data.
翻訳日:2023-07-06 20:24:29 公開日:2023-07-05
# ポリプセグメンテーションにおけるアウト・オブ・ディストリビューション一般化のためのTransRUPNet

TransRUPNet for Improved Out-of-Distribution Generalization in Polyp Segmentation ( http://arxiv.org/abs/2306.02176v2 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Debayan Bhattacharya, Ulas Bagci(参考訳) out-of-distribution (ood) 一般化はディープラーニングにおいて重要な課題である。 テストサンプルがトレーニングデータとは異なる分布から引き出される場合、特に重要である。 本稿では,大腸ポリープセグメント化のためのトランスフォーマーと残差アップサンプリングネットワークに基づく,新しいリアルタイム深層学習ベースアーキテクチャであるtransrupnetを開発した。 提案アーキテクチャであるTransRUPNetは、3つのエンコーダブロック、3つのデコーダブロックと、ネットワークの終端にある追加のアップサンプリングブロックで構成されるエンコーダ・デコーダネットワークである。 画像サイズが256\times256$の場合,提案手法は,平均ダイス係数スコア0.7786,平均ポリプデータセット0.7210で,1秒あたりのリアルタイム動作速度が良好である。 polypgen dataset (ood dataset in our case) の公開結果から,transrupnet はインディストリビューションデータセットの精度を維持しつつ,リアルタイムのフィードバックを提供することができることが示唆された。 さらに,提案手法の一般化性について,既存の手法と比較してOODデータセットの性能を著しく向上させることを示した。

Out-of-distribution (OOD) generalization is a critical challenge in deep learning. It is specifically important when the test samples are drawn from a different distribution than the training data. We develop a novel real-time deep learning based architecture, TransRUPNet that is based on a Transformer and residual upsampling network for colorectal polyp segmentation to improve OOD generalization. The proposed architecture, TransRUPNet, is an encoder-decoder network that consists of three encoder blocks, three decoder blocks, and some additional upsampling blocks at the end of the network. With the image size of $256\times256$, the proposed method achieves an excellent real-time operation speed of \textbf{47.07} frames per second with an average mean dice coefficient score of 0.7786 and mean Intersection over Union of 0.7210 on the out-of-distribution polyp datasets. The results on the publicly available PolypGen dataset (OOD dataset in our case) suggest that TransRUPNet can give real-time feedback while retaining high accuracy for in-distribution dataset. Furthermore, we demonstrate the generalizability of the proposed method by showing that it significantly improves performance on OOD datasets compared to the existing methods.
翻訳日:2023-07-06 20:24:11 公開日:2023-07-05
# 3つの三角結合量子ビットによる純古典相関支配型量子熱ダイオード

Pure classical correlation dominant quantum thermal diode via three triangular-coupled qubits ( http://arxiv.org/abs/2305.19660v2 )

ライセンス: Link先を確認
Yi-jia Yang, Yu-qiang Liu, and Chang-shui Yu(参考訳) 量子熱ダイオードは3つのペア結合キュービットに基づいて設計され、2つは共通の貯水池に接続され、もう1つは独立した貯水池に接続されている。 量子ビット間の内部結合は熱電流を高めることができる。 2つの同じ量子ビットが共振器と均一に結合すると、交差散逸が起こり、初期状態依存の定常状態が2つの特定の定常状態(最大熱電流を発生させる熱伝導状態と、熱を輸送しない耐熱状態)の混合に分解される。 しかし、修正因子は初期状態に依存しない。 特に、量子の絡み合いや量子不和は定常状態には存在していないが、純粋な古典的相関は、系における古典的相関の重要な役割を明らかにする熱整流因子として極めて一貫した挙動を示す。

A quantum thermal diode is designed based on three pairwise coupled qubits, two connected to a common reservoir and the other to an independent reservoir. It is found that the internal couplings between qubits can enhance heat currents. If the two identical qubits uniformly couple with the common reservoir, the crossing dissipation will occur, leading to the initial-state-dependent steady state, which can be decomposed into the mixture of two particular steady states: the heat-conducting state generating maximum heat current and the heat-resisting state not transporting heat. However, the rectification factor does not depend on the initial state. In particular, we find that neither quantum entanglement nor quantum discord is present in the steady state, but the pure classical correlation shows a remarkably consistent behavior as the heat rectification factor, which reveals the vital role of classical correlation in the system.
翻訳日:2023-07-06 20:23:09 公開日:2023-07-05
# 部分観測可能性下における対立エージェント行動の学習モデル

Learning Models of Adversarial Agent Behavior under Partial Observability ( http://arxiv.org/abs/2306.11168v2 )

ライセンス: Link先を確認
Sean Ye, Manisha Natarajan, Zixuan Wu, Rohan Paleja, Letian Chen, and Matthew C. Gombolay(参考訳) 対戦相手のモデリングと追跡の必要性は、プロスポーツ、ビデオゲームデザイン、ドラッグ・トラフィック・インターディクションなど、現実のいくつかのシナリオで生じる。 本稿では,敵エージェントの振る舞いをモデル化するために,ミュータント情報(grammi)を用いたグラフベースの敵モデルを提案する。 GrAMMIはグラフニューラルネットワーク(GNN)に基づく新しいアプローチであり、相互情報の最大化を補助的目的として用いて、部分的に観測可能な敵の現在と将来の状態を予測している。 本研究では,実世界シナリオに触発された2つの大規模探索・回避ドメインをデザインし,異種エージェントのチームが単一の敵エージェントを追跡・妨害し,敵エージェントが自己の目的を達成しながら検出を回避しなければならないことを検証した。 相互情報の定式化により、grammiは両ドメインのすべてのベースラインを上回り、両ドメイン間の将来の敵対的状態予測において、平均で31.68%高いログライク化を達成している。

The need for opponent modeling and tracking arises in several real-world scenarios, such as professional sports, video game design, and drug-trafficking interdiction. In this work, we present Graph based Adversarial Modeling with Mutal Information (GrAMMI) for modeling the behavior of an adversarial opponent agent. GrAMMI is a novel graph neural network (GNN) based approach that uses mutual information maximization as an auxiliary objective to predict the current and future states of an adversarial opponent with partial observability. To evaluate GrAMMI, we design two large-scale, pursuit-evasion domains inspired by real-world scenarios, where a team of heterogeneous agents is tasked with tracking and interdicting a single adversarial agent, and the adversarial agent must evade detection while achieving its own objectives. With the mutual information formulation, GrAMMI outperforms all baselines in both domains and achieves 31.68% higher log-likelihood on average for future adversarial state predictions across both domains.
翻訳日:2023-07-06 20:14:52 公開日:2023-07-05
# リカレントメモリ決定変換器

Recurrent Memory Decision Transformer ( http://arxiv.org/abs/2306.09459v2 )

ライセンス: Link先を確認
Arkadii Bessonov and Alexey Staroverov and Huzhenyu Zhang and Alexey K. Kovalev and Dmitry Yudin and Aleksandr I. Panov(参考訳) もともと自然言語問題のために開発されたトランスフォーマーモデルは、最近オフラインの強化学習タスクで広く使われている。 これはエージェントの履歴をシーケンスとして表現でき、タスク全体をシーケンスモデリングタスクに還元できるためである。 しかし、変圧器演算の二次的な複雑さは、文脈の潜在的な増加を制限する。 したがって、メモリ機構の異なるバージョンは、自然言語における長いシーケンスを扱うために使用される。 本稿では,リカレントメモリ機構を用いた学習支援モデルであるリカレントメモリ決定トランス(rmdt)を提案する。 atariゲームおよびmujoco制御問題に関する徹底的な実験を行い,本モデルがatariゲームにおける再帰記憶機構を必要とせず,そのモデルよりも有意に優れていることを示す。 また,提案モデルの性能に対する記憶の影響についても慎重に検討した。 これらの結果は、オフライン強化学習タスクにおける大規模変圧器モデルの性能を改善するために再帰記憶機構を組み込む可能性に光を当てた。 Recurrent Memory Decision Transformer コードはリポジトリ \url{https://anonymous.4open.science/r/RMDT-4FE4} で公開されている。

Originally developed for natural language problems, transformer models have recently been widely used in offline reinforcement learning tasks. This is because the agent's history can be represented as a sequence, and the whole task can be reduced to the sequence modeling task. However, the quadratic complexity of the transformer operation limits the potential increase in context. Therefore, different versions of the memory mechanism are used to work with long sequences in a natural language. This paper proposes the Recurrent Memory Decision Transformer (RMDT), a model that uses a recurrent memory mechanism for reinforcement learning problems. We conduct thorough experiments on Atari games and MuJoCo control problems and show that our proposed model is significantly superior to its counterparts without the recurrent memory mechanism on Atari games. We also carefully study the effect of memory on the performance of the proposed model. These findings shed light on the potential of incorporating recurrent memory mechanisms to improve the performance of large-scale transformer models in offline reinforcement learning tasks. The Recurrent Memory Decision Transformer code is publicly available in the repository \url{https://anonymous.4open.science/r/RMDT-4FE4}.
翻訳日:2023-07-06 20:14:16 公開日:2023-07-05
# 非線形パーソナライズド予測のためのニューラルミックス効果

Neural Mixed Effects for Nonlinear Personalized Predictions ( http://arxiv.org/abs/2306.08149v2 )

ライセンス: Link先を確認
Torsten W\"ortwein, Nicholas Allen, Lisa B. Sheeber, Randy P. Auerbach, Jeffrey F. Cohn, Louis-Philippe Morency(参考訳) パーソナライズド予測(パーソナライズドプロファイリング)は、過去のラベル付き観測に基づいて人の将来の観察を予測する機械学習アプローチであり、例えば、日々の気分評価を予測するために、シーケンシャルなタスクに一般的に使用される。 パーソナライズされた予測を行う場合、モデルは2種類のトレンドを組み合わせることができる。 (a)週末に幸福になるなど、人為的な傾向など、人間で共有される傾向 (b)各個人、すなわちストレスの多い週次会議などの個人固有の傾向に対する独自の傾向。 混合効果モデル(mixed effect model)は、人為的パラメータと人固有のパラメータを組み合わせることにより、両方の傾向を研究する一般的な統計モデルである。 ニューラルネットワークと統合することで、線形混合効果モデルが機械学習で人気を集めているが、これらの統合は現在、非線形な個人固有のトレンドを除外する線形個人固有のパラメータに限られている。 本論文では,ニューラルネットワークの任意の場所において,非線形な個人固有のパラメータをスケーラブルに最適化するニューラル・ミックスド・エフェクト(NME)モデルを提案する。 NMEはニューラルネットワーク最適化の効率と非線形混合効果モデリングを組み合わせた。 経験的に、NMEは、毎日の気分を予測するスマートフォンデータセットや、母親と思春期のデータセットを含む6つの単一・マルチモーダルデータセットのパフォーマンスを改善し、母親の半分が抑うつ症状を少なくとも中等度に経験する情緒的状態シーケンスを予測する。 さらに、ニューラル条件ランダムフィールド(CRF)を含む2つのモデルアーキテクチャのNMEを評価し、CRFが感情状態間の非線形な個人固有の時間遷移を学習する情動状態列を予測する。 母親の抑うつ症状に関連する解釈可能な傾向を示す母親・思春期データセット上のこれらの人固有の推移の分析。

Personalized prediction is a machine learning approach that predicts a person's future observations based on their past labeled observations and is typically used for sequential tasks, e.g., to predict daily mood ratings. When making personalized predictions, a model can combine two types of trends: (a) trends shared across people, i.e., person-generic trends, such as being happier on weekends, and (b) unique trends for each person, i.e., person-specific trends, such as a stressful weekly meeting. Mixed effect models are popular statistical models to study both trends by combining person-generic and person-specific parameters. Though linear mixed effect models are gaining popularity in machine learning by integrating them with neural networks, these integrations are currently limited to linear person-specific parameters: ruling out nonlinear person-specific trends. In this paper, we propose Neural Mixed Effect (NME) models to optimize nonlinear person-specific parameters anywhere in a neural network in a scalable manner. NME combines the efficiency of neural network optimization with nonlinear mixed effects modeling. Empirically, we observe that NME improves performance across six unimodal and multimodal datasets, including a smartphone dataset to predict daily mood and a mother-adolescent dataset to predict affective state sequences where half the mothers experience at least moderate symptoms of depression. Furthermore, we evaluate NME for two model architectures, including for neural conditional random fields (CRF) to predict affective state sequences where the CRF learns nonlinear person-specific temporal transitions between affective states. Analysis of these person-specific transitions on the mother-adolescent dataset shows interpretable trends related to the mother's depression symptoms.
翻訳日:2023-07-06 20:13:58 公開日:2023-07-05
# 圧縮センシングによる量子位相推定

Quantum Phase Estimation by Compressed Sensing ( http://arxiv.org/abs/2306.07008v2 )

ライセンス: Link先を確認
Changhao Yi, Cunlu Zhou, and Jun Takahashi(参考訳) 信号回復アルゴリズムとして、圧縮センシングは、データが低複雑さでサンプルが稀な場合に特に有用であり、量子位相推定(QPE)のタスクと完全に一致する。 本研究では,圧縮センシングに基づく初期量子コンピュータのためのハイゼンベルク限定QPEアルゴリズムを提案する。 より具体的には、適切な初期状態のコピーといくつかのユニタリ演算子へのクエリが多数ある場合、アルゴリズムは全実行時$\mathcal{o}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$で周波数を回復することができ、ここで$\epsilon$が精度である。 さらに、最大実行時間は、最先端のアルゴリズムに匹敵する$T_{\max}\epsilon \ll \pi$を満足する。 また、より一般的な量子固有値推定問題(QEEP)を考察し、オフグリッド圧縮センシングがQEEPの解決の有力な候補であることを示す。

As a signal recovery algorithm, compressed sensing is particularly useful when the data has low-complexity and samples are rare, which matches perfectly with the task of quantum phase estimation (QPE). In this work we present a new Heisenberg-limited QPE algorithm for early quantum computers based on compressed sensing. More specifically, given many copies of a proper initial state and queries to some unitary operators, our algorithm is able to recover the frequency with a total runtime $\mathcal{O}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$, where $\epsilon$ is the accuracy. Moreover, the maximal runtime satisfies $T_{\max}\epsilon \ll \pi$, which is comparable to the state of art algorithms, and our algorithm is also robust against certain amount of noise from sampling. We also consider the more general quantum eigenvalue estimation problem (QEEP) and show numerically that the off-grid compressed sensing can be a strong candidate for solving the QEEP.
翻訳日:2023-07-06 20:12:29 公開日:2023-07-05
# 無線通信ネットワークにおける省エネルギーフェデレーション学習のための安全な遺伝的アルゴリズム

A Safe Genetic Algorithm Approach for Energy Efficient Federated Learning in Wireless Communication Networks ( http://arxiv.org/abs/2306.14237v2 )

ライセンス: Link先を確認
Lina Magoula, Nikolaos Koursioumpas, Alexandros-Ioannis Thanopoulos, Theodora Panagea, Nikolaos Petropouleas, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) フェデレートラーニング(FL)は、従来の集中型アプローチとは対照的に、データのプライバシを保ちながら、協調的な方法でモデルトレーニングを行う分散技術として登場した。 flでの既存の取り組みにもかかわらず、無線ネットワークへの適用性に関するいくつかの重大な課題が特定されているため、環境への影響はまだ調査中である。 FLの炭素フットプリントの軽減に向けて、現在の研究は、あるFLモデルの性能目標を保証しつつ、関連するデバイスの計算および通信資源を編成することにより、FLプロセス全体のエネルギー消費と不必要な資源利用の両方を最小化することを目的とした遺伝的アルゴリズム(GA)アプローチを提案する。 ペナルティ関数は、環境の制約に違反する戦略を罰するGAのオフラインフェーズで導入され、安全なGAプロセスが保証される。 評価結果から,提案手法の有効性を2つの最先端ベースラインソリューションと比較し,全エネルギー消費の最大83%の削減を実現した。

Federated Learning (FL) has emerged as a decentralized technique, where contrary to traditional centralized approaches, devices perform a model training in a collaborative manner, while preserving data privacy. Despite the existing efforts made in FL, its environmental impact is still under investigation, since several critical challenges regarding its applicability to wireless networks have been identified. Towards mitigating the carbon footprint of FL, the current work proposes a Genetic Algorithm (GA) approach, targeting the minimization of both the overall energy consumption of an FL process and any unnecessary resource utilization, by orchestrating the computational and communication resources of the involved devices, while guaranteeing a certain FL model performance target. A penalty function is introduced in the offline phase of the GA that penalizes the strategies that violate the constraints of the environment, ensuring a safe GA process. Evaluation results show the effectiveness of the proposed scheme compared to two state-of-the-art baseline solutions, achieving a decrease of up to 83% in the total energy consumption.
翻訳日:2023-07-06 20:05:50 公開日:2023-07-05
# 深層学習を用いたカラードプラ心エコー図の位相アンラッピング

Phase Unwrapping of Color Doppler Echocardiography using Deep Learning ( http://arxiv.org/abs/2306.13695v2 )

ライセンス: Link先を確認
Hang Jung Ling, Olivier Bernard, Nicolas Ducros, Damien Garcia(参考訳) カラードプラ心エコー法(color doppler echocardiography)は、心内血流に関するリアルタイム情報を提供する非侵襲的画像法である。 左心室の尖端長軸視では、カラードプラは、特に心臓の充填と放出の間、位相包みまたはエイリアシングを受ける。 カラードップラーによる定量的方法の設定には,このラッピングアーティファクトを補正する必要がある。 カラードプラ心エコー画像の切り離しと, nnU-Netモデルとトランスフォーマーモデルに基づく2つの最先端セグメンテーション手法の有効性を比較検討した。 そこで本研究では,nnu-netに基づく手法が最適な処理結果を提供し,その後にプライマル・デュアル・アプローチとトランスフォーマー・ベースの手法が得られた。 注目すべきは、訓練可能なパラメータが著しく少ない原始双対ネットワークは、他の2つの手法に対して競合的に実行し、深層展開法の高い可能性を示したことである。 以上の結果から,カラードプラ心エコー画像のアーティファクトを効果的に除去する深層学習手法が,最先端の半自動技術であるDeANより優れていることが示唆された。 総じて,深層学習に基づく手法は,下流の定量的解析にカラードップラー像を効果的に前処理できる可能性が示唆された。

Color Doppler echocardiography is a widely used non-invasive imaging modality that provides real-time information about the intracardiac blood flow. In an apical long-axis view of the left ventricle, color Doppler is subject to phase wrapping, or aliasing, especially during cardiac filling and ejection. When setting up quantitative methods based on color Doppler, it is necessary to correct this wrapping artifact. We developed an unfolded primal-dual network to unwrap (dealias) color Doppler echocardiographic images and compared its effectiveness against two state-of-the-art segmentation approaches based on nnU-Net and transformer models. We trained and evaluated the performance of each method on an in-house dataset and found that the nnU-Net-based method provided the best dealiased results, followed by the primal-dual approach and the transformer-based technique. Noteworthy, the primal-dual network, which had significantly fewer trainable parameters, performed competitively with respect to the other two methods, demonstrating the high potential of deep unfolding methods. Our results suggest that deep learning-based methods can effectively remove aliasing artifacts in color Doppler echocardiographic images, outperforming DeAN, a state-of-the-art semi-automatic technique. Overall, our results show that deep learning-based methods have the potential to effectively preprocess color Doppler images for downstream quantitative analysis.
翻訳日:2023-07-06 20:04:44 公開日:2023-07-05
# ダウンストリーム適応のためのタスクローバスト事前訓練

Task-Robust Pre-Training for Worst-Case Downstream Adaptation ( http://arxiv.org/abs/2306.12070v2 )

ライセンス: Link先を確認
Jianghui Wang, Yang Chen, Xingyu Xie, Cong Fang, Zhouchen Lin(参考訳) プレトレーニングは下流のタスクに移行することで大きな成功を収めた。 機械学習では、モデルの優れたパフォーマンスだけでなく、合理的な状態変化下での振る舞いも気にしています。 同じ哲学は、基礎モデルの事前トレーニングで成り立つ。 しかし、基礎モデルは一連の下流タスクに対して一様に振る舞うことができない。 これは例えば、事前トレーニングにおいて、リカバリ能力やパターン特徴のようなトレーニングインスタンスが優勢に抽出されるようなマスクリカバリ回帰を行う場合には発生するが、下流タスクでは意味的特徴も必要となる。 本稿では,下流タスクに対して一様に優れた性能を保証するモデルを事前学習することを検討する。 この目標を $\textit{downstream-task robustness}$ と呼びます。 提案手法は,まず上流タスクを複数の代表タスクに分割し,事前学習に単純なミニマックスロスを適用する。 次に,最小限の損失を解くアルゴリズムを設計し,その収束性を凸設定で証明する。 実験では, 大規模自然言語処理とコンピュータビジョンデータセットの両方について, 提案手法が下降課題のメトリクスを増加させることを示す。 また、この損失がなぜ有益かという理論的説明も提供される。 特に、最も困難なダウンストリームタスクには、本質的に必要なサンプルが少ないことが示されています。

Pre-training has achieved remarkable success when transferred to downstream tasks. In machine learning, we care about not only the good performance of a model but also its behavior under reasonable shifts of condition. The same philosophy holds when pre-training a foundation model. However, the foundation model may not uniformly behave well for a series of related downstream tasks. This happens, for example, when conducting mask recovery regression where the recovery ability or the training instances diverge like pattern features are extracted dominantly on pre-training, but semantic features are also required on a downstream task. This paper considers pre-training a model that guarantees a uniformly good performance over the downstream tasks. We call this goal as $\textit{downstream-task robustness}$. Our method first separates the upstream task into several representative ones and applies a simple minimax loss for pre-training. We then design an efficient algorithm to solve the minimax loss and prove its convergence in the convex setting. In the experiments, we show both on large-scale natural language processing and computer vision datasets our method increases the metrics on worse-case downstream tasks. Additionally, some theoretical explanations for why our loss is beneficial are provided. Specifically, we show fewer samples are inherently required for the most challenging downstream task in some cases.
翻訳日:2023-07-06 20:03:16 公開日:2023-07-05
# 浅層ニューラルネットワークのための定量的機能中心極限理論

A Quantitative Functional Central Limit Theorem for Shallow Neural Networks ( http://arxiv.org/abs/2306.16932v2 )

ライセンス: Link先を確認
Valentina Cammarota, Domenico Marinucci, Michele Salvi, Stefano Vigogna(参考訳) 一般化活性化関数を持つ一層ニューラルネットワークに対する定量的機能中心極限定理を証明した。 私たちが確立する収束の速度は活性化関数の滑らかさに大きく依存しており、Relu のような微分不可能な場合の対数から非常に正規な活性化に対して $\sqrt{n}$ まで様々である。 特に、ブルジュインとカンペス(2020年)によって最近確立された定量的機能的中央極限定理を大いに活用している。

We prove a Quantitative Functional Central Limit Theorem for one-hidden-layer neural networks with generic activation function. The rates of convergence that we establish depend heavily on the smoothness of the activation function, and they range from logarithmic in non-differentiable cases such as the Relu to $\sqrt{n}$ for very regular activations. Our main tools are functional versions of the Stein-Malliavin approach; in particular, we exploit heavily a quantitative functional central limit theorem which has been recently established by Bourguin and Campese (2020).
翻訳日:2023-07-06 19:55:24 公開日:2023-07-05
# SRL: 分散強化学習を10万コア以上に拡張

SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores ( http://arxiv.org/abs/2306.16688v2 )

ライセンス: Link先を確認
Zhiyu Mei, Wei Fu, Guangju Wang, Huanchen Zhang, Yi Wu(参考訳) 強化学習(RL)タスクの継続的な複雑化により、分散RLシステムは、インテリジェントエージェントを訓練するために大量のデータを効率的に生成し、処理する必要がある。 しかし、既存のオープンソースライブラリにはさまざまな制限があり、大規模なトレーニングが必要な困難なシナリオでの使用を妨げている。 OpenAIとDeepMindの産業システムは大規模なRLトレーニングを成功させたが、システムアーキテクチャと実装の詳細はコミュニティに開示されていない。 本稿では,多種多様なアプリケーションにまたがる実践的RLトレーニングを汎用フレームワークに統一し,詳細な最適化を可能にするRLトレーニングのデータフローに関する新しい抽象化を提案する。 この抽象化に続いて,ReaLly Scalable RL (SRL) と呼ばれるスケーラブルで効率的で拡張可能な分散RLシステムを開発した。 SRLのシステムアーキテクチャは、主要なRL計算コンポーネントを分離し、大規模並列化トレーニングを可能にする。 さらにSRLは、カスタマイズされたアルゴリズムのためのユーザフレンドリーで拡張可能なインターフェースを提供する。 評価の結果,SRLは単一マシンと中規模クラスタの両方で既存の学術図書館よりも優れていた。 大規模なクラスタでは、SRLの新しいアーキテクチャは、既存のライブラリで採用されている設計選択と比較して最大3.7倍のスピードアップをもたらす。 また,openai の産業システムであるrapid との直接ベンチマーク比較を行った。 SRLはOpenAIが報告したのと同じソリューションを、ウォールタイムで最大5倍のスピードアップで再現する。 さらに,SRLを15k以上のCPUコアと32のA100 GPUにスケールアップすることにより,隠れ・探究環境におけるSRLの性能を著しく向上させる。 特に、SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。

The ever-growing complexity of reinforcement learning (RL) tasks demands a distributed RL system to efficiently generate and process a massive amount of data to train intelligent agents. However, existing open-source libraries suffer from various limitations, which impede their practical use in challenging scenarios where large-scale training is necessary. While industrial systems from OpenAI and DeepMind have achieved successful large-scale RL training, their system architecture and implementation details remain undisclosed to the community. In this paper, we present a novel abstraction on the dataflows of RL training, which unifies practical RL training across diverse applications into a general framework and enables fine-grained optimizations. Following this abstraction, we develop a scalable, efficient, and extensible distributed RL system called ReaLly Scalable RL (SRL). The system architecture of SRL separates major RL computation components and allows massively parallelized training. Moreover, SRL offers user-friendly and extensible interfaces for customized algorithms. Our evaluation shows that SRL outperforms existing academic libraries in both a single machine and a medium-sized cluster. In a large-scale cluster, the novel architecture of SRL leads to up to 3.7x speedup compared to the design choices adopted by the existing libraries. We also conduct a direct benchmark comparison to OpenAI's industrial system, Rapid, in the challenging hide-and-seek environment. SRL reproduces the same solution as reported by OpenAI with up to 5x speedup in wall-clock time. Furthermore, we also examine the performance of SRL in a much harder variant of the hide-and-seek environment and achieve substantial learning speedup by scaling SRL to over 15k CPU cores and 32 A100 GPUs. Notably, SRL is the first in the academic community to perform RL experiments at such a large scale.
翻訳日:2023-07-06 19:54:46 公開日:2023-07-05
# DMNER:検出とマッチングによる生体情報認識

DMNER: Biomedical Entity Recognition by Detection and Matching ( http://arxiv.org/abs/2306.15736v2 )

ライセンス: Link先を確認
Junyi Bian, Rongze Jiang, Weiqi Zhai, Tianyang Huang, Hong Zhou, Shanfeng Zhu(参考訳) 生物医学名実体認識(BNER)は多くの生物医学テキストマイニングの基盤となっている。 一般のNERとは異なり、BNERはドメインを包括的に把握する必要がある。 本研究では,DMNERと呼ばれる新しいBNERフレームワークを提案する。 既存のエンティティ表現モデルSAPBERTを利用することで、BNERを2段階のプロセスとして、エンティティ境界検出とバイオメディカルエンティティマッチングに取り組みます。 DMNERは複数のNERシナリオに適用可能であることを示す。 1)教師付きNERでは,DMNERがベースラインNERモデルの出力を効果的に修正し,性能をさらに向上する。 2) 遠隔監視型NERでは, MRC と AutoNER をスパン境界検出器として組み合わせることで, DMNER は良好な結果が得られる。 3)複数のデータセットをマージしてNERをトレーニングするために,DS-NERに似たフレームワークを採用するが,ChatGPTを活用してトレーニングの高品質なフレーズを得る。 10のベンチマークデータセットで実施された広範な実験を通じて、DMNERの汎用性と有効性を示す。

Biomedical named entity recognition (BNER) serves as the foundation for numerous biomedical text mining tasks. Unlike general NER, BNER require a comprehensive grasp of the domain, and incorporating external knowledge beyond training data poses a significant challenge. In this study, we propose a novel BNER framework called DMNER. By leveraging existing entity representation models SAPBERT, we tackle BNER as a two-step process: entity boundary detection and biomedical entity matching. DMNER exhibits applicability across multiple NER scenarios: 1) In supervised NER, we observe that DMNER effectively rectifies the output of baseline NER models, thereby further enhancing performance. 2) In distantly supervised NER, combining MRC and AutoNER as span boundary detectors enables DMNER to achieve satisfactory results. 3) For training NER by merging multiple datasets, we adopt a framework similar to DS-NER but additionally leverage ChatGPT to obtain high-quality phrases in the training. Through extensive experiments conducted on 10 benchmark datasets, we demonstrate the versatility and effectiveness of DMNER.
翻訳日:2023-07-06 19:53:28 公開日:2023-07-05
# リモートセンシングサルエント物体検出における逆雲攻撃に対する防御

Defense against Adversarial Cloud Attack on Remote Sensing Salient Object Detection ( http://arxiv.org/abs/2306.17431v2 )

ライセンス: Link先を確認
Huiming Sun, Lan Fu, Jinlong Li, Qing Guo, Zibo Meng, Tianyun Zhang, Yuewei Lin, Hongkai Yu(参考訳) リモートセンシング画像における有能な物体の検出は学際的な研究に広く応用されている。 リモートセンシング画像におけるSOD(Salient Object Detection)には,多くの既存のディープラーニング手法が提案されている。 しかし,従来のリモートセンシング画像上で数ピクセルの値を変更することで発生する最近の敵攻撃例は,よく訓練された深層学習に基づくSODモデルの崩壊をもたらす可能性がある。 既存の画像に摂動を付加する手法と異なり,逆雲として曇り画像に近いイメージを拘束するために,逆雲露光と付加摂動を共同で調整することを提案する。 クラウドは自然であり、リモートセンシング画像では一般的であるが、クラウドベースの逆境攻撃やリモートセンシング画像の防御については、これまでよく研究されていなかった。 さらに,DefenseNetは,すでにデプロイされている深部SODモデルを調整することなく,深部学習に基づくリモートセンシングSODモデルの性能を維持するために,逆向きのクラウド画像に対する学習可能な事前処理として設計する。 通常の敵の例と一般化された例の両方を考慮することで、提案したAdversarial Cloudをホワイトボックス設定で防御し、その他の攻撃方法をブラックボックス設定で防御することができる。 public remote sensing sod dataset (eorssd) の合成ベンチマークによる実験結果は、敵のクラウド攻撃に対する有望な防御を示している。

Detecting the salient objects in a remote sensing image has wide applications for the interdisciplinary research. Many existing deep learning methods have been proposed for Salient Object Detection (SOD) in remote sensing images and get remarkable results. However, the recent adversarial attack examples, generated by changing a few pixel values on the original remote sensing image, could result in a collapse for the well-trained deep learning based SOD model. Different with existing methods adding perturbation to original images, we propose to jointly tune adversarial exposure and additive perturbation for attack and constrain image close to cloudy image as Adversarial Cloud. Cloud is natural and common in remote sensing images, however, camouflaging cloud based adversarial attack and defense for remote sensing images are not well studied before. Furthermore, we design DefenseNet as a learn-able pre-processing to the adversarial cloudy images so as to preserve the performance of the deep learning based remote sensing SOD model, without tuning the already deployed deep SOD model. By considering both regular and generalized adversarial examples, the proposed DefenseNet can defend the proposed Adversarial Cloud in white-box setting and other attack methods in black-box setting. Experimental results on a synthesized benchmark from the public remote sensing SOD dataset (EORSSD) show the promising defense against adversarial cloud attacks.
翻訳日:2023-07-06 19:44:37 公開日:2023-07-05
# プロンプトによるパーソナライズドコールドスタート勧告に向けて

Towards Personalized Cold-Start Recommendation with Prompts ( http://arxiv.org/abs/2306.17256v2 )

ライセンス: Link先を確認
Xuansheng Wu, Huachi Zhou, Wenlin Yao, Xiao Huang, Ninghao Liu(参考訳) レコメンダシステムは,過去の行動に基づいて,ユーザの興味に沿った情報発見を支援する上で,重要な役割を担っている。 しかし、ユーザとコンテンツのインタラクションの履歴が利用できない場合、パーソナライズドレコメンデーションシステムの開発は困難になり、システムコールドスタートレコメンデーション問題として知られる問題に繋がる。 この問題は、ユーザーエンゲージメントが不十分なスタートアップ企業やプラットフォームで特に顕著である。 従来の研究では、新しいユーザやアイテムを推薦できるが、同じドメイン内の歴史的なユーザとイテムのインタラクションでトレーニングされているため、私たちの問題は解決できない。 このギャップを埋めるため,本研究では,事前学習した言語モデルの能力を活用した革新的かつ効果的なアプローチを提案する。 提案手法は,ユーザプロファイルや項目属性の情報を含む自然言語の感情分析に変換され,迅速な学習によって感情極性が予測される。 言語モデルに格納された広範な知識を利用することで、歴史的ユーザ・イテム相互作用の記録なしで予測を行うことができる。 また,提案手法を冷間開始条件下で評価するためのベンチマークも導入し,本手法の有効性を実証した。 私たちの知る限りでは、システムコールドスタートレコメンデーション問題に取り組む最初の研究である。 メソッドのベンチマークと実装はhttps://github.com/JacksonWuxs/PromptRec.comで公開されている。

Recommender systems play a crucial role in helping users discover information that aligns with their interests based on their past behaviors. However, developing personalized recommendation systems becomes challenging when historical records of user-item interactions are unavailable, leading to what is known as the system cold-start recommendation problem. This issue is particularly prominent in start-up businesses or platforms with insufficient user engagement history. Previous studies focus on user or item cold-start scenarios, where systems could make recommendations for new users or items but are still trained with historical user-item interactions in the same domain, which cannot solve our problem. To bridge the gap, our research introduces an innovative and effective approach, capitalizing on the capabilities of pre-trained language models. We transform the recommendation process into sentiment analysis of natural languages containing information of user profiles and item attributes, where the sentiment polarity is predicted with prompt learning. By harnessing the extensive knowledge housed within language models, the prediction can be made without historical user-item interaction records. A benchmark is also introduced to evaluate the proposed method under the cold-start setting, and the results demonstrate the effectiveness of our method. To the best of our knowledge, this is the first study to tackle the system cold-start recommendation problem. The benchmark and implementation of the method are available at https://github.com/JacksonWuxs/PromptRec.
翻訳日:2023-07-06 19:44:11 公開日:2023-07-05
# 限定ラベルを用いた製品タイトル生成のためのマルチモーダルプロンプト学習

Multimodal Prompt Learning for Product Title Generation with Extremely Limited Labels ( http://arxiv.org/abs/2307.01969v1 )

ライセンス: Link先を確認
Bang Yang, Fenglin Liu, Zheng Li, Qingyu Yin, Chenyu You, Bing Yin, and Yuexian Zou(参考訳) 製品に対する情報的かつ魅力的なタイトルを生成することは、eコマースにとって重要なタスクだ。 既存の作品の多くは、画像キャプションなど、標準的なマルチモーダル自然言語生成アプローチに従っており、望ましいモデルをトレーニングするために、大量の人間ラベルデータセットを使用している。 しかし、新しい製品、特に異なるドメインでは、既存のラベル付きデータはほとんど存在しない。 本稿では,ラベルが限定された新商品のタイトルを正確かつ効率的に生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。 新製品のタイトル生成における課題は,新規な製品特性の理解と,新規なライティングスタイルにおけるタイトルの生成である。 この目的のために, 異なるモダリティから多モーダルプロンプトの集合を構築し, 新規製品の対応する特性と書体スタイルを保存した。 その結果,訓練用ラベルが極めて限られている場合,提案手法は多変量プロンプトを抽出し,新規製品に望ましいタイトルを生成することができる。 実験と分析は, ドメイン内およびドメイン外における5つの新しい製品カテゴリについて行った。 提案手法は, トレーニング用ラベル付きデータの1%に過ぎず, 最良数ショットの結果を達成し, 100%のトレーニングデータに基づいてトレーニングした完全教師付き手法による競争結果も達成している。

Generating an informative and attractive title for the product is a crucial task for e-commerce. Most existing works follow the standard multimodal natural language generation approaches, e.g., image captioning, and employ the large scale of human-labelled datasets to train desirable models. However, for novel products, especially in a different domain, there are few existing labelled data. In this paper, we propose a prompt-based approach, i.e., the Multimodal Prompt Learning framework, to accurately and efficiently generate titles for novel products with limited labels. We observe that the core challenges of novel product title generation are the understanding of novel product characteristics and the generation of titles in a novel writing style. To this end, we build a set of multimodal prompts from different modalities to preserve the corresponding characteristics and writing styles of novel products. As a result, with extremely limited labels for training, the proposed method can retrieve the multimodal prompts to generate desirable titles for novel products. The experiments and analyses are conducted on five novel product categories under both the in-domain and out-of-domain experimental settings. The results show that, with only 1% of downstream labelled data for training, our proposed approach achieves the best few-shot results and even achieves competitive results with fully-supervised methods trained on 100% of training data; With the full labelled data for training, our method achieves state-of-the-art results.
翻訳日:2023-07-06 15:33:52 公開日:2023-07-05
# ソーシャルボット検出のためのサインアテンション付きマルチスケールグラフニューラルネットワーク:周波数視点

Muti-scale Graph Neural Network with Signed-attention for Social Bot Detection: A Frequency Perspective ( http://arxiv.org/abs/2307.01968v1 )

ライセンス: Link先を確認
Shuhao Shi, Kai Qiao, Zhengyan Wang, Jie Yang, Baojie Song, Jian Chen, Bin Yan(参考訳) ソーシャルメディアに大量のボットが存在することは、悪影響を及ぼす。 グラフニューラルネットワーク(gnn)は、ユーザ間の社会的関係を効果的に活用し、ボット検出に優れた結果を得ることができる。 近年,ボット検出のためのGNNベースの手法がますます多く提案されている。 しかし,既存のGNNベースのボット検出手法は,低周波情報のみに着目し,高周波情報を考えることはめったにない。 そこで本稿では,MSGSと呼ばれるソーシャルボット検出のためのマルチスケール符号付きグラフフィルタを提案する。 MSGSはソーシャルグラフの高周波情報と低周波情報の両方を効果的に活用できる。 具体的には、MSGSはマルチスケール構造を用いて異なるスケールで表現ベクトルを生成する。 これらの表現は、符号付きアテンション機構を使って結合される。 最後に, 重合後のMLPによるマルチスケール表現を行い, 最終結果を得た。 周波数応答を分析し,MSGSがより柔軟で適応的なグラフフィルタであることを示す。 MSGSは、ディープGNNの過度に平滑な問題を緩和するために、効果的に高周波情報を利用することができる。 実世界のデータセットを用いた実験結果から,本手法はいくつかの最先端のソーシャルボット検出手法と比較して性能が向上することが示された。

The presence of a large number of bots on social media has adverse effects. The graph neural network (GNN) can effectively leverage the social relationships between users and achieve excellent results in detecting bots. Recently, more and more GNN-based methods have been proposed for bot detection. However, the existing GNN-based bot detection methods only focus on low-frequency information and seldom consider high-frequency information, which limits the representation ability of the model. To address this issue, this paper proposes a Multi-scale with Signed-attention Graph Filter for social bot detection called MSGS. MSGS could effectively utilize both high and low-frequency information in the social graph. Specifically, MSGS utilizes a multi-scale structure to produce representation vectors at different scales. These representations are then combined using a signed-attention mechanism. Finally, multi-scale representations via MLP after polymerization to produce the final result. We analyze the frequency response and demonstrate that MSGS is a more flexible and expressive adaptive graph filter. MSGS can effectively utilize high-frequency information to alleviate the over-smoothing problem of deep GNNs. Experimental results on real-world datasets demonstrate that our method achieves better performance compared with several state-of-the-art social bot detection methods.
翻訳日:2023-07-06 15:33:26 公開日:2023-07-05
# サイバーセキュリティと個人データ保護に関するアフリカ連合条約:課題と今後の方向性

African Union Convention on Cyber Security and Personal Data Protection: Challenges and Future Directions ( http://arxiv.org/abs/2307.01966v1 )

ライセンス: Link先を確認
MA. Bouke, A. Abdullah, SH. ALshatebi, H. El. Atigh and K. Cengiz(参考訳) 本稿では,アフリカにおけるサイバーセキュリティと個人データ保護に関するアフリカ連合条約(AUDPC)実施の課題と機会について検討する。 Focusing on legal, regulatory, technical, infrastructural, capacity building, awareness, Harmonization, and cross-border cooperation challenges, the paper identifies key findings that highlight the diverse legal systems and traditions, the lack of comprehensive data protection laws, the need to balance national security and data privacy, the digital divide, cybersecurity threats, implications of emerging technologies on data privacy, limited resources for data protection authorities, and the need for capacity building in data privacy and protection. 論文はまた、データ保護フレームワークの調整と国際パートナーやグローバル組織とのコラボレーションにおいて、調和とクロスボーダー協力の重要性を強調している。 これらの課題に対処し、AUDPCの実施を成功させるために、法と規制の枠組みの強化、技術とインフラの能力の向上、能力構築と意識の向上、ハーモニゼーションと国境を越えた協力の促進、グローバルデータ保護の動向と発展への関与など、一連の勧告を提案する。

This paper investigates the challenges and opportunities of implementing the African Union Convention on Cyber Security and Personal Data Protection (AUDPC) across Africa. Focusing on legal, regulatory, technical, infrastructural, capacity building, awareness, Harmonization, and cross-border cooperation challenges, the paper identifies key findings that highlight the diverse legal systems and traditions, the lack of comprehensive data protection laws, the need to balance national security and data privacy, the digital divide, cybersecurity threats, implications of emerging technologies on data privacy, limited resources for data protection authorities, and the need for capacity building in data privacy and protection. The paper also emphasizes the importance of Harmonization and cross-border cooperation in aligning data protection frameworks and collaborating with international partners and global organizations. To address these challenges and facilitate the successful implementation of the AUDPC, the paper proposes a set of recommendations, including strengthening legal and regulatory frameworks, enhancing technical and infrastructural capacities, fostering capacity-building and awareness initiatives, promoting Harmonization and cross-border cooperation, and engaging with global data protection trends and developments.
翻訳日:2023-07-06 15:33:09 公開日:2023-07-05
# 量子スイッチの創発的非マルコフ性と動的量子化

Emergent non-Markovianity and dynamical quantification of the quantum switch ( http://arxiv.org/abs/2307.01964v1 )

ライセンス: Link先を確認
Vishal Anand, Ananda G. Maity, Subhadip Mitra and Samyadeb Bhattacharya(参考訳) 量子スイッチの動的側面について検討し,スイッチ動作から生じる量子メモリの特定の形態を見出す。 まず,量子スイッチによる一般量子進化における情報の損失を解析し,スイッチ誘起メモリの定量化手法を提案する。 次に、情報損失とスイッチ駆動メモリの不確かさを導出する。 我々は、動的偏極の例を明示的に検討し、量子スイッチの作用によってどのように影響を受けるかを示す。 より詳細な分析のために、制御キュービットと制御キュービットの最終的な測定の両方をノイズとして考慮し、その不確実性関係について検討する。 さらに,スイッチ動作の少ない動作に対するlindblad型ダイナミクスを導出しながら,スイッチ誘起メモリが実際には非マルコビアン性の出現に繋がることを示す。 興味深いことに、創発的な非マルコフ性は、他の標準の非マルコフ性測度と比較することにより、スイッチ操作によって明示的に引き起こされる。 そこで本研究では,量子スイッチを新しい非マルコフ量子メモリとして理解するための道を開く。

We investigate the dynamical aspects of the quantum switch and find a particular form of quantum memory emerging out of the switch action. We first analyse the loss of information in a general quantum evolution subjected to a quantum switch and propose a measure to quantify the switch-induced memory. We then derive an uncertainty relation between information loss and switch-induced memory. We explicitly consider the example of depolarising dynamics and show how it is affected by the action of a quantum switch. For a more detailed analysis, we consider both the control qubit and the final measurement on the control qubit as noisy and investigate the said uncertainty relation. Further, while deriving the Lindblad-type dynamics for the reduced operation of the switch action, we identify that the switch-induced memory actually leads to the emergence of non-Markovianity. Interestingly, we demonstrate that the emergent non-Markovianity can be explicitly attributed to the switch operation by comparing it with other standard measures of non-Markovianity. Our investigation thus paves the way forward to understanding the quantum switch as an emerging non-Markovian quantum memory.
翻訳日:2023-07-06 15:32:49 公開日:2023-07-05
# 置換対称フェルミオン量子ウォークにおける局所化

Localisation in Permutation Symmetric Fermionic Quantum Walks ( http://arxiv.org/abs/2307.01963v1 )

ライセンス: Link先を確認
A. P. Balachandran, Anjali Kundalpady, Pramod Padmanabhan, Akash Sinha(参考訳) 我々は大域的な置換対称性と超選択対称性を持つ量子系の局在について検討する。 我々は、置換群 $s_n$ の共役クラスを用いて大域的な置換対称性を持つ多元フェルミオンハミルトンの体系的構成から始め、n$ はフェルミオンの総数である。 その結果得られたハミルトニアンは、区別できないフェルミオンの連続時間量子ウォークの生成元として解釈される。 この設定では、最も単純な例を解析的に解き、全ての状態が障害係数を導入することなく局所化されていることを示す。 さらに、局所化はグローバルな$S_N$対称性を保持する相互作用に対して安定であり、これらの系が量子メモリの候補となることを示す。 提案するモデルは超伝導量子回路とトラップイオン系で実現可能である。

We investigate localisation in a quantum system with a global permutation symmetry and a superselected symmetry. We start with a systematic construction of many-fermion Hamiltonians with a global permutation symmetry using the conjugacy classes of the permutation group $S_N$, with $N$ being the total number of fermions. The resulting Hamiltonians are interpreted as generators of continuous-time quantum walk of indistinguishable fermions. In this setup we analytically solve the simplest example and show that all the states are localised without the introduction of any disorder coefficients. Furthermore, we show that the localisation is stable to interactions that preserve the global $S_N$ symmetry making these systems candidates for a quantum memory. The models we propose can be realised on superconducting quantum circuits and trapped ion systems.
翻訳日:2023-07-06 15:32:32 公開日:2023-07-05
# スパース表面圧力センシングを用いた円柱流れ制御のための動的特徴量に基づく深層補強学習

Dynamic Feature-based Deep Reinforcement Learning for Flow Control of Circular Cylinder with Sparse Surface Pressure Sensing ( http://arxiv.org/abs/2307.01995v1 )

ライセンス: Link先を確認
Qiulei Wang, Lei Yan, Gang Hu, Wenli Chen, Jean Rabault, Bernd R. Noack(参考訳) 本研究では,低抵抗・低リフト変動を目標とした閉ループシリンダウェイク制御のための自己学習アルゴリズムを提案する。 DRLの性能は、センサー信号を動的特徴(DF)に引き上げることで大幅に向上し、将来の流れ状態を予測する。 その結果、動的特徴ベースDRL(DF-DRL)は、動的モデルなしで自動的に植物内のフィードバック制御を学習する。 その結果,DF-DRLモデルの抵抗係数は直接センサフィードバックに基づいてバニラモデルよりも25%小さいことがわかった。 さらに, DF-DRLは1つの表面圧力センサのみを用いて, Re = 100 で約8%の最先端性能にドラッグ係数を低減し, 昇降係数の変動を著しく軽減することができる。 したがって、DF-DRLは制御性能を低下させることなく、流れのスパースセンシングを展開できる。 また,高レイノルズ数下の流れを制御する際のロバスト性も良好であり,re=500と1000では抵抗係数が32.2%,46.55%減少し,広い適用性を示している。 表面圧力情報は,流速情報よりも現実的なシナリオで測定しやすいため,壁面圧力信号に基づいて円柱のアクティブフロー制御を実験的に設計する上で貴重な基準を提供する。

This study proposes a self-learning algorithm for closed-loop cylinder wake control targeting lower drag and lower lift fluctuations with the additional challenge of sparse sensor information, taking deep reinforcement learning as the starting point. DRL performance is significantly improved by lifting the sensor signals to dynamic features (DF), which predict future flow states. The resulting dynamic feature-based DRL (DF-DRL) automatically learns a feedback control in the plant without a dynamic model. Results show that the drag coefficient of the DF-DRL model is 25% less than the vanilla model based on direct sensor feedback. More importantly, using only one surface pressure sensor, DF-DRL can reduce the drag coefficient to a state-of-the-art performance of about 8% at Re = 100 and significantly mitigate lift coefficient fluctuations. Hence, DF-DRL allows the deployment of sparse sensing of the flow without degrading the control performance. This method also shows good robustness in controlling flow under higher Reynolds numbers, which reduces the drag coefficient by 32.2% and 46.55% at Re = 500 and 1000, respectively, indicating the broad applicability of the method. Since surface pressure information is more straightforward to measure in realistic scenarios than flow velocity information, this study provides a valuable reference for experimentally designing the active flow control of a circular cylinder based on wall pressure signals, which is an essential step toward further developing intelligent control in realistic multi-input multi-output (MIMO) system.
翻訳日:2023-07-06 15:23:44 公開日:2023-07-05
# 粒子保存東モデルにおける凍結遷移

Freezing transition in particle-conserving East model ( http://arxiv.org/abs/2307.01993v1 )

ライセンス: Link先を確認
Cheng Wang, Zhi-Cheng Yang(参考訳) 量子論的に制約されたモデルは、異常輸送からヒルベルト空間断片化(HSF)まで、多くの力学現象を示すことができる。 粒子ホッピングが東風の制約を受ける一次元粒子数保存系のクラスについて検討し, 古典ガラスのスピンモデルに類似する。 このような速度論的制約はHSFにつながるが、破片の度合いは平均粒子密度が変化するにつれて鋭い遷移を示す。 臨界密度以下では、系は弱く断片化され、初期状態の大半が拡散的に熱分解され、力学が凍結されシステムが熱分解に失敗する強い断片化へと遷移する。 注目すべきことに、Eastモデルは、効率的な数値シミュレーションと相転移の様々な診断のための解析解の両方を可能にし、そこから正確な臨界指数の集合を得る。 粒子保存東モデルにおける凍結遷移は双極子保存フラクトン系と同じ普遍性クラスに属する。 本研究は, 最新の量子プラットフォームで容易にテスト可能な, hsfに関連する充填誘起凍結遷移の可搬性最小モデルを提供する。

Quantum kinetically constrained models can exhibit a wealth of dynamical phenomena ranging from anomalous transport to Hilbert-space fragmentation (HSF). We study a class of one-dimensional particle number conserving systems where particle hoppings are subjected to an East-like constraint, akin to facilitated spin models in classical glasses. While such a kinetic constraint leads to HSF, we find that the degree of fragmentation exhibits a sharp transition as the average particle density is varied. Below a critical density, the system transitions from being weakly fragmented where most of the initial states thermalize diffusively, to strongly fragmented where the dynamics are frozen and the system fails to thermalize. Remarkably, the East model allows for both efficient numerical simulations and analytic solutions of various diagnostics of the phase transition, from which we obtain a set of exact critical exponents. We find that the freezing transition in particle-conserving East models belongs to the same universality class as dipole-conserving fracton systems. Our results provide a tractable minimal model for filling-induced freezing transitions associated with HSF, which can be readily tested in state-of-the-art quantum platforms.
翻訳日:2023-07-06 15:23:18 公開日:2023-07-05
# 軽量スペクトルアテンションネットワークを用いた教師なしスペクトルデモサイシング

Unsupervised Spectral Demosaicing with Lightweight Spectral Attention Networks ( http://arxiv.org/abs/2307.01990v1 )

ライセンス: Link先を確認
Kai Feng, Yongqiang Zhao, Seong G. Kong, and Haijin Zeng(参考訳) 本稿では、教師なしで訓練された深層学習に基づくスペクトル復調手法を提案する。 既存のディープラーニングベースの技術の多くは、合成画像による教師付き学習に依存しており、特にスペクトルバンド数が増加すると実世界画像に過小評価されることが多い。 本稿では,スペクトルモザイク画像の特徴に基づいて,モザイク損失関数,対応するモデル構造,変換戦略,および完全な教師なしスペクトル復調フレームワークを形成する早期停止戦略を提案する。 実世界のスペクトル復調における課題は、モデルパラメータと画像の計算資源との整合性である。 スペクトル注意テンソルを空間次元のスペクトル注意行列とチャネル次元のスペクトル注意ベクトルに分割することでスペクトル注意モジュールの複雑さとパラメータを低減し、教師なしの枠組みに適している。 本稿では,25バンド超スペクトルモザイク画像データセットであるモザイク25についても述べる。 提案手法は, 空間歪み抑制, スペクトル忠実度, 頑健性, 計算コストの観点から, 従来の教師なし手法よりも優れていることを示す。

This paper presents a deep learning-based spectral demosaicing technique trained in an unsupervised manner. Many existing deep learning-based techniques relying on supervised learning with synthetic images, often underperform on real-world images especially when the number of spectral bands increases. According to the characteristics of the spectral mosaic image, this paper proposes a mosaic loss function, the corresponding model structure, a transformation strategy, and an early stopping strategy, which form a complete unsupervised spectral demosaicing framework. A challenge in real-world spectral demosaicing is inconsistency between the model parameters and the computational resources of the imager. We reduce the complexity and parameters of the spectral attention module by dividing the spectral attention tensor into spectral attention matrices in the spatial dimension and spectral attention vector in the channel dimension, which is more suitable for unsupervised framework. This paper also presents Mosaic25, a real 25-band hyperspectral mosaic image dataset of various objects, illuminations, and materials for benchmarking. Extensive experiments on synthetic and real-world datasets demonstrate that the proposed method outperforms conventional unsupervised methods in terms of spatial distortion suppression, spectral fidelity, robustness, and computational cost.
翻訳日:2023-07-06 15:22:59 公開日:2023-07-05
# 4ビット系のテトラメドロン真の絡み合い測度

Tetrahedron genuine entanglement measure of four-qubit systems ( http://arxiv.org/abs/2307.01987v1 )

ライセンス: Link先を確認
Meng-Li Guo, Zhi-Xiang Jin, Bo Li, Shao-Ming Fei(参考訳) 真の絡み合いの定量化は、量子情報理論の重要な課題である。 4ビット系における真の多部絡み合いの定量化について検討する。 確率的局所演算と古典的通信の下で各クラスを閉じた4量子状態の9つの異なるクラスの共起に基づいて、共起四面体を構築する。 共起テトラヘドロンの体積を用いて、真正4量子絡み合いの測定値を示す。 非真正の絡み合った純粋な状態に対して、4量子の絡み合い測度は双分離可能な絡み合いを分類する。 実 4 量子エンタングルメントの共起四面体に基づく測度は、真の 4 成分のエンタングルメント共起と等価ではないことを示す。 本稿では, 共起テトラヘドロンの利点を詳細な例で示す。

Quantifying genuine entanglement is a key task in quantum information theory. We study the quantification of genuine multipartite entanglement for four-qubit systems. Based on the concurrence of nine different classes of four-qubit states, with each class being closed under stochastic local operation and classical communication, we construct a concurrence tetrahedron. Proper genuine four-qubit entanglement measure is presented by using the volume of the concurrence tetrahedron. For non genuine entangled pure states, the four-qubit entanglement measure classifies the bi-separable entanglement. We show that the concurrence tetrahedron based measure of genuine four-qubit entanglement is not equivalent to the genuine four-partite entanglement concurrence. We illustrate the advantages of the concurrence tetrahedron by detailed examples.
翻訳日:2023-07-06 15:22:37 公開日:2023-07-05
# 少数ショット動作認識のためのタスク固有アライメントと多レベルトランスフォーマ

Task-Specific Alignment and Multiple Level Transformer for Few-Shot Action Recognition ( http://arxiv.org/abs/2307.01985v1 )

ライセンス: Link先を確認
Fei Guo, Li Zhu, YiWang Wang(参考訳) 少数ショット学習の研究分野において、画像ベースとビデオベースの主な違いは、ビデオの時間次元の追加である。 近年では、ビデオや拡張プロトタイプのクロスアテンション機能を得るためにトランスフォーマを用いた作品がいくつかあり、その結果は競争力があるため、数発のアクション認識に対する多くのアプローチがメートル法に準拠している。 しかし、それらは1つのレベルの特徴のみに焦点を当てているため、トランスフォーマーから十分な情報をマイニングすることができない。 本稿ではこの問題に対処した。 本稿では,Task-Specific Alignment and Multiple Level Transformer Network (TSA-MLT) というエンドツーエンド手法を提案する。 我々のモデルでは、Multiple Level Transformerはサポートビデオとクエリビデオのマルチレベル機能に焦点を当てている。 特に、Multiple Level Transformerの前には、タスク固有のTSAを使用して、重要でないフレームや誤解を招くフレームを前処理としてフィルタリングする。 さらに,2種類の距離を用いた融合損失(第1はL2配列距離)を採用し,時間次アライメントに着目した。 2つ目は最適な移動距離で、ビデオの外観とセマンティクスの差を測定することに焦点を当てている。 単純な核融合ネットワークを使って、2つの距離を要素ごとに融合し、クロスエントロピー損失を核融合損失として利用します。 実験の結果,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果が得られた。 私たちのコードはurlで入手できる。 https://github.com/cofly2014/tsa-mlt.git

In the research field of few-shot learning, the main difference between image-based and video-based is the additional temporal dimension for videos. In recent years, many approaches for few-shot action recognition have followed the metric-based methods, especially, since some works use the Transformer to get the cross-attention feature of the videos or the enhanced prototype, and the results are competitive. However, they do not mine enough information from the Transformer because they only focus on the feature of a single level. In our paper, we have addressed this problem. We propose an end-to-end method named "Task-Specific Alignment and Multiple Level Transformer Network (TSA-MLT)". In our model, the Multiple Level Transformer focuses on the multiple-level feature of the support video and query video. Especially before Multiple Level Transformer, we use task-specific TSA to filter unimportant or misleading frames as a pre-processing. Furthermore, we adopt a fusion loss using two kinds of distance, the first is L2 sequence distance, which focuses on temporal order alignment. The second one is Optimal transport distance, which focuses on measuring the gap between the appearance and semantics of the videos. Using a simple fusion network, we fuse the two distances element-wise, then use the cross-entropy loss as our fusion loss. Extensive experiments show our method achieves state-of-the-art results on the HMDB51 and UCF101 datasets and a competitive result on the benchmark of Kinetics and something-2-something V2 datasets. Our code will be available at the URL: https://github.com/cofly2014/tsa-mlt.git
翻訳日:2023-07-06 15:22:26 公開日:2023-07-05
# KiTS21 Challenge:Corticomedullary-phase CTにおける腎,腎腫瘍,腎嚢胞の自動分画

The KiTS21 Challenge: Automatic segmentation of kidneys, renal tumors, and renal cysts in corticomedullary-phase CT ( http://arxiv.org/abs/2307.01984v1 )

ライセンス: Link先を確認
Nicholas Heller, Fabian Isensee, Dasha Trofimova, Resha Tejpaul, Zhongchen Zhao, Huai Chen, Lisheng Wang, Alex Golts, Daniel Khapun, Daniel Shats, Yoel Shoshan, Flora Gilboa-Solomon, Yasmeen George, Xi Yang, Jianpeng Zhang, Jing Zhang, Yong Xia, Mengran Wu, Zhiyang Liu, Ed Walczak, Sean McSweeney, Ranveer Vasdev, Chris Hornung, Rafat Solaiman, Jamee Schoephoerster, Bailey Abernathy, David Wu, Safa Abdulkadir, Ben Byun, Justice Spriggs, Griffin Struyk, Alexandra Austin, Ben Simpson, Michael Hagstrom, Sierra Virnig, John French, Nitin Venkatesh, Sarah Chan, Keenan Moore, Anna Jacobsen, Susan Austin, Mark Austin, Subodh Regmi, Nikolaos Papanikolopoulos, and Christopher Weight(参考訳) 本稿では,2021年医学画像処理及びコンピュータ支援介入に関する国際会議(miccai)とともに開催されている2021年腎臓腫瘍分画チャレンジ(kits21)の課題報告について述べる。 KiTS21は2019年の最初のエディションの続編で、大きなデータセットに加えて、チャレンジの設計方法に関するさまざまなイノベーションが特徴だ。 関心領域ごとに3つのアノテーションを別々に収集するために新しいアノテーション手法が用いられ、これらのアノテーションはWebベースのアノテーションツールを用いて完全に透明な設定で実行された。 さらに、KiTS21テストセットは外部機関から収集され、参加者が新しい人口によく適応する手法を開発するよう挑戦した。 それでも、トップパフォーマンスのチームは、2019年のアートセットの状況よりも大幅に改善され、このパフォーマンスは人間レベルのパフォーマンスにずっと近いことが示されています。 詳細なメタ分析を行い、どの手法が使われたか、リーダーボードでどのようにフェアにされたか、そして、どのケースが一般的に良いパフォーマンスを示し、どれが役に立たなかったかについて説明した。 全体として、KiTS21は腎臓腫瘍のセグメンテーションにおける最先端の進歩を促進し、セグメンテーション全体の分野に適用可能な有用な洞察を提供する。

This paper presents the challenge report for the 2021 Kidney and Kidney Tumor Segmentation Challenge (KiTS21) held in conjunction with the 2021 international conference on Medical Image Computing and Computer Assisted Interventions (MICCAI). KiTS21 is a sequel to its first edition in 2019, and it features a variety of innovations in how the challenge was designed, in addition to a larger dataset. A novel annotation method was used to collect three separate annotations for each region of interest, and these annotations were performed in a fully transparent setting using a web-based annotation tool. Further, the KiTS21 test set was collected from an outside institution, challenging participants to develop methods that generalize well to new populations. Nonetheless, the top-performing teams achieved a significant improvement over the state of the art set in 2019, and this performance is shown to inch ever closer to human-level performance. An in-depth meta-analysis is presented describing which methods were used and how they faired on the leaderboard, as well as the characteristics of which cases generally saw good performance, and which did not. Overall KiTS21 facilitated a significant advancement in the state of the art in kidney tumor segmentation, and provides useful insights that are applicable to the field of semantic segmentation as a whole.
翻訳日:2023-07-06 15:22:02 公開日:2023-07-05
# ゼロショット画像診断のためのchatgpt支援説明フレームワーク

A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image Diagnosis ( http://arxiv.org/abs/2307.01981v1 )

ライセンス: Link先を確認
Jiaxiang Liu, Tianxiang Hu, Yan Zhang, Xiaotang Gai, Yang Feng, Zuozhu Liu(参考訳) ゼロショット医療画像分類は、あらゆる病気や大規模な注釈付きデータへのアクセスが制限される現実のシナリオにおいて重要なプロセスである。 診断結果を決定するために、クエリ医療画像と可能性のある疾患カテゴリの類似点を計算する。 CLIPのような事前訓練された視覚言語モデル(VLM)の最近の進歩は、ゼロショットの自然画像認識に優れた性能を示し、医学的応用に有益である。 しかし、将来性のあるゼロショット医療画像認識フレームワークはまだ開発中である。 本稿では,ChatGPTを付加した新しいCLIPベースのゼロショット医用画像分類フレームワークを提案する。 主要なアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、病気の症状や単一のカテゴリ名以外の記述などの追加の手がかりや知識を自動的に生成し、より正確で説明可能なCLIPの診断を支援することである。 さらに,視覚医学的特徴を記述したchatgptを用いて,生成されたテキストの品質向上のための具体的プロンプトをデザインする。 1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示し、医療応用におけるVLMとLLMの大きな可能性を裏付けるものである。

Zero-shot medical image classification is a critical process in real-world scenarios where we have limited access to all possible diseases or large-scale annotated data. It involves computing similarity scores between a query medical image and possible disease categories to determine the diagnostic result. Recent advances in pretrained vision-language models (VLMs) such as CLIP have shown great performance for zero-shot natural image recognition and exhibit benefits in medical applications. However, an explainable zero-shot medical image recognition framework with promising performance is yet under development. In this paper, we propose a novel CLIP-based zero-shot medical image classification framework supplemented with ChatGPT for explainable diagnosis, mimicking the diagnostic process performed by human experts. The key idea is to query large language models (LLMs) with category names to automatically generate additional cues and knowledge, such as disease symptoms or descriptions other than a single category name, to help provide more accurate and explainable diagnosis in CLIP. We further design specific prompts to enhance the quality of generated texts by ChatGPT that describe visual medical features. Extensive results on one private dataset and four public datasets along with detailed analysis demonstrate the effectiveness and explainability of our training-free zero-shot diagnosis pipeline, corroborating the great potential of VLMs and LLMs for medical applications.
翻訳日:2023-07-06 15:21:34 公開日:2023-07-05
# 一方向局所演算と古典的通信における $\bbC^3\otimes \bbC^n$ 3次元部分空間の区別可能な基底の存在

The existence of distinguishable bases of $\bbC^3\otimes \bbC^n$ three-dimensional subspaces under one-way local operations and classical communication ( http://arxiv.org/abs/2307.01980v1 )

ライセンス: Link先を確認
Zhiwei Song, Lin Chen and Dragomir Z. Djokovic(参考訳) 我々は、$\bbC^3\otimes \bbC^n$のすべての3次元部分空間が、一方的な局所演算と古典的通信(LOCC)の下で区別可能な基底を持つことを示した。 これは [J. Phys. A, 40, 7937, 2007] で提案された開問題を解く。 結果を拡張して、一方向LOCCの下で$\bbC^3\otimes \bbC^{12}$の4次元局所微分可能部分空間を構築する。 また、3次元環境を有する各チャネルの環境支援古典容量は、少なくとも$\log_2 3$であり、任意のクトリットチャネルの環境支援古典容量は$\log_2 3$であることを示した。

We show that every three-dimensional subspace of $\bbC^3\otimes \bbC^n$ has a distinguishable basis under one-way local operations and classical communication (LOCC). This solves an open problem proposed in [J. Phys. A, 40, 7937, 2007]. We extend our result to construct a four-dimensional locally indistinguishable subspace of $\bbC^3\otimes \bbC^{12}$ under one-way LOCC. We also show that the environment-assisted classical capacity of every channel with a three-dimensional environment is at least $\log_2 3$, and the environment-assisting classical capacity of any qutrit channel is $\log_2 3$.
翻訳日:2023-07-06 15:21:09 公開日:2023-07-05
# CBCT画像における歯のセグメンテーションと歯の劣化

ToothSegNet: Image Degradation meets Tooth Segmentation in CBCT Images ( http://arxiv.org/abs/2307.01979v1 )

ライセンス: Link先を確認
Jiaxiang Liu, Tianxiang Hu, Yang Feng, Wanghui Ding, Zuozhu Liu(参考訳) コンピュータ補綴学では、多くの治療に3次元歯のモデルが必要である。 コーンビームCT画像からの歯のセグメンテーションは, モデル構築における重要なステップである。 しかし, 撮影器具による金属品やぼやけなどのcbct画像品質問題や患者の歯科疾患は, セグメンテーションを困難にしている。 本稿では,訓練中に生成した劣化画像を用いてセグメンテーションモデルを知る新しいフレームワークである toothsegnet を提案する。 ToothSegNetは、チャネルワイドクロスフュージョンを用いて設計した劣化シミュレーションモジュールから高画質の画像と低品質画像の情報をマージし、エンコーダとデコーダのセマンティックギャップを低減するとともに、構造的制約損失による歯形予測の精度を高める。 実験結果から,TothSegNetはより精密なセグメンテーションを実現し,最先端の医用画像セグメンテーション法より優れていたことが示唆された。

In computer-assisted orthodontics, three-dimensional tooth models are required for many medical treatments. Tooth segmentation from cone-beam computed tomography (CBCT) images is a crucial step in constructing the models. However, CBCT image quality problems such as metal artifacts and blurring caused by shooting equipment and patients' dental conditions make the segmentation difficult. In this paper, we propose ToothSegNet, a new framework which acquaints the segmentation model with generated degraded images during training. ToothSegNet merges the information of high and low quality images from the designed degradation simulation module using channel-wise cross fusion to reduce the semantic gap between encoder and decoder, and also refines the shape of tooth prediction through a structural constraint loss. Experimental results suggest that ToothSegNet produces more precise segmentation and outperforms the state-of-the-art medical image segmentation methods.
翻訳日:2023-07-06 15:20:54 公開日:2023-07-05
# インクリメンタルプロンプトと検証によるオープンドメイン階層イベントスキーマ誘導

Open-Domain Hierarchical Event Schema Induction by Incremental Prompting and Verification ( http://arxiv.org/abs/2307.01972v1 )

ライセンス: Link先を確認
Sha Li, Ruining Zhao, Manling Li, Heng Ji, Chris Callison-Burch, Jiawei Han(参考訳) イベントスキーマは、イベントの典型的な進行に関する世界知識の一形態である。 近年のイベントスキーマ帰納法では,文書から多数のイベントグラフインスタンスを構築するために情報抽出システムを用いており,そのようなインスタンスからスキーマを一般化することを学ぶ。 対照的に,イベントスキーマを大規模言語モデル(LLM)から導出可能なコモンセンス知識の一形態として扱うことを提案する。 この新たなパラダイムはスキーマ帰納プロセスを大幅に単純化し、階層的関係とイベント間の時間的関係を直接的な方法で扱えるようにします。 イベントスキーマは複雑なグラフ構造を持つため、複雑なイベントグラフの構築をイベントスケルトン構築、イベント拡張、イベント-イベント関係検証の3段階に分割するインクリメンタルなプロンプトおよび検証手法を設計する。 線形化グラフを生成するためにLLMを直接使用するのに比べ,時間的関係が7.2%,階層的関係が31.0%,大規模かつ複雑なスキーマを生成することができる。 さらに、従来の最先端のクローズドドメインスキーマインジェクションモデルと比較して、スキーマをコヒーレントなストーリーに変換する際に、人間のアセスタが$\sim$10%以上のイベントをカバーし、可読性の観点からスキーマを1.3ポイント高く評価した(5ポイントスケールで)。

Event schemas are a form of world knowledge about the typical progression of events. Recent methods for event schema induction use information extraction systems to construct a large number of event graph instances from documents, and then learn to generalize the schema from such instances. In contrast, we propose to treat event schemas as a form of commonsense knowledge that can be derived from large language models (LLMs). This new paradigm greatly simplifies the schema induction process and allows us to handle both hierarchical relations and temporal relations between events in a straightforward way. Since event schemas have complex graph structures, we design an incremental prompting and verification method to break down the construction of a complex event graph into three stages: event skeleton construction, event expansion, and event-event relation verification. Compared to directly using LLMs to generate a linearized graph, our method can generate large and complex schemas with 7.2% F1 improvement in temporal relations and 31.0% F1 improvement in hierarchical relations. In addition, compared to the previous state-of-the-art closed-domain schema induction model, human assessors were able to cover $\sim$10% more events when translating the schemas into coherent stories and rated our schemas 1.3 points higher (on a 5-point scale) in terms of readability.
翻訳日:2023-07-06 15:20:36 公開日:2023-07-05
# 歯科医用教育画像における患者のアイデンティティ保護のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Dental Patient Identity Protection in Orthodontic Educational Imaging ( http://arxiv.org/abs/2307.02019v1 )

ライセンス: Link先を確認
Mingchuan Tian, Wilson Weixun Lu, Kelvin Weng Chiong Foong, Eugene Loh(参考訳) 目的: 本研究は, 歯科患者像を効果的に識別する新しい領域保存型ジェネレーショナル・アドバーサリー・ネットワーク(gan)インバージョン技術を導入する。 この手法は, 重要な歯科的特徴を保ちながら, プライバシの懸念に対処し, 歯科教育や研究に有用な資源を創出する。 方法: 既存のGANインバージョン法を改良し, 合成画像中の歯科特性の保存を最大化する。 エンド・ツー・エンドの開発指導と画像認識のための実践的応用を提供するために,複数のディープラーニングモデルを組み込んだ包括的技術フレームワークを開発した。 結果: 様々な顔画像を用いて, 骨格異常や顔面異常の診断に広く用いられている。 以上の結果から, 口腔診断や歯科教育に欠かせない歯科的特徴を保ちながら, 一つの画像から別の画像へと文脈を適応させる能力を示した。 5人の臨床医のパネルが原画像とGAN処理画像のセットの評価を行った。 得られた画像は, 重要な歯科的特徴のリアリズムを維持し, 歯の診断や教育に有用であると考えられた。 臨床的意義:我々のGANモデルと包括的枠組みは,歯科患者画像の識別プロセスの合理化を図り,歯科教育の効率を高めることができる。 本手法は, 矯正歯列への露出を増大させることにより, 学生の診断能力を向上させる。 さらに、主要研究機関におけるより広い2次元画像研究のための非識別データセットの作成を容易にする。

Objectives: This research introduces a novel area-preserving Generative Adversarial Networks (GAN) inversion technique for effectively de-identifying dental patient images. This innovative method addresses privacy concerns while preserving key dental features, thereby generating valuable resources for dental education and research. Methods: We enhanced the existing GAN Inversion methodology to maximize the preservation of dental characteristics within the synthesized images. A comprehensive technical framework incorporating several deep learning models was developed to provide end-to-end development guidance and practical application for image de-identification. Results: Our approach was assessed with varied facial pictures, extensively used for diagnosing skeletal asymmetry and facial anomalies. Results demonstrated our model's ability to adapt the context from one image to another, maintaining compatibility, while preserving dental features essential for oral diagnosis and dental education. A panel of five clinicians conducted an evaluation on a set of original and GAN-processed images. The generated images achieved effective de-identification, maintaining the realism of important dental features and were deemed useful for dental diagnostics and education. Clinical Significance: Our GAN model and the encompassing framework can streamline the de-identification process of dental patient images, enhancing efficiency in dental education. This method improves students' diagnostic capabilities by offering more exposure to orthodontic malocclusions. Furthermore, it facilitates the creation of de-identified datasets for broader 2D image research at major research institutions.
翻訳日:2023-07-06 15:14:35 公開日:2023-07-05
# 合成対話における学生の評価評価におけるGPT-4とHuman Gradersの比較分析

Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise Given to Students in Synthetic Dialogues ( http://arxiv.org/abs/2307.02018v1 )

ライセンス: Link先を確認
Dollaya Hirunyasiri, Danielle R. Thomas, Jionghao Lin, Kenneth R. Koedinger, Vincent Aleven(参考訳) 人間の家庭教師に特定のタイムリーなフィードバックを提供することによって、パフォーマンスが向上することを研究は示唆している。 しかし、人間の評価者によるチューターのパフォーマンスを評価するのに時間を要するため、課題が提示される。 aiチャットボットchatgptのような大きな言語モデルは、実践的な環境で家庭教師に建設的なフィードバックを提供する可能性を秘めている。 それでも、ChatGPTのようなモデルが効果的なフィードバックを提供する能力を調査しているため、AIが生成したフィードバックの正確性は依然として不明である。 本研究では,gpt-4で生成した30の対話をチューター・スチューデント設定で評価する。 思考のゼロショット連鎖と思考のマイナショット連鎖という2つの異なるプロンプトアプローチを用いて,5つの基準に基づいて,効果的な賞賛の具体的構成要素を同定した。 これらのアプローチは、正確性のために人間のグレーダの結果と比較される。 我々の目標は、GPT-4がそれぞれの賞賛基準を正確に識別できる範囲を評価することである。 ゼロショットと少数ショットの思考アプローチの両方が、同等の結果をもたらすことがわかった。 GPT-4は、チューターが具体的かつ即時的な賞賛を提供する場合、インスタンスの識別において適度に機能する。 しかし、GPT-4は、特に、誠実なチューターの賞賛文の例が提供されていないゼロショットプロンプトシナリオにおいて、誠実な賞賛を与えるテューターの能力を識別する能力が不足している。 今後の研究は、プロンプトエンジニアリングの強化、より汎用的なチューリングルーブリックの開発、実生活におけるチューリング対話を用いた手法の評価に焦点を当てる。

Research suggests that providing specific and timely feedback to human tutors enhances their performance. However, it presents challenges due to the time-consuming nature of assessing tutor performance by human evaluators. Large language models, such as the AI-chatbot ChatGPT, hold potential for offering constructive feedback to tutors in practical settings. Nevertheless, the accuracy of AI-generated feedback remains uncertain, with scant research investigating the ability of models like ChatGPT to deliver effective feedback. In this work-in-progress, we evaluate 30 dialogues generated by GPT-4 in a tutor-student setting. We use two different prompting approaches, the zero-shot chain of thought and the few-shot chain of thought, to identify specific components of effective praise based on five criteria. These approaches are then compared to the results of human graders for accuracy. Our goal is to assess the extent to which GPT-4 can accurately identify each praise criterion. We found that both zero-shot and few-shot chain of thought approaches yield comparable results. GPT-4 performs moderately well in identifying instances when the tutor offers specific and immediate praise. However, GPT-4 underperforms in identifying the tutor's ability to deliver sincere praise, particularly in the zero-shot prompting scenario where examples of sincere tutor praise statements were not provided. Future work will focus on enhancing prompt engineering, developing a more general tutoring rubric, and evaluating our method using real-life tutoring dialogues.
翻訳日:2023-07-06 15:14:09 公開日:2023-07-05
# ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation

ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation ( http://arxiv.org/abs/2307.02010v1 )

ライセンス: Link先を確認
Jiahao Li, Yuanyou Xu, Zongxin Yang, Yi Yang, Yueting Zhuang(参考訳) Associating Objects with Transformers (AOT)フレームワークは、ビデオオブジェクトセグメンテーションの幅広い複雑なシナリオにおいて、例外的なパフォーマンスを示した。 本研究では,複数の特徴尺度で変換器を組み込んだAOTシリーズの変種であるMSDeAOTを紹介する。 階層的なGated Propagation Module (GPM)を活用することで、MSDeAOTは16のストライドを持つ特徴スケールを用いて、オブジェクトマスクを以前のフレームから現在のフレームに効率的に伝播する。 さらに,GPMを8ストライドで改良した機能スケールで採用することにより,小型物体の検出・追跡の精度が向上した。 テスト時間拡張とモデルアンサンブル技術の実装により,EPIC-KITCHEN VISOR セミ教師付きビデオオブジェクトセグメンテーションチャレンジの上位に位置する。

The Associating Objects with Transformers (AOT) framework has exhibited exceptional performance in a wide range of complex scenarios for video object segmentation. In this study, we introduce MSDeAOT, a variant of the AOT series that incorporates transformers at multiple feature scales. Leveraging the hierarchical Gated Propagation Module (GPM), MSDeAOT efficiently propagates object masks from previous frames to the current frame using a feature scale with a stride of 16. Additionally, we employ GPM in a more refined feature scale with a stride of 8, leading to improved accuracy in detecting and tracking small objects. Through the implementation of test-time augmentations and model ensemble techniques, we achieve the top-ranking position in the EPIC-KITCHEN VISOR Semi-supervised Video Object Segmentation Challenge.
翻訳日:2023-07-06 15:13:46 公開日:2023-07-05
# オランダ語エンドツーエンド音声認識システムにおけるバイアス低減のためのデータ拡張とVTLN

Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems ( http://arxiv.org/abs/2307.02009v1 )

ライセンス: Link先を確認
Tanvina Patel and Odette Scharenborg(参考訳) 音声技術は、標準話者、すなわち、音声障害や強いアクセントのない言語の成人ネイティブ話者に対して、大幅に改善されている。 しかし、非ノルムまたは多様な話者グループは、我々がバイアスと呼ぶ通常の話者と異なるパフォーマンスの差を示している。 本研究では,オランダの異なる年齢層と非母語話者に対する偏見を低減することを目的とする。 エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用い,声道長正規化(VTLN)を探索し,解剖学の違いによるスペクトル差の正規化を行う。 データ拡張とvtlnの組み合わせにより、様々な話者グループの平均werとバイアスは、それぞれ6.9%と3.9%減少した。 オランダ語で訓練されたvtlnモデルも中国語音声の性能向上に有効であり,言語間の汎用性を示した。

Speech technology has improved greatly for norm speakers, i.e., adult native speakers of a language without speech impediments or strong accents. However, non-norm or diverse speaker groups show a distinct performance gap with norm speakers, which we refer to as bias. In this work, we aim to reduce bias against different age groups and non-native speakers of Dutch. For an end-to-end (E2E) ASR system, we use state-of-the-art speed perturbation and spectral augmentation as data augmentation techniques and explore Vocal Tract Length Normalization (VTLN) to normalise for spectral differences due to differences in anatomy. The combination of data augmentation and VTLN reduced the average WER and bias across various diverse speaker groups by 6.9% and 3.9%, respectively. The VTLN model trained on Dutch was also effective in improving performance of Mandarin Chinese child speech, thus, showing generalisability across languages
翻訳日:2023-07-06 15:13:30 公開日:2023-07-05
# グラフインタラクションを用いたリモートセンシング画像変化検出

Remote Sensing Image Change Detection with Graph Interaction ( http://arxiv.org/abs/2307.02007v1 )

ライセンス: Link先を確認
Chenglong Liu(参考訳) Modern remote sensing image change detection has witnessed substantial advancements by harnessing the potent feature extraction capabilities of CNNs and Transforms.Yet,prevailing change detection techniques consistently prioritize extracting semantic features related to significant alterations,overlooking the viability of directly interacting with bitemporal image features.In this letter,we propose a bitemporal image graph Interaction network for remote sensing change detection,namely BGINet-CD. More specifically,by leveraging the concept of non-local operations and mapping the features obtained from the backbone network to the graph structure space,we propose a unified self-focus mechanism for bitemporal images.This approach enhances the information coupling between the two temporal images while effectively suppressing task-irrelevant interference,Based on a streamlined backbone architecture,namely ResNet18,our model demonstrates superior performance compared to other state-of-the-art methods (SOTA) on the GZ CD dataset. さらに、このモデルでは精度と計算効率のトレードオフが強化され、全体的な効果が向上する。

Modern remote sensing image change detection has witnessed substantial advancements by harnessing the potent feature extraction capabilities of CNNs and Transforms.Yet,prevailing change detection techniques consistently prioritize extracting semantic features related to significant alterations,overlooking the viability of directly interacting with bitemporal image features.In this letter,we propose a bitemporal image graph Interaction network for remote sensing change detection,namely BGINet-CD. More specifically,by leveraging the concept of non-local operations and mapping the features obtained from the backbone network to the graph structure space,we propose a unified self-focus mechanism for bitemporal images.This approach enhances the information coupling between the two temporal images while effectively suppressing task-irrelevant interference,Based on a streamlined backbone architecture,namely ResNet18,our model demonstrates superior performance compared to other state-of-the-art methods (SOTA) on the GZ CD dataset. Moreover,the model exhibits an enhanced trade-off between accuracy and computational efficiency,further improving its overall effectiveness
翻訳日:2023-07-06 15:13:13 公開日:2023-07-05
# mediqa-sum 2023におけるpulsar : 合成対話による大規模言語モデルによる患者対話の医療記録への変換

PULSAR at MEDIQA-Sum 2023: Large Language Models Augmented by Synthetic Dialogue Convert Patient Dialogues to Medical Records ( http://arxiv.org/abs/2307.02006v1 )

ライセンス: Link先を確認
Viktor Schlegel, Hao Li, Yuping Wu, Anand Subramanian, Thanh-Tung Nguyen, Abhinav Ramesh Kashyap, Daniel Beck, Xiaojun Zeng, Riza Theresa Batista-Navarro, Stefan Winkler, Goran Nenadic(参考訳) 本稿では,imageclef 2023 mediqa-sum task on summarising patient-doctor dialogues into clinical recordにおけるpulsarについて述べる。 提案するフレームワークは,ブラックボックス LLM によって生成された合成データによって強化されたタスク固有自然データに基づいて訓練された特化言語モデルを生成するために,ドメイン固有事前学習に依存する。 言語モデルをスケールアップしながら、ドメイン固有の事前トレーニングとデータ拡張の有効性を示す限られた証拠が、最高のパフォーマンス向上をもたらす。 我々のアプローチは課題のタスクbに関する13の応募中2番目と3番目にランクされた。 私たちのコードはhttps://github.com/yuping-wu/pulsarで利用可能です。

This paper describes PULSAR, our system submission at the ImageClef 2023 MediQA-Sum task on summarising patient-doctor dialogues into clinical records. The proposed framework relies on domain-specific pre-training, to produce a specialised language model which is trained on task-specific natural data augmented by synthetic data generated by a black-box LLM. We find limited evidence towards the efficacy of domain-specific pre-training and data augmentation, while scaling up the language model yields the best performance gains. Our approach was ranked second and third among 13 submissions on task B of the challenge. Our code is available at https://github.com/yuping-wu/PULSAR.
翻訳日:2023-07-06 15:13:00 公開日:2023-07-05
# 複雑系の量子力学と量子シミュレーションによる実験的検証

Quantum metrology in complex systems and experimental verification by quantum simulation ( http://arxiv.org/abs/2307.02005v1 )

ライセンス: Link先を確認
Qing Ai, Yang-Yang Wang, Jing Qiu(参考訳) 量子エンタングルメントと量子コヒーレンスに基づく量子メトロロジーは、測定の精度を向上させる。 本稿では,非マルコフ雑音,相関雑音,量子臨界系など,様々な複雑系における量子力学のスキームについて概観する。 一方,量子情報の発展に伴い,量子シミュレーション実験を用いて様々な理論スキームの実現性を検証し,一次元結合キャビティアレイの結合状態や単一光子スイッチ,ルータなどの複雑な系におけるリッチな物理現象を実証することができる。

Quantum metrology based on quantum entanglement and quantum coherence improves the accuracy of measurement. In this paper, we briefly review the schemes of quantum metrology in various complex systems, including non-Markovian noise, correlated noise, quantum critical system. On the other hand, the booming development of quantum information allows us to utilize quantum simulation experiments to test the feasibility of various theoretical schemes and demonstrate the rich physical phenomena in complex systems, such as bound states in one-dimensional coupled cavity arrays, single-photon switches and routers.
翻訳日:2023-07-06 15:12:45 公開日:2023-07-05
# オープンセット意味セグメンテーションのためのマルチモーダルプロトタイプ

Multi-Modal Prototypes for Open-Set Semantic Segmentation ( http://arxiv.org/abs/2307.02003v1 )

ライセンス: Link先を確認
Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang(参考訳) セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。 このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。 開発は比較的楽観的であり、これらの2つの線は分離して研究されており、低レベルの視覚および高レベルの言語情報の補完的な本質を無視している。 本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。 パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。 具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。 2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。 \pascalデータセットと \cocoデータセットの両方で、フレームワークの有効性を評価するために広範囲な実験を行いました。 最先端の結果は、粗粒データセットのトレーニングのみによって、より詳細なpart-segmentation、pascal-animalsでも達成される。 各成分を定量的・定性的に分析するために徹底的なアブレーション研究を行う。

In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as visual cues or class names as textual cues. Through the development is relatively optimistic, these two lines have been studied in isolation, neglecting the complementary intrinsic of low-level visual and high-level language information. In this paper, we define a unified setting termed as open-set semantic segmentation (O3S), which aims to learn seen and unseen semantics from both visual examples and textual names. Our pipeline extracts multi-modal prototypes for segmentation task, by first single modal self-enhancement and aggregation, then multi-modal complementary fusion. To be specific, we aggregate visual features into several tokens as visual prototypes, and enhance the class name with detailed descriptions for textual prototype generation. The two modalities are then fused to generate multi-modal prototypes for final segmentation. On both \pascal and \coco datasets, we conduct extensive experiments to evaluate the framework effectiveness. State-of-the-art results are achieved even on more detailed part-segmentation, Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation studies are performed to dissect each component, both quantitatively and qualitatively.
翻訳日:2023-07-06 15:12:34 公開日:2023-07-05
# 磁気共鳴画像を用いた子宮内膜症診断のための超音波診断法

Distilling Missing Modality Knowledge from Ultrasound for Endometriosis Diagnosis with Magnetic Resonance Images ( http://arxiv.org/abs/2307.02000v1 )

ライセンス: Link先を確認
Yuan Zhang, Hu Wang, David Butler, Minh-Son To, Jodie Avery, M Louise Hull and Gustavo Carneiro(参考訳) 子宮内膜症(Endometriosis)は,腹腔内超音波検査(TVUS)とMRI(MRI)を用いて診断できる,Douglas (POD)閉塞症(pouch of Douglas)を含む多くの特徴を有する慢性婦人科疾患である。 TVUSとMRIは相補的な非侵襲的子宮内膜症の診断技術であるが、通常患者は両方のモダリティを用いてスキャンされることはなく、一般的にはTVUSよりもMRIによるPOD除去を検出することが困難である。 本稿では,この分類の不均衡を軽減するために,未確認TVUSデータから検出結果を活用することにより,MRIからのPOD消去検出を改善する知識蒸留訓練アルゴリズムを提案する。 より具体的には,本アルゴリズムは教師モデルを用いてTVUSデータからPOD消去を検出することを事前訓練し,また大量の未ラベルの骨盤MRIボリュームを用いて3Dマスク付きオートエンコーダを用いた学生モデルも事前訓練する。 次に,教師のTVUSPOD消去検知器から知識を抽出し,未経験のTVUSとMRIデータを用いて教師の出力を近似した回帰損失を最小化することにより,生徒のMRIモデルを訓練する。 TVUSおよびMRIデータを含む子宮内膜症データセットの実験結果から,MRIによるPOD検出精度を向上させる方法の有効性が示された。

Endometriosis is a common chronic gynecological disorder that has many characteristics, including the pouch of Douglas (POD) obliteration, which can be diagnosed using Transvaginal gynecological ultrasound (TVUS) scans and magnetic resonance imaging (MRI). TVUS and MRI are complementary non-invasive endometriosis diagnosis imaging techniques, but patients are usually not scanned using both modalities and, it is generally more challenging to detect POD obliteration from MRI than TVUS. To mitigate this classification imbalance, we propose in this paper a knowledge distillation training algorithm to improve the POD obliteration detection from MRI by leveraging the detection results from unpaired TVUS data. More specifically, our algorithm pre-trains a teacher model to detect POD obliteration from TVUS data, and it also pre-trains a student model with 3D masked auto-encoder using a large amount of unlabelled pelvic 3D MRI volumes. Next, we distill the knowledge from the teacher TVUS POD obliteration detector to train the student MRI model by minimizing a regression loss that approximates the output of the student to the teacher using unpaired TVUS and MRI data. Experimental results on our endometriosis dataset containing TVUS and MRI data demonstrate the effectiveness of our method to improve the POD detection accuracy from MRI.
翻訳日:2023-07-06 15:12:08 公開日:2023-07-05
# ゼロショットニューラルアーキテクチャ検索 - 課題、解決策、機会

Zero-Shot Neural Architecture Search: Challenges, Solutions, and Opportunities ( http://arxiv.org/abs/2307.01998v1 )

ライセンス: Link先を確認
Guihong Li, Duc Hoang, Kartikeya Bhardwaj, Ming Lin, Zhangyang Wang, Radu Marculescu(参考訳) 近年、トレーニング要件からnasを解放するためのゼロショット(またはトレーニングフリー)ニューラルネットワーク検索(nas)アプローチが提案されている。 ゼロショットNASアプローチの背景にある重要な考え方は、ネットワークパラメータをトレーニングすることなく、与えられたネットワークの精度を予測するプロキシを設計することである。 これまでに提案されたプロキシは通常、理論的な深層学習の最近の進歩にインスパイアされ、NASベンチマークデータセットで大きな可能性を示している。 本稿では,SOTAのゼロショットNASアプローチを概観的に検証し,ハードウェアの認識に重点を置いて比較することを目的とする。 この目的のために、まず主流のゼロショットプロキシをレビューし、それらの理論的基盤について議論する。 次に,これらゼロショットプロキシを大規模実験で比較し,ハードウェアアウェアとハードウェア指向のnasシナリオの両方においてその効果を示す。 最後に、より良いプロキシを設計するための有望なアイデアをいくつか挙げる。 ソースコードと関連するペーパーリストはhttps://github.com/SLDGroup/survey-zero-shot-nas.comで公開されている。

Recently, zero-shot (or training-free) Neural Architecture Search (NAS) approaches have been proposed to liberate the NAS from training requirements. The key idea behind zero-shot NAS approaches is to design proxies that predict the accuracies of the given networks without training network parameters. The proxies proposed so far are usually inspired by recent progress in theoretical deep learning and have shown great potential on several NAS benchmark datasets. This paper aims to comprehensively review and compare the state-of-the-art (SOTA) zero-shot NAS approaches, with an emphasis on their hardware awareness. To this end, we first review the mainstream zero-shot proxies and discuss their theoretical underpinnings. We then compare these zero-shot proxies through large-scale experiments and demonstrate their effectiveness in both hardware-aware and hardware-oblivious NAS scenarios. Finally, we point out several promising ideas to design better proxies. Our source code and the related paper list are available on https://github.com/SLDGroup/survey-zero-shot-nas.
翻訳日:2023-07-06 15:11:43 公開日:2023-07-05
# 大規模言語モデル(LLM)時代のレコメンダシステム

Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v1 )

ライセンス: Link先を確認
Wenqi Fan, Zihuai Zhao, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Jiliang Tang, and Qing Li(参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。 ディープニューラルネットワーク(dnn)は,ユーザ-テーマ間インタラクションのモデル化やテキスト側情報の導入によって,レコメンダシステムの拡張において大きな進歩を遂げているが,dnnベースの手法では,ユーザの興味の理解やテキスト側情報の取り込みの難しさ,さまざまなレコメンデーションシナリオへの一般化の不安定性,予測の推論など,依然として限界に直面している。 一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。 レコメンダシステムにおけるこの研究の方向性の急速な進化を考えると、既存のllmによるレコメンダシステムの概要を体系的に概観し、関連する分野の研究者に深い理解を提供する必要がある。 そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。 具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。 次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。 最後に、この新興分野における今後の方向性を包括的に論じる。

With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
翻訳日:2023-07-06 15:04:11 公開日:2023-07-05
# 弱教師付き視聴覚映像解析のためのマルチモーダル不平衡認識勾配変調

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2307.02041v1 )

ライセンス: Link先を確認
Jie Fu, Junyu Gao, Changsheng Xu(参考訳) 弱教師付きオーディオ視覚ビデオ解析(WS-AVVP)は、音声、視覚およびオーディオ視覚イベントインスタンスの時間的範囲をローカライズすること、およびトレーニング用のビデオレベルのカテゴリラベルのみを用いて対応するイベントカテゴリを特定することを目的としている。 従来の手法の多くは、各モダリティの監督の見直しや、より信頼性の高い特徴学習のための実りあるモダリティ情報の抽出に多くの注意を払っている。 タスクの異なるモダリティ間の不均衡な特徴学習に気付いていない。 本稿では,異なるモダリティの特徴学習過程のバランスをとるために,動的勾配変調(dgm)機構について検討し,音声と視覚のモダリティ間の不均衡特徴学習を測定するために,新しい効果的な計量関数を考案する。 さらに,マルチモーダル混乱計算は,マルチモーダル不均衡特徴学習の正確な測定を阻害し,dgm機構の有効性をさらに低下させることが示唆された。 この問題に対処するため、モーダリティ分離決定部(MSDU)は、音声と視覚のモダリティ間の不均衡特徴学習をより正確に測定するために設計されている。 総合的な実験を公開ベンチマークで実施し,それに対応する実験結果から提案手法の有効性を実証した。

Weakly-supervised audio-visual video parsing (WS-AVVP) aims to localize the temporal extents of audio, visual and audio-visual event instances as well as identify the corresponding event categories with only video-level category labels for training. Most previous methods pay much attention to refining the supervision for each modality or extracting fruitful cross-modality information for more reliable feature learning. None of them have noticed the imbalanced feature learning between different modalities in the task. In this paper, to balance the feature learning processes of different modalities, a dynamic gradient modulation (DGM) mechanism is explored, where a novel and effective metric function is designed to measure the imbalanced feature learning between audio and visual modalities. Furthermore, principle analysis indicates that the multimodal confusing calculation will hamper the precise measurement of multimodal imbalanced feature learning, which further weakens the effectiveness of our DGM mechanism. To cope with this issue, a modality-separated decision unit (MSDU) is designed for more precise measurement of imbalanced feature learning between audio and visual modalities. Comprehensive experiments are conducted on public benchmarks and the corresponding experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2023-07-06 15:03:37 公開日:2023-07-05
# VertiBench: 垂直的フェデレート学習ベンチマークにおける特徴分散の多様性向上

VertiBench: Advancing Feature Distribution Diversity in Vertical Federated Learning Benchmarks ( http://arxiv.org/abs/2307.02040v1 )

ライセンス: Link先を確認
Zhaomin Wu, Junyi Hou, Bingsheng He(参考訳) Vertical Federated Learning(VFL)は、機能分割分散データ上で機械学習モデルをトレーニングするための重要なパラダイムである。 しかしながら、プライバシの制限のため、アルゴリズム評価のためのパブリックな実世界のvflデータセットはほとんど存在せず、機能分布が限られている。 既存のベンチマークは、グローバルな集合から任意の特徴分割から派生した合成データセットを利用することが多く、特徴分布のサブセットのみをキャプチャし、アルゴリズムのパフォーマンス評価が不十分になる。 本稿では,vflの性能に影響する2つの重要な要因 - 特徴の重要性と特徴相関 - を導入し,関連する評価指標とデータセット分割手法を提案する。 さらに、画像イメージのVFLシナリオの欠点に対応するために、実際のVFLデータセットを導入する。 最先端VFLアルゴリズムの包括的評価は,今後の研究に有用な知見を提供する。

Vertical Federated Learning (VFL) is a crucial paradigm for training machine learning models on feature-partitioned, distributed data. However, due to privacy restrictions, few public real-world VFL datasets exist for algorithm evaluation, and these represent a limited array of feature distributions. Existing benchmarks often resort to synthetic datasets, derived from arbitrary feature splits from a global set, which only capture a subset of feature distributions, leading to inadequate algorithm performance assessment. This paper addresses these shortcomings by introducing two key factors affecting VFL performance - feature importance and feature correlation - and proposing associated evaluation metrics and dataset splitting methods. Additionally, we introduce a real VFL dataset to address the deficit in image-image VFL scenarios. Our comprehensive evaluation of cutting-edge VFL algorithms provides valuable insights for future research in the field.
翻訳日:2023-07-06 15:03:14 公開日:2023-07-05
# イソペリメトリーのないモンテカルロサンプリング--逆拡散アプローチ

Monte Carlo Sampling without Isoperimetry: A Reverse Diffusion Approach ( http://arxiv.org/abs/2307.02037v1 )

ライセンス: Link先を確認
Xunpeng Huang, Hanze Dong, Yifan Hao, Yian Ma, Tong Zhang(参考訳) 現代の生成モデルの有効性は、拡散経路に沿ったスコア推定の精度に共通しており、拡散モデルと高品質なデータサンプルを生成する能力に注目している。 本研究は逆拡散による後方サンプリングの可能性について考察する。 サンプリング文献の考察により,スコア推定は遷移核の分解によって平均推定問題に変換できることが明らかとなった。 補助分布の平均を推定することにより、逆拡散過程は、従来の勾配に基づくマルコフ連鎖モンテカルロ法(mcmc)法から逸脱する新しい後方サンプリングアルゴリズムをもたらすことができる。 そこで本研究では, 全変動距離の収束解析を行い, 従来のmcmc法と比較して, 提案アルゴリズムの等長依存性が比較的低いことを示し, 誤差耐性を持つ高次元サンプリングの性能を正当化する。 分析フレームワークは,補助分布の特性で表されるように,様々な時点におけるスコア推定の複雑さに関する新たな視点を提供する。

The efficacy of modern generative models is commonly contingent upon the precision of score estimation along the diffusion path, with a focus on diffusion models and their ability to generate high-quality data samples. This study delves into the potentialities of posterior sampling through reverse diffusion. An examination of the sampling literature reveals that score estimation can be transformed into a mean estimation problem via the decomposition of the transition kernel. By estimating the mean of the auxiliary distribution, the reverse diffusion process can give rise to a novel posterior sampling algorithm, which diverges from traditional gradient-based Markov Chain Monte Carlo (MCMC) methods. We provide the convergence analysis in total variation distance and demonstrate that the isoperimetric dependency of the proposed algorithm is comparatively lower than that observed in conventional MCMC techniques, which justifies the superior performance for high dimensional sampling with error tolerance. Our analytical framework offers fresh perspectives on the complexity of score estimation at various time points, as denoted by the properties of the auxiliary distribution.
翻訳日:2023-07-06 15:02:58 公開日:2023-07-05
# 退位によるランク付け

Ranking with Abstention ( http://arxiv.org/abs/2307.02035v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) そこで我々は,学習者が限られたコストで予測を行なわないようにするための,控え目なランキングフレームワークを提案する。 本稿では,線形関数群と1つの隠れ層を持つニューラルネットワーク群の両方に対して,h$-consistency boundsのシリーズを含む,この枠組みの広範な理論的解析を行う。 これらの理論的な保証は、予測器の目標損失推定誤差の上限である文献における最先端の整合性保証であり、予測器のサロゲート損失推定誤差の項で表される仮説セット$H$である。 さらに, 提案手法は, 共通等連続仮説を用いる場合, 提案手法が重要であることを論じる。 本報告では, 禁忌による格付けの有効性を示す実験結果について報告する。

We introduce a novel framework of ranking with abstention, where the learner can abstain from making prediction at some limited cost $c$. We present a extensive theoretical analysis of this framework including a series of $H$-consistency bounds for both the family of linear functions and that of neural networks with one hidden-layer. These theoretical guarantees are the state-of-the-art consistency guarantees in the literature, which are upper bounds on the target loss estimation error of a predictor in a hypothesis set $H$, expressed in terms of the surrogate loss estimation error of that predictor. We further argue that our proposed abstention methods are important when using common equicontinuous hypothesis sets in practice. We report the results of experiments illustrating the effectiveness of ranking with abstention.
翻訳日:2023-07-06 15:02:42 公開日:2023-07-05
# balanced memory workload optimizationによる自動並列トレーニングの改善

Improving Automatic Parallel Training via Balanced Memory Workload Optimization ( http://arxiv.org/abs/2307.02031v1 )

ライセンス: Link先を確認
Yujie Wang, Youhe Jiang, Xupeng Miao, Fangcheng Fu, Xiaonan Nie, Bin Cui(参考訳) トランスフォーマーモデルは、様々なアプリケーション領域で最先端のパフォーマンスを達成するための主要なアプローチとして現れ、高度な大規模ディープラーニング(DL)モデルの基盤となっている。 しかし、並列性オプションが豊富であるため、複数のgpuでモデルを効率的にトレーニングすることは複雑な課題である。 既存のDLシステムは、分散トレーニング計画を設計するための手作業を必要とするか、制約された検索空間に並列性の組み合わせを制限する必要がある。 本稿では,複数の先行する並列性次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークGalvatron-BMWを提案する。 この広大な探索空間を効果的にナビゲートするために、直感的な洞察に基づく分解と刈り取りに決定木アプローチを用いる。 さらに,動的プログラム探索アルゴリズムを用いて最適計画の導出を行う。 さらに,資源利用率の向上とシステム効率の向上を目的として,ワークロードバランスに着目した2目的最適化ワークフローを提案する。 異なるトランスフォーマーモデルにおける評価結果から,gpuメモリ制約の異なる分散トレーニングの自動化におけるgalvatron-bmwの機能を示す。 全てのテストシナリオにおいて、Galvatron-BMWは、制限された並列性戦略に依存する以前のアプローチよりも優れたシステムスループットを一貫して達成している。

Transformer models have emerged as the leading approach for achieving state-of-the-art performance across various application domains, serving as the foundation for advanced large-scale deep learning (DL) models. However, efficiently training these models across multiple GPUs remains a complex challenge due to the abundance of parallelism options. Existing DL systems either require manual efforts to design distributed training plans or limit parallelism combinations to a constrained search space. In this paper, we present Galvatron-BMW, a novel system framework that integrates multiple prevalent parallelism dimensions and automatically identifies the most efficient hybrid parallelism strategy. To effectively navigate this vast search space, we employ a decision tree approach for decomposition and pruning based on intuitive insights. We further utilize a dynamic programming search algorithm to derive the optimal plan. Moreover, to improve resource utilization and enhance system efficiency, we propose a bi-objective optimization workflow that focuses on workload balance. Our evaluations on different Transformer models demonstrate the capabilities of Galvatron-BMW in automating distributed training under varying GPU memory constraints. Across all tested scenarios, Galvatron-BMW consistently achieves superior system throughput, surpassing previous approaches that rely on limited parallelism strategies.
翻訳日:2023-07-06 15:02:28 公開日:2023-07-05
# EHRSHOT: 基礎モデルのFew-Shot評価のためのEHRベンチマーク

EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models ( http://arxiv.org/abs/2307.02028v1 )

ライセンス: Link先を確認
Michael Wornow, Rahul Thapa, Ethan Steinberg, Jason Fries, Nigam Shah(参考訳) 一般機械学習(ML)コミュニティは、パブリックデータセット、タスク、モデルから恩恵を受けているが、医療におけるMLの進歩は、そのような共有資産の欠如によって妨げられている。 ファンデーションモデルの成功は、パフォーマンスのメリットを検証するために共有事前トレーニングされたモデルへのアクセスを必要とすることで、ヘルスケアMLに新たな課題を生み出します。 私たちは3つのコントリビューションを通じてこれらの課題に対処します。 まず、スタンフォード大学の6,712人の患者の電子健康記録(EHR)から非同定された構造化データを含む新しいデータセット EHRSHOT を公表する。 MIMIC-III/IV や他の一般的な EHR データセットとは異なり、EHRSHOT は縦長であり、ICU/ED 患者に限定されない。 第2に,257m患者の構造化ehrデータに基づいて前訓練した141mパラメーター臨床基礎モデルの重みを公表する。 対照的に、臨床データ(例えば、GatorTron, ClinicalBERT)でリリースされたほとんどの先行モデルは、構造化されていないテキストでのみ動作し、EHR内でリッチで構造化されたデータを処理できない。 コミュニティがパフォーマンスを検証して構築するためのエンドツーエンドパイプラインを提供しています。 第3に, 臨床予測タスクを15個定義し, サンプル効率やタスク適応などに基づく基礎モデルの評価を可能にした。 私たちの結果を再現するコードは、モデルとデータセット(research data use agreement)とともに、githubのリポジトリで利用可能です。

While the general machine learning (ML) community has benefited from public datasets, tasks, and models, the progress of ML in healthcare has been hampered by a lack of such shared assets. The success of foundation models creates new challenges for healthcare ML by requiring access to shared pretrained models to validate performance benefits. We help address these challenges through three contributions. First, we publish a new dataset, EHRSHOT, containing de-identified structured data from the electronic health records (EHRs) of 6,712 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients. Second, we publish the weights of a 141M parameter clinical foundation model pretrained on the structured EHR data of 2.57M patients. We are one of the first to fully release such a model for coded EHR data; in contrast, most prior models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with unstructured text and cannot process the rich, structured data within an EHR. We provide an end-to-end pipeline for the community to validate and build upon its performance. Third, we define 15 few-shot clinical prediction tasks, enabling evaluation of foundation models on benefits such as sample efficiency and task adaption. The code to reproduce our results, as well as the model and dataset (via a research data use agreement), are available at our Github repo here: https://github.com/som-shahlab/ehrshot-benchmark
翻訳日:2023-07-06 15:02:09 公開日:2023-07-05
# 大質量星のオッペンハイマー・スナイダーモデルによる量子系

Quantum system ascribed to the Oppenheimer-Snyder model of massive star ( http://arxiv.org/abs/2307.02026v1 )

ライセンス: Link先を確認
A. G\'o\'zd\'z, J. J. Ostrowski, A. P\c{e}drak, W. Piechocki(参考訳) 積分量子化法を用いてブラックホールのオッペンハイマー・スナイダーモデルを量子化する。 古典レベルと量子レベルの両方で同じ基底上で空間座標と時間座標を扱う。 我々の量子化は古典的曲率不変量の特異性を解き、あるいは解き放つ。 バウンスを持つ量子軌道は、特異な古典的軌道を置き換えることができる。 量子ブラックホールは寿命が有限である可能性がある。 副産物として、シュワルツシルトブラックホールの量子レベルでの重力特異性の解を得る。

We quantize the Oppenheimer-Snyder model of black hole using the integral quantization method. We treat spatial and temporal coordinates on the same footing both at classical and quantum levels. Our quantization resolves or smears the singularities of the classical curvature invariants. Quantum trajectories with bounces can replace singular classical ones. The considered quantum black hole may have finite lifetime. As a byproduct, we obtain the resolution of the gravitational singularity of the Schwarzschild black hole at quantum level.
翻訳日:2023-07-06 15:01:42 公開日:2023-07-05
# ego4d moment queryのnmsしきい値問題 - ego4d moment query challenge 2023の2位ソリューション

NMS Threshold matters for Ego4D Moment Queries -- 2nd place solution to the Ego4D Moment Queries Challenge 2023 ( http://arxiv.org/abs/2307.02025v1 )

ライセンス: Link先を確認
Lin Sui, Fangzhou Mu, Yin Li(参考訳) 本報告では,Ego4D Moment Queries Challenge 2023について述べる。 今回提案するactionformerは,時間的行動局所化のための最新の手法である。 本拡張では, 訓練時の接地配置戦略の改善と, 推定時間におけるsoftnmsの改良を組み合わせる。 平均26.62%のマップと45.69%のリコール@1xをテストセットのtiou=0.5で2位にランク付けし、2023年のチャレンジのベースラインを大きく上回っている。 私たちのコードはhttps://github.com/happyharrycn/actionformer_releaseで利用可能です。

This report describes our submission to the Ego4D Moment Queries Challenge 2023. Our submission extends ActionFormer, a latest method for temporal action localization. Our extension combines an improved ground-truth assignment strategy during training and a refined version of SoftNMS at inference time. Our solution is ranked 2nd on the public leaderboard with 26.62% average mAP and 45.69% Recall@1x at tIoU=0.5 on the test set, significantly outperforming the strong baseline from 2023 challenge. Our code is available at https://github.com/happyharrycn/actionformer_release.
翻訳日:2023-07-06 15:01:36 公開日:2023-07-05
# ランダム効果機械学習アルゴリズムによる抑うつの脆弱性の同定

Using Random Effects Machine Learning Algorithms to Identify Vulnerability to Depression ( http://arxiv.org/abs/2307.02023v1 )

ライセンス: Link先を確認
Runa Bhaumik and Jonathan Stange(参考訳) 背景: 臨床経過の信頼性の高い予測はうつ病の結果を改善することができる。 抑うつに対する様々なリスク要因を統合する作業はほとんど行われておらず、どの個人が最もリスクが高いかを特定するのに最も有効な要因の組み合わせを決定する。 方法:本研究は,RE-EM(Random Effects/Expectation Maximization)木やMERF(Mixed Effects Random Forest)などのデータ駆動機械学習(ML)手法を用いて,抑うつの最大のリスクでサブグループを分類する最も有効な変数を確実に特定できることを示した。 185人の若者がうつ病リスクの対策を完了し、うつ病の症状とともに、反すう、不安、ネガティブな認知スタイル、認知と対処の柔軟性、負の生命の事象を含む。 我々はRE-EMツリーとMERFアルゴリズムを訓練し、それらを従来の線形混合モデル(LMM)と比較した。 結果: re-em tree と merf 法は複雑な相互作用をモデル化し, 個体のサブグループを特定し, lmm に匹敵するうつ病重症度を予測する。 さらに、機械学習モデルは、ブローディング、ネガティブライフイベント、ネガティブ認知スタイル、知覚制御が将来の抑うつ状態の最も関連する予測要因であると判断した。 結論: ランダム効果 機械学習モデルは高い臨床応用の可能性を持ち、うつ病の脆弱性を減らすための介入に利用できる。

Background: Reliable prediction of clinical progression over time can improve the outcomes of depression. Little work has been done integrating various risk factors for depression, to determine the combinations of factors with the greatest utility for identifying which individuals are at the greatest risk. Method: This study demonstrates that data-driven machine learning (ML) methods such as RE-EM (Random Effects/Expectation Maximization) trees and MERF (Mixed Effects Random Forest) can be applied to reliably identify variables that have the greatest utility for classifying subgroups at greatest risk for depression. 185 young adults completed measures of depression risk, including rumination, worry, negative cognitive styles, cognitive and coping flexibilities, and negative life events, along with symptoms of depression. We trained RE-EM trees and MERF algorithms and compared them to traditional linear mixed models (LMMs) predicting depressive symptoms prospectively and concurrently with cross-validation. Results: Our results indicated that the RE-EM tree and MERF methods model complex interactions, identify subgroups of individuals and predict depression severity comparable to LMM. Further, machine learning models determined that brooding, negative life events, negative cognitive styles, and perceived control were the most relevant predictors of future depression levels. Conclusions: Random effects machine learning models have the potential for high clinical utility and can be leveraged for interventions to reduce vulnerability to depression.
翻訳日:2023-07-06 15:01:23 公開日:2023-07-05
# Line Graphics Digitization: 完全な自動化に向けたステップ

Line Graphics Digitization: A Step Towards Full Automation ( http://arxiv.org/abs/2307.02065v1 )

ライセンス: Link先を確認
Omar Moured, Jiaming Zhang, Alina Roitberg, Thorsten Schwarz, Rainer Stiefelhagen(参考訳) 文書のデジタル化は、より広いアクセス性と再現性を可能にする。 文書レイアウトとテキストコンテンツの自動デジタル化は長年にわたる研究の焦点となっているが、統計プロットなどのグラフィカル要素に関する問題は未検討である。 本稿では,数学グラフィックスの微細な視覚的理解の課題を紹介するとともに,5つの粗いカテゴリと10の細かいカテゴリの画素単位のアノテーションを含むLine Graphics(LG)データセットを紹介する。 我々のデータセットは、異なる分野の450の文書から収集された520の数学グラフィックのイメージをカバーしている。 提案するデータセットは,セマンティクスセグメンテーションとオブジェクト検出という2つの異なるコンピュータビジョンタスクをサポートする。 LGデータセットをベンチマークするために、7つの最先端モデルを探索する。 統計グラフのデジタル化に関するさらなる研究を促進するため、私たちはデータセット、コード、モデルをコミュニティに公開します。

The digitization of documents allows for wider accessibility and reproducibility. While automatic digitization of document layout and text content has been a long-standing focus of research, this problem in regard to graphical elements, such as statistical plots, has been under-explored. In this paper, we introduce the task of fine-grained visual understanding of mathematical graphics and present the Line Graphics (LG) dataset, which includes pixel-wise annotations of 5 coarse and 10 fine-grained categories. Our dataset covers 520 images of mathematical graphics collected from 450 documents from different disciplines. Our proposed dataset can support two different computer vision tasks, i.e., semantic segmentation and object detection. To benchmark our LG dataset, we explore 7 state-of-the-art models. To foster further research on the digitization of statistical graphs, we will make the dataset, code, and models publicly available to the community.
翻訳日:2023-07-06 14:55:00 公開日:2023-07-05
# World Modelのバックボーンに挑戦する - RNN、Transformers、S4

Facing off World Model Backbones: RNNs, Transformers, and S4 ( http://arxiv.org/abs/2307.02064v1 )

ライセンス: Link先を確認
Fei Deng, Junyeong Park, Sungjin Ahn(参考訳) 世界モデルはモデルベース強化学習(mbrl)エージェントの基本コンポーネントである。 部分的に観測可能な環境で未来を時間的に拡張し一貫したシミュレーションを行うには、世界モデルは長期記憶を持つ必要がある。 しかしながら、dreamerのような最先端のmbrlエージェントは、メモリ容量を制限した世界モデルバックボーンとしてrecurrent neural networks(rnn)を主に採用している。 本稿では,長期記憶改善のための代替世界モデルバックボーンについて検討する。 特に、トランスフォーマーと構造化状態空間シーケンス(S4)モデルの有効性について検討し、低次元列における長距離依存性と相補的強みを捉えることによる顕著な能力に動機づけられた。 S4WMはS4をベースとした世界初の世界モデルであり、潜在想像力によって高次元画像列を生成できる。 さらに,RNN-, Transformer-, S4-based world modelを4つの環境群で比較し, 長期的想像力, 文脈依存リコール, 報酬予測, メモリベース推論など, 世界モデルの重要な記憶能力の評価に特化している。 以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率が優れていた。 これらの結果は、より強力なMBRL剤の開発への道を開いた。

World models are a fundamental component in model-based reinforcement learning (MBRL) agents. To perform temporally extended and consistent simulations of the future in partially observable environments, world models need to possess long-term memory. However, state-of-the-art MBRL agents, such as Dreamer, predominantly employ recurrent neural networks (RNNs) as their world model backbone, which have limited memory capacity. In this paper, we seek to explore alternative world model backbones for improving long-term memory. In particular, we investigate the effectiveness of Transformers and Structured State Space Sequence (S4) models, motivated by their remarkable ability to capture long-range dependencies in low-dimensional sequences and their complementary strengths. We propose S4WM, the first S4-based world model that can generate high-dimensional image sequences through latent imagination. Furthermore, we extensively compare RNN-, Transformer-, and S4-based world models across four sets of environments, which we have specifically tailored to assess crucial memory capabilities of world models, including long-term imagination, context-dependent recall, reward prediction, and memory-based reasoning. Our findings demonstrate that S4WM outperforms Transformer-based world models in terms of long-term memory, while exhibiting greater efficiency during training and imagination. These results pave the way for the development of stronger MBRL agents.
翻訳日:2023-07-06 14:54:46 公開日:2023-07-05
# 任意次元システムのための多部量子ステアリングによるランダム性証明

Randomness Certification from Multipartite Quantum Steering for Arbitrary Dimensional Systems ( http://arxiv.org/abs/2307.02061v1 )

ライセンス: Link先を確認
Yi Li, Yu Xiang, Xiao-Dong Yu, H. Chau Nguyen, Otfried G\"uhne, Qiongyi He(参考訳) 両部システムの絡み合いは、暗号や科学的数値シミュレーションにおいて重要な役割を果たすセキュアな乱数の生成に応用されている。 そこで我々は,任意の次元系のランダム性を生成するために,信頼度と信頼度の間に分散した複数粒子の絡み合わせを提案する。 複数のパーティの分散構造は、盗聴者による攻撃の可能性に対して追加の保護をもたらすことが示され、その結果、対応するバイパーティイトシナリオよりも安全なランダム性が生成される。 特に、ランダム性は信頼できない当事者のグループで証明できるが、どちらのグループにもランダム性は存在しない。 このシナリオにおける量子ランダム性に必要な資源は、信頼できない相手に対して2つの測定設定を行う場合、多部量子ステアリングであることを示す。 しかし、十分性はもはやより多くの測定設定で保たない。 最後に,本解析を実験的に実現した状態に適用し,既存の解析と比較すると,よりランダムに抽出できることを示す。

Entanglement in bipartite systems has been applied for the generation of secure random numbers, which are playing an important role in cryptography or scientific numerical simulations. Here, we propose to use multipartite entanglement distributed between trusted and untrusted parties for generating randomness of arbitrary dimensional systems. We show that the distributed structure of several parties leads to additional protection against possible attacks by an eavesdropper, resulting in more secure randomness generated than in the corresponding bipartite scenario. Especially, randomness can be certified in the group of untrusted parties, even there is no randomness exists in either of them individually. We prove that the necessary and sufficient resource for quantum randomness in this scenario is multipartite quantum steering when two measurement settings are performed on the untrusted parties. However, the sufficiency no longer holds with more measurement settings. Finally, we apply our analysis to some experimentally realized states and show that more randomness can be extracted in comparison to the existing analysis.
翻訳日:2023-07-06 14:54:18 公開日:2023-07-05
# 連続可変系における状態伝達のためのノイズデカップリング

Noise Decoupling for State Transfer in Continuous Variable Systems ( http://arxiv.org/abs/2307.02059v1 )

ライセンス: Link先を確認
Fattah Sakuldee, Behnam Tonekaboni(参考訳) 連続変数を用いた状態伝達問題に対して,一意演算のランダムな混合によって与えられる雑音チャネルの玩具モデルを考える。 送信ノードと受信ノードの間の経路をインターベンションできると仮定して、生成および消滅演算子の線形多項式と二次多項式によって生成されたノイズチャネルを制御し、同一チャネルを実現するため、ノイズデカップリングという用語が提案される。 ランダムな定音の場合、一般ノイズプロファイルでは目標状態が回復でき、ノイズと比較して介入が速い場合にはデカップリングを行うことができる。 送信機の状態は、目標状態の畳み込みと、ノイズと操作スキームを特徴付けるフィルタ関数として記述できることを示す。 また,同様の解析を高階多項式生成器の場合にも拡張可能であることも簡単に議論する。 最後に,数値計算によりプロトコルを実証する。

We consider a toy model of noise channels, given by a random mixture of unitary operations, for state transfer problems with continuous variables. Assuming that the path between the transmitter node and the receiver node can be intervened, we propose a noise decoupling protocol to manipulate the noise channels generated by linear and quadratic polynomials of creation and annihilation operators, to achieve an identity channel, hence the term noise decoupling. For random constant noise, the target state can be recovered while for the general noise profile, the decoupling can be done when the interventions are fast compared to the noise. We show that the state at the transmitter can be written as a convolution of the target state and a filter function characterizing the noise and the manipulation scheme. We also briefly discuss that a similar analysis can be extended to the case of higher-order polynomial generators. Finally, we demonstrate the protocols by numerical calculations.
翻訳日:2023-07-06 14:54:00 公開日:2023-07-05
# 画像分類モデルにおける敵対的攻撃:FGSMとパッチ攻撃とその影響

Adversarial Attacks on Image Classification Models: FGSM and Patch Attacks and their Impact ( http://arxiv.org/abs/2307.02055v1 )

ライセンス: Link先を確認
Jaydip Sen and Subhasis Dasgupta(参考訳) 本章では,畳み込みニューラルネットワーク(cnn)上に構築した画像分類モデルに対する敵意攻撃の概念を紹介する。 CNNは画像分類タスクで使用される非常に人気のあるディープラーニングモデルである。 しかし、非常に強力で事前訓練されたCNNモデルは、画像分類タスクのための画像データセットを非常に正確に処理する。 本研究では,2つの非常によく知られた敵対的攻撃について論じ,画像分類器の性能への影響について考察する。 これら2つの敵攻撃はfast gradient sign method (fgsm)とadversarial patch attackである。 これらの攻撃は、3つの強力なトレーニング済みイメージ分類器アーキテクチャ、ResNet-34、GoogleNet、DenseNet-161で起動される。 2つの攻撃の有無におけるモデルの分類精度は、公開アクセス可能なimagenetデータセットの画像に基づいて算出される。 画像分類タスクに対する攻撃の影響を評価するために,結果を分析した。

This chapter introduces the concept of adversarial attacks on image classification models built on convolutional neural networks (CNN). CNNs are very popular deep-learning models which are used in image classification tasks. However, very powerful and pre-trained CNN models working very accurately on image datasets for image classification tasks may perform disastrously when the networks are under adversarial attacks. In this work, two very well-known adversarial attacks are discussed and their impact on the performance of image classifiers is analyzed. These two adversarial attacks are the fast gradient sign method (FGSM) and adversarial patch attack. These attacks are launched on three powerful pre-trained image classifier architectures, ResNet-34, GoogleNet, and DenseNet-161. The classification accuracy of the models in the absence and presence of the two attacks are computed on images from the publicly accessible ImageNet dataset. The results are analyzed to evaluate the impact of the attacks on the image classification task.
翻訳日:2023-07-06 14:53:45 公開日:2023-07-05
# トランスフォーマーモデルを用いた絵文字予測

Emoji Prediction using Transformer Models ( http://arxiv.org/abs/2307.02054v1 )

ライセンス: Link先を確認
Muhammad Osama Nusrat, Zeeshan Habib and Mehreen Alam(参考訳) 近年、ソーシャルメディアにおける絵文字の利用は劇的に増加し、オンラインコミュニケーションを理解する上で重要な要素となっている。 しかし,テキスト中の絵文字の意味を予測することは,そのあいまいさから難しい課題である。 本研究では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。 テキストと絵文字の両方を含む大量のテキストコーパスでBERTを微調整し、与えられたテキストに最適な絵文字を予測する。 提案手法は, 自然言語処理, 感情分析, ソーシャルメディアマーケティングにおいて, 75 %以上の精度で絵文字を予測する上で, 最先端のモデルよりも優れていることを示す。

In recent years, the use of emojis in social media has increased dramatically, making them an important element in understanding online communication. However, predicting the meaning of emojis in a given text is a challenging task due to their ambiguous nature. In this study, we propose a transformer-based approach for emoji prediction using BERT, a widely-used pre-trained language model. We fine-tuned BERT on a large corpus of text containing both text and emojis to predict the most appropriate emoji for a given text. Our experimental results demonstrate that our approach outperforms several state-of-the-art models in predicting emojis with an accuracy of over 75 \% This work has potential applications in natural language processing, sentiment analysis, and social media marketing.
翻訳日:2023-07-06 14:53:30 公開日:2023-07-05
# Flacuna: FLANファインチューニングによるVicunaの問題解決力の解放

Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning ( http://arxiv.org/abs/2307.02053v1 )

ライセンス: Link先を確認
Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria(参考訳) 最近、INSTRUCTEVALのリリースは、エンコーダデコーダやデコーダオンリーアーキテクチャを利用した大規模言語モデル(LLM)の性能に関する貴重な洞察を提供している。 興味深いことに、4年前に導入されたにもかかわらず、FLAN-T5のようなT5ベースのLLMは、一般的な問題解決スキルを必要とするタスクにおいて、LLAMAやVICUNAのような最新のデコーダベースのLLMよりも優れています。 このパフォーマンス格差は、(1)事前トレーニングデータ、(2)バックボーンアーキテクチャ、(3)命令データセットという3つの重要な要因によって引き起こされる。 本技術報告では,ChatGPT会話を微調整したLLAMAに基づく大規模言語モデルであるVICUNAを活用することで,第3因子の影響について検討する。 この目的を達成するために、FLANMINIと呼ばれるカスタマイズされた命令データセットを用いてVICUNAを微調整した。 このコレクションには、FLANとして知られる大規模な命令データセットのサブセットと、ChatGPT/GPT-4から派生したさまざまなコード関連データセットと会話データセットが含まれている。 このデータセットは、問題解決スキルを要求する多くのタスクを含んでいる。 実験結果から,FLANデータセットの微調整によりFLACUNAが得られ,INSTRUCTEVALの多数のベンチマークデータセットに対して大幅な改善が得られたことが示唆された。 FLACUNAはhttps://huggingface.co/declare-lab/flacuna-13b-v1.0で公開されている。

Recently, the release of INSTRUCTEVAL has provided valuable insights into the performance of large language models (LLMs) that utilize encoder-decoder or decoder-only architecture. Interestingly, despite being introduced four years ago, T5-based LLMs, such as FLAN-T5, continue to outperform the latest decoder-based LLMs, such as LLAMA and VICUNA, on tasks that require general problem-solving skills. This performance discrepancy can be attributed to three key factors: (1) Pre-training data, (2) Backbone architecture, and (3) Instruction dataset. In this technical report, our main focus is on investigating the impact of the third factor by leveraging VICUNA, a large language model based on LLAMA, which has undergone fine-tuning on ChatGPT conversations. To achieve this objective, we fine-tuned VICUNA using a customized instruction dataset collection called FLANMINI. This collection includes a subset of the large-scale instruction dataset known as FLAN, as well as various code-related datasets and conversational datasets derived from ChatGPT/GPT-4. This dataset comprises a large number of tasks that demand problem-solving skills. Our experimental findings strongly indicate that the enhanced problem-solving abilities of our model, FLACUNA, are obtained through fine-tuning VICUNA on the FLAN dataset, leading to significant improvements across numerous benchmark datasets in INSTRUCTEVAL. FLACUNA is publicly available at https://huggingface.co/declare-lab/flacuna-13b-v1.0.
翻訳日:2023-07-06 14:53:17 公開日:2023-07-05
# Flowchase: 発音訓練のためのモバイルアプリケーション

Flowchase: a Mobile Application for Pronunciation Training ( http://arxiv.org/abs/2307.02051v1 )

ライセンス: Link先を確認
No\'e Tits, Zo\'e Broisson(参考訳) 本稿では,音声セグメント・サブセグメンショナル・サブセグメンタルな特徴を識別・分析可能な音声技術に接続された,Flowchaseと呼ばれるモバイルアプリケーションを通じて,英語学習者にパーソナライズされた即時フィードバックを提供するソリューションを提案する。 音声処理パイプラインは、発話に対応する言語情報を受け取り、音声サンプルと共に分析する。 音声サンプルの検証後、音声表現学習に基づく機械学習モデルの組み合わせにより、一連のセグメント・サブセグメンショナル・サブセグメンタルな発音面に基づいてフィードバックを設計するために必要な情報を提供することにより、共同強制調整と音声認識を行う。

In this paper, we present a solution for providing personalized and instant feedback to English learners through a mobile application, called Flowchase, that is connected to a speech technology able to segment and analyze speech segmental and supra-segmental features. The speech processing pipeline receives linguistic information corresponding to an utterance to analyze along with a speech sample. After validation of the speech sample, a joint forced-alignment and phonetic recognition is performed thanks to a combination of machine learning models based on speech representation learning that provides necessary information for designing a feedback on a series of segmental and supra-segmental pronunciation aspects.
翻訳日:2023-07-06 14:52:49 公開日:2023-07-05
# グラフニューラルネットワークに基づく電力フローモデル

Graph Neural Network-based Power Flow Model ( http://arxiv.org/abs/2307.02049v1 )

ライセンス: Link先を確認
Mingjian Tuo, Xingpeng Li, Tianxia Zhao(参考訳) 電力流解析は電力系統網内の電力の流れを調べる上で重要な役割を果たす。 電力フロー計算を行うことにより、電圧等級、各バスの位相角、分岐間のアクティブ/アクティブ電力流量など、システムの定常状態変数を決定することができる。 広く使われている直流電力流モデルは速度とロバスト性を提供するが、特定の送電線に対して不正確な線路流れ結果をもたらす可能性がある。 この問題は、しばしばメイングリッドから遠く離れた場所にある風力発電所のような再生可能エネルギー源を扱う場合、より重要になる。 これらのクリティカルラインの正確なラインフロー結果を得ることは、次の操作には不可欠である。 これらの課題に対処するために、データ駆動アプローチは過去のグリッドプロファイルを活用する。 本稿では,過去の電力系統データを用いてグラフニューラルネットワーク(gnn)モデルを訓練し,電力流れの結果を予測する。 GNNモデルはラインフローの迅速な推定を可能にする。 提案したGNNベースの電力フローモデルと従来の直流電力フローモデル、ディープニューラルネットワーク(DNN)と畳み込みニューラルネットワーク(CNN)を比較し,総合的な性能解析を行った。 実験システムでは,提案したGNNベースの電力フローモデルにより,ベンチマークモデルと比較して高精度な解が得られることを示した。

Power flow analysis plays a crucial role in examining the electricity flow within a power system network. By performing power flow calculations, the system's steady-state variables, including voltage magnitude, phase angle at each bus, active/reactive power flow across branches, can be determined. While the widely used DC power flow model offers speed and robustness, it may yield inaccurate line flow results for certain transmission lines. This issue becomes more critical when dealing with renewable energy sources such as wind farms, which are often located far from the main grid. Obtaining precise line flow results for these critical lines is vital for next operations. To address these challenges, data-driven approaches leverage historical grid profiles. In this paper, a graph neural network (GNN) model is trained using historical power system data to predict power flow outcomes. The GNN model enables rapid estimation of line flows. A comprehensive performance analysis is conducted, comparing the proposed GNN-based power flow model with the traditional DC power flow model, as well as deep neural network (DNN) and convolutional neural network (CNN). The results on test systems demonstrate that the proposed GNN-based power flow model provides more accurate solutions with high efficiency comparing to benchmark models.
翻訳日:2023-07-06 14:52:38 公開日:2023-07-05
# came: 信頼誘導型適応メモリ効率の最適化

CAME: Confidence-guided Adaptive Memory Efficient Optimization ( http://arxiv.org/abs/2307.02047v1 )

ライセンス: Link先を確認
Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang, Yang You(参考訳) Adam や LAMB のような適応勾配法は、大規模言語モデルの訓練において優れた性能を示した。 それにもかかわらず、適応性の必要性は、パラメータごとの勾配の第二モーメント推定を維持する必要がある。 この問題を解決するために、補助メモリ使用量の大幅な削減を実現するために、メモリ効率の良い最適化器(例えば、Adafactor)がいくつか提案されている。 本稿では,既存のメモリ効率の最適化手法の不安定性を低減するための信頼度誘導戦略を最初に検討する。 この戦略に基づいて,従来の適応手法のような高速収束とメモリ効率の低い手法の2つの目標を同時に達成するCAMEを提案する。 BERT や GPT-2 などの様々な NLP タスクにおける CAME の訓練安定性と優れた性能を実験により実証した。 特に,最大バッチサイズ32,768のbertプリトレーニングでは,adamオプティマイザに比べて高速に収束し,高い精度を実現する。 CAMEの実装は一般公開されている。

Adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent performance in the training of large language models. Nevertheless, the need for adaptivity requires maintaining second-moment estimates of the per-parameter gradients, which entails a high cost of extra memory overheads. To solve this problem, several memory-efficient optimizers (e.g., Adafactor) have been proposed to obtain a drastic reduction in auxiliary memory usage, but with a performance penalty. In this paper, we first study a confidence-guided strategy to reduce the instability of existing memory efficient optimizers. Based on this strategy, we propose CAME to simultaneously achieve two goals: fast convergence as in traditional adaptive methods, and low memory usage as in memory-efficient methods. Extensive experiments demonstrate the training stability and superior performance of CAME across various NLP tasks such as BERT and GPT-2 training. Notably, for BERT pre-training on the large batch size of 32,768, our proposed optimizer attains faster convergence and higher accuracy compared with the Adam optimizer. The implementation of CAME is publicly available.
翻訳日:2023-07-06 14:52:16 公開日:2023-07-05
# 量子コンピュータにおける分類と回帰のための量子支援ベクトルマシン

Quantum support vector machines for classification and regression on a trapped-ion quantum computer ( http://arxiv.org/abs/2307.02091v1 )

ライセンス: Link先を確認
Teppei Suzuki, Takashi Hasebe, Tsubasa Miyazaki(参考訳) 量子カーネル法は量子機械学習において最も重要な手法の一つである。 本研究では,量子支援ベクトル分類(QSVC)と量子支援ベクトル回帰(QSVR)に基づく量子機械学習モデルについて,量子回路シミュレータ(ノイズの有無にかかわらず)とIonQ Harmony量子プロセッサを用いて検討する。 不正なクレジットカード取引と画像データセット(MNISTとFashion-MNISTデータセット)を含むデータセットをQSVCタスクに使用し、財務データセットと材料データセットをQSVRタスクに使用した。 分類タスクでは,4量子ビットの捕捉イオン量子コンピュータを用いたQSVCモデルの性能は,qubit-gate誤差率の異なるデバイスノイズシミュレーションの結果と一致して,ノイズのない量子計算シミュレーションと同等であった。 回帰タスクでは、ノイズ量子カーネルに対する低ランク近似と、"epsilon}-svr"におけるハイパーパラメータチューニングを組み合わせることで、短期量子デバイスにおけるqsvrモデルの性能と堅牢性を改善するための有用なアプローチとなる。 我々の量子回路で記述された量子カーネルはQSVCとQSVRの両方のタスクに利用でき、ノイズに対する堅牢性と異なるデータセットに対する汎用性を示している。

The quantum kernel method is one of the most important methods in quantum machine learning. In the present work, we investigate our quantum machine learning models based on quantum support vector classification (QSVC) and quantum support vector regression (QSVR), using a quantum-circuit simulator (with or without noise) as well as the IonQ Harmony quantum processor. A dataset containing fraudulent credit card transactions and image datasets (the MNIST and the Fashion-MNIST datasets) were used for the QSVC tasks, whereas a financial dataset and a materials dataset were used for the QSVR tasks. For the classification tasks, the performance of our QSVC models using the trapped-ion quantum computer with 4 qubits was comparable to that obtained from noiseless quantum-computing simulations, in agreement with the results of our device-noise simulations with various values for qubit-gate error rates. For the regression tasks, the use of a low-rank approximation to the noisy quantum kernel in combination with hyperparameter tuning in {\epsilon}-SVR can be a useful approach for improving the performance and robustness of the QSVR models on the near-term quantum device. Our results suggest that the quantum kernel described by our shallow quantum circuit can be used for both QSVC and QSVR tasks, indicating its robustness to noise and its versatility to different datasets.
翻訳日:2023-07-06 14:46:09 公開日:2023-07-05
# 対話型対話型ヘッドジェネレーション

Interactive Conversational Head Generation ( http://arxiv.org/abs/2307.02090v1 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Ting Yao, Tiejun Zhao(参考訳) 対面会話における1つの対話者の振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。 長時間および複数ターンの会話に参加可能な対話を自動的に合成する能力は不可欠であり、デジタル人間、仮想エージェント、ソーシャルロボットなど様々なアプリケーションにとってメリットがある。 既存の研究は、主に会話のヘッドジェネレーション(一方的相互作用)に焦点を当てているが、聞き取りと対話の欠如により、会話のためのデジタル人間(双方向)の創造を妨げている。 本研究では,この課題に対処するための2つのデータセットを構築し,文レベルでの対話および聴取ヘッド生成タスクのための ``ViCo'' と,マルチターン対話シナリオにおけるインターロケータの合成のための ``ViCo-X'' を構築した。 ViCoとViCo-Xに基づいて、対面会話におけるインタラクションモデリングを目的とした3つの新しいタスクを定義する。 1)レスポンシブなリスニングヘッド生成により、リスナーは非言語信号で話者に積極的に反応する。 2)話し手の行動に気付くよう話者を誘導する表現的頭部生成,および 3)対話型ヘッドジェネレーションは,会話/聞き取り機能を一つの対話者に統合する。 データセットに加えて,上記3つのタスクに対応するベースラインソリューションも提案する。 実験結果から,本手法は現実人と協調して会話全体を補完する応答的,鮮明なエージェントを生成できることが示された。 プロジェクトページ: https://vico.solutions/

We introduce a new conversation head generation benchmark for synthesizing behaviors of a single interlocutor in a face-to-face conversation. The capability to automatically synthesize interlocutors which can participate in long and multi-turn conversations is vital and offer benefits for various applications, including digital humans, virtual agents, and social robots. While existing research primarily focuses on talking head generation (one-way interaction), hindering the ability to create a digital human for conversation (two-way) interaction due to the absence of listening and interaction parts. In this work, we construct two datasets to address this issue, ``ViCo'' for independent talking and listening head generation tasks at the sentence level, and ``ViCo-X'', for synthesizing interlocutors in multi-turn conversational scenarios. Based on ViCo and ViCo-X, we define three novel tasks targeting the interaction modeling during the face-to-face conversation: 1) responsive listening head generation making listeners respond actively to the speaker with non-verbal signals, 2) expressive talking head generation guiding speakers to be aware of listeners' behaviors, and 3) conversational head generation to integrate the talking/listening ability in one interlocutor. Along with the datasets, we also propose corresponding baseline solutions to the three aforementioned tasks. Experimental results show that our baseline method could generate responsive and vivid agents that can collaborate with real person to fulfil the whole conversation. Project page: https://vico.solutions/.
翻訳日:2023-07-06 14:45:28 公開日:2023-07-05
# ダイヤモンド中の窒素空洞中心を用いたマルチパルスセンシングによる高周波電磁場のイメージング

Imaging of high-frequency electromagnetic field by multipulse sensing using nitrogen vacancy centers in diamond ( http://arxiv.org/abs/2307.02089v1 )

ライセンス: Link先を確認
Shintaro Nomura, Hideyuki Watanabe, and Satoshi Kashiwaya(参考訳) マイクロ波プラズマ支援化学気相堆積法で作製したダイヤモンド層をドープしたダイヤモンドチップを用いて高周波電波場を撮像するマイクロ波場の近接場強調法を応用した。 短い$\pi$パルス長は、19.23MHzの周波数場検出にマルチパルスダイナミックデカップリング法を利用することができる。 振幅形制御パルスを用いて外部磁場検出の異常周波数分解能を実現する。 提案手法は, ダイヤモンド中の窒素空孔中心を用いた高周波数分解能RFイメージングの可能性を明らかにする。

Near-field enhancement of the microwave field is applied for imaging high frequency radio field using a diamond chip with an $n$-doped isotopically purified diamond layer grown by microwave plasma assisted chemical vapor deposition. A short $\pi$ pulse length enables us to utilize a multipulse dynamic decoupling method for detection of radio frequency field at 19.23 MHz. An extraordinary frequency resolution of the external magnetic field detection is achieved by using amplitude-shaped control pulses. Our method opens up the possibility for high-frequency-resolution RF imaging at $\mu$m spatial resolution using nitrogen vacancy centers in diamond.
翻訳日:2023-07-06 14:44:36 公開日:2023-07-05
# 対話における異なるゲーム:戦略選択における文字型と会話型の組み合わせ

Different Games in Dialogue: Combining character and conversational types in strategic choice ( http://arxiv.org/abs/2307.02087v1 )

ライセンス: Link先を確認
Alafate Abulimiti(参考訳) 本稿では,対話型(しばしば言語ゲームや音声ジャンルと呼ばれる)と対話型との相互作用について検討する価値があることを示す。 本稿では,文字型と対話型を組み合わせた対話動作を選択するための意思決定過程を計算する方法を提案する。 また,これらの因子の相互作用を定量的に示す数学的モデルを提案する。

In this paper, we show that investigating the interaction of conversational type (often known as language game or speech genre) with the character types of the interlocutors is worthwhile. We present a method of calculating the decision making process for selecting dialogue moves that combines character type and conversational type. We also present a mathematical model that illustrate these factors' interactions in a quantitative way.
翻訳日:2023-07-06 14:44:25 公開日:2023-07-05
# 教師なし意味音声単語埋め込みにおける多言語伝達の活用

Leveraging multilingual transfer for unsupervised semantic acoustic word embeddings ( http://arxiv.org/abs/2307.02083v1 )

ライセンス: Link先を確認
Christiaan Jacobs and Herman Kamper(参考訳) アコースティックワード埋め込み (awes) は音声セグメントの固定次元ベクトル表現であり、同じ単語の異なる実現が類似の埋め込みを持つように音声コンテンツを符号化する。 本稿ではセマンティックAWEモデリングについて考察する。 これらのAWEは音素だけでなく、単語の意味(テキストの埋め込みに似ている)も捉えるべきである。 対象言語における未転写音声しか持たないシナリオを考察する。 対象言語を除く複数の言語からのラベル付きデータに基づいて訓練された音声AWEモデルである、事前訓練された多言語AWEモデルを活用するための戦略をいくつか紹介する。 セマンティクスaweアプローチでは,多言語aweモデルを用いて単語セグメントをクラスタリングし,クラスタセンタロイドからソフト擬似単語ラベルを導出し,ソフトベクタ上でスキップグラムライクなモデルをトレーニングする。 セマンティクスを測る固有単語類似性タスクでは、この多言語変換アプローチは従来のAWE手法よりも優れている。 また、AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示しています。

Acoustic word embeddings (AWEs) are fixed-dimensional vector representations of speech segments that encode phonetic content so that different realisations of the same word have similar embeddings. In this paper we explore semantic AWE modelling. These AWEs should not only capture phonetics but also the meaning of a word (similar to textual word embeddings). We consider the scenario where we only have untranscribed speech in a target language. We introduce a number of strategies leveraging a pre-trained multilingual AWE model -- a phonetic AWE model trained on labelled data from multiple languages excluding the target. Our best semantic AWE approach involves clustering word segments using the multilingual AWE model, deriving soft pseudo-word labels from the cluster centroids, and then training a Skipgram-like model on the soft vectors. In an intrinsic word similarity task measuring semantics, this multilingual transfer approach outperforms all previous semantic AWE methods. We also show -- for the first time -- that AWEs can be used for downstream semantic query-by-example search.
翻訳日:2023-07-06 14:44:14 公開日:2023-07-05
# グラフコントラストトピックモデル

Graph Contrastive Topic Model ( http://arxiv.org/abs/2307.02078v1 )

ライセンス: Link先を確認
Zheheng Luo, Lei Liu, Qianqian Xie, Sophia Ananiadou(参考訳) 既存のNTMは、単語周波数に基づくサンプリング戦略によってサンプルバイアスの問題に悩まされており、これはプロトタイプと類似した意味を持つ偽陰性サンプルをもたらす可能性がある。 本稿では,これらの課題に対処するために,NTMにおける効率的なサンプリング戦略とコントラスト学習を提案する。 提案手法では, 負のサンプルは, プロトタイプと意味的に無関係な単語を含むべきという新しいサンプリング仮定を提案する。 そこで本論文では,文書と単語間の深い相関と無関係性を利用したグラフベースサンプリング手法を用いて,情報的正と負のサンプルを用いてグラフコントラスト学習(GCL)を行うグラフコントラストトピックモデルを提案する。 GCTMでは、入力文書を文書語二部グラフ(DWBG)としてモデル化し、グラフニューラルネットワークで符号化された正および負の単語共起グラフ(WCG)を構築し、単語間の深い意味的相関と無関係を表現する。 DWBGとWCGに基づいて、文書と単語間のマルチホップ相関/非関連性に基づいて、DWBGのエッジ摂動を行うための文書ワード情報伝達(DWIP)プロセスを設計する。 これにより望ましいネガティブなサンプルとポジティブなサンプルが得られ、プロトタイプとともにgclで活用され、ドキュメントのトピック表現や潜在トピックの学習が改善される。 さらに、GCLは、DWBG上の異なる視点の潜在トピック表現の相互情報を最大化する構造化変動グラフオートエンコーダとして解釈できることを示す。 いくつかのベンチマークデータセットを用いて,既存のSOTA手法と比較して,トピックコヒーレンスと文書表現学習の有効性を示す。

Existing NTMs with contrastive learning suffer from the sample bias problem owing to the word frequency-based sampling strategy, which may result in false negative samples with similar semantics to the prototypes. In this paper, we aim to explore the efficient sampling strategy and contrastive learning in NTMs to address the aforementioned issue. We propose a new sampling assumption that negative samples should contain words that are semantically irrelevant to the prototype. Based on it, we propose the graph contrastive topic model (GCTM), which conducts graph contrastive learning (GCL) using informative positive and negative samples that are generated by the graph-based sampling strategy leveraging in-depth correlation and irrelevance among documents and words. In GCTM, we first model the input document as the document word bipartite graph (DWBG), and construct positive and negative word co-occurrence graphs (WCGs), encoded by graph neural networks, to express in-depth semantic correlation and irrelevance among words. Based on the DWBG and WCGs, we design the document-word information propagation (DWIP) process to perform the edge perturbation of DWBG, based on multi-hop correlations/irrelevance among documents and words. This yields the desired negative and positive samples, which will be utilized for GCL together with the prototypes to improve learning document topic representations and latent topics. We further show that GCL can be interpreted as the structured variational graph auto-encoder which maximizes the mutual information of latent topic representations of different perspectives on DWBG. Experiments on several benchmark datasets demonstrate the effectiveness of our method for topic coherence and document representation learning compared with existing SOTA methods.
翻訳日:2023-07-06 14:43:56 公開日:2023-07-05
# Combating Confirmation Bias: エンティティアライメントのための統一された擬似ラベルフレームワーク

Combating Confirmation Bias: A Unified Pseudo-Labeling Framework for Entity Alignment ( http://arxiv.org/abs/2307.02075v1 )

ライセンス: Link先を確認
Qijie Ding, Jie Yin, Daokun Zhang and Junbin Gao(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)にまたがる同等のエンティティペアを識別することを目的としている。 擬似ラベルに基づくエンティティアライメント(UPL-EA)において,疑似ラベルエラーを明示的に排除し,エンティティアライメントの精度を高める統一擬似ラベルアライメントフレームワークを提案する。 UPL-EAは2つの相補的な構成要素から構成される: (1) 最適輸送(OT)に基づく擬似ラベルは、2つのKG間のエンティティ対応をより正確に決定し、誤マッチの悪影響を軽減するために、離散OTモデリングを効果的に利用する。 単純だが非常に効果的な基準は、各イテレーションで1対1の対応を満たす擬似ラベル付きエンティティペアを導出するためにさらに考案される。 2) クロスイテレーション擬似ラベルキャリブレーションは, 局所的な擬似ラベル選択のばらつきを理論的保証で低減し, 擬似ラベルの精度を向上させるために, 複数回連続して動作する。 2つのコンポーネントはそれぞれ、分析によって識別されたタイプiとタイプiiの擬似ラベルエラーを排除するように設計されている。 その後、調整された擬似ラベルは、アライメント推論のためのモデルトレーニングを強化するために事前アライメントシードを増強するために使用される。 UPL-EAの擬似ラベル誤り除去効果は理論的に支持され,実験的に検証された。 実験結果から,本手法は限定的な事前配向種子を用いた競合性能が得られた。

Entity alignment (EA) aims at identifying equivalent entity pairs across different knowledge graphs (KGs) that refer to the same real-world identity. To systematically combat confirmation bias for pseudo-labeling-based entity alignment, we propose a Unified Pseudo-Labeling framework for Entity Alignment (UPL-EA) that explicitly eliminates pseudo-labeling errors to boost the accuracy of entity alignment. UPL-EA consists of two complementary components: (1) The Optimal Transport (OT)-based pseudo-labeling uses discrete OT modeling as an effective means to enable more accurate determination of entity correspondences across two KGs and to mitigate the adverse impact of erroneous matches. A simple but highly effective criterion is further devised to derive pseudo-labeled entity pairs that satisfy one-to-one correspondences at each iteration. (2) The cross-iteration pseudo-label calibration operates across multiple consecutive iterations to further improve the pseudo-labeling precision rate by reducing the local pseudo-label selection variability with a theoretical guarantee. The two components are respectively designed to eliminate Type I and Type II pseudo-labeling errors identified through our analyse. The calibrated pseudo-labels are thereafter used to augment prior alignment seeds to reinforce subsequent model training for alignment inference. The effectiveness of UPL-EA in eliminating pseudo-labeling errors is both theoretically supported and experimentally validated. The experimental results show that our approach achieves competitive performance with limited prior alignment seeds.
翻訳日:2023-07-06 14:43:27 公開日:2023-07-05
# 生成モデルを用いたデータストレージシステムの性能モデリング

Performance Modeling of Data Storage Systems using Generative Models ( http://arxiv.org/abs/2307.02073v1 )

ライセンス: Link先を確認
Abdalaziz Rashid Al-Maeeni, Aziz Temirkhanov, Artem Ryzhikov, Mikhail Hushchyn(参考訳) システムの高精度モデリングは、産業データ分析の主要な分野の1つである。 システムのモデル、すなわちデジタル双生児は、様々な条件下での振る舞いを予測するために使用される。 機械学習に基づく生成モデルを用いて,ストレージシステムの複数のモデルを開発した。 このシステムは、ハードディスクドライブ(HDD)と、RAIDスキームとキャッシュの異なるソリッドステートドライブ(SSD)ストレージプールの2つのコンポーネントで構成されている。 各ストレージコンポーネントは、構成や外部データロードパラメータに応じて、IOPSとレイテンシの観点からコンポーネントのパフォーマンスの確率分布を記述する確率論的モデルによって表現される。 実験の結果、IOPSでは4~10%、システムのコンポーネントやモデルによってレイテンシ予測では3~16%の誤差が示された。 これらの予測は、モデルの教師なし信頼性チェックに使用できるリトルの法則と最大で 0.99 ピアソンの相関関係を示す。 さらに,機械学習における回帰アルゴリズム,条件付き生成モデル,不確実性推定手法のベンチマークに使用できる新しいデータセットを提案する。

High-precision modeling of systems is one of the main areas of industrial data analysis. Models of systems, their digital twins, are used to predict their behavior under various conditions. We have developed several models of a storage system using machine learning-based generative models. The system consists of several components: hard disk drive (HDD) and solid-state drive (SSD) storage pools with different RAID schemes and cache. Each storage component is represented by a probabilistic model that describes the probability distribution of the component performance in terms of IOPS and latency, depending on their configuration and external data load parameters. The results of the experiments demonstrate the errors of 4-10 % for IOPS and 3-16 % for latency predictions depending on the components and models of the system. The predictions show up to 0.99 Pearson correlation with Little's law, which can be used for unsupervised reliability checks of the models. In addition, we present novel data sets that can be used for benchmarking regression algorithms, conditional generative models, and uncertainty estimation methods in machine learning.
翻訳日:2023-07-06 14:42:57 公開日:2023-07-05
# 高次カテゴリ変数を持つデータに対する機械学習手法の比較

A Comparison of Machine Learning Methods for Data with High-Cardinality Categorical Variables ( http://arxiv.org/abs/2307.02071v1 )

ライセンス: Link先を確認
Fabio Sigrist(参考訳) 高カーディナリティ分類変数(英: high-cardinality categorical variable)とは、異なるレベルの数がデータセットのサンプルサイズに対して大きい変数である。 機械学習の手法は、高心身変数では困難である。 本稿では,最も成功した2つの機械学習手法,ツリーブーストとディープニューラルネットワーク,および高心性カテゴリ変数を持つ複数の表層データセットを用いた線形混合効果モデルについて実験的に比較する。 まず、ランダム効果を持つ機械学習モデルは、ランダム効果のない従来のモデルよりも予測精度が高く、さらにランダム効果を持つツリーブースティングは、ランダム効果を持つディープニューラルネットワークよりも優れています。

High-cardinality categorical variables are variables for which the number of different levels is large relative to the sample size of a data set, or in other words, there are few data points per level. Machine learning methods can have difficulties with high-cardinality variables. In this article, we empirically compare several versions of two of the most successful machine learning methods, tree-boosting and deep neural networks, and linear mixed effects models using multiple tabular data sets with high-cardinality categorical variables. We find that, first, machine learning models with random effects have higher prediction accuracy than their classical counterparts without random effects, and, second, tree-boosting with random effects outperforms deep neural networks with random effects.
翻訳日:2023-07-06 14:42:42 公開日:2023-07-05
# 多クラス学習のためのユニバーサルレート

Universal Rates for Multiclass Learning ( http://arxiv.org/abs/2307.02066v1 )

ライセンス: Link先を確認
Steve Hanneke, Shay Moran, Qian Zhang(参考訳) 我々は,マルチクラス分類のための普遍的レートを研究し,すべての仮説クラスに対する最適レート(ログ係数まで)を確立した。 これは二分分類(bousquet, hanneke, moran, van handel, yehudayoff, 2021)の以前の結果を一般化し、クラスラベルを限定したマルチクラス設定を扱うkalavasis, velegkas, karbasi (2022) によって研究されたオープン質問を解決する。 対照的に、この結果は任意の可算ラベル空間に適用できる。 有限ラベル空間においても、この証明はラベルの数に依存しないため、学習曲線のより正確な境界を与える。 具体的には、任意のクラスが指数率を許容し、無限のリトルストーン木が存在しないことと、無限のダニエル=シャレフ=シュワルツ=リトルストン(DSL)木が存在しないこと、そしてそれ以外は任意に遅い速度を必要とすることが示される。 DSLツリーは、この作業で定義した新しい構造であり、ツリーの各ノードは、与えられた点の集合の可能な分類の擬似キューブによって与えられる。 Pseudo-cubes は Daniely と Shalev-Shwartz (2014) の業績に根ざした構造であり、最近 Brukhim, Carmon, Dinur, Moran, and Yehudayoff (2022) によって示され、多クラス分類におけるPAC学習可能性(すなわち一様率)を特徴づけている。 また、無限のグラフ・リトルストーン(GL)木と無限のナタラジャン・リトルストーン(NL)木との同値性について、カラバシス、ヴェレグカス、カルバシ(2022年)の開問題も解決し、それらが真に同値であることを示す。

We study universal rates for multiclass classification, establishing the optimal rates (up to log factors) for all hypothesis classes. This generalizes previous results on binary classification (Bousquet, Hanneke, Moran, van Handel, and Yehudayoff, 2021), and resolves an open question studied by Kalavasis, Velegkas, and Karbasi (2022) who handled the multiclass setting with a bounded number of class labels. In contrast, our result applies for any countable label space. Even for finite label space, our proofs provide a more precise bounds on the learning curves, as they do not depend on the number of labels. Specifically, we show that any class admits exponential rates if and only if it has no infinite Littlestone tree, and admits (near-)linear rates if and only if it has no infinite Daniely-Shalev-Shwartz-Littleston (DSL) tree, and otherwise requires arbitrarily slow rates. DSL trees are a new structure we define in this work, in which each node of the tree is given by a pseudo-cube of possible classifications of a given set of points. Pseudo-cubes are a structure, rooted in the work of Daniely and Shalev-Shwartz (2014), and recently shown by Brukhim, Carmon, Dinur, Moran, and Yehudayoff (2022) to characterize PAC learnability (i.e., uniform rates) for multiclass classification. We also resolve an open question of Kalavasis, Velegkas, and Karbasi (2022) regarding the equivalence of classes having infinite Graph-Littlestone (GL) trees versus infinite Natarajan-Littlestone (NL) trees, showing that they are indeed equivalent.
翻訳日:2023-07-06 14:42:27 公開日:2023-07-05
# 特徴のアライメントと隣接行列を用いたロバストグラフ構造学習

Robust Graph Structure Learning with the Alignment of Features and Adjacency Matrix ( http://arxiv.org/abs/2307.02126v1 )

ライセンス: Link先を確認
Shaogao Lv, Gang Wen, Shiyu Liu, Linsen Wei and Ming Li(参考訳) グラフニューラルネットワーク(gnn)のロバスト性を向上させるため、グラフデータにおけるノイズの広汎性により、グラフ構造学習(gsl)が大きな関心を集めている。 GSLはクリーングラフ構造と対応する表現を共同で学習するために多くのアプローチが提案されている。 本稿では,gnnのノードレベルラデマッハ複雑性の導出を主目的とし,特徴情報とグラフ情報のアラインメントを用いた新しい正規化gsl手法を提案する。 さらに,本提案手法では,グラフ構造に関連する低次元ノード特徴を利用するために,疎次元化を取り入れた。 本手法の有効性を評価するため,実世界のグラフを用いて実験を行う。 その結果,提案手法は,特にノイズの影響が大きい場合において,いくつかの競合的ベースラインよりも優れていた。 本研究は、GSLにおける特徴情報とグラフ情報のアライメントの統合の重要性を強調し、実世界のデータセットに関する包括的な実験を通じてノイズの多いグラフ構造を扱う際のアプローチの優位性を示す。

To improve the robustness of graph neural networks (GNN), graph structure learning (GSL) has attracted great interest due to the pervasiveness of noise in graph data. Many approaches have been proposed for GSL to jointly learn a clean graph structure and corresponding representations. To extend the previous work, this paper proposes a novel regularized GSL approach, particularly with an alignment of feature information and graph information, which is motivated mainly by our derived lower bound of node-level Rademacher complexity for GNNs. Additionally, our proposed approach incorporates sparse dimensional reduction to leverage low-dimensional node features that are relevant to the graph structure. To evaluate the effectiveness of our approach, we conduct experiments on real-world graphs. The results demonstrate that our proposed GSL method outperforms several competitive baselines, especially in scenarios where the graph structures are heavily affected by noise. Overall, our research highlights the importance of integrating feature and graph information alignment in GSL, as inspired by our derived theoretical result, and showcases the superiority of our approach in handling noisy graph structures through comprehensive experiments on real-world datasets.
翻訳日:2023-07-06 14:36:15 公開日:2023-07-05
# darboux変換とフラットバンド解を用いたreflectionless pseudospin-1 diracシステム

Reflectionless pseudospin-1 Dirac systems via Darboux transformation and flat band solutions ( http://arxiv.org/abs/2307.02123v1 )

ライセンス: Link先を確認
Vit Jakubsky, Kevin Zelaya(参考訳) この写本は、ディラック型方程式によって記述された疑似スピン1粒子の正確な可解モデルの構築に用いられたダルブー変換を探求している。 我々は、初期システムのスペクトルにゼロエネルギーの平らなバンドが存在するような設定に焦点をあてる。 シード溶液の1つとしてフラットバンド状態を使用することで、ダーブー変換の適用性が大幅に向上する。 これは4つの例で明確に説明され、新しいハミルトン群は、不均一ホッピング振幅を持つリーブ格子の準粒子を記述できることを示す。

This manuscript explores the Darboux transformation employed in the construction of exactly solvable models for pseudospin-one particles described by the Dirac-type equation. We focus on the settings where a flat band of zero energy is present in the spectrum of the initial system. Using the flat band state as one of the seed solutions substantially improves the applicability of the Darboux transformation, for it becomes necessary to ensure the Hermiticy of the new Hamiltonians. This is illustrated explicitly in four examples, where we show that the new Hamiltonians can describe quasi-particles in Lieb lattice with inhomogeneous hopping amplitudes.
翻訳日:2023-07-06 14:35:57 公開日:2023-07-05
# 多言語制御可能なトランスベースの語彙単純化

Multilingual Controllable Transformer-Based Lexical Simplification ( http://arxiv.org/abs/2307.02120v1 )

ライセンス: Link先を確認
Kim Cheng Sheang and Horacio Saggion(参考訳) テキストは、最もユビキタスな知識と情報ソースであり、できるだけ多くの人に簡単にアクセスできるようにすべきであるが、テキストには、理解とアクセシビリティを阻害する複雑な単語が含まれていることが多い。 したがって、複雑な単語に対するより単純な選択肢を提案することは、より広い聴衆に情報を伝えるのに役立つ。 本稿では,多言語制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。 この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。 LexMTurk、BenchLS、NNSEvalの3つのよく知られたLSデータセットの評価結果は、我々のモデルがLSBertやConLSといった従来の最先端モデルよりも優れていることを示している。 さらに,最近のtsar-2022多言語ls共有タスクデータセットにおける本手法のさらなる評価により,本モデルが英語lsの学習システムと比較した場合,いくつかの指標でgpt-3モデルを上回る性能を示した。 さらに,本モデルではスペイン語とポルトガル語のパフォーマンスも向上する。

Text is by far the most ubiquitous source of knowledge and information and should be made easily accessible to as many people as possible; however, texts often contain complex words that hinder reading comprehension and accessibility. Therefore, suggesting simpler alternatives for complex words without compromising meaning would help convey the information to a broader audience. This paper proposes mTLS, a multilingual controllable Transformer-based Lexical Simplification (LS) system fined-tuned with the T5 model. The novelty of this work lies in the use of language-specific prefixes, control tokens, and candidates extracted from pre-trained masked language models to learn simpler alternatives for complex words. The evaluation results on three well-known LS datasets -- LexMTurk, BenchLS, and NNSEval -- show that our model outperforms the previous state-of-the-art models like LSBert and ConLS. Moreover, further evaluation of our approach on the part of the recent TSAR-2022 multilingual LS shared-task dataset shows that our model performs competitively when compared with the participating systems for English LS and even outperforms the GPT-3 model on several metrics. Moreover, our model obtains performance gains also for Spanish and Portuguese.
翻訳日:2023-07-06 14:35:45 公開日:2023-07-05
# 超低温原子のためのトンネル結合型光マイクロトラップ

Tunnel-coupled optical microtraps for ultracold atoms ( http://arxiv.org/abs/2307.02116v1 )

ライセンス: Link先を確認
Shangguo Zhu, Yun Long, Wei Gou, Mingbo Pu, Xiangang Luo(参考訳) マイクロメートルサイズの光学マイクロトラップに閉じ込められた個々の原子の配列は、量子科学と技術の基礎的で汎用的で強力なプラットフォームとして現れている。 このプラットフォームは量子システムのボトムアップエンジニアリングを可能にし、フレキシブルな幾何学を持つ量子状態の低エントロピー準備と、単一サイトレベルでの操作と検出の機能を提供する。 光マイクロトラックにおけるトンネル結合による超低温イテナント原子の利用は、量子シミュレーションの新たな機会となり、エキゾチックな量子状態、位相、ダイナミクスの探索を可能にする。 ここでは、超低温原子量子系を操作するためのトンネル結合型光学マイクロトラックの開発とその最近の進歩を概説する。

Arrays of individual atoms trapped in optical microtraps with micrometer-scale sizes have emerged as a fundamental, versatile, and powerful platform for quantum sciences and technologies. This platform enables the bottom-up engineering of quantum systems, offering the capability of low-entropy preparation of quantum states with flexible geometry, as well as manipulation and detection at the single-site level. The utilization of ultracold itinerant atoms with tunnel coupling in optical microtraps provides new opportunities for quantum simulation, enabling the exploration of exotic quantum states, phases, and dynamics, which would otherwise be challenging to achieve in conventional optical lattices due to high entropy and limited geometric flexibility. Here the development of tunnel-coupled optical microtraps for the manipulation of ultracold atomic quantum systems and its recent advances are briefly reviewed.
翻訳日:2023-07-06 14:35:25 公開日:2023-07-05
# 局所応答:単純かつ累積的な回帰最小化のための文脈帯域

Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization ( http://arxiv.org/abs/2307.02108v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Ruohan Zhan, Susan Athey, Emma Brunskill(参考訳) 単純後悔の最小化は、医療やeコマースなど、さまざまな領域で最適な治療方針を学ぶ上で重要な問題である。 しかし、文脈的盗賊設定では未検討のままである。 我々は,確率的文脈的帯域幅設定のための計算効率の良いバンド幅アルゴリズムの新たなファミリを提案し,その柔軟性を累積的後悔最小化(準最適最小保証付き)と単純な後悔最小化(SOTA保証付き)に適用する。 さらに,アルゴリズムは誤特定をモデル化し,連続アーム設定まで拡張する。 これらの利点は、「コンフォーマルアームセット」(CAS)の構築と依存から来ており、コンテキスト固有の最適アームを含む全てのコンテキストにおけるアームのセットを、コンテキスト分布全体にわたる確率で提供する。 単純かつ累積的後悔保証に対する我々の肯定的な結果は負の結果と対比され、これはアルゴリズムが最小限の累積後悔保証を同時に達成しながら、インスタンス依存の単純な後悔保証を達成できないことを示している。

Simple regret minimization is a critical problem in learning optimal treatment assignment policies across various domains, including healthcare and e-commerce. However, it remains understudied in the contextual bandit setting. We propose a new family of computationally efficient bandit algorithms for the stochastic contextual bandit settings, with the flexibility to be adapted for cumulative regret minimization (with near-optimal minimax guarantees) and simple regret minimization (with SOTA guarantees). Furthermore, our algorithms adapt to model misspecification and extend to the continuous arm settings. These advantages come from constructing and relying on "conformal arm sets" (CASs), which provide a set of arms at every context that encompass the context-specific optimal arm with some probability across the context distribution. Our positive results on simple and cumulative regret guarantees are contrasted by a negative result, which shows that an algorithm can't achieve instance-dependent simple regret guarantees while simultaneously achieving minimax optimal cumulative regret guarantees.
翻訳日:2023-07-06 14:35:10 公開日:2023-07-05
# SoK:プライバシ保護データ合成

SoK: Privacy-Preserving Data Synthesis ( http://arxiv.org/abs/2307.02106v1 )

ライセンス: Link先を確認
Yuzheng Hu, Fan Wu, Qinbin Li, Yunhui Long, Gonzalo Munilla Garrido, Chang Ge, Bolin Ding, David Forsyth, Bo Li, Dawn Song(参考訳) データ分析の普及に伴い、データのプライバシ保護が最重要課題となっている。 その結果、プライバシ保存データ分析を目的としたメカニズムの開発が急増している。 しかし、これらのアプローチはタスク固有であり、新しいタスクのためのアルゴリズムを設計するのは面倒なプロセスである。 代わりに、(理想的には)プライベート情報を欠く合成データを作成することができる。 本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。 具体的には,統計的手法と深層学習(DL)に基づく手法という,PPDSにおける2つの顕著な研究領域を統合するマスターレシピを提案する。 マスターレシピでは、統計的手法をモデリングと表現の選択に分割し、異なる生成的モデリング原理によるDLに基づく手法について検討する。 本研究は,本研究の総合的な参照テーブルとキーテイクアウトを蒸留し,既存の文献のオープンな問題を同定する。 異なるPPDSメソッドの背後にある設計原則は何ですか? これらの手法をどのように分類すればいいのか、各カテゴリの利点と欠点は何か? 異なる現実のシナリオでメソッド選択のガイドラインを提供できますか? 我々は,プライベート画像合成の課題に対してdlベースの手法をいくつかベンチマークし,dp-merfは汎用的手法であると結論づける。 最後に,過去10年間の成果を体系化することで,今後の方向性を特定し,研究者の行動を求める。

As the prevalence of data analysis grows, safeguarding data privacy has become a paramount concern. Consequently, there has been an upsurge in the development of mechanisms aimed at privacy-preserving data analyses. However, these approaches are task-specific; designing algorithms for new tasks is a cumbersome process. As an alternative, one can create synthetic data that is (ideally) devoid of private information. This paper focuses on privacy-preserving data synthesis (PPDS) by providing a comprehensive overview, analysis, and discussion of the field. Specifically, we put forth a master recipe that unifies two prominent strands of research in PPDS: statistical methods and deep learning (DL)-based methods. Under the master recipe, we further dissect the statistical methods into choices of modeling and representation, and investigate the DL-based methods by different generative modeling principles. To consolidate our findings, we provide comprehensive reference tables, distill key takeaways, and identify open problems in the existing literature. In doing so, we aim to answer the following questions: What are the design principles behind different PPDS methods? How can we categorize these methods, and what are the advantages and disadvantages associated with each category? Can we provide guidelines for method selection in different real-world scenarios? We proceed to benchmark several prominent DL-based methods on the task of private image synthesis and conclude that DP-MERF is an all-purpose approach. Finally, upon systematizing the work over the past decade, we identify future directions and call for actions from researchers.
翻訳日:2023-07-06 14:34:51 公開日:2023-07-05
# 文化にまたがるアバターの署名に対する予測可能性因子は存在するか?

Do predictability factors towards signing avatars hold across cultures? ( http://arxiv.org/abs/2307.02103v1 )

ライセンス: Link先を確認
Abdelhadi Soudi, Manal El Hakkaoui, Kristof Van Laerhoven(参考訳) アバター技術は、アクセシビリティーの可能性を提供し、聴覚障害者が医療システムなどのコミュニケーション、教育、サービスにアクセスできるように改善することができる。 しかし、署名言語利用者はアバターの署名を受け入れ、アバターに対する態度は様々であり、多くの要因に依存している。 さらに、アバター技術の研究は、主に難聴者でない研究者によって行われている。 本研究は, 内在的・外因的要因が, 文化全体にわたるアバターに対する態度の予測にどの程度寄与するかを検討した。 内在的な要因には、外見、動き、表情などのアバターの特徴が含まれる。 外部要因には、ユーザの技術経験、聴力状態、年齢、手話の流布などが含まれる。 この研究は、例えば、低い姿勢レーティングがASLユーザによる技術経験の低さに関連しているかどうか、モロッコ手話(MSL)ユーザにも当てはまるのか、といった疑問に答えようとしている。 本研究は,アバターに対するMSL利用者の態度を理解するためのアンケートを考案した。 調査対象は難聴者57名,難聴者20名,難聴者3名であった。 研究結果は,他の関連研究で報告された結果と比較された。

Avatar technology can offer accessibility possibilities and improve the Deaf-and-Hard of Hearing sign language users access to communication, education and services, such as the healthcare system. However, sign language users acceptance of signing avatars as well as their attitudes towards them vary and depend on many factors. Furthermore, research on avatar technology is mostly done by researchers who are not Deaf. The study examines the extent to which intrinsic or extrinsic factors contribute to predict the attitude towards avatars across cultures. Intrinsic factors include the characteristics of the avatar, such as appearance, movements and facial expressions. Extrinsic factors include users technology experience, their hearing status, age and their sign language fluency. This work attempts to answer questions such as, if lower attitude ratings are related to poor technology experience with ASL users, for example, is that also true for Moroccan Sign Language (MSL) users? For the purposes of the study, we designed a questionnaire to understand MSL users attitude towards avatars. Three groups of participants were surveyed: Deaf (57), Hearing (20) and Hard-of-Hearing (3). The results of our study were then compared with those reported in other relevant studies.
翻訳日:2023-07-06 14:34:28 公開日:2023-07-05
# MDViT:小型医用画像分割データセット用マルチドメインビジョントランス

MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets ( http://arxiv.org/abs/2307.02100v1 )

ライセンス: Link先を確認
Siyi Du, Nourhan Bayasi, Ghassan Harmarneh, Rafeef Garbi(参考訳) 臨床的有用性にもかかわらず、医用画像分割(MIS)は画像固有の複雑さと変動性のため、困難な作業である。 ビジョントランスフォーマー(ViT)は最近、MISを改善するための有望なソリューションとして登場したが、畳み込みニューラルネットワークよりも大規模なトレーニングデータセットを必要とする。 この障害を克服するために、データ効率のよいvitが提案されたが、通常は単一のデータソースを使用してトレーニングされ、他の利用可能なデータセットから活用できる貴重な知識を見落としている。 異なるドメインからのデータセットを組み合わせることは、負の知識伝達(NKT)、すなわち、無視できないドメイン間不均一性を持ついくつかのドメインにおけるモデル性能の低下をもたらす。 本稿では,複数のデータリソース(ドメイン)の知識を適応的に活用することにより,データハンガーを緩和し,NKTと戦うドメインアダプタを含む,最初のマルチドメインViTであるMDViTを提案する。 さらに、ドメイン間の表現学習を強化するために、ユニバーサルネットワーク(全ドメインを拡大する)と補助ドメイン固有のブランチ間で知識を伝達する相互知識蒸留パラダイムを統合する。 4つの皮膚病変セグメンテーションデータセットの実験により、MDViTは、より多くのドメインを追加しても推論時に、より優れたセグメンテーション性能と固定モデルサイズで最先端のアルゴリズムより優れていることが示された。 私たちのコードはhttps://github.com/siyi-wind/mdvitで利用可能です。

Despite its clinical utility, medical image segmentation (MIS) remains a daunting task due to images' inherent complexity and variability. Vision transformers (ViTs) have recently emerged as a promising solution to improve MIS; however, they require larger training datasets than convolutional neural networks. To overcome this obstacle, data-efficient ViTs were proposed, but they are typically trained using a single source of data, which overlooks the valuable knowledge that could be leveraged from other available datasets. Naivly combining datasets from different domains can result in negative knowledge transfer (NKT), i.e., a decrease in model performance on some domains with non-negligible inter-domain heterogeneity. In this paper, we propose MDViT, the first multi-domain ViT that includes domain adapters to mitigate data-hunger and combat NKT by adaptively exploiting knowledge in multiple small data resources (domains). Further, to enhance representation learning across domains, we integrate a mutual knowledge distillation paradigm that transfers knowledge between a universal network (spanning all the domains) and auxiliary domain-specific branches. Experiments on 4 skin lesion segmentation datasets show that MDViT outperforms state-of-the-art algorithms, with superior segmentation performance and a fixed model size, at inference time, even as more domains are added. Our code is available at https://github.com/siyi-wind/MDViT.
翻訳日:2023-07-06 14:34:08 公開日:2023-07-05
# DARE: 医学・医療分野におけるロバストテキスト記述に向けて

DARE: Towards Robust Text Explanations in Biomedical and Healthcare Applications ( http://arxiv.org/abs/2307.02094v1 )

ライセンス: Link先を確認
Adam Ivankay, Mattia Rigotti, Pascal Frossard(参考訳) ディープニューラルネットワークを複数のアプリケーションドメインに展開することに成功したことに加えて、これらのネットワークのブラックボックスの性質を解明する必要性も近年大幅に高まっている。 ディープニューラルネットワークの推論プロセスに関する洞察を提供するために、いくつかの方法が導入された。 しかし、これらの説明可能性の手法のほとんどは、画像および汎用テキスト領域における入力の逆摂動に直面して脆弱であることが示されている。 本研究では,この現象がバイオメディカルデータセットのような特定の,重要な高利得領域にまで及んでいることを示す。 特に,説明のロバスト性は,モデルの入力とその決定の不完全さをリンクする説明の正確さと,ドメインの専門家の称賛の観点からその関連性によって特徴づけるべきである。 これは、目の前のドメインの文脈で不正確だがまだ説得力があるように見える説明を防ぐのに不可欠である。 この目的のために、各領域に電流の寄与するロバスト性の評価手法を適用し、ドメイン固有の妥当性を考慮する方法を示す。 これにより、DomainAdaptiveAREstimator (DARE) アトリビューションロバストネス推定が実現し、忠実な説明のドメイン固有のロバストネスを適切に特徴づけることができます。 次に,dareの特徴である脆さを軽減し,堅牢な帰属を示すネットワークを訓練する手法として,敵対的訓練と遠方訓練の2つの方法を提案する。 最後に,確立した3つのバイオメディカル・ベンチマークを用いて実験を行った。

Along with the successful deployment of deep neural networks in several application domains, the need to unravel the black-box nature of these networks has seen a significant increase recently. Several methods have been introduced to provide insight into the inference process of deep neural networks. However, most of these explainability methods have been shown to be brittle in the face of adversarial perturbations of their inputs in the image and generic textual domain. In this work we show that this phenomenon extends to specific and important high stakes domains like biomedical datasets. In particular, we observe that the robustness of explanations should be characterized in terms of the accuracy of the explanation in linking a model's inputs and its decisions - faithfulness - and its relevance from the perspective of domain experts - plausibility. This is crucial to prevent explanations that are inaccurate but still look convincing in the context of the domain at hand. To this end, we show how to adapt current attribution robustness estimation methods to a given domain, so as to take into account domain-specific plausibility. This results in our DomainAdaptiveAREstimator (DARE) attribution robustness estimator, allowing us to properly characterize the domain-specific robustness of faithful explanations. Next, we provide two methods, adversarial training and FAR training, to mitigate the brittleness characterized by DARE, allowing us to train networks that display robust attributions. Finally, we empirically validate our methods with extensive experiments on three established biomedical benchmarks.
翻訳日:2023-07-06 14:33:43 公開日:2023-07-05
# 長めの画像:視覚変換器の適応的トーケン長

Make A Long Image Short: Adaptive Token Length for Vision Transformers ( http://arxiv.org/abs/2307.02092v1 )

ライセンス: Link先を確認
Qiqi Zhou and Yichen Zhu(参考訳) 視覚変換器は、各画像を一定の長さのトークン列に分解し、自然言語処理における単語と同様の処理を行うモデルである。 トークンの数が増加するとパフォーマンスが向上するが、計算コストも大幅に増加する。 画像は千語に値する」という言い回しに動機付けられ、長い画像の短縮によるViTモデルを加速する革新的なアプローチを提案する。 具体的には,テスト時に各画像にトークン長を適応的に割り当てて推定速度を高速化する方法を提案する。 まず、さまざまなトークン長で入力を処理できるResizable-ViT(ReViT)モデルを訓練する。 次に、正確な予測を行うために必要なトークンの最小数を示すReViTからトークン長ラベルを抽出する。 次にこれらのラベルを使用して、推論中に画像毎に最適なトークン長を割り当てる軽量トークン長アサイン(tla)をトレーニングします。 TLAにより、ReViTは最小限のトークン数で画像を処理でき、ViTモデルのトークン数を減らし、推論速度を向上させることができる。 我々のアプローチは汎用的で、現代の視覚変換器アーキテクチャと互換性があり、計算コストを大幅に削減する。 画像分類と行動認識における複数の代表的ViTモデルの有効性を検証した。

The vision transformer is a model that breaks down each image into a sequence of tokens with a fixed length and processes them similarly to words in natural language processing. Although increasing the number of tokens typically results in better performance, it also leads to a considerable increase in computational cost. Motivated by the saying "A picture is worth a thousand words," we propose an innovative approach to accelerate the ViT model by shortening long images. Specifically, we introduce a method for adaptively assigning token length for each image at test time to accelerate inference speed. First, we train a Resizable-ViT (ReViT) model capable of processing input with diverse token lengths. Next, we extract token-length labels from ReViT that indicate the minimum number of tokens required to achieve accurate predictions. We then use these labels to train a lightweight Token-Length Assigner (TLA) that allocates the optimal token length for each image during inference. The TLA enables ReViT to process images with the minimum sufficient number of tokens, reducing token numbers in the ViT model and improving inference speed. Our approach is general and compatible with modern vision transformer architectures, significantly reducing computational costs. We verified the effectiveness of our methods on multiple representative ViT models on image classification and action recognition.
翻訳日:2023-07-06 14:33:18 公開日:2023-07-05
# 自由空間BBM92量子鍵分配プロトコルにおける非最大絡み合い状態の利用

Use of Non-Maximal entangled state for free space BBM92 quantum key distribution protocol ( http://arxiv.org/abs/2307.02149v1 )

ライセンス: Link先を確認
Ayan Biswas, Sarika Mishra, Satyajeet Patil, Anindya Banerji, Shashi Prabhakar, and Ravindra P. Singh(参考訳) セキュアな鍵配布のための衛星ベースの量子通信は、破壊不可能なセキュリティのために、より要求の高い研究分野になりつつある。 BB84のようなプレパアプロトコルや測定プロトコルは、衛星を信頼できる装置とみなし、衛星ベースの光通信の現在の傾向を危険視している。 したがって、遠距離制限を克服すると共に、衛星を信頼できない機器とみなすことができるため、絡み合いに基づくプロトコルが望ましい。 e91プロトコルは衛星ベースの量子通信のよい候補であるが、eveに対するセキュリティを確保するためにベル・チェシュの不等式を検証するために測定された量子ビットのほとんどを利用するため、鍵レートは低い。 エンタングルメントベースのプロトコルは、よりセキュアな鍵分散のために最大エンタングル状態を必要とする。 本稿では,セキュアな鍵分布に対する非最大性の影響について述べる。 これは、セキュアキーを抽出できない非最大性条件の下限を確立する。 BBM92プロトコルは,Bell-CHSHの不等式に対する違反の程度と,与えられた設定に対する量子ビット誤り率との間に線形接続があることから,鍵分布にとってより有益である。

Satellite-based quantum communication for secure key distribution is becoming a more demanding field of research due to its unbreakable security. Prepare and measure protocols such as BB84 consider the satellite as a trusted device, fraught with danger looking at the current trend for satellite-based optical communication. Therefore, entanglement-based protocols must be preferred since, along with overcoming the distance limitation, one can consider the satellite as an untrusted device too. E91 protocol is a good candidate for satellite-based quantum communication; but the key rate is low as most of the measured qubits are utilized to verify a Bell-CHSH inequality to ensure security against Eve. An entanglement-based protocol requires a maximally entangled state for more secure key distribution. The current work discusses the effect of non-maximality on secure key distribution. It establishes a lower bound on the non-maximality condition below which no secure key can be extracted. BBM92 protocol will be more beneficial for key distribution as we found a linear connection between the extent of violation for Bell-CHSH inequality and the quantum bit error rate for a given setup.
翻訳日:2023-07-06 14:25:52 公開日:2023-07-05
# マルチコントラストMRI超解像のための複合注意と近傍マッチングネットワーク

Compound Attention and Neighbor Matching Network for Multi-contrast MRI Super-resolution ( http://arxiv.org/abs/2307.02148v1 )

ライセンス: Link先を確認
Wenxuan Chen, Sirui Wu, Shuai Wang, Zhongsen Li, Jia Yang, Xiaolei Song(参考訳) マルチコントラスト磁気共鳴イメージング(mri)は、異なる視点からヒト組織に関する情報を反映し、多くの臨床応用がある。 異なるモード間の補完情報を利用することで、MRIのマルチコントラスト超解像(SR)はシングルイメージ超解像よりも優れた結果が得られる。 第一に、既存のメソッドは単に参照と劣化したフィーチャを結合するか、あるいはそれらの間のグローバルな特徴マッチングを利用するかのどちらかであり、それらはマルチコントラストmri srには適さない。 第二に、最近の多くの手法では、空間次元における長距離依存性を捉えるためにトランスフォーマーを用いるが、チャンネル次元における自己着脱も低レベルの視覚タスクにとって重要であることを無視している。 これらの欠点に対処するため、我々は、マルチコントラストMRI SRのための複合アテンションと隣り合うマッチング(CANM-Net)を備えた新しいネットワークアーキテクチャを提案する: 複合自己アテンション機構は、空間的およびチャネル的両方の依存性を効果的に捕捉し、近隣の特徴マッチングモジュールは、劣化した特徴と隣接する参照特徴とをマッチングし、それらを融合して高品質な画像を得る。 我々は,ixi,fastmri,real-world scanning dataset上でsrタスクの実験を行う。 CANM-Netは、ふりかえりと将来の実験において最先端のアプローチより優れている。 さらに,本研究におけるロバストネス調査では,参照画像と劣化画像が不完全登録された場合でも,CANM-Netは良好な性能を示し,臨床応用の可能性を示した。

Multi-contrast magnetic resonance imaging (MRI) reflects information about human tissue from different perspectives and has many clinical applications. By utilizing the complementary information among different modalities, multi-contrast super-resolution (SR) of MRI can achieve better results than single-image super-resolution. However, existing methods of multi-contrast MRI SR have the following shortcomings that may limit their performance: First, existing methods either simply concatenate the reference and degraded features or exploit global feature-matching between them, which are unsuitable for multi-contrast MRI SR. Second, although many recent methods employ transformers to capture long-range dependencies in the spatial dimension, they neglect that self-attention in the channel dimension is also important for low-level vision tasks. To address these shortcomings, we proposed a novel network architecture with compound-attention and neighbor matching (CANM-Net) for multi-contrast MRI SR: The compound self-attention mechanism effectively captures the dependencies in both spatial and channel dimension; the neighborhood-based feature-matching modules are exploited to match degraded features and adjacent reference features and then fuse them to obtain the high-quality images. We conduct experiments of SR tasks on the IXI, fastMRI, and real-world scanning datasets. The CANM-Net outperforms state-of-the-art approaches in both retrospective and prospective experiments. Moreover, the robustness study in our work shows that the CANM-Net still achieves good performance when the reference and degraded images are imperfectly registered, proving good potential in clinical applications.
翻訳日:2023-07-06 14:25:34 公開日:2023-07-05
# LOAF-M2L:Singable Melody-to-Lyric Generationのための単語とフォルマッティングの連成学習

LOAF-M2L: Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation ( http://arxiv.org/abs/2307.02146v1 )

ライセンス: Link先を確認
Longshen Ou, Xichu Ma, Ye Wang(参考訳) これまでのメロディ-歌詞生成研究の努力にもかかわらず、生成した歌詞と旋律の間には大きな相違点があり、出力の発声性に悪影響を及ぼす。 本稿では,メロディ・トゥ・リリック・トレーニング (LOAF-M2L) 中にwOrding And Formattingを共同で学習することで,歌いやすい歌詞を生成する新しいアプローチで歌声のギャップを埋める。 一般ドメイン事前訓練後,提案手法はテキストのみの大規模歌詞コーパスから長さ認識を得る。 次に,メロディと歌詞の関係に関する音楽学的研究から,メロディから歌詞への訓練において,モデルがメロディの詳細な形式要件を学習できるようにする新たな目的を提案する。 本モデルでは,テキストフラレンシを犠牲にすることなく,行数と行単位の音節数で3.75%,絶対精度が21.44%向上する。 さらに,本モデルでは,最新のメロディ-歌詞生成モデルと比較して,音楽と歌詞の互換性と主観的評価における全体的な品質が63.92%,74.18%向上していることを示し,フォーマッティング学習の重要性を強調した。

Despite previous efforts in melody-to-lyric generation research, there is still a significant compatibility gap between generated lyrics and melodies, negatively impacting the singability of the outputs. This paper bridges the singability gap with a novel approach to generating singable lyrics by jointly Learning wOrding And Formatting during Melody-to-Lyric training (LOAF-M2L). After general-domain pretraining, our proposed model acquires length awareness first from a large text-only lyric corpus. Then, we introduce a new objective informed by musicological research on the relationship between melody and lyrics during melody-to-lyric training, which enables the model to learn the fine-grained format requirements of the melody. Our model achieves 3.75% and 21.44% absolute accuracy gains in the outputs' number-of-line and syllable-per-line requirements compared to naive fine-tuning, without sacrificing text fluency. Furthermore, our model demonstrates a 63.92% and 74.18% relative improvement of music-lyric compatibility and overall quality in the subjective evaluation, compared to the state-of-the-art melody-to-lyric generation model, highlighting the significance of formatting learning.
翻訳日:2023-07-06 14:25:03 公開日:2023-07-05
# 双極子ボース・アインシュタイン凝縮体の異方性インフレーション

Anisotropic Inflation in Dipolar Bose-Einstein Condensates ( http://arxiv.org/abs/2307.02141v1 )

ライセンス: Link先を確認
Arun Rana, Abhijit Pendse, Sebastian W\"uster, and Sukanta Panda(参考訳) 宇宙のインフレーションの初期には、回転不変性が破られ、後に低エネルギー物理学の特徴として出現した。 これは、例えば宇宙マイクロ波背景のパワースペクトルにおいて、異方性時空の残留シグネチャの探索が進行中である。 二極性ボース・アインシュタイン凝縮(becs)は、インフレーション中のゆらぎスペクトルの異方性発展のための実験室量子シミュレーションプラットフォームを提供し、二極性凝縮音波の速度が方向に依存するという事実を生かした。 本研究では,二極子音と接触音の時間変化強度を,異なる座標方向のスケール係数と結びつけ,異方性類似の時間-時間距離制御音を構成する。 これらに基づいて、初期異方性宇宙の等方性を表すインフレーション中のフォノンパワースペクトルのダイナミクスを計算する。 拡張速度は最終的な残留異方性の度合いを制御・研究するための実験的なハンドルを提供する。 双極子凝縮体を用いた重力アナログは、これまで宇宙という単一の実験に限られていた宇宙論の分野の調整可能な実験を提供することができる。

Early during the era of cosmic inflation, rotational invariance may have been broken, only later emerging as a feature of low-energy physics. This motivates ongoing searches for residual signatures of anisotropic space-time, for example in the power spectrum of the cosmic microwave background. We propose that dipolar Bose-Einstein condensates (BECs) furnish a laboratory quantum simulation platform for the anisotropy evolution of fluctuation spectra during inflation, exploiting the fact that the speed of dipolar condensate sound waves depends on direction. We construct the anisotropic analogue space-time metric governing sound, by linking the time-varying strength of dipolar and contact interactions in the BEC to the scale factors in different coordinate directions. Based on these, we calculate the dynamics of phonon power spectra during an inflation that renders the initially anisotropic universe isotropic. We find that the expansion speed provides an experimental handle to control and study the degree of final residual anisotropy. Gravity analogues using dipolar condensates can thus provide tuneable experiments for a field of cosmology that was until now confined to a single experiment, our universe.
翻訳日:2023-07-06 14:24:37 公開日:2023-07-05
# オープンフェデレーション学習プラットフォームに向けて:技術と法の観点からの調査と展望

Towards Open Federated Learning Platforms: Survey and Vision from Technical and Legal Perspectives ( http://arxiv.org/abs/2307.02140v1 )

ライセンス: Link先を確認
Moming Duan(参考訳) 従来のフェデレートラーニング(FL)は、FLのアプリケーションシナリオを狭め、データ保有者の熱意を減らし、サーバが支配する協調パラダイムに従っています。 FLの可能性を完全に解き放つために、私たちは現在のFLフレームワークの設計を再考し、より一般化された概念であるOpen Federated Learning Platformsに拡張することを提唱します。 本稿では,FLの相互協調フレームワークとして,クエリベースFLとコントラクトベースFLの2つを提案する。 本稿では,技術面と法的面の両方から,オープンなflプラットフォームの構築可能性について総合的なレビューを行う。 まず、flの定義を見直し、サーバ-クライアント結合、低モデル再利用性、非パブリックなど、固有の制限をまとめます。 モデルマイニングコミュニティが権限を持つオープンモデル共有および再利用プラットフォームであるクエリベースのflプラットフォームでは、モデルクエリのための最新モデルリポジトリの可用性、異なるモデルライセンス間の法的コンプライアンス分析、モデル再利用における著作権問題、知的財産保護など、幅広い価値のあるトピックを探求する。 特に,コンビネーション,アマルガメーション,蒸留,生成を含むバッチモデル再利用法を含むfl研究において,モデルライセンス互換性の分析を合理化する新しい分類法を提案する。 この分類法は、ライセンスの対応する条項を識別するための体系的な枠組みを提供し、モデルの再使用時に潜在的な法的意味と制限の識別を容易にする。 この調査を通じて、FLが直面する現在のジレンマを明らかにし、持続可能なオープンFLプラットフォームの開発を提唱する。 私たちは、将来的にそのようなプラットフォームを確立するためのガイダンスを提供し、対処すべき潜在的な問題と課題を特定します。

Traditional Federated Learning (FL) follows a server-domincated cooperation paradigm which narrows the application scenarios of FL and decreases the enthusiasm of data holders to participate. To fully unleash the potential of FL, we advocate rethinking the design of current FL frameworks and extending it to a more generalized concept: Open Federated Learning Platforms. We propose two reciprocal cooperation frameworks for FL to achieve this: query-based FL and contract-based FL. In this survey, we conduct a comprehensive review of the feasibility of constructing an open FL platform from both technical and legal perspectives. We begin by reviewing the definition of FL and summarizing its inherent limitations, including server-client coupling, low model reusability, and non-public. In the query-based FL platform, which is an open model sharing and reusing platform empowered by the community for model mining, we explore a wide range of valuable topics, including the availability of up-to-date model repositories for model querying, legal compliance analysis between different model licenses, and copyright issues and intellectual property protection in model reusing. In particular, we introduce a novel taxonomy to streamline the analysis of model license compatibility in FL studies that involve batch model reusing methods, including combination, amalgamation, distillation, and generation. This taxonomy provides a systematic framework for identifying the corresponding clauses of licenses and facilitates the identification of potential legal implications and restrictions when reusing models. Through this survey, we uncover the the current dilemmas faced by FL and advocate for the development of sustainable open FL platforms. We aim to provide guidance for establishing such platforms in the future, while identifying potential problems and challenges that need to be addressed.
翻訳日:2023-07-06 14:24:14 公開日:2023-07-05
# クロスドメインセマンティックセマンティックセグメンテーションのためのプロンプト拡散表現

Prompting Diffusion Representations for Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2307.02138v1 )

ライセンス: Link先を確認
Rui Gong, Martin Danelljan, Han Sun, Julio Delgado Mangas, Luc Van Gool(参考訳) もともと画像生成のために設計されたが、拡散モデルは近年、セマンティックセグメンテーションのための優れた事前訓練された特徴表現を提供することを示した。 この結果から、拡散事前表現がいかにして新しい領域に一般化するかを考察し、あらゆる表現にとって重要な能力となる。 拡散予測はセマンティックセグメンテーションの領域一般化に優れており,教師付きバックボーンネットワークや自己教師付きバックボーンネットワークよりも優れている。 そこで本研究では,ドメイン間性能をさらに向上するために,入力プロンプトを取り込むモデルのユニークな能力を活用する方法について検討する。 セグメンテーションヘッドをトレーニングする際に、シーンプロンプトとプロンプトランダム化戦略を導入し、ドメイン不変な情報をさらに分離する。 さらに,対象ドメイン上のシーンプロンプトを教師なしで学習する上で,テスト時間領域適応のための簡易かつ高効率なアプローチを提案する。 4種類の合成・実・クリア・トゥ・アドバース・ウェザー・ベンチマーク実験を行い,本手法の有効性を実証した。 画像翻訳や拡張,レアクラスのサンプリングといった複雑なテクニックを使わずに,すべてのベンチマークに最新技術を設定しました。 我々の実装は \url{https://github.com/ETHRuiGong/PTDiffSeg} で公開されます。

While originally designed for image generation, diffusion models have recently shown to provide excellent pretrained feature representations for semantic segmentation. Intrigued by this result, we set out to explore how well diffusion-pretrained representations generalize to new domains, a crucial ability for any representation. We find that diffusion-pretraining achieves extraordinary domain generalization results for semantic segmentation, outperforming both supervised and self-supervised backbone networks. Motivated by this, we investigate how to utilize the model's unique ability of taking an input prompt, in order to further enhance its cross-domain performance. We introduce a scene prompt and a prompt randomization strategy to help further disentangle the domain-invariant information when training the segmentation head. Moreover, we propose a simple but highly effective approach for test-time domain adaptation, based on learning a scene prompt on the target domain in an unsupervised manner. Extensive experiments conducted on four synthetic-to-real and clear-to-adverse weather benchmarks demonstrate the effectiveness of our approaches. Without resorting to any complex techniques, such as image translation, augmentation, or rare-class sampling, we set a new state-of-the-art on all benchmarks. Our implementation will be publicly available at \url{https://github.com/ETHRuiGong/PTDiffSeg}.
翻訳日:2023-07-06 14:23:45 公開日:2023-07-05
# 医療研究における反現実的説明の爆発的展開

Beyond Known Reality: Exploiting Counterfactual Explanations for Medical Research ( http://arxiv.org/abs/2307.02131v1 )

ライセンス: Link先を確認
Toygar Tanyel, Serkan Ayvaz and Bilgin Keserci(参考訳) 本研究は, 医療研究における「もしも」のシナリオを探索するために, 既存の境界を越えて理解を深める目的で, 反事実的説明を用いる。 特に, 小児眼窩後部脳腫瘍の診断にMRIの特徴を活用することに焦点を当てた。 人工知能と説明可能性の分野は、多くの研究と学術的な関心の高まりを目撃している。 しかし、機械学習アルゴリズムの結果を説明するための人間にやさしい解釈の欠如は、臨床医によるこれらの方法の受容を著しく妨げている。 この問題に対処するため,提案手法は,代替意思決定シナリオを検証するための新しい手法を提供する。 これらの説明はパーソナライズされた文脈固有の洞察を提供し、様々な状況下での予測の検証とバリエーションの明確化を可能にする。 重要な点は, 統計学的, 臨床的に両性が維持され, 異なる腫瘍の特徴を別の現実を通して検討できることである。 さらに, 医療研究における代替手法として, データ拡張における反ファクトリアルの活用の可能性を検討する。 以上の結果から, 臨床環境におけるAI駆動手法の信頼と受容を高めるために, 対実的説明が期待できる可能性が示された。

This study employs counterfactual explanations to explore "what if?" scenarios in medical research, with the aim of expanding our understanding beyond existing boundaries. Specifically, we focus on utilizing MRI features for diagnosing pediatric posterior fossa brain tumors as a case study. The field of artificial intelligence and explainability has witnessed a growing number of studies and increasing scholarly interest. However, the lack of human-friendly interpretations in explaining the outcomes of machine learning algorithms has significantly hindered the acceptance of these methods by clinicians in their clinical practice. To address this, our approach incorporates counterfactual explanations, providing a novel way to examine alternative decision-making scenarios. These explanations offer personalized and context-specific insights, enabling the validation of predictions and clarification of variations under diverse circumstances. Importantly, our approach maintains both statistical and clinical fidelity, allowing for the examination of distinct tumor features through alternative realities. Additionally, we explore the potential use of counterfactuals for data augmentation and evaluate their feasibility as an alternative approach in medical research. The results demonstrate the promising potential of counterfactual explanations to enhance trust and acceptance of AI-driven methods in clinical settings.
翻訳日:2023-07-06 14:23:22 公開日:2023-07-05
# 重み付きグラフィカルラッソのハイパーパラメータチューニングのための暗黙的微分

Implicit Differentiation for Hyperparameter Tuning the Weighted Graphical Lasso ( http://arxiv.org/abs/2307.02130v1 )

ライセンス: Link先を確認
Can Pouliquen, Paulo Gon\c{c}alves, Mathurin Massias, Titouan Vayer(参考訳) 一階法で解く二階最適化問題を通じてグラフィカルラスソのハイパーパラメータをチューニングするためのフレームワークおよびアルゴリズムを提供する。 特に、その正規化超パラメータに関してグラフィカルラッソ解のジャコビアンを導出する。

We provide a framework and algorithm for tuning the hyperparameters of the Graphical Lasso via a bilevel optimization problem solved with a first-order method. In particular, we derive the Jacobian of the Graphical Lasso solution with respect to its regularization hyperparameters.
翻訳日:2023-07-06 14:23:03 公開日:2023-07-05
# ニューラルネットワークが構成データをどのように学習するか:ランダム階層モデル

How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model ( http://arxiv.org/abs/2307.02129v1 )

ライセンス: Link先を確認
Leonardo Petrini, Francesco Cagnetta, Umberto M. Tomasini, Alessandro Favero, Matthieu Wyart(参考訳) 一般的な高次元タスクの学習は、その次元に指数関数的なトレーニングデータを必要とするため、特に難しい。 しかし、深層畳み込みニューラルネットワーク(CNN)はこの課題を克服することに成功した。 一般的な仮説は、学習可能なタスクは高度に構造化されており、cnnはこの構造を利用してデータの低次元表現を構築している。 しかし、どれだけのトレーニングデータが必要なのか、この数字がデータ構造に依存するのかについては、ほとんど分かっていない。 本稿では、実データの関連する側面を捉えようとする単純な分類タスクであるランダム階層モデルについて、この疑問に答える。 このモデルでは、各$n_c$クラスは高レベル特徴の$m$シノニム構成に対応し、繰り返し$l$を繰り返すプロセスを通じてサブフィーチャで構成されます。 我々は、このタスクを学習するために深層CNNが必要とするトレーニングデータ$P^*$の数が分かる。 i)入力次元の多項式である$n_c m^L$として漸近的に成長する。 (ii) 訓練されたネットワークの表現が同義語の交換に不変となるような訓練セットのサイズと一致する。 (iii)は、低レベル特徴とクラス間の相関が検出可能となるデータ数に対応する。 全体としては,CNNが不変表現を構築することによって次元の呪いを克服できることを示すとともに,その階層的な構成構造に基づいてタスクの学習に必要なデータの数を推定する。

Learning generic high-dimensional tasks is notably hard, as it requires a number of training data exponential in the dimension. Yet, deep convolutional neural networks (CNNs) have shown remarkable success in overcoming this challenge. A popular hypothesis is that learnable tasks are highly structured and that CNNs leverage this structure to build a low-dimensional representation of the data. However, little is known about how much training data they require, and how this number depends on the data structure. This paper answers this question for a simple classification task that seeks to capture relevant aspects of real data: the Random Hierarchy Model. In this model, each of the $n_c$ classes corresponds to $m$ synonymic compositions of high-level features, which are in turn composed of sub-features through an iterative process repeated $L$ times. We find that the number of training data $P^*$ required by deep CNNs to learn this task (i) grows asymptotically as $n_c m^L$, which is only polynomial in the input dimensionality; (ii) coincides with the training set size such that the representation of a trained network becomes invariant to exchanges of synonyms; (iii) corresponds to the number of data at which the correlations between low-level features and classes become detectable. Overall, our results indicate how deep CNNs can overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a task based on its hierarchically compositional structure.
翻訳日:2023-07-06 14:22:59 公開日:2023-07-05
# 文法的誤り訂正のための難解な抽象的意味表現の活用

Leveraging Denoised Abstract Meaning Representation for Grammatical Error Correction ( http://arxiv.org/abs/2307.02127v1 )

ライセンス: Link先を確認
Hejing Cao and Dongyan Zhao(参考訳) 文法的誤り訂正(英: Grammatical Error Correction, GEC)とは、誤りのある文を文法的に正しい、意味的に一貫性のある、一貫性のある文に修正する作業である。 一般的なGECモデルは、大規模な合成コーパスを使用するか、多数の人間が設計したルールを使用する。 前者は訓練に費用がかかるが、後者は人間の専門知識を必要とする。 近年、意味表現フレームワークであるAMRは、その完全性と柔軟性のため、多くの自然言語タスクで広く使われている。 非無視的な懸念は、文法的に誤りのある文のAMRが正確には信頼できないことである。 本稿では,AMRを付加知識として組み込んだSeq-to-seqモデルであるAMR-GECを提案する。 具体的には,意味的集約型GECモデルを設計し,AMRをより信頼性の高いものにする方法を探究する。 BEA-2019共有タスクとCoNLL-2014共有タスクの実験により、AMR-GECは、多数の合成データを持つ強いベースラインの集合と相容れない性能を示した。 合成データを用いたT5モデルと比較して、AMR-GECは推論時間と同等のトレーニング時間を32\%削減できる。 我々の知る限りでは、AMRを文法的誤り訂正に取り入れたのは初めてである。

Grammatical Error Correction (GEC) is the task of correcting errorful sentences into grammatically correct, semantically consistent, and coherent sentences. Popular GEC models either use large-scale synthetic corpora or use a large number of human-designed rules. The former is costly to train, while the latter requires quite a lot of human expertise. In recent years, AMR, a semantic representation framework, has been widely used by many natural language tasks due to its completeness and flexibility. A non-negligible concern is that AMRs of grammatically incorrect sentences may not be exactly reliable. In this paper, we propose the AMR-GEC, a seq-to-seq model that incorporates denoised AMR as additional knowledge. Specifically, We design a semantic aggregated GEC model and explore denoising methods to get AMRs more reliable. Experiments on the BEA-2019 shared task and the CoNLL-2014 shared task have shown that AMR-GEC performs comparably to a set of strong baselines with a large number of synthetic data. Compared with the T5 model with synthetic data, AMR-GEC can reduce the training time by 32\% while inference time is comparable. To the best of our knowledge, we are the first to incorporate AMR for grammatical error correction.
翻訳日:2023-07-06 14:22:34 公開日:2023-07-05
# FormAIデータセット: 形式検証のレンズによるソフトウェアセキュリティにおける生成AI

The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification ( http://arxiv.org/abs/2307.02192v1 )

ライセンス: Link先を確認
Norbert Tihanyi, Tamas Bisztray, Ridhi Jain, Mohamed Amine Ferrag, Lucas C. Cordeiro, Vasileios Mavroeidis(参考訳) 本稿では、脆弱性分類付き112,000のAI生成可能な独立したCプログラムの大規模なコレクションであるFormAIデータセットを提案する。 本稿では,大規模言語モデル(llm)を活用した多種多様なプログラム群を生成するための動的ゼロショットプロンプト手法を提案する。 データセットはGPT-3.5-turboによって生成され、様々なレベルの複雑さを持つプログラムから構成される。 ネットワーク管理、テーブルゲーム、暗号化といった複雑なタスクを扱うプログラムや、文字列操作のような単純なタスクを扱うプログラムもある。 各プログラムにはソースコード内の脆弱性がラベル付けされ、型、行番号、脆弱な関数名を示す。 これは、モデルチェック、抽象解釈、制約プログラミング、満足度モジュロ理論を実行する、効率的なSMTベースの境界モデルチェッカー(ESBMC)を使用して、プログラムの安全性/セキュリティ特性を推論する形式的検証手法を用いて実現される。 このアプローチは脆弱性を確定的に検出し、反例として知られる形式的なモデルを提供する。 このデータセットの特性は、様々な静的および動的解析ツールの有効性を評価するのに適している。 さらに、特定された脆弱性を関連するCWE(Common Weakness Enumeration)番号に関連付けている。 112,000のプログラムでソースコードを利用可能にするとともに、各プログラムで検出された脆弱性の詳細を包括的にリスト化することで、llmや機械学習アルゴリズムをトレーニングするのにデータセットが理想的になる。

This paper presents the FormAI dataset, a large collection of 112,000 AI-generated compilable and independent C programs with vulnerability classification. We introduce a dynamic zero-shot prompting technique, constructed to spawn a diverse set of programs utilizing Large Language Models (LLMs). The dataset is generated by GPT-3.5-turbo and comprises programs with varying levels of complexity. Some programs handle complicated tasks such as network management, table games, or encryption, while others deal with simpler tasks like string manipulation. Every program is labeled with the vulnerabilities found within the source code, indicating the type, line number, and vulnerable function name. This is accomplished by employing a formal verification method using the Efficient SMT-based Bounded Model Checker (ESBMC), which performs model checking, abstract interpretation, constraint programming, and satisfiability modulo theories, to reason over safety/security properties in programs. This approach definitively detects vulnerabilities and offers a formal model known as a counterexample, thus eliminating the possibility of generating false positive reports. This property of the dataset makes it suitable for evaluating the effectiveness of various static and dynamic analysis tools. Furthermore, we have associated the identified vulnerabilities with relevant Common Weakness Enumeration (CWE) numbers. We make the source code available for the 112,000 programs, accompanied by a comprehensive list detailing the vulnerabilities detected in each individual program including location and function name, which makes the dataset ideal to train LLMs and machine learning algorithms.
翻訳日:2023-07-06 14:16:56 公開日:2023-07-05
# 不確実な真実の下でAIシステムを評価する--皮膚科学の事例研究

Evaluating AI systems under uncertain ground truth: a case study in dermatology ( http://arxiv.org/abs/2307.02191v1 )

ライセンス: Link先を確認
David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang, Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun Liu, Arnaud Doucet, Alan Karthikesalingam(参考訳) 安全のために、健康状態のAIシステムは、デプロイ前に徹底的な評価を行い、確実と思われる基礎的な真実に対する予測を検証する。 しかし、実際にはそうではなく、根本的真理は明らかではない。 残念ながら、これはAIモデルの標準的な評価では無視されているが、将来のパフォーマンスを過大評価するような深刻な結果をもたらす可能性がある。 そこで本研究では,信頼度の高いアノテーションの欠如に起因するアノテーションの不確かさと,限られた観測情報による固有の不確かさの2つの主要な構成要素に分解を仮定する地中真実の不確かさの影響を計測する。 この基底真理の不確実性は、例えば多数決や平均化によってアノテーションを決定的に集約することで、基底真理を推定する際に無視される。 対照的に,統計モデルを用いて集約を行うフレームワークを提案する。 具体的には,アノテーションのアグリゲーションを,アノテータの信頼性を符号化するハイパーパラメータの対象となる分類設定におけるクラス上の分布を表す,いわゆるプラウジビティの後方推定として構成する。 このモデルに基づいて,アノテート不確実性を測定する指標を提案し,評価のための不確実性調整指標を提供する。 本研究は, 弁別診断の形でアノテーションが提供された画像から皮膚の状態分類に本手法を適用したケーススタディである。 逆ランク正規化(IRN)と呼ばれる決定論的偏見過程は、評価において根拠的真偽を無視する。 その代わり、IRNの確率バージョンとプラケット・ルーシモデルという2つの統計モデルを提案する。 その結果,データセットの大部分は重大な真偽の不確実性を示し,標準IRNによる評価は不確実性評価を伴わずに過大評価されることがわかった。

For safety, AI systems in health undergo thorough evaluations before deployment, validating their predictions against a ground truth that is assumed certain. However, this is actually not the case and the ground truth may be uncertain. Unfortunately, this is largely ignored in standard evaluation of AI models but can have severe consequences such as overestimating the future performance. To avoid this, we measure the effects of ground truth uncertainty, which we assume decomposes into two main components: annotation uncertainty which stems from the lack of reliable annotations, and inherent uncertainty due to limited observational information. This ground truth uncertainty is ignored when estimating the ground truth by deterministically aggregating annotations, e.g., by majority voting or averaging. In contrast, we propose a framework where aggregation is done using a statistical model. Specifically, we frame aggregation of annotations as posterior inference of so-called plausibilities, representing distributions over classes in a classification setting, subject to a hyper-parameter encoding annotator reliability. Based on this model, we propose a metric for measuring annotation uncertainty and provide uncertainty-adjusted metrics for performance evaluation. We present a case study applying our framework to skin condition classification from images where annotations are provided in the form of differential diagnoses. The deterministic adjudication process called inverse rank normalization (IRN) from previous work ignores ground truth uncertainty in evaluation. Instead, we present two alternative statistical models: a probabilistic version of IRN and a Plackett-Luce-based model. We find that a large portion of the dataset exhibits significant ground truth uncertainty and standard IRN-based evaluation severely over-estimates performance without providing uncertainty estimates.
翻訳日:2023-07-06 14:16:30 公開日:2023-07-05
# フォトニックチップ上の単一光子源からの3光子絡み合い

Heralded three-photon entanglement from a single-photon source on a photonic chip ( http://arxiv.org/abs/2307.02189v1 )

ライセンス: Link先を確認
Si Chen, Li-Chao Peng, Yong-Peng Guo, Xue-Mei Gu, Xing Ding, Run-Ze Liu, Xiang You, Jian Qin, Yun-Fei Wang, Yu-Ming He, Jelmer J. Renema, Yong-Heng Huo, Hui Wang, Chao-Yang Lu and Jian-Wei Pan(参考訳) 汎用フォトニック量子コンピュータの構築を目指す中で、融合ベースの量子計算は有望な戦略として注目されている。 このモデルは、多くの小さなn光子絡み合った資源状態を用いて、フィードフォワードなしでスケーラブルで損失耐性のある方法で、量子計算に普遍的な大規模クラスター状態の弾道的構成を可能にする。 しかし、このアーキテクチャの重要な障害は、フォトニックチップ上で必要な必須資源状態を生成することである。 まだ達成されていない重要な種状態の1つは3光子グリーンバーガー・ホーン・サイーリンガー(3ghz)状態である。 本稿では,この基本的資源ギャップに対処するため,有界二線符号化3GHZ状態の実験的実現を報告した。 実装では、低損失で完全にプログラム可能なフォトニックチップを使用し、通信方式では6つの異なる波長の光子を操作する。 シーディング検出の条件として, 0.573+-0.024で所望の3GHZ状態を得る。 我々の研究は、将来的なフォールトトレラントフォトニック量子コンピューティングにとって重要なステップであり、大規模光量子コンピュータの構築を加速させる。

In the quest to build general-purpose photonic quantum computers, fusion-based quantum computation has risen to prominence as a promising strategy. This model allows a ballistic construction of large cluster states which are universal for quantum computation, in a scalable and loss-tolerant way without feed-forward, by fusing many small n-photon entangled resource states. However, a key obstacle to this architecture lies in efficiently generating the required essential resource states on photonic chips. One such critical seed state that has not yet been achieved is the heralded three-photon Greenberger-Horne-Zeilinger (3-GHZ) state. Here, we address this elementary resource gap, by reporting the first experimental realization of a heralded dual-rail encoded 3-GHZ state. Our implementation employs a low-loss and fully programmable photonic chip that manipulates six indistinguishable single photons of wavelengths in the telecommunication regime. Conditional on the heralding detection, we obtain the desired 3-GHZ state with a fidelity 0.573+-0.024. Our work marks an important step for the future fault-tolerant photonic quantum computing, leading to the acceleration of building a large-scale optical quantum computer.
翻訳日:2023-07-06 14:15:58 公開日:2023-07-05
# citation: 責任と責任を負う大きな言語モデルを構築するための鍵

Citation: A Key to Building Responsible and Accountable Large Language Models ( http://arxiv.org/abs/2307.02185v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)は、知的財産権(IP)や倫理的関心事など、ユニークな課題と共に変革的な利益をもたらす。 本稿では、これらのリスクを軽減し、LLMと確立されたWebシステム間の並列性を図り、新しい角度を探索する。 私たちは、ipと倫理的なジレンマに対処しながら、コンテンツの透明性と検証可能性を高めるために、llmで欠落している要素として「引用」を識別します。 さらに、LLMの総合的な引用機構は、非パラメトリックコンテンツとパラメトリックコンテンツの両方を考慮すべきである。 このような引用機構を実装することの複雑さと、本質的な潜在的な落とし穴にもかかわらず、我々はその発展を提唱する。 そこで本稿では,本研究の基盤として,より責任と責任を負うllmの構築に向けた今後の研究をめざして,本研究の課題を概説する。

Large Language Models (LLMs) bring transformative benefits alongside unique challenges, including intellectual property (IP) and ethical concerns. This position paper explores a novel angle to mitigate these risks, drawing parallels between LLMs and established web systems. We identify "citation" as a crucial yet missing component in LLMs, which could enhance content transparency and verifiability while addressing IP and ethical dilemmas. We further propose that a comprehensive citation mechanism for LLMs should account for both non-parametric and parametric content. Despite the complexity of implementing such a citation mechanism, along with the inherent potential pitfalls, we advocate for its development. Building on this foundation, we outline several research problems in this area, aiming to guide future explorations towards building more responsible and accountable LLMs.
翻訳日:2023-07-06 14:15:38 公開日:2023-07-05
# オープンソースの大規模言語モデルがクラウドワーカーを上回り,テキスト注釈タスクにおけるchatgptへのアプローチ

Open-Source Large Language Models Outperform Crowd Workers and Approach ChatGPT in Text-Annotation Tasks ( http://arxiv.org/abs/2307.02179v1 )

ライセンス: Link先を確認
Meysam Alizadeh, Ma\"el Kubli, Zeynab Samei, Shirin Dehghani, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi(参考訳) 本研究では,テキストアノテーションタスクにおけるオープンソースのLarge Language Models(LLMs)の性能について検討し,ChatGPTやMTurkのような人間ベースのサービスと比較する。 以前の研究では、多くのNLPタスクにわたるChatGPTのパフォーマンスが実証されていたが、HugginChatやFLANといったオープンソースのLLMは、コスト効率、透明性、再現性、優れたデータ保護に注目されている。 ゼロショットと少数ショットの両方のアプローチと,テキストアノテーションタスクの異なる温度パラメータを用いて,これらのモデルを評価する。 以上の結果から,ChatGPTはMTurkより優れているだけでなく,特定のタスクにおいてChatGPTと競合する可能性を示した。

This study examines the performance of open-source Large Language Models (LLMs) in text annotation tasks and compares it with proprietary models like ChatGPT and human-based services such as MTurk. While prior research demonstrated the high performance of ChatGPT across numerous NLP tasks, open-source LLMs like HugginChat and FLAN are gaining attention for their cost-effectiveness, transparency, reproducibility, and superior data protection. We assess these models using both zero-shot and few-shot approaches and different temperature parameters across a range of text annotation tasks. Our findings show that while ChatGPT achieves the best performance in most tasks, open-source LLMs not only outperform MTurk but also demonstrate competitive potential against ChatGPT in specific tasks.
翻訳日:2023-07-06 14:15:22 公開日:2023-07-05
# 遅延観測による安全遮蔽

Safety Shielding under Delayed Observation ( http://arxiv.org/abs/2307.02164v1 )

ライセンス: Link先を確認
Filip Cano C\'ordoba, Alexander Palmisano, Martin Fr\"anzle, Roderick Bloem, Bettina K\"onighofer(参考訳) 物理的環境で動作するエージェントは、データ伝送やセンシングや環境の起動が瞬時ではないため、入出力信号の遅延を処理できる必要がある。 shieldは、正式な安全仕様に違反する可能性のあるアクションを修正して、安全な実行を保証する、ビルド毎のランタイム強制である。 安全保証の提供に加えて、シールドはエージェントと最小限に干渉する必要がある。 したがってシールドは、将来の干渉が最小限に抑えられるような安全な修正行動を選択するべきである。 現在の遮蔽法は、入力信号の安全性解析における遅延を考慮しない。 本稿では,この問題について述べる。 本稿では,入力信号の遅延に対する最悪の仮定の下での安全性を保証するための合成アルゴリズムを提案する。 また,遅延による将来のシールド干渉を最小限に抑えるために,複数の補正動作を決定するための新しいヒューリスティックスを導入する。 さらなる貢献として、現実的な運転シミュレータにおいてシールドを初めて統合する。 駆動シミュレータ \textsc{Carla} に遅延シールドを実装した。 我々は、安全クリティカルな異なるシナリオにおいて、潜在的に安全でない自律運転エージェントを遮蔽し、安全分析に対する遅延の影響を示す。

Agents operating in physical environments need to be able to handle delays in the input and output signals since neither data transmission nor sensing or actuating the environment are instantaneous. Shields are correct-by-construction runtime enforcers that guarantee safe execution by correcting any action that may cause a violation of a formal safety specification. Besides providing safety guarantees, shields should interfere minimally with the agent. Therefore, shields should pick the safe corrective actions in such a way that future interferences are most likely minimized. Current shielding approaches do not consider possible delays in the input signals in their safety analyses. In this paper, we address this issue. We propose synthesis algorithms to compute \emph{delay-resilient shields} that guarantee safety under worst-case assumptions on the delays of the input signals. We also introduce novel heuristics for deciding between multiple corrective actions, designed to minimize future shield interferences caused by delays. As a further contribution, we present the first integration of shields in a realistic driving simulator. We implemented our delayed shields in the driving simulator \textsc{Carla}. We shield potentially unsafe autonomous driving agents in different safety-critical scenarios and show the effect of delays on the safety analysis.
翻訳日:2023-07-06 14:15:04 公開日:2023-07-05
# 光子の力 : キャビティによる量子デバイス間のエネルギー伝達

The power of photons: Cavity-mediated energy transfer between quantum devices ( http://arxiv.org/abs/2307.02162v1 )

ライセンス: Link先を確認
Alba Crescente(参考訳) 量子充電器と量子電池とのコヒーレントエネルギー移動を解析する。 特に,フォトニックキャビティをメディエータとして付加することで直接エネルギー伝達を改善する方法について検討した。 我々は、光子によって与えられる付加的な自由度が、エネルギーレベルにミスマッチがあるオフ共鳴の場合よりも、転送性能を一貫して改善することを示した。 システムの各部分間の相互作用をスイッチオン/オフしたり、エネルギーレベルのミスマッチを発生させるような実験的な方法について説明する。

The coherent energy transfer between a quantum charger and a quantum battery is analyzed. In particular, we study how to improve the direct energy transfer by adding a photonic cavity as a mediator. We show that the additional degree of freedom given by the photons consistently improves the transfer performances, above all in the off-resonant case, where there is a mismatch in the energy levels. An experimental feasible way to switch-on and off the interaction between each part of the systems and the possibility of changing the energy levels mismatch will be described, in view of finding the best working setup.
翻訳日:2023-07-06 14:14:48 公開日:2023-07-05
# DiffFlow: Score-based Diffusion ModelsとGenerative Adversarial Networksのための統一SDEフレームワーク

DiffFlow: A Unified SDE Framework for Score-Based Diffusion Models and Generative Adversarial Networks ( http://arxiv.org/abs/2307.02159v1 )

ライセンス: Link先を確認
Jingwei Zhang, Han Shi, Jincheng Yu, Enze Xie, and Zhenguo Li(参考訳) 生成モデルは2つのタイプに分類される: 明示的な密度形式を定義し、スコアベース拡散モデル(SDM)や正規化フローのような正確な確率推論を可能にする明示的な生成モデル、生成的敵ネット(GAN)のようなデータ分布以前の変換を直接学習する暗黙的な生成モデル。 これらの2種類のモデルは非常に成功したが、速いサンプリングと高いサンプル品質を同時に達成することを妨げるそれぞれの制限に悩まされている。 本稿では,SDM と GAN の統一理論フレームワークを提案する。 私たちはそれを示しました i)sdmとgansの学習ダイナミクスは,実データのスコアと生成データの重み付けの組み合わせによってドリフトを決定することができる拡散フロー(拡散)を識別する新しいsdeとして記述することができる。 二 異なるスコア項間の相対重みの調整により、SDMとGANのスムーズな遷移を得ることができ、一方、SDEの限界分布は、重みの変化に不変である。 三 ディフフロー力学の漸近最適性及び最大可能性訓練スキームを証明すること。 iv) 統合理論の枠組みの下では, GAN と SDM 以外の新しいアルゴリズムを精度の高い推定で提供し,高品質と高速サンプリング速度の柔軟なトレードオフを実現することができるDiffFLow のいくつかのインスタンス化を導入する。

Generative models can be categorized into two types: explicit generative models that define explicit density forms and allow exact likelihood inference, such as score-based diffusion models (SDMs) and normalizing flows; implicit generative models that directly learn a transformation from the prior to the data distribution, such as generative adversarial nets (GANs). While these two types of models have shown great success, they suffer from respective limitations that hinder them from achieving fast sampling and high sample quality simultaneously. In this paper, we propose a unified theoretic framework for SDMs and GANs. We shown that: i) the learning dynamics of both SDMs and GANs can be described as a novel SDE named Discriminator Denoising Diffusion Flow (DiffFlow) where the drift can be determined by some weighted combinations of scores of the real data and the generated data; ii) By adjusting the relative weights between different score terms, we can obtain a smooth transition between SDMs and GANs while the marginal distribution of the SDE remains invariant to the change of the weights; iii) we prove the asymptotic optimality and maximal likelihood training scheme of the DiffFlow dynamics; iv) under our unified theoretic framework, we introduce several instantiations of the DiffFLow that provide new algorithms beyond GANs and SDMs with exact likelihood inference and have potential to achieve flexible trade-off between high sample quality and fast sampling speed.
翻訳日:2023-07-06 14:14:38 公開日:2023-07-05
# 大規模言語モデルによる生成的業務推薦

Generative Job Recommendations with Large Language Model ( http://arxiv.org/abs/2307.02157v1 )

ライセンス: Link先を確認
Zhi Zheng, Zhaopeng Qiu, Xiao Hu, Likang Wu, Hengshu Zhu, Hui Xiong(参考訳) オンライン採用サービスの急速な発展は、求職プロセスを合理化するレコメンダシステムの利用を奨励している。 主に、現在のジョブレコメンデーションは、コラボレーティブフィルタリングか、パーソン-ジョブマッチング戦略のいずれかをデプロイする。 しかしながら、これらのモデルは「ブラックボックス」システムとして機能し、求職者に説明可能なガイダンスを提供する能力がない傾向にある。 さらに、従来のマッチングベースのレコメンデーション方法は、データベース内の既存のジョブの検索とランク付けに限られており、総合的なキャリアAIアドバイザとしての可能性を制限する。 そこで本稿では,近年の大規模言語モデル(llm)分野の発展に触発された新しいアプローチであるgirl(generative job recommendation based on large language models)を提案する。 まず,就職希望者のカリキュラム vitae (cv) に基づいて,適切なジョブ記述 (jds) を作成する際に,llm ベースのジェネレータに指示する教師付き微調整 (sft) 戦略を採用する。 さらに,CVとJDの整合度を報酬モデルとして評価できるモデルをトレーニングし,PPOに基づく強化学習(Reinforcement Learning, RL)法を用いて生成体をさらに微調整する。 これはジェネレータとリクルーターのフィードバックを整合させ、雇用主の好みに合うようにアウトプットを調整します。 特に、GIRLは求職者中心の生成モデルとして機能し、候補セットを必要としない求職提案を提供する。 この機能は、ジョブ検索機能に生成されたコンテンツを追加することで、既存のジョブレコメンデーションモデルのパフォーマンスも向上する。 大規模実世界のデータセットを広範囲に実験した結果,本手法の有効性を実証した。 私たちは、ガールがよりパーソナライズされ、包括的な求職体験を育むために、ジョブレコメンデーションシステムにパラダイムシフトのアプローチを導入すると信じています。

The rapid development of online recruitment services has encouraged the utilization of recommender systems to streamline the job seeking process. Predominantly, current job recommendations deploy either collaborative filtering or person-job matching strategies. However, these models tend to operate as "black-box" systems and lack the capacity to offer explainable guidance to job seekers. Moreover, conventional matching-based recommendation methods are limited to retrieving and ranking existing jobs in the database, restricting their potential as comprehensive career AI advisors. To this end, here we present GIRL (GeneratIve job Recommendation based on Large language models), a novel approach inspired by recent advancements in the field of Large Language Models (LLMs). We initially employ a Supervised Fine-Tuning (SFT) strategy to instruct the LLM-based generator in crafting suitable Job Descriptions (JDs) based on the Curriculum Vitae (CV) of a job seeker. Moreover, we propose to train a model which can evaluate the matching degree between CVs and JDs as a reward model, and we use Proximal Policy Optimization (PPO)-based Reinforcement Learning (RL) method to further fine-tine the generator. This aligns the generator with recruiter feedback, tailoring the output to better meet employer preferences. In particular, GIRL serves as a job seeker-centric generative model, providing job suggestions without the need of a candidate set. This capability also enhances the performance of existing job recommendation models by supplementing job seeking features with generated content. With extensive experiments on a large-scale real-world dataset, we demonstrate the substantial effectiveness of our approach. We believe that GIRL introduces a paradigm-shifting approach to job recommendation systems, fostering a more personalized and comprehensive job-seeking experience.
翻訳日:2023-07-06 14:14:10 公開日:2023-07-05
# ディープラーニングアーキテクチャにまたがる特徴属性の調和:解釈可能性と一貫性の強化

Harmonizing Feature Attributions Across Deep Learning Architectures: Enhancing Interpretability and Consistency ( http://arxiv.org/abs/2307.02150v1 )

ライセンス: Link先を確認
Md Abdul Kadir, Gowtham Krishna Addluri, Daniel Sonntag(参考訳) 機械学習モデルの信頼性と解釈可能性を保証することは、現実のアプリケーションへのデプロイに不可欠である。 個々の入力特徴に重きを置くことによってモデル予測の局所的な説明を提供する機能帰属法が注目されている。 本研究では,畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマーなど,さまざまなディープラーニングアーキテクチャにおける特徴帰属の一般化について検討する。 本研究の目的は,特徴属性法を将来の検出器として活用することの実現可能性を評価し,これらの特徴を異なるアーキテクチャを用いた複数のモデルで調和させる方法を検討することである。 この調和を探求することで,特徴帰属に関するより一貫性と楽観的な理解を深め,多種多様なディープラーニングモデルにおける局所的説明の一貫性を高めることを目指す。 本研究は, アーキテクチャによらず, 解釈可能性の向上と機械学習アプリケーションの信頼性向上を目的とした, 調和した特徴属性手法の可能性を強調した。

Ensuring the trustworthiness and interpretability of machine learning models is critical to their deployment in real-world applications. Feature attribution methods have gained significant attention, which provide local explanations of model predictions by attributing importance to individual input features. This study examines the generalization of feature attributions across various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers. We aim to assess the feasibility of utilizing a feature attribution method as a future detector and examine how these features can be harmonized across multiple models employing distinct architectures but trained on the same data distribution. By exploring this harmonization, we aim to develop a more coherent and optimistic understanding of feature attributions, enhancing the consistency of local explanations across diverse deep-learning models. Our findings highlight the potential for harmonized feature attribution methods to improve interpretability and foster trust in machine learning applications, regardless of the underlying architecture.
翻訳日:2023-07-06 14:13:34 公開日:2023-07-05
# 拡散MRIにおける脳白質路の直接分画

Direct segmentation of brain white matter tracts in diffusion MRI ( http://arxiv.org/abs/2307.02223v1 )

ライセンス: Link先を確認
Hamza Kebiri, and Ali Gholipour, Meritxell Bach Cuadra, Davood Karimi(参考訳) 脳の白い物質は、脳の異なる領域を繋ぐ一連のトラクターから構成される。 これらの領域の分離は、臨床および研究研究にしばしば必要である。 拡散強調MRIは、これらのトラクトを記述するためのユニークなコントラストを提供する。 しかし、既存のセグメンテーション手法は、気道造影や繊維配向密度の推定のような中間計算に依存する。 これらの中間計算には、不要なエラーをもたらす複雑な計算が伴う。 さらに、これらの中間計算は、多くの臨床および研究用途で使用できない高密度のマルチシェル測定を必要とすることが多い。 その結果、現在の手法は精度が低く、一般化性が低い。 本稿では,拡散mriデータから直接これらの経路を分割し,中間計算誤差を回避できる新しい深層学習法を提案する。 実験により, この手法は, 分節化精度を, 分節法と同等の精度で達成できることが示される(dice類似度係数0.826)。 本手法は, 臨床研究の典型であるアンダーサンプルデータと, 異なる取得プロトコルを用いて得られたデータに対して, より優れた一般化性を提供する。 さらに,不正確なセグメンテーションを検出する新しい手法を提案し,推定の不確かさの定量化に基づく標準手法よりも精度が高いことを示す。 この新しい方法は、正確で信頼性の高いホワイトマターの非侵襲的なセグメンテーションを必要とする、多くの重要な臨床および科学的応用に役立つ。

The brain white matter consists of a set of tracts that connect distinct regions of the brain. Segmentation of these tracts is often needed for clinical and research studies. Diffusion-weighted MRI offers unique contrast to delineate these tracts. However, existing segmentation methods rely on intermediate computations such as tractography or estimation of fiber orientation density. These intermediate computations, in turn, entail complex computations that can result in unnecessary errors. Moreover, these intermediate computations often require dense multi-shell measurements that are unavailable in many clinical and research applications. As a result, current methods suffer from low accuracy and poor generalizability. Here, we propose a new deep learning method that segments these tracts directly from the diffusion MRI data, thereby sidestepping the intermediate computation errors. Our experiments show that this method can achieve segmentation accuracy that is on par with the state of the art methods (mean Dice Similarity Coefficient of 0.826). Compared with the state of the art, our method offers far superior generalizability to undersampled data that are typical of clinical studies and to data obtained with different acquisition protocols. Moreover, we propose a new method for detecting inaccurate segmentations and show that it is more accurate than standard methods that are based on estimation uncertainty quantification. The new methods can serve many critically important clinical and scientific applications that require accurate and reliable non-invasive segmentation of white matter tracts.
翻訳日:2023-07-06 14:05:31 公開日:2023-07-05
# Amortized Bayesian Meta-Learningによる個人化フェデレーション学習

Personalized Federated Learning via Amortized Bayesian Meta-Learning ( http://arxiv.org/abs/2307.02222v1 )

ライセンス: Link先を確認
Shiyu Liu, Shaogao Lv, Dun Zeng, Zenglin Xu, Hui Wang and Yue Yu(参考訳) フェデレーション学習(federated learning)は,複数のクライアントがサーバとコラボレーションして,プライベートデータを公開せずにグローバルモデルを学ぶ,分散型かつプライバシ保護のテクニックである。 しかしながら、グローバルモデルが各クライアントの特定のタスクでうまく機能するのに苦労する可能性があるため、クライアント間の統計的不均一性の存在は課題となる。 この問題に対処するために、Amortized Bayesian Meta-Learning を通じて、パーソナライズド・フェデレーション・ラーニングの新しい視点を導入する。 具体的には,クライアント間の階層的変動推論を用いた新しいアルゴリズム「emph{FedABML}」を提案する。 グローバルプリミティブは、異種クライアントからの共通固有構造表現をキャプチャし、各タスクに転送し、いくつかのローカル更新を通じてクライアント固有の近似後部の生成を支援することを目的としている。 我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。 最後に、いくつかの実験結果により、 \emph{FedABML} がいくつかの競争ベースラインを上回っていることを示す。

Federated learning is a decentralized and privacy-preserving technique that enables multiple clients to collaborate with a server to learn a global model without exposing their private data. However, the presence of statistical heterogeneity among clients poses a challenge, as the global model may struggle to perform well on each client's specific task. To address this issue, we introduce a new perspective on personalized federated learning through Amortized Bayesian Meta-Learning. Specifically, we propose a novel algorithm called \emph{FedABML}, which employs hierarchical variational inference across clients. The global prior aims to capture representations of common intrinsic structures from heterogeneous clients, which can then be transferred to their respective tasks and aid in the generation of accurate client-specific approximate posteriors through a few local updates. Our theoretical analysis provides an upper bound on the average generalization error and guarantees the generalization performance on unseen data. Finally, several empirical results are implemented to demonstrate that \emph{FedABML} outperforms several competitive baselines.
翻訳日:2023-07-06 14:05:12 公開日:2023-07-05
# 混合量子状態に対する強い量子速度制限

Stronger Quantum Speed Limit For Mixed Quantum States ( http://arxiv.org/abs/2307.02215v1 )

ライセンス: Link先を確認
Shrobona Bagchi, Dimpi Thakuria, Arun Kumar Pati(参考訳) 混合量子状態とユニタリ進化の強い不確実性関係を用いて、混合量子状態に対する量子速度制限を導出する。 また、この境界は、より良い境界を得るための演算子の異なる選択に対して最適化可能であることも示している。 このバウンダリをいくつかの例で説明し、以前のバウンダリよりも優れたパフォーマンスを示します。

We derive a quantum speed limit for mixed quantum states using the stronger uncertainty relation for mixed quantum states and unitary evolution. We also show that this bound can be optimized over different choices of operators for obtaining a better bound. We illustrate this bound with some examples and show its better performance with respect to some earlier bounds.
翻訳日:2023-07-06 14:04:53 公開日:2023-07-05
# 視覚障害者用触覚デバイスにおける物体認識システム

Object Recognition System on a Tactile Device for Visually Impaired ( http://arxiv.org/abs/2307.02211v1 )

ライセンス: Link先を確認
Souayah Abdelkader, Mokretar Kraroubi Abderrahmene, Slimane Larabi(参考訳) 視覚障害を持つ人々は、環境と対話する際に多くの課題に直面します。 本研究の目的は,視覚障害者とその周囲とのコミュニケーションを容易にするデバイスの開発である。 このデバイスは視覚情報を聴覚フィードバックに変換し、ユーザーは感覚ニーズに合った方法で環境を理解することができる。 当初、オブジェクト検出モデルは、時間や消費電力など、その正確さとコストを考慮した既存の機械学習モデルから選択される。 選択されたモデルはraspberry piに実装され、特別なデザインの触覚デバイスに接続されている。 装置が特定の位置にタッチされると、視覚障害者に対して、シーンに存在する物体の識別を対応する位置に伝達する音声信号を提供する。 実験では、静的または動的オブジェクトを含むシーン理解や、テレビ、コンピュータ、携帯電話などのスクリーンコンテンツにおけるこのデバイスの有効性を実証した。

People with visual impairments face numerous challenges when interacting with their environment. Our objective is to develop a device that facilitates communication between individuals with visual impairments and their surroundings. The device will convert visual information into auditory feedback, enabling users to understand their environment in a way that suits their sensory needs. Initially, an object detection model is selected from existing machine learning models based on its accuracy and cost considerations, including time and power consumption. The chosen model is then implemented on a Raspberry Pi, which is connected to a specifically designed tactile device. When the device is touched at a specific position, it provides an audio signal that communicates the identification of the object present in the scene at that corresponding position to the visually impaired individual. Conducted tests have demonstrated the effectiveness of this device in scene understanding, encompassing static or dynamic objects, as well as screen contents such as TVs, computers, and mobile phones.
翻訳日:2023-07-06 14:04:46 公開日:2023-07-05
# Cavity-Born-Oppenheimer Hartree-Fock Ansatz:強結合分子アンサンブルの光マター特性

Cavity-Born-Oppenheimer Hartree-Fock Ansatz: Light-matter Properties of Strongly Coupled Molecular Ensembles ( http://arxiv.org/abs/2307.02208v1 )

ライセンス: Link先を確認
Thomas Schnappinger, Dominik Sidler, Michael Ruggenthaler, Angel Rubio and Markus Kowalewski(参考訳) 実験により、光学キャビティは振動あるいは電子的強い結合と量子化されたキャビティモードを通じて化学反応に影響を与えることが示されている。 しかし、分子と閉じ込められた光モードの間の相互作用の現在の理解は不完全である。 したがって、分子間相互作用を考慮してアンサンブルを記述する正確な理論モデルは、分極化学を支配するメカニズムを理解するために不可欠である。 本稿では, ボルン・オッペンハイマー近似の枠組みにおいて, 光学キャビティと強く相互作用する分子について検討した。 このアンサッツは、キャビティを媒介とする双極子自己エネルギー寄与を考慮した強結合分子アンサンブルの非摂動的自己整合的記述を提供する。 ボルン・オッペンハイマー・ハートリー・フォック・アンザッツのキャビティ能力を示すために, 強結合二原子フッ化水素分子の集合効果について検討した。 本研究は, 共振器を介した分子間双極子間相互作用の重要性を強調し, 結合アンサンブルにおける個々の分子のエネルギー的変化を導いた。

Experimental studies indicate that optical cavities can affect chemical reactions, through either vibrational or electronic strong coupling and the quantized cavity modes. However, the current understanding of the interplay between molecules and confined light modes is incomplete. Accurate theoretical models, that take into account inter-molecular interactions to describe ensembles, are therefore essential to understand the mechanisms governing polaritonic chemistry. We present an ab-initio Hartree-Fock ansatz in the framework of the cavity Born-Oppenheimer approximation and study molecules strongly interacting with an optical cavity. This ansatz provides a non-perturbative, self-consistent description of strongly coupled molecular ensembles taking into account the cavity-mediated dipole self-energy contributions. To demonstrate the capability of the cavity Born-Oppenheimer Hartree-Fock ansatz, we study the collective effects in ensembles of strongly coupled diatomic hydrogen fluoride molecules. Our results highlight the importance of the cavity-mediated inter-molecular dipole-dipole interactions, which lead to energetic changes of individual molecules in the coupled ensemble.
翻訳日:2023-07-06 14:04:34 公開日:2023-07-05
# 絡み合いは単一分子パルス双光子分光を促進するか?

Does entanglement enhance single-molecule pulsed biphoton spectroscopy? ( http://arxiv.org/abs/2307.02204v1 )

ライセンス: Link先を確認
Aiman Khan, Francesco Albarelli, and Animesh Datta(参考訳) それは次第です。 双光子プローブの1つのモードと相互作用する単一分子に対して、分光情報には3つの寄与があり、そのうちの1つは真の2光子寄与であることを示す。 散乱光を全て測定できる場合、この寄与のみが存在し、無絡測定で完全に抽出できる。 さらに、この2光子寄与は、原則として、最適化された1光子プローブと一致させることができる。 物質系が自発的にアクセス不能モードに放出されると、絡み合いによる利点を排除できない。 実際には、時間周波数の絡み合いは、弱励起の自然パラメトリックダウン変換(PDC)プローブの分光性能を高める。 2レベルシステムと結合ダイマーでは、より絡み合ったpdcプローブは、アクセス不能モードへの放出が存在する場合でも、より多くの分光情報が得られる。 さらに、単純な無絡測定は分光情報の60%から90%を捉えることができる。 したがって、ソースエンジニアリングpdcプローブとアンエンタングル測定を用いたbiphoton分光法は、有形の量子拡張をもたらすことができる。 量子光を用いた単一分子分光法における絡み合いの複雑な役割を明らかにする。

It depends. For a single molecule interacting with one mode of a biphoton probe, we show that the spectroscopic information has three contributions, only one of which is a genuine two-photon contribution. When all the scattered light can be measured, solely this contribution exists and can be fully extracted using unentangled measurements. Furthermore, this two-photon contribution can, in principle, be matched by an optimised but unentangled single-photon probe. When the matter system spontaneously emits into inaccessible modes, an advantage due to entanglement can not be ruled out. In practice, time-frequency entanglement does enhance spectroscopic performance of the oft-studied weakly-pumped spontaneous parametric down conversion (PDC) probes. For two-level systems and coupled dimers, more entangled PDC probes yield more spectroscopic information, even in the presence of emission into inaccessible modes. Moreover, simple, unentangled measurements can capture between 60% - 90% of the spectroscopic information. We thus establish that biphoton spectroscopy using source-engineered PDC probes and unentangled measurements can provide tangible quantum enhancement. Our work underscores the intricate role of entanglement in single-molecule spectroscopy using quantum light.
翻訳日:2023-07-06 14:04:11 公開日:2023-07-05
# 3次元シミュレーションアンサンブルにおける統計依存性のインタラクティブ可視化のためのニューラルフィールド

Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v1 )

ライセンス: Link先を確認
Fatemeh Farokhmanesh, Kevin H\"ohlein, Christoph Neuhauser, and R\"udiger Westermann(参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。 線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。 我々は,複数の物理変数を250 x 352 x 20シミュレーショングリッドに格納した,1000人からなる大天気予報アンサンブルを用いて,学習と再構築を実証する。 計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。 これにより、etimatorをgpuによる直接ボリュームレンダラに組み込み、選択したドメインポイントに対するすべての相互依存関係をインタラクティブに可視化することができる。

We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point.
翻訳日:2023-07-06 14:03:53 公開日:2023-07-05
# 潜在空間における生成自己エンコーダの対向ロバスト性について

On the Adversarial Robustness of Generative Autoencoders in the Latent Space ( http://arxiv.org/abs/2307.02202v1 )

ライセンス: Link先を確認
Mingfei Lu and Badong Chen(参考訳) 可変オートエンコーダや対向オートエンコーダのような生成型オートエンコーダは、画像生成や信号通信を含む多くの実世界のアプリケーションで大きな成功を収めている。 しかし、実際の展開における堅牢性にはほとんど関心が払われていない。 確率的潜在性構造のため、変分オートエンコーダ(vaes)は、潜在性多様体と実データ多様体の後方分布の不一致や、潜在性の後方分布の不連続などの問題に直面する可能性がある。 これにより、特に通信や圧縮センシングなど、エンコーダとデコーダが別々に使用されるシナリオにおいて、悪意のある攻撃者が潜在空間からvaesを崩壊させるバックドアが残される。 本研究では、潜在空間における生成自己エンコーダの対角的堅牢性に関する最初の研究を行う。 具体的には、潜伏空間における攻撃による一般的な生成オートエンコーダの潜伏脆弱性を実証的に示す。 また,変分オートエンコーダと決定論的変種との差異を評価し,後者が潜在的ロバスト性において優れた性能を示すことを確かめた。 一方,本手法では,逆のロバスト性と潜在コードの絡み合いの程度との間に生じる潜在的なトレードオフを明らかにする。 また, 対人訓練によるVOEの潜在的堅牢性向上の可能性についても検証した。 まとめると、生成する自己エンコーダの対向的潜在ロバスト性について、いくつかのロバスト性関連問題を解析し、いくつかの重要な課題について考察する。

The generative autoencoders, such as the variational autoencoders or the adversarial autoencoders, have achieved great success in lots of real-world applications, including image generation, and signal communication. However, little concern has been devoted to their robustness during practical deployment. Due to the probabilistic latent structure, variational autoencoders (VAEs) may confront problems such as a mismatch between the posterior distribution of the latent and real data manifold, or discontinuity in the posterior distribution of the latent. This leaves a back door for malicious attackers to collapse VAEs from the latent space, especially in scenarios where the encoder and decoder are used separately, such as communication and compressed sensing. In this work, we provide the first study on the adversarial robustness of generative autoencoders in the latent space. Specifically, we empirically demonstrate the latent vulnerability of popular generative autoencoders through attacks in the latent space. We also evaluate the difference between variational autoencoders and their deterministic variants and observe that the latter performs better in latent robustness. Meanwhile, we identify a potential trade-off between the adversarial robustness and the degree of the disentanglement of the latent codes. Additionally, we also verify the feasibility of improvement for the latent robustness of VAEs through adversarial training. In summary, we suggest concerning the adversarial latent robustness of the generative autoencoders, analyze several robustness-relative issues, and give some insights into a series of key challenges.
翻訳日:2023-07-06 14:03:41 公開日:2023-07-05
# ChiENN: グラフニューラルネットワークによる分子キラリティの実現

ChiENN: Embracing Molecular Chirality with Graph Neural Networks ( http://arxiv.org/abs/2307.02198v1 )

ライセンス: Link先を確認
Piotr Gai\'nski (1), Micha{\l} Koziarski (2 and 3), Jacek Tabor (1), Marek \'Smieja (1) ((1) Jagiellonian University, (2) Mila - Quebec AI Institute, (3) Universit\'e de Montr\'eal)(参考訳) グラフニューラルネットワーク(GNN)は多くのディープラーニング問題、特に化学情報学において基本的な役割を果たす。 しかし、典型的なgnnはキラリティーの概念を捉えられないため、化学化合物の3dグラフとその鏡像(エナンチオマー)を区別できない。 エナンチオマーを区別する能力は、エナンチオマーが非常に異なる生化学的性質を持つ可能性があるため、創薬において特に重要である。 本稿では,GNNをノード近傍の順序に敏感にする,理論的に正当化されたメッセージパス方式を提案する。 分子キラリティの文脈において、この一般的な概念を適用し、任意のGNNモデルに付加してキラリティ認識を可能にするキラリティエッジニューラルネットワーク(ChiENN)層を構築する。 GNNにChiENN層を追加することで、キラル感受性分子特性予測タスクにおける最先端の手法よりも優れた性能を示すことを示す。

Graph Neural Networks (GNNs) play a fundamental role in many deep learning problems, in particular in cheminformatics. However, typical GNNs cannot capture the concept of chirality, which means they do not distinguish between the 3D graph of a chemical compound and its mirror image (enantiomer). The ability to distinguish between enantiomers is important especially in drug discovery because enantiomers can have very distinct biochemical properties. In this paper, we propose a theoretically justified message-passing scheme, which makes GNNs sensitive to the order of node neighbors. We apply that general concept in the context of molecular chirality to construct Chiral Edge Neural Network (ChiENN) layer which can be appended to any GNN model to enable chirality-awareness. Our experiments show that adding ChiENN layers to a GNN outperforms current state-of-the-art methods in chiral-sensitive molecular property prediction tasks.
翻訳日:2023-07-06 14:03:15 公開日:2023-07-05
# 最適保存QUBOパラメータ圧縮

Optimum-Preserving QUBO Parameter Compression ( http://arxiv.org/abs/2307.02195v1 )

ライセンス: Link先を確認
Sascha M\"ucke and Thore Gerlach and Nico Piatkowski(参考訳) quabo(quadratic unconstrained binary optimization)問題は、現代の量子アニーリングや古典的なハードウェアアクセラレーションを使ってアプローチできるため、よく研究されている。 しかし、精度の制限とハードウェアノイズのため、有効なパラメータ値のセットは厳しく制限されている。 その結果、解決可能な問題は難しくなり、あるいは難解になる。 本研究では,QUBO問題を限定的精度で解くことの意味について検討する。 具体的には、問題のダイナミックレンジが歪みに対する問題のロバスト性に重大な影響を与えていることが示されている。 本稿では、QUBOインスタンス間の最適保存の概念を定式化し、最小化ソリューションのセットを変更することなく拡張パラメータを変更できる方法を提案する。 これらの知見に基づいて、最小エネルギー値の理論的境界に基づいて、与えられたQUBOインスタンスの動的範囲を削減する手法を導入する。 ランダムなQUBOインスタンスと、QUBOに符号化されたバイナリクラスタリングおよびサブセットサム問題に関する実験的評価は、我々の理論的発見が実際に現れることを示している。 量子アニールハードウェアの結果から,本手法に従えば大幅な性能向上が期待できることがわかった。

Quadratic unconstrained binary optimization (QUBO) problems are well-studied, not least because they can be approached using contemporary quantum annealing or classical hardware acceleration. However, due to limited precision and hardware noise, the effective set of feasible parameter values is severely restricted. As a result, otherwise solvable problems become harder or even intractable. In this work, we study the implications of solving QUBO problems under limited precision. Specifically, it is shown that the problem's dynamic range has a crucial impact on the problem's robustness against distortions. We show this by formalizing the notion of preserving optima between QUBO instances and explore to which extend parameters can be modified without changing the set of minimizing solutions. Based on these insights, we introduce techniques to reduce the dynamic range of a given QUBO instance based on theoretical bounds of the minimal energy value. An experimental evaluation on random QUBO instances as well as QUBO-encoded Binary Clustering and Subset Sum problems show that our theoretical findings manifest in practice. Results on quantum annealing hardware show that the performance can be improved drastically when following our methodology.
翻訳日:2023-07-06 14:02:59 公開日:2023-07-05
# 全スライド画像分類のための複数インスタンス学習の再考: よいインスタンス分類器は必要なだけ

Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Good Instance Classifier is All You Need ( http://arxiv.org/abs/2307.02249v1 )

ライセンス: Link先を確認
Linhao Qu, Yingfan Ma, Xiaoyuan Luo, Manning Wang, and Zhijian Song(参考訳) 弱教師付き全スライド画像分類は通常、多重インスタンス学習(MIL)問題として定式化され、各スライドはバッグとして扱われ、そこから取り出されたパッチはインスタンスとして扱われる。 既存のメソッドでは、擬似ラベルでインスタンス分類器を訓練するか、アテンション機構を介してバッグの特徴を集約し、バッグ分類器を訓練し、アテンションスコアをインスタンスレベルの分類に使用できる。 しかしながら、前者によって構築された擬似インスタンスラベルは、通常多くのノイズを含み、後者によって構築された注目スコアは十分正確ではなく、どちらもパフォーマンスに影響する。 本稿では,インスタンス分類とバッグ分類の両タスクを効果的に実現するために,コントラスト学習とプロトタイプ学習に基づくインスタンスレベルのmilフレームワークを提案する。 そこで本研究では,MIL設定下でインスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案し,インスタンスの特徴表現を効果的に学習する。 また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。 次に,弱い教師付きコントラスト学習,プロトタイプ学習,インスタンス分類訓練のための合同学習戦略を開発した。 4つのデータセットの大規模な実験と可視化は、我々の手法の強力な性能を示す。 コードは利用可能だ。

Weakly supervised whole slide image classification is usually formulated as a multiple instance learning (MIL) problem, where each slide is treated as a bag, and the patches cut out of it are treated as instances. Existing methods either train an instance classifier through pseudo-labeling or aggregate instance features into a bag feature through attention mechanisms and then train a bag classifier, where the attention scores can be used for instance-level classification. However, the pseudo instance labels constructed by the former usually contain a lot of noise, and the attention scores constructed by the latter are not accurate enough, both of which affect their performance. In this paper, we propose an instance-level MIL framework based on contrastive learning and prototype learning to effectively accomplish both instance classification and bag classification tasks. To this end, we propose an instance-level weakly supervised contrastive learning algorithm for the first time under the MIL setting to effectively learn instance feature representation. We also propose an accurate pseudo label generation method through prototype learning. We then develop a joint training strategy for weakly supervised contrastive learning, prototype learning, and instance classifier training. Extensive experiments and visualizations on four datasets demonstrate the powerful performance of our method. Codes will be available.
翻訳日:2023-07-06 13:57:42 公開日:2023-07-05
# s3c: クラスインクリメンタル学習のための自己教師付き確率分類器

S3C: Self-Supervised Stochastic Classifiers for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2307.02246v1 )

ライセンス: Link先を確認
Jayateja Kalla and Soma Biswas(参考訳) FSCIL(Few-shot class-incremental Learning)は、既に学習済みのクラスについての知識を忘れずに、ラベル付きサンプルがほとんどない新しいクラスについて徐々に学習することを目的としている。 FSCILは2つの大きな課題に悩まされている。 (i)データ量が限られているため、新しいクラスに過度に適合する。 (II) 段階的にこれらのクラスからのデータが利用できないため、古いクラスを破滅的に忘れてしまう。 本研究では,これらの課題に対処する自己教師型確率分類器(S3C)を提案する。 分類器重み(またはクラスプロトタイプ)の確率性は、新しいクラスの多数のサンプルが存在しないことの悪影響を緩和するだけでなく、インクリメンタルステップ中に学習したクラスからのサンプルの欠如を緩和する。 これはself-supervisionコンポーネントによって補完される。これは、将来遭遇する未発見のクラスにうまく一般化し、破滅的な忘れることを減らすベースクラスから機能を学ぶのに役立つ。 複数の評価指標を用いた3つのベンチマークデータセットの大規模な評価は,提案フレームワークの有効性を示す。 また、新たなクラス毎に利用可能なアノテーション付きデータの数が異なる場合や、ベースクラスの数がはるかに少ない場合など、FSCILのさらに2つの現実的なシナリオを実験し、提案したS3Cがこれらの難解なシナリオすべてに対して、最先端よりもはるかに優れていることを示す。

Few-shot class-incremental learning (FSCIL) aims to learn progressively about new classes with very few labeled samples, without forgetting the knowledge of already learnt classes. FSCIL suffers from two major challenges: (i) over-fitting on the new classes due to limited amount of data, (ii) catastrophically forgetting about the old classes due to unavailability of data from these classes in the incremental stages. In this work, we propose a self-supervised stochastic classifier (S3C) to counter both these challenges in FSCIL. The stochasticity of the classifier weights (or class prototypes) not only mitigates the adverse effect of absence of large number of samples of the new classes, but also the absence of samples from previously learnt classes during the incremental steps. This is complemented by the self-supervision component, which helps to learn features from the base classes which generalize well to unseen classes that are encountered in future, thus reducing catastrophic forgetting. Extensive evaluation on three benchmark datasets using multiple evaluation metrics show the effectiveness of the proposed framework. We also experiment on two additional realistic scenarios of FSCIL, namely where the number of annotated data available for each of the new classes can be different, and also where the number of base classes is much lesser, and show that the proposed S3C performs significantly better than the state-of-the-art for all these challenging scenarios.
翻訳日:2023-07-06 13:57:21 公開日:2023-07-05
# 正確な校正モデルのための集合学習

Set Learning for Accurate and Calibrated Models ( http://arxiv.org/abs/2307.02245v1 )

ライセンス: Link先を確認
Lukas Muttenthaler and Robert A. Vandermeulen and Qiuyi (Richard) Zhang and Thomas Unterthiner and Klaus-Robert M\"uller(参考訳) モデル過信と不適切なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合の考慮が難しい。 そこで本研究では,単一例ではなく集合に対するクロスエントロピー誤差を最小限に抑える,奇数k$out Learning(OKO)と呼ばれる,これらの問題を緩和する新しい手法を提案する。 これにより、モデルがデータサンプル間の相関をキャプチャし、特に限られたトレーニングデータとクラス不均衡なレシエーションにおいて、精度とキャリブレーションの両方を向上することができる。 おそらく、OKOは硬いラベルでトレーニングしたり、温度スケーリングのような追加のキャリブレーションパラメータチューニングを落としたりしても、キャリブレーションが良くなる。 理論的な正当性を提供し、オコが自然により良い校正をもたらすことを立証し、理論的な知見を裏付ける広範な実験分析を行う。 OKOは、多くの設定に簡単に適応できる一般的なフレームワークであり、トレーニングされたモデルは、実行時のオーバーヘッドやアーキテクチャの変更を伴わずに、推論時に単一の例に適用できる。

Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We provide theoretical justification, establishing that OKO naturally yields better calibration, and provide extensive experimental analyses that corroborate our theoretical findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and the trained model can be applied to single examples at inference time, without introducing significant run-time overhead or architecture changes.
翻訳日:2023-07-06 13:56:53 公開日:2023-07-05
# パワーアップ! 生成モデルは人間の計算ワークフローに何ができるか?

Power-up! What Can Generative Models Do for Human Computation Workflows? ( http://arxiv.org/abs/2307.02243v1 )

ライセンス: Link先を確認
Garrett Allen, Gaole He, Ujwal Gadiraju(参考訳) 私たちは人工知能研究の爆発の中で、特に大きな言語モデル(LLM)についています。 これらのモデルには、医学、金融、常識知識グラフ、クラウドソーシングなど、さまざまな分野の応用がある。 クラウドソーシングワークフローの一部としてのLLMの調査は、まだ未調査の領域である。 クラウドソーシング研究コミュニティは、ハイブリッドなヒューマン-AI手法を使用して複雑なタスクを管理するためのワークフローや手法を調査している。 クラウドソーシングでは、LLMの役割は、ワークフローの大きな車輪のコグに似ています。 実証的な観点からみると、LLMがクラウドソーシングワークフローの有効性をどのように改善できるか、そのようなワークフローをどのように評価できるかについては、現時点ではほとんど分かっていない。 本稿では,クラウドソーシングのパラダイムに関わるさまざまなステークホルダー,タスク要求者,クラウドワーカー,プラットフォーム,エンドユーザの視点から,このギャップを探求するためのビジョンを提案する。 一般のクラウドソーシングワークフローにおいて,LLMの導入が有用な役割を担い,既存のデザインパターンをクラウドソーシングに拡張する手法を提案する。

We are amidst an explosion of artificial intelligence research, particularly around large language models (LLMs). These models have a range of applications across domains like medicine, finance, commonsense knowledge graphs, and crowdsourcing. Investigation into LLMs as part of crowdsourcing workflows remains an under-explored space. The crowdsourcing research community has produced a body of work investigating workflows and methods for managing complex tasks using hybrid human-AI methods. Within crowdsourcing, the role of LLMs can be envisioned as akin to a cog in a larger wheel of workflows. From an empirical standpoint, little is currently understood about how LLMs can improve the effectiveness of crowdsourcing workflows and how such workflows can be evaluated. In this work, we present a vision for exploring this gap from the perspectives of various stakeholders involved in the crowdsourcing paradigm -- the task requesters, crowd workers, platforms, and end-users. We identify junctures in typical crowdsourcing workflows at which the introduction of LLMs can play a beneficial role and propose means to augment existing design patterns for crowd work.
翻訳日:2023-07-06 13:56:34 公開日:2023-07-05
# レーザー冷凍強化のための不活性殻コーティングの探索:浮遊光学への応用

Exploring inert-shell coating for enhanced laser refrigeration: application in levitated optomechanics ( http://arxiv.org/abs/2307.02240v1 )

ライセンス: Link先を確認
Cyril Laplane, Peng Ren, Reece P. Roberts, Yiqing Lu, and Thomas Volz(参考訳) 本稿では, 浮遊光力学への応用において, レーザー冷凍効率を向上させるナノ粒子の設計について検討する。 特にランタニドドープナノ結晶を不活性殻コーティングで開発し,その性能を素ナノ結晶と比較した。 両ナノ粒子の冷却について, 圧力を変化させながら検討した。 コア殻の4分の1のナノ粒子は、裸のナノ粒子のほとんどと比較して、かなりの冷却量を示した。 具体的には,コア殻のナノ粒子を26mbarの温度で147Kまで冷却した。 本研究は, 絶対冷却(質量中心, 内部温度)を達成するのに適したナノ粒子工学への第一歩であり, 力覚の新たな道を開き, マクロな量子重ね合わせの実現を目指す。

Here we report on a study exploring the design of nanoparticles that can enhance their laser refrigeration efficiency for applications in levitated optomechanics. In particular, we developed lanthanide-doped nanocrystals with an inert shell coating and compared their performance with bare nanocrystals. While optically levitated, we studied the refrigeration of both types of nanoparticles while varying the pressure. We found that the core-shell design shows an improvement in the minimum final temperature: a fourth of the core-shell nanoparticles showed a significant cooling compared to almost none of the bare nanoparticles. Specifically, We measured a core-shell nanoparticle cooling down to a temperature of 147 K at 26 mbar in the underdamped regime. Our study is a first step towards engineering nanoparticles that are suitable for achieving absolute (centre-of-mass and internal temperature) cooling in levitation, opening new avenues for force sensing and the realization of macroscopic quantum superpositions.
翻訳日:2023-07-06 13:56:18 公開日:2023-07-05
# 音源同定:密集予測のための自己スーパービジョンタスク

Source Identification: A Self-Supervision Task for Dense Prediction ( http://arxiv.org/abs/2307.02238v1 )

ライセンス: Link先を確認
Shuai Chen and Subhradeep Kayal and Marleen de Bruijne(参考訳) セルフスーパービジョンのパラダイムは、現在のデータ駆動方式の主なボトルネックである、労力を要するアノテーションを必要としない生データからの表現学習に焦点を当てている。 セルフスーパービジョンタスクは、大量のラベルのないデータでニューラルネットワークを事前トレーニングし、データセットの一般的な特徴を抽出するためにしばしば使用される。 学習モデルには、下流のメインタスクに転送できる有用な情報が含まれており、ランダムパラメータの初期化よりも性能が向上する可能性が高い。 本稿では,従来のブラインド音源分離問題に触発された,ソース識別(si)と呼ばれる新しい自己スーパービジョンタスクを提案する。 合成画像は、複数のソースイメージを融合させて生成され、融合された画像を考えると、ネットワークのタスクは元のイメージを再構築することである。 タスクをうまく解くためには、画像内容の適切な理解が必要である。 脳腫瘍分節と白質高強度分節という2つの医療画像分節課題に対して,本手法の有効性を検証した。 その結果,提案するsiタスクは,インパインティング,ピクセルシャッフル,強度シフト,スーパーレゾリューションといった,従来の自己スーパービジョンタスクよりも優れていることがわかった。 異なるタイプのイメージを融合するsiタスクのバリエーションのうち、異なる患者からのイメージを融合させるのが最適である。

The paradigm of self-supervision focuses on representation learning from raw data without the need of labor-consuming annotations, which is the main bottleneck of current data-driven methods. Self-supervision tasks are often used to pre-train a neural network with a large amount of unlabeled data and extract generic features of the dataset. The learned model is likely to contain useful information which can be transferred to the downstream main task and improve performance compared to random parameter initialization. In this paper, we propose a new self-supervision task called source identification (SI), which is inspired by the classic blind source separation problem. Synthetic images are generated by fusing multiple source images and the network's task is to reconstruct the original images, given the fused images. A proper understanding of the image content is required to successfully solve the task. We validate our method on two medical image segmentation tasks: brain tumor segmentation and white matter hyperintensities segmentation. The results show that the proposed SI task outperforms traditional self-supervision tasks for dense predictions including inpainting, pixel shuffling, intensity shift, and super-resolution. Among variations of the SI task fusing images of different types, fusing images from different patients performs best.
翻訳日:2023-07-06 13:55:51 公開日:2023-07-05
# 無限大のない真空分極

Vacuum polarisation without infinities ( http://arxiv.org/abs/2307.02233v1 )

ライセンス: Link先を確認
Dirk - Andr\'e Deckert, Franz Merkl, Markus N\"oth(参考訳) detlef d\"urrを称えて,電気真空分極電流の数学的厳密な計算を報告し,二階摂動に対するよく知られた表現を抽出する。 提示された計算の中間ステップは、初めて著者の知識に対して、次元とポーリ・ビラーズ正規化スキームの数学的厳密なバージョンを示す。 これらは計算中に便利な積分表現を推測するための計算ツールとして用いられる。 上記の二階述語表現は、始点から終点までの不明確な条件なしで、実数の残りの自由度まで決定される。

In honour of Detlef D\"urr, we report on a mathematical rigorous computation of the electric vacuum polarisation current and extract the well-known expression for the second order perturbation. Intermediate steps in the presented calculation demonstrate, to the knowledge of the authors for the first time, mathematical rigorous versions of the combined dimensional and Pauli-Villars regularisation schemes. These are employed as computational tools to infer convenient integral representations during the computation. The said second order expression is determined up to a remaining degree of freedom of a real number -- without ill-defined terms from start to end.
翻訳日:2023-07-06 13:55:14 公開日:2023-07-05
# 教師付き回帰のための知識誘導付加モデル

Knowledge-Guided Additive Modeling For Supervised Regression ( http://arxiv.org/abs/2307.02229v1 )

ライセンス: Link先を確認
Yann Claes, V\^an Anh Huynh-Thu, Pierre Geurts(参考訳) 制限されたドメイン知識を活用することによって学習プロセスは、データ駆動とモデルベースのアプローチを組み合わせた、ますます多くの科学的分野における重要なタスクである。 しかし、これらのハイブリッド手法は様々な科学的応用で試験されてきたが、主に力学系で試験されており、各モデル成分が大域的性能とパラメータ同定に与える影響についてのみ研究されている。 本研究では,標準回帰問題に対する従来の機械学習手法に対するハイブリッドモデリングの性能を評価する。 合成問題と実回帰問題の両方において、そのようなハイブリッドモデルを訓練するためのいくつかのアプローチを比較する。 パラメトリック物理用語と機械学習用語を付加的に結合したハイブリッド手法に着目し,モデル非依存なトレーニング手順を検討する。 また,部分依存関数に基づく新しいハイブリッド手法を提案する。 ツリーベースモデルや人工ニューラルネットワークなど、さまざまなタイプの機械学習モデルで実験が実施されている。

Learning processes by exploiting restricted domain knowledge is an important task across a plethora of scientific areas, with more and more hybrid methods combining data-driven and model-based approaches. However, while such hybrid methods have been tested in various scientific applications, they have been mostly tested on dynamical systems, with only limited study about the influence of each model component on global performance and parameter identification. In this work, we assess the performance of hybrid modeling against traditional machine learning methods on standard regression problems. We compare, on both synthetic and real regression problems, several approaches for training such hybrid models. We focus on hybrid methods that additively combine a parametric physical term with a machine learning term and investigate model-agnostic training procedures. We also introduce a new hybrid approach based on partial dependence functions. Experiments are carried out with different types of machine learning models, including tree-based models and artificial neural networks.
翻訳日:2023-07-06 13:54:49 公開日:2023-07-05
# MAE-DFER:自己教師型動的顔表情認識のための効率的なマスク付きオートエンコーダ

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2307.02227v1 )

ライセンス: Link先を確認
Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao(参考訳) 動的表情認識(DFER)は、インテリジェントで共感的な機械の開発に不可欠である。 この分野での以前の取り組みは、既存のデータセットに制限されたラベル付きデータによって制限される教師付き学習パラダイムに主に当てはまる。 マスク付きオートエンコーダ(例: VideoMAE)の先例のない成功に触発されて,多量のラベルのないデータによる大規模自己教師付き事前学習を活用してDFERの開発を進める,新しい自己教師型手法であるMAE-DFERを提案する。 ビデオMAEで使用されるバニラ・ビジョン・トランスフォーマー(ViT)は微調整中にかなりの計算を必要とするため、MAE-DFERはエンコーダとして効率的なローカル・グローバル・インタラクション・トランスフォーマー(LGI-Former)を開発する。 LGI-Formerは、まず、局所時空間領域における自己注意を制約し、次に、学習可能な代表トークンの小さなセットを用いて、効率的なローカル・グローバル情報交換を実現する。 さらに,videomaeにおけるスタンドアロンの外観コンテンツ再構成に加えて,lgi-formerが静的な外観と動的動作情報の両方を抽出できるように,明示的な顔動作モデリングも導入している。 6つのデータセットに対する大規模な実験により、MAE-DFERは最先端の教師付き手法をかなりのマージンで一貫して上回り、大規模なセルフ教師付き事前学習を通じて強力な動的顔表現を学習できることが確認された。 さらに、ビデオMAEと同等かそれ以上の性能を有し、計算コスト(約38 % FLOPs)を大幅に削減している。 mae-dferは、dferの進歩のための新しい方法を開拓し、この分野におけるより深い研究や、他の関連するタスクを刺激することができると信じている。 コードとモデルはhttps://github.com/sunlicai/MAE-DFERで公開されている。

Dynamic facial expression recognition (DFER) is essential to the development of intelligent and empathetic machines. Prior efforts in this field mainly fall into supervised learning paradigm, which is restricted by the limited labeled data in existing datasets. Inspired by recent unprecedented success of masked autoencoders (e.g., VideoMAE), this paper proposes MAE-DFER, a novel self-supervised method which leverages large-scale self-supervised pre-training on abundant unlabeled data to advance the development of DFER. Since the vanilla Vision Transformer (ViT) employed in VideoMAE requires substantial computation during fine-tuning, MAE-DFER develops an efficient local-global interaction Transformer (LGI-Former) as the encoder. LGI-Former first constrains self-attention in local spatiotemporal regions and then utilizes a small set of learnable representative tokens to achieve efficient local-global information exchange, thus avoiding the expensive computation of global space-time self-attention in ViT. Moreover, in addition to the standalone appearance content reconstruction in VideoMAE, MAE-DFER also introduces explicit facial motion modeling to encourage LGI-Former to excavate both static appearance and dynamic motion information. Extensive experiments on six datasets show that MAE-DFER consistently outperforms state-of-the-art supervised methods by significant margins, verifying that it can learn powerful dynamic facial representations via large-scale self-supervised pre-training. Besides, it has comparable or even better performance than VideoMAE, while largely reducing the computational cost (about 38\% FLOPs). We believe MAE-DFER has paved a new way for the advancement of DFER and can inspire more relavant research in this field and even other related tasks. Codes and models are publicly available at https://github.com/sunlicai/MAE-DFER.
翻訳日:2023-07-06 13:54:29 公開日:2023-07-05
# 高次元量子鍵分布の効率的な情報再構成

Efficient Information Reconciliation for High-Dimensional Quantum Key Distribution ( http://arxiv.org/abs/2307.02225v1 )

ライセンス: Link先を確認
Ronny Mueller, Domenico Ribezzo, Mujtaba Zahidy, Leif Katsuo Oxenl{\o}we, Davide Bacco, S{\o}ren Forchhammer(参考訳) 量子鍵分布における情報再構成フェーズは、任意のQKDシステムの範囲とスループットに大きな影響を与える。 本稿では、高次元QKD実装のこの段階を探求し、和解のための2つの新しい方法を紹介する。 これらの手法は非バイナリLDPC符号とカスケードアルゴリズムに基づいており、q-ary対称チャネル上のSlepian-Wolf境界に近い効率を実現する。

The Information Reconciliation phase in quantum key distribution has significant impact on the range and throughput of any QKD system. We explore this stage for high-dimensional QKD implementations and introduce two novel methods for reconciliation. The methods are based on nonbinary LDPC codes and the Cascade algorithm, and achieve efficiencies close the the Slepian-Wolf bound on q-ary symmetric channels.
翻訳日:2023-07-06 13:53:54 公開日:2023-07-05
# 最初、次に爆発:メタ学習のインテリジェントな探索

First-Explore, then Exploit: Meta-Learning Intelligent Exploration ( http://arxiv.org/abs/2307.02276v1 )

ライセンス: Link先を確認
Ben Norman, Jeff Clune(参考訳) 標準強化学習(RL)エージェントは、人間のように知的に探索することは決してない(つまり、複雑なドメインの先行と以前の探索を考慮して)。 徹底的な探索のような最も基本的な知的な探索戦略でさえ、新規性探索や本質的なモチベーションといったアプローチによって、新しいスキルの学習、階段を登ること、ドアを開けること、実験を行うといったより複雑な戦略によって、非効率または不十分に近似されている。 このインテリジェントな探索の欠如はサンプルの効率を制限し、難しい探索領域の解決を妨げる。 我々は、多くのRLアプローチが知的探索を学習することを妨げる中核的な障壁は、この手法が同時に探索と活用を試みていることだと論じる。 我々は,2つのポリシーを持つ新しいメタrlフレームワーク (first-explore) を提案する。 一度トレーニングを済ませば、希望する限りの探索ポリシーで探索し、探索中に得られたすべての情報に基づいて活用することができます。 このアプローチは、一度に探究と搾取の両方を行おうとする対立を避ける。 First-Exploreは、徹底的な探索など知的な探索戦略を学習でき、探索が犠牲となる領域において、支配的な標準RLやメタRLアプローチよりも優れていることを実証する。 first-exploreは、人間のレベルの探索を学習できるメタrlアルゴリズムを作成するための重要なステップである。

Standard reinforcement learning (RL) agents never intelligently explore like a human (i.e. by taking into account complex domain priors and previous explorations). Even the most basic intelligent exploration strategies such as exhaustive search are only inefficiently or poorly approximated by approaches such as novelty search or intrinsic motivation, let alone more complicated strategies like learning new skills, climbing stairs, opening doors, or conducting experiments. This lack of intelligent exploration limits sample efficiency and prevents solving hard exploration domains. We argue a core barrier prohibiting many RL approaches from learning intelligent exploration is that the methods attempt to explore and exploit simultaneously, which harms both exploration and exploitation as the goals often conflict. We propose a novel meta-RL framework (First-Explore) with two policies: one policy learns to only explore and one policy learns to only exploit. Once trained, we can then explore with the explore policy, for as long as desired, and then exploit based on all the information gained during exploration. This approach avoids the conflict of trying to do both exploration and exploitation at once. We demonstrate that First-Explore can learn intelligent exploration strategies such as exhaustive search and more, and that it outperforms dominant standard RL and meta-RL approaches on domains where exploration requires sacrificing reward. First-Explore is a significant step towards creating meta-RL algorithms capable of learning human-level exploration which is essential to solve challenging unseen hard-exploration domains.
翻訳日:2023-07-06 13:46:31 公開日:2023-07-05
# テンソルネットワークのレンズによる畳み込み

Convolutions Through the Lens of Tensor Networks ( http://arxiv.org/abs/2307.02275v1 )

ライセンス: Link先を確認
Felix Dangel(参考訳) 単純な直観にもかかわらず、畳み込みは、理論とアルゴリズムのアイデアの一般化を複雑にする、密集層よりも分析が難しい。 テンソルネットワーク (tns) による畳み込みに対する新たな視点を提供し, 図面を描き, 関数変換, サブテンソルアクセス, 融合を行うように操作することで, 基礎となるテンソル乗算を推論できる。 この表現力は、様々なオートディフ演算のダイアグラムと、フルハイパーパラメータのサポート、バッチ化、チャネルグループ、任意の畳み込み次元への一般化による2階情報の一般的な近似を導出したものである。 さらに,コネクティビティパターンに基づく畳み込み特有の変換を提供し,評価前の図の再配線と単純化を可能にした。 最後に,TNの効率的な収縮のために確立された機械に依存する計算性能を探索する。 我々のTN実装は、最近提案されたKFAC変種を4.5倍に高速化し、近似バックプロパゲーションのための新しいハードウェア効率のテンソルドロップアウトを可能にする。

Despite their simple intuition, convolutions are more tedious to analyze than dense layers, which complicates the generalization of theoretical and algorithmic ideas. We provide a new perspective onto convolutions through tensor networks (TNs) which allow reasoning about the underlying tensor multiplications by drawing diagrams, and manipulating them to perform function transformations, sub-tensor access, and fusion. We demonstrate this expressive power by deriving the diagrams of various autodiff operations and popular approximations of second-order information with full hyper-parameter support, batching, channel groups, and generalization to arbitrary convolution dimensions. Further, we provide convolution-specific transformations based on the connectivity pattern which allow to re-wire and simplify diagrams before evaluation. Finally, we probe computational performance, relying on established machinery for efficient TN contraction. Our TN implementation speeds up a recently-proposed KFAC variant up to 4.5x and enables new hardware-efficient tensor dropout for approximate backpropagation.
翻訳日:2023-07-06 13:46:02 公開日:2023-07-05
# 効率的なニューラル画像圧縮のための階層的先行と適応的空間分解能

Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression ( http://arxiv.org/abs/2307.02273v1 )

ライセンス: Link先を確認
Ahmed Ghorbel, Wassim Hamidouche and Luce Morin(参考訳) 近年,従来のコーデックに到達したり,性能を向上したりすることで,ニューラルイメージ圧縮(NIC)の性能は着実に向上している。 大幅な進歩にもかかわらず、現在のNICメソッドは依然としてConvNetベースのエントロピー符号化に依存しており、ローカル接続性やアーキテクチャ上のバイアスや事前の増大による長距離依存性のモデリングに制限されている。 swint-charm と呼ばれる tranformer-based transform coding framework の効率性の検討に動機づけられ,まず,より単純かつ効果的なtranformer-based channel-wise auto-regressive prior モデルにより,絶対画像圧縮トランスフォーマ (ict) を実現することを提案する。 提案したICTにより、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。 さらに,サンドイッチconvnextベースのプリ/ポストプロセッサを用いた学習可能なスケーリングモジュールを用いて,よりコンパクトな潜在コードを高精度に抽出し,高品質な画像を再構成する。 ベンチマークデータセットの広範な実験結果から,vvc基準エンコーダ(vtm-18.0)とニューラルコーデックswint-charmよりも,符号化効率とデコーダ複雑性のトレードオフを大幅に改善した。 さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,適応型画像圧縮変換器(aict)とニューラルネットワークコーデックswint-charmの性能差を予見するために,目的的および主観的な分析を行った。

Recently, the performance of neural image compression (NIC) has steadily improved thanks to the last line of study, reaching or outperforming state-of-the-art conventional codecs. Despite significant progress, current NIC methods still rely on ConvNet-based entropy coding, limited in modeling long-range dependencies due to their local connectivity and the increasing number of architectural biases and priors, resulting in complex underperforming models with high decoding latency. Motivated by the efficiency investigation of the Tranformer-based transform coding framework, namely SwinT-ChARM, we propose to enhance the latter, as first, with a more straightforward yet effective Tranformer-based channel-wise auto-regressive prior model, resulting in an absolute image compression transformer (ICT). Through the proposed ICT, we can capture both global and local contexts from the latent representations and better parameterize the distribution of the quantized latents. Further, we leverage a learnable scaling module with a sandwich ConvNeXt-based pre-/post-processor to accurately extract more compact latent codes while reconstructing higher-quality images. Extensive experimental results on benchmark datasets showed that the proposed framework significantly improves the trade-off between coding efficiency and decoder complexity over the versatile video coding (VVC) reference encoder (VTM-18.0) and the neural codec SwinT-ChARM. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the adaptive image compression transformer (AICT) and the neural codec SwinT-ChARM.
翻訳日:2023-07-06 13:45:42 公開日:2023-07-05
# SVDM:擬似ステレオ3次元物体検出のための単視点拡散モデル

SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection ( http://arxiv.org/abs/2307.02270v1 )

ライセンス: Link先を確認
Yuguang Shi(参考訳) 3Dオブジェクト検出における重要な問題の1つは、LiDARセンサーに基づく方法と単眼カメラに基づく方法との精度ギャップを減らすことである。 最近提案されたpseudo-stereoに基づく単眼3d検出フレームワークがコミュニティで注目を集めている。 しかし,(1)単眼深度推定と疑似ステレオ検出器を別々に訓練する必要がある,(2)異なるステレオ検出器との互換性が難しいこと,(3)全体的な計算量が大きく,推論速度に影響を及ぼすこと,の2つの問題点がこれまでに発見されている。 本研究では,svdm(single-view diffusion model)を導入することで,左画像に適切な情報画素を徐々に提供できる,エンドツーエンドで効率的なpseudostereo 3d検出フレームワークを提案する。 SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。 その後、深度自由ステレオ3d検出におけるsvdmの適用をさらに探究し、最終的な枠組みはほとんどのステレオ検出器と互換性がある。 KITTIデータセット上の複数のベンチマークのうち、我々は新しい最先端のパフォーマンスを達成する。

One of the key problems in 3D object detection is to reduce the accuracy gap between methods based on LiDAR sensors and those based on monocular cameras. A recently proposed framework for monocular 3D detection based on Pseudo-Stereo has received considerable attention in the community. However, so far these two problems are discovered in existing practices, including (1) monocular depth estimation and Pseudo-Stereo detector must be trained separately, (2) Difficult to be compatible with different stereo detectors and (3) the overall calculation is large, which affects the reasoning speed. In this work, we propose an end-to-end, efficient pseudo-stereo 3D detection framework by introducing a Single-View Diffusion Model (SVDM) that uses a few iterations to gradually deliver right informative pixels to the left image. SVDM allows the entire pseudo-stereo 3D detection pipeline to be trained end-to-end and can benefit from the training of stereo detectors. Afterwards, we further explore the application of SVDM in depth-free stereo 3D detection, and the final framework is compatible with most stereo detectors. Among multiple benchmarks on the KITTI dataset, we achieve new state-of-the-art performance.
翻訳日:2023-07-06 13:45:07 公開日:2023-07-05
# SpaceNLI: 宇宙における推論の一貫性を評価する

SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space ( http://arxiv.org/abs/2307.02269v1 )

ライセンス: Link先を確認
Lasha Abzianidze, Joost Zwarts, Yoad Winter(参考訳) 多くの自然言語推論(NLI)データセットは, 否定, 時制とアスペクト, 単調性, 前提推定といった特定の意味現象をターゲットにしているが, 多様な空間表現や推論を含むNLIデータセットは存在しない。 空間推論のためのNLIデータセットを半自動生成することで,このギャップを埋める。 データサンプルは、専門家による推論ラベルで注釈付けされた一連の推論パターンから自動的に生成される。 本研究では,SpaceNLI上の複数のSOTA NLIシステムを用いて,データセットの複雑さと空間推論のためのシステムの容量を測定する。 さらに、パターン精度を導入し、パターンベースのデータサンプルでシステムの性能を評価する精度よりも信頼性が高く厳密な尺度であると主張している。 評価結果から,空間的NLI問題の適度な結果が得られるが,推論パターン毎の一貫性は欠如していることがわかった。 結果は、非射影空間推論(特に"between"の前提による)が最も難しいものであることも明らかにした。

While many natural language inference (NLI) datasets target certain semantic phenomena, e.g., negation, tense & aspect, monotonicity, and presupposition, to the best of our knowledge, there is no NLI dataset that involves diverse types of spatial expressions and reasoning. We fill this gap by semi-automatically creating an NLI dataset for spatial reasoning, called SpaceNLI. The data samples are automatically generated from a curated set of reasoning patterns, where the patterns are annotated with inference labels by experts. We test several SOTA NLI systems on SpaceNLI to gauge the complexity of the dataset and the system's capacity for spatial reasoning. Moreover, we introduce a Pattern Accuracy and argue that it is a more reliable and stricter measure than the accuracy for evaluating a system's performance on pattern-based generated data samples. Based on the evaluation results we find that the systems obtain moderate results on the spatial NLI problems but lack consistency per inference pattern. The results also reveal that non-projective spatial inferences (especially due to the "between" preposition) are the most challenging ones.
翻訳日:2023-07-06 13:44:44 公開日:2023-07-05
# スピン1/2イジン・ハイゼンベルクダイヤモンドスピンクラスター上の2量子絡み合った状態の計測制御による調製

Preparation of two-qubit entangled states on a spin-1/2 Ising-Heisenberg diamond spin cluster by controlling the measurement ( http://arxiv.org/abs/2307.02266v1 )

ライセンス: Link先を確認
A. R. Kuzmak(参考訳) 絡み合った量子状態の準備は、多くの量子情報アルゴリズムを実装するために本質的に必要不可欠なステップである。 物理システムによっては、それらを制御し測定する方法が異なり、事前定義された量子状態を達成することができる。 ダイヤモンドスピンクラスターは、この目的のために適用できるシステムである。 さらに、このようなシステムは天然鉱物のアズライトのような化合物に現れ、Cu^{2+}$はスピン-1/2ダイヤモンド鎖に配列される。 本稿では、イジング・ハイゼンベルクスピン1/2ダイヤモンドクラスター上の純粋な絡み合い状態の調製法を提案する。 クラスターは、異方性ハイゼンベルクモデルによって記述され、イジング相互作用を介して側スピンと相互作用する2つの中心スピンからなると仮定する。 側(中央)スピンの測定方向を制御することで、中心(側)スピンの事前定義された純粋な量子状態を達成することができる。 これは準備された状態の絡み合いや忠実さに直接影響を及ぼすことを示す。 例えば、ベル状態の準備のための条件と忠実さを得る。

The preparation of entangled quantum states is an inherent and indispensable step for the implementation of many quantum information algorithms. Depending on the physical system, there are different ways to control and measure them, which allow one to achieve the predefined quantum states. The diamond spin cluster is the system that can be applied for this purpose. Moreover, such a system appears in chemical compounds such as the natural mineral azurite, where the $Cu^{2+}$ are arranged in a spin-1/2 diamond chain. Herein, we propose the method of preparation of pure entangled states on the Ising-Heisenberg spin-1/2 diamond cluster. We suppose that the cluster consists of two central spins which are described by an anisotropic Heisenberg model and interact with the side spins via Ising interaction. Controlling the measurement direction of the side (central) spins allows us to achieve predefined pure quantum states of the central (side) spins. We show that this directly affects the entanglement and fidelity of the prepared states. For example, we obtain conditions and fidelities for preparations of the Bell states.
翻訳日:2023-07-06 13:44:27 公開日:2023-07-05
# 剛性フェアニューラルアーキテクチャ探索に基づく動的アイソメトリ

Dynamical Isometry based Rigorous Fair Neural Architecture Search ( http://arxiv.org/abs/2307.02263v1 )

ライセンス: Link先を確認
Jianxiang Luo (2), Junyi Hu (1 and 2), Tianji Pang (2), Weihao Huang (1 and 2), Chuang Liu (2 and 3) ((1) Tsinghua University, (2) Glasssix Technology (Beijing) Group Co., Ltd, (3) Northwestern Polytechnical University)(参考訳) 近年,重み付け技術により,ニューラルネットワーク探索のトレーニングと評価が大幅に高速化されている。 しかし、既存の重み共有戦略のほとんどは経験や観察のみに基づいており、その結果は解釈可能性や合理性に欠ける。 また, 公正性の欠如により, モジュール評価の誤判断が生じる傾向にある。 これらの問題に対処するために,動的アイソメトリに基づくニューラルアーキテクチャ探索アルゴリズムを提案する。 固定点解析法を平均場理論に用いて、定常ランダムニューラルネットワークにおける動的挙動を解析し、動的等尺法が重み付けに基づくNASの公平性を保証するかを示す。 一方,条件付きジャコビアンを持つすべてのモジュールの一般化誤差を推定することにより,モジュール選択戦略が厳密であることを示す。 大規模な実験により,提案手法で探索したアーキテクチャは,画像ネット分類における最先端のTop-1検証精度を実現することができた。 また,本手法は一般性を損なうことなく,より良く,より安定したトレーニング性能を実現することができることを示した。

Recently, the weight-sharing technique has significantly speeded up the training and evaluation procedure of neural architecture search. However, most existing weight-sharing strategies are solely based on experience or observation, which makes the searching results lack interpretability and rationality. In addition, due to the negligence of fairness, current methods are prone to make misjudgments in module evaluation. To address these problems, we propose a novel neural architecture search algorithm based on dynamical isometry. We use the fix point analysis method in the mean field theory to analyze the dynamics behavior in the steady state random neural network, and how dynamic isometry guarantees the fairness of weight-sharing based NAS. Meanwhile, we prove that our module selection strategy is rigorous fair by estimating the generalization error of all modules with well-conditioned Jacobian. Extensive experiments show that, with the same size, the architecture searched by the proposed method can achieve state-of-the-art top-1 validation accuracy on ImageNet classification. In addition, we demonstrate that our method is able to achieve better and more stable training performance without loss of generality.
翻訳日:2023-07-06 13:44:12 公開日:2023-07-05
# 努力伝播の概念を用いた多属性意思決定システムの目標に対する効果を高めるための異なるエキスパート・オピニオン戦略の分析と高校生の成績向上への応用

Analyzing Different Expert-Opined Strategies to Enhance the Effect on the Goal of a Multi-Attribute Decision-Making System Using a Concept of Effort Propagation and Application in Enhancement of High School Students' Performance ( http://arxiv.org/abs/2307.02254v1 )

ライセンス: Link先を確認
Suvojit Dhara and Adrijit Goswami(参考訳) 多くの実世界のマルチ属性意思決定(MADM)問題では、要因間の相互関係や階層構造をマイニングすることが主要な課題であると考えられている。 しかし、それ以外には、ゴール属性への影響を高めるための要因に取り組むための最適な戦略を決定することが大きな課題です。 本稿では,並列および階層的作業割り当てと伝播戦略という2つの戦略を提案する。 戦略を通じた努力の伝播の概念は、正式に定義され、論文に記述されている。 並列戦略と階層戦略は、これらの要因への取り組みの割り当てが均一であるか、あるいはシステム内の要因に関連する適切なヒューリスティックに依存するかに基づいて、サブストラテジーに分けられる。 ヒューリスティックの適応と議論は、要因の相対的重要性と労力の持続性である。 本研究は,インドの高校の経営要因を事例として,学生のパフォーマンス向上に重要な役割を担っている。 システムに直接アクセス可能な要因に対して合計1単位の労力が与えられると、目標の約7%から15%の努力が提案された戦略全体にわたって達成される。 比較分析は,学生のパフォーマンスを最も効果的に向上させるため,提案手法の最適戦略を決定するために適応される。 この作品で達成された最も高い成果は14.4348%である。 本論文の分析は,意思決定問題に対する努力伝播分析の方向性に向けて,研究の必要性を確立するものである。

In many real-world multi-attribute decision-making (MADM) problems, mining the inter-relationships and possible hierarchical structures among the factors are considered to be one of the primary tasks. But, besides that, one major task is to determine an optimal strategy to work on the factors to enhance the effect on the goal attribute. This paper proposes two such strategies, namely parallel and hierarchical effort assignment, and propagation strategies. The concept of effort propagation through a strategy is formally defined and described in the paper. Both the parallel and hierarchical strategies are divided into sub-strategies based on whether the assignment of efforts to the factors is uniform or depends upon some appropriate heuristics related to the factors in the system. The adapted and discussed heuristics are the relative significance and effort propagability of the factors. The strategies are analyzed for a real-life case study regarding Indian high school administrative factors that play an important role in enhancing students' performance. Total effort propagation of around 7%-15% to the goal is seen across the proposed strategies given a total of 1 unit of effort to the directly accessible factors of the system. A comparative analysis is adapted to determine the optimal strategy among the proposed ones to enhance student performance most effectively. The highest effort propagation achieved in the work is approximately 14.4348%. The analysis in the paper establishes the necessity of research towards the direction of effort propagation analysis in case of decision-making problems.
翻訳日:2023-07-06 13:43:54 公開日:2023-07-05
# 多変量時系列分類:深層学習アプローチ

Multivariate Time Series Classification: A Deep Learning Approach ( http://arxiv.org/abs/2307.02253v1 )

ライセンス: Link先を確認
Mohamed Abouelnaga, Julien Vitay, Aida Farahani(参考訳) 本稿では時系列分類領域に適用可能な様々な手法とニューラルネットワークアーキテクチャについて検討する。 データは、酸素や音などの量を測定し追跡する一連のガスセンサーから得られる。 このデータにより、特定の環境における占有などの事象を検出することができる。 まず、時系列データを解析して、モデルのトレーニングにおいて、シーケンス長などの異なるパラメータの影響を理解する。 これらのモデルでは、教師付き学習にはFCN(Fully Convolutional Networks)とLong Short-Term Memory(Long Short-Term Memory)が使用される。 本研究を通じて,これらの手法の違いを精度やリコールなどの指標に基づいて同定し,どの手法が問題に最適なかを同定する。

This paper investigates different methods and various neural network architectures applicable in the time series classification domain. The data is obtained from a fleet of gas sensors that measure and track quantities such as oxygen and sound. With the help of this data, we can detect events such as occupancy in a specific environment. At first, we analyze the time series data to understand the effect of different parameters, such as the sequence length, when training our models. These models employ Fully Convolutional Networks (FCN) and Long Short-Term Memory (LSTM) for supervised learning and Recurrent Autoencoders for semisupervised learning. Throughout this study, we spot the differences between these methods based on metrics such as precision and recall identifying which technique best suits this problem.
翻訳日:2023-07-06 13:43:30 公開日:2023-07-05
# RanPAC:継続的学習のためのランダム投影と事前学習モデル

RanPAC: Random Projections and Pre-trained Models for Continual Learning ( http://arxiv.org/abs/2307.02251v1 )

ライセンス: Link先を確認
Mark D. McDonnell, Dong Gong, Amin Parveneh, Ehsan Abbasnejad, Anton van den Hengel(参考訳) 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を段階的に学習することを目的としている。 ほとんどのCLは、スクラッチから学習するパラダイムの下で破滅的な忘れに対処することに重点を置いています。 しかし、基礎モデルの普及に伴い、様々な下流要求に対して情報表現を備えた事前学習モデルが利用できるようになった。 事前訓練されたモデルに基づくいくつかのCL手法が検討され、事前抽出された特徴を直接利用(ブリッジング分布ギャップを困難にしている)するか、あるいは適応子(忘れられる可能性がある)を取り入れている。 本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。 パラメータ更新中に忘れが生じることを考慮し、トレーニング不要なランダムプロジェクタとクラスプロトタイプの蓄積を利用した代替アプローチを考え、この問題を回避した。 具体的には、事前学習したモデルの特徴表現と出力ヘッドの間に非線形に活性化された凍結ランダム投影層を注入し、拡張次元を持つ特徴間の相互作用をキャプチャし、クラスプロトタイプに基づくclの線形分離性を高める。 また,事前学習した表現を用いた場合の分布差を低減するために,クラスプロトタイプのデコレーションの重要性を示す。 これらの手法は効果的なことを示し、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方で忘れてしまう問題を回避している。 事前学習したViT-B/16モデルと比較して,リハーサルメモリを使用しない7つのクラスインクリメンタルベンチマークデータセットにおいて,最終エラー率を10\%から62\%削減する。 我々は、単純で効果的で高速な連続学習のための事前学習モデルの完全なポテンシャルは、完全には達成されていないと結論づける。

Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model's feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 10\% and 62\% on seven class-incremental benchmark datasets, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast continual learning has not hitherto been fully tapped.
翻訳日:2023-07-06 13:43:17 公開日:2023-07-05
# Sumformer: 効率的な変換器のユニバーサル近似

Sumformer: Universal Approximation for Efficient Transformers ( http://arxiv.org/abs/2307.02301v1 )

ライセンス: Link先を確認
Silas Alberti, Niclas Dern, Laura Thesing, Gitta Kutyniok(参考訳) 自然言語処理(nlp)はトランスフォーマーの導入で印象的な飛躍を遂げた。 ChatGPTは最も有名な例の1つで、研究コミュニティの外でさえAIの可能性の認識を変えている。 しかしながら、印象的な性能に加えて、シーケンス長に関する変圧器の二次時間と空間複雑性は、長いシーケンスを扱う上で大きな制限をもたらす。 linformer や performer with linear complexity といった効率的なトランスフォーマーアーキテクチャは有望な解決策として現れてきたが、理論的理解は限られている。 本稿では,同変列列列関数を普遍的に近似できる新しい,シンプルなアーキテクチャであるSumformerを紹介する。 我々はSumformerを使ってLinformerとPerformerの最初の普遍近似結果を与える。 さらに,トランスフォーマーの新たな証明を導き,一つの注意層だけが普遍近似に十分であることを示す。

Natural language processing (NLP) made an impressive jump with the introduction of Transformers. ChatGPT is one of the most famous examples, changing the perception of the possibilities of AI even outside the research community. However, besides the impressive performance, the quadratic time and space complexity of Transformers with respect to sequence length pose significant limitations for handling long sequences. While efficient Transformer architectures like Linformer and Performer with linear complexity have emerged as promising solutions, their theoretical understanding remains limited. In this paper, we introduce Sumformer, a novel and simple architecture capable of universally approximating equivariant sequence-to-sequence functions. We use Sumformer to give the first universal approximation results for Linformer and Performer. Moreover, we derive a new proof for Transformers, showing that just one attention layer is sufficient for universal approximation.
翻訳日:2023-07-06 13:36:56 公開日:2023-07-05
# siamese transformer networkを用いたアドレスマッチングの改善

Improving Address Matching using Siamese Transformer Networks ( http://arxiv.org/abs/2307.02300v1 )

ライセンス: Link先を確認
Andr\'e V. Duarte and Arlindo L. Oliveira(参考訳) アドレスのマッチングは、パッケージの処理と配送に関わる企業や郵便局にとって重要なタスクである。 間違った受取人にパッケージを誤って届けるという影響は、会社の評判から経済的・環境的なコストまで多岐にわたる。 本研究は、ポルトガル語アドレスのアドレスマッチングの効率を高めるために設計された深層学習に基づくモデルを提案する。 モデルは2つの部分からなる。 i) ポルトガルの郵便アドレスの有意義な埋め込みを作成するために微調整されたバイエンコーダで、正規化データベースから正規化されていないターゲットアドレスのトップ10を検索するために使用される。 (ii)クロスエンコーダを微調整して、バイエンコーダが取得した10個のアドレスを正確にリランクする。 このモデルはポルトガルのアドレスの実際のシナリオでテストされており、ドアレベルでは95%を超える高い精度を示している。 GPU計算で使用する場合、推論速度はBM25のような従来の手法の約4.5倍高速である。 現実シナリオにおける本システムの実装は,配信プロセスの有効性を大幅に向上させる。 その実施は現在調査中である。

Matching addresses is a critical task for companies and post offices involved in the processing and delivery of packages. The ramifications of incorrectly delivering a package to the wrong recipient are numerous, ranging from harm to the company's reputation to economic and environmental costs. This research introduces a deep learning-based model designed to increase the efficiency of address matching for Portuguese addresses. The model comprises two parts: (i) a bi-encoder, which is fine-tuned to create meaningful embeddings of Portuguese postal addresses, utilized to retrieve the top 10 likely matches of the un-normalized target address from a normalized database, and (ii) a cross-encoder, which is fine-tuned to accurately rerank the 10 addresses obtained by the bi-encoder. The model has been tested on a real-case scenario of Portuguese addresses and exhibits a high degree of accuracy, exceeding 95% at the door level. When utilized with GPU computations, the inference speed is about 4.5 times quicker than other traditional approaches such as BM25. An implementation of this system in a real-world scenario would substantially increase the effectiveness of the distribution process. Such an implementation is currently under investigation.
翻訳日:2023-07-06 13:36:43 公開日:2023-07-05
# メタ学習適応帯域幅アルゴリズム

Meta-Learning Adversarial Bandit Algorithms ( http://arxiv.org/abs/2307.02295v1 )

ライセンス: Link先を確認
Mikhail Khodak, Ilya Osadchiy, Keegan Harris, Maria-Florina Balcan, Kfir Y. Levy, Ron Meir, Zhiwei Steven Wu(参考訳) オンラインメタラーニングをバンディットフィードバックで研究し,類似点がある場合,複数のタスクにまたがるパフォーマンス向上を目標とした。 オンライン・オンライン・オンライン・パーシャル・インフォメーション・セッティングを最初にターゲットとしたメタアルゴリズムを設計し、外部学習者を組み合わせて内部学習者の初期化や他のハイパーパラメータを同時に調整する。 mab の場合、メタリアナーは exp3 の tsallis-entropy generalization のハイパーパラメータを初期化し、設定し、opima-in-hindsight のエントロピーが小さい場合、タスク平均的な後悔が改善される。 BLOの場合、オンラインミラー降下(OMD)を自己協和障壁正規化器で初期化し、チューニングすることを学び、タスク平均の後悔は、それらが引き起こすアクション空間依存尺度と直接的に異なることを示す。 我々の保証は、非正規化追従型リーダと低次元ハイパーパラメータチューニングの2つのレベルが組み合わさって、非Lipschitzのアフィン関数の列を学習するのに十分であることを示すことに依存している。

We study online meta-learning with bandit feedback, with the goal of improving performance across multiple tasks if they are similar according to some natural similarity measure. As the first to target the adversarial online-within-online partial-information setting, we design meta-algorithms that combine outer learners to simultaneously tune the initialization and other hyperparameters of an inner learner for two important cases: multi-armed bandits (MAB) and bandit linear optimization (BLO). For MAB, the meta-learners initialize and set hyperparameters of the Tsallis-entropy generalization of Exp3, with the task-averaged regret improving if the entropy of the optima-in-hindsight is small. For BLO, we learn to initialize and tune online mirror descent (OMD) with self-concordant barrier regularizers, showing that task-averaged regret varies directly with an action space-dependent measure they induce. Our guarantees rely on proving that unregularized follow-the-leader combined with two levels of low-dimensional hyperparameter tuning is enough to learn a sequence of affine functions of non-Lipschitz and sometimes non-convex Bregman divergences bounding the regret of OMD.
翻訳日:2023-07-06 13:36:27 公開日:2023-07-05
# トーリック符号における測定誘起相転移

Measurement-induced phase transitions in the toric code ( http://arxiv.org/abs/2307.02292v1 )

ライセンス: Link先を確認
Amir-Reza Negari, Subhayan Sahu, Timothy H. Hsieh(参考訳) トーリック符号のサブシステム上でランダムな単一キュービット計測を行うことにより,物質相がいかに異なるかを示す。 パルトン構成を用いて、そのような測定はランダムなガウステンソルネットワークにマッピングし、特に、ランダムなパウリ測定は、スイカ相関器が測定誘起絡みを正確に決定する古典ループモデルにマップする。 量子ビットの1次元境界を除く全ての測定は、ユニタリゲートと射影計測を含む1+1次元のハイブリッド回路を実現する。 異なるパウリ測定の確率の変動は、古典的モデルにおける短ループ位相と長ループ位相に対応する、異なる順序の位相間の非測定境界における遷移を駆動することを発見した。 さらに,バルク測定結果に基づく単一サイト境界ユニタリを用いることで,線形観測によって実験的に診断できる混合状態秩序相と遷移を生成する。 このことは、パルトン構造が物質相の生成と操作のための測定ベースの量子コンピューティングの自然な枠組みを提供することを示す。

We show how distinct phases of matter can be generated by performing random single-qubit measurements on a subsystem of toric code. Using a parton construction, such measurements map to random Gaussian tensor networks, and in particular, random Pauli measurements map to a classical loop model in which watermelon correlators precisely determine measurement-induced entanglement. Measuring all but a 1d boundary of qubits realizes hybrid circuits involving unitary gates and projective measurements in 1+1 dimensions. We find that varying the probabilities of different Pauli measurements can drive transitions in the un-measured boundary between phases with different orders and entanglement scaling, corresponding to short and long loop phases in the classical model. Furthermore, by utilizing single-site boundary unitaries conditioned on the bulk measurement outcomes, we generate mixed state ordered phases and transitions that can be experimentally diagnosed via linear observables. This demonstrates how parton constructions provide a natural framework for measurement-based quantum computing setups to produce and manipulate phases of matter.
翻訳日:2023-07-06 13:36:02 公開日:2023-07-05
# デコードとトレーニングに焦点をあてて:HOIスプリットデコーダと特定目標誘導デノージングによる効率的なトレーニング

Focusing on what to decode and what to train: Efficient Training with HOI Split Decoders and Specific Target Guided DeNoising ( http://arxiv.org/abs/2307.02291v1 )

ライセンス: Link先を確認
Junwen Chen, Yingcheng Wang, Keiji Yanai(参考訳) 最近の一段変圧器に基づく手法は, detrの検出を活用し, 人間-物体間インタラクション検出(hoi)タスクにおいて顕著な成果を得た。 しかし、現在のメソッドはオブジェクトデコーダの検出ターゲットをリダイレクトしており、ボックスターゲットはクエリの埋め込みから明示的に分離されていないため、長くて厳しいトレーニングにつながる。 さらに、予測されたHOIインスタンスと地平線とのマッチングは、オブジェクト検出よりも難しいため、単にオブジェクト検出からトレーニング戦略を適用するだけで、トレーニングがより難しくなる。 そこで本研究では,対象デコーダ,オブジェクトデコーダ,動詞デコーダから構成される新しいワンステージフレームワーク(SOV)を提案する。 さらに,学習可能なオブジェクトと動詞ラベルの埋め込みを活用してトレーニングをガイドし,学習の収束を加速する,新たな特定目標誘導(STG)デノベーション戦略を提案する。 また、推論部では、学習可能なラベル埋め込みからクエリ埋め込みを初期化することにより、ラベル固有情報をデコーダに直接供給する。 付加的な特徴や事前言語知識がなければ,本手法は訓練の3分の1における最先端手法よりも精度が高い。 コードは \url{https://github.com/cjw2021/sov-stg} で入手できる。

Recent one-stage transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOI) task by leveraging the detection of DETR. However, the current methods redirect the detection target of the object decoder, and the box target is not explicitly separated from the query embeddings, which leads to long and hard training. Furthermore, matching the predicted HOI instances with the ground-truth is more challenging than object detection, simply adapting training strategies from the object detection makes the training more difficult. To clear the ambiguity between human and object detection and share the prediction burden, we propose a novel one-stage framework (SOV), which consists of a subject decoder, an object decoder, and a verb decoder. Moreover, we propose a novel Specific Target Guided (STG) DeNoising strategy, which leverages learnable object and verb label embeddings to guide the training and accelerates the training convergence. In addition, for the inference part, the label-specific information is directly fed into the decoders by initializing the query embeddings from the learnable label embeddings. Without additional features or prior language knowledge, our method (SOV-STG) achieves higher accuracy than the state-of-the-art method in one-third of training epochs. The code is available at \url{https://github.com/cjw2021/SOV-STG}.
翻訳日:2023-07-06 13:35:42 公開日:2023-07-05
# VNHSGE英語データセットにおける大規模言語モデルの性能比較:OpenAI ChatGPT, Microsoft Bing Chat, Google Bard

Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard ( http://arxiv.org/abs/2307.02288v1 )

ライセンス: Link先を確認
Xuan-Quy Dao(参考訳) 本稿では,VNHSGEの英語データセット上で,OpenAI ChatGPT,Microsoft Bing Chat,Google Bardの3つの大規模言語モデル(LLM)の性能比較を行った。 結果は、BingChatがChatGPTやBardより優れていることを示している。 したがって、BingChatとBardはChatGPTを置き換えることができるが、ChatGPTはベトナムでは公式には利用できない。 結果は、ChatGPT、Bing Chat、Bardが、英語の習熟度でベトナムの学生より優れていたことを示唆している。 本研究の成果は、英語教育におけるllmの可能性の理解に寄与している。 ChatGPT、Bing Chat、Bardの顕著なパフォーマンスは、高校レベルで英語を教え学習するための効果的なツールとしての可能性を示している。

This paper presents a performance comparison of three large language models (LLMs), namely OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard, on the VNHSGE English dataset. The results show that BingChat is better than ChatGPT and Bard. Therefore, BingChat and Bard can replace ChatGPT while ChatGPT is not yet officially available in Vietnam. The results also indicate that ChatGPT, Bing Chat, and Bard outperform Vietnamese students in English language proficiency. The findings of this study contribute to the understanding of the potential of LLMs in English language education. The remarkable performance of ChatGPT, Bing Chat, and Bard demonstrates their potential as effective tools for teaching and learning English at the high school level.
翻訳日:2023-07-06 13:35:19 公開日:2023-07-05
# モノリシック原子干渉計

Monolithic atom interferometry ( http://arxiv.org/abs/2307.02285v1 )

ライセンス: Link先を確認
Johannes Fiedler and Kim Lefmann and Wolf von Klitzing and Bodil Holst(参考訳) 原子および近年では分子干渉計が基礎研究や産業応用に使われている。 ほとんどの原子干渉計はレーザービームによる格子に依存しており、精度は高いが非常に短い波長に到達できず、複雑なレーザーシステムを必要とする。 それとは対照的に、単結晶から切り離された単純なモノリシック干渉計は(サブ)ナノメートルの波長を極度の安定性とロバスト性で提供する。 このような装置は数十年前に中性子や電子に対して考案され、実証された。 本稿では,(量子)反射に基づく熱ビーム分子干渉計のモノリシック設計を提案する。 例えば、Si(111)-H(1x1)表面を中性ヘリウム原子に対して非常に頑丈で安定な回折鏡として機能する、反射型モノリシック干渉計(Mach-Zehnder型)がヘリウムビームに対してどのように実現できるかを示す。

Atom and, more recently, molecule interferometers are used in fundamental research and industrial applications. Most atom interferometers rely on gratings made from laser beams, which can provide high precision but cannot reach very short wavelengths and require complex laser systems to function. Contrary to this, simple monolithic interferometers cut from single crystals offer (sub) nano-meter wavelengths with an extreme level of stability and robustness. Such devices have been conceived and demonstrated several decades ago for neutrons and electrons. Here, we propose a monolithic design for a thermal-beam molecule interferometer based on (quantum) reflection. We show, as an example, how a reflective, monolithic interferometer (Mach-Zehnder type) can be realised for a helium beam using Si(111)-H(1x1) surfaces, which have previously been demonstrated to act as very robust and stable diffractive mirrors for neutral helium atoms.
翻訳日:2023-07-06 13:35:04 公開日:2023-07-05
# 人工深層ニューラルネットワークにおける吸収相転移

Absorbing Phase Transitions in Artificial Deep Neural Networks ( http://arxiv.org/abs/2307.02284v1 )

ライセンス: Link先を確認
Keiichi Tamai, Tsuyoshi Okubo, Truong Vinh Truong Duy, Naotake Natori and Synge Todo(参考訳) 無限大のニューラルネットワークの挙動に関する理論的理解は、有名な平均場理論によって様々なアーキテクチャで急速に発展してきた。 しかしながら、より実用的で現実的な重要性を持つ有限ネットワークへの理解を拡張するための、明確で直感的なフレームワークが欠如している。 本研究では, 位相遷移を吸収する普遍的臨界現象を用いて, 適切な初期化ニューラルネットワークの挙動を解明できることを実証する。 より具体的には、完全接続されたフィードフォワードニューラルネットワークと畳み込みニューラルネットワークにおける順序からカオスへの遷移を調べ、それを示す。 (i)有限ネットワークであっても順序状態からカオス状態への明確に定義された遷移が存在し、 (ii) アーキテクチャの違いは、遷移の普遍性クラスに反映される。 注目すべきことに、有限サイズのスケーリングもうまく適用でき、直観的な現象論的議論が信号伝播ダイナミクスの半定量的記述に繋がることを示唆している。

Theoretical understanding of the behavior of infinitely-wide neural networks has been rapidly developed for various architectures due to the celebrated mean-field theory. However, there is a lack of a clear, intuitive framework for extending our understanding to finite networks that are of more practical and realistic importance. In the present contribution, we demonstrate that the behavior of properly initialized neural networks can be understood in terms of universal critical phenomena in absorbing phase transitions. More specifically, we study the order-to-chaos transition in the fully-connected feedforward neural networks and the convolutional ones to show that (i) there is a well-defined transition from the ordered state to the chaotics state even for the finite networks, and (ii) difference in architecture is reflected in that of the universality class of the transition. Remarkably, the finite-size scaling can also be successfully applied, indicating that intuitive phenomenological argument could lead us to semi-quantitative description of the signal propagation dynamics.
翻訳日:2023-07-06 13:34:49 公開日:2023-07-05
# クロスモダリティ視覚変換器を用いたインタラクティブ画像セグメンテーション

Interactive Image Segmentation with Cross-Modality Vision Transformers ( http://arxiv.org/abs/2307.02280v1 )

ライセンス: Link先を確認
Kun Li, George Vosselman, Michael Ying Yang(参考訳) インタラクティブなイメージセグメンテーションは、画像、クリック、スクリブル、バウンディングボックスなどの入力マルチモーダルデータとして取り込むマニュアルガイダンスで、ターゲットを背景から分割することを目的としている。 近年、視覚変換器はいくつかの下流視覚タスクで大きな成功を収めており、この強力なアーキテクチャを対話型セグメンテーションタスクに導入する試みがいくつか行われている。 しかし、以前の研究は2つのモダリティの関係を無視し、純粋に視覚的な情報を自己注意で処理する方法を直接模倣した。 本稿では,クロスモダリティビジョントランスフォーマタを用いたクリックベースのインタラクティブセグメンテーションのための,単純かつ効果的なネットワークを提案する。 モダリティ変換器は相互情報を利用して学習プロセスをより良くガイドする。 いくつかのベンチマーク実験により,提案手法は従来の最先端モデルと比較して優れた性能を示した。 障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。 コードと事前トレーニングされたモデルはhttps://github.com/lik1996/icmformerでリリースされる。

Interactive image segmentation aims to segment the target from the background with the manual guidance, which takes as input multimodal data such as images, clicks, scribbles, and bounding boxes. Recently, vision transformers have achieved a great success in several downstream visual tasks, and a few efforts have been made to bring this powerful architecture to interactive segmentation task. However, the previous works neglect the relations between two modalities and directly mock the way of processing purely visual information with self-attentions. In this paper, we propose a simple yet effective network for click-based interactive segmentation with cross-modality vision transformers. Cross-modality transformers exploits mutual information to better guide the learning process. The experiments on several benchmarks show that the proposed method achieves superior performance in comparison to the previous state-of-the-art models. The stability of our method in term of avoiding failure cases shows its potential to be a practical annotation tool. The code and pretrained models will be released under https://github.com/lik1996/iCMFormer.
翻訳日:2023-07-06 13:34:35 公開日:2023-07-05
# neurodesからautoencodesへ - 幅変動ニューラルネットワークのための平均場制御フレームワーク

From NeurODEs to AutoencODEs: a mean-field control framework for width-varying Neural Networks ( http://arxiv.org/abs/2307.02279v1 )

ライセンス: Link先を確認
Cristina Cipriani, Massimo Fornasier and Alessandro Scagliotti(参考訳) 本研究では,残差ニューラルネットワーク(resnets)とニューロデスと呼ばれる連続時間制御システムとの確立した接続性に基づいて構築する。 構築によって、NeurODEは一定の幅の層に制限されており、幅の異なる層を持つディープラーニングアーキテクチャのモデリングには適さない。 本稿では,我々はAutoencODEと呼ぶ連続時間オートエンコーダを提案し,この場合,通常のNeurODEに対して既に開発された平均フィールド制御フレームワークを拡張した。 この設定では、tikhonov正規化の低さに対処し、その結果、非凸コストの景観が生じる可能性がある。 高いチホノフ正則化で得られた大域的な結果はグローバルに保持されないが、損失関数が局所凸である領域で多くの結果が回復できることを示した。 理論的な知見に触発されて,残余接続を持つこの特定の種類のオートエンコーダに適したトレーニング手法を開発し,様々な例を用いて数値実験を行った。

In our work, we build upon the established connection between Residual Neural Networks (ResNets) and continuous-time control systems known as NeurODEs. By construction, NeurODEs have been limited to constant-width layers, making them unsuitable for modeling deep learning architectures with width-varying layers. In this paper, we propose a continuous-time Autoencoder, which we call AutoencODE, and we extend to this case the mean-field control framework already developed for usual NeurODEs. In this setting, we tackle the case of low Tikhonov regularization, resulting in potentially non-convex cost landscapes. While the global results obtained for high Tikhonov regularization may not hold globally, we show that many of them can be recovered in regions where the loss function is locally convex. Inspired by our theoretical findings, we develop a training method tailored to this specific type of Autoencoders with residual connections, and we validate our approach through numerical experiments conducted on various examples.
翻訳日:2023-07-06 13:34:18 公開日:2023-07-05
# FAM: 相対的平坦度認識最小化

FAM: Relative Flatness Aware Minimization ( http://arxiv.org/abs/2307.02337v1 )

ライセンス: Link先を確認
Linara Adilova, Amr Abourayya, Jianning Li, Amin Dada, Henning Petzka, Jan Egger, Jens Kleesiek, Michael Kamp(参考訳) 模型の周りの損失曲線の平坦性は、その一般化能力と経験的に相関することが示されている。 平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案され、その後より最近のシャープネス対応最適化技術が成功した。 しかし、彼らの実践において広く採用されているのは、フラットネスと一般化の間の理論的に基礎的なつながりが欠如していること、特に再パラメータ化の呪いに照らしてである。 最近の理論研究は、特定の相対平坦性測度が一般化と結び付き、再パラメータ化の呪いを解くことを示唆している。 本稿では,この相対平坦性に基づく正規化子を導出し,計算が容易で,高速,効率的であり,任意の損失関数を扱う。 ネットワークの単一層のみのヘッセン計算が必要であり、大規模ニューラルネットワークに適用可能であり、モデル近傍の損失面の高価なマッピングを避けることができる。 この相対的平坦性認識最小化(FAM)は、ファインタニングと標準トレーニングの両方において、様々なアプリケーションやモデルの一般化を改善することを示す。 コードはgithubで公開しています。

Flatness of the loss curve around a model at hand has been shown to empirically correlate with its generalization ability. Optimizing for flatness has been proposed as early as 1994 by Hochreiter and Schmidthuber, and was followed by more recent successful sharpness-aware optimization techniques. Their widespread adoption in practice, though, is dubious because of the lack of theoretically grounded connection between flatness and generalization, in particular in light of the reparameterization curse - certain reparameterizations of a neural network change most flatness measures but do not change generalization. Recent theoretical work suggests that a particular relative flatness measure can be connected to generalization and solves the reparameterization curse. In this paper, we derive a regularizer based on this relative flatness that is easy to compute, fast, efficient, and works with arbitrary loss functions. It requires computing the Hessian only of a single layer of the network, which makes it applicable to large neural networks, and with it avoids an expensive mapping of the loss surface in the vicinity of the model. In an extensive empirical evaluation we show that this relative flatness aware minimization (FAM) improves generalization in a multitude of applications and models, both in finetuning and standard training. We make the code available at github.
翻訳日:2023-07-06 13:27:28 公開日:2023-07-05
# マルチコントラストMRIにおけるDual Arbitrary Scale Super-Resolution

Dual Arbitrary Scale Super-Resolution for Multi-Contrast MRI ( http://arxiv.org/abs/2307.02334v1 )

ライセンス: Link先を確認
Jiamiao Zhang, Yichen Chi, Jun Lyu, Wenming Yang, Yapeng Tian(参考訳) イメージングシステムによって制限された部分的計測からMRI画像の再構成は、医療画像研究に不可欠である。 異なる撮像モードのマルチコントラストmr画像の多様かつ相補的な情報から、マルチコントラストスーパーレゾリューション(sr)再構成は高品質のsr画像が得られると期待されている。 医学的シナリオでは、多くのMRI SR法で用いられるように、病変を完全に可視化するために、放射線医は固定スケールではなく任意のスケールでMRI画像を拡大することに慣れている。 さらに、既存のマルチコントラストMRI SR法では、参照画像の固定解像度を必要とすることが多く、参照画像の取得が困難になり、任意のスケールの SR タスクに制限が課される。 これらの問題に対処するため,我々はDual-ArbNetと呼ばれる2軸マルチコントラストMRI超解像法を提案する。 まず,対象画像と参照画像の解像度を特徴エンコーダで分離し,ネットワークが任意のスケールで対象画像と参照画像を入力できるようにする。 そして、暗黙の融合復号器がマルチコントラスト特徴を融合し、インプリシット復号関数~(IDF)を用いて最終的なMRI SR結果を得る。 さらに,我々のネットワークをトレーニングするためのカリキュラム学習戦略を導入し,dual-arbnetの一般化と性能を向上させる。 2つの公開MRIデータセットにおける広範囲な実験により、我々の手法は異なるスケール要因下で最先端のアプローチよりも優れており、臨床実践において大きな可能性を秘めていることが示された。

Limited by imaging systems, the reconstruction of Magnetic Resonance Imaging (MRI) images from partial measurement is essential to medical imaging research. Benefiting from the diverse and complementary information of multi-contrast MR images in different imaging modalities, multi-contrast Super-Resolution (SR) reconstruction is promising to yield SR images with higher quality. In the medical scenario, to fully visualize the lesion, radiologists are accustomed to zooming the MR images at arbitrary scales rather than using a fixed scale, as used by most MRI SR methods. In addition, existing multi-contrast MRI SR methods often require a fixed resolution for the reference image, which makes acquiring reference images difficult and imposes limitations on arbitrary scale SR tasks. To address these issues, we proposed an implicit neural representations based dual-arbitrary multi-contrast MRI super-resolution method, called Dual-ArbNet. First, we decouple the resolution of the target and reference images by a feature encoder, enabling the network to input target and reference images at arbitrary scales. Then, an implicit fusion decoder fuses the multi-contrast features and uses an Implicit Decoding Function~(IDF) to obtain the final MRI SR results. Furthermore, we introduce a curriculum learning strategy to train our network, which improves the generalization and performance of our Dual-ArbNet. Extensive experiments in two public MRI datasets demonstrate that our method outperforms state-of-the-art approaches under different scale factors and has great potential in clinical practice.
翻訳日:2023-07-06 13:27:04 公開日:2023-07-05
# 技術によるハーム・リスク・脆弱性の学際的マップの作成--課題・曖昧さ・機会

Co-creating a Transdisciplinary Map of Technology-mediated Harms, Risks and Vulnerabilities: Challenges, Ambivalences and Opportunities ( http://arxiv.org/abs/2307.02332v1 )

ライセンス: Link先を確認
Andr\'es Dom\'inguez Hern\'andez, Kopo M. Ramokapane, Partha Das Chowdhury, Ola Michalec, Emily Johnstone, Emily Godwin, Alicia G Cork, Awais Rashid(参考訳) オンラインの害」という言葉は、インターネットとデジタル技術全般の使用に関連する倫理的・社会的問題に対処する政治的意欲の高まりから近年出現している。 オンラインの危害を取り囲む広い景観は、多くの規律的、セクタ的、組織的な努力を集め、無数の挑戦と国境を越える機会を生んでいる。 本稿では,オンライン・ハーネス・アジェンダによってアニメーションされた大規模研究イニシアチブの中で,学際的知識基盤を共同構築する旅から教訓を得る。 筆者らはまず, 知識基盤のマッピング, 分類, 構築の意義を考察し, オンライン・ハザードと隣接するテーマが, これまでの文献でどのように理論化され, 分類されてきたかを概観した。 オンラインの害の地図を共同作成した経験に基づいて、マップとマッピングのプロセスは3つの相互構成関数を実行し、メソッド、媒体、挑発として同時に振る舞う、と主張する。 我々は、合意を保証していないにもかかわらず、オープンエンドのマッピングアプローチが、倫理的および政治的に傷ついた研究領域における生産的な議論と協力を促進する方法から教訓を得る。 最終的には、知識基盤の多時期性、社会生活、政治的感性について、CSCW研究を表面化し、関与するよう呼びかける。

The phrase "online harms" has emerged in recent years out of a growing political willingness to address the ethical and social issues associated with the use of the Internet and digital technology at large. The broad landscape that surrounds online harms gathers a multitude of disciplinary, sectoral and organizational efforts while raising myriad challenges and opportunities for the crossing entrenched boundaries. In this paper we draw lessons from a journey of co-creating a transdisciplinary knowledge infrastructure within a large research initiative animated by the online harms agenda. We begin with a reflection of the implications of mapping, taxonomizing and constructing knowledge infrastructures and a brief review of how online harm and adjacent themes have been theorized and classified in the literature to date. Grounded on our own experience of co-creating a map of online harms, we then argue that the map -- and the process of mapping -- perform three mutually constitutive functions, acting simultaneously as method, medium and provocation. We draw lessons from how an open-ended approach to mapping, despite not guaranteeing consensus, can foster productive debate and collaboration in ethically and politically fraught areas of research. We end with a call for CSCW research to surface and engage with the multiple temporalities, social lives and political sensibilities of knowledge infrastructures.
翻訳日:2023-07-06 13:26:34 公開日:2023-07-05
# データ駆動型5g予測遅延:ネットワーク計測を用いた理論的および実験的解析

Data-driven Predictive Latency for 5G: A Theoretical and Experimental Analysis Using Network Measurements ( http://arxiv.org/abs/2307.02329v1 )

ライセンス: Link先を確認
Marco Skocaj, Francesca Conserva, Nicol Sarcone Grande, Andrea Orsi, Davide Micheli, Giorgio Ghinamo, Simone Bizzarri and Roberto Verdone(参考訳) バインディングレイテンシ要件と保証されたQuality of Service(QoS)を備えた,新たな5Gサービスとアプリケーションの出現により,ネットワーク管理手順に自律的かつ積極的な意思決定を組み込む必要性が高まった。 本研究の目的は,モバイルネットワークオペレータ(MNO)にアクセス可能な実世界のネットワークデータを利用することで,5Gネットワーク内の予測遅延を徹底的に解析することである。 特に (i)低指数分布としてのユーザ・プレーン・レイテンシの解析的定式化について,経験的測定との比較分析により検証する。 (II)ベイズ学習(BL)や機械学習・オン・グラフ(GML)といった機械学習(ML)の新興領域を利用した確率的回帰、異常検出、予測予測の実験結果を実行する。 我々は,車両移動,密集した都市交通,社会集団イベントのシナリオから収集したデータを用いて予測フレームワークをテストする。 本研究は,予測アルゴリズムの実用的有用性に関する貴重な知見を提供する。

The advent of novel 5G services and applications with binding latency requirements and guaranteed Quality of Service (QoS) hastened the need to incorporate autonomous and proactive decision-making in network management procedures. The objective of our study is to provide a thorough analysis of predictive latency within 5G networks by utilizing real-world network data that is accessible to mobile network operators (MNOs). In particular, (i) we present an analytical formulation of the user-plane latency as a Hypoexponential distribution, which is validated by means of a comparative analysis with empirical measurements, and (ii) we conduct experimental results of probabilistic regression, anomaly detection, and predictive forecasting leveraging on emerging domains in Machine Learning (ML), such as Bayesian Learning (BL) and Machine Learning on Graphs (GML). We test our predictive framework using data gathered from scenarios of vehicular mobility, dense-urban traffic, and social gathering events. Our results provide valuable insights into the efficacy of predictive algorithms in practical applications.
翻訳日:2023-07-06 13:26:08 公開日:2023-07-05
# GaAs量子エミッタにおける電子スピンコヒーレンス向上

Enhanced Electron Spin Coherence in a GaAs Quantum Emitter ( http://arxiv.org/abs/2307.02323v1 )

ライセンス: Link先を確認
Giang N. Nguyen, Clemens Spinnler, Mark R. Hogg, Liang Zhai, Alisa Javadi, Carolin A. Schrader, Marcel Erbe, Marcus Wyss, Julian Ritzmann, Hans-Georg Babin, Andreas D. Wieck, Arne Ludwig, and Richard J. Warburton(参考訳) スピン光子界面はコヒーレント光子とコヒーレントスピンの両方で動作し、クラスター状態の生成と絡み合い分布を可能にする。 高品質のデバイスでは、自己組立GaAs量子ドットはオンデマンドコヒーレント光子のほぼ完全なエミッタである。 しかし、スピンはホスト核から生じる磁気ノイズによって急速に分解される。 ここでは、GaAs量子ドット上に全光学的核スピン冷却方式を実装することで、この欠点に対処する。 電子スピンコヒーレンス時間は、T_2^*$ = 3.9 ns から 0.608 $\mu$s へと 156 倍に増加する。 冷却スキームは超微細相互作用における非線形項に依存する。 その結果, ひずみが低く, 外部応力が印加されない場合でも, このような用語が存在することがわかった。 我々の研究は、高速でコヒーレントなスピン-光子界面として光学活性なGaAs量子ドットの可能性を強調している。

A spin-photon interface should operate with both coherent photons and a coherent spin to enable cluster-state generation and entanglement distribution. In high-quality devices, self-assembled GaAs quantum dots are near-perfect emitters of on-demand coherent photons. However, the spin rapidly decoheres via the magnetic noise arising from the host nuclei. Here, we address this drawback by implementing an all-optical nuclear-spin cooling scheme on a GaAs quantum dot. The electron-spin coherence time increases 156-fold from $T_2^*$ = 3.9 ns to 0.608 $\mu$s. The cooling scheme depends on a non-collinear term in the hyperfine interaction. The results show that such a term is present even though the strain is low and no external stress is applied. Our work highlights the potential of optically-active GaAs quantum dots as fast, highly coherent spin-photon interfaces.
翻訳日:2023-07-06 13:25:50 公開日:2023-07-05
# MSViT:ビジョントランスのための動的混合スケールトークン化

MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers ( http://arxiv.org/abs/2307.02321v1 )

ライセンス: Link先を確認
Jakob Drachmann Havtorn and Amelie Royer and Tijmen Blankevoort and Babak Ehteshami Bejnordi(参考訳) 視覚変換器への入力トークンは、その内容に関係なく、入力画像の通常の等サイズのパッチとして定義されるため、意味をほとんど持たない。 しかし、画像の均一な背景領域の処理は、密度の高い散らばった領域ほど計算を必要としない。 そこで本研究では,ViT,MSViTのための動的混合スケールトークン化方式を提案する。 本手法では,画像領域毎に最適なトークンスケールを選択する条件付きゲーティング機構を導入し,入力毎にトークン数を動的に決定する。 提案されたゲーティングモジュールは軽量で、トランスフォーマーバックボーンの選択に非依存であり、トレーニングオーバーヘッドの少ないいくつかのエポック(例えばImageNetでは20エポック)でトレーニングされている。 さらに, 学習中のゲートの条件的挙動を向上させるため, バッチシェーピング損失の新たな一般化を提案する。 当社のゲーティングモジュールは,局所的に粗いパッチレベルで動作するにも関わらず,意味のあるセマンティクスを学習できることを示します。 我々はMSViTを分類と分割のタスクで検証し、精度・複雑さのトレードオフを改善する。

The input tokens to Vision Transformers carry little semantic meaning as they are defined as regular equal-sized patches of the input image, regardless of its content. However, processing uniform background areas of an image should not necessitate as much compute as dense, cluttered areas. To address this issue, we propose a dynamic mixed-scale tokenization scheme for ViT, MSViT. Our method introduces a conditional gating mechanism that selects the optimal token scale for every image region, such that the number of tokens is dynamically determined per input. The proposed gating module is lightweight, agnostic to the choice of transformer backbone, and trained within a few epochs (e.g., 20 epochs on ImageNet) with little training overhead. In addition, to enhance the conditional behavior of the gate during training, we introduce a novel generalization of the batch-shaping loss. We show that our gating module is able to learn meaningful semantics despite operating locally at the coarse patch-level. We validate MSViT on the tasks of classification and segmentation where it leads to improved accuracy-complexity trade-off.
翻訳日:2023-07-06 13:25:37 公開日:2023-07-05
# アルゴリズム、インセンティブ、民主主義

Algorithms, Incentives, and Democracy ( http://arxiv.org/abs/2307.02319v1 )

ライセンス: Link先を確認
Elizabeth Maggie Penn and John W. Patty(参考訳) 分類アルゴリズムは、人々の生活に影響を与える決定を下すために、住宅、信用、法執行などの分野でますます使われている。 これらのアルゴリズムは、個人行動(詐欺を抑える詐欺予測アルゴリズム)や、不注意に(誤情報を広げるコンテンツソートアルゴリズム)を意図的に変更することができる。 これらの規制の中には、一部の州における現金保釈の廃止など、特定の分類の利害を下げることに焦点を当てているものもある。 本稿では,アルゴリズム設計者による最適分類が,集団の行動分布に与える影響を,時として驚くべき方法で特徴づける。 次に,報奨や罰,あるいはステークスをアルゴリズム的分類に民主化する効果を検討し,社会が捕食的分類をいかにシミュレート(あるいは促進)できるかを検討する。 本研究は, 行動とアルゴリズムが相互に依存する設定や, 集団間の統計的正確性に着目した公平さの典型的な尺度が適切でない場合における, アルゴリズム的公平性に関する質問を述べる。

Classification algorithms are increasingly used in areas such as housing, credit, and law enforcement in order to make decisions affecting peoples' lives. These algorithms can change individual behavior deliberately (a fraud prediction algorithm deterring fraud) or inadvertently (content sorting algorithms spreading misinformation), and they are increasingly facing public scrutiny and regulation. Some of these regulations, like the elimination of cash bail in some states, have focused on \textit{lowering the stakes of certain classifications}. In this paper we characterize how optimal classification by an algorithm designer can affect the distribution of behavior in a population -- sometimes in surprising ways. We then look at the effect of democratizing the rewards and punishments, or stakes, to algorithmic classification to consider how a society can potentially stem (or facilitate!) predatory classification. Our results speak to questions of algorithmic fairness in settings where behavior and algorithms are interdependent, and where typical measures of fairness focusing on statistical accuracy across groups may not be appropriate.
翻訳日:2023-07-06 13:25:20 公開日:2023-07-05
# 不連続分割型アフィンニューラルネットワークによるディープコントラクト設計

Deep Contract Design via Discontinuous Piecewise Affine Neural Networks ( http://arxiv.org/abs/2307.02318v1 )

ライセンス: Link先を確認
Tonghan Wang, Paul D\"utting, Dmitry Ivanov, Inbal Talgam-Cohen, David C. Parkes(参考訳) 契約設計は、代理人の行動から生じる成果に対する支払いに関する契約上の合意を確立するプリンシパルを含む。 本稿では,最適契約の自動設計のための深層学習の研究を開始する。 我々はこれをオフライン学習問題として定式化し、契約の設計の関数としてプリンシパルの期待するユーティリティを表現するためにディープネットワークを使用する。 本稿では,不連続ReLU(DeLU)ネットワークについて紹介する。このネットワークは,各ピースが特定のアクションをとるエージェントに対応する不連続なピースワイドアフィン関数として,プリンシパルの効用をモデル化する。 DeLUネットワークは、エージェントのインセンティブ互換性制約とプリンシパルのユーティリティ最大化目的に対するクローズドフォーム表現を暗黙的に学習し、最適契約を解く線形プログラミングやインテリアポイントメソッドを通じて各ピースの並列推論をサポートする。 我々は,少数のトレーニングサンプルを用いてプリンシパルの効用関数を近似し,多数の動作と結果を持つ問題に対して,ほぼ最適なコントラクトを見つけるためのスケーリングを行うことで,その成功を実証する実験結果を提供する。

Contract design involves a principal who establishes contractual agreements about payments for outcomes that arise from the actions of an agent. In this paper, we initiate the study of deep learning for the automated design of optimal contracts. We formulate this as an offline learning problem, where a deep network is used to represent the principal's expected utility as a function of the design of a contract. We introduce a novel representation: the Discontinuous ReLU (DeLU) network, which models the principal's utility as a discontinuous piecewise affine function where each piece corresponds to the agent taking a particular action. DeLU networks implicitly learn closed-form expressions for the incentive compatibility constraints of the agent and the utility maximization objective of the principal, and support parallel inference on each piece through linear programming or interior-point methods that solve for optimal contracts. We provide empirical results that demonstrate success in approximating the principal's utility function with a small number of training samples and scaling to find approximately optimal contracts on problems with a large number of actions and outcomes.
翻訳日:2023-07-06 13:25:02 公開日:2023-07-05
# ChatGPT生成データを用いたソーシャルメディアからの抑うつ症状の検索

Utilizing ChatGPT Generated Data to Retrieve Depression Symptoms from Social Media ( http://arxiv.org/abs/2307.02313v1 )

ライセンス: Link先を確認
Ana-Maria Bucur(参考訳) 本稿では,抑うつ症状の検索におけるeRisk LabタスクにおけるBLUEチームの貢献について述べる。 このタスクは、BDI-IIアンケートからうつ病の症状を伝えるRedditのソーシャルメディア文の検索とランキングから成り立っている。 llmsが提供した合成データがデータ拡張と下流モデルの微調整の信頼できる方法であることが証明されていることから,bdi-iiアンケートの症状ごとにchatgptを用いて合成データを生成する方法を選択した。 生成したデータは各質問に対するBDI-II応答よりもリッチでセマンティックな多様性を含み、同時にReddit上でのより親密な体験共有に特有な感情的・逸話的体験を含むようにプロンプトを設計した。 意味探索を行い,コサイン類似性により文のBDI-II症状との関連をランク付けする。 BDI-II, MentalRoBERTa, MPNetの2種類のトランスフォーマーモデルを用いて,ソーシャルメディア投稿の埋め込み, BDI-II, MentalRoBERTaのオリジナルおよび生成された応答, およびMPNetの変種について検討した。 本研究は, 意味探索のためのモデルとして, 文章埋め込みを用いた手法が, 精神保健データに基づいて事前学習されたモデルより優れていることを示す。 さらに、生成した合成データは、このタスクにあまり具体的でないことが証明され、bdi-ii応答に依存するアプローチが最良の性能を示した。

In this work, we present the contribution of the BLUE team in the eRisk Lab task on searching for symptoms of depression. The task consists of retrieving and ranking Reddit social media sentences that convey symptoms of depression from the BDI-II questionnaire. Given that synthetic data provided by LLMs have been proven to be a reliable method for augmenting data and fine-tuning downstream models, we chose to generate synthetic data using ChatGPT for each of the symptoms of the BDI-II questionnaire. We designed a prompt such that the generated data contains more richness and semantic diversity than the BDI-II responses for each question and, at the same time, contains emotional and anecdotal experiences that are specific to the more intimate way of sharing experiences on Reddit. We perform semantic search and rank the sentences' relevance to the BDI-II symptoms by cosine similarity. We used two state-of-the-art transformer-based models for embedding the social media posts, the original and generated responses of the BDI-II, MentalRoBERTa and a variant of MPNet. Our results show that an approach using for sentence embeddings a model that is designed for semantic search outperforms the model pre-trained on mental health data. Furthermore, the generated synthetic data were proved too specific for this task, the approach simply relying on the BDI-II responses had the best performance.
翻訳日:2023-07-06 13:24:43 公開日:2023-07-05
# 全スライド画像分類のためのマルチスケールプロトタイプ変換器

Multi-Scale Prototypical Transformer for Whole Slide Image Classification ( http://arxiv.org/abs/2307.02308v1 )

ライセンス: Link先を確認
Saisai Ding, Jun Wang, Juncheng Li, and Jun Shi(参考訳) 全スライド画像(WSI)分類は、計算病理学において重要な課題である。 WSI分類における多重インスタンス学習(MIL)の最近の進歩にもかかわらず、バッグの正と負のインスタンス間の極端の不均衡と、WSIのマルチスケール情報を融合する複雑な前処理により、WSIの正確な分類は依然として困難である。 そこで本研究では,wsi 分類のための多種多型変圧器 (mspt) を提案し,多種多機能融合モジュール (mffm) と多種多型変圧器 (pt) モジュールを含む。 PTは、トランスフォーマーアーキテクチャにプロトタイプ学習を統合することで、バッグの冗長なインスタンスを減らすために開発された。 すべてのインスタンスをクラスタプロトタイプで置き換えて,Trans-formerの自己保持機構を通じて再校正する。 その後、MFFMは、MLP-Mixerを用いてプロトタイプ間の情報通信を強化するため、異なるスケールのクラスタ化されたプロトタイプを融合するために提案される。 2つの公開WSIデータセットの実験結果は、提案したMSPTが比較アルゴリズムを全て上回っていることを示す。

Whole slide image (WSI) classification is an essential task in computational pathology. Despite the recent advances in multiple instance learning (MIL) for WSI classification, accurate classification of WSIs remains challenging due to the extreme imbalance between the positive and negative instances in bags, and the complicated pre-processing to fuse multi-scale information of WSI. To this end, we propose a novel multi-scale prototypical Transformer (MSPT) for WSI classification, which includes a prototypical Transformer (PT) module and a multi-scale feature fusion module (MFFM). The PT is developed to reduce redundant instances in bags by integrating prototypical learning into the Transformer architecture. It substitutes all instances with cluster prototypes, which are then re-calibrated through the self-attention mechanism of the Trans-former. Thereafter, an MFFM is proposed to fuse the clustered prototypes of different scales, which employs MLP-Mixer to enhance the information communication between prototypes. The experimental results on two public WSI datasets demonstrate that the proposed MSPT outperforms all the compared algorithms, suggesting its potential applications.
翻訳日:2023-07-06 13:24:19 公開日:2023-07-05
# ゲージと量子力学のschr\"odinger画像の補間

Interpolating Between the Gauge and Schr\"odinger Pictures of Quantum Dynamics ( http://arxiv.org/abs/2307.02369v1 )

ライセンス: Link先を確認
Sayak Guha Roy, Kevin Slagle(参考訳) 空間的局所性は量子力学のハイゼンベルク図形では明らかであるが、空間的局所性は運動のシュリンガー図形方程式では明確ではない。 ゲージ図形は、運動方程式において局所性が明示的であるようなシュリンガー図形の修正である。 この明示的な局所性を達成するために、ゲージ図は(1)空間の各パッチに関連する異なる波動関数、(2)近傍パッチに関連するヒルベルト空間を関連付けるために時間依存ユニタリ接続を用いる。 本研究では,ゲージピクチャ方程式に空間的に局所的な項を加えることにより,ゲージとシュル=オディンガーピクチャを効果的に補間し,この付加項が大きな係数を持つ場合,ゲージピクチャ波動関数のすべてがシュル=オジナーピクチャ波動関数(および接続が同一性に近づく)に近づくことを示す。

Although spatial locality is explicit in the Heisenberg picture of quantum dynamics, spatial locality is not explicit in the Schr\"odinger picture equations of motion. The gauge picture is a modification of Schr\"odinger's picture such that locality is explicit in the equations of motion. In order to achieve this explicit locality, the gauge picture utilizes (1) a distinct wavefunction associated with each patch of space, and (2) time-dependent unitary connections to relate the Hilbert spaces associated with nearby patches. In this work, we show that by adding an additional spatially-local term to the gauge picture equations of motion, we can effectively interpolate between the gauge and Schr\"odinger pictures, such that when this additional term has a large coefficient, all of the gauge picture wavefunctions approach the Schr\"odginer picture wavefunction (and the connections approach the identity).
翻訳日:2023-07-06 13:18:06 公開日:2023-07-05
# 不確かさ認識型加速器容量予測のための距離保存機械学習

Distance Preserving Machine Learning for Uncertainty Aware Accelerator Capacitance Predictions ( http://arxiv.org/abs/2307.02367v1 )

ライセンス: Link先を確認
Steven Goldenberg, Malachi Schram, Kishansingh Rajput, Thomas Britton, Chris Pappas, Dan Lu, Jared Walden, Majdi I. Radaideh, Sarah Cousineau, Sudarshan Harave(参考訳) 正確な不確実性推定を提供することは、信頼性の高い機械学習モデル、特にアクセラレータシステムのような安全クリティカルなアプリケーションを作成するのに不可欠である。 ガウス過程モデルは一般にこのタスクの金本位法と見なされるが、大きな高次元データセットで苦労することがある。 ディープニューラルネットワークとガウスプロセス近似技術を組み合わせることで有望な結果が得られたが、ガウスプロセスモデルに必要な距離情報を維持するために標準ディープニューラルネットワーク層による次元性の低減は保証されていない。 本研究では, ディープニューラルガウス過程近似モデルの特徴抽出器として, スペクトル正規化高密度層に対する特異値分解の利用を比較検討し, オークリッジスパレーション中性子源における高電圧コンバータ変調器の容量予測問題に適用する。 本モデルでは, 距離保存が向上し, 1%未満の誤差で分配容量値を予測する。

Providing accurate uncertainty estimations is essential for producing reliable machine learning models, especially in safety-critical applications such as accelerator systems. Gaussian process models are generally regarded as the gold standard method for this task, but they can struggle with large, high-dimensional datasets. Combining deep neural networks with Gaussian process approximation techniques have shown promising results, but dimensionality reduction through standard deep neural network layers is not guaranteed to maintain the distance information necessary for Gaussian process models. We build on previous work by comparing the use of the singular value decomposition against a spectral-normalized dense layer as a feature extractor for a deep neural Gaussian process approximation model and apply it to a capacitance prediction problem for the High Voltage Converter Modulators in the Oak Ridge Spallation Neutron Source. Our model shows improved distance preservation and predicts in-distribution capacitance values with less than 1% error.
翻訳日:2023-07-06 13:17:45 公開日:2023-07-05
# 110Mb/sを超える高速量子鍵分布

High-rate quantum key distribution exceeding 110 Mb/s ( http://arxiv.org/abs/2307.02364v1 )

ライセンス: Link先を確認
Wei Li, Likang Zhang, Hao Tan, Yichen Lu, Sheng-Kai Liao, Jia Huang, Hao Li, Zhen Wang, Hao-Kun Mao, Bingze Yan, Qiong Li, Yang Liu, Qiang Zhang, Cheng-Zhi Peng, Lixing You, Feihu Xu, Jian-Wei Pan(参考訳) 量子鍵分布(QKD)は、セキュアな通信のための基本的なセキュリティを提供する。 応用に向けて、秘密鍵レート(SKR)は、あらゆるQKDシステムにとって重要なメリットである。 これまでのところ、SKRは毎秒数メガビットに制限されている。 ここでは、記録的な115.8mb/sのscrで10kmの標準ファイバーで鍵を生成でき、最大328kmの超低損失ファイバーで鍵を配布できるqkdシステムについて報告する。 これは、超高カウントレートの多画素超伝導ナノワイヤ単光子検出器、低エラーで安定して偏光状態を符号化できる集積送信機、リアルタイムにキーを生成する高速後処理アルゴリズム、および高系統クロックレート演算を特徴とする。 以上の結果から,フォトニック技術による実用的高レートQKDの実現可能性を示す。

Quantum key distribution (QKD) can provide fundamentally proven security for secure communication. Toward application, the secret key rate (SKR) is a key figure of merit for any QKD system. So far, the SKR has been limited to about a few megabit-per-second. Here we report a QKD system that is able to generate key at a record high SKR of 115.8 Mb/s over 10-km standard fibre, and to distribute key over up to 328 km of ultra-low-loss fibre. This attributes to a multi-pixel superconducting nanowire single-photon detector with ultrahigh counting rate, an integrated transmitter that can stably encode polarization states with low error, a fast post-processing algorithm for generating key in real time and the high system clock-rate operation. The results demonstrate the feasibility of practical high-rate QKD with photonic techniques, thus opening its possibility for widespread applications.
翻訳日:2023-07-06 13:17:27 公開日:2023-07-05
# ありえないか:機械翻訳を用いたオランダ語とカタルーニャ語に翻訳された文学文の翻訳受容研究

To be or not to be: a translation reception study of a literary text translated into Dutch and Catalan using machine translation ( http://arxiv.org/abs/2307.02358v1 )

ライセンス: Link先を確認
Ana Guerberof Arenas and Antonio Toral(参考訳) 本稿では,Kurt Vonnegut氏が英語からカタルーニャ語とオランダ語に翻訳した架空の物語を,機械翻訳(MT),後編集(PE),スクラッチ翻訳(HT)の3つの条件で受理した研究結果を紹介する。 被験者223名を対象に, ナラティブエンゲージメント, エンジョイメント, 翻訳受容の3尺度を用いて, 読解条件の評価を行った。 その結果, HT は PE や MT と比較してカタルーニャ語で高いエンゲージメント, エンゲージメント, 翻訳レセプションを示し, オランダ語読者は HT や MT よりも PE の方が高いスコアを示し, 原英語版では高いエンゲージメント, エンゲージメントスコアが報告された。 我々は、翻訳で架空の物語を読むとき、翻訳の状況と質が、その受容を理解する鍵であるだけでなく、参加者がパターンを読み、言語を読み、そしておそらくは自身の社会における言語の地位を理解するための鍵である、と仮定する。

This article presents the results of a study involving the reception of a fictional story by Kurt Vonnegut translated from English into Catalan and Dutch in three conditions: machine-translated (MT), post-edited (PE) and translated from scratch (HT). 223 participants were recruited who rated the reading conditions using three scales: Narrative Engagement, Enjoyment and Translation Reception. The results show that HT presented a higher engagement, enjoyment and translation reception in Catalan if compared to PE and MT. However, the Dutch readers show higher scores in PE than in both HT and MT, and the highest engagement and enjoyments scores are reported when reading the original English version. We hypothesize that when reading a fictional story in translation, not only the condition and the quality of the translations is key to understand its reception, but also the participants reading patterns, reading language, and, perhaps language status in their own societies.
翻訳日:2023-07-06 13:17:12 公開日:2023-07-05
# データメッシュプラットフォームの一部としての分散データガバナンス - 概念とアプローチ

Decentralized Data Governance as Part of a Data Mesh Platform: Concepts and Approaches ( http://arxiv.org/abs/2307.02357v1 )

ライセンス: Link先を確認
Arif Wider, Sumedha Verma, Atif Akhtar(参考訳) data meshは、分散分析データ管理に対する社会技術的アプローチである。 この分散化を効率的に管理するために、データメッシュは、セルフサービスデータインフラストラクチャプラットフォームが提供する自動化に依存する。 このプラットフォームの重要な側面は、分散データガバナンスを可能にすることだ。 データメッシュは若いアプローチであるため、業界におけるデータメッシュの概念の解釈方法には一貫性が欠如しており、データメッシュプラットフォームがガバナンスを促進する方法に関する作業はほとんどない。 本稿では、主要なデータメッシュ概念の概念モデルを提示し、プラットフォーム手段を通じたガバナンスを推進するための異なるアプローチについて論じる。 講演では、データメッシュプラットフォーム開発へのアプローチのリファレンスとして使用可能な、フルファンクショナルなデータメッシュプラットフォームの実装に関する具体的な経験から引用した。

Data mesh is a socio-technical approach to decentralized analytics data management. To manage this decentralization efficiently, data mesh relies on automation provided by a self-service data infrastructure platform. A key aspect of this platform is to enable decentralized data governance. Because data mesh is a young approach, there is a lack of coherence in how data mesh concepts are interpreted in the industry, and almost no work on how a data mesh platform facilitates governance. This paper presents a conceptual model of key data mesh concepts and discusses different approaches to drive governance through platform means. The insights presented are drawn from concrete experiences of implementing a fully-functional data mesh platform that can be used as a reference on how to approach data mesh platform development.
翻訳日:2023-07-06 13:16:49 公開日:2023-07-05
# 光近接場における位置と偏光度推定の量子限界

Quantum Limits of Position and Polarizability Estimation in the Optical Near Field ( http://arxiv.org/abs/2307.02348v1 )

ライセンス: Link先を確認
Lukas Kienesberger, Thomas Juffmann, and Stefan Nimmrichter(参考訳) 光近接場は、センシングとイメージングにおける様々な応用の中心にある。 ディポール散乱をパラメータ推定問題として検討し,光学的近接場が各遠方フィールドよりも散乱器の位置と偏光率についてより多くの情報を持っていることを示す。 この情報の増加は、散乱過程自体から発生し、同時に発生する。 我々の計算は自由空間における双極子の遠距離局在限界も与える。

Optical near fields are at the heart of various applications in sensing and imaging. We investigate dipole scattering as a parameter estimation problem and show that optical near-fields carry more information about the location and the polarizability of the scatterer than the respective far fields. This increase in information originates from and occurs simultaneously with the scattering process itself. Our calculations also yield the far-field localization limit for dipoles in free space.
翻訳日:2023-07-06 13:16:38 公開日:2023-07-05
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v1 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、マルチリッドが拡散検出とモデル同定において優れていることを示している。 生成した画像の検出に関する最近の論文の実証評価は「LSUN-Bedroom」データセットに重きを置いていることが多いため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出のための総合的なベンチマークを確立し、そのマルチLIDの性能を評価する。 私たちの実験のコードはhttps://github.com/deepfake-study/deepfake_multilidで提供されます。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that multiLID exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images is often too focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes to evaluate the performance of their multiLID. Code for our experiments is provided at https://github.com/deepfake-study/deepfake_multiLID.
翻訳日:2023-07-06 13:16:32 公開日:2023-07-05
# LLQL: 強化学習のためのロジスティックなQラーニング

LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning ( http://arxiv.org/abs/2307.02345v1 )

ライセンス: Link先を確認
Outongyi Lv, Bingxin Zhou, Yu Guang Wang(参考訳) 現在、強化学習(RL)の研究は、オンラインRLとオフラインRLの2つのカテゴリに大別できる。 オンラインおよびオフラインのRLにおいて、ベルマン誤差の研究の主な焦点は、分布特性のようなベルマン誤差の本質的な構造的特性を調べるのではなく、最適化技術と性能改善にある。 本研究では,オンライン設定とオフライン設定の両方においてベルマン近似誤差の分布を解析する。 オンライン環境ではベルマン誤差はロジスティック分布に従うが、オフライン環境ではベルマン誤差は制約付きロジスティック分布に従う。 この結果に基づき、ベルマン誤差が正規分布に従うという仮定に基づいてMSELosを改良し、ロジスティック最大可能性関数を用いて代替損失関数として$\rm LLoss$を構築した。 さらに,オフラインデータセットの報酬は,オフライン目的の達成を促進するような,特定のディストリビューションに従うべきであることも確認した。 数値実験では,オンライン環境とオフライン環境の両方において,ソフトアクタクリティックの損失関数の制御変数補正を行った。 その結果、オンラインとオフラインの設定に関する仮説が確認されたが、llossのばらつきはmelossよりも小さいことが判明した。 本研究はベルマン誤差の分布に基づくさらなる調査に有用な知見を提供する。

Currently, research on Reinforcement learning (RL) can be broadly classified into two categories: online RL and offline RL. Both in online and offline RL, the primary focus of research on the Bellman error lies in the optimization techniques and performance improvement, rather than exploring the inherent structural properties of the Bellman error, such as distribution characteristics. In this study, we analyze the distribution of the Bellman approximation error in both online and offline settings. We find that in the online environment, the Bellman error follows a Logistic distribution, while in the offline environment, the Bellman error follows a constrained Logistic distribution, where the constrained distribution is dependent on the prior policy in the offline data set. Based on this finding, we have improved the MSELoss which is based on the assumption that the Bellman errors follow a normal distribution, and we utilized the Logistic maximum likelihood function to construct $\rm LLoss$ as an alternative loss function. In addition, we observed that the rewards in the offline data set should follow a specific distribution, which would facilitate the achievement of offline objectives. In our numerical experiments, we performed controlled variable corrections on the loss functions of two variants of Soft-Actor-Critic in both online and offline environments. The results confirmed our hypothesis regarding the online and offline settings, we also found that the variance of LLoss is smaller than MSELoss. Our research provides valuable insights for further investigations based on the distribution of Bellman errors.
翻訳日:2023-07-06 13:16:12 公開日:2023-07-05
# MuLMS-AZ: 材料科学領域のための抽象的なゾーニングデータセット

MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science Domain ( http://arxiv.org/abs/2307.02340v1 )

ライセンス: Link先を確認
Timo Pierre Schrader, Teresa B\"urkle, Sophie Henning, Sherry Tan, Matteo Finco, Stefan Gr\"unewald, Maira Indrikova, Felix Hildebrand, Annemarie Friedrich(参考訳) 科学出版物は伝統的な修辞構造に従っている。 議論的ゾーン(az)の分類,例えば,文章が動機づけ,結果,背景情報を示すかどうかの識別は,学術文書の処理を改善するために提案されている。 本研究では,この概念を材料科学研究の領域に適応し,拡張する。 我々は,50個の手作業による研究論文のデータセットを提示し,公開する。 データセットは7つのサブトピックにまたがり、azのマテリアルサイエンスに焦点を当てたマルチラベルアノテーションスキームでアノテートされる。 コーパス統計を詳述し、高いアノテータ間合意を示す。 計算実験により,領域特異的に事前学習したトランスフォーマベースのテキストエンコーダを用いることが,高い分類性能の鍵となることを示す。 また、他のドメインの既存のデータセットからのazカテゴリは、異なる程度に転送可能であることも分かりました。

Scientific publications follow conventionalized rhetorical structures. Classifying the Argumentative Zone (AZ), e.g., identifying whether a sentence states a Motivation, a Result or Background information, has been proposed to improve processing of scholarly documents. In this work, we adapt and extend this idea to the domain of materials science research. We present and release a new dataset of 50 manually annotated research articles. The dataset spans seven sub-topics and is annotated with a materials-science focused multi-label annotation scheme for AZ. We detail corpus statistics and demonstrate high inter-annotator agreement. Our computational experiments show that using domain-specific pre-trained transformer-based text encoders is key to high classification performance. We also find that AZ categories from existing datasets in other domains are transferable to varying degrees.
翻訳日:2023-07-06 13:15:50 公開日:2023-07-05
# GAFAR:高速かつ軽量な点集合登録アルゴリズムにおけるグラフ注意機能拡張

GAFAR: Graph-Attention Feature-Augmentation for Registration A Fast and Light-weight Point Set Registration Algorithm ( http://arxiv.org/abs/2307.02339v1 )

ライセンス: Link先を確認
Ludwig Mohr, Ismail Geles and Friedrich Fraundorfer(参考訳) 点雲の剛体登録はコンピュータビジョンにおける基本的な問題であり、3次元シーン再構成から幾何学的キャプチャー、ロボット工学まで多くの応用がある。 適切な初期登録が利用可能であれば、ICPのような従来の方法とその多くの変種は適切な解決策を提供することができる。 適切な初期化がない場合や、高い外れ率が存在する場合や、少ない重複の場合は、厳格な登録の課題は依然として大きな課題である。 コンピュータビジョンにおけるディープラーニングの出現は、表現力のある特徴表現を学習し、従来のロバストな方法の時間を要する反復に依存するのではなく、ワンショットの見積もりを提供する可能性を提供するため、このトピックの研究に新たな進展をもたらした。 しかしながら、ポイントクラウドの回転と置換不変性は、ディープラーニングに独自の課題をもたらし、ネットワークトレーニング中に存在しない異常値に対する感度と3dスキャンの特性のために、パフォーマンスの低下と一般化能力の低下をもたらす。 本稿では,提案する特定の点雲の登録タスクを最適に適合させるために,予測時に点記述子を増強する注意機構を用いた,高速で軽量なネットワークアーキテクチャを提案する。 ポイントクラウド内とポイントクラウド間で完全に接続されたグラフを使用することで、登録ポイントの重要性と信頼性をネットワークが判断することが可能になります。 我々は,異なる登録および一般化タスクにおける登録アルゴリズムの性能をテストし,実行時およびリソース消費に関する情報を提供する。 コードはhttps://github.com/mordecaimalignatius/GAFAR/で公開されている。

Rigid registration of point clouds is a fundamental problem in computer vision with many applications from 3D scene reconstruction to geometry capture and robotics. If a suitable initial registration is available, conventional methods like ICP and its many variants can provide adequate solutions. In absence of a suitable initialization and in the presence of a high outlier rate or in the case of small overlap though the task of rigid registration still presents great challenges. The advent of deep learning in computer vision has brought new drive to research on this topic, since it provides the possibility to learn expressive feature-representations and provide one-shot estimates instead of depending on time-consuming iterations of conventional robust methods. Yet, the rotation and permutation invariant nature of point clouds poses its own challenges to deep learning, resulting in loss of performance and low generalization capability due to sensitivity to outliers and characteristics of 3D scans not present during network training. In this work, we present a novel fast and light-weight network architecture using the attention mechanism to augment point descriptors at inference time to optimally suit the registration task of the specific point clouds it is presented with. Employing a fully-connected graph both within and between point clouds lets the network reason about the importance and reliability of points for registration, making our approach robust to outliers, low overlap and unseen data. We test the performance of our registration algorithm on different registration and generalization tasks and provide information on runtime and resource consumption. The code and trained weights are available at https://github.com/mordecaimalignatius/GAFAR/.
翻訳日:2023-07-06 13:15:36 公開日:2023-07-05
# unbalanced optimal transport:オブジェクト検出のための統一フレームワーク

Unbalanced Optimal Transport: A Unified Framework for Object Detection ( http://arxiv.org/abs/2307.02402v1 )

ライセンス: Link先を確認
Henri De Plaen, Pierre-Fran\c{c}ois De Plaen, Johan A. K. Suykens, Marc Proesmans, Tinne Tuytelaars and Luc Van Gool(参考訳) トレーニング中、教師付きオブジェクト検出は予測された境界ボックスと関連する分類スコアと基底真理とを正しく一致させようとする。 これは、どのソリューションに向かってどの予測をプッシュするか、あるいは破棄するかを決定するのに不可欠です。 一般的なマッチング戦略としては、最も近い接地真理箱(主にアンカーと組み合わせて使用される)のマッチングや、ハンガリーのアルゴリズム(主にアンカーフリーの手法で使用される)によるマッチングがある。 これらの戦略にはそれぞれの特性、基礎となる損失、ヒューリスティックが含まれる。 非バランスな最適輸送がこれらの異なるアプローチをいかに統一するかを示し、その間に方法の全連続性を開く。 これにより、望ましいプロパティのより細かい選択が可能になる。 実験により,不均衡な最適移動量を持つ物体検出モデルの訓練は,平均精度と平均リコールの両面で最先端に到達でき,より高速に初期収束できることを示した。 このアプローチはgpu実装に適しており、大規模モデルに有利であることが証明されている。

During training, supervised object detection tries to correctly match the predicted bounding boxes and associated classification scores to the ground truth. This is essential to determine which predictions are to be pushed towards which solutions, or to be discarded. Popular matching strategies include matching to the closest ground truth box (mostly used in combination with anchors), or matching via the Hungarian algorithm (mostly used in anchor-free methods). Each of these strategies comes with its own properties, underlying losses, and heuristics. We show how Unbalanced Optimal Transport unifies these different approaches and opens a whole continuum of methods in between. This allows for a finer selection of the desired properties. Experimentally, we show that training an object detection model with Unbalanced Optimal Transport is able to reach the state-of-the-art both in terms of Average Precision and Average Recall as well as to provide a faster initial convergence. The approach is well suited for GPU implementation, which proves to be an advantage for large-scale models.
翻訳日:2023-07-06 13:07:22 公開日:2023-07-05
# 効率的な情報伝達と特徴選択のためのVersatile Hub Model

A Versatile Hub Model For Efficient Information Propagation And Feature Selection ( http://arxiv.org/abs/2307.02398v1 )

ライセンス: Link先を確認
Zhaoze Wang, Junsong Wang(参考訳) ハブ構造は、接続が少ない多数のノードに囲まれた少数の高度に相互接続されたノードによって特徴づけられ、生物学的脳の顕著なトポロジカルな特徴であり、様々な種の効率的な情報伝達と認知処理に寄与している。 本稿では,ハブ構造の数学的モデルを提案する。 提案手法は多用途であり,計算神経科学とrecurrent neural networks (rnns) の研究に広く適用可能である。 我々は,ハブ構造の機械的基盤を調査する手段として,エコー状態ネットワーク(esn)を用いた。 本研究は,ハブ構造の導入による性能向上を示すものである。 包括的力学解析により,効率的な情報処理と優れた特徴抽出により,ハブ構造がモデル性能を向上させることを示す。

Hub structure, characterized by a few highly interconnected nodes surrounded by a larger number of nodes with fewer connections, is a prominent topological feature of biological brains, contributing to efficient information transfer and cognitive processing across various species. In this paper, a mathematical model of hub structure is presented. The proposed method is versatile and can be broadly applied to both computational neuroscience and Recurrent Neural Networks (RNNs) research. We employ the Echo State Network (ESN) as a means to investigate the mechanistic underpinnings of hub structures. Our findings demonstrate a substantial enhancement in performance upon incorporating the hub structure. Through comprehensive mechanistic analyses, we show that the hub structure improves model performance by facilitating efficient information processing and better feature extractions.
翻訳日:2023-07-06 13:07:05 公開日:2023-07-05
# 二度と騙されない - 虚偽の前提で質問に答える

Won't Get Fooled Again: Answering Questions with False Premises ( http://arxiv.org/abs/2307.02394v1 )

ライセンス: Link先を確認
Shengding Hu, Yifan Luo, Huadong Wang, Xingyi Cheng, Zhiyuan Liu, Maosong Sun(参考訳) 事前学習言語モデル(PLM)は、特にQAシステムのバックボーンとして、様々な分野で前例のない可能性を示している。 しかし、彼らは「太陽の目は何個あるのか?」といった厄介な質問に容易に騙される傾向がある。 このようなPLMの欠陥は、しばしばその内部の知識の欠如を暗示する。 本稿では,これらの疑問に答えるために必要な知識をPLMがすでに持っていること,そしてその知識を活性化する方法が鍵であることを示す。 この観察を体系化するために、我々はPLMの1つの難解な質問に対する応答、すなわち偽前提質問(FPQ)について調査する。 2365人のFPQを含むFalseQAデータセットに、偽の前提条件と修正された真の前提条件に関する説明を注釈付けする。 FalseQAを用いて、PLMは中等数(例えば256)の例を微調整することでFPQを識別できることがわかった。 PLMはまた、反論として機能する偽の前提について合理的な説明を生成する。 トレーニング中にいくつかの一般的な質問をリプレイすることで、PLMはFPQと一般的な質問を同時に実行することができる。 本研究は,PLMを用いたQAシステムの研究にインセンティブを与えるFPQを扱うために,PLM内の知識を効果的に活用できることを示唆する。

Pre-trained language models (PLMs) have shown unprecedented potential in various fields, especially as the backbones for question-answering (QA) systems. However, they tend to be easily deceived by tricky questions such as "How many eyes does the sun have?". Such frailties of PLMs often allude to the lack of knowledge within them. In this paper, we find that the PLMs already possess the knowledge required to rebut such questions, and the key is how to activate the knowledge. To systematize this observation, we investigate the PLMs' responses to one kind of tricky questions, i.e., the false premises questions (FPQs). We annotate a FalseQA dataset containing 2365 human-written FPQs, with the corresponding explanations for the false premises and the revised true premise questions. Using FalseQA, we discover that PLMs are capable of discriminating FPQs by fine-tuning on moderate numbers (e.g., 256) of examples. PLMs also generate reasonable explanations for the false premise, which serve as rebuttals. Further replaying a few general questions during training allows PLMs to excel on FPQs and general questions simultaneously. Our work suggests that once the rebuttal ability is stimulated, knowledge inside the PLMs can be effectively utilized to handle FPQs, which incentivizes the research on PLM-based QA systems.
翻訳日:2023-07-06 13:06:51 公開日:2023-07-05
# RADiff: 電波地図生成のための制御可能な拡散モデル

RADiff: Controllable Diffusion Models for Radio Astronomical Maps Generation ( http://arxiv.org/abs/2307.02392v1 )

ライセンス: Link先を確認
Renato Sortino, Thomas Cecconello, Andrea DeMarco, Giuseppe Fiameni, Andrea Pilzer, Andrew M. Hopkins, Daniel Magro, Simone Riggi, Eva Sciacca, Adriano Ingallinera, Cristobal Bordiu, Filomena Bufano, Concetto Spampinato(参考訳) Square Kilometre Array(SKA)の完成が間近に迫っているのに伴い、大量のデータから貴重な情報を抽出する正確で信頼性の高い自動化ソリューションへの需要が高まっている。 自動ソース発見は、天文天体の検出と分類を可能にするため、この文脈において特に重要なタスクである。 ディープラーニングに基づくオブジェクト検出とセマンティックセグメンテーションモデルがこの目的に適していることが証明されている。 しかし、そのような深層ネットワークの訓練には大量のラベル付きデータが必要であるため、電波天文学の文脈では簡単には得られない。 データは専門家によって手動でラベル付けされる必要があるため、このプロセスは大規模なデータセットサイズには拡張性がなく、複数のタスクにディープネットワークを利用する可能性も制限される。 本研究では,アノテートされた無線データセット上で訓練された条件拡散モデルに基づく生成手法であるRADiffを提案し,異なる形態の電波源を含む合成画像を生成し,既存のデータセットを増大させ,クラス不均衡に起因する問題を低減させる。 また、全合成画像アノテーションペアを生成し、任意のアノテートデータセットを自動的に拡張できることも示している。 本手法の有効性を,2つの方法で拡張した実データセット上で意味セグメンテーションモデルをトレーニングすることで評価する。 1)実マスクから得られた合成画像を用いて 2)合成意味マスクから画像を生成する。 本研究は, 合成マスクを用いた場合, 実マスクを用いた場合, 最大18%, 合成マスクを用いた場合, 4%の性能向上を示す。 最後に,このモデルを用いて大規模無線地図の作成を行い,データ課題のシミュレーションを行った。

Along with the nearing completion of the Square Kilometre Array (SKA), comes an increasing demand for accurate and reliable automated solutions to extract valuable information from the vast amount of data it will allow acquiring. Automated source finding is a particularly important task in this context, as it enables the detection and classification of astronomical objects. Deep-learning-based object detection and semantic segmentation models have proven to be suitable for this purpose. However, training such deep networks requires a high volume of labeled data, which is not trivial to obtain in the context of radio astronomy. Since data needs to be manually labeled by experts, this process is not scalable to large dataset sizes, limiting the possibilities of leveraging deep networks to address several tasks. In this work, we propose RADiff, a generative approach based on conditional diffusion models trained over an annotated radio dataset to generate synthetic images, containing radio sources of different morphologies, to augment existing datasets and reduce the problems caused by class imbalances. We also show that it is possible to generate fully-synthetic image-annotation pairs to automatically augment any annotated dataset. We evaluate the effectiveness of this approach by training a semantic segmentation model on a real dataset augmented in two ways: 1) using synthetic images obtained from real masks, and 2) generating images from synthetic semantic masks. We show an improvement in performance when applying augmentation, gaining up to 18% in performance when using real masks and 4% when augmenting with synthetic masks. Finally, we employ this model to generate large-scale radio maps with the objective of simulating Data Challenges.
翻訳日:2023-07-06 13:06:27 公開日:2023-07-05
# 不完全な専門家としての言語モデルによる因果発見

Causal Discovery with Language Models as Imperfect Experts ( http://arxiv.org/abs/2307.02390v1 )

ライセンス: Link先を確認
Stephanie Long, Alexandre Pich\'e, Valentina Zantedeschi, Tibor Schuster, Alexandre Drouin(参考訳) システムの基盤となる因果関係を理解することは、正確な意思決定の基本的な前提条件である。 本研究では,マルコフ同値クラスを超えて,因果グラフのデータ駆動識別を改善するための専門家知識の利用方法を検討する。 そこで我々は,変数間の因果関係の向きについて専門家に問い合わせることができるが,専門家が誤った情報を提供できるような設定を考える。 本稿では,同値類における非巡回性や条件的無依存性など,一貫性特性に基づく専門知識の修正戦略を提案する。 次に、大規模な言語モデルが不完全な専門家として使用される実データに関するケーススタディを報告する。

Understanding the causal relationships that underlie a system is a fundamental prerequisite to accurate decision-making. In this work, we explore how expert knowledge can be used to improve the data-driven identification of causal graphs, beyond Markov equivalence classes. In doing so, we consider a setting where we can query an expert about the orientation of causal relationships between variables, but where the expert may provide erroneous information. We propose strategies for amending such expert knowledge based on consistency properties, e.g., acyclicity and conditional independencies in the equivalence class. We then report a case study, on real data, where a large language model is used as an imperfect expert.
翻訳日:2023-07-06 13:06:01 公開日:2023-07-05
# クロネッカー係数の量子複雑性についての一考察

A remark on the quantum complexity of the Kronecker coefficients ( http://arxiv.org/abs/2307.02389v1 )

ライセンス: Link先を確認
Christian Ikenmeyer, Sathyawageeswar Subramanian(参考訳) 我々は、対称群のクロネッカー係数の計算が複雑性クラス#BQPに含まれることを証明した。 これによりBravyi, Chowdhury, Gosset, Havlicek, Zhuの最近の結果が改善されている。 論文で使われている量子コンピューティングツールと、さらに古典的な表現論的な洞察のみを使用します。 また,胸腺係数の類似性も証明した。

We prove that the computation of the Kronecker coefficients of the symmetric group is contained in the complexity class #BQP. This improves a recent result of Bravyi, Chowdhury, Gosset, Havlicek, and Zhu. We use only the quantum computing tools that are used in their paper and additional classical representation theoretic insights. We also prove the analogous result for the plethysm coefficients.
翻訳日:2023-07-06 13:05:48 公開日:2023-07-05
# 概要統計を用いたマルチタスク学習

Multi-Task Learning with Summary Statistics ( http://arxiv.org/abs/2307.02388v1 )

ライセンス: Link先を確認
Parker Knight, Rui Duan(参考訳) マルチタスク学習は、複数のソースからのデータを統合する強力な機械学習パラダイムとして登場し、全体的なモデルパフォーマンスを改善するためにタスク間の類似性を活用する。 しかし、マルチタスク学習を現実世界の設定に適用することは、データ共有の制約によって妨げられている。 この課題に対処するために,様々な情報源の要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。 さらに,lepski法の変種に基づく適応パラメータ選択手法を提案し,要約統計のみ利用可能な場合のデータ駆動チューニングパラメータ選択を可能にした。 系統的非漸近解析は,提案手法の性能を,サンプルの複雑さと重なりの様々な条件下で特徴付ける。 提案手法の理論的知見と性能を広範囲なシミュレーションにより実証する。 この研究は、遺伝的リスクの予測やその他の多くの分野において実用的な意味を持つ、様々なドメインにわたって関連するモデルをトレーニングするための、より柔軟なツールを提供する。

Multi-task learning has emerged as a powerful machine learning paradigm for integrating data from multiple sources, leveraging similarities between tasks to improve overall model performance. However, the application of multi-task learning to real-world settings is hindered by data-sharing constraints, especially in healthcare settings. To address this challenge, we propose a flexible multi-task learning framework utilizing summary statistics from various sources. Additionally, we present an adaptive parameter selection approach based on a variant of Lepski's method, allowing for data-driven tuning parameter selection when only summary statistics are available. Our systematic non-asymptotic analysis characterizes the performance of the proposed methods under various regimes of the sample complexity and overlap. We demonstrate our theoretical findings and the performance of the method through extensive simulations. This work offers a more flexible tool for training related models across various domains, with practical implications in genetic risk prediction and many other fields.
翻訳日:2023-07-06 13:05:44 公開日:2023-07-05
# メソスケールにおける機械学習: 計算散逸ボトルネック

Machine learning at the mesoscale: a computation-dissipation bottleneck ( http://arxiv.org/abs/2307.02379v1 )

ライセンス: Link先を確認
Alessandro Ingrosso and Emanuele Panizon(参考訳) 物理システムにおける情報処理のコストは、パフォーマンスとエネルギー消費のトレードオフを要求する。 本稿では,入力出力デバイスとして用いられるメソスコピックシステムにおける計算散逸ボトルネックを定式化し,検討する。 実際のデータセットと合成タスクの両方を用いて、非平衡がパフォーマンスの向上につながることを示す。 提案手法は,情報圧縮,入出力計算,非相互相互作用によって引き起こされる動的非可逆性との間の重要な妥協点を浮き彫りにする。

The cost of information processing in physical systems calls for a trade-off between performance and energetic expenditure. Here we formulate and study a computation-dissipation bottleneck in mesoscopic systems used as input-output devices. Using both real datasets and synthetic tasks, we show how non-equilibrium leads to enhanced performance. Our framework sheds light on a crucial compromise between information compression, input-output computation and dynamic irreversibility induced by non-reciprocal interactions.
翻訳日:2023-07-06 13:05:21 公開日:2023-07-05
# データクラウド上のOllivierのリッチ曲率の連続極限:点的整合性と大域的下界

Continuum Limits of Ollivier's Ricci Curvature on data clouds: pointwise consistency and global lower bounds ( http://arxiv.org/abs/2307.02378v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Melanie Weber(参考訳) $\mathcal{M} \subseteq \mathbb{R}^d$ は低次元多様体を表し、$\mathcal{X}= \{ x_1, \dots, x_n \}$ を $\mathcal{M}$ から一様にサンプリングされた点の集合とする。 我々は、$\mathcal{X}$から構築されたランダムな幾何グラフの曲率と多様体$\mathcal{M}$の曲率との関係を、Ollivierの離散リッチ曲率の連続極限を通して研究する。 点的に非漸近的一貫性の結果を証明し、もし$\mathcal{m}$ が下から正の定数で境界付けられたリッチ曲率を持つなら、ランダム幾何グラフは高確率でこの大域的構造特性を継承する。 グラフ上の熱核の収縮特性に対する大域的離散曲率境界の適用と、データクラウドからの多様体学習への応用について論じる。 特に、一貫性の結果は、多様体の内在曲率を外在曲率から特徴づけることができることを示す。

Let $\mathcal{M} \subseteq \mathbb{R}^d$ denote a low-dimensional manifold and let $\mathcal{X}= \{ x_1, \dots, x_n \}$ be a collection of points uniformly sampled from $\mathcal{M}$. We study the relationship between the curvature of a random geometric graph built from $\mathcal{X}$ and the curvature of the manifold $\mathcal{M}$ via continuum limits of Ollivier's discrete Ricci curvature. We prove pointwise, non-asymptotic consistency results and also show that if $\mathcal{M}$ has Ricci curvature bounded from below by a positive constant, then the random geometric graph will inherit this global structural property with high probability. We discuss applications of the global discrete curvature bounds to contraction properties of heat kernels on graphs, as well as implications for manifold learning from data clouds. In particular, we show that the consistency results allow for characterizing the intrinsic curvature of a manifold from extrinsic curvature.
翻訳日:2023-07-06 13:05:07 公開日:2023-07-05
# ソースコードにおける言語モデルの共有とエネルギー利用に関する探索文学的研究

An Exploratory Literature Study on Sharing and Energy Use of Language Models for Source Code ( http://arxiv.org/abs/2307.02443v1 )

ライセンス: Link先を確認
Max Hort and Anastasiia Grishina and Leon Moonen(参考訳) ソースコードでトレーニングされた大規模言語モデルは、コードレコメンデーションやプログラムの修正など、さまざまなソフトウェア開発タスクをサポートすることができる。 このようなモデルをトレーニングするための大量のデータにより、モデルの性能が向上する。 しかし、データとモデルのサイズは、長いトレーニング時間と高いエネルギー消費をもたらす。 ソースコードの公開は複製を可能にするが、モデルが共有されていない場合は、ユーザーは高価なトレーニングプロセスを繰り返す必要がある。 この研究の主な目標は、ソフトウェア工学(se)タスクのための言語モデルを訓練した出版物がソースコードと訓練されたアーティファクトを共有しているかどうかを調べることである。 第2の目標は,トレーニングエネルギー使用に関する透明性を分析することだ。 我々は,スノーボールを用いた文献検索を行い,ソースコードの言語モデルに関する出版物を検索し,持続可能性の観点からその再利用性を分析する。 494のユニークな出版物から,コード関連のタスクに対処するために言語モデルを使用する293の関連出版物を特定した。 そのうち27%(293のうち79)は、アーティファクトを再利用できる。 これは、特定のタスクのために設計されたツールやIDEプラグインの形で、様々な下流タスクのために微調整できるタスクに依存しないモデルである。 さらに,モデルトレーニングに使用するハードウェアに関する洞察と,開発プロセスのエネルギー消費を決定するトレーニング時間も収集する。 ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究では、情報やアーティファクトの共有に欠陥があることが分かり、調査対象の40%はソースコードやトレーニング済みアーティファクトを共有していない。 持続可能な再現性を実現するため、ソースコードとトレーニング済みのアーティファクトの共有を推奨します。 さらに、トレーニング時間とハードウェア構成に関する包括的な情報は、モデルのカーボンフットプリントの透明性のために共有する必要がある。

Large language models trained on source code can support a variety of software development tasks, such as code recommendation and program repair. Large amounts of data for training such models benefit the models' performance. However, the size of the data and models results in long training times and high energy consumption. While publishing source code allows for replicability, users need to repeat the expensive training process if models are not shared. The main goal of the study is to investigate if publications that trained language models for software engineering (SE) tasks share source code and trained artifacts. The second goal is to analyze the transparency on training energy usage. We perform a snowballing-based literature search to find publications on language models for source code, and analyze their reusability from a sustainability standpoint. From 494 unique publications, we identified 293 relevant publications that use language models to address code-related tasks. Among them, 27% (79 out of 293) make artifacts available for reuse. This can be in the form of tools or IDE plugins designed for specific tasks or task-agnostic models that can be fine-tuned for a variety of downstream tasks. Moreover, we collect insights on the hardware used for model training, as well as training time, which together determine the energy consumption of the development process. We find that there are deficiencies in the sharing of information and artifacts for current studies on source code models for software engineering tasks, with 40% of the surveyed papers not sharing source code or trained artifacts. We recommend the sharing of source code as well as trained artifacts, to enable sustainable reproducibility. Moreover, comprehensive information on training times and hardware configurations should be shared for transparency on a model's carbon footprint.
翻訳日:2023-07-06 12:59:16 公開日:2023-07-05
# ZX計算を用いた図形CSSコード変換

Graphical CSS Code Transformation Using ZX Calculus ( http://arxiv.org/abs/2307.02437v1 )

ライセンス: Link先を確認
Jiaxin Huang, Sarah Meng Li, Lia Yeh, Aleks Kissinger, Michele Mosca, Michael Vasmer(参考訳) 本稿では,フェーズフリーなzxダイアグラムの等価性に基づいて,cssコードを変換するための汎用的アプローチを提案する。 ZX計算を用いて、異なるコードに関連付けられた地図を符号化する際の図形変換を示す。 モチベーションの例として、Steane符号と量子リード・ミュラー符号の間に明確な変換を与えるが、この2つの符号を切り替えることで、フォールトトレラントな普遍ゲート集合を得ることができる。 この目的のために、CSSコード内の任意の論理ZXダイアグラムに対する(必ずしも逆でない)物理実装を見つけるための双方向書き換えルールを提案する。 次に、$\textit{code morphing}$、フォールトトレラントなゲートを保持しながらコードを変換する手順、$\textit{gauge fix}$、共通のサブシステムコード(例えば、[[15,1,3,3]]コードからステアンと量子リードマリマーコード)から補完的なコードを得ることができる2つのコード変換技術に焦点を当てます。 本稿では,これらの手法の明示的なグラフィカル導出を行い,ZXおよびグラフィカルエンコーダマップがコード変換操作において,等価な視点をどう関連づけるかを示す。

In this work, we present a generic approach to transform CSS codes by building upon their equivalence to phase-free ZX diagrams. Using the ZX calculus, we demonstrate diagrammatic transformations between encoding maps associated with different codes. As a motivating example, we give explicit transformations between the Steane code and the quantum Reed-Muller code, since by switching between these two codes, one can obtain a fault-tolerant universal gate set. To this end, we propose a bidirectional rewrite rule to find a (not necessarily transversal) physical implementation for any logical ZX diagram in any CSS code. We then focus on two code transformation techniques: $\textit{code morphing}$, a procedure that transforms a code while retaining its fault-tolerant gates, and $\textit{gauge fixing}$, where complimentary codes can be obtained from a common subsystem code (e.g., the Steane and the quantum Reed-Muller codes from the [[15,1,3,3]] code). We provide explicit graphical derivations for these techniques and show how ZX and graphical encoder maps relate several equivalent perspectives on these code transforming operations.
翻訳日:2023-07-06 12:58:48 公開日:2023-07-05
# コード生成モデルのための継続的学習の探索

Exploring Continual Learning for Code Generation Models ( http://arxiv.org/abs/2307.02435v1 )

ライセンス: Link先を確認
Prateek Yadav, Qing Sun, Hantian Ding, Xiaopeng Li, Dejiao Zhang, Ming Tan, Xiaofei Ma, Parminder Bhatia, Ramesh Nallapati, Murali Krishna Ramanathan, Mohit Bansal, Bing Xiang(参考訳) CodexやCodeT5のような大規模なコード生成モデルは、素晴らしいパフォーマンスを達成した。 しかし、ライブラリは非常に頻繁にアップグレードまたは廃止され、大規模言語モデルの再学習は計算コストがかかる。 したがって、継続的学習(cl)は、コードドメインにおいて未熟な部分である。 本稿では,入力言語や出力言語が異なるコード生成,翻訳,要約,洗練といった幅広いタスクをカバーする,codetask-clと呼ばれるベンチマークを紹介する。 次に、CodeTask-CLベンチマークで、NLPとVisionドメインの一般的なCLテクニックを比較します。 その結果,プロンプト・プーリング(pp)のような効果的な手法では,コーディングタスクにおける急速分布シフトによるプロンプト選択機構の不安定なトレーニングが原因で,壊滅的な忘れが生じた。 提案手法である教師強制型プロンプトプール(pp-tf)では,プロンプト選択機構の制約を課すことでトレーニングを安定させ,プロンプトプールよりも21.54%向上させる。 ベンチマークとともに、コードモデル上でCLに使用できるトレーニングパイプラインを確立し、コードモデルのためのCLメソッドのさらなる開発を動機付けることができると考えています。 私たちのコードはhttps://github.com/amazon-science/codetaskcl-pptfで利用可能です。

Large-scale code generation models such as Codex and CodeT5 have achieved impressive performance. However, libraries are upgraded or deprecated very frequently and re-training large-scale language models is computationally expensive. Therefore, Continual Learning (CL) is an important aspect that remains underexplored in the code domain. In this paper, we introduce a benchmark called CodeTask-CL that covers a wide range of tasks, including code generation, translation, summarization, and refinement, with different input and output programming languages. Next, on our CodeTask-CL benchmark, we compare popular CL techniques from NLP and Vision domains. We find that effective methods like Prompt Pooling (PP) suffer from catastrophic forgetting due to the unstable training of the prompt selection mechanism caused by stark distribution shifts in coding tasks. We address this issue with our proposed method, Prompt Pooling with Teacher Forcing (PP-TF), that stabilizes training by enforcing constraints on the prompt selection mechanism and leads to a 21.54% improvement over Prompt Pooling. Along with the benchmark, we establish a training pipeline that can be used for CL on code models, which we believe can motivate further development of CL methods for code models. Our code is available at https://github.com/amazon-science/codetaskcl-pptf
翻訳日:2023-07-06 12:58:24 公開日:2023-07-05
# aleatoric, model uncertaintyを用いたransシミュレーションのための確率的データ駆動閉包モデル

A probabilistic, data-driven closure model for RANS simulations with aleatoric, model uncertainty ( http://arxiv.org/abs/2307.02432v1 )

ライセンス: Link先を確認
Atul Agrawal, Phaedon-Stelios Koutsourelakis(参考訳) 本稿では,レノルズ平均Navier-Stokes (RANS) シミュレーションのためのデータ駆動閉包モデルを提案する。 提案するクロージャは2つの部分からなる。 前述したニューラルネットワークに基づくテンソル基底関数を用いたパラメトリック関数は、歪速度と回転テンソル不変量に依存する。 これは、アレタリックモデルエラーを考慮に入れた潜在確率変数によって補完される。 パラメトリック閉包が不十分で、レイノルズ応力テンソルに対する確率的補正が必要な問題領域の領域を特定するために、ベイズ完全定式化と余剰誘導先行法を組み合わせて提案する。 直接レイノルズ応力データを必要とするほとんどの代替手段とは対照的に、平均速度や圧力のようなスパースな間接データを用いて訓練を行う。 推論と学習には確率的変分推論スキームが用いられ、これはモンテカルロによる再パラメータ化のトリックと合わせて、関連する目的の見積もりに基づいている。 これによりRANSソルバの出力の導関数が必要となり, 随伴型定式化法を開発した。 このようにして、微分可能ソルバからのパラメトリック感性と、ニューラルネットワークライブラリの内蔵された自動微分能力とを組み合わせることで、エンドツーエンドの微分可能フレームワークを実現することができる。 後向きステップベンチマーク問題において,モデル誤差が存在する領域であっても,全てのフロー量に対して正確で確率的,予測的な推定値を生成するためのモデルの有効性を実証する。

We propose a data-driven, closure model for Reynolds-averaged Navier-Stokes (RANS) simulations that incorporates aleatoric, model uncertainty. The proposed closure consists of two parts. A parametric one, which utilizes previously proposed, neural-network-based tensor basis functions dependent on the rate of strain and rotation tensor invariants. This is complemented by latent, random variables which account for aleatoric model errors. A fully Bayesian formulation is proposed, combined with a sparsity-inducing prior in order to identify regions in the problem domain where the parametric closure is insufficient and where stochastic corrections to the Reynolds stress tensor are needed. Training is performed using sparse, indirect data, such as mean velocities and pressures, in contrast to the majority of alternatives that require direct Reynolds stress data. For inference and learning, a Stochastic Variational Inference scheme is employed, which is based on Monte Carlo estimates of the pertinent objective in conjunction with the reparametrization trick. This necessitates derivatives of the output of the RANS solver, for which we developed an adjoint-based formulation. In this manner, the parametric sensitivities from the differentiable solver can be combined with the built-in, automatic differentiation capability of the neural network library in order to enable an end-to-end differentiable framework. We demonstrate the capability of the proposed model to produce accurate, probabilistic, predictive estimates for all flow quantities, even in regions where model errors are present, on a separated flow in the backward-facing step benchmark problem.
翻訳日:2023-07-06 12:58:05 公開日:2023-07-05
# スケーラブルなヒューマンマシン符号化におけるベース層効率

Base Layer Efficiency in Scalable Human-Machine Coding ( http://arxiv.org/abs/2307.02430v1 )

ライセンス: Link先を確認
Yalda Foroutan, Alon Harell, Anderson de Andrade, Ivan V. Baji\'c(参考訳) スケーラブルなヒューマンマシンコーディングの基本的な前提は、ベース層が自動機械解析を意図しており、それゆえ同じコンテンツが人間が見ることよりも圧縮性が高いことである。 このようなコーディングのユースケースには、ビデオの監視とトラフィックの監視がある。 したがって、システムが最も頻繁にベース層レートで動作するため、ベース層効率が最重要となる。 本稿では,最先端のスケーラブルなヒューマンマシン画像コーデックにおいて,ベース層の符号化効率を解析し,改良が可能であることを示す。 特に,オブジェクト検出とインスタンスセグメンテーションの現在の最善の結果と比較して,bdレートが20~40%向上できることを実証する。

A basic premise in scalable human-machine coding is that the base layer is intended for automated machine analysis and is therefore more compressible than the same content would be for human viewing. Use cases for such coding include video surveillance and traffic monitoring, where the majority of the content will never be seen by humans. Therefore, base layer efficiency is of paramount importance because the system would most frequently operate at the base-layer rate. In this paper, we analyze the coding efficiency of the base layer in a state-of-the-art scalable human-machine image codec, and show that it can be improved. In particular, we demonstrate that gains of 20-40% in BD-Rate compared to the currently best results on object detection and instance segmentation are possible.
翻訳日:2023-07-06 12:57:42 公開日:2023-07-05
# FOCUS:ロボット操作のためのオブジェクト中心の世界モデル

FOCUS: Object-Centric World Models for Robotics Manipulation ( http://arxiv.org/abs/2307.02427v1 )

ライセンス: Link先を確認
Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt(参考訳) オブジェクトの観点で世界を理解し、それらと相互作用する可能性を理解することは重要な認識能力であり、特にロボット操作において、多くのタスクがロボットとオブジェクトの相互作用を必要とする。 しかし、エンティティや関係を特に捉えるような構造化された世界モデルを学ぶことは、困難で未解決の課題である。 そこで我々は,オブジェクト中心の世界モデルを学ぶモデルベースエージェントであるfocusを提案する。 オブジェクト中心の表現に由来する新しい探索ボーナスのおかげで、FOCUSはロボット操作タスクにデプロイされ、オブジェクト間の相互作用をより容易に探索することができる。 異なる設定でのタスク操作に対するアプローチを評価することで、オブジェクト中心の世界モデルにより、エージェントがタスクをより効率的に解決し、ロボットとオブジェクトの相互作用を一貫した探索を可能にすることを示す。 また、Franka Emikaロボットアームを使って、FOCUSが現実世界の環境でどのように採用されるかを示す。

Understanding the world in terms of objects and the possible interplays with them is an important cognition ability, especially in robotics manipulation, where many tasks require robot-object interactions. However, learning such a structured world model, which specifically captures entities and relationships, remains a challenging and underexplored problem. To address this, we propose FOCUS, a model-based agent that learns an object-centric world model. Thanks to a novel exploration bonus that stems from the object-centric representation, FOCUS can be deployed on robotics manipulation tasks to explore object interactions more easily. Evaluating our approach on manipulation tasks across different settings, we show that object-centric world models allow the agent to solve tasks more efficiently and enable consistent exploration of robot-object interactions. Using a Franka Emika robot arm, we also showcase how FOCUS could be adopted in real-world settings.
翻訳日:2023-07-06 12:57:30 公開日:2023-07-05
# DragonDiffusion:拡散モデルによるドラッグスタイルの操作の実現

DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models ( http://arxiv.org/abs/2307.02421v1 )

ライセンス: Link先を確認
Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang(参考訳) 既存の大規模テキスト・トゥ・イメージ(T2I)モデルで詳細なテキスト記述から高品質な画像を生成する能力があるにもかかわらず、生成された画像や実際の画像を正確に編集する能力に欠けることが多い。 本稿では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。 具体的には,拡散モデルにおける中間特徴の強い対応に基づく分類器のガイダンスを構築する。 編集信号を特徴対応損失によって勾配に変換し、拡散モデルの中間表現を変更することができる。 このガイダンス戦略に基づいて、意味的および幾何学的アライメントの両方を考慮したマルチスケールガイダンスを構築する。 さらに、原画像と編集結果との整合性を維持するために、クロスブランチ自己注意を追加する。 効率的な設計により,オブジェクトの移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツのドラッグなど,生成画像や実画像の様々な編集モードを実現する。 すべての編集およびコンテンツ保存信号は、画像自体から来るものであり、モデルは微調整や追加のモジュールを必要としないことに注意する必要がある。 ソースコードはhttps://github.com/mc-e/dragondiffusionから入手できます。

Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.
翻訳日:2023-07-06 12:57:14 公開日:2023-07-05
# 注意体系のインコンテキスト学習:テンソルトリックによる単一ソフトマックス回帰から複数ソフトマックス回帰へ

In-Context Learning for Attention Scheme: from Single Softmax Regression to Multiple Softmax Regression via a Tensor Trick ( http://arxiv.org/abs/2307.02419v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Shenghao Xie(参考訳) 大きな言語モデル(LLM)は、人間の社会に大きな変化をもたらしている。 これらのモデルは自然言語の理解と生成において顕著な能力を示し、いくつかの領域で様々な進歩と影響をもたらした。 本研究における注意関連回帰の2つの定式化の下での文脈内学習を考える。 行列 $A_1 \in \mathbb{R}^{n \times d}$ と $A_2 \in \mathbb{R}^{n \times d}$ と $B \in \mathbb{R}^{n \times n}$ が与えられたとき、正規化バージョン $\min_{X} \| D(X)^{-1} \exp(A_1 X A_2^\top) - B \|_F^2$ と再スケールバージョン $\| \exp(A_1 X A_2^\top) - D(X) \cdot B \|_F^2$ である。 ここで、$D(X) := \mathrm{diag}( \exp(A_1 X A_2^\top) {\bf 1}_n )$である。 我々の回帰問題は、ソフトマックス関連回帰に関する以前の研究と類似している。 正規化バージョン $\| \langle \exp(ax) , {\bf 1}_n \rangle^{-1} \exp(ax) - b \|_2^2$ and resscaledバージョン $\| \exp(ax) - \langle \exp(ax), {\bf 1}_n \rangle b \|_2^2 $ 以前のアプローチとは対照的に、行列形成における回帰問題に対処するためにベクトル化手法を採用する。 このアプローチは、前述の回帰問題の定式化に似た次元を$d$から$d^2$に拡張する。 回帰関数のリプシッツ解析を完了すると、インコンテキスト学習に関する主要な結果が導出される。

Large language models (LLMs) have brought significant and transformative changes in human society. These models have demonstrated remarkable capabilities in natural language understanding and generation, leading to various advancements and impacts across several domains. We consider the in-context learning under two formulation for attention related regression in this work. Given matrices $A_1 \in \mathbb{R}^{n \times d}$, and $A_2 \in \mathbb{R}^{n \times d}$ and $B \in \mathbb{R}^{n \times n}$, the purpose is to solve some certain optimization problems: Normalized version $\min_{X} \| D(X)^{-1} \exp(A_1 X A_2^\top) - B \|_F^2$ and Rescaled version $\| \exp(A_1 X A_2^\top) - D(X) \cdot B \|_F^2$. Here $D(X) := \mathrm{diag}( \exp(A_1 X A_2^\top) {\bf 1}_n )$. Our regression problem shares similarities with previous studies on softmax-related regression. Prior research has extensively investigated regression techniques related to softmax regression: Normalized version $\| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2^2$ and Resscaled version $\| \exp(Ax) - \langle \exp(Ax), {\bf 1}_n \rangle b \|_2^2 $ In contrast to previous approaches, we adopt a vectorization technique to address the regression problem in matrix formulation. This approach expands the dimension from $d$ to $d^2$, resembling the formulation of the regression problem mentioned earlier. Upon completing the lipschitz analysis of our regression function, we have derived our main result concerning in-context learning.
翻訳日:2023-07-06 12:56:54 公開日:2023-07-05
# スピン-1鎖の量子フィッシャー情報と多成分絡み合い

Quantum Fisher Information and multipartite entanglement in spin-1 chains ( http://arxiv.org/abs/2307.02407v1 )

ライセンス: Link先を確認
Federico Dell'Anna, Sunny Pradhan, Cristian Degli Esposti Boschi, Elisa Ercolessi(参考訳) 本稿では,1次元スピン-1モデルにおける基底状態の量子フィッシャー情報(QFI)をマルチパーティイトエンタングルメントの証として検討する。 最も一般的なSU(2)不変のスピン-1鎖であるビリナー・バイカドラティックモデルと、最も近い隣り合う相互作用と開境界条件を持つXXZスピン-1鎖である。 厳密な非局所可観測性のqfiのスケーリングは、位相図の特徴付けや、特に位相相の研究において、最大にスケールできることを示した。 臨界相におけるその挙動を分析することで、局所および弦観測可能な順序パラメータのスケーリング次元を復元することができる。 数値計算は密度行列再正規化群アルゴリズムとテンソルネットワーク技術を利用して得られた。

In this paper, we study the ground state Quantum Fisher Information (QFI) in one-dimensional spin-1 models, as witness to Multipartite Entanglement. The models addressed are the Bilinear-Biquadratic model, the most general isotropic SU(2)-invariant spin-1 chain, and the XXZ spin-1 chain, both with nearest-neighbor interactions and open boundary conditions. We show that the scaling of the QFI of strictly non-local observables can be used for characterizing the phase diagrams and, in particular, for studying topological phases, where it scales maximally. Analysing its behavior at the critical phases we are also able to recover the scaling dimensions of the order parameters both for local and string observables. The numerical results have been obtained by exploiting the Density Matrix Renormalization Group algorithm and Tensor Network techniques.
翻訳日:2023-07-06 12:55:58 公開日:2023-07-05
# $\nu^2$-flows:条件付き正規化流を伴うマルチニュートリノ最終状態における高速で改善されたニュートリノ再構成

$\nu^2$-Flows: Fast and improved neutrino reconstruction in multi-neutrino final states with conditional normalizing flows ( http://arxiv.org/abs/2307.02405v1 )

ライセンス: Link先を確認
John Andrew Raine, Matthew Leigh, Knut Zoch, Tobias Golling(参考訳) 本研究では、複数のニュートリノを含むファイナル状態への$\nu$-Flows法の拡張である$\nu^2$-Flowsを導入する。 このアーキテクチャは、任意の所望のニュートリノ乗数に対して最終状態のオブジェクトタイプと乗数の組み合わせに対してネイティブにスケールすることができる。 t\bar{t}$ dileptonイベントにおいて、ニュートリノとそれらの間の相関のモーメントは、最も一般的な標準解析技術を使用する時よりも正確に再構築され、全てのイベントに対して解が見つかる。 推論時間は競合する手法よりも大幅に速く、グラフィック処理ユニット上で並列に評価することでさらに削減することができる。 我々は、$\nu^2$-Flows to $t\bar{t}$ dilepton イベントを適用し、展開分布における各ビンの不確かさが、標準手法よりも完全ニュートリノ再構成による性能の限界にかなり近いことを示す。 選択された双微分可観測量 $\nu^2$- Flows は、ニュートリノ重み付け法と比較して1.5から2の係数で各ビンの統計的精度を改善し、楕円法と比較して最大4倍に向上する。

In this work we introduce $\nu^2$-Flows, an extension of the $\nu$-Flows method to final states containing multiple neutrinos. The architecture can natively scale for all combinations of object types and multiplicities in the final state for any desired neutrino multiplicities. In $t\bar{t}$ dilepton events, the momenta of both neutrinos and correlations between them are reconstructed more accurately than when using the most popular standard analytical techniques, and solutions are found for all events. Inference time is significantly faster than competing methods, and can be reduced further by evaluating in parallel on graphics processing units. We apply $\nu^2$-Flows to $t\bar{t}$ dilepton events and show that the per-bin uncertainties in unfolded distributions is much closer to the limit of performance set by perfect neutrino reconstruction than standard techniques. For the chosen double differential observables $\nu^2$-Flows results in improved statistical precision for each bin by a factor of 1.5 to 2 in comparison to the Neutrino Weighting method and up to a factor of four in comparison to the Ellipse approach.
翻訳日:2023-07-06 12:55:42 公開日:2023-07-05
# センチネル2号による沿岸域の海洋ゴミの大規模検出

Large-scale Detection of Marine Debris in Coastal Areas with Sentinel-2 ( http://arxiv.org/abs/2307.02465v1 )

ライセンス: Link先を確認
Marc Ru{\ss}wurm, Sushen Jilla Venkatesa, Devis Tuia(参考訳) 海洋汚染やマクロプラスチックの検出と定量化は、生態学や人間の健康に直接影響する環境問題になりつつある。 海洋汚染を定量化するための取り組みは、しばしば粗末で高価な海岸調査によって行われ、大規模な調査は困難である。 ここでは, 沿岸域の海洋破片を定期的に監視し, 検出することにより, プラスチック汚染の信頼性評価を行うことができる。 沿岸地域の中分解能衛星データは容易に入手でき、プラスチックごみを含む海洋ゴミの集積を検出できる。 本研究では,深層セグメンテーションモデルに基づく海洋デブリ検出装置について,画素レベルでの海洋デブリの確率を推定する手法を提案する。 この検出装置は, 海洋破片の注釈付きデータセットを組み合わせて訓練し, 検出された海洋破片にプラスチック汚染が存在する可能性が高い特別に選択された試験現場で評価する。 複数のソースから発行されたこのデータセットでトレーニングされたディープラーニングモデルは、以前のデータセットでトレーニングされた既存の検出モデルよりも大きなマージンで優れていることを定量的に定性的に実証する。 我々の実験は、データ中心AIの原則と一致し、このパフォーマンスは、特定のディープラーニングモデルに依存するのではなく、ネガティブな例やラベルの精巧さを広範囲にサンプリングしたデータセット設計によるものであることを示しています。 これは、地球規模でのリモートセンシングによる海洋ゴミの定量化と監視の一歩であり、モデルウェイトとトレーニングソースコードをhttps://github.com/marccoru/marinedebrisdetectorでリリースする。

Detecting and quantifying marine pollution and macro-plastics is an increasingly pressing ecological issue that directly impacts ecology and human health. Efforts to quantify marine pollution are often conducted with sparse and expensive beach surveys, which are difficult to conduct on a large scale. Here, remote sensing can provide reliable estimates of plastic pollution by regularly monitoring and detecting marine debris in coastal areas. Medium-resolution satellite data of coastal areas is readily available and can be leveraged to detect aggregations of marine debris containing plastic litter. In this work, we present a detector for marine debris built on a deep segmentation model that outputs a probability for marine debris at the pixel level. We train this detector with a combination of annotated datasets of marine debris and evaluate it on specifically selected test sites where it is highly probable that plastic pollution is present in the detected marine debris. We demonstrate quantitatively and qualitatively that a deep learning model trained on this dataset issued from multiple sources outperforms existing detection models trained on previous datasets by a large margin. Our experiments show, consistent with the principles of data-centric AI, that this performance is due to our particular dataset design with extensive sampling of negative examples and label refinements rather than depending on the particular deep learning model. We hope to accelerate advances in the large-scale automated detection of marine debris, which is a step towards quantifying and monitoring marine litter with remote sensing at global scales, and release the model weights and training source code under https://github.com/marccoru/marinedebrisdetector
翻訳日:2023-07-06 12:48:44 公開日:2023-07-05
# AxonCallosumEMデータセット:EM画像からの全体カルロサム断面の軸索セマンティックセグメンテーション

AxonCallosumEM Dataset: Axon Semantic Segmentation of Whole Corpus Callosum cross section from EM Images ( http://arxiv.org/abs/2307.02464v1 )

ライセンス: Link先を確認
Ao Cheng and Guoqiang Zhao and Lirong Wang and Ruobing Zhang(参考訳) 電子顕微鏡(EM)は、動物神経系の複雑な詳細をナノメートルスケールで解明する主要な技術である。 しかし、軸索とミエリンシースの複雑な形態を正確に再構築することは重要な課題である。 さらに, コーパス・カロサムの全断面を含む大規模EMデータセットが欠如しており, 軸索とミエリン・シースとの密接な接地真実セグメンテーションは, コーパス・カロサム再建の進展と評価を妨げる。 これらの障害を克服するために、rettシンドローム(rtt)マウスモデルのコーパスカルーサムからキャプチャされた1.83倍5.76mmのem画像からなるaxoncallosumemデータセットを導入し、広範な軸索束を含む。 我々は1024倍の1024倍の解像度で60,000以上のパッチを慎重に検証し、ミエリンの軸索とミエリンのシースに包括的真実を提供する。 さらに、トレーニング、テスト、検証のために、データセット内の3つの異なる領域を広範囲に注釈付けしました。 このデータセットを利用することで、EM-SAMと呼ばれるEM画像のセグメンテーションタスクにSegment Anything Model(SAM)を適応させる微調整手法を開発した。 さらに,EM-SAMをベースラインとして評価した。

The electron microscope (EM) remains the predominant technique for elucidating intricate details of the animal nervous system at the nanometer scale. However, accurately reconstructing the complex morphology of axons and myelin sheaths poses a significant challenge. Furthermore, the absence of publicly available, large-scale EM datasets encompassing complete cross sections of the corpus callosum, with dense ground truth segmentation for axons and myelin sheaths, hinders the advancement and evaluation of holistic corpus callosum reconstructions. To surmount these obstacles, we introduce the AxonCallosumEM dataset, comprising a 1.83 times 5.76mm EM image captured from the corpus callosum of the Rett Syndrome (RTT) mouse model, which entail extensive axon bundles. We meticulously proofread over 600,000 patches at a resolution of 1024 times 1024, thus providing a comprehensive ground truth for myelinated axons and myelin sheaths. Additionally, we extensively annotated three distinct regions within the dataset for the purposes of training, testing, and validation. Utilizing this dataset, we develop a fine-tuning methodology that adapts Segment Anything Model (SAM) to EM images segmentation tasks, called EM-SAM, enabling outperforms other state-of-the-art methods. Furthermore, we present the evaluation results of EM-SAM as a baseline.
翻訳日:2023-07-06 12:48:16 公開日:2023-07-05
# 深部変動クラスタリングを用いたエキスパート非依存超音波画像品質評価

Expert-Agnostic Ultrasound Image Quality Assessment using Deep Variational Clustering ( http://arxiv.org/abs/2307.02462v1 )

ライセンス: Link先を確認
Deepak Raina, Dimitrios Ntentia, SH Chandrashekhara, Richard Voyles, Subir Kumar Saha(参考訳) 超音波イメージングは、いくつかの診断および治療の手順で一般的に用いられるモダリティである。 しかし超音波による診断は、超音波撮影者が手動で評価した画像の品質に大きく依存しており、診断の客観性を低下させ、操作者に依存している。 自動品質評価のための教師付き学習ベースの手法は、手動で注釈付きデータセットを必要とする。 これらの超音波画像は品質が低く、オブザーバ間の知覚変化によるノイズの多いアノテーションに苦しむため、学習効率が損なわれる。 我々は,手動アノテーションの負担と不確実性を解消するUnSupervised UltraSound Image Quality Assessment Network (US2QNet)を提案する。 US2QNetは、前処理、クラスタリング、後処理の3つのモジュールに埋め込まれた変分オートエンコーダを使用して、超音波画像の品質特徴表現を共同で強化、抽出、クラスタリング、可視化する。 プリプロセッシングモジュールはイメージのフィルタリングを使用して、ノイズに注意をそらすのではなく、ネットワークの注意を優れた品質機能に向ける。 2次元空間における特徴表現のクラスタを可視化するための後処理を提案する。 提案する膀胱超音波画像の品質評価の枠組みを検証した。 提案手法は,最先端クラスタリング手法よりも精度が78%,性能が優れている。

Ultrasound imaging is a commonly used modality for several diagnostic and therapeutic procedures. However, the diagnosis by ultrasound relies heavily on the quality of images assessed manually by sonographers, which diminishes the objectivity of the diagnosis and makes it operator-dependent. The supervised learning-based methods for automated quality assessment require manually annotated datasets, which are highly labour-intensive to acquire. These ultrasound images are low in quality and suffer from noisy annotations caused by inter-observer perceptual variations, which hampers learning efficiency. We propose an UnSupervised UltraSound image Quality assessment Network, US2QNet, that eliminates the burden and uncertainty of manual annotations. US2QNet uses the variational autoencoder embedded with the three modules, pre-processing, clustering and post-processing, to jointly enhance, extract, cluster and visualize the quality feature representation of ultrasound images. The pre-processing module uses filtering of images to point the network's attention towards salient quality features, rather than getting distracted by noise. Post-processing is proposed for visualizing the clusters of feature representations in 2D space. We validated the proposed framework for quality assessment of the urinary bladder ultrasound images. The proposed framework achieved 78% accuracy and superior performance to state-of-the-art clustering methods.
翻訳日:2023-07-06 12:47:46 公開日:2023-07-05
# 二元最適化問題に対する低エネルギー解のランドスケープ近似

Landscape approximation of low energy solutions to binary optimization problems ( http://arxiv.org/abs/2307.02461v1 )

ライセンス: Link先を確認
Benjamin Y. L. Tan, Beng Yee Gan, Daniel Leykam, Dimitris G. Angelakis(参考訳) 本研究は, 障害波媒質と多体量子システムの束縛低エネルギー固有状態に対して導入された局在化ランドスケープが, バイナリ最適化問題を解決するためのハードウェア効率の高い量子アルゴリズムの基礎となることを示す。 多くの二進最適化問題はイジング・ハミルトニアンの低エネルギー固有状態を見つけるものとして当てはまる。 まず, イジングハミルトニアンに対して, 低エネルギーモードが局所化ランドスケープによって境界づけられるように, 特定の摂動を適用する。 次に,地域景観のピークからサンプルを作成するために,変分法をどのように利用できるかを示す。 最大10ドルのバイナリ変数の問題を数値シミュレーションすると、正確な基底状態をサンプリングする確率で測定すると、局所化ランドスケープに基づくサンプリングは同様の深さのQAOA回路より優れていることが分かる。

We show how the localization landscape, originally introduced to bound low energy eigenstates of disordered wave media and many-body quantum systems, can form the basis for hardware-efficient quantum algorithms for solving binary optimization problems. Many binary optimization problems can be cast as finding low-energy eigenstates of Ising Hamiltonians. First, we apply specific perturbations to the Ising Hamiltonian such that the low energy modes are bounded by the localization landscape. Next, we demonstrate how a variational method can be used to prepare and sample from the peaks of the localization landscape. Numerical simulations of problems of up to $10$ binary variables show that the localization landscape-based sampling can outperform QAOA circuits of similar depth, as measured in terms of the probability of sampling the exact ground state.
翻訳日:2023-07-06 12:47:23 公開日:2023-07-05
# 最適トランスポートによるパフォーマンススケーリング: 部分的に露呈したソースからのデータ選択を可能にする

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources ( http://arxiv.org/abs/2307.02460v1 )

ライセンス: Link先を確認
Feiyang Kang, Hoang Anh Just, Anit Kumar Sahu, Ruoxi Jia(参考訳) 従来、データ選択は、将来的なソースからのすべてのサンプルがマシンラーニング開発者に対して完全に公開される設定で研究されてきた。 しかし、実際のデータ交換シナリオでは、データプロバイダは、取得決定が行われる前にサンプルの限られたサブセットのみを開示することが多い。 近年,任意のサイズでモデル性能を予測するスケーリング法則と,利用可能な限られたサンプルを用いたデータソース構成の適合化が試みられている。 しかし、これらのスケーリング関数はブラックボックスであり、計算コストが高く、過剰フィッティングの影響を受けやすく、データ選択の最適化が困難である。 本稿では,モデル性能を予測し,データソースの部分的なサンプルに基づくデータ選択決定を支援する<projektor>というフレームワークを提案する。 私たちのアプローチは、新しい*2段階*パフォーマンス推論プロセスを導入することで、既存の作業と区別します。 第1段階では、最適輸送距離を利用して、開示されたデータサイズの範囲内の任意のデータ混合比に対するモデルの性能を予測する。 第2段階では、ニューラルスケーリングの法則に触発された新しいパラメータフリーマッピング技術に基づいて、パフォーマンスをより大きな非開示データサイズに推定する。 さらに、予測モデルの性能に基づいてデータソースを選択するための効率的な勾配法を導出する。 多様なアプリケーションに対する評価は,<projektor>が性能予測器の構築に伴う性能推定の精度と計算コストの両方の観点から,既存の性能スケーリングアプローチを大幅に改善することを示す。 また,<projektor>は,他の市販ソリューションと比較して,データ選択効率の幅広いマージンで優れていた。

Traditionally, data selection has been studied in settings where all samples from prospective sources are fully revealed to a machine learning developer. However, in practical data exchange scenarios, data providers often reveal only a limited subset of samples before an acquisition decision is made. Recently, there have been efforts to fit scaling laws that predict model performance at any size and data source composition using the limited available samples. However, these scaling functions are black-box, computationally expensive to fit, highly susceptible to overfitting, or/and difficult to optimize for data selection. This paper proposes a framework called <projektor>, which predicts model performance and supports data selection decisions based on partial samples of prospective data sources. Our approach distinguishes itself from existing work by introducing a novel *two-stage* performance inference process. In the first stage, we leverage the Optimal Transport distance to predict the model's performance for any data mixture ratio within the range of disclosed data sizes. In the second stage, we extrapolate the performance to larger undisclosed data sizes based on a novel parameter-free mapping technique inspired by neural scaling laws. We further derive an efficient gradient-based method to select data sources based on the projected model performance. Evaluation over a diverse range of applications demonstrates that <projektor> significantly improves existing performance scaling approaches in terms of both the accuracy of performance inference and the computation costs associated with constructing the performance predictor. Also, <projektor> outperforms by a wide margin in data selection effectiveness compared to a range of other off-the-shelf solutions.
翻訳日:2023-07-06 12:47:06 公開日:2023-07-05
# ガウスデータベースアライメントとガウス植物マッチング

Gaussian Database Alignment and Gaussian Planted Matching ( http://arxiv.org/abs/2307.02459v1 )

ライセンス: Link先を確認
Osman Emre Dai, Daniel Cullina, Negar Kiyavash(参考訳) データベースアライメントは、グラフアライメント問題の変種である: ユーザ集合に対して、別々の相関のある特徴を含む匿名化されたデータベースの対が与えられた場合、問題は、特徴間の対応を識別し、相関のみに基づいて匿名化されたユーザ集合をアライメントすることである。 これは、ランダムな重みを持つグラフが与えられた場合、与えられた重みを生成する基礎となるマッチングを特定することが目的である。 本研究では,多変量ガウス特徴を用いたデータベースアライメント問題の事例について検討し,データベースアライメントと植木マッチングの両方に適用可能な結果を得た。 データベースアライメントのパフォーマンスしきい値は、データベースの特徴の次元が (\omega(\log n)\) であるときに植えられたマッチングに対して収束し、ここでは \(n\) はアライメントのサイズであり、個々の特徴が強すぎることはない。 組込みマッチングとデータベースアライメントの両方の最大確率アルゴリズムは線形プログラムの形式を採り、様々な条件下での様々な制約の意義をよりよく理解し、達成可能性および逆境界を示すために緩和について検討する。 その結果,緩和アルゴリズムのアライメント閾値は最大確率のアライメント閾値と一致し,正確なアライメントしきい値の間にはギャップがあることがわかった。 我々の分析と結果は、あるユーザーセットがアライメントによって完全にカバーされていない不均衡なケースにまで及んでいる。

Database alignment is a variant of the graph alignment problem: Given a pair of anonymized databases containing separate yet correlated features for a set of users, the problem is to identify the correspondence between the features and align the anonymized user sets based on correlation alone. This closely relates to planted matching, where given a bigraph with random weights, the goal is to identify the underlying matching that generated the given weights. We study an instance of the database alignment problem with multivariate Gaussian features and derive results that apply both for database alignment and for planted matching, demonstrating the connection between them. The performance thresholds for database alignment converge to that for planted matching when the dimensionality of the database features is \(\omega(\log n)\), where \(n\) is the size of the alignment, and no individual feature is too strong. The maximum likelihood algorithms for both planted matching and database alignment take the form of a linear program and we study relaxations to better understand the significance of various constraints under various conditions and present achievability and converse bounds. Our results show that the almost-exact alignment threshold for the relaxed algorithms coincide with that of maximum likelihood, while there is a gap between the exact alignment thresholds. Our analysis and results extend to the unbalanced case where one user set is not fully covered by the alignment.
翻訳日:2023-07-06 12:46:40 公開日:2023-07-05
# DeSRA: GANに基づく実世界超解法のアーチファクトの検出と削除

DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models ( http://arxiv.org/abs/2307.02457v1 )

ライセンス: Link先を確認
Liangbin Xie, Xintao Wang, Xiangyu Chen, Gen Li, Ying Shan, Jiantao Zhou, Chao Dong(参考訳) GAN(Generative Adversarial Network)を用いた画像超解像(SR)は,現実的な詳細の復元に成功している。 しかし、GANベースのSRモデルが必然的に不快で望ましくないアーティファクトを、特に現実的なシナリオで生み出すことは悪名高い。 前作は通常、訓練段階で余分な損失ペナルティでアーティファクトを抑制する。 トレーニング中に生成された配布内アーティファクトタイプのみで動作する。 現実世界のシナリオに適用すると、これらの改良されたメソッドが推論中に明らかに迷惑なアーティファクトを生成することを観察します。 本稿では,未確認試験データから生成したGANアーチファクトの原因と特徴を明らかにする。 そこで我々は,これらのSRアーティファクトの検出と削除を行う新しい手法,すなわちDeSRAを開発した。 具体的には,MSE-SR結果とGAN-SR結果との相対的な局所的分散距離を測定し,上記の距離と意味認識しきい値に基づいて問題領域を特定することを提案する。 人工物領域を検出した後、いくつかのサンプルを用いてGANベースのSRモデルを改善するファインチューン手順を開発し、類似のアーティファクトをより見えない実データで扱えるようにした。 DeSRAと組み合わせることで、推論からアーティファクトを取り除き、実世界のシナリオに適用可能なSRモデルの能力を向上させることができます。 コードはhttps://github.com/TencentARC/DeSRAで入手できる。

Image super-resolution (SR) with generative adversarial networks (GAN) has achieved great success in restoring realistic details. However, it is notorious that GAN-based SR models will inevitably produce unpleasant and undesirable artifacts, especially in practical scenarios. Previous works typically suppress artifacts with an extra loss penalty in the training phase. They only work for in-distribution artifact types generated during training. When applied in real-world scenarios, we observe that those improved methods still generate obviously annoying artifacts during inference. In this paper, we analyze the cause and characteristics of the GAN artifacts produced in unseen test data without ground-truths. We then develop a novel method, namely, DeSRA, to Detect and then Delete those SR Artifacts in practice. Specifically, we propose to measure a relative local variance distance from MSE-SR results and GAN-SR results, and locate the problematic areas based on the above distance and semantic-aware thresholds. After detecting the artifact regions, we develop a finetune procedure to improve GAN-based SR models with a few samples, so that they can deal with similar types of artifacts in more unseen real data. Equipped with our DeSRA, we can successfully eliminate artifacts from inference and improve the ability of SR models to be applied in real-world scenarios. The code will be available at https://github.com/TencentARC/DeSRA.
翻訳日:2023-07-06 12:46:10 公開日:2023-07-05
# 境界を超越する: 深層学習の厳密な理解と(非)難解性に向けて

Transgressing the boundaries: towards a rigorous understanding of deep learning and its (non-)robustness ( http://arxiv.org/abs/2307.02454v1 )

ライセンス: Link先を確認
Carsten Hartmann, Lorenz Richter(参考訳) 様々な分野のアプリケーションにおける機械学習の最近の進歩は、ディープラーニング(DL)メソッドとアーキテクチャの台頭に大きく影響している。 自動運転車、画像処理、音声認識などを支える重要な技術であるにもかかわらず、dlの理論的理解と関連する解釈可能性、そして(逆)堅牢性の問題の欠如が、悪名高い問題である。 dlの特質を理解することは、例えば、他の非線形回帰法や統計的学習と比べ、数学的観点からは興味深いが、同時に、実際に重要なものである: ニューラルネットワークを単なるブラックボックスとして扱うのは、あるケースでは十分かもしれないが、多くのアプリケーションは、防水性能保証を必要とし、何がうまくいかないのか、なぜそれがうまくいかないのかを深く理解する必要がある。 複雑な関数を近似する方法として数学的に十分に確立されているにもかかわらず、DLはいまだにエンジニアやコンピュータ科学者の手に委ねられている現代の錬金術に近いものだと言えよう。 それにもかかわらず、アプリケーションでその成功を説明することができる特定のDLは、体系的な数学的アプローチを必要とすることは明らかである。 本稿では,dlのロバスト性問題,特に近似理論から統計的学習理論への橋渡しと試みについて考察する。 さらに、不確実性定量化と厳密な説明可能性の手段としてベイズ深層学習を概観する。

The recent advances in machine learning in various fields of applications can be largely attributed to the rise of deep learning (DL) methods and architectures. Despite being a key technology behind autonomous cars, image processing, speech recognition, etc., a notorious problem remains the lack of theoretical understanding of DL and related interpretability and (adversarial) robustness issues. Understanding the specifics of DL, as compared to, say, other forms of nonlinear regression methods or statistical learning, is interesting from a mathematical perspective, but at the same time it is of crucial importance in practice: treating neural networks as mere black boxes might be sufficient in certain cases, but many applications require waterproof performance guarantees and a deeper understanding of what could go wrong and why it could go wrong. It is probably fair to say that, despite being mathematically well founded as a method to approximate complicated functions, DL is mostly still more like modern alchemy that is firmly in the hands of engineers and computer scientists. Nevertheless, it is evident that certain specifics of DL that could explain its success in applications demands systematic mathematical approaches. In this work, we review robustness issues of DL and particularly bridge concerns and attempts from approximation theory to statistical learning theory. Further, we review Bayesian Deep Learning as a means for uncertainty quantification and rigorous explainability.
翻訳日:2023-07-06 12:45:47 公開日:2023-07-05
# LLCaps: 曲線ウェーブレット注意と逆拡散による低光カプセル内視鏡の学習

LLCaps: Learning to Illuminate Low-Light Capsule Endoscopy with Curved Wavelet Attention and Reverse Diffusion ( http://arxiv.org/abs/2307.02452v1 )

ライセンス: Link先を確認
Long Bai, Tong Chen, Yanan Wu, An Wang, Mobarakol Islam, Hongliang Ren(参考訳) wireless capsule endoscopy (wce) は消化器疾患の無痛で非侵襲的な診断ツールである。 しかし、GI解剖学的制約とハードウェア製造の制限により、WCE視覚信号は照明不足に悩まされ、複雑なスクリーニングと検査の手順が導かれる。 医学領域における深層学習に基づく低照度画像強調(LLIE)は徐々に研究者を惹きつける。 コンピュータビジョンにおける微分拡散確率モデル(DDPM)の現況を踏まえ,マルチスケール畳み込みニューラルネットワーク(CNN)と逆拡散プロセスに基づく WCE LLIE フレームワークを提案する。 マルチスケール設計では,高分解能表現とコンテキスト情報を低分解能から保存し,高頻度・局所的な特徴学習のための曲線ウェーブレットアテンション(CWA)ブロックを提案する。 さらに, 逆拡散法を併用して, 浅い出力をさらに最適化し, 最も現実的な画像を生成する。 提案手法は10種類のSOTA (State-of-the-art) LLIE法と比較し,定量的および定性的に著しく優れることを示した。 GI病のセグメンテーションにおける優れた成績は,提案モデルの臨床的可能性をさらに示すものである。 私たちのコードは公開アクセス可能です。

Wireless capsule endoscopy (WCE) is a painless and non-invasive diagnostic tool for gastrointestinal (GI) diseases. However, due to GI anatomical constraints and hardware manufacturing limitations, WCE vision signals may suffer from insufficient illumination, leading to a complicated screening and examination procedure. Deep learning-based low-light image enhancement (LLIE) in the medical field gradually attracts researchers. Given the exuberant development of the denoising diffusion probabilistic model (DDPM) in computer vision, we introduce a WCE LLIE framework based on the multi-scale convolutional neural network (CNN) and reverse diffusion process. The multi-scale design allows models to preserve high-resolution representation and context information from low-resolution, while the curved wavelet attention (CWA) block is proposed for high-frequency and local feature learning. Furthermore, we combine the reverse diffusion procedure to further optimize the shallow output and generate the most realistic image. The proposed method is compared with ten state-of-the-art (SOTA) LLIE methods and significantly outperforms quantitatively and qualitatively. The superior performance on GI disease segmentation further demonstrates the clinical potential of our proposed model. Our code is publicly accessible.
翻訳日:2023-07-06 12:45:22 公開日:2023-07-05
# SonarCloudコード解析を用いた脆弱性ソースコード検出

Vulnerable Source Code Detection using SonarCloud Code Analysis ( http://arxiv.org/abs/2307.02446v1 )

ライセンス: Link先を確認
Alifia Puspaningrum, Muhammad Anis Al Hilmi, Darsih, Muhamad Mustamiin, Maulana Ilham Ginanjar(参考訳) ソフトウェア開発ライフサイクル(sdlc)では、セキュリティ脆弱性は建設段階で導入されたポイントの1つです。 製品を市場にリリースした後、ソフトウェアの欠陥を早期に検出できないと、会社の修理コストが高くなる。 したがって、それは会社の評判を低下させ、ユーザーのプライバシーを侵害し、アプリケーションの不当な問題を引き起こす。 脆弱性検出の導入により、偽の警告の数を減らすことで、潜在的に脆弱なファイルに限定的なテスト作業に集中することができる。 UMKM Masa Kini (UMI)は、マイクロ、スモール、ミディアムエンタープライズ製品(UMKM)を販売するための販売ポイントアプリケーションである。 そこで,本研究では,これらのメトリクスの適合性を分析し,機械学習に基づくソフトウェア脆弱性検出手法を提案する。 コードは商用ツールであるSonarCloudを使って生成される。 実験の結果、3,285の脆弱なルールが検出された。

In Software Development Life Cycle (SDLC), security vulnerabilities are one of the points introduced during the construction stage. Failure to detect software defects earlier after releasing the product to the market causes higher repair costs for the company. So, it decreases the company's reputation, violates user privacy, and causes an unrepairable issue for the application. The introduction of vulnerability detection enables reducing the number of false alerts to focus the limited testing efforts on potentially vulnerable files. UMKM Masa Kini (UMI) is a Point of Sales application to sell any Micro, Small, and Medium Enterprises Product (UMKM). Therefore, in the current work, we analyze the suitability of these metrics to create Machine Learning based software vulnerability detectors for UMI applications. Code is generated using a commercial tool, SonarCloud. Experimental result shows that there are 3,285 vulnerable rules detected.
翻訳日:2023-07-06 12:45:00 公開日:2023-07-05
# LongNet: トランスフォーマーを10万トークンにスケールアップ

LongNet: Scaling Transformers to 1,000,000,000 Tokens ( http://arxiv.org/abs/2307.02486v1 )

ライセンス: Link先を確認
Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei(参考訳) 拡張シーケンス長は、大規模言語モデルの時代において重要な需要となっている。 しかし、既存の手法は計算複雑性やモデル表現性に苦しむため、最大列長は制限される。 本稿では,より短いシーケンスの性能を犠牲にすることなく,シーケンス長を10億以上のトークンにスケールできるトランスフォーマティブ変種であるlongnetを紹介する。 具体的には,距離が大きくなるにつれて指数関数的に注意場を拡大する拡張注意を提案する。 LongNetには大きな利点があります。 1) 線形計算の複雑さとトークン間の対数依存性がある。 2) 非常に長いシーケンスの分散トレーナーとして利用することができる。 3) 拡張された注意は標準的な注意の代替であり、既存のTransformerベースの最適化とシームレスに統合することができる。 実験の結果,LongNetは長周期モデリングと汎用言語タスクの両方で高い性能を示すことがわかった。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work, we introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, we propose dilated attention, which expands the attentive field exponentially as the distance grows. LongNet has significant advantages: 1) it has a linear computation complexity and a logarithm dependency between tokens; 2) it can be served as a distributed trainer for extremely long sequences; 3) its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization. Experiments results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Our work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.
翻訳日:2023-07-06 12:38:49 公開日:2023-07-05
# 大規模言語モデルを用いた協調作業型エージェントの構築

Building Cooperative Embodied Agents Modularly with Large Language Models ( http://arxiv.org/abs/2307.02485v1 )

ライセンス: Link先を確認
Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan(参考訳) 大規模言語モデル(LLM)は、様々なドメインにまたがる単一エージェントの具体化タスクにおいて、驚くべき計画能力を示している。 しかし, 多エージェント連携における計画とコミュニケーションの能力は, インテリジェントなエンボディエージェントにとって重要なスキルであるにもかかわらず, いまだに不明である。 本稿では,LLMを多エージェント協調に利用し,様々な環境下でテストする新しいフレームワークを提案する。 本フレームワークは, 生体エージェントが他の生体エージェントや人間と計画, コミュニケーション, 協力し, 長期的タスクを効率的に遂行することを可能にする。 GPT-4 のような最近の LLM は,高機能な計画手法を超越し,微調整や少数ショットのプロンプトを必要とせずに,我々のフレームワークを用いた創発的な効果的なコミュニケーションを実現できることを示す。 また、自然言語でコミュニケーションするLDMベースのエージェントは、より信頼を得、人間とより効果的に協力できることがわかった。 我々の研究は、AIの具体化におけるLLMの可能性を強調し、マルチエージェント協調研究の基盤となる。 ビデオはプロジェクトのWebサイトhttps://vis-www.cs.umass.edu/Co-LLM-Agents/で見ることができる。

Large Language Models (LLMs) have demonstrated impressive planning abilities in single-agent embodied tasks across various domains. However, their capacity for planning and communication in multi-agent cooperation remains unclear, even though these are crucial skills for intelligent embodied agents. In this paper, we present a novel framework that utilizes LLMs for multi-agent cooperation and tests it in various embodied environments. Our framework enables embodied agents to plan, communicate, and cooperate with other embodied agents or humans to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs, such as GPT-4, can surpass strong planning-based methods and exhibit emergent effective communication using our framework without requiring fine-tuning or few-shot prompting. We also discover that LLM-based agents that communicate in natural language can earn more trust and cooperate more effectively with humans. Our research underscores the potential of LLMs for embodied AI and lays the foundation for future research in multi-agent cooperation. Videos can be found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.
翻訳日:2023-07-06 12:38:32 公開日:2023-07-05
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v1 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-07-06 12:38:12 公開日:2023-07-05
# Jailbroken: LLMの安全トレーニングはどのように失敗するのか?

Jailbroken: How Does LLM Safety Training Fail? ( http://arxiv.org/abs/2307.02483v1 )

ライセンス: Link先を確認
Alexander Wei and Nika Haghtalab and Jacob Steinhardt(参考訳) 安全と無害のために訓練された大規模な言語モデルは、ChatGPTの初期リリースに対する「ジェイルブレイク」攻撃の頻度から証明されたように、敵の誤用の影響を受けやすいままである。 問題の認識を超えて、このような攻撃がなぜ成功し、どのように発生できるかを調査する。 我々は,安全訓練における2つの障害モードを仮定した。 競合する目的は、モデルの能力と安全性の目標が相反するときに生じるが、安全トレーニングが機能のある領域に一般化できない場合に、ミスマッチした一般化が発生する。 我々はこれらの障害モードを使用して、jailbreakの設計をガイドし、OpenAIのGPT-4やAnthropicのClaude v1.3といった最先端のモデルを評価する。 これらのモデルの背後にある広範囲な赤チームと安全トレーニングの努力にもかかわらず、脆弱性は持続する。 特に、フェールモードを利用した新たな攻撃は、モデルのリピート評価セットからの安全でない要求の収集において、すべてのプロンプトで成功し、既存のアドホックジェイルブレイクを上回っます。 私たちの分析では、安全性と能力の同等性(安全性メカニズムは基盤となるモデルと同じくらい高度であること)の必要性を強調し、スケーリングだけでこれらの安全障害モードを解決できるという考えに反対しています。

Large language models trained for safety and harmlessness remain susceptible to adversarial misuse, as evidenced by the prevalence of "jailbreak" attacks on early releases of ChatGPT that elicit undesired behavior. Going beyond recognition of the issue, we investigate why such attacks succeed and how they can be created. We hypothesize two failure modes of safety training: competing objectives and mismatched generalization. Competing objectives arise when a model's capabilities and safety goals conflict, while mismatched generalization occurs when safety training fails to generalize to a domain for which capabilities exist. We use these failure modes to guide jailbreak design and then evaluate state-of-the-art models, including OpenAI's GPT-4 and Anthropic's Claude v1.3, against both existing and newly designed attacks. We find that vulnerabilities persist despite the extensive red-teaming and safety-training efforts behind these models. Notably, new attacks utilizing our failure modes succeed on every prompt in a collection of unsafe requests from the models' red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our analysis emphasizes the need for safety-capability parity -- that safety mechanisms should be as sophisticated as the underlying model -- and argues against the idea that scaling alone can resolve these safety failure modes.
翻訳日:2023-07-06 12:37:55 公開日:2023-07-05
# 手書き英語アルファベットにおける慣性測定単位のデータセット

A Dataset of Inertial Measurement Units for Handwritten English Alphabets ( http://arxiv.org/abs/2307.02480v1 )

ライセンス: Link先を確認
Hari Prabhat Gupta and Rahul Mishra(参考訳) 本稿では,慣性測定単位(imus)とインド文体における多様性を活用して,手書き英字認識のためのデータセットをエンドツーエンドで収集する手法を提案する。 IMUは手書きによる動的な動きパターンを捉えるために使われ、アルファベットをより正確に認識することができる。 インドの文脈は、異なる地域や言語にまたがるスタイルを書くことの不均一性によって、様々な課題をもたらす。 この多様性を活用することで、収集したデータセットと収集システムは、高い認識精度を達成することを目指している。 いくつかの予備実験結果は、インドの文脈における手書き英語アルファベットの正確な認識におけるデータセットの有効性を示している。 この研究は、パターン認識の分野に拡張され、特に多様な言語的・文化的文脈において、手書き認識のための改良されたシステムを開発する上で貴重な洞察を提供する。

This paper presents an end-to-end methodology for collecting datasets to recognize handwritten English alphabets by utilizing Inertial Measurement Units (IMUs) and leveraging the diversity present in the Indian writing style. The IMUs are utilized to capture the dynamic movement patterns associated with handwriting, enabling more accurate recognition of alphabets. The Indian context introduces various challenges due to the heterogeneity in writing styles across different regions and languages. By leveraging this diversity, the collected dataset and the collection system aim to achieve higher recognition accuracy. Some preliminary experimental results demonstrate the effectiveness of the dataset in accurately recognizing handwritten English alphabet in the Indian context. This research can be extended and contributes to the field of pattern recognition and offers valuable insights for developing improved systems for handwriting recognition, particularly in diverse linguistic and cultural contexts.
翻訳日:2023-07-06 12:37:31 公開日:2023-07-05
# c++ソースコードを用いたフェムトおよびアト秒物理および化学のための結合schr\"odinger方程式の超高精度時間伝播

Very accurate time propagation of coupled Schr\"odinger equations for femto- and attosecond physics and chemistry, with C++ source code ( http://arxiv.org/abs/2307.02479v1 )

ライセンス: Link先を確認
Janek Kozicki(参考訳) 本稿では、時間依存ハミルトニアンと結合したシュリンガー方程式系に対する半グローバル時間伝搬アルゴリズムの非常に高速で高精度な(最大33箇所まで)C++実装について述べる。 フェムトおよびアト秒レーザーパルスによる励起後の分子系の時間依存過程を記述するために用いられる。 任意のユーザによって提供されたハミルトニアンでも動作し、非線形問題にも使用できる。 半グローバルアルゴリズムを簡潔に提示し、c++の実装を説明し、5つのサンプルシミュレーションを示す。 付属するC++ソースコードパッケージが含まれている。 高精度ベンチマーク(long doubleとfloat128)は推定計算コストを示す。 提案手法はグローバル・チェビシェフ・プロパゲーターよりも高速かつ正確であることが判明した。

In this article, I present a very fast and high-precision (up to 33 decimal places) C++ implementation of the semi-global time propagation algorithm for a system of coupled Schr\"odinger equations with a time-dependent Hamiltonian. It can be used to describe time-dependent processes in molecular systems after excitation by femto- and attosecond laser pulses. It also works with an arbitrary user supplied Hamiltonian and can be used for nonlinear problems. The semi-global algorithm is briefly presented, the C++ implementation is described and five sample simulations are shown. The accompanying C++ source code package is included. The high precision benchmark (long double and float128) shows the estimated calculation costs. The presented method turns out to be faster and more accurate than the global Chebyshev propagator.
翻訳日:2023-07-06 12:37:18 公開日:2023-07-05
# 多様体構造データに対する線形回帰:解に対する外部幾何学の影響

Linear Regression on Manifold Structured Data: the Impact of Extrinsic Geometry on Solutions ( http://arxiv.org/abs/2307.02478v1 )

ライセンス: Link先を確認
Liangchen Liu, Juncai He and Richard Tsai(参考訳) 本稿では,多様体上のデータに対する線形回帰について検討する。 我々は、データ多様体が滑らかでユークリッド空間に埋め込まれていると仮定し、データ多様体の外部幾何学が回帰に与える影響を明らかにすることを目的とする。 具体的には、多様体の曲率(あるいは曲率が局所的に 0 である場合のパラメータ化における高次非線形性)が回帰解の一意性に与える影響を解析する。 この結果から, 埋め込み部分多様体が平らな場合, 対応する線形回帰は一意の解を持たないことが示唆された。 そうでなければ、多様体の曲率(あるいは埋め込みにおける高次非線形性)は、特に多様体の正規方向に関連する解に大きく寄与する。 その結果,データ多様体幾何が分布外推論の回帰モデルの安定性を確保する上での役割を明らかにした。

In this paper, we study linear regression applied to data structured on a manifold. We assume that the data manifold is smooth and is embedded in a Euclidean space, and our objective is to reveal the impact of the data manifold's extrinsic geometry on the regression. Specifically, we analyze the impact of the manifold's curvatures (or higher order nonlinearity in the parameterization when the curvatures are locally zero) on the uniqueness of the regression solution. Our findings suggest that the corresponding linear regression does not have a unique solution when the embedded submanifold is flat in some dimensions. Otherwise, the manifold's curvature (or higher order nonlinearity in the embedding) may contribute significantly, particularly in the solution associated with the normal directions of the manifold. Our findings thus reveal the role of data manifold geometry in ensuring the stability of regression models for out-of-distribution inferences.
翻訳日:2023-07-06 12:37:05 公開日:2023-07-05
# 推論かリサイティングか? 反事実的タスクによる言語モデルの能力と限界の検討

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks ( http://arxiv.org/abs/2307.02477v1 )

ライセンス: Link先を確認
Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Aky\"urek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim(参考訳) 幅広いタスクにわたる最近の言語モデルの印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。 これらのスキルは一般的に、移行可能か、あるいは事前トレーニング中に特定のタスクに特化しているか? これらの効果を解消するために,標準タスクの既定の仮定から逸脱する"counterfactual"タスク変種に基づく評価フレームワークを提案する。 11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。 これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。 これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより注意深く解釈する動機となった。

The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to a degree, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.
翻訳日:2023-07-06 12:36:50 公開日:2023-07-05
# 不完全情報を用いた自然言語推論

Natural Language Deduction with Incomplete Information ( http://arxiv.org/abs/2307.02472v1 )

ライセンス: Link先を確認
Zayne Sprague, Kaj Bostrom, Swarat Chaudhuri, Greg Durrett(参考訳) 増大する研究機関は、自然言語を"防備"(deductive inference)として生成することで、質問に答えるか、クレームを検証する方法を研究している。 しかし、これらの手法は、与えられた証拠に従えば、音を抑えることができる。 我々は,すべての前提が最初から記述されていないような不特定な設定を処理可能な新しいシステムを提案する。 自然言語生成モデルを用いて、別の前提と結論が与えられた前提を推論することにより、結論が真であるために必要な証拠の欠如を示唆することができる。 システムでは,2つのフランジを双方向に探索し,導出性(前方鎖)と導出性(後方鎖)を生成する。 探索空間のカバレッジを達成するために,各ステップ毎に複数の可能な出力をサンプリングすると同時に,低品質世代をラウンドトリップ検証手順でフィルタリングすることで精度を確保する。 EntailmentBankデータセットの修正版とEveryday Norms: Why Not?と呼ばれる新しいデータセットの結果。 検証による帰納的生成は、ドメイン内および外部設定間での前提を回復できることを示す

A growing body of work studies how to answer a question or verify a claim by generating a natural language "proof": a chain of deductive inferences yielding the answer based on a set of premises. However, these methods can only make sound deductions when they follow from evidence that is given. We propose a new system that can handle the underspecified setting where not all premises are stated at the outset; that is, additional assumptions need to be materialized to prove a claim. By using a natural language generation model to abductively infer a premise given another premise and a conclusion, we can impute missing pieces of evidence needed for the conclusion to be true. Our system searches over two fringes in a bidirectional fashion, interleaving deductive (forward-chaining) and abductive (backward-chaining) generation steps. We sample multiple possible outputs for each step to achieve coverage of the search space, at the same time ensuring correctness by filtering low-quality generations with a round-trip validation procedure. Results on a modified version of the EntailmentBank dataset and a new dataset called Everyday Norms: Why Not? show that abductive generation with validation can recover premises across in- and out-of-domain settings
翻訳日:2023-07-06 12:36:37 公開日:2023-07-05
# マルチモーダル入力を用いたgpt4スタイルの言語モデルのトレーニングで何が重要か?

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? ( http://arxiv.org/abs/2307.02469v1 )

ライセンス: Link先を確認
Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong(参考訳) GPT4のような大規模言語モデル(LLM)の最近の進歩は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示している。 しかし、これらのモデルの性能はネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に大きく依存しており、これらの選択は文献では広く議論されていないため、この分野の進歩を定量化することは困難である。 そこで本稿では,このようなモデルのトレーニングについて,定量的かつ質的に体系的かつ包括的な研究を行う。 制御された設定で20以上の変種を実装します。 具体的には、ネットワーク構造に対して異なるLCMバックボーンとモデル設計を比較する。 トレーニングデータについては,データの影響とサンプリング戦略について検討する。 本研究では,多角化プロンプトが学習モデルの命令追従能力に及ぼす影響について検討する。 ベンチマークでは、クラウドソーシングによる画像とビデオの両方のタスクを含む、私たちの最高の知識、包括的な評価セットに最初に貢献する。 提案するLynxは,既存のオープンソースGPT4スタイルのモデルと比較して,最高のマルチモーダル生成能力を保ちながら,最も正確なマルチモーダル理解を実現する。

Recent advancements in Large Language Models (LLMs) such as GPT4 have displayed exceptional multi-modal capabilities in following open-ended instructions given images. However, the performance of these models heavily relies on design choices such as network structures, training data, and training strategies, and these choices have not been extensively discussed in the literature, making it difficult to quantify progress in this field. To address this issue, this paper presents a systematic and comprehensive study, quantitatively and qualitatively, on training such models. We implement over 20 variants with controlled settings. Concretely, for network structures, we compare different LLM backbones and model designs. For training data, we investigate the impact of data and sampling strategies. For instructions, we explore the influence of diversified prompts on the instruction-following ability of the trained models. For benchmarks, we contribute the first, to our best knowledge, comprehensive evaluation set including both image and video tasks through crowd-sourcing. Based on our findings, we present Lynx, which performs the most accurate multi-modal understanding while keeping the best multi-modal generation ability compared to existing open-sourced GPT4-style models.
翻訳日:2023-07-06 12:36:17 公開日:2023-07-05
# DRCFS:2倍のロバストな因果的特徴選択

DRCFS: Doubly Robust Causal Feature Selection ( http://arxiv.org/abs/2306.07024v3 )

ライセンス: Link先を確認
Francesco Quinzan, Ashkan Soleymani, Patrick Jaillet, Cristian R. Rojas, Stefan Bauer(参考訳) 特定の対象変数に高い関連性を持つ複雑なシステムの特徴を知ることは、科学の多くの分野において基本的な関心事である。 既存のアプローチは、しばしば線形設定に制限され、時には保証が欠如している。 非線形および高次元の設定においても因果的特徴を識別する2つの頑健な特徴選択法であるDRCFSを提案する。 理論的な保証を提供し、仮定に必要な条件を示し、幅広いシミュレーションおよび半合成データセットで広範な実験を行う。 DRCFSは既存の最先端手法を著しく上回り、高度に非線形かつ高次元の問題に挑戦しても頑健な特徴を選択する。

Knowing the features of a complex system that are highly relevant to a particular target variable is of fundamental interest in many areas of science. Existing approaches are often limited to linear settings, sometimes lack guarantees, and in most cases, do not scale to the problem at hand, in particular to images. We propose DRCFS, a doubly robust feature selection method for identifying the causal features even in nonlinear and high dimensional settings. We provide theoretical guarantees, illustrate necessary conditions for our assumptions, and perform extensive experiments across a wide range of simulated and semi-synthetic datasets. DRCFS significantly outperforms existing state-of-the-art methods, selecting robust features even in challenging highly non-linear and high-dimensional problems.
翻訳日:2023-07-06 10:52:03 公開日:2023-07-05
# 教師なし画像間翻訳のためのマルチクロップコントラスト学習とドメイン一貫性

Multi-cropping Contrastive Learning and Domain Consistency for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2304.12235v3 )

ライセンス: Link先を確認
Chen Zhao, Wei-Ling Cai, Zheng Yuan, Cheng-Wei Hu(参考訳) 近年,コントラスト学習に基づく教師なし画像から画像への翻訳手法は,多くのタスクにおいて最先端の成果を上げている。 しかし, 前報では, 入力画像自体から負をサンプリングし, 選択した負の質を向上させるためにデータ拡張法を設計するきっかけとなった。 さらに,本手法では,生成画像と対象領域の実画像とのドメイン一貫性を無視する埋め込み空間において,パッチによるコントラスト学習によってのみコンテンツの一貫性を維持する。 本稿では,MCDUTと呼ばれるマルチクロップ型コントラスト学習とドメイン整合性に基づく教師なし画像間翻訳フレームワークを提案する。 具体的には,より高品質なネガティブな例を生成することを目的として,センタークロッピングとランダムクロッピングによるマルチクロッピングビューを得る。 深い特徴空間への埋め込みを制限するため、我々は、生成した画像が同じ領域の埋め込み空間内の実際の画像に近接することを奨励する新しい領域整合性損失を定式化する。 さらに、DCAと呼ばれるチャネルに位置情報を埋め込むことにより、二重座標注意ネットワークを提案する。 DCAネットワークをジェネレータの設計に用いて,水平および垂直のグローバルな依存性情報を取得する。 多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は広範囲な比較実験とアブレーション研究によって証明されている。

Recently, unsupervised image-to-image translation methods based on contrastive learning have achieved state-of-the-art results in many tasks. However, in the previous works, the negatives are sampled from the input image itself, which inspires us to design a data augmentation method to improve the quality of the selected negatives. Moreover, the previous methods only preserve the content consistency via patch-wise contrastive learning in the embedding space, which ignores the domain consistency between the generated images and the real images of the target domain. In this paper, we propose a novel unsupervised image-to-image translation framework based on multi-cropping contrastive learning and domain consistency, called MCDUT. Specifically, we obtain the multi-cropping views via the center-cropping and the random-cropping with the aim of further generating the high-quality negative examples. To constrain the embeddings in the deep feature space, we formulate a new domain consistency loss, which encourages the generated images to be close to the real images in the embedding space of the same domain. Furthermore, we present a dual coordinate attention network by embedding positional information into the channel, which called DCA. We employ the DCA network in the design of generator, which makes the generator capture the horizontal and vertical global information of dependency. In many image-to-image translation tasks, our method achieves state-of-the-art results, and the advantages of our method have been proven through extensive comparison experiments and ablation research.
翻訳日:2023-07-06 10:51:51 公開日:2023-07-05
# avsegformer:transformerによる視聴覚セグメンテーション

AVSegFormer: Audio-Visual Segmentation with Transformer ( http://arxiv.org/abs/2307.01146v2 )

ライセンス: Link先を確認
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu(参考訳) オーディオと視覚の組み合わせは、長い間、マルチモーダルコミュニティにおける関心事であった。 近年,映像中の音源の特定とセグメント化を目的とした,音声視覚分割(AVS)タスクが導入されている。 このタスクは、初めて音声駆動のピクセルレベルのシーン理解を必要とする。 本稿では,トランスフォーマティブアーキテクチャを活用したavsタスクのための新しいフレームワークであるavsegformerを提案する。 具体的には、オーディオクエリと学習可能なクエリをtransformerデコーダに導入し、ネットワークが関心のある視覚機能に選択的に対応できるようにする。 また,無関係な空間チャネルを増幅・抑制することにより,視覚的な特徴を動的に調整できる視聴覚混合器を提案する。 さらに、デコーダの監視を強化するために中間マスク損失を考案し、より正確な中間予測を行うようネットワークに促す。 広範な実験により、avsegformerはavsベンチマークで最先端の結果を達成した。 コードはhttps://github.com/vvvb-github/AVSegFormerで入手できる。

The combination of audio and vision has long been a topic of interest in the multi-modal community. Recently, a new audio-visual segmentation (AVS) task has been introduced, aiming to locate and segment the sounding objects in a given video. This task demands audio-driven pixel-level scene understanding for the first time, posing significant challenges. In this paper, we propose AVSegFormer, a novel framework for AVS tasks that leverages the transformer architecture. Specifically, we introduce audio queries and learnable queries into the transformer decoder, enabling the network to selectively attend to interested visual features. Besides, we present an audio-visual mixer, which can dynamically adjust visual features by amplifying relevant and suppressing irrelevant spatial channels. Additionally, we devise an intermediate mask loss to enhance the supervision of the decoder, encouraging the network to produce more accurate intermediate predictions. Extensive experiments demonstrate that AVSegFormer achieves state-of-the-art results on the AVS benchmark. The code is available at https://github.com/vvvb-github/AVSegFormer.
翻訳日:2023-07-06 10:48:57 公開日:2023-07-05
# SDC-HSDD-NDSA:正規化密度と自己適応を考慮した階層的二次微分による構造検出クラスタ

SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption ( http://arxiv.org/abs/2307.00677v2 )

ライセンス: Link先を確認
Hao Shu(参考訳) 密度に基づくクラスタリングは、異なる(高密度)クラスタが低密度領域で分離される限り、任意の形状のクラスタを識別できるため、最も一般的なクラスタリングアルゴリズムである可能性がある。 しかし、低密度領域によるクラスタの分離要件は、高密度領域が異なるグループにクラスタ化されるべき異なる構造を持つため、簡単ではない。 このような状況は、密度の高いクラスタでは既知の構造が検出できない以前の密度ベースのクラスタリングアルゴリズムの最大の欠陥を示している。 そこで本稿では,前者では有する能力を持つだけでなく,低密度者では分離されない高密度領域の構造を検出できる密度ベースのクラスタリング方式を提案する。 このアルゴリズムは二次指向性差分、階層性、正規化密度、および自己適応係数を用いており、SDC-HSDD-NDSAによって略して呼ばれる正規化密度と自己適応を伴う階層的二次指向性差分による構造検出クラスタと呼ばれる。 その効果を説明するために、アルゴリズムを複数のデータセットで実行した。 その結果, 構造検出の妥当性, 騒音に対する頑健性, および粒度の独立性を検証し, 従来より優れていることを示した。 論文のPythonコードはhttps://github.com/Hao-B-Shu/SDC-HSDD-NDSAで確認できる。

Density-based clustering could be the most popular clustering algorithm since it can identify clusters of arbitrary shape as long as different (high-density) clusters are separated by low-density regions. However, the requirement of the separateness of clusters by low-density regions is not trivial since a high-density region might have different structures which should be clustered into different groups. Such a situation demonstrates the main flaw of all previous density-based clustering algorithms we have known--structures in a high-density cluster could not be detected. Therefore, this paper aims to provide a density-based clustering scheme that not only has the ability previous ones have but could also detect structures in a high-density region not separated by low-density ones. The algorithm employs secondary directed differential, hierarchy, normalized density, as well as the self-adaption coefficient, and thus is called Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption, dubbed by SDC-HSDD-NDSA for short. To illustrate its effectiveness, we run the algorithm in several data sets. The results verify its validity in structure detection, robustness over noises, as well as independence of granularities, and demonstrate that it could outperform previous ones. The Python code of the paper could be found on https://github.com/Hao-B-Shu/SDC-HSDD-NDSA.
翻訳日:2023-07-06 10:46:50 公開日:2023-07-05