このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231018となっている論文です。

PDF登録状況(公開日: 20231018)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なし画像画像変換とGAN安定性について

On Unsupervised Image-to-image translation and GAN stability ( http://arxiv.org/abs/2403.09646v1 )

ライセンス: Link先を確認
BahaaEddin AlAila, Zahra Jandaghi, Abolfazl Farahani, Mohammad Ziad Al-Saad, (参考訳) イメージ・ツー・イメージ翻訳の問題は、カラー化、インペイント、セグメンテーションなど、他の様々なコンピュータビジョンアプリケーションに影響を及ぼす可能性に対して、同時に介入し、挑戦している問題である。 あるドメインからパターンを抽出し、特に完全に教師なし(未対応)な方法で他のドメインに適用するために必要な高度な技術を考えれば、この問題はここ数年で注目されている。 これは、深層生成モデル、特にジェネレーティブ・アドベラル・ネットワークが、理論的な技巧の表れというよりは、実際に現実世界に影響を与えている驚くべき結果を得た最初の問題の一つであり、それがガンの世界を支配してきた。 本研究では,その分野における基礎研究であるCycleGAN [1] の失敗事例について検討し,それらが GAN-stability 関連であると仮定し,これらの問題を緩和するための2つの一般的なモデルを提案する。 また,最近文献に流布されている問題と同じ結論に達している。

The problem of image-to-image translation is one that is intruiging and challenging at the same time, for the impact potential it can have on a wide variety of other computer vision applications like colorization, inpainting, segmentation and others. Given the high-level of sophistication needed to extract patterns from one domain and successfully applying them to another, especially, in a completely unsupervised (unpaired) manner, this problem has gained much attention as of the last few years. It is one of the first problems where successful applications to deep generative models, and especially Generative Adversarial Networks achieved astounding results that are actually of realworld impact, rather than just a show of theoretical prowess; the such that has been dominating the GAN world. In this work, we study some of the failure cases of a seminal work in the field, CycleGAN [1] and hypothesize that they are GAN-stability related, and propose two general models to try to alleviate these problems. We also reach the same conclusion of the problem being ill-posed that has been also circulating in the literature lately.
翻訳日:2024-03-25 08:06:28 公開日:2023-10-18
# 大規模言語モデルのための曖昧な透かし

Unbiased Watermark for Large Language Models ( http://arxiv.org/abs/2310.10669v2 )

ライセンス: Link先を確認
Zhengmian Hu, Lichang Chen, Xidong Wu, Yihan Wu, Hongyang Zhang, Heng Huang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、潜在的な誤用に関する理解を深めている。 このリスクを軽減する1つのアプローチは、透かし技術をLCMに組み込むことで、モデル出力の追跡と帰属を可能にすることである。 本研究では,透かしがモデル生成出力の品質に与える影響について検討した。 過去の研究では、透かし強度と出力品質のトレードオフが示唆されている。 しかし,本研究では,適切な実装で出力確率分布に影響を与えることなく,透かしを統合することが可能であることを実証した。 このタイプの透かしを、偏見のない透かしと呼ぶ。 サービスプロバイダが透かしを組み込んでいるかどうかをユーザが識別することは不可能になるため、これはLLMの使用に重大な意味を持つ。 さらに、ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうことなく、言語モデルの全体的な実用性が維持されることを保証する。 我々の発見は、責任あるAI開発に関する継続的な議論に寄与し、非バイアスの透かしが、出力品質を犠牲にすることなく、モデル出力を追跡および帰属する効果的な手段として役立つことを示唆している。

The recent advancements in large language models (LLMs) have sparked a growing apprehension regarding the potential misuse. One approach to mitigating this risk is to incorporate watermarking techniques into LLMs, allowing for the tracking and attribution of model outputs. This study examines a crucial aspect of watermarking: how significantly watermarks impact the quality of model-generated outputs. Previous studies have suggested a trade-off between watermark strength and output quality. However, our research demonstrates that it is possible to integrate watermarks without affecting the output probability distribution with appropriate implementation. We refer to this type of watermark as an unbiased watermark. This has significant implications for the use of LLMs, as it becomes impossible for users to discern whether a service provider has incorporated watermarks or not. Furthermore, the presence of watermarks does not compromise the performance of the model in downstream tasks, ensuring that the overall utility of the language model is preserved. Our findings contribute to the ongoing discussion around responsible AI development, suggesting that unbiased watermarks can serve as an effective means of tracking and attributing model outputs without sacrificing output quality.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-18
# MalDICT: マルウェアの挙動、プラットフォーム、爆発、パッケージに関するベンチマークデータセット

MalDICT: Benchmark Datasets on Malware Behaviors, Platforms, Exploitation, and Packers ( http://arxiv.org/abs/2310.11706v1 )

ライセンス: Link先を確認
Robert J. Joyce, Edward Raff, Charles Nicholas, James Holt, (参考訳) マルウェア分類に関する既存の研究は、悪意のあるファイルと良性のあるファイルの区別と、家族によるマルウェアの分類という2つのタスクにのみ焦点をあてている。 しかし、マルウェアは、他の多くの属性に分類することができ、機械学習を使って新しく出現するマルウェアでこれらの属性を識別できることは、アナリストに重大な価値をもたらす可能性がある。 具体的には、マルウェアが提示する行動の分類、マルウェアが実行しているプラットフォーム、マルウェアが悪用する脆弱性、マルウェアが詰め込まれているパッカーの4つのタスクを特定した。 これらのタスク上でML分類器を訓練し評価するためのラベルを得るために,ClarAVyというアンチウイルスタグツールを開発した。 ClarAVyの洗練されたAVラベルパーサーは、90種類のAV製品で使われている882の異なるAVラベルフォーマットを正確に解析する機能を持つ、以前のAVベースのタグと自身を区別している。 ClarAVyを使ってタグ付けされ、合計で550万近い悪意のあるファイルで構成されています。 私たちのマルウェアの行動データセットには75の異なるタグが含まれています。 私たちの知る限り、私たちはマルウェアプラットフォームとパッカータグを備えたデータセットを最初にリリースしました。

Existing research on malware classification focuses almost exclusively on two tasks: distinguishing between malicious and benign files and classifying malware by family. However, malware can be categorized according to many other types of attributes, and the ability to identify these attributes in newly-emerging malware using machine learning could provide significant value to analysts. In particular, we have identified four tasks which are under-represented in prior work: classification by behaviors that malware exhibit, platforms that malware run on, vulnerabilities that malware exploit, and packers that malware are packed with. To obtain labels for training and evaluating ML classifiers on these tasks, we created an antivirus (AV) tagging tool called ClarAVy. ClarAVy's sophisticated AV label parser distinguishes itself from prior AV-based taggers, with the ability to accurately parse 882 different AV label formats used by 90 different AV products. We are releasing benchmark datasets for each of these four classification tasks, tagged using ClarAVy and comprising nearly 5.5 million malicious files in total. Our malware behavior dataset includes 75 distinct tags - nearly 7x more than the only prior benchmark dataset with behavioral tags. To our knowledge, we are the first to release datasets with malware platform and packer tags.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-18
# PhishReplicant: 生成したスクワットドメイン名を検出する言語モデルに基づくアプローチ

PhishReplicant: A Language Model-based Approach to Detect Generated Squatting Domain Names ( http://arxiv.org/abs/2310.11763v1 )

ライセンス: Link先を確認
Takashi Koide, Naoki Fukushi, Hiroki Nakano, Daiki Chiba, (参考訳) ドメインスクワット(Domain squatting)は、フィッシングサイトのドメイン名を作成するために攻撃者が使用するテクニックである。 近年のフィッシングでは,複数の手法を用いて既存手法を回避したドメイン名を多数見てきた。 生成されたスクワットドメイン(GSD)と呼ばれるこれらのドメイン名は、正統なドメイン名とは外観的にはかなり異なり、ブランド名を含まないため、フィッシングに関連付けることは困難である。 本稿では,ドメイン名の言語的類似性に着目し,GSDを検出するPhishReplicantというシステムを提案する。 証明書の透明性ログ,受動的DNS,DNSゾーンファイルから新たに登録されたドメイン名を解析した。 攻撃者が4週間の実験で取得した3,498個のドメイン名を検出し,その内2,821個のフィッシングサイトを1ヶ月以内に検出した。 また,本システムでは,検出精度と検出ドメイン数の両方で既存システムより優れていたことを確認した。 深部分析の結果,150日以上で収集した205kのGSDを解析した結果,GSDを用いたフィッシングが世界中に分布していることが判明した。 しかし、攻撃者は特定の地域や産業のブランドを激しく狙った。 GSDをリアルタイムで分析することで、フィッシングサイトが現れる前後でブロックすることができる。

Domain squatting is a technique used by attackers to create domain names for phishing sites. In recent phishing attempts, we have observed many domain names that use multiple techniques to evade existing methods for domain squatting. These domain names, which we call generated squatting domains (GSDs), are quite different in appearance from legitimate domain names and do not contain brand names, making them difficult to associate with phishing. In this paper, we propose a system called PhishReplicant that detects GSDs by focusing on the linguistic similarity of domain names. We analyzed newly registered and observed domain names extracted from certificate transparency logs, passive DNS, and DNS zone files. We detected 3,498 domain names acquired by attackers in a four-week experiment, of which 2,821 were used for phishing sites within a month of detection. We also confirmed that our proposed system outperformed existing systems in both detection accuracy and number of domain names detected. As an in-depth analysis, we examined 205k GSDs collected over 150 days and found that phishing using GSDs was distributed globally. However, attackers intensively targeted brands in specific regions and industries. By analyzing GSDs in real time, we can block phishing sites before or immediately after they appear.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# $\mathbb{Z}_n$上のワイエルシュトラス楕円曲線の分類について

On the Classification of Weierstrass Elliptic Curves over $\mathbb{Z}_n$ ( http://arxiv.org/abs/2310.11768v1 )

ライセンス: Link先を確認
Param Parekh, Paavan Parekh, Sourav Deb, Manish K Gupta, (参考訳) セキュアな暗号プロトコルの開発とその後の攻撃機構は、最も好奇心の強い文献に置かれている。 高度な量子攻撃は、日常生活で使用されるアプリケーションに存在する古典的な暗号プロトコルに懸念をもたらすが、量子後プロトコルを開発する必要性は、主に感じられる。 量子後暗号では、楕円曲線ベースのプロトコルが研究者にとってエキサイティングです。 有限体上の楕円曲線の包括的研究はよく知られているが、有限環上の拡張研究はいまだに欠けている。 本研究では、有限環 $\mathbb{Z}_n$ 上のワイエルシュトラスの楕円曲線の研究を分類によって一般化する。 楕円曲線の研究における臨界因子を計算するためのいくつかの式が与えられる。 厳密な理解のために$\mathbb{Z}_n$を超えるワイエルシュトラスの楕円曲線に関する全周の計算分類もこの研究に付随する。

The development of secure cryptographic protocols and the subsequent attack mechanisms have been placed in the literature with the utmost curiosity. While sophisticated quantum attacks bring a concern to the classical cryptographic protocols present in the applications used in everyday life, the necessity of developing post-quantum protocols is felt primarily. In post-quantum cryptography, elliptic curve-base protocols are exciting to the researchers. While the comprehensive study of elliptic curves over finite fields is well known, the extended study over finite rings is still missing. In this work, we generalize the study of Weierstrass elliptic curves over finite ring $\mathbb{Z}_n$ through classification. Several expressions to compute critical factors in studying elliptic curves are conferred. An all-around computational classification on the Weierstrass elliptic curves over $\mathbb{Z}_n$ for rigorous understanding is also attached to this work.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# ロバストな多エージェント協調知覚のための悪意のあるエージェント検出

Malicious Agent Detection for Robust Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2310.11901v1 )

ライセンス: Link先を確認
Yangheng Zhao, Zhen Xiang, Sheng Yin, Xianghe Pang, Siheng Chen, Yanfeng Wang, (参考訳) 近年、多エージェント協調(MAC)知覚が提案され、自律運転など多くのアプリケーションにおいて従来の単エージェント認識よりも優れています。 しかし、MAC知覚は情報交換による単一エージェント認識よりも敵攻撃に対して脆弱である。 攻撃者は、付近の悪意のあるエージェントから有害な情報を送信することにより、被害者エージェントのパフォーマンスを簡易に低下させることができる。 本稿では、敵の攻撃を重要な認識タスクであるMACオブジェクト検出に拡張し、敵の訓練のような一般的な防御がこれらの攻撃に対してもはや効果がないようにする。 さらに重要なことは、MAC知覚に特有の反応防御であるMADE(Malicious Agent Detection)を提案することで、各エージェントがローカルな協調ネットワーク内の潜在的な悪意のあるエージェントを正確に検出し、削除することができる。 特に、MADEはBenjamini-Hochberg法による二重補綴試験に基づいて、半教師付き異常検出器を用いてネットワーク内の各エージェントを独立に検査し、推論の偽陽性率を制御する。 この2つの仮説テストにおいて, 検査対象エージェントと検出対象エージェントが配置されるエゴエージェントの整合性に基づいて, 一致損失統計と協調再構成損失統計をそれぞれ提案する。 ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xを用いて総合的な評価を行い、MADEの保護により、攻撃に対するベストケースの「オークル」ディフェンダーがそれぞれ1.28%、0.34%であるのに対し、平均精度の低下は8.92%と10.00%であることを示す。

Recently, multi-agent collaborative (MAC) perception has been proposed and outperformed the traditional single-agent perception in many applications, such as autonomous driving. However, MAC perception is more vulnerable to adversarial attacks than single-agent perception due to the information exchange. The attacker can easily degrade the performance of a victim agent by sending harmful information from a malicious agent nearby. In this paper, we extend adversarial attacks to an important perception task -- MAC object detection, where generic defenses such as adversarial training are no longer effective against these attacks. More importantly, we propose Malicious Agent Detection (MADE), a reactive defense specific to MAC perception that can be deployed by each agent to accurately detect and then remove any potential malicious agent in its local collaboration network. In particular, MADE inspects each agent in the network independently using a semi-supervised anomaly detector based on a double-hypothesis test with the Benjamini-Hochberg procedure to control the false positive rate of the inference. For the two hypothesis tests, we propose a match loss statistic and a collaborative reconstruction loss statistic, respectively, both based on the consistency between the agent to be inspected and the ego agent where our detector is deployed. We conduct comprehensive evaluations on a benchmark 3D dataset V2X-sim and a real-road dataset DAIR-V2X and show that with the protection of MADE, the drops in the average precision compared with the best-case "oracle" defender against our attack are merely 1.28% and 0.34%, respectively, much lower than 8.92% and 10.00% for adversarial training, respectively.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# BitcoinCustodyの進化

Evolving Bitcoin Custody ( http://arxiv.org/abs/2310.11911v1 )

ライセンス: Link先を確認
Jacob Tyge Goker Swambo, (参考訳) この論文の幅広いトピックは、Bitcoinの保護システムの設計と分析である。 テクノロジーと脅威の風景は、常に進化している。 したがって、留置制度、防衛戦略、リスクモデルも適応すべきである。 我々は、保護システムのさまざまなタイプ、設計原則、フェーズ、機能を説明することによって、Bitcoinの保護を導入します。 これらのシステムの技術スタックをレビューし、キー管理とプライバシの基礎に焦点を当てます。 私たちはシステムビューと呼ぶ視点を示します。 これは、技術、人、プロセスを含む、拘置システムの完全な複雑さを捉えようとする試みである。 既存の留置制度と基準を見直します。 私たちはBitcoinのコベナントを調べます。 これはトランザクションシーケンスの制約を強制するメカニズムです。 以前の研究では、Bitcoinコベナントの構築と適用方法が提案されていたが、これらはBitcoinのコンセンサスルールを変更する必要がある。 本稿では,現行のコンセンサスルールと互換性のある削除キーコベナントプロトコルの詳細な公開とセキュリティ解析について紹介する。 削除キーコベナントのセキュリティモデルについて,特に自律型(ユーザ制御型)保護システムに適用した場合に,実用的と思われるものについて紹介する。 従来の提案との比較分析で結論付けている。 コベントは、しばしば留置システムにとって重要なプリミティブであると宣言されるが、その主張を検証するための完全な設計は提案されていない。 そこで本研究では,削除キーコベナントを用いてVaultシーケンスを強制する自律型保護システムAjoloteを提案する。 Ajoloteを、その状態ダイナミクスのモデル、プライバシ分析、リスクモデルで評価する。 本稿では,オフラインデバイスとユーザ認証を備えたシステムにおいて,現実的な攻撃者を捕捉する保護システムに対する脅威モデルを提案する。 我々は、リスクモデルを構築するための儀式分析を行う。

The broad topic of this thesis is the design and analysis of Bitcoin custody systems. Both the technology and threat landscape are evolving constantly. Therefore, custody systems, defence strategies, and risk models should be adaptive too. We introduce Bitcoin custody by describing the different types, design principles, phases and functions of custody systems. We review the technology stack of these systems and focus on the fundamentals; key-management and privacy. We present a perspective we call the systems view. It is an attempt to capture the full complexity of a custody system, including technology, people, and processes. We review existing custody systems and standards. We explore Bitcoin covenants. This is a mechanism to enforce constraints on transaction sequences. Although previous work has proposed how to construct and apply Bitcoin covenants, these require modifying the consensus rules of Bitcoin, a notoriously difficult task. We introduce the first detailed exposition and security analysis of a deleted-key covenant protocol, which is compatible with current consensus rules. We demonstrate a range of security models for deleted-key covenants which seem practical, in particular, when applied in autonomous (user-controlled) custody systems. We conclude with a comparative analysis with previous proposals. Covenants are often proclaimed to be an important primitive for custody systems, but no complete design has been proposed to validate that claim. To address this, we propose an autonomous custody system called Ajolote which uses deleted-key covenants to enforce a vault sequence. We evaluate Ajolote with; a model of its state dynamics, a privacy analysis, and a risk model. We propose a threat model for custody systems which captures a realistic attacker for a system with offline devices and user-verification. We perform ceremony analysis to construct the risk model.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# 視覚的プロンプト学習におけるプロンプトのプライバシーリスクの定量化

Quantifying Privacy Risks of Prompts in Visual Prompt Learning ( http://arxiv.org/abs/2310.11970v1 )

ライセンス: Link先を確認
Yixin Wu, Rui Wen, Michael Backes, Pascal Berrang, Mathias Humbert, Yun Shen, Yang Zhang, (参考訳) 大規模事前学習モデルは、プロンプトラーニングと呼ばれる新しいパラダイムを通じて、下流タスクに適応する傾向にある。 微調整とは対照的に、素早い学習は事前訓練されたモデルのパラメータを更新しない。 代わりに、入力の摂動、すなわち、予測のために下流のタスクデータに追加されるプロンプトのみを学ぶ。 素早い学習の急速な発展を考えると、十分に一般化されたプロンプトは必然的に貴重な資産となり、それを作成するためにプロプライエタリなデータが使用される。 これにより、プロンプトがトレーニングデータのプロプライエタリな情報をリークするかどうかという疑問が自然に持ち上がる。 本稿では,プロパティ推論とメンバシップ推論攻撃のレンズを通して,視覚的プロンプト学習によって学習されたプロンプトの包括的プライバシー評価を行う。 私たちの経験的評価は、両方の攻撃に対してプロンプトが脆弱であることを示している。 また、敵が限られたコストで資産推定攻撃を成功させることができることを示した。 さらに, 提案手法を適用すれば, 相手の仮定を緩やかにすることで, プロンプトに対する会員推測攻撃が成功できることが示唆された。 さらに,本手法は,有効効用トレードオフによるメンバシップ推論攻撃を緩和できるが,財産推論攻撃に対する防御に失敗することを確認する。 私たちの結果が、人気のある急進的な学習パラダイムのプライバシーリスクを浮き彫りにしてくれることを願っています。 この方向での研究を促進するため、私たちはコードとモデルをコミュニティと共有します。

Large-scale pre-trained models are increasingly adapted to downstream tasks through a new paradigm called prompt learning. In contrast to fine-tuning, prompt learning does not update the pre-trained model's parameters. Instead, it only learns an input perturbation, namely prompt, to be added to the downstream task data for predictions. Given the fast development of prompt learning, a well-generalized prompt inevitably becomes a valuable asset as significant effort and proprietary data are used to create it. This naturally raises the question of whether a prompt may leak the proprietary information of its training data. In this paper, we perform the first comprehensive privacy assessment of prompts learned by visual prompt learning through the lens of property inference and membership inference attacks. Our empirical evaluation shows that the prompts are vulnerable to both attacks. We also demonstrate that the adversary can mount a successful property inference attack with limited cost. Moreover, we show that membership inference attacks against prompts can be successful with relaxed adversarial assumptions. We further make some initial investigations on the defenses and observe that our method can mitigate the membership inference attacks with a decent utility-defense trade-off but fails to defend against property inference attacks. We hope our results can shed light on the privacy risks of the popular prompt learning paradigm. To facilitate the research in this direction, we will share our code and models with the community.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# ポストクォンタム時代のサイバーセキュリティの将来を展望する:PQ標準化,応用,課題,機会に関する調査

Envisioning the Future of Cyber Security in Post-Quantum Era: A Survey on PQ Standardization, Applications, Challenges and Opportunities ( http://arxiv.org/abs/2310.12037v1 )

ライセンス: Link先を確認
Saleh Darzi, Kasra Ahmadi, Saeed Aghapour, Attila Altay Yavuz, Mehran Mozaffari Kermani, (参考訳) 量子コンピュータの台頭は、現在の公開鍵暗号プロトコルの脆弱性を露呈し、セキュアな後量子(PQ)スキームの開発を必要としている。 そこで我々は, 各種PQ手法を包括的に研究し, 構造設計, 構造的脆弱性, セキュリティ評価, 実装評価, サイドチャネル攻撃に特に焦点をあてる。 我々は、グローバルな標準化プロセスを分析し、実世界のアプリケーションに関連するメトリクスを評価し、主に標準化されたPQスキーム、選択された署名競合候補、標準化を超えたPQ安全な最先端スキームに焦点を当てる。 最後に、PQ時代へのシームレスな移行に向けたビジョンと今後の展望を示す。

The rise of quantum computers exposes vulnerabilities in current public key cryptographic protocols, necessitating the development of secure post-quantum (PQ) schemes. Hence, we conduct a comprehensive study on various PQ approaches, covering the constructional design, structural vulnerabilities, and offer security assessments, implementation evaluations, and a particular focus on side-channel attacks. We analyze global standardization processes, evaluate their metrics in relation to real-world applications, and primarily focus on standardized PQ schemes, selected additional signature competition candidates, and PQ-secure cutting-edge schemes beyond standardization. Finally, we present visions and potential future directions for a seamless transition to the PQ era.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# スマート電気自動車充電ステーションに対する電荷操作攻撃とディープラーニングによる検出機構

Charge Manipulation Attacks Against Smart Electric Vehicle Charging Stations and Deep Learning-based Detection Mechanisms ( http://arxiv.org/abs/2310.12254v1 )

ライセンス: Link先を確認
Hamidreza Jahangir, Subhash Lakshminarayana, H. Vincent Poor, (参考訳) スマートな電気自動車充電ステーション(EVCS)の広範な展開は、グリーントランスポートの実現に向けた重要なステップとなる。 スマートEVCSの接続機能は、ユーザの好みを尊重しながらEV充電操作をスケジュールするために利用することができ、多数の顧客からの同期充電を回避し、グリッドの混雑を軽減できる。 しかし、スマート充電に関わる通信と接続の要求は、サイバーセキュリティの懸念を引き起こす。 本研究では、攻撃者がスマート充電操作中に交換された情報を操作するEV充電に対する充電操作攻撃(CMA)について検討する。 CMAの目的は、EVアグリゲータの需要を1日毎にシフトさせることである。 提案したCMAは、EV通信プロトコルにおける既存の保護機構をバイパスすることができる。 我々は,CMAがEVアグリゲータの経済利益に与える影響を,DA(Day-ahead)とRT(Real-time)の電気市場への参加をモデル化することによって定量化する。 最後に、EV充電に関わるパラメータを監視してCMAを検出する、教師なしのディープラーニングに基づくメカニズムを提案する。 実世界のEV充電データセットにおける攻撃影響と検出の効率を広範囲に分析する。 その結果、スマート充電操作の脆弱性と、悪意のあるCMAを検出する監視メカニズムの必要性が浮き彫りになった。

The widespread deployment of "smart" electric vehicle charging stations (EVCSs) will be a key step toward achieving green transportation. The connectivity features of smart EVCSs can be utilized to schedule EV charging operations while respecting user preferences, thus avoiding synchronous charging from a large number of customers and relieving grid congestion. However, the communication and connectivity requirements involved in smart charging raise cybersecurity concerns. In this work, we investigate charge manipulation attacks (CMAs) against EV charging, in which an attacker manipulates the information exchanged during smart charging operations. The objective of CMAs is to shift the EV aggregator's demand across different times of the day. The proposed CMAs can bypass existing protection mechanisms in EV communication protocols. We quantify the impact of CMAs on the EV aggregator's economic profit by modeling their participation in the day-ahead (DA) and real-time (RT) electricity markets. Finally, we propose an unsupervised deep learning-based mechanism to detect CMAs by monitoring the parameters involved in EV charging. We extensively analyze the attack impact and the efficiency of the proposed detection on real-world EV charging datasets. The results highlight the vulnerabilities of smart charging operations and the need for a monitoring mechanism to detect malicious CMAs.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# 野生におけるアービレージボット詐欺の理解と特徴化に向けて

Towards Understanding and Characterizing the Arbitrage Bot Scam In the Wild ( http://arxiv.org/abs/2310.12306v1 )

ライセンス: Link先を確認
Kai Li, Shixuan Guan, Darren Lee, (参考訳) 本稿では,オンラインソーシャルネットワーク上に散在する暗号通貨詐欺「arbitrage bot」の包括的分析を行った。 詐欺は分散取引所(DEX)の仲裁を中心に展開され、被害者を誘致していわゆる「ボット契約」を実行させ、資金を盗もうとする。 大規模なスカム収集のために,CryptoScamHunterという,YouTubeビデオの連続収集とスカムの自動検出を行う完全自動スカム検出システムを開発した。 一方、CryptoScamHunterは提供されたリンクからボット契約のソースコードをダウンロードし、関連する詐欺暗号アドレスを抽出することができる。 2022年1月から2023年1月までCryptoScamHunterをデプロイすることで、何千ものYouTubeアカウントから10,442件のボット詐欺ビデオが発見された。 分析の結果、一般的なアカウントの作成、スパムアカウントの登録、ボット契約の本当の詐欺アドレスを隠すための難読化トリックなど、さまざまな戦略が詐欺の拡散に活用されていることが明らかとなった。 さらに、スカムビデオから800件以上の悪意あるボット契約をソースコードで収集し、354件のスカムアドレスを抽出しました。 類似の契約マッチング手法でスカムアドレスをさらに拡張することにより,合計1,697個のスカムアドレスを得た。 EthereumのメインネットとBinance Smart Chain上のすべての詐欺アドレスのトランザクションを追跡した結果、25,000人以上の被害者がこの詐欺に苦しむようになり、最大1500万USドルが損失したことが明らかになった。 全体としては、仲裁ボット詐欺で採用されている普及戦略や検閲回避戦略、オンラインソーシャルネットワークやブロックチェーンプラットフォームにおけるこのような詐欺の規模と影響に光を当て、このような不正行為に対する効果的な検出・防止メカニズムの緊急の必要性を強調している。

This paper presents the first comprehensive analysis of an emerging cryptocurrency scam named "arbitrage bot" disseminated on online social networks. The scam revolves around Decentralized Exchanges (DEX) arbitrage and aims to lure victims into executing a so-called "bot contract" to steal funds from them. To collect the scam at a large scale, we developed a fully automated scam detection system named CryptoScamHunter, which continuously collects YouTube videos and automatically detects scams. Meanwhile, CryptoScamHunter can download the source code of the bot contract from the provided links and extract the associated scam cryptocurrency address. Through deploying CryptoScamHunter from Jun. 2022 to Jun. 2023, we have detected 10,442 arbitrage bot scam videos published from thousands of YouTube accounts. Our analysis reveals that different strategies have been utilized in spreading the scam, including crafting popular accounts, registering spam accounts, and using obfuscation tricks to hide the real scam address in the bot contracts. Moreover, from the scam videos we have collected over 800 malicious bot contracts with source code and extracted 354 scam addresses. By further expanding the scam addresses with a similar contract matching technique, we have obtained a total of 1,697 scam addresses. Through tracing the transactions of all scam addresses on the Ethereum mainnet and Binance Smart Chain, we reveal that over 25,000 victims have fallen prey to this scam, resulting in a financial loss of up to 15 million USD. Overall, our work sheds light on the dissemination tactics and censorship evasion strategies adopted in the arbitrage bot scam, as well as on the scale and impact of such a scam on online social networks and blockchain platforms, emphasizing the urgent need for effective detection and prevention mechanisms against such fraudulent activity.
翻訳日:2024-03-19 02:03:55 公開日:2023-10-18
# 自由形メタサーフェス設計におけるパラメータ最適化のためのサーロゲート支援拡張生成逆ネットワーク

A Surrogate-Assisted Extended Generative Adversarial Network for Parameter Optimization in Free-Form Metasurface Design ( http://arxiv.org/abs/2401.02961v1 )

ライセンス: Link先を確認
Manna Dai, Yang Jiang, Feng Yang, Joyjit Chattoraj, Yingzhi Xia, Xinxing Xu, Weijiang Zhao, My Ha Dao, Yong Liu(参考訳) 準曲面は第5世代(5G)マイクロ波通信に広く応用されている。 準曲面群のうち、自由形準曲面は、通常の形よりも複雑なスペクトル応答を達成するのに優れている。 しかし, 従来の自由形地表面の数値計算法は時間を要するため, 専門知識が要求される。 あるいは、最近の研究では、深層学習がメタ曲面設計を加速し、洗練する大きな可能性を実証している。 本稿では,高品質な自由形地表面設計を補助する拡張生成対向ネットワーク(GAN)XGANを提案する。 提案したサロゲートは、入力スペクトル応答からXGANがモノリシックな準曲面を正確に生成できるように、XGANに物理的制約を与える。 20000自由形地表面設計に関する比較実験では、XGANは0.9734の平均精度を達成し、従来の手法よりも500倍高速である。 この方法は、特定のスペクトル応答のためのメタサーフェスライブラリ構築を促進させ、光学的メタマテリアル、ナノフォトニクスデバイス、薬物発見を含む様々な逆設計問題に拡張することができる。

Metasurfaces have widespread applications in fifth-generation (5G) microwave communication. Among the metasurface family, free-form metasurfaces excel in achieving intricate spectral responses compared to regular-shape counterparts. However, conventional numerical methods for free-form metasurfaces are time-consuming and demand specialized expertise. Alternatively, recent studies demonstrate that deep learning has great potential to accelerate and refine metasurface designs. Here, we present XGAN, an extended generative adversarial network (GAN) with a surrogate for high-quality free-form metasurface designs. The proposed surrogate provides a physical constraint to XGAN so that XGAN can accurately generate metasurfaces monolithically from input spectral responses. In comparative experiments involving 20000 free-form metasurface designs, XGAN achieves 0.9734 average accuracy and is 500 times faster than the conventional methodology. This method facilitates the metasurface library building for specific spectral responses and can be extended to various inverse design problems, including optical metamaterials, nanophotonic devices, and drug discovery.
翻訳日:2024-01-15 09:45:40 公開日:2023-10-18
# 材料生成のためのスケーラブル拡散

Scalable Diffusion for Materials Generation ( http://arxiv.org/abs/2311.09235v1 )

ライセンス: Link先を確認
Mengjiao Yang, KwangHwan Cho, Amil Merchant, Pieter Abbeel, Dale Schuurmans, Igor Mordatch, Ekin Dogus Cubuk(参考訳) インターネットスケールのデータで訓練された生成モデルは、新しく現実的なテキスト、画像、ビデオを生成することができる。 次の自然な疑問は、新しい安定物質を生成するなど、これらのモデルが科学を前進させることができるかどうかである。 伝統的に、明示的な構造を持つモデル(グラフなど)は、科学データ(例えば結晶中の原子や結合)の構造関係のモデル化に使われてきたが、大規模で複雑なシステムにスケールすることは困難である。 材料生成におけるもうひとつの課題は、標準生成モデリングメトリクスと下流アプリケーションとのミスマッチである。 例えば、レコンストラクションエラーのような一般的な指標は、安定した材料の発見という下流の目標とよく相関しない。 本研究では,任意の結晶構造を表現可能な統一結晶表現(UniMat)を開発し,これらのUniMat表現上で拡散確率モデルを訓練することによって,拡張性に挑戦する。 実験の結果,UniMatは明示的な構造モデリングの欠如にもかかわらず,より大規模で複雑な化学系から高忠実度結晶構造を生成できることが示唆された。 新規な安定物質発見などの下流応用への材料生成の質向上を図るため,密度関数理論(DFT)の分解エネルギーを通した凸殻に対するコンベックス生成エネルギーと安定性を含む材料生成モデルを評価するための追加指標を提案する。 最後に、UniMatを用いた条件付き生成は、数百万の結晶構造を持つ既存の結晶データセットにスケール可能であることを示し、新しい安定物質を発見する上で、ランダムな構造探索(構造発見の現在の先導方法)よりも優れていることを示す。

Generative models trained on internet-scale data are capable of generating novel and realistic texts, images, and videos. A natural next question is whether these models can advance science, for example by generating novel stable materials. Traditionally, models with explicit structures (e.g., graphs) have been used in modeling structural relationships in scientific data (e.g., atoms and bonds in crystals), but generating structures can be difficult to scale to large and complex systems. Another challenge in generating materials is the mismatch between standard generative modeling metrics and downstream applications. For instance, common metrics such as the reconstruction error do not correlate well with the downstream goal of discovering stable materials. In this work, we tackle the scalability challenge by developing a unified crystal representation that can represent any crystal structure (UniMat), followed by training a diffusion probabilistic model on these UniMat representations. Our empirical results suggest that despite the lack of explicit structure modeling, UniMat can generate high fidelity crystal structures from larger and more complex chemical systems, outperforming previous graph-based approaches under various generative modeling metrics. To better connect the generation quality of materials to downstream applications, such as discovering novel stable materials, we propose additional metrics for evaluating generative models of materials, including per-composition formation energy and stability with respect to convex hulls through decomposition energy from Density Function Theory (DFT). Lastly, we show that conditional generation with UniMat can scale to previously established crystal datasets with up to millions of crystals structures, outperforming random structure search (the current leading method for structure discovery) in discovering new stable materials.
翻訳日:2023-11-19 14:05:55 公開日:2023-10-18
# QWOPゲットの進化のための遺伝的アルゴリズム

Genetic Algorithms for Evolution of QWOP Gaits ( http://arxiv.org/abs/2311.09234v1 )

ライセンス: Link先を確認
Zachary Jones, Mohammad Al-Saad, Ankush Vavishta(参考訳) qwopはブラウザベースの2次元フラッシュゲームで、プレイヤーは100メートルのシミュレートレースで競うオリンピックスプリント選手を制御する。 ゲームの目的は、走者の足の筋肉を制御するq、w、o、pキーを使用して、可能な限り100メートルのレースの終わりまで走者を前進させることである。 単純なコントロールと単純なゴールにもかかわらず、難易度と直感的なゲームプレイで有名である。 本稿では,有効なQWOP歩行を自動的に検出する。 ゲームプレイ用に開発されたプログラムインタフェースを記述し、この問題を解決するために最適化された遺伝的アルゴリズムのバリエーションをいくつか紹介する。 本稿では,様々な表現,初期化戦略,進化パラダイム,パラメータ制御機構の有効性に関する実験結果を示す。

QWOP is a browser-based, 2-dimensional flash game in which the player controls an Olympic sprinter competing in a simulated 100-meter race. The goal of the game is to advance the runner to the end of the 100-meter race as quickly as possible using the Q, W, O, and P keys, which control the muscles in the sprinters legs. Despite the game simple controls and straightforward goal, it is renowned for its difficulty and unintuitive gameplay. In this paper, we attempt to automatically discover effective QWOP gaits. We describe a programmatic interface developed to play the game, and we introduce several variants of a genetic algorithm tailored to solve this problem. We present experimental results on the effectiveness of various representations, initialization strategies, evolution paradigms, and parameter control mechanisms.
翻訳日:2023-11-19 14:05:27 公開日:2023-10-18
# 実践者のための分散識別子法の分類法

A Taxonomy of Decentralized Identifier Methods for Practitioners ( http://arxiv.org/abs/2311.03367v1 )

ライセンス: Link先を確認
Felix Hoops, Alexander M\"uhle, Florian Matthes, Christoph Meinel(参考訳) SSI(Self-Sovereign Identity)の新たなアイデンティティ管理パラダイムの中核となるのは、W3C Decentralized Identifiers(DID)標準である。 パラダイムによって奨励される相互運用可能な実装の多様性は、より中央集権的な未来の鍵であり、DIDの概念によって実現される。 しかし、これはある種の選択肢のジレンマとなり、実践者はどの方法を選択してアプリケーションをサポートするかという難しい決定に直面します。 didメソッド仕様が分散開発され、さまざまな選択肢が圧倒的に多いため、概観を得ることは困難である。 本稿では,DID手法を選択する際に,実践者が情報的意思決定を行えるようにするためのDID手法の分類法を提案する。 そのために,我々の分類学は,導入関連特性を提供しつつ,現状の概観を提供するように設計されている。 この目的のために、我々はNickersonらによる分類学の方法論に頼り、概念的-経験的-経験的-概念的アプローチと経験的-概念的アプローチの両方を利用する。 反復的なプロセスでは、さまざまなソースから160以上のdoメソッドの広範囲かつ潜在的に徹底的なリストを収集し、調査します。 私たちが到達した分類学は、7次元と22個の特徴を使い、実践者の視点からdiメソッドの現代の設計空間にまたがる。 また,これらの特徴の解明に加えて,特定のユースケースに対して適切なDID方法を選択するために,実践者が分類学をどのように利用できるかについても論じる。

A core part of the new identity management paradigm of Self-Sovereign Identity (SSI) is the W3C Decentralized Identifiers (DIDs) standard. The diversity of interoperable implementations encouraged by the paradigm is key for a less centralized future, and it is made possible by the concept of DIDs. However, this leads to a kind of dilemma of choices, where practitioners are faced with the difficult decision of which methods to choose and support in their applications. Due to the decentralized development of DID method specifications and the overwhelming number of different choices, it is hard to get an overview. In this paper, we propose a taxonomy of DID methods with the goal to empower practitioners to make informed decisions when selecting DID methods. To that end, our taxonomy is designed to provide an overview of the current landscape while providing adoption-relevant characteristics. For this purpose, we rely on the Nickerson et al. methodology for taxonomy creation, utilizing both conceptual-to-empirical and empirical-to-conceptual approaches. During the iterative process, we collect and survey an extensive and potentially exhaustive list of around 160 DID methods from various sources. The taxonomy we arrive at uses a total of 7 dimensions and 22 characteristics to span the contemporary design space of DID methods from the perspective of a practitioner. In addition to elaborating on these characteristics, we also discuss how a practitioner can use the taxonomy to select suitable DID methods for a specific use case.
翻訳日:2023-11-12 19:47:55 公開日:2023-10-18
# チャンネル独立戦略は時系列予測に最適か?

Is Channel Independent strategy optimal for Time Series Forecasting? ( http://arxiv.org/abs/2310.17658v1 )

ライセンス: Link先を確認
Yuan Peiwen, Zhu Changsheng(参考訳) 長期時系列予測のための様々なモデルが出現している。 近年の研究では、チャネル依存(cd)またはチャネル独立(ci)モデリングを用いた単一の線形層が、多数の洗練されたモデルを上回ることさえ証明されている。 しかしながら、現在の研究はCDとCIを2つの補完的かつ相互排他的なアプローチであり、これら2つの極端を同時に利用できないと考えている。 また、CDとCIの両方が静的戦略であり、広範な実験なしに特定のデータセットに最適であると判断できないという課題もある。 本稿では,現在のCI戦略が時系列予測の最適解であるかどうかを再考する。 まず, 線形モデルに対して, 単純かつ効果的な csc 戦略を提案し, 線形モデルに対する $\mathbf{c}$hannel$\mathbf{s}$elf-$\mathbf{c}$lustering strategy を述べる。 我々のチャネル自己クラスタリング(CSC)は、パラメータサイズを減らしながらCI戦略の性能向上を図り、電気データセットを10倍以上に拡大し、トレーニング時間を著しく短縮する。 第2に,自己クラスタリングにインスパイアされたディープモデルのためのChannel Rearrangement (CR)を提案する。 CRはベースラインと競合するパフォーマンスを得る。 最後に、入力と同じチャネルの履歴値を用いて将来の値を予測するのが最善かどうかについても論じる。 われわれの発見と方法がCD/CI以外の新しいソリューションを刺激することを期待している。

There has been an emergence of various models for long-term time series forecasting. Recent studies have demonstrated that a single linear layer, using Channel Dependent (CD) or Channel Independent (CI) modeling, can even outperform a large number of sophisticated models. However, current research primarily considers CD and CI as two complementary yet mutually exclusive approaches, unable to harness these two extremes simultaneously. And it is also a challenging issue that both CD and CI are static strategies that cannot be determined to be optimal for a specific dataset without extensive experiments. In this paper, we reconsider whether the current CI strategy is the best solution for time series forecasting. First, we propose a simple yet effective strategy called CSC, which stands for $\mathbf{C}$hannel $\mathbf{S}$elf-$\mathbf{C}$lustering strategy, for linear models. Our Channel Self-Clustering (CSC) enhances CI strategy's performance improvements while reducing parameter size, for exmpale by over 10 times on electricity dataset, and significantly cutting training time. Second, we further propose Channel Rearrangement (CR), a method for deep models inspired by the self-clustering. CR attains competitive performance against baselines. Finally, we also discuss whether it is best to forecast the future values using the historical values of the same channel as inputs. We hope our findings and methods could inspire new solutions beyond CD/CI.
翻訳日:2023-11-05 14:13:56 公開日:2023-10-18
# 拡張性と一般化可能な不規則パッケージのための勾配場学習

Learning Gradient Fields for Scalable and Generalizable Irregular Packing ( http://arxiv.org/abs/2310.19814v1 )

ライセンス: Link先を確認
Tianyang Xue, Mingdong Wu, Lin Lu, Haoxuan Wang, Hao Dong, Baoquan Chen(参考訳) パッキング問題はカットやネスティングとしても知られ、ロジスティクス、製造、レイアウト設計、アトラス生成に多様な応用がある。 重複を避けながら無駄を最小限に抑えるために不規則な形状の部品を配置する。 機械学習の最近の進歩、特に強化学習は、パッキング問題に対処することに有望である。 本研究では,パッキング問題を条件付き生成モデルとして定式化する,新しい機械学習ベースのアプローチを深く掘り下げる。 オブジェクトの妥当性制約や衝突回避といった不規則なパッキングの課題に対処するために,スコアベース拡散モデルを用いて一連の勾配場を学習する。 これらの勾配場は、教師の例から学んだ制約満足度と多角形の空間的関係の相関を符号化する。 試験段階では、学習した勾配場によって導かれる粗大な微細化機構を用いてパッキングソリューションを生成する。 パッケージングの実現可能性と最適性を向上させるため,マルチスケールの特徴抽出と粗大な関係抽出という2つの重要なアーキテクチャ設計を導入する。 翻訳のみを考慮し,2つの典型的な産業用包装ドメインについて実験を行う。 提案手法は,データ生成の訓練を行う教師アルゴリズムに匹敵する空間利用率,あるいはそれを超える空間利用率を示す。 さらに、形状変化へのある程度の一般化を示す。 我々は,本手法が,包装問題の解決に新たな可能性をもたらすことを期待している。

The packing problem, also known as cutting or nesting, has diverse applications in logistics, manufacturing, layout design, and atlas generation. It involves arranging irregularly shaped pieces to minimize waste while avoiding overlap. Recent advances in machine learning, particularly reinforcement learning, have shown promise in addressing the packing problem. In this work, we delve deeper into a novel machine learning-based approach that formulates the packing problem as conditional generative modeling. To tackle the challenges of irregular packing, including object validity constraints and collision avoidance, our method employs the score-based diffusion model to learn a series of gradient fields. These gradient fields encode the correlations between constraint satisfaction and the spatial relationships of polygons, learned from teacher examples. During the testing phase, packing solutions are generated using a coarse-to-fine refinement mechanism guided by the learned gradient fields. To enhance packing feasibility and optimality, we introduce two key architectural designs: multi-scale feature extraction and coarse-to-fine relation extraction. We conduct experiments on two typical industrial packing domains, considering translations only. Empirically, our approach demonstrates spatial utilization rates comparable to, or even surpassing, those achieved by the teacher algorithm responsible for training data generation. Additionally, it exhibits some level of generalization to shape variations. We are hopeful that this method could pave the way for new possibilities in solving the packing problem.
翻訳日:2023-11-05 13:27:14 公開日:2023-10-18
# 大規模言語モデルを用いた遺伝的改良変異の強化

Enhancing Genetic Improvement Mutations Using Large Language Models ( http://arxiv.org/abs/2310.19813v1 )

ライセンス: Link先を確認
Alexander E.I. Brownlee, James Callan, Karine Even-Mendoza, Alina Geiger, Carol Hanna, Justyna Petke, Federica Sarro, Dominik Sobania(参考訳) 大規模言語モデル(LLM)は、プログラム修復を含むソフトウェア工学のタスクにうまく適用されている。 しかし, 遺伝的改良(GI)などの検索技術への応用はいまだに未解明である。 本稿では,GI の突然変異演算子として LLM を用いた検索プロセスの改善について検討する。 我々は、Gin Java GIツールキットを拡張してOpenAIのAPIを呼び出して、JCodecツールの編集を生成する。 5種類の編集タイプを用いて編集空間をランダムにサンプリングする。 単体テストに合格するパッチの数は、標準のInsert編集よりもLLMベースの編集の方が75%高いことがわかった。 さらに,LLMのパッチは標準編集に比べて一般的には多様性が低い。 ランタイムの改善を見つけるために、ローカル検索でgiを実行しました。 LLM拡張GIでは多くの改善パッチが見つかったが、最高の改善パッチは標準GIで見つかった。

Large language models (LLMs) have been successfully applied to software engineering tasks, including program repair. However, their application in search-based techniques such as Genetic Improvement (GI) is still largely unexplored. In this paper, we evaluate the use of LLMs as mutation operators for GI to improve the search process. We expand the Gin Java GI toolkit to call OpenAI's API to generate edits for the JCodec tool. We randomly sample the space of edits using 5 different edit types. We find that the number of patches passing unit tests is up to 75% higher with LLM-based edits than with standard Insert edits. Further, we observe that the patches found with LLMs are generally less diverse compared to standard edits. We ran GI with local search to find runtime improvements. Although many improving patches are found by LLM-enhanced GI, the best improving patch was found by standard GI.
翻訳日:2023-11-05 13:26:50 公開日:2023-10-18
# 脳デコード : 視覚知覚のリアルタイム再構築に向けて

Brain decoding: toward real-time reconstruction of visual perception ( http://arxiv.org/abs/2310.19812v1 )

ライセンス: Link先を確認
Yohann Benchetrit, Hubert Banville and Jean-R\'emi King(参考訳) 過去5年間で、生成的および基礎的AIシステムの使用は、脳活動の復号化を大幅に改善した。 特に視覚知覚は、顕著な忠実さを持つ機能的磁気共鳴イメージング(fMRI)から復号することができる。 しかし、このニューロイメージング技術は時間分解能(約0.5hz)が限られており、基本的にはリアルタイム使用を制限している。 本稿では、高時間分解能(5,000Hz)で脳活動を計測できる脳波計測装置である脳磁図(MEG)に基づく別のアプローチを提案する。 そこで我々は,コントラスト目標と回帰目標,および3つのモジュールからなるmeg復号モデルを開発した。 一 画像から得られる予め訓練された埋め込み 二 エンドツーエンドの訓練を受けたMEGモジュール及び 三 予め訓練した画像生成装置 第一に、私たちのMEGデコーダは古典的線形デコーダよりも画像検索が7倍改善したことを示す。 第2に、画像に対する後期脳反応は、最近の基礎画像モデルであるDINOv2で最もよくデコードされる。 第3に、画像検索と世代は、MEG信号が主に高レベルな視覚的特徴を含むことを示唆しているが、同様に7T fMRIにも適用されたアプローチは、低レベルな特徴を回復させる。 全体として、これらの結果は人間の脳内で連続的に展開する視覚過程のデコード(リアルタイムで)に向けて重要なステップとなる。

In the past five years, the use of generative and foundational AI systems has greatly improved the decoding of brain activity. Visual perception, in particular, can now be decoded from functional Magnetic Resonance Imaging (fMRI) with remarkable fidelity. This neuroimaging technique, however, suffers from a limited temporal resolution ($\approx$0.5 Hz) and thus fundamentally constrains its real-time usage. Here, we propose an alternative approach based on magnetoencephalography (MEG), a neuroimaging device capable of measuring brain activity with high temporal resolution ($\approx$5,000 Hz). For this, we develop an MEG decoding model trained with both contrastive and regression objectives and consisting of three modules: i) pretrained embeddings obtained from the image, ii) an MEG module trained end-to-end and iii) a pretrained image generator. Our results are threefold: Firstly, our MEG decoder shows a 7X improvement of image-retrieval over classic linear decoders. Second, late brain responses to images are best decoded with DINOv2, a recent foundational image model. Third, image retrievals and generations both suggest that MEG signals primarily contain high-level visual features, whereas the same approach applied to 7T fMRI also recovers low-level features. Overall, these results provide an important step towards the decoding - in real time - of the visual processes continuously unfolding within the human brain.
翻訳日:2023-11-05 13:26:37 公開日:2023-10-18
# データストリームの歴史的文脈

A Historical Context for Data Streams ( http://arxiv.org/abs/2310.19811v1 )

ライセンス: Link先を確認
Indre Zliobaite and Jesse Read(参考訳) データストリームからの機械学習は、活発に成長している研究領域である。 ストリーミングデータから学習する研究は、通常、ストリームマイニングアルゴリズムが各インスタンスを1回未満で検査し、いつでも予測する準備が整うという要求を含む、計算資源の制約と関連づけられた厳密な仮定を作る。 本稿では、データストリーム研究の歴史的文脈を、その歴史的文脈におけるデータストリーム上で機械学習で使用される一般的な仮定として検討する。

Machine learning from data streams is an active and growing research area. Research on learning from streaming data typically makes strict assumptions linked to computational resource constraints, including requirements for stream mining algorithms to inspect each instance not more than once and be ready to give a prediction at any time. Here we review the historical context of data streams research placing the common assumptions used in machine learning over data streams in their historical context.
翻訳日:2023-11-05 13:26:13 公開日:2023-10-18
# 量子電池 -- エネルギー貯蔵の未来?

Quantum batteries -- The future of energy storage? ( http://arxiv.org/abs/2310.13020v1 )

ライセンス: Link先を確認
James Q. Quach, Giulio Cerullo, Tersilla Virgili(参考訳) 国際エネルギー機関(IEA)によると、各人は年間80GJ以上のエネルギーを消費している。 この消費は2040年までに28%増加すると予想されている(2015年から)。 このエネルギーの大多数(86%)は化石燃料に由来する。 この化石燃料への依存は、気候変動が我々の時代に直面する最大の課題であることは間違いない。 再生可能エネルギーは可能な解決策を提供する。 しかし、太陽や風などの再生可能エネルギー源は持続的な供給源ではなく、エネルギー貯蔵技術やバッテリーは、世界の再生可能エネルギーのさらなる採用にとって緊急の課題である。 再生可能エネルギーを蓄えるための効率的なバッテリーの必要性に加え、バッテリーのポータビリティは電気自動車を含むモバイル技術にとって不可欠な要素となっている。 現在の電池は、2世紀前に開発されたよく知られた電気化学原理に基づいている。 材料とデバイスアーキテクチャの最適化によるパフォーマンス向上をめざす努力が進行中であるが、エネルギー貯蔵に対する全く新しい破壊的なアプローチを探求する価値がある。 量子バッテリ(quantum battery)は、性能や機能を高めるために量子力学を利用するエネルギー貯蔵デバイスである。 彼らはまだ初歩的な実証実験しか行っていないが、革新的な設計原則は将来のエネルギー問題に対する潜在的な解決策を提供する。

According to the International Energy Agency, each human uses more than 80 GJ of energy per year; this is equivalent to leaving a washing machine continuously running for one year for every person on Earth. This consumption is expected to increase by 28% by 2040 (from 2015 levels). The majority (86%) of this energy comes from fossil fuels. This dependence on fossil fuels comes with major environmental costs, with climate change arguably being the greatest challenge facing our era. Renewable energy offers a possible solution. However, renewable energy sources, like solar and wind are not continuous sources, and therefore energy storage technology or batteries, remain an urgent challenge for further worldwide adoption of renewable energy. Alongside the need for efficient batteries to store renewable energy, the portability of batteries makes them an essential component in mobile technologies, including electric vehicles. Current batteries operate on the basis of well-understood electrochemical principles which were developed two centuries ago. While there is an ongoing intense effort aimed at improving their performance through optimization of the materials and the device architecture, it is worth exploring completely novel and disruptive approaches towards energy storage. Quantum batteries are energy storage devices that utilise quantum mechanics to enhance performance or functionality. While they are still in their infancy with only proof-of-principle demonstrations achieved, their radically innovative design principles offer a potential solution to future energy challenges.
翻訳日:2023-10-24 02:17:07 公開日:2023-10-18
# deepfoolアルゴリズムを用いたクラス操作のためのディープニューラルネットワークの敵意攻撃の調整

Tailoring Adversarial Attacks on Deep Neural Networks for Targeted Class Manipulation Using DeepFool Algorithm ( http://arxiv.org/abs/2310.13019v1 )

ライセンス: Link先を確認
S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab(参考訳) ディープニューラルネットワーク(DNN)は、様々なドメインを著しく進化させたが、敵の攻撃に対する脆弱性は深刻な懸念を引き起こす。 これらの脆弱性を理解し、効果的な防御メカニズムを開発することは重要です。 Moosavi-Dezfooli et al. (2016)によって提案されたアルゴリズムであるDeepFoolは、入力画像を誤分類するために最小限の摂動を求める。 しかし、DeepFoolにはターゲットのアプローチがないため、特定の攻撃シナリオでは効果が低い。 また、以前の関連作品では、画像がどれだけ歪められているか、画像の品質の完全性、誤分類に対する自信レベルを考慮して、研究者は主に成功に焦点を当てている。 そこで本稿では,DeepFoolの拡張バージョンであるTargeted DeepFoolを提案する。 また、柔軟性を高めるため、最小信頼度要求ハイパーパラメータも導入する。 実験では,画像の整合性を最大限に保ちながら,異なる深層ニューラルネットワークアーキテクチャにおける提案手法の有効性と効率を実証した。 その結果、深層畳み込みニューラルネットワークアーキテクチャの1つであるAlexNetと、最先端のモデルであるVision Transformerの1つは、騙されやすいことを示す。 私たちのコードは論文を出版するときに公表される。

Deep neural networks (DNNs) have significantly advanced various domains, but their vulnerability to adversarial attacks poses serious concerns. Understanding these vulnerabilities and developing effective defense mechanisms is crucial. DeepFool, an algorithm proposed by Moosavi-Dezfooli et al. (2016), finds minimal perturbations to misclassify input images. However, DeepFool lacks a targeted approach, making it less effective in specific attack scenarios. Also, in previous related works, researchers primarily focus on success, not considering how much an image is getting distorted; the integrity of the image quality, and the confidence level to misclassifying. So, in this paper, we propose Targeted DeepFool, an augmented version of DeepFool that allows targeting specific classes for misclassification. We also introduce a minimum confidence score requirement hyperparameter to enhance flexibility. Our experiments demonstrate the effectiveness and efficiency of the proposed method across different deep neural network architectures while preserving image integrity as much as possible. Results show that one of the deep convolutional neural network architectures, AlexNet, and one of the state-of-the-art model Vision Transformer exhibit high robustness to getting fooled. Our code will be made public when publishing the paper.
翻訳日:2023-10-24 02:16:47 公開日:2023-10-18
# 表現的アライメントに整列すること

Getting aligned on representational alignment ( http://arxiv.org/abs/2310.13018v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Lukas Muttenthaler, Adrian Weller, Andi Peng, Andreea Bobu, Been Kim, Bradley C. Love, Erin Grant, Jascha Achterberg, Joshua B. Tenenbaum, Katherine M. Collins, Katherine L. Hermann, Kerem Oktar, Klaus Greff, Martin N. Hebart, Nori Jacoby, Qiuyi (Richard) Zhang, Raja Marjieh, Robert Geirhos, Sherol Chen, Simon Kornblith, Sunayana Rane, Talia Konkle, Thomas P. O'Connell, Thomas Unterthiner, Andrew K. Lampinen, Klaus-Robert M\"uller, Mariya Toneva, Thomas L. Griffiths(参考訳) 生物学的および人工的な情報処理システムは、分類、推論、計画、ナビゲート、意思決定に使用できる世界の表現を形成する。 これらの多様なシステムによって形成される表現は、どの程度まで一致しますか? 表現の多様化はいまだに同じ行動に繋がるだろうか? そして、他のシステムの表現をより良くするために、システムはどのように修正できるのか? textbf{\emph{representational alignment}}の研究に関連するこれらの疑問は、現代の認知科学、神経科学、機械学習において最も活発な研究領域の中心にある。 残念なことに、表象的アライメントに関心のある研究コミュニティ間の知識伝達は限られており、ある分野の進歩の多くは、より大きなクロスフィールド通信が有利になる場合に、別の分野において独立して再発見されることになる。 フィールド間のコミュニケーションを改善するために,研究者間で共通言語として機能する統一フレームワークを提案する。 我々は認知科学、神経科学、機械学習の分野から文献を調査し、先行作業がこの枠組みにどのように適合するかを実証する。 最後に、進行が3つの分野全てに利益をもたらすような表現アライメントにおいて、オープンな問題をレイアウトする。 我々は,情報処理システムの研究・開発を行うすべてのコミュニティにおいて,学際的なコラボレーションの促進と進展を期待する。 この記事は作業論文であり、読者に今後の改訂を提案するよう促すものであることに留意する。

Biological and artificial information processing systems form representations of the world that they can use to categorize, reason, plan, navigate, and make decisions. To what extent do the representations formed by these diverse systems agree? Can diverging representations still lead to the same behaviors? And how can systems modify their representations to better match those of another system? These questions pertaining to the study of \textbf{\emph{representational alignment}} are at the heart of some of the most active research areas in contemporary cognitive science, neuroscience, and machine learning. Unfortunately, there is limited knowledge-transfer between research communities interested in representational alignment, and much of the progress in one field ends up being rediscovered independently in another, when greater cross-field communication would be advantageous. To improve communication between fields, we propose a unifying framework that can serve as a common language between researchers studying representational alignment. We survey the literature from the fields of cognitive science, neuroscience, and machine learning, and demonstrate how prior work fits into this framework. Finally, we lay out open problems in representational alignment where progress can benefit all three fields. We hope that our work can catalyze cross-disciplinary collaboration and accelerate progress for all communities studying and developing information processing systems. We note that this is a working paper and encourage readers to reach out with their suggestions for future revisions.
翻訳日:2023-10-24 02:16:27 公開日:2023-10-18
# 位置補間によるALiBi外挿の改善

Position Interpolation Improves ALiBi Extrapolation ( http://arxiv.org/abs/2310.13017v1 )

ライセンス: Link先を確認
Faisal Al-Khateeb, Nolan Dey, Daria Soboleva, Joel Hestness(参考訳) 線形位置補間は、回転位置埋め込み(RoPE)を用いて、長い列長への外挿を行う事前訓練モデルに役立つ。 本稿では、線形位置補間を用いて、線形バイアス(ALiBi)を用いたモデルの外挿範囲を拡張することを提案する。 位置補間は上流言語モデリングおよび下流要約および検索タスクにおける外挿能力を大幅に改善する。

Linear position interpolation helps pre-trained models using rotary position embeddings (RoPE) to extrapolate to longer sequence lengths. We propose using linear position interpolation to extend the extrapolation range of models using Attention with Linear Biases (ALiBi). We find position interpolation significantly improves extrapolation capability on upstream language modelling and downstream summarization and retrieval tasks.
翻訳日:2023-10-24 02:16:07 公開日:2023-10-18
# グラフに基づく大規模言語モデルシステムの乗算問題の解法

Solving the multiplication problem of a large language model system using a graph-based method ( http://arxiv.org/abs/2310.13016v1 )

ライセンス: Link先を確認
Turker Tuncer and Sengul Dogan and Mehmet Baygin and Prabal Datta Barua and Abdul Hafeez-Baig and Ru-San Tan and Subrata Chakraborty and U. Rajendra Acharya(参考訳) 生成事前学習型トランスフォーマー(GPT)ベースのチャットボットソフトウェアChatGPTは、優れた自然言語処理能力を持っているが、算術問題、特に乗算の解決には不十分である。 gpt構造は、単純な乗算演算以上の精度に制限のある乗算に計算グラフを用いる。 本研究では,2つの入力数のうち,kがベース10の最大パワーを表す10k演算子を組み込んで,人間のような数値演算をエミュレートするグラフベース乗算アルゴリズムを開発した。 提案手法は,100万の乗算タスクに対して100%精度を実現し,gptおよび他の大規模言語モデルの乗算課題を効果的に解決した。 我々の研究は、人工知能アルゴリズムの設計に単純な人間の洞察を混ぜることの重要性を強調している。 キーワード:グラフベースの乗算、ChatGPT、乗算問題

The generative pre-trained transformer (GPT)-based chatbot software ChatGPT possesses excellent natural language processing capabilities but is inadequate for solving arithmetic problems, especially multiplication. Its GPT structure uses a computational graph for multiplication, which has limited accuracy beyond simple multiplication operations. We developed a graph-based multiplication algorithm that emulated human-like numerical operations by incorporating a 10k operator, where k represents the maximum power to base 10 of the larger of two input numbers. Our proposed algorithm attained 100% accuracy for 1,000,000 large number multiplication tasks, effectively solving the multiplication challenge of GPT-based and other large language models. Our work highlights the importance of blending simple human insights into the design of artificial intelligence algorithms. Keywords: Graph-based multiplication; ChatGPT; Multiplication problem
翻訳日:2023-10-24 02:16:01 公開日:2023-10-18
# コード分析のための大規模言語モデル: LLMは実際に仕事をするのか?

Large Language Models for Code Analysis: Do LLMs Really Do Their Job? ( http://arxiv.org/abs/2310.12357v1 )

ライセンス: Link先を確認
Chongzhou Fang, Ning Miao, Shaurya Srivastav, Jialin Liu, Ruoyu Zhang, Ruijie Fang, Asmita Asmita, Ryan Tsang, Najmeh Nazari, Han Wang and Houman Homayoun(参考訳) 大規模言語モデル(llm)は、自然言語理解とプログラミングコード処理タスクの領域において大きな可能性を示している。 人間のようなコードを理解して生成する能力は、コード解析の目的のためにLLMを活用する研究を刺激している。 しかし、既存の文献は、特に難読化コードの文脈において、コード解析におけるLLMの有効性の体系的な評価と評価を提供するには不足している。 本稿では,このギャップを埋めるために,コード解析タスクの実行においてLLMの能力を包括的に評価する手法を提案する。 さらに、悪意のあるコードの解析にLLMを使用する実世界のケーススタディを示す。 以上の結果から,LLMはコード解析の自動化に有用なツールでありながら,一定の制限を課すことが示唆された。 この研究は、精巧な調査を通じて、コード分析におけるLLMの利用に関連する可能性と制約の深い理解に寄与し、この重要な領域におけるアプリケーション強化の道を開いた。

Large language models (LLMs) have demonstrated significant potential in the realm of natural language understanding and programming code processing tasks. Their capacity to comprehend and generate human-like code has spurred research into harnessing LLMs for code analysis purposes. However, the existing body of literature falls short in delivering a systematic evaluation and assessment of LLMs' effectiveness in code analysis, particularly in the context of obfuscated code. This paper seeks to bridge this gap by offering a comprehensive evaluation of LLMs' capabilities in performing code analysis tasks. Additionally, it presents real-world case studies that employ LLMs for the analysis of malicious code. Our findings indicate that LLMs can indeed serve as valuable tools for automating code analysis, albeit with certain limitations. Through meticulous exploration, this research contributes to a deeper understanding of the potential and constraints associated with utilizing LLMs in code analysis, paving the way for enhanced applications in this critical domain.
翻訳日:2023-10-21 14:50:44 公開日:2023-10-18
# Relaxedメモリモデルによるコンパイラテスト

Compiler Testing With Relaxed Memory Models ( http://arxiv.org/abs/2310.12337v1 )

ライセンス: Link先を確認
Luke Geeson, Lee Smith(参考訳) コンパイラが正しいことは重要です! バグを見つけることは、現在広く使われているコンパイラの正確性をテストする一面である。 もしコンパイルされたプログラムがソースコードのセマンティクスによって許容されるように振る舞うなら、コンパイラは正しい。 メモリ一貫性モデルは並列プログラムのセマンティクスを定義する。 メモリモデルを用いて、コンパイラが導入した並行性バグの検出方法に焦点を当てる。 プログラムサイズの固定境界まで自動的に並列バグをカバーし、多数のコードでコンパイルされたプログラムのバグを見つけるためにスケールするテスト手法を模索する。 そうでなければ、テストテクニックはバグを見逃す可能性がある。 残念ながら、最先端の技術はこれらの特性をすべて満たしていない。 並列プログラムのためのT'el\'echatコンパイラテストツールを提案する。 t\'el\'echatは、そのアーキテクチャメモリモデルによって許されるように、コンパイルされたプログラムの振る舞いがソースモデルの下でソースプログラムの振る舞いではない場合に、並行性のバグを見つける。 t\'el\'echatはマルチスレッド実行のためのコード生成におけるバグ発見の最先端を改善し、業界にデプロイされる並行性のためのコンパイラテストツールの最初の公開記述であり、望ましいプロパティに向けて大きな一歩を踏み出した最初のツールである。 我々は、T'el\'echatが他の最先端技術に欠落したバグを発見したことを示す実験的証拠、T'el\'echatがそれらの特性を満たすことを示す事例研究、および、T'el\'echatを産業に展開した経験を報告した。

It is critical that compilers are correct! Finding bugs is one aspect of testing the correctness of compilers in wide use today. A compiler is correct if every compiled program behaves as allowed by the semantics of its source code - else there is a bug. Memory consistency models define the semantics of concurrent programs. We focus on how to detect concurrency bugs introduced by compilers, as identified using memory models. We seek a testing technique that automatically covers concurrency bugs up to fixed bounds on program sizes and that scales to find bugs in compiled programs with many lines of code. Otherwise, a testing technique can miss bugs. Unfortunately, the state-of-the-art techniques are yet to satisfy all of these properties. We present the T\'el\'echat compiler testing tool for concurrent programs. T\'el\'echat finds a concurrency bug when the behaviour of a compiled program, as allowed by its architecture memory model, is not a behaviour of the source program under its source model. We make three claims: T\'el\'echat improves the state-of-the-art at finding bugs in code generation for multi-threaded execution, it is the first public description of a compiler testing tool for concurrency that is deployed in industry, and it is the first tool that takes a significant step towards the desired properties. We provide experimental evidence suggesting T\'el\'echat finds bugs missed by other state-of-the-art techniques, case studies indicating that T\'el\'echat satisfies the properties, and reports of our experience deploying T\'el\'echat in industry.
翻訳日:2023-10-21 14:50:29 公開日:2023-10-18
# ブロックチェーン上でランダム、フェア、検証可能なゲームを構築する。 Suiネットワーク上のラッフルスマートコントラクト設計

Building Random, Fair, and Verifiable Games on Blockchain. Raffle smart contract designs on Sui Network ( http://arxiv.org/abs/2310.12305v1 )

ライセンス: Link先を確認
Eason Chen, Justa Liang, Ray Huang, Pierce Hung, Damien Chen, Ashley Hsu, Konstantinos Chalkias, Stefanos Pleros(参考訳) 現代のオンラインゲームにおいてランダム性は重要な役割を担っているが、勝利確率の正確性をめぐって論争が持ち上がり、法的問題とゲーム会社に対する財政的欠点が生じた。 幸いなことに、ブロックチェーンベースのゲームは、ランダム性に関する透明性と公平性の問題に対する解決策を提供する。 さらに、su networkのような新興のブロックチェーン技術は、非効率や高価な取引手数料といった従来のweb3障壁を排除することで、スマートコントラクトの効率を高める。 これにより、大規模な分散ゲームアプリケーションの可能性が解き放たれる。 本稿は,ブロックチェーン上での公正で検証可能な,効率的なスマートコントラクトゲームの設計に関する洞察を,Swiネットワーク上でのラッフル構築の例として提供することを目的とする。 DRAND委員会ベースの分散ランダムビーコンや,単一のプライベートキーベースの検証可能なランダム関数(VRF)など,スマートコントラクトにランダム性を実装する効率的な方法を検討する。 そして、基本から包括的なスマートコントラクト設計へと前進する。 データ入力やストレージスペースの制約など、ブロックチェーンゲーム全般の開発における制限に対処しました。 本稿では,オブジェクトテーブル,デリゲートオブジェクト生成,ゼロ知識証明(ZKP)の利用を包含して,ストレージと入力効率を最適化する対応ソリューションを提案する。 デザインをテストした結果、DRANDビーコンとプライベートキーベースのVRFの取引手数料は似ていることがわかった。 さらに、オブジェクトテーブルは全体的な取引手数料を高くし、ZKPセットアップ料金は安く、検証プロセス中に非常に高価になる。 さらに、異なるスマートコントラクト実装の長所と短所を比較して、異なるアプリケーションシナリオに適した設計を特定した。 我々の発見は、スマートコントラクトでランダムで公正で検証可能なゲームを構築するための、将来の研究者や開発者にとって貴重なガイダンスを提供する。

Randomness plays a pivotal role in modern online gaming, but disputes have arisen over the accuracy of stated winning chances, resulting in legal issues and financial setbacks for gaming companies. Fortunately, blockchain-based games offer a solution to the transparency and fairness issue regarding randomness. Furthermore, emerging blockchain technology like Sui Network enhances the efficiency of smart contracts by eliminating traditional web3 barriers, such as inefficiencies and expensive transaction fees. This unlocks the potential for extensive decentralized gaming applications. This paper aims to provide insights into designing a fair, verifiable, and efficient smart contract game on blockchain by the example of building raffles on the Sui Network. We explore efficient methods for implementing randomness on smart contracts, including DRAND committee-based decentralized random beacons and single private-key-based verifiable random functions (VRF). Then, progress from basic to comprehensive smart contract design. We addressed limitations in developing blockchain games in general, such as data input and storage space constraints. We propose corresponding solutions, encompassing the utilization of Object Tables, Delegate Object Creation, and Zero-Knowledge Proofs (ZKP) to optimize storage and input efficiency. After testing our designs, we found that the transaction fees for DRAND beacons and private-key-based VRFs are similar. Moreover, Object Tables incur higher overall transaction fees, while the ZKP setup fee is cheap but becomes very expensive during the verification process. Moreover, we identified suitable designs for different application scenarios by comparing the pros and cons of different smart contract implementations. Our findings provide valuable guidance for future researchers and developers in building random, fair, and verifiable games with smart contracts.
翻訳日:2023-10-21 14:50:02 公開日:2023-10-18
# ジャストインタイムソフトウェア欠陥予測のための不均衡データの深いインクリメンタル学習

Deep Incremental Learning of Imbalanced Data for Just-In-Time Software Defect Prediction ( http://arxiv.org/abs/2310.12289v1 )

ライセンス: Link先を確認
Yunhua Zhao, Hui Chen(参考訳) この研究は、Just-In-Time Software Defect Prediction (JIT-SDP)モデルに関する3つの観測から生まれた。 まず,JIT-SDP問題を分類問題として扱う。 第二に、JIT-SDP 以前の研究では、クラスバランス処理がソフトウェア変更セットデータの基盤となる特性を変えるとは考えていない。 第三に、単一の概念ドリフトのみ、クラス不均衡進化は、以前のjit-sdpインクリメンタル学習モデルで対処される。 JIT-SDPのためのCPI-JITと呼ばれる漸進的な学習フレームワークを提案する。 まず、分類モデリングコンポーネントに加えて、このフレームワークは、変更セットの時間的相互依存関係を学習するために、時系列予測モデリングコンポーネントを含む。 第二に、このフレームワークはSMOTEとSMOTE-PCと呼ばれるPrincipal Curvesに基づく、目的的に設計されたオーバーサンプリングバランス技術を備えている。 SMOTE-PCはソフトウェアチェンジセットデータの基本的な分布を保存する。 本稿では,DeepICPと呼ばれるインクリメンタルディープニューラルネットワークモデルを提案する。 numprojsソフトウェアプロジェクトを用いた評価では、次のように示します。 1) SMOTE-PC はモデルの予測性能を改善する。 2)一部のソフトウェアプロジェクトには,ソフトウェア変更セットの時間的相互依存関係を利用する欠陥予測が有用である。 3)主曲線は変更点データの分布を要約し,DeepICPモデルが適応するために提案される新たな概念ドリフトの源を明らかにする。

This work stems from three observations on prior Just-In-Time Software Defect Prediction (JIT-SDP) models. First, prior studies treat the JIT-SDP problem solely as a classification problem. Second, prior JIT-SDP studies do not consider that class balancing processing may change the underlying characteristics of software changeset data. Third, only a single source of concept drift, the class imbalance evolution is addressed in prior JIT-SDP incremental learning models. We propose an incremental learning framework called CPI-JIT for JIT-SDP. First, in addition to a classification modeling component, the framework includes a time-series forecast modeling component in order to learn temporal interdependent relationship in the changesets. Second, the framework features a purposefully designed over-sampling balancing technique based on SMOTE and Principal Curves called SMOTE-PC. SMOTE-PC preserves the underlying distribution of software changeset data. In this framework, we propose an incremental deep neural network model called DeepICP. Via an evaluation using \numprojs software projects, we show that: 1) SMOTE-PC improves the model's predictive performance; 2) to some software projects it can be beneficial for defect prediction to harness temporal interdependent relationship of software changesets; and 3) principal curves summarize the underlying distribution of changeset data and reveals a new source of concept drift that the DeepICP model is proposed to adapt to.
翻訳日:2023-10-21 14:49:35 公開日:2023-10-18
# フラックス試験における計算資源の影響

The Effects of Computational Resources on Flaky Tests ( http://arxiv.org/abs/2310.12132v1 )

ライセンス: Link先を確認
Denini Silva, Martin Gruber, Satyajit Gokhale, Ellen Arteca, Alexi Turcotte, Marcelo d'Amorim, Wing Lam, Stefan Winter, and Jonathan Bell(参考訳) flakyテストは非決定論的にパスし、変更のないコードで失敗するテストである。 これらのテストは開発者の生産性を損なう可能性がある。 特にテストが継続的インテグレーション環境で実行される場合、テストは限られた計算リソース(cpu、メモリなど)にアクセスするために競合する可能性がある。 我々は,java,javascript,pythonで書かれた52のプロジェクトと27の異なるリソース構成を含む,計算資源が不安定なテストに与える影響について,最初の評価を行う。 厳密な統計手法を用いて、どのテストがRAFT(Resource-Affected Flaky Tests)であるかを決定する。 データセットのフレキテストの46.5%がRAFTであり、テスト実行時に利用可能なリソースを調整することで、フレキテストの失敗のかなりの割合を回避することができることを示す。 我々は、RAFTや構成を開発者に報告し、RAFTの修正やプロジェクトの仕様の改善に関心を寄せ、RAFTの障害に遭遇しそうもない構成でのみテストを実行するようにしました。 この結果は、例えば、テストの実行時に利用可能なリソースを減らすことは、より不安定な障害を検出するためのコスト効率のよいアプローチである。

Flaky tests are tests that nondeterministically pass and fail in unchanged code. These tests can be detrimental to developers' productivity. Particularly when tests run in continuous integration environments, the tests may be competing for access to limited computational resources (CPUs, memory etc.), and we hypothesize that resource (in)availability may be a significant factor in the failure rate of flaky tests. We present the first assessment of the impact that computational resources have on flaky tests, including a total of 52 projects written in Java, JavaScript and Python, and 27 different resource configurations. Using a rigorous statistical methodology, we determine which tests are RAFT (Resource-Affected Flaky Tests). We find that 46.5% of the flaky tests in our dataset are RAFT, indicating that a substantial proportion of flaky-test failures can be avoided by adjusting the resources available when running tests. We report RAFTs and configurations to avoid them to developers, and received interest to either fix the RAFTs or to improve the specifications of the projects so that tests would be run only in configurations that are unlikely to encounter RAFT failures. Our results also have implications for researchers attempting to detect flaky tests, e.g., reducing the resources available when running tests is a cost-effective approach to detect more flaky failures.
翻訳日:2023-10-21 14:49:12 公開日:2023-10-18
# 現実世界のRustプロジェクトでClippyのパワーを解放する

Unleashing the Power of Clippy in Real-World Rust Projects ( http://arxiv.org/abs/2310.11738v1 )

ライセンス: Link先を確認
Chunmiao Li, Yijun Yu, Haitao Wu, Luca Carlig, Shijie Nie, Lingxiao Jiang(参考訳) 継続的インテグレーション中にrustプロジェクトのゲートキーピングルールとして設定できるため、clippy lintsはrust開発者にとって必須のツールだと考えられている。 利用可能であったにもかかわらず、コード品質の問題を減らすための実用的応用とコスト効率についてはほとんど知られていない。 本研究では,Rust開発環境におけるClippy lintsの本当の影響を明らかにするために,包括的解析を行った。 この研究は、Clippyの全体的な効果に寄与する3つの相互関連成分を中心に構成されている。 まず,Clippy lintsを,平均警告密度が21/KLOCのすべての慣用クレート-io Rustプロジェクトで包括的に分析する。 この分析は最もコスト効率のよいlint修正を特定し、コード品質を最適化する貴重な機会を提供する。 第2に,ユーザ調査を通じてRust開発者を積極的に関与して,Clippyでの経験に対する貴重なフィードバックを得ています。 警告における偽陽性の発生と、ほとんどの警告に対する自動修正サポートの必要性である。 第3に,これらに基づく3つの革新的な自動リファクタリング手法を考案し,最も頻繁な4つのクリップトを効果的に修正した。 その結果、Rosttaベンチマークの警告密度は195/KLOCから18/KLOCに大幅に低下し、Crates-io Rustプロジェクトの平均密度よりもすでに低い。 これらの結果は,Rust開発者の全体的なコード品質とメンテナンス性の向上に対する当社の取り組みの明確なメリットと影響を示しています。

Clippy lints are considered as essential tools for Rust developers, as they can be configured as gate-keeping rules for a Rust project during continuous integration. Despite their availability, little was known about practical application and cost-effectiveness of the lints in reducing code quality issues. In this study, we embark on a comprehensive analysis to unveil the true impact of Clippy lints in the Rust development landscape. The study is structured around three interrelated components, each contributing to the overall effectiveness of Clippy. Firstly, we conduct a comprehensive analysis of Clippy lints in all idiomatic crates-io Rust projects with an average warning density of 21/KLOC. The analysis identifies the most cost-effective lint fixes, offering valuable opportunities for optimizing code quality. Secondly, we actively engage Rust developers through a user survey to garner invaluable feedback on their experiences with Clippy. User insights shed light on two crucial concerns: the prevalence of false positives in warnings and the need for auto-fix support for most warnings. Thirdly, building upon these findings, we engineer three innovative automated refactoring techniques to effectively fix the four most frequent Clippy lints. As a result, the warning density in Rosetta benchmarks has significantly decreased from 195/KLOC to an impressive 18/KLOC, already lower than the average density of the crates-io Rust projects. These results demonstrate tangible benefit and impact of our efforts in enhancing the overall code quality and maintainability for Rust developers.
翻訳日:2023-10-21 14:48:52 公開日:2023-10-18
# 線形しきい値アクティベーションを持つニューラルネットワーク:構造とアルゴリズム

Neural networks with linear threshold activations: structure and algorithms ( http://arxiv.org/abs/2111.08117v4 )

ライセンス: Link先を確認
Sammy Khalife, Hongyu Cheng, Amitabh Basu(参考訳) 本稿では,線形しきい値アクティベーション関数を有するニューラルネットワークに関する新しい結果を示す。 このようなニューラルネットワークで表現可能な関数のクラスを正確に特徴付け、クラス内で表現可能な関数を表現するのに2つの隠蔽層が必要であることを示す。 これは、修正線形ユニット(ReLU)のような他の一般的なアクティベーション機能を用いたニューラルネットワークの最近の正確な表現可能性調査の光による驚くべき結果である。 また、クラス内の任意の関数を表現するのに必要なニューラルネットワークのサイズに関する正確な境界も与えます。 最後に,これらのニューラルネットワークのグローバル最適性に対するerm(experience risk minimization)問題を解決するアルゴリズムを設計した。 アルゴリズムの実行時間は、入力次元とネットワークアーキテクチャのサイズが固定定数である場合、データサンプルのサイズで多項式となる。 このアルゴリズムは、複数の層を持つ任意のアーキテクチャで機能するという意味ではユニークであるが、以前の多項式時間のグローバル最適アルゴリズムは、非常に制限されたアーキテクチャクラスでのみ動作する。 これらの知見を用いて,ショートカット線形しきい値ネットワークと呼ぶニューラルネットワークの新たなクラスを提案する。 我々の知る限りでは、このニューラルネットワークの設計方法は文献ではこれまで研究されていない。 これらのニューラルネットワークはいくつかの望ましい理論的特性を持つことを示す。

In this article we present new results on neural networks with linear threshold activation functions. We precisely characterize the class of functions that are representable by such neural networks and show that 2 hidden layers are necessary and sufficient to represent any function representable in the class. This is a surprising result in the light of recent exact representability investigations for neural networks using other popular activation functions like rectified linear units (ReLU). We also give precise bounds on the sizes of the neural networks required to represent any function in the class. Finally, we design an algorithm to solve the empirical risk minimization (ERM) problem to global optimality for these neural networks with a fixed architecture. The algorithm's running time is polynomial in the size of the data sample, if the input dimension and the size of the network architecture are considered fixed constants. The algorithm is unique in the sense that it works for any architecture with any number of layers, whereas previous polynomial time globally optimal algorithms work only for very restricted classes of architectures. Using these insights, we propose a new class of neural networks that we call shortcut linear threshold networks. To the best of our knowledge, this way of designing neural networks has not been explored before in the literature. We show that these neural networks have several desirable theoretical properties.
翻訳日:2023-10-20 21:39:04 公開日:2023-10-18
# 四重極遷移におけるCs原子によるハイブリッドファイバーモードの吸収

Absorption of hybrid fibre modes by Cs atoms in quadrupole transitions ( http://arxiv.org/abs/2110.09963v4 )

ライセンス: Link先を確認
Smail Bougouffa and Mohamed Babiker(参考訳) 電気四極子遷移におけるCs原子による光ナノファイバーモードの吸収率を評価した。 光学ナノファイバーの外面付近に局在するcs原子では、原子四極子テンソル成分とハイブリッドファイバモードの電界のベクトル成分の勾配との間に相互作用が起こる。 吸収速度は光ファイバー軸からの原子の半径位置の関数として評価され、レーザーパワーの特定の値を想定し、実験で利用できるパラメータを用いる。 Cs原子によるハイブリッドモードの吸収は、原子が繊維軸から遠ざかるにつれて減少し、十分に大きな半径距離で正式に消滅する。 しかし、ファイバに近接して選択された入力電力の吸収速度は、適度な電力にもかかわらず、四極子脱励起速度よりも2桁大きい。

We evaluate the rate of the absorption of an optical nanofiber mode by a Cs atom in an electric quadrupole transition. With the Cs atom localized near the outer surface of the optical nano-fiber, an interaction occurs between the atomic quadrupole tensor components and the gradients of the vector components of the electric field of a hybrid fiber mode. The absorption rate is evaluated as a function of the radial position of the atom from the fiber axis, assuming a specific value of the laser power and we use experimentally accessible parameters. We find that the absorption of the hybrid modes by the Cs atom decreases as the atom recedes away from the fiber axis and formally vanishes at sufficiently large radial distances. Close to the fiber, however, the absorption rate for the input power chosen can be two orders of magnitude larger than the quadrupole de-excitation rate despite the moderate power used.
翻訳日:2023-10-20 21:38:46 公開日:2023-10-18
# out-of-distribution generalizationのためのサンプルベースのハイパーネットワーク

Example-based Hypernetworks for Out-of-Distribution Generalization ( http://arxiv.org/abs/2203.14276v3 )

ライセンス: Link先を確認
Tomer Volk, Eyal Ben-David, Ohad Amosy, Gal Chechik, Roi Reichart(参考訳) 自然言語処理(NLP)アルゴリズムは新しいマイルストーンを継続的に達成しているため、分布外一般化は依然として大きな課題である。 本稿では、複数のソースドメインからのラベル付きデータを活用し、トレーニング時に未知のターゲットドメインに一般化する。 T5エンコーダデコーダは、最初に入力例からユニークなシグネチャを生成し、ソースドメインのセマンティック空間に埋め込む。 このシグネチャはその後Hypernetworkによってタスク分類器の重みを生成するために利用される。 我々は,29の適応シナリオにおいて,感情分類と自然言語推論という2つのタスクにまたがる手法の評価を行った。 高度なバージョンでは、シグネチャは入力例の表現も豊かにする。 また,精巧なアーキテクチャを数ショットのGPT-3と比較し,本質的なユースケースでの有効性を示した。 我々の知る限り、これは未知のドメインへの適応に対するHypernetworksの初めての応用である。

As Natural Language Processing (NLP) algorithms continually achieve new milestones, out-of-distribution generalization remains a significant challenge. This paper addresses the issue of multi-source adaptation for unfamiliar domains: We leverage labeled data from multiple source domains to generalize to unknown target domains at training. Our innovative framework employs example-based Hypernetwork adaptation: a T5 encoder-decoder initially generates a unique signature from an input example, embedding it within the source domains' semantic space. This signature is subsequently utilized by a Hypernetwork to generate the task classifier's weights. We evaluated our method across two tasks - sentiment classification and natural language inference - in 29 adaptation scenarios, where it outpaced established algorithms. In an advanced version, the signature also enriches the input example's representation. We also compare our finetuned architecture to few-shot GPT-3, demonstrating its effectiveness in essential use cases. To our knowledge, this marks the first application of Hypernetworks to the adaptation for unknown domains.
翻訳日:2023-10-20 21:32:28 公開日:2023-10-18
# 計算最適化ニューラルスケーリング則の情報理論解析

An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws ( http://arxiv.org/abs/2212.01365v2 )

ライセンス: Link先を確認
Hong Jun Jeon, Benjamin Van Roy(参考訳) 大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。 以上の結果から,チンチラの実験的解析が支持する線形関係が示唆された。 その研究は、MassiveText corpus gopherで訓練されたトランスフォーマーベースの大規模言語モデルの研究であるが、数学的理論の発展の出発点として、シグモダル出力ユニットとReLUアクティベーションユニットの単一の隠蔽層を持つニューラルネットワークに基づく、より単純な学習モデルとデータ生成プロセスに焦点を当てる。 統計量(勾配降下など)を漸進的に更新するアルゴリズムのクラスに対する一般的な誤差上限を導入する。 バロン1993にインスパイアされた特定の学習モデルに対し、モデルとデータセットのサイズの関数として最小の情報理論上達成可能な予測誤差の上限を確立する。 そして、この境界を最小化する計算の割り当てを導出する。 本稿では,この近似が漸近線形計算-最適スケーリングを正しく同定することを示す実験結果を示す。 この近似も新たな洞察を生み出す。 例えば、入力次元や潜時空間の複雑さが増大するにつれて、例えば、トークンの長い歴史を言語モデルへの入力として捉えた場合には、データではなく学習モデルの成長のために計算予算の大部分を割り当てるべきである。

We study the compute-optimal trade-off between model and training data set sizes for large neural networks. Our result suggests a linear relation similar to that supported by the empirical analysis of chinchilla. While that work studies transformer-based large language models trained on the MassiveText corpus gopher, as a starting point for development of a mathematical theory, we focus on a simpler learning model and data generating process, each based on a neural network with a sigmoidal output unit and single hidden layer of ReLU activation units. We introduce general error upper bounds for a class of algorithms which incrementally update a statistic (for example gradient descent). For a particular learning model inspired by barron 1993, we establish an upper bound on the minimal information-theoretically achievable expected error as a function of model and data set sizes. We then derive allocations of computation that minimize this bound. We present empirical results which suggest that this approximation correctly identifies an asymptotic linear compute-optimal scaling. This approximation also generates new insights. Among other things, it suggests that, as the input dimension or latent space complexity grows, as might be the case for example if a longer history of tokens is taken as input to a language model, a larger fraction of the compute budget should be allocated to growing the learning model rather than training data.
翻訳日:2023-10-20 21:23:51 公開日:2023-10-18
# 脳信号は人間の言語に内在するのだろうか?

Can Brain Signals Reveal Inner Alignment with Human Languages? ( http://arxiv.org/abs/2208.06348v4 )

ライセンス: Link先を確認
William Han, Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Douglas Weber, Bo Li, Ding Zhao(参考訳) 脳波(EEG)やヒト言語などの脳信号は、多くの下流タスクにおいて独立して研究されてきたが、それらの関連性はよく研究されていない。 本研究では,脳波と言語の関係と依存性について検討する。 表現レベルでの研究のために, 2つのモード間の協調表現を観測するために, a \textbf{M}ultimodal \textbf{T}ransformer \textbf{A}lignment \textbf{M}odelを導入した。 そこで我々は,Canonical correlation Analysis や Wasserstein Distance など,多種多様なアライメント探索手法を特徴量の損失関数として用いた。 下流アプリケーション,感情分析,関係検出において,zucoとk-emoconの2つのデータセットで最新の結果を得た。 本手法は,K-EmoConが1.7%,感情分析がZucoデータセットが9.3%,関係検出がZuCoが7.4%,F1スコア改善が達成された。 特徴分布は脳波と言語の関係を発見・符号化するためのアライメントモジュールの有効性を示し,(2)アライメント重みは脳波の周波数特性だけでなく言語意味の影響も示し,(3)脳地形図は脳領域の接続性について直感的に示す。 我々のコードは \url{https://github.com/Jason-Qiu/EEG_Language_Alignment} で利用可能です。

Brain Signals, such as Electroencephalography (EEG), and human languages have been widely explored independently for many downstream tasks, however, the connection between them has not been well explored. In this study, we explore the relationship and dependency between EEG and language. To study at the representation level, we introduced \textbf{MTAM}, a \textbf{M}ultimodal \textbf{T}ransformer \textbf{A}lignment \textbf{M}odel, to observe coordinated representations between the two modalities. We used various relationship alignment-seeking techniques, such as Canonical Correlation Analysis and Wasserstein Distance, as loss functions to transfigure features. On downstream applications, sentiment analysis and relation detection, we achieved new state-of-the-art results on two datasets, ZuCo and K-EmoCon. Our method achieved an F1-score improvement of 1.7% on K-EmoCon and 9.3% on Zuco datasets for sentiment analysis, and 7.4% on ZuCo for relation detection. In addition, we provide interpretations of the performance improvement: (1) feature distribution shows the effectiveness of the alignment module for discovering and encoding the relationship between EEG and language; (2) alignment weights show the influence of different language semantics as well as EEG frequency features; (3) brain topographical maps provide an intuitive demonstration of the connectivity in the brain regions. Our code is available at \url{https://github.com/Jason-Qiu/EEG_Language_Alignment}.
翻訳日:2023-10-20 21:21:54 公開日:2023-10-18
# 畳み込みニューラルネットワークを用いたNEXRADコロケーションからのSentinel-1観測学習の降雨状態セグメンテーション

Rain regime segmentation of Sentinel-1 observation learning from NEXRAD collocations with Convolution Neural Networks ( http://arxiv.org/abs/2207.07333v3 )

ライセンス: Link先を確認
Aur\'elien Colin (1,2) and Pierre Tandeo (1) and Charles Peureux (2) and Romain Husson (2) and Nicolas Long\'ep\'e (3) and Ronan Fablet (1) ((1) IMT Atlantique, Lab-STICC, UMR CNRS, France, (2) Collecte Localisation Satellites, Brest, France, (3) Phi-lab Explore Office, ESRIN, European Space Agency (ESA), Frascati, Italy)(参考訳) 降雨イベントのリモートセンシングは、例えば天気予報、極端な洪水緩和、水循環モニタリングなど、運用と科学の両方のニーズに対して重要である。 NOAAの次世代レーダー(NEXRAD)のような地上の気象レーダーは、降雨の反射率と降雨量の推定を提供する。 しかし、その観測範囲は数百kmに限られており、特に陸地レーダーで覆われていない広大な地域を表わす他のリモートセンシング手法の探査が進められている。 本稿では,降雨状況の観点から,SAR観測を3段階に区分する深層学習手法を提案する。 SAR衛星は地球規模で非常に高解像度の観測を行う。 これは特に、数キロの特徴的なスケールを持つ対流性細胞に関連するような、降雨に関連する微細なパターンを知らせるのに魅力的である。 本研究では,sentinel-1/nexradデータセットをコロケートした畳み込みニューラルネットワークが,kochフィルタなどの最先端フィルタリングスキームを明らかに上回っていることを示す。 以上の結果から, 降水量は24.7, 31.5, 38.8dBZで, 降水条件下では高い性能を示した。 コッホのフィルタによる二値降雨図の描画法と比較すると、これらの多閾値学習に基づくモデルは降雨推定を提供することができる。 降雨によって劣化する高分解能sar由来の風場の改善に関心があり、雨細胞の研究のための追加のツールを提供する。

Remote sensing of rainfall events is critical for both operational and scientific needs, including for example weather forecasting, extreme flood mitigation, water cycle monitoring, etc. Ground-based weather radars, such as NOAA's Next-Generation Radar (NEXRAD), provide reflectivity and precipitation estimates of rainfall events. However, their observation range is limited to a few hundred kilometers, prompting the exploration of other remote sensing methods, particularly over the open ocean, that represents large areas not covered by land-based radars. Here we propose a deep learning approach to deliver a three-class segmentation of SAR observations in terms of rainfall regimes. SAR satellites deliver very high resolution observations with a global coverage. This seems particularly appealing to inform fine-scale rain-related patterns, such as those associated with convective cells with characteristic scales of a few kilometers. We demonstrate that a convolutional neural network trained on a collocated Sentinel-1/NEXRAD dataset clearly outperforms state-of-the-art filtering schemes such as the Koch's filters. Our results indicate high performance in segmenting precipitation regimes, delineated by thresholds at 24.7, 31.5, and 38.8 dBZ. Compared to current methods that rely on Koch's filters to draw binary rainfall maps, these multi-threshold learning-based models can provide rainfall estimation. They may be of interest in improving high-resolution SAR-derived wind fields, which are degraded by rainfall, and provide an additional tool for the study of rain cells.
翻訳日:2023-10-20 21:21:24 公開日:2023-10-18
# qubitリサイクルとパスカウント問題

Qubit recycling and the path counting problem ( http://arxiv.org/abs/2301.03725v2 )

ライセンス: Link先を確認
Zijian Song, Isaac H. Kim(参考訳) 最近では、畳み込み形 (Matrix Product State Sand Multi-scale Entanglement Renormalization Ansatz) の回路で使われるキューディットが、測定なしでも、単位的に \href{https://doi.org/10.1103/PhysRevA.103.042613}{[Phys. Rev. A 103, 042613 (2021)] をリセットできることが示されている。 このような回路と局所量子回路の間を補間する量子回路群に対するこのプロトコルの忠実度を、ハールランダムゲート上で平均的に解析する。 この問題と、量子回路の形状によって決定されるグラフ上の有向経路の計数との接続を確立する。 この接続は、畳み込み回路とランダム量子回路の間を補間するファミリー全体のプロトコルの忠実さの正確な表現をもたらす。 一定の窓の大きさの畳み込み回路の場合、単位忠実度への収束速度は$\frac{q^2}{q^2+1}$で、窓の大きさとは独立であり、$q$は局所的なクウディ次元である。 畳み込み回路のほとんどのアプリケーションは定サイズの窓を使用するため、この方式ではユニタリリセットプロトコルがうまく機能する可能性が示唆された。 また、独立利害関係にあるかもしれない、畳み込み制限の2つの追加結果も導き出します。 まず、リセットクォーディット間の相関関係の正確な式を導出し、距離で指数関数的に減衰することを示す。 第二に、ノイズの存在下での忠実度を表す表現を、絡み合いの忠実度などのチャネルの性質を定義する量の観点から導出する。

Recently, it was shown that the qudits used in circuits of a convolutional form (e.g., Matrix Product State sand Multi-scale Entanglement Renormalization Ansatz) can be reset unitarily \href{https://doi.org/10.1103/PhysRevA.103.042613}{[Phys. Rev. A 103, 042613 (2021)]}, even without measurement. We analyze the fidelity of this protocol for a family of quantum circuits that interpolates between such circuits and local quantum circuits, averaged over Haar-random gates. We establish a connection between this problem and a counting of directed paths on a graph, which is determined by the shape of the quantum circuit. This connection leads to an exact expression for the fidelity of the protocol for the entire family that interpolates between convolutional circuit and random quantum circuit. For convolutional circuits of constant window size, the rate of convergence to unit fidelity is shown to be $\frac{q^2}{q^2+1}$, independent of the window size, where $q$ is the local qudit dimension. Since most applications of convolutional circuits use constant-sized windows, our result suggests that the unitary reset protocol will likely work well in such a regime. We also derive two extra results in the convolutional limit, which may be of an independent interest. First, we derive exact expressions for the correlations between reset qudits and show that it decays exponentially in the distance. Second, we derive an expression for the the fidelity in the presence of noise, expressed in terms of the quantities that define the property of the channel, such as the entanglement fidelity.
翻訳日:2023-10-20 21:01:20 公開日:2023-10-18
# 離散自己監督単位を用いた波形領域の話し方変換

Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units ( http://arxiv.org/abs/2212.09730v2 )

ライセンス: Link先を確認
Gallil Maimon, Yossi Adi(参考訳) 本稿では,録音のリズム,ピッチ輪郭,音色をテキスト無しで対象話者に変換する,新しい軽量手法であるdisscを提案する。 DISSCとは異なり、ほとんどの音声変換(VC)手法は主に音色に焦点を当て、人々の独特の話し方(韻律)を無視している。 提案手法は、音声を離散単位に符号化するために事前訓練された自己教師付きモデルを用いる。 すべての変換モジュールはタスクのような再構築でのみトレーニングされるため、ペア化されたデータを持たないVCには適しています。 本研究では,この設定のための定量的,定性的な評価指標のセットを導入し,disSCが評価基準線を著しく上回ることを示す。 コードとサンプルはhttps://pages.cs.huji.ac.il/adiyoss-lab/dissc/で入手できる。

We introduce DISSC, a novel, lightweight method that converts the rhythm, pitch contour and timbre of a recording to a target speaker in a textless manner. Unlike DISSC, most voice conversion (VC) methods focus primarily on timbre, and ignore people's unique speaking style (prosody). The proposed approach uses a pretrained, self-supervised model for encoding speech to discrete units, which makes it simple, effective, and fast to train. All conversion modules are only trained on reconstruction like tasks, thus suitable for any-to-many VC with no paired data. We introduce a suite of quantitative and qualitative evaluation metrics for this setup, and empirically demonstrate that DISSC significantly outperforms the evaluated baselines. Code and samples are available at https://pages.cs.huji.ac.il/adiyoss-lab/dissc/.
翻訳日:2023-10-20 21:00:20 公開日:2023-10-18
# 畳み込みニューラルネットワークを用いたSAR観測における降雨による風速推定誤差の低減

Reduction of rain-induced errors for wind speed estimation on SAR observations using convolutional neural networks ( http://arxiv.org/abs/2303.09200v2 )

ライセンス: Link先を確認
Aur\'elien Colin (1, 2) and Pierre Tandeo (1, 3) and Charles Peureux (2) and Romain Husson (2) and Ronan Fablet (1, 3) ((1) IMT Atlantique, Lab-STICC, UMR CNRS 6285, F-29238, France, (2) Collecte Localisation Satellites, Brest, France, (3) Odyssey, Inria/IMT, France)(参考訳) 合成開口レーダは表面風速を高精度に推定できることが知られている。 これらの推定は通常、降雨などの風ではない過程を計算できない地球物理モデル関数(gmf)に依存する。 一方、畳み込みニューラルネットワークは、文脈情報を使用する能力を持ち、降雨地域を制限できる能力を示している。 Copernicus Sentinel-1ミッションから得られた大規模なSAR観測データセットをGMFと大気モデル風速、および降雨推定と組み合わせることで、降雨時の誤差を低減した風速推定器を訓練することができた。 ブイから観測された風速測定によるコロケーションは,1 mm/h以上 (3 mm/h) と推定される降雨時に27% (45%) 減少する根平均二乗誤差を示す。 これらの結果は,sar製品における雨関連誤差を補正する深層学習モデルの能力を示す。

Synthetic Aperture Radar is known to be able to provide high-resolution estimates of surface wind speed. These estimates usually rely on a Geophysical Model Function (GMF) that has difficulties accounting for non-wind processes such as rain events. Convolutional neural network, on the other hand, have the capacity to use contextual information and have demonstrated their ability to delimit rainfall areas. By carefully building a large dataset of SAR observations from the Copernicus Sentinel-1 mission, collocated with both GMF and atmospheric model wind speeds as well as rainfall estimates, we were able to train a wind speed estimator with reduced errors under rain. Collocations with in-situ wind speed measurements from buoys show a root mean square error that is reduced by 27% (resp. 45%) under rainfall estimated at more than 1 mm/h (resp. 3 mm/h). These results demonstrate the capacity of deep learning models to correct rain-related errors in SAR products.
翻訳日:2023-10-20 20:52:17 公開日:2023-10-18
# コントラスト学習型視覚言語モデルのテスト時間分布正規化

Test-Time Distribution Normalization for Contrastively Learned Vision-language Models ( http://arxiv.org/abs/2302.11084v2 )

ライセンス: Link先を確認
Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim(参考訳) 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。 CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。 CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。 本稿では,ドット積を取ることの共通する下流慣行が最適化目標の0次近似に過ぎず,テスト中に情報が失われることを明らかにする。 直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャもアライメントされるべきである。 問題は、計算効率のよい方法で推論中に負のサンプル情報の類似性を取得する方法にある。 そこで,本研究では分散正規化 (dn) を提案する。ここではテストサンプルのバッチの平均表現を近似し,その平均を用いて情報損失における負のサンプルと類似するものを表現する。 DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。 さまざまなダウンストリームタスクに対する大規模な実験は、既存のテスト時間拡張メソッドに加えて、ドット製品よりもDNの明確な優位性を示している。

Advances in the field of vision-language contrastive learning have made it possible for many downstream applications to be carried out efficiently and accurately by simply taking the dot product between image and text representations. One of the most representative approaches proposed recently known as CLIP has garnered widespread adoption due to its effectiveness. CLIP is trained with an InfoNCE loss that takes into account both positive and negative samples to help learn a much more robust representation space. This paper reveals that the common downstream practice of taking a dot product is only a zeroth-order approximation of the optimization goal, resulting in a loss of information during test-time. Intuitively, since the model has been optimized based on the InfoNCE loss, test-time procedures should also be in alignment. The question lies in how one can retrieve any semblance of negative samples information during inference in a computationally efficient way. To this end, we propose Distribution Normalization (DN), where we approximate the mean representation of a batch of test samples and use such a mean to represent what would be analogous to negative samples in the InfoNCE loss. DN requires no retraining or fine-tuning and can be effortlessly applied during inference. Extensive experiments on a wide variety of downstream tasks exhibit a clear advantage of DN over the dot product on top of other existing test-time augmentation methods.
翻訳日:2023-10-20 20:51:37 公開日:2023-10-18
# フェデレーション学習のためのワンショット経験的プライバシー推定

One-shot Empirical Privacy Estimation for Federated Learning ( http://arxiv.org/abs/2302.03098v4 )

ライセンス: Link先を確認
Galen Andrew, Peter Kairouz, Sewoong Oh, Alina Oprea, H. Brendan McMahan and Vinith Suriyakumar(参考訳) 差分プライベート(DP)アルゴリズムのプライバシ推定手法は、解析的境界との比較や、既知の解析的境界が厳密でない環境でのプライバシー損失を実証的に測定するのに有用である。 しかしながら、既存のプライバシ監査技術は、通常、敵に対して強い仮定(例えば、中間モデルイテレートの知識やトレーニングデータ分布)を行い、特定のタスク、モデルアーキテクチャ、DPアルゴリズムに適合し、また/または何回もモデルを再訓練する必要がある。 これらの欠点は,特にモデルトレーニングに数日ないし数週間を要する,フェデレートされた環境では,そのようなテクニックを実践的に大規模に展開することが難しくなる。 本研究では,これらの課題を体系的に解決し,モデルパラメータに適合する単一トレーニング実行と,モデルアーキテクチャやタスク,DPトレーニングアルゴリズムに関する事前知識を必要とせず,モデルのプライバシ損失の効率的な監査や推定を可能にする,新しい‘one-shot’アプローチを提案する。 提案手法は,ガウス機構下でのプライバシ損失を正当に推定し,複数の脅威モデルの下で確立されたFLベンチマークデータセットの性能を示す。

Privacy estimation techniques for differentially private (DP) algorithms are useful for comparing against analytical bounds, or to empirically measure privacy loss in settings where known analytical bounds are not tight. However, existing privacy auditing techniques usually make strong assumptions on the adversary (e.g., knowledge of intermediate model iterates or the training data distribution), are tailored to specific tasks, model architectures, or DP algorithm, and/or require retraining the model many times (typically on the order of thousands). These shortcomings make deploying such techniques at scale difficult in practice, especially in federated settings where model training can take days or weeks. In this work, we present a novel ``one-shot'' approach that can systematically address these challenges, allowing efficient auditing or estimation of the privacy loss of a model during the same, single training run used to fit model parameters, and without requiring any a priori knowledge about the model architecture, task, or DP training algorithm. We show that our method provides provably correct estimates for the privacy loss under the Gaussian mechanism, and we demonstrate its performance on well-established FL benchmark datasets under several adversarial threat models.
翻訳日:2023-10-20 20:50:38 公開日:2023-10-18
# FactKB: ファクト知識で強化された言語モデルを用いた一般化可能なファクチュアリティ評価

FactKB: Generalizable Factuality Evaluation using Language Models Enhanced with Factual Knowledge ( http://arxiv.org/abs/2305.08281v2 )

ライセンス: Link先を確認
Shangbin Feng, Vidhisha Balachandran, Yuyang Bai, Yulia Tsvetkov(参考訳) 自動生成された要約の事実整合性を評価することは、信頼できる要約システムの進展と導入に不可欠である。 近年の進歩にもかかわらず、既存の事実性評価モデルは頑健ではなく、特に新しいドメインにおけるエンティティと関係エラーの傾向が強い。 我々はfactkbを提案する。factuality evaluationに対する単純な新しいアプローチで、特にエンティティやリレーションに関して、ドメイン間で一般化できる。 FactKBは、外部知識ベースから抽出された事実を用いて事前訓練された言語モデルに基づいている。 本稿では,直接実体事実に基づく相補的事実学習目標,実体に関する補助知識に基づく事実,知識ベースウォークによる構成的事実の3種類の相補的事実学習目標について紹介する。 結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。 FactKBのさらなる分析は、要約における誤った実体や関係を検出する能力が改善され、ドメイン間で堅牢で一般化可能であることを示している。

Evaluating the factual consistency of automatically generated summaries is essential for the progress and adoption of reliable summarization systems. Despite recent advances, existing factuality evaluation models are not robust, being especially prone to entity and relation errors in new domains. We propose FactKB, a simple new approach to factuality evaluation that is generalizable across domains, in particular with respect to entities and relations. FactKB is based on language models pretrained using facts extracted from external knowledge bases. We introduce three types of complementary factuality pretraining objectives based on direct entity facts, facts grounded in auxiliary knowledge about entities, and facts constructed compositionally through knowledge base walks. The resulting factuality evaluation model achieves state-of-the-art performance on two in-domain news summarization benchmarks as well as on three out-of-domain scientific literature datasets. Further analysis of FactKB shows improved ability to detect erroneous entities and relations in summaries and is robust and generalizable across domains.
翻訳日:2023-10-20 20:32:24 公開日:2023-10-18
# 最寄り探索表現によるコードモデルへのブラックボックス攻撃

A Black-Box Attack on Code Models via Representation Nearest Neighbor Search ( http://arxiv.org/abs/2305.05896v3 )

ライセンス: Link先を確認
Jie Zhang, Wei Ma, Qiang Hu, Shangqing Liu, Xiaofei Xie, Yves Le Traon, Yang Liu(参考訳) 既存の逆コードの生成方法は、置換変数の可利用性の制限、置換変数の高い検証コスト、顕著な摂動を伴う逆コードの作成など、いくつかの課題に直面している。 これらの問題に対処するため、提案手法であるRNNSは、過去の攻撃に基づく探索種を用いて、潜在的な敵の代替品を見つける。 離散代用体を直接使用するのではなく、事前訓練された変数名エンコーダを用いて連続ベクトル空間にマッピングされる。 ベクトル表現に基づいて、RNNSは攻撃のより良い代用を予測し、選択する。 我々は、Java、Python、Cの3つのプログラミング言語を含む6つのコーディングタスク(CodeBERT、GraphCodeBERT、CodeT5)のパフォーマンスを評価した。 その結果, RNNS は ASR と QT の点でベースラインよりも優れていた。 さらに、RNNSによって導入された逆例の摂動は、置換された変数の数や変数長の変化の基準線よりも小さい。 最後に, RNNSは防御モデルに対する攻撃に有効であり, 敵の訓練に使用できることを示す。

Existing methods for generating adversarial code examples face several challenges: limted availability of substitute variables, high verification costs for these substitutes, and the creation of adversarial samples with noticeable perturbations. To address these concerns, our proposed approach, RNNS, uses a search seed based on historical attacks to find potential adversarial substitutes. Rather than directly using the discrete substitutes, they are mapped to a continuous vector space using a pre-trained variable name encoder. Based on the vector representation, RNNS predicts and selects better substitutes for attacks. We evaluated the performance of RNNS across six coding tasks encompassing three programming languages: Java, Python, and C. We employed three pre-trained code models (CodeBERT, GraphCodeBERT, and CodeT5) that resulted in a cumulative of 18 victim models. The results demonstrate that RNNS outperforms baselines in terms of ASR and QT. Furthermore, the perturbation of adversarial examples introduced by RNNS is smaller compared to the baselines in terms of the number of replaced variables and the change in variable length. Lastly, our experiments indicate that RNNS is efficient in attacking defended models and can be employed for adversarial training.
翻訳日:2023-10-20 20:32:07 公開日:2023-10-18
# 拡散モデルのための文脈内学習

In-Context Learning Unlocked for Diffusion Models ( http://arxiv.org/abs/2305.01115v2 )

ライセンス: Link先を確認
Zhendong Wang, Yifan Jiang, Yadong Lu, Yelong Shen, Pengcheng He, Weizhu Chen, Zhangyang Wang, Mingyuan Zhou(参考訳) 本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。 画像からの奥行きや画像からのクリブルといったタスク固有のサンプル画像とテキストガイダンスとを組み合わせることで,基礎タスクを自動的に理解し,テキストガイダンスに従って新たなクエリ画像上で同じタスクを実行する。 そこで本研究では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。 拡散モデルは、これらのプロンプトを用いて6つの異なるタスクで共同で訓練される。 その結果得られたプロンプト拡散モデルは、コンテキスト内学習が可能な最初の拡散ベースの視覚言語基礎モデルである。 トレーニングされたタスクに対して高品質なインコンテキスト生成を示し、各プロンプトで新しい、目に見えない視覚タスクに効果的に一般化する。 また,本モデルではテキストガイドによる画像編集結果も提示する。 本フレームワークは,コンピュータビジョンにおけるコンテキスト内学習の促進を目的としている。 コードとトレーニング済みのモデルをhttps://github.com/zhendong-wang/prompt-diffusionで共有しています。

We present Prompt Diffusion, a framework for enabling in-context learning in diffusion-based generative models. Given a pair of task-specific example images, such as depth from/to image and scribble from/to image, and a text guidance, our model automatically understands the underlying task and performs the same task on a new query image following the text guidance. To achieve this, we propose a vision-language prompt that can model a wide range of vision-language tasks and a diffusion model that takes it as input. The diffusion model is trained jointly over six different tasks using these prompts. The resulting Prompt Diffusion model is the first diffusion-based vision-language foundation model capable of in-context learning. It demonstrates high-quality in-context generation on the trained tasks and generalizes effectively to new, unseen vision tasks with their respective prompts. Our model also shows compelling text-guided image editing results. Our framework aims to facilitate research into in-context learning for computer vision. We share our code and pre-trained models at https://github.com/Zhendong-Wang/Prompt-Diffusion.
翻訳日:2023-10-20 20:30:48 公開日:2023-10-18
# パッチ拡散:拡散モデルの高速化とデータ効率の向上

Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models ( http://arxiv.org/abs/2304.12526v2 )

ライセンス: Link先を確認
Zhendong Wang, Yifan Jiang, Huangjie Zheng, Peihao Wang, Pengcheng He, Zhangyang Wang, Weizhu Chen, Mingyuan Zhou(参考訳) 拡散モデルは強力ですが、トレーニングには多くの時間とデータが必要です。 汎用的なパッチ指向トレーニングフレームワークであるパッチ拡散(Patch Diffusion)を提案し,データ効率を改善しながらトレーニング時間を大幅に削減し,より広範なユーザへの拡散モデルトレーニングの民主化を支援する。 私たちのイノベーションの核心は、パッチレベルの新しい条件スコア関数で、元のイメージのパッチ位置を追加の座標チャネルとして含み、一方、パッチサイズはトレーニング中にランダム化され、多様化され、複数のスケールでクロスリージョン依存関係をエンコードする。 本手法によるサンプリングは元の拡散モデルと同じくらい簡単である。 Patch Diffusionを通じて、同等またはより良い世代品質を維持しながら、より高速なトレーニングを実現することができます。 一方、パッチ拡散は比較的小さなデータセット(例えば$$)で訓練された拡散モデルの性能を、ゼロからトレーニングするために5000イメージまで改善する。 CelebA-64$\times$64の1.77、AFHQv2-Wild-64$\times$64の1.93、ImageNet-256$\times$256の2.72である。 コードとトレーニング済みのモデルをhttps://github.com/zhendong-wang/patch-diffusionで共有しています。

Diffusion models are powerful, but they require a lot of time and data to train. We propose Patch Diffusion, a generic patch-wise training framework, to significantly reduce the training time costs while improving data efficiency, which thus helps democratize diffusion model training to broader users. At the core of our innovations is a new conditional score function at the patch level, where the patch location in the original image is included as additional coordinate channels, while the patch size is randomized and diversified throughout training to encode the cross-region dependency at multiple scales. Sampling with our method is as easy as in the original diffusion model. Through Patch Diffusion, we could achieve $\mathbf{\ge 2\times}$ faster training, while maintaining comparable or better generation quality. Patch Diffusion meanwhile improves the performance of diffusion models trained on relatively small datasets, $e.g.$, as few as 5,000 images to train from scratch. We achieve outstanding FID scores in line with state-of-the-art benchmarks: 1.77 on CelebA-64$\times$64, 1.93 on AFHQv2-Wild-64$\times$64, and 2.72 on ImageNet-256$\times$256. We share our code and pre-trained models at https://github.com/Zhendong-Wang/Patch-Diffusion.
翻訳日:2023-10-20 20:30:30 公開日:2023-10-18
# この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である

This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models ( http://arxiv.org/abs/2305.14610v2 )

ライセンス: Link先を確認
Bryan Li, Chris Callison-Burch(参考訳) スプラトリー諸島は中国、フィリピン、ベトナムに属していますか。 事前訓練された大型言語モデル (LLM) は、中国語、タガログ語、ベトナム語など、各主張国の言語で質問された場合、異なる回答をすることができる。 これは、一貫して答える可能性が高い多言語人間とは対照的である。 本研究では,LLMが言語間で矛盾する地政学的知識を想起させる現象であることを示す。 対象とするケーススタディとして,本質的に物議を醸し,言語横断的な課題である領土紛争を考える。 まず、国境紛争のデータセットを紹介する。 これは256の領域をカバーし、それぞれが各主張国(合計48言語)の言語における複数の質問に関連付けられている。 次に、これらの質問をLLMに当てて、内部知識を調査します。 最後に,実際の地政学的状況に対する応答と,異なる言語における応答の一貫性を比較する,正確性に基づく評価指標のスイートを提案する。 これらの指標は, 基本性能の低い命令調整LDMや, より強いモデルで増幅された地政学的バイアスなど, いくつかの知見を定量化することができる。 地政学的バイアスの今後の調査と緩和を容易にするために、コードとデータセットをリリースします。

Do the Spratly Islands belong to China, the Philippines, or Vietnam? A pretrained large language model (LLM) may answer differently if asked in the languages of each claimant country: Chinese, Tagalog, or Vietnamese. This contrasts with a multilingual human, who would likely answer consistently. In this work, we show that LLMs recall geopolitical knowledge inconsistently across languages -- a phenomenon we term geopolitical bias. As a targeted case study, we consider territorial disputes, inherently controversial and cross-lingual task. We first introduce the BorderLines dataset of territorial disputes. This covers 256 territories, each of which is associated to a set of multiple-choice questions in the languages of each claimant country (48 languages total). We then pose these questions to LLMs to probe their internal knowledge. Finally, we propose a suite of evaluation metrics based on accuracy, which compares responses with respect to the actual geopolitical situation, and consistency of the responses in different languages. These metrics allow us to quantify several findings, which include instruction-tuned LLMs underperforming base ones, and geopolitical bias being amplified in stronger models. We release our code and dataset to facilitate future investigation and mitigation of geopolitical bias.
翻訳日:2023-10-20 20:10:23 公開日:2023-10-18
# AdANNS: アダプティブセマンティック検索のためのフレームワーク

AdANNS: A Framework for Adaptive Semantic Search ( http://arxiv.org/abs/2305.19435v2 )

ライセンス: Link先を確認
Aniket Rege, Aditya Kusupati, Sharan Ranjit S, Alan Fan, Qingqing Cao, Sham Kakade, Prateek Jain, Ali Farhadi(参考訳) webスケールの検索システムはエンコーダを学習し、与えられたクエリを埋め込み、近似的な近接探索(anns)パイプラインに接続して類似のデータポイントを取得する。 尾のクエリとデータポイントを正確にキャプチャするために、学習された表現は、典型的には剛体で高次元のベクトルであり、ANNSパイプライン全体において一般的に用いられる。 本稿では, 剛性表現の代わりに, 可変容量の適応表現を活用することで, 高精度かつ高精度なトレードオフを実現することができること, すなわち, より近似的な計算で得られるANNSの段階は, 同一データ点の低容量表現を用いるべきであること, を論じる。 そこで我々は,Matryoshka Representationsの柔軟性を明示的に活用する新しいANNS設計フレームワークであるAdANNSを紹介する。 本稿では,検索データ構造(AdANNS-IVF)や量子化(AdANNS-OPQ)などの新しいANNSビルディングブロックを用いて,最先端の精度計算トレードオフを示す。 例えば、ImageNet検索では、AdANNS-IVFは同じ計算予算で厳密な表現ベースのIVFよりも最大1.5%正確であり、壁時計時間では最大90倍高速である。 自然問題の場合、32バイトのadanns-opqは、厳格な表現を使って構築された64バイトのopqベースラインの精度と一致します。 さらに,検索構造と量子化を組み合わせた現代の複合 ann インデックスへのアダンからの利得も示している。 最後に, 行列化表現を非適応的に構築したANNSインデックス上での計算認識検索において, AdANNSが推論時適応性を実現することを実証した。 コードはhttps://github.com/RAIVNLab/AdANNSで公開されている。

Web-scale search systems learn an encoder to embed a given query which is then hooked into an approximate nearest neighbor search (ANNS) pipeline to retrieve similar data points. To accurately capture tail queries and data points, learned representations typically are rigid, high-dimensional vectors that are generally used as-is in the entire ANNS pipeline and can lead to computationally expensive retrieval. In this paper, we argue that instead of rigid representations, different stages of ANNS can leverage adaptive representations of varying capacities to achieve significantly better accuracy-compute trade-offs, i.e., stages of ANNS that can get away with more approximate computation should use a lower-capacity representation of the same data point. To this end, we introduce AdANNS, a novel ANNS design framework that explicitly leverages the flexibility of Matryoshka Representations. We demonstrate state-of-the-art accuracy-compute trade-offs using novel AdANNS-based key ANNS building blocks like search data structures (AdANNS-IVF) and quantization (AdANNS-OPQ). For example on ImageNet retrieval, AdANNS-IVF is up to 1.5% more accurate than the rigid representations-based IVF at the same compute budget; and matches accuracy while being up to 90x faster in wall-clock time. For Natural Questions, 32-byte AdANNS-OPQ matches the accuracy of the 64-byte OPQ baseline constructed using rigid representations -- same accuracy at half the cost! We further show that the gains from AdANNS translate to modern-day composite ANNS indices that combine search structures and quantization. Finally, we demonstrate that AdANNS can enable inference-time adaptivity for compute-aware search on ANNS indices built non-adaptively on matryoshka representations. Code is open-sourced at https://github.com/RAIVNLab/AdANNS.
翻訳日:2023-10-20 19:58:47 公開日:2023-10-18
# コントラスト損失が抑制された対称的神経崩壊表現:ReLUとバッチの影響

Symmetric Neural-Collapse Representations with Supervised Contrastive Loss: The Impact of ReLU and Batching ( http://arxiv.org/abs/2306.07960v2 )

ライセンス: Link先を確認
Ganesh Ramachandra Kini, Vala Vakilian, Tina Behnia, Jaidev Gill, Christos Thrampoulidis(参考訳) 教師付きコントラスト損失 (supervised contrastive loss, scl) は、分類におけるクロスエントロピー損失(cross-entropy loss)に代わる、競争的でしばしば優れた代替手段である。 以前の研究では、両方の損失がバランスデータの下で対称なトレーニング表現をもたらすことが示されているが、この対称性はクラス不均衡の下で破られる。 本稿では,最終層にreluアクティベーションを導入することで,scl学習表現の対称性を効果的に回復する,興味深い発見を提案する。 我々は、SCL損失とエントリーワイド非負性制約を持つ非制約特徴モデルの大域的最小化が直交フレームを形成することを確立することにより、解析的にこの発見に到達した。 さまざまなデータセット、アーキテクチャ、不均衡シナリオにわたる大規模な実験が、私たちの発見を裏付けます。 実験の結果,ReLUの活性化は試験精度を損なうことなく対称性を回復させることがわかった。 これは不均衡下でのSCLの最初の幾何学的特徴である。 さらに, 解析と実験により, 表現幾何学におけるバッチ選択戦略の重要な役割を明らかにした。 不変対称表現を保証するミニバッチ選択に必要な十分条件を証明することにより、これらの条件が保持されるのを保証する効率的な戦略としてバッチバインディングを導入する。

Supervised contrastive loss (SCL) is a competitive and often superior alternative to the cross-entropy loss for classification. While prior studies have demonstrated that both losses yield symmetric training representations under balanced data, this symmetry breaks under class imbalances. This paper presents an intriguing discovery: the introduction of a ReLU activation at the final layer effectively restores the symmetry in SCL-learned representations. We arrive at this finding analytically, by establishing that the global minimizers of an unconstrained features model with SCL loss and entry-wise non-negativity constraints form an orthogonal frame. Extensive experiments conducted across various datasets, architectures, and imbalance scenarios corroborate our finding. Importantly, our experiments reveal that the inclusion of the ReLU activation restores symmetry without compromising test accuracy. This constitutes the first geometry characterization of SCL under imbalances. Additionally, our analysis and experiments underscore the pivotal role of batch selection strategies in representation geometry. By proving necessary and sufficient conditions for mini-batch choices that ensure invariant symmetric representations, we introduce batch-binding as an efficient strategy that guarantees these conditions hold.
翻訳日:2023-10-20 19:49:06 公開日:2023-10-18
# Kepler: 高速なパラメトリッククエリ最適化のためのロバスト学習

Kepler: Robust Learning for Faster Parametric Query Optimization ( http://arxiv.org/abs/2306.06798v2 )

ライセンス: Link先を確認
Lyric Doshi, Vincent Zhuang, Gaurav Jain, Ryan Marcus, Haoyu Huang, Deniz Altinb\"uken, Eugene Brevdo, Campbell Fraser(参考訳) 既存のパラメトリッククエリ最適化(PQO)技術の多くは、従来のクエリオプティマイザのコストモデルに依存している。 従来のクエリオプティマイザに比べてクエリレイテンシの大幅な高速化を示す,pqoに対するエンドツーエンドの学習ベースのアプローチであるkeplerを提案する。 この手法の中心は,サブプラン濃度空間における摂動に基づく新しいプラン生成アルゴリズムである行数進化 (rce) である。 従来のアプローチでは正確なコストモデルが必要であったが、実際の実行データを介して候補計画を評価し、MLモデルをトレーニングすることで、パラメータバインディング値の最速計画を予測することで、この要件を回避できる。 我々のモデルでは,最近のニューラルネットワークの不確実性を利用して,クエリ性能の回帰を回避しつつ,高速なプランを堅牢に予測している。 実験として、keplerはpostgresql上の複数のデータセットでクエリランタイムを大幅に改善できることを示しました。

Most existing parametric query optimization (PQO) techniques rely on traditional query optimizer cost models, which are often inaccurate and result in suboptimal query performance. We propose Kepler, an end-to-end learning-based approach to PQO that demonstrates significant speedups in query latency over a traditional query optimizer. Central to our method is Row Count Evolution (RCE), a novel plan generation algorithm based on perturbations in the sub-plan cardinality space. While previous approaches require accurate cost models, we bypass this requirement by evaluating candidate plans via actual execution data and training an ML model to predict the fastest plan given parameter binding values. Our models leverage recent advances in neural network uncertainty in order to robustly predict faster plans while avoiding regressions in query performance. Experimentally, we show that Kepler achieves significant improvements in query runtime on multiple datasets on PostgreSQL.
翻訳日:2023-10-20 19:48:45 公開日:2023-10-18
# 変分不均衡回帰:確率的平滑化による不確かさの定量化

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing ( http://arxiv.org/abs/2306.06599v5 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang(参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。 本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。 Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 コードは間もなくhttps://github.com/Wang-ML-Lab/variational-imbalanced-regression.comで公開される。

Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. Code will soon be available at https://github.com/Wang-ML-Lab/variational-imbalanced-regression.
翻訳日:2023-10-20 19:48:27 公開日:2023-10-18
# シーンレベル拡散による言語誘導交通シミュレーション

Language-Guided Traffic Simulation via Scene-Level Diffusion ( http://arxiv.org/abs/2306.06344v2 )

ライセンス: Link先を確認
Ziyuan Zhong, Davis Rempe, Yuxiao Chen, Boris Ivanovic, Yulong Cao, Danfei Xu, Marco Pavone, Baishakhi Ray(参考訳) 現実的で制御可能な交通シミュレーションは、自動運転車(AV)の開発を加速するために必要なコア機能である。 しかし、学習ベースのトラフィックモデルを制御するための現在のアプローチでは、かなりの専門知識が必要であり、実践者が使うのは難しい。 そこで本稿では,シーンレベルの条件拡散モデルであるCTG++を提案する。 これを開発するには、現実的で制御可能なトラフィックモデルバックボーンの必要性と、言語を使用してトラフィックモデルと対話する効果的な方法の2つの課題に取り組む必要がある。 これらの課題に対処するために,我々はまず,現実的で制御可能なトラフィックを生成する時空間トランスフォーマーバックボーンを備えたシーンレベルの拡散モデルを提案する。 次に、大きな言語モデル(LLM)を用いて、ユーザのクエリを損失関数に変換し、クエリに準拠した生成に向けて拡散モデルを導く。 提案手法の有効性を総合的に評価し,提案手法の有効性を実証する。

Realistic and controllable traffic simulation is a core capability that is necessary to accelerate autonomous vehicle (AV) development. However, current approaches for controlling learning-based traffic models require significant domain expertise and are difficult for practitioners to use. To remedy this, we present CTG++, a scene-level conditional diffusion model that can be guided by language instructions. Developing this requires tackling two challenges: the need for a realistic and controllable traffic model backbone, and an effective method to interface with a traffic model using language. To address these challenges, we first propose a scene-level diffusion model equipped with a spatio-temporal transformer backbone, which generates realistic and controllable traffic. We then harness a large language model (LLM) to convert a user's query into a loss function, guiding the diffusion model towards query-compliant generation. Through comprehensive evaluation, we demonstrate the effectiveness of our proposed method in generating realistic, query-compliant traffic simulations.
翻訳日:2023-10-20 19:48:11 公開日:2023-10-18
# lidarデータによる埋設遺構同定のための意味セグメンテーション法の伝達学習

Transfer Learning of Semantic Segmentation Methods for Identifying Buried Archaeological Structures on LiDAR Data ( http://arxiv.org/abs/2307.03512v4 )

ライセンス: Link先を確認
Gregory Sech, Paolo Soleni, Wouter B. Verschoof-van der Vaart, \v{Z}iga Kokalj, Arianna Traviglia, Marco Fiorucci(参考訳) 考古学的な研究において、深層学習をリモートセンシングデータに適用する際には、トレーニングモデルに適したデータセットが限られている。 転送学習の応用は、この欠点を軽減するために頻繁に用いられる。 しかし、異なる考古学的データセットに適用する場合、その有効性を調べる必要がある。 本稿では,2つのlidarデータセット上の2つの意味セグメンテーション深層ニューラルネットワークを用いた,転送学習構成の性能比較を行う。 実験結果から, 考古学における伝達学習に基づくアプローチは, 体系的な拡張がまだ観察されていないものの, 性能改善につながる可能性が示唆された。 我々は,今後の研究のベースラインとして機能する技術の有効性について,具体的な知見を提供する。

When applying deep learning to remote sensing data in archaeological research, a notable obstacle is the limited availability of suitable datasets for training models. The application of transfer learning is frequently employed to mitigate this drawback. However, there is still a need to explore its effectiveness when applied across different archaeological datasets. This paper compares the performance of various transfer learning configurations using two semantic segmentation deep neural networks on two LiDAR datasets. The experimental results indicate that transfer learning-based approaches in archaeology can lead to performance improvements, although a systematic enhancement has not yet been observed. We provide specific insights about the validity of such techniques that can serve as a baseline for future works.
翻訳日:2023-10-20 19:38:27 公開日:2023-10-18
# 量子宇宙論における観察

Observations in Quantum Cosmology ( http://arxiv.org/abs/2306.14948v2 )

ライセンス: Link先を確認
Leonardo Chataignier, Claus Kiefer, Paulo Moniz(参考訳) 本稿では、一般相対性理論の標準量子化が宇宙論の検証可能な予測を生み出すかどうかに着目する。 特に,本手法を用いて,原始摂動の進化をモデル化する方法について検討する。 ジョン・ウィーラーとブライス・デウィットによって最初に提唱されたこの量子測地力学のプログラムは、単純な古典的極限を持ち、全ての場の量子力学、重力、物質を記述する。 古典的な背景計量が存在しないこの文脈では、観察を構成するものについて議論する必要がある。 我々はまず古典理論でこの問題に取り組み、その後量子論に目を向ける。 我々は、予測は物理的な時計や棒と関係があり、それらは結合パラメータとして働くニュートン定数に関して摂動的アプローチで容易に得られると主張する。 この弱結合拡大は、量子宇宙論の摂動ヒルベルト空間と、古典的で固定された背景計量上の量子場の力学への補正をもたらす。 これらの補正は、宇宙マイクロ波背景放射(CMB)の異方性スペクトルのシグネチャにつながる可能性のある原始パワースペクトルの修正を示唆し、具体的な結果について議論する。 量子測地力学(quantum geometrodynamics)の主題は、正準量子重力に対する最も古く最も保守的なアプローチであり、量子重力の概念的な問題を照らし出すだけでなく、宇宙論やその他の分野での観測的展望をもたらす可能性がある。

In this review, we focus on whether a canonical quantization of general relativity can produce testable predictions for cosmology. In particular, we examine how this approach can be used to model the evolution of primordial perturbations. This program of quantum geometrodynamics, first advocated by John Wheeler and Bryce DeWitt, has a straightforward classical limit, and it describes the quantum dynamics of all fields, gravitational and matter. In this context, in which a classical background metric is absent, it is necessary to discuss what constitutes an observation. We first address this issue in the classical theory and then turn to the quantum theory. We argue that predictions are relational, that is, relative to physical clocks and rods, and that they can be straightforwardly obtained in a perturbative approach with respect to Newton's constant, which serves as a coupling parameter. This weak-coupling expansion leads to a perturbative Hilbert space for quantum cosmology, and to corrections to the dynamics of quantum fields on a classical, fixed background metric. These corrections imply modifications of primordial power spectra, which may lead to signatures in the anisotropy spectrum of the Cosmic Microwave Background (CMB) radiation, for which we discuss concrete results. We conclude that the subject of quantum geometrodynamics, the oldest and most conservative approach to canonical quantum gravity, not only illuminates conceptual issues in quantum gravitation, but may also lead to observational prospects in cosmology and elsewhere.
翻訳日:2023-10-20 19:37:53 公開日:2023-10-18
# テキスト条件特徴アライメントを用いた音声強調テキスト間検索

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment ( http://arxiv.org/abs/2307.12964v2 )

ライセンス: Link先を確認
Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan, Mohamed Omar(参考訳) 近年,大規模な画像テキストペアで訓練された事前学習モデルを利用することで,テキスト間検索システムに大きな進歩を遂げている。 しかし、最新の手法のほとんどは、オーディオ信号を無視しながら、主にビデオモダリティに焦点を当てている。 それでもECLIPSEによる最近の進歩は、音声視覚映像表現を開発することによって、長距離テキスト・ビデオ検索を改善している。 それにもかかわらず、テキスト対ビデオ検索タスクの目的は、単により良いオーディオとビデオアライメントを達成するのではなく、テキストクエリに関連する補完的なオーディオとビデオ情報をキャプチャすることである。 この問題に対処するために,テキストクエリに条件付き音声とビデオの表現を生成するTExt条件のFeature ALignment法であるTEFALを導入する。 本手法では,テキストクエリに関連する音声情報を抑圧するオーディオ視覚的アテンションブロックのみを使用する代わりに,2つの独立したモーダルなアテンションブロックを用いて,テキストが音声とビデオの表現に別々に出席できるようにする。 提案手法の有効性は, MSR-VTT, LSMDC, VATEX, Charades の4つのベンチマークデータセットで実証され, 4つのデータセット間での最先端性能よりも優れていた。 これは、テキストクェリ条件付き音声表現の追加と、テキストクェリ条件付きビデオ表現に追加される補完情報に起因している。

Text-to-video retrieval systems have recently made significant progress by utilizing pre-trained models trained on large-scale image-text pairs. However, most of the latest methods primarily focus on the video modality while disregarding the audio signal for this task. Nevertheless, a recent advancement by ECLIPSE has improved long-range text-to-video retrieval by developing an audiovisual video representation. Nonetheless, the objective of the text-to-video retrieval task is to capture the complementary audio and video information that is pertinent to the text query rather than simply achieving better audio and video alignment. To address this issue, we introduce TEFAL, a TExt-conditioned Feature ALignment method that produces both audio and video representations conditioned on the text query. Instead of using only an audiovisual attention block, which could suppress the audio information relevant to the text query, our approach employs two independent cross-modal attention blocks that enable the text to attend to the audio and video representations separately. Our proposed method's efficacy is demonstrated on four benchmark datasets that include audio: MSR-VTT, LSMDC, VATEX, and Charades, and achieves better than state-of-the-art performance consistently across the four datasets. This is attributed to the additional text-query-conditioned audio representation and the complementary information it adds to the text-query-conditioned video representation.
翻訳日:2023-10-20 19:30:39 公開日:2023-10-18
# 生体画像とテキストにおけるマルチモーダル深層学習についての一考察

A scoping review on multimodal deep learning in biomedical images and texts ( http://arxiv.org/abs/2307.07362v3 )

ライセンス: Link先を確認
Zhaoyi Sun, Mingquan Lin, Qingqing Zhu, Qianqian Xie, Fei Wang, Zhiyong Lu, Yifan Peng(参考訳) 将来のコンピュータ支援診断・予後システムは、マルチモーダルデータを同時に処理できるべきである。 画像やテキストなどの複数のデータソースの統合を含むMDL(Multimodal Deep Learning)は、バイオメディカルデータの分析と解釈に革命をもたらす可能性がある。 しかし、近年は研究者の注意を引いただけである。 この目的のために、このトピックを体系的にレビューし、現在の作業の限界を特定し、今後の方向性を探求する必要がある。 本稿では,この分野の現状を総合的に概観し,生物医学的イメージとテキスト共同学習に焦点をあてた,重要な概念,研究の種類,研究ギャップを明らかにすることを目的としている。 本研究では,(1)レポート生成,(2)ビジュアル質問応答,(3)クロスモーダル検索,(4)コンピュータ支援診断,(5)意味セグメンテーションの5つの課題について,マルチモーダル深層学習の現状について検討した。 本結果はMDLの多様な応用と可能性を強調し,今後の研究の方向性を示唆するものである。 我々は,自然言語処理(nlp)と医療画像コミュニティの連携を促進し,次世代の意思決定とコンピュータ支援診断システム開発を支援することを期待する。

Computer-assisted diagnostic and prognostic systems of the future should be capable of simultaneously processing multimodal data. Multimodal deep learning (MDL), which involves the integration of multiple sources of data, such as images and text, has the potential to revolutionize the analysis and interpretation of biomedical data. However, it only caught researchers' attention recently. To this end, there is a critical need to conduct a systematic review on this topic, identify the limitations of current work, and explore future directions. In this scoping review, we aim to provide a comprehensive overview of the current state of the field and identify key concepts, types of studies, and research gaps with a focus on biomedical images and texts joint learning, mainly because these two were the most commonly available data types in MDL research. This study reviewed the current uses of multimodal deep learning on five tasks: (1) Report generation, (2) Visual question answering, (3) Cross-modal retrieval, (4) Computer-aided diagnosis, and (5) Semantic segmentation. Our results highlight the diverse applications and potential of MDL and suggest directions for future research in the field. We hope our review will facilitate the collaboration of natural language processing (NLP) and medical imaging communities and support the next generation of decision-making and computer-assisted diagnostic system development.
翻訳日:2023-10-20 19:29:27 公開日:2023-10-18
# グラフニューラルネットワークのパワーと活性化関数の役割について

On the power of graph neural networks and the role of the activation function ( http://arxiv.org/abs/2307.04661v2 )

ライセンス: Link先を確認
Sammy Khalife, Amitabh Basu(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の表現性に関する新たな結果について述べる。 グラフの入力サイズでアーキテクチャサイズが増大しない部分的な多項式活性化を持つ任意のgnnに対して、gnnが任意の回数の反復までルート頂点を識別できないような深さ2の非同型根木が一対存在することを証明した。 この証明は対称多項式の代数からのツールに依存する。 対照的に、分割多項式アクティベーションを持つ非有界gnn(そのサイズはグラフサイズで変更できる)は、2回の反復でこれらの頂点を区別できることが既に知られていた。 この結果は,[Grohe, 2021]で定式化されたオープンな質問に答え, 有界サイズと非有界サイズのGNNの厳密な分離を示唆する。 次に、分割多項式でない活性化を許容すると、2つの反復で1つのニューロンパーセプトロンが深さ2の任意の非同型な木の根頂点を区別できることを証明する(我々の結果は、sgmoid、双曲的tanなどの活性化をも持つ)。 これは、ニューラルネットワークのアクティベーション関数を変更すると、グラフニューラルネットワークのパワーが劇的に変化することを示している。 この結果の証明は超越数論のリンデマン・ヴァイエルシュトラウスの定理を用いている。

In this article we present new results about the expressivity of Graph Neural Networks (GNNs). We prove that for any GNN with piecewise polynomial activations, whose architecture size does not grow with the graph input sizes, there exists a pair of non-isomorphic rooted trees of depth two such that the GNN cannot distinguish their root vertex up to an arbitrary number of iterations. The proof relies on tools from the algebra of symmetric polynomials. In contrast, it was already known that unbounded GNNs (those whose size is allowed to change with the graph sizes) with piecewise polynomial activations can distinguish these vertices in only two iterations. Our results imply a strict separation between bounded and unbounded size GNNs, answering an open question formulated by [Grohe, 2021]. We next prove that if one allows activations that are not piecewise polynomial, then in two iterations a single neuron perceptron can distinguish the root vertices of any pair of nonisomorphic trees of depth two (our results hold for activations like the sigmoid, hyperbolic tan and others). This shows how the power of graph neural networks can change drastically if one changes the activation function of the neural networks. The proof of this result utilizes the Lindemann-Weierstrauss theorem from transcendental number theory.
翻訳日:2023-10-20 19:27:28 公開日:2023-10-18
# GenAIPABench:AIベースのプライバシアシスタントのベンチマーク

GenAIPABench: A Benchmark for Generative AI-based Privacy Assistants ( http://arxiv.org/abs/2309.05138v2 )

ライセンス: Link先を確認
Aamir Hamid, Hemanth Reddy Samidi, Tim Finin, Primal Pappachan, Roberto Yus(参考訳) プライバシポリシは,組織のデータ管理プラクティスをユーザに通知するものだ。 しかし、その複雑さは平均的なユーザーにはほとんど理解できないので、プライバシアシスタントの開発は必要だ。 ジェネレーティブAI(genAI)技術の出現により、ユーザクエリを効果的に答える上で、プライバシアシスタントを強化する可能性がある。 しかし、偽情報や誤情報を発生させる傾向があることから、元AIの信頼性が懸念されている。 本稿では,Generative AIベースのプライバシアシスタント(GenAIPA)の性能評価を目的とした,新しいベンチマークフレームワークであるGenAIPABenchを紹介する。 GenAIPABench: 1) 組織のプライバシーポリシー及びデータ保護規則に関する包括的な質問と,いくつかの組織及び規則に対する注釈付き回答 2) 生成した応答の正確性,妥当性,一貫性を評価するためのロバストな評価指標 3)プライバシ文書にシステムを導入するための適切なプロンプトを生成する評価ツールと,その堅牢性を評価するためのプライバシ質問のバリエーションが異なる。 我々はGenAIPABenchを使用して、3つの主要なGenAIシステム(ChatGPT、Bard、Bing AI)の可能性を評価する。 以上の結果から,プライバシ領域のgenAI機能において,複雑なクエリの管理,一貫性の確保,ソース精度の検証といった課題も浮き彫りにしている。

Privacy policies inform users about the data management practices of organizations. Yet, their complexity often renders them largely incomprehensible to the average user, necessitating the development of privacy assistants. With the advent of generative AI (genAI) technologies, there is an untapped potential to enhance privacy assistants in answering user queries effectively. However, the reliability of genAI remains a concern due to its propensity for generating incorrect or misleading information. This study introduces GenAIPABench, a novel benchmarking framework designed to evaluate the performance of Generative AI-based Privacy Assistants (GenAIPAs). GenAIPABench comprises: 1) A comprehensive set of questions about an organization's privacy policy and a data protection regulation, along with annotated answers for several organizations and regulations; 2) A robust set of evaluation metrics for assessing the accuracy, relevance, and consistency of the generated responses; and 3) An evaluation tool that generates appropriate prompts to introduce the system to the privacy document and different variations of the privacy questions to evaluate its robustness. We use GenAIPABench to assess the potential of three leading genAI systems in becoming GenAIPAs: ChatGPT, Bard, and Bing AI. Our results demonstrate significant promise in genAI capabilities in the privacy domain while also highlighting challenges in managing complex queries, ensuring consistency, and verifying source accuracy.
翻訳日:2023-10-20 19:19:21 公開日:2023-10-18
# 推薦システムにおけるトピックレベルベイズサプライズとセレンディピティー

Topic-Level Bayesian Surprise and Serendipity for Recommender Systems ( http://arxiv.org/abs/2308.06368v2 )

ライセンス: Link先を確認
Tonmoy Hasan and Razvan Bunescu(参考訳) 利用者が消費した商品のレーティング履歴に合わせたレコメンデーションのみを最適化するレコメンデーションシステムは、新規で目に見えないカテゴリーのアイテムを体験できないフィルターバブルを作成することができる。 この望ましくない行動を緩和するための1つのアプローチは、セレンディピティーに高い潜在能力を持つアイテム、すなわち、高い評価を受ける可能性のある驚くべきアイテムを推奨することである。 本稿では,ベイジアン・サプライズに根ざしたセレンディピティーのコンテンツに基づく定式化を提案し,利用者が消費・評価した後のセレンディピティーを測定する。 類似ユーザを特定する協調フィルタリングコンポーネントと組み合わせることで、セレンディピティーの高いアイテムを推奨することができる。 驚きとセレンディピティーのためのトピックレベルのモデルの評価を容易にするために、goodreadsから抽出した書籍読解履歴のデータセットを紹介し、ユーザ数2,600万冊、書籍数1,300万冊を対象とし、時間に依存したトピックレベルのサプライズの観点から449冊の書籍を手作業で注釈する。 実験評価により,ベイズ・サプライズを用いたモデルは,距離に基づくヒューリスティックよりも話題レベルのサプライズに対するマニュアルアノテーションにかなりよく相関し,セレンディピティーアイテムのレコメンデーション性能も向上した。

A recommender system that optimizes its recommendations solely to fit a user's history of ratings for consumed items can create a filter bubble, wherein the user does not get to experience items from novel, unseen categories. One approach to mitigate this undesired behavior is to recommend items with high potential for serendipity, namely surprising items that are likely to be highly rated. In this paper, we propose a content-based formulation of serendipity that is rooted in Bayesian surprise and use it to measure the serendipity of items after they are consumed and rated by the user. When coupled with a collaborative-filtering component that identifies similar users, this enables recommending items with high potential for serendipity. To facilitate the evaluation of topic-level models for surprise and serendipity, we introduce a dataset of book reading histories extracted from Goodreads, containing over 26 thousand users and close to 1.3 million books, where we manually annotate 449 books read by 4 users in terms of their time-dependent, topic-level surprise. Experimental evaluations show that models that use Bayesian surprise correlate much better with the manual annotations of topic-level surprise than distance-based heuristics, and also obtain better serendipitous item recommendation performance.
翻訳日:2023-10-20 19:16:52 公開日:2023-10-18
# 有限要素解析における線形系の量子緩和

Quantum Relaxation for Linear Systems in Finite Element Analysis ( http://arxiv.org/abs/2308.01377v4 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De(参考訳) ゲートベースの量子コンピューティングのための量子線形系アルゴリズム(QLSA)は、線形系を解くための指数的スピードアップを提供するが、問題サイズの条件数の増加による有限要素問題に適用した場合、課題に直面する。 さらにQLSAは、近似ソリューションや初期推測を使って改善されたソリューションを出力することはできない。 本稿では,線形定常反復をより大きなブロック線形系に埋め込み,ゲート型量子コンピュータの反復的アプローチとして,線形系の量子緩和(qrls)を提案する。 ブロック線形システムの条件数は、元のシステムのサイズや条件番号に依存しないイテレーション数と線形にスケールする。 このシステムは、QLSAの最先端量子信号処理(QSP)変種を用いて有限要素問題の実用的な反復解を可能にし、量子コンピュータシミュレータを用いて数値計算結果を提供する。 イテレーションの複雑さは、ソリューション時間がシステムサイズとは独立であり、O(log(N))量子ビットを必要とするため、古典的アーキテクチャと比較して好ましいスケーリングを示す。 これは指数関数的効率向上を示し、量子ハードウェア上の反復有限要素問題に対する新しいアプローチを提供する。

Quantum linear system algorithms (QLSAs) for gate-based quantum computing can provide exponential speedups for solving linear systems but face challenges when applied to finite element problems due to the growth of the condition number with problem size. Furthermore, QLSAs cannot use an approximate solution or initial guess to output an improved solution. Here, we present Quantum Relaxation for Linear System (qRLS), as an iterative approach for gate-based quantum computers by embedding linear stationary iterations into a larger block linear system. The condition number of the block linear system scales linearly with the number of iterations independent of the size and condition number of the original system. The well-conditioned system enables a practical iterative solution of finite element problems using the state-of-the-art Quantum Signal Processing (QSP) variant of QLSAs, for which we provide numerical results using a quantum computer simulator. The iteration complexity demonstrates favorable scaling relative to classical architectures, as the solution time is independent of system size and requires O(log(N)) qubits. This represents an exponential efficiency gain, offering a new approach for iterative finite element problem-solving on quantum hardware.
翻訳日:2023-10-20 19:15:57 公開日:2023-10-18
# ビジネス最適化のためのAI-Copilot:生産スケジューリングのフレームワークとケーススタディ

AI-Copilot for Business Optimisation: A Framework and A Case Study in Production Scheduling ( http://arxiv.org/abs/2309.13218v3 )

ライセンス: Link先を確認
Pivithuru Thejan Amarasinghe, Su Nguyen, Yuan Sun and Damminda Alahakoon(参考訳) ビジネス最適化(business optimization)とは、ビジネスに競争上の優位性をもたらすために、効率的でコスト効率の良い運用方法を見つけ、実装するプロセスのことである。 問題定式化の合成は、最適化言語を用いて問題定式化を構築するための人間の専門知識に依存する、ビジネス最適化の不可欠な部分である。 興味深いことに、LLM(Large Language Models)の進歩により、問題定式化に必要な人間の専門知識は最小化できる。 しかし、データのトレーニング、トークンの制限、適切なパフォーマンス指標の欠如など、問題定式化のためのLLMの開発は困難である。 トレーニングデータの要求に対して,近年の注目は,特定のタスクのためにLLMをスクラッチからトレーニングするよりも,下流タスクのための微調整済みのLLMに向けられている。 本稿では, LLMファインチューニング手法を採用し, ビジネス最適化問題定式化のためのAI-Copilotを提案する。 トークン制限のために,LLMのトークン制限に適合するモジュールとして,複雑な問題定式化を合成するためのモジュール化とエンジニアリング手法を導入する。 さらに,問題定式化の正確性と品質を評価するのに適した性能評価指標を設計した。 実験の結果,本手法ではプロダクションスケジューリングにおけるビジネス最適化問題に対して,複雑かつ大規模問題定式化を合成できることが示される。

Business optimisation refers to the process of finding and implementing efficient and cost-effective means of operation to bring a competitive advantage for businesses. Synthesizing problem formulations is an integral part of business optimisation, which relies on human expertise to construct problem formulations using optimisation languages. Interestingly, with advancements in Large Language Models (LLMs), the human expertise needed in problem formulation can be minimized. However, developing an LLM for problem formulation is challenging, due to training data, token limitations, and lack of appropriate performance metrics. For the requirement of training data, recent attention has been directed towards fine-tuning pre-trained LLMs for downstream tasks rather than training an LLM from scratch for a specific task. In this paper, we adopt an LLM fine-tuning approach and propose an AI-Copilot for business optimisation problem formulation. For token limitations, we introduce modularization and prompt engineering techniques to synthesize complex problem formulations as modules that fit into the token limits of LLMs. Additionally, we design performance evaluation metrics that are better suited for assessing the accuracy and quality of problem formulations. The experiment results demonstrate that with this approach we can synthesize complex and large problem formulations for a typical business optimisation problem in production scheduling.
翻訳日:2023-10-20 19:08:13 公開日:2023-10-18
# CONFLATOR: Code-Mixed Language Modelingのためのスイッチングポイントに基づく回転位置符号化

CONFLATOR: Incorporating Switching Point based Rotatory Positional Encodings for Code-Mixed Language Modeling ( http://arxiv.org/abs/2309.05270v2 )

ライセンス: Link先を確認
Mohsin Ali, Kandukuri Sai Teja, Neeharika Gupta, Parth Patwa, Anubhab Chatterjee, Vinija Jain, Aman Chadha, Amitava Das(参考訳) 2つ以上の言語の混合はcode-mixing (cm) と呼ばれる。 CMは多言語社会における社会規範である。 トランスフォーマーのようなニューラル言語モデル(NLM)は多くのNLPタスクに有効である。 しかし、NLM for CMは未探索領域である。 トランスは機能的で強力であるが、非リカレントであるため、常に位置情報をエンコードすることはできない。 したがって、単語情報を豊かにし、位置情報を組み込むため、位置符号化を定義する。 我々は,言語が切り替えるテキスト(L1 -> L2 -> L2 -> L1)の接続点(SP)がCM言語モデル(LM)に挑戦し,モデリングプロセスにおいてSPに特に重点を置いていることを仮定する。 いくつかの位置符号化機構を実験し、回転位置符号化と切替点情報とが最良の結果をもたらすことを示す。 コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。 CONFLATORは、ユニグラムレベルとビッグラムレベルの両方で、よりスマートな位置符号化を用いて、スイッチングポイントを強調することを学ぼうとしている。 CONFLATORは、コードミキシングされたヒンディー語と英語(ヒングリッシュ語)に基づく2つのタスクで最先端のタスクをパフォーマンスします。 (i)感情分析及び (ii)機械翻訳。

The mixing of two or more languages is called Code-Mixing (CM). CM is a social norm in multilingual societies. Neural Language Models (NLMs) like transformers have been effective on many NLP tasks. However, NLM for CM is an under-explored area. Though transformers are capable and powerful, they cannot always encode positional information since they are non-recurrent. Therefore, to enrich word information and incorporate positional information, positional encoding is defined. We hypothesize that Switching Points (SPs), i.e., junctions in the text where the language switches (L1 -> L2 or L2 -> L1), pose a challenge for CM Language Models (LMs), and hence give special emphasis to SPs in the modeling process. We experiment with several positional encoding mechanisms and show that rotatory positional encodings along with switching point information yield the best results. We introduce CONFLATOR: a neural language modeling approach for code-mixed languages. CONFLATOR tries to learn to emphasize switching points using smarter positional encoding, both at unigram and bigram levels. CONFLATOR outperforms the state-of-the-art on two tasks based on code-mixed Hindi and English (Hinglish): (i) sentiment analysis and (ii) machine translation.
翻訳日:2023-10-20 19:07:07 公開日:2023-10-18
# 超伝導電荷量子ネットワークのナノメカニカル操作

Nanomechanical manipulation of superconducting charge-qubit quantum networks ( http://arxiv.org/abs/2310.03373v2 )

ライセンス: Link先を確認
Danko Radi\'c, Leonid I. Gorelik, Sergei I. Kulinich, Robert I. Shekhter(参考訳) 超伝導電荷量子ネットワークのナノメカニカルな操作を実証するために, パラメータ制御のためのナノエレクトロメカニカルセットアップと対応する時間プロトコールを提案する。 ナノメカニクスによって促進される2つの電荷量子ビット間の量子情報の伝達である量子情報処理の重要なタスクを反映した例を示す。 設定は、バイアス電圧制御バルク超電導体と、クーパーペアボックスの配置で機械的に振動するメゾスコピック超電導粒子との間の交流ジョセフソン効果を利用した端子を、ゲート電圧で制御した端末に基づいている。 量子ネットワークの詳細な操作は、電荷量子ビット間の量子情報の変換と、量子ビット間の伝達を容易にする故意に構築されたナノメカニカルコヒーレント状態によって達成される。 この性能は、電気状態と機械状態の量子絡み合いによって達成される。

We suggest a nanoelectromechanical setup and corresponding time-protocol for controlling parameters in order to demonstrate nanomechanical manipulation of superconducting charge-qubit quantum network. We illustrate it on an example reflecting important task for quantum information processing - transmission of quantum information between two charge-qubits facilitated by nanomechanics. The setup is based on terminals utilizing the AC Josephson effect between bias voltage-controlled bulk superconductors and mechanically vibrating mesoscopic superconducting grain in the regime of the Cooper pair box, controlled by the gate voltage. The described manipulation of quantum network is achieved by transduction of quantum information between charge-qubits and intentionally built nanomechanical coherent states, which facilitate its transmission between qubits. This performance is achieved using quantum entanglement between electrical and mechanical states.
翻訳日:2023-10-20 18:58:44 公開日:2023-10-18
# 拡散モデルを用いたSUREに基づくロバストMRI再構成

SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models ( http://arxiv.org/abs/2310.01799v2 )

ライセンス: Link先を確認
Batu Ozturkler, Chao Liu, Benjamin Eckart, Morteza Mardani, Jiaming Song, Jan Kautz(参考訳) 拡散モデルは最近, 高い試料品質のため, MRI再構成の高速化で人気を博している。 これらは、推論時に柔軟にフォワードモデルを組み込む一方で、リッチなデータプリエントとして効果的に機能することができ、分散シフト下では未ロールのメソッドよりも堅牢であることが示されている。 しかし、拡散モデルは検証セット上の推論ハイパーパラメータの注意深いチューニングを必要とし、テスト中も分布シフトに敏感である。 これらの課題に対処するために,テスト時ハイパーパラメータチューニングを行い,テスト時の堅牢性を高める手法であるDiffusion Model (SMRD) を用いたSUREベースのMRI再構成を提案する。 SMRDは、Stein's Unbiased Risk Estimator (SURE) を用いて、テスト中の再構築の平均2乗誤差を推定する。 次に、SUREを使用して推論ハイパーパラメータを自動的にチューニングし、検証チューニングを必要とせずに早期停止基準を設定する。 我々の知る限り、SMRDはSUREを自動ハイパーパラメータ選択のための拡散モデルのサンプリング段階に組み込んだ最初のものである。 SMRDは、様々な測定ノイズレベル、加速度因子、解剖に基づく拡散モデルベースラインを上回り、測定ノイズ下で最大6dBのPSNR改善を達成する。 コードはhttps://github.com/NVlabs/SMRDで公開されている。

Diffusion models have recently gained popularity for accelerated MRI reconstruction due to their high sample quality. They can effectively serve as rich data priors while incorporating the forward model flexibly at inference time, and they have been shown to be more robust than unrolled methods under distribution shifts. However, diffusion models require careful tuning of inference hyperparameters on a validation set and are still sensitive to distribution shifts during testing. To address these challenges, we introduce SURE-based MRI Reconstruction with Diffusion models (SMRD), a method that performs test-time hyperparameter tuning to enhance robustness during testing. SMRD uses Stein's Unbiased Risk Estimator (SURE) to estimate the mean squared error of the reconstruction during testing. SURE is then used to automatically tune the inference hyperparameters and to set an early stopping criterion without the need for validation tuning. To the best of our knowledge, SMRD is the first to incorporate SURE into the sampling stage of diffusion models for automatic hyperparameter selection. SMRD outperforms diffusion model baselines on various measurement noise levels, acceleration factors, and anatomies, achieving a PSNR improvement of up to 6 dB under measurement noise. The code is publicly available at https://github.com/NVlabs/SMRD .
翻訳日:2023-10-20 18:56:49 公開日:2023-10-18
# 注釈付き医用画像分割のためのキーポイント強化自己監督学習

Keypoint-Augmented Self-Supervised Learning for Medical Image Segmentation with Limited Annotation ( http://arxiv.org/abs/2310.01680v2 )

ライセンス: Link先を確認
Zhangsihao Yang, Mengwei Ren, Kaize Ding, Guido Gerig, Yalin Wang(参考訳) 自己スーパービジョンによるcnnモデル(すなわちunet)の事前トレーニングは、低いアノテーション条件下で医用画像のセグメンテーションを促進するための強力なアプローチとなっている。 最近のコントラスト学習手法は、同じ画像が異なる変換を受けたときに同様のグローバル表現を奨励し、あるいは本質的に相関している異なる画像/パッチの特徴に対して不変性を強制する。 しかしながら、cnnが抽出したグローバルおよびローカルの特徴は、生物学的解剖学に不可欠な長距離空間依存を捉えることに制限されている。 この目的のために,短距離および長距離の自己着脱を保存する表現を抽出したキーポイント提示型核融合層を提案する。 特に、局所化キーポイント特徴間の長距離空間自己アテンションを学習する追加入力を組み込むことにより、CNN機能マップを複数スケールで拡張する。 さらに,グローバルおよびローカルの自己教師付き事前学習についても紹介する。 グローバルスケールでは、UNetのボトルネックと、マルチスケールのキーポイント機能を集約することで、グローバルな表現を得る。 これらのグローバルな特徴はその後、画像レベルのコントラスト目的によって規則化される。 局所スケールでは、まずキーポイント間の対応を確立し、特徴間の類似性を促進するための距離ベースの基準を定義する。 CNN と Transformer ベースの UNets と比較して,すべてのアーキテクチャがランダムに初期化重みでトレーニングされている場合,MRI と CT のセグメンテーションタスクの広範な実験を通じて,提案手法のアーキテクチャ上の利点を実証する。 提案した事前学習戦略により,より堅牢な自己アテンションを生成し,最先端のセグメンテーション結果を得ることにより,既存のSSL手法よりも優れる。 コードはhttps://github.com/zshyang/kaf.gitで入手できる。

Pretraining CNN models (i.e., UNet) through self-supervision has become a powerful approach to facilitate medical image segmentation under low annotation regimes. Recent contrastive learning methods encourage similar global representations when the same image undergoes different transformations, or enforce invariance across different image/patch features that are intrinsically correlated. However, CNN-extracted global and local features are limited in capturing long-range spatial dependencies that are essential in biological anatomy. To this end, we present a keypoint-augmented fusion layer that extracts representations preserving both short- and long-range self-attention. In particular, we augment the CNN feature map at multiple scales by incorporating an additional input that learns long-range spatial self-attention among localized keypoint features. Further, we introduce both global and local self-supervised pretraining for the framework. At the global scale, we obtain global representations from both the bottleneck of the UNet, and by aggregating multiscale keypoint features. These global features are subsequently regularized through image-level contrastive objectives. At the local scale, we define a distance-based criterion to first establish correspondences among keypoints and encourage similarity between their features. Through extensive experiments on both MRI and CT segmentation tasks, we demonstrate the architectural advantages of our proposed method in comparison to both CNN and Transformer-based UNets, when all architectures are trained with randomly initialized weights. With our proposed pretraining strategy, our method further outperforms existing SSL methods by producing more robust self-attention and achieving state-of-the-art segmentation results. The code is available at https://github.com/zshyang/kaf.git.
翻訳日:2023-10-20 18:56:27 公開日:2023-10-18
# プログラム検証のためのLLM生成ループ不変量ランキング

Ranking LLM-Generated Loop Invariants for Program Verification ( http://arxiv.org/abs/2310.09342v2 )

ライセンス: Link先を確認
Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy(参考訳) 帰納ループ不変量の合成は、プログラム検証の自動化に不可欠である。 本稿では,大規模言語モデル(gpt-3.5 や gpt-4 など)が,0-shot 設定のプログラムのクラスに対してループ不変量の合成が可能であるが,正しい不変量を生成するにはいくつかのサンプルが必要であることを検証した。 これは、不変性を確立するためのプログラム検証者への多数の呼び出しにつながる可能性がある。 この問題に対処するために, LLM の生成結果に対して, {\it re-level} アプローチを提案する。 我々は問題定義に基づいて正しい帰納的不変量と誤った試みを区別できるランク付け器を設計した。 ランク付けは対照的なランク付けに最適化されている。 実験結果から、この再ランク機構は、生成した候補の正しい不変量ランキングを大幅に改善し、検証者への呼び出し数が顕著に減少することを示した。

Synthesizing inductive loop invariants is fundamental to automating program verification. In this work, we observe that Large Language Models (such as gpt-3.5 or gpt-4) are capable of synthesizing loop invariants for a class of programs in a 0-shot setting, yet require several samples to generate the correct invariants. This can lead to a large number of calls to a program verifier to establish an invariant. To address this issue, we propose a {\it re-ranking} approach for the generated results of LLMs. We have designed a ranker that can distinguish between correct inductive invariants and incorrect attempts based on the problem definition. The ranker is optimized as a contrastive ranker. Experimental results demonstrate that this re-ranking mechanism significantly improves the ranking of correct invariants among the generated candidates, leading to a notable reduction in the number of calls to a verifier.
翻訳日:2023-10-20 18:38:49 公開日:2023-10-18
# ゲージ理論の冷原子量子シミュレータ

Cold-atom quantum simulators of gauge theories ( http://arxiv.org/abs/2310.12201v1 )

ライセンス: Link先を確認
Jad C. Halimeh, Monika Aidelsburger, Fabian Grusdt, Philipp Hauke, Bing Yang(参考訳) ゲージ理論は現代物理学の基礎となる基本的な枠組みであり、標準模型の基礎を構成し、凝縮物質における様々な現象の有用な記述を提供する。 アクセシブルで可変なテーブルトップ量子デバイス上でゲージ理論を実現することは、その力学を第一原理の時間進化から研究し、ゲージ不変性(例えば専用の粒子衝突器では不可能なゲージ不変性から逸脱して生じるものを含む、エキゾチック物理学を探索することを可能にする。 冷原子量子シミュレーターは、優れた高エネルギーおよび核物理学的な問題に対する新たな洞察を与える可能性を持っているだけでなく、低エネルギー多体物理学に関連する位相位相とエルゴディクティクスのメカニズムを探索するための汎用的なツールも提供する。 近年、コールド原子量子シミュレーターは1+1ドルのアベリアゲージ理論の大規模実装において顕著な進歩を見せている。 本稿では、ゲージ理論の冷原子量子シミュレータの進歩を概説し、ゲージ不変性を確実に安定化し、ビルディングブロックから大規模な実現へと進むために達成された重要な進歩を強調した。 また,より広い空間次元への展開,ゲージ場の高スピン表現,非可換ゲージ群について,様々な具体的提案を考察し,実験的および理論的にその技術を次のレベルに導くために必要なものについて,簡単な展望を述べる。

Gauge theories represent a fundamental framework underlying modern physics, constituting the basis of the Standard Model and also providing useful descriptions of various phenomena in condensed matter. Realizing gauge theories on accessible and tunable tabletop quantum devices offers the possibility to study their dynamics from first principles time evolution and to probe their exotic physics, including that generated by deviations from gauge invariance, which is not possible, e.g., in dedicated particle colliders. Not only do cold-atom quantum simulators hold the potential to provide new insights into outstanding high-energy and nuclear-physics questions, they also provide a versatile tool for the exploration of topological phases and ergodicity-breaking mechanisms relevant to low-energy many-body physics. In recent years, cold-atom quantum simulators have demonstrated impressive progress in the large-scale implementation of $1+1$D Abelian gauge theories. In this Review, we chronicle the progress of cold-atom quantum simulators of gauge theories, highlighting the crucial advancements achieved along the way in order to reliably stabilize gauge invariance and go from building blocks to large-scale realizations where \textit{bona fide} gauge-theory phenomena can be probed. We also provide a brief outlook on where this field is heading, and what is required experimentally and theoretically to bring the technology to the next level by surveying various concrete proposals for advancing these setups to higher spatial dimensions, higher-spin representations of the gauge field, and non-Abelian gauge groups.
翻訳日:2023-10-20 18:29:22 公開日:2023-10-18
# 量子材料ジョセフソンダイオードの無散逸非線形性

Dissipationless Nonlinearity in Quantum Material Josephson Diodes ( http://arxiv.org/abs/2310.12198v1 )

ライセンス: Link先を確認
Constantin Schrade, Valla Fatemi(参考訳) 3波混合のための散逸のない非線形性は、増幅器やボソニック量子ビットなど多くの超伝導量子デバイスの重要な要素である。 これまでのところ、このような3階非線形性は主にジョセフソントンネル接合の回路で達成されている。 本研究では,ゲート可変および固有対称性破壊量子材料ジョセフソン接合から3階非線形性を実現するための代替手法を理論的に開発する。 このアプローチをAndreev干渉計と磁気ジョセフソン接合という2つの例で説明する。 以上の結果から,両構成とも広帯域の周波数に対してkerrフリーな3波混合が可能であり,増幅器応用に非常に望ましい特性であることがわかった。 さらに, 磁気接合は, 外部バイアスを必要とせず, 極小単一接合装置における三波混合のパラダイム的例であることがわかった。 我々は、量子材料超伝導デバイスにおける散逸のない非線形性の探索を導くとともに、マイクロ波技術による量子材料の対称性破壊を特徴付ける新しい方法の開拓を期待する。

Dissipationless nonlinearities for three-wave mixing are a key component of many superconducting quantum devices, such as amplifiers and bosonic qubits. So far, such third-order nonlinearities have been primarily achieved with circuits of concatenated Josephson tunnel junctions. In this work, we theoretically develop an alternative approach to realize third-order nonlinearities from gate-tunable and intrinsically symmetry-broken quantum material Josephson junctions. We illustrate this approach on two examples, an Andreev interferometer and a magnetic Josephson junction. Our results show that both setups enable Kerr-free three-wave mixing for a broad range of frequencies, an attribute that is highly desirable for amplifier applications. Moreover, we also find that the magnetic junction constitutes a paradigmatic example for three-wave mixing in a minimal single-junction device without the need for any external biases. We hope that our work will guide the search of dissipationless nonlinearities in quantum material superconducting devices and inspire new ways of characterizing symmetry-breaking in quantum materials with microwave techniques.
翻訳日:2023-10-20 18:28:55 公開日:2023-10-18
# DynamiCrafter: ビデオ拡散プリミティブによるオープンドメインイメージのアニメーション

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors ( http://arxiv.org/abs/2310.12190v1 )

ライセンス: Link先を確認
Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xintao Wang, Tien-Tsin Wong, Ying Shan(参考訳) 静止画をモーションで強調することは、より活発な視覚体験を提供する。 従来の画像アニメーション技術では、雲や流体などのランダムなダイナミクスで自然のシーンをアニメーション化することに集中しており、汎用的な視覚コンテンツへの適用性が制限されている。 この制限を克服するために,オープンドメイン画像に対する動的コンテンツの合成を探索し,それらをアニメーションビデオに変換する。 鍵となるアイデアは、画像を生成過程に組み込むことで、テキストからビデオへの拡散モデルよりも前の動きを利用することである。 画像が与えられたら、学習可能な画像符号化ネットワークを用いてテキスト整列したリッチな画像埋め込み空間に投影し、ビデオモデルで画像内容の可視的消化を容易にする。 しかし、いくつかの視覚的な詳細は、結果のビデオで保存されるのに苦戦している。 さらに,より正確な画像情報を補うために,初期雑音に結合することで拡散モデルに全画像を供給する。 実験の結果,提案手法は自然な動きと入力画像への忠実度の両方を示す視覚的説得力のあるアニメーションビデオを生成することがわかった。 比較評価は既存の競合相手に対するアプローチの顕著な優位性を示している。 ソースコードは公開時に公開される。

Enhancing a still image with motion offers more engaged visual experience. Traditional image animation techniques mainly focus on animating natural scenes with random dynamics, such as clouds and fluid, and thus limits their applicability to generic visual contents. To overcome this limitation, we explore the synthesis of dynamic content for open-domain images, converting them into animated videos. The key idea is to utilize the motion prior of text-to-video diffusion models by incorporating the image into the generative process as guidance. Given an image, we first project it into a text-aligned rich image embedding space using a learnable image encoding network, which facilitates the video model to digest the image content compatibly. However, some visual details still struggle to be preserved in the resulting videos. To supplement more precise image information, we further feed the full image to the diffusion model by concatenating it with the initial noises. Experimental results reveal that our proposed method produces visually convincing animated videos, exhibiting both natural motions and high fidelity to the input image. Comparative evaluation demonstrates the notable superiority of our approach over existing competitors. The source code will be released upon publication.
翻訳日:2023-10-20 18:28:38 公開日:2023-10-18
# 3dハンドポーズとメッシュ推定のためのリサイクル学習を表すメッシュ

Mesh Represented Recycle Learning for 3D Hand Pose and Mesh Estimation ( http://arxiv.org/abs/2310.12189v1 )

ライセンス: Link先を確認
Bosang Kim, Jonghyun Kim, Hyotae Lee, Lanying Jin, Jeongwon Ha, Dowoo Kwon, Jungpyo Kim, Wonhyeok Im, KyungMin Jin, and Jungho Lee(参考訳) 一般に、ハンドポーズ推定は実世界のシーンにおけるモデルパフォーマンスのロバスト性を改善することを目的としている。 しかし,制約環境において既存のデータセットを取得して3d情報に注釈を付けるため,ロバスト性を高めることは困難である。 ニューラルネットワークは定量的に高い推定精度を達成するが、不満足な結果は視覚的品質で観察できる。 この定量的結果と視覚的品質の相違は、手ポーズ表現において未解決の問題である。 そこで本研究では,3次元ハンドポーズとメッシュ推定のためのリサイクル学習戦略として,合成されたハンドメッシュ表現をトレーニング段階で強化するメッシュを提案する。 具体的には、ハンドポーズとメッシュ推定モデルは、トレーニングフェーズにおいて実世界のハンドイメージとパラメトリックな3Dハンドアノテーション(例えば、ハンドメッシュのキーポイント位置と頂点)を予測する。 次に、自己推定手メッシュ表現を用いて合成手画像を生成する。 その後、合成された手の画像が再び同じモデルに送られます。 そこで,提案する学習戦略は,合成メッシュ表現を補強することにより,定量的な結果と視覚品質を同時に改善する。 そこで本研究では,本研究の学習戦略の正確性と信頼性を最大化する自己相関損失を提案する。 その結果、モデルでは、自身の出力からメッシュ表現を学習することで、手振り推定を効果的に行うことができる。 学習戦略の有効性を示すため,FreiHANDデータセットについて広範な実験を行った。 特に,我々の学習戦略は,推論中に余分な計算負担を伴わずに,ポーズやメッシュ推定の性能を向上させる。

In general, hand pose estimation aims to improve the robustness of model performance in the real-world scenes. However, it is difficult to enhance the robustness since existing datasets are obtained in restricted environments to annotate 3D information. Although neural networks quantitatively achieve a high estimation accuracy, unsatisfied results can be observed in visual quality. This discrepancy between quantitative results and their visual qualities remains an open issue in the hand pose representation. To this end, we propose a mesh represented recycle learning strategy for 3D hand pose and mesh estimation which reinforces synthesized hand mesh representation in a training phase. To be specific, a hand pose and mesh estimation model first predicts parametric 3D hand annotations (i.e., 3D keypoint positions and vertices for hand mesh) with real-world hand images in the training phase. Second, synthetic hand images are generated with self-estimated hand mesh representations. After that, the synthetic hand images are fed into the same model again. Thus, the proposed learning strategy simultaneously improves quantitative results and visual qualities by reinforcing synthetic mesh representation. To encourage consistency between original model output and its recycled one, we propose self-correlation loss which maximizes the accuracy and reliability of our learning strategy. Consequently, the model effectively conducts self-refinement on hand pose estimation by learning mesh representation from its own output. To demonstrate the effectiveness of our learning strategy, we provide extensive experiments on FreiHAND dataset. Notably, our learning strategy improves the performance on hand pose and mesh estimation without any extra computational burden during the inference.
翻訳日:2023-10-20 18:28:18 公開日:2023-10-18
# 見知らぬ危険だ! Redditにおけるフリージユーザとのコミュニティ間相互作用によるフリージコミュニティの成長

Stranger Danger! Cross-Community Interactions with Fringe Users Increase the Growth of Fringe Communities on Reddit ( http://arxiv.org/abs/2310.12186v1 )

ライセンス: Link先を確認
Giuseppe Russo, Manoel Horta Ribeiro, Robert West(参考訳) 陰謀論や過激主義のイデオロギーを促進するフランジコミュニティは主流のプラットフォームで成長し、彼らの成長を促進するメカニズムに関する疑問が提起されている。 新しいメンバーは、フリンジ・インターアクション(fringe-interactions)を通じてリクルートされる可能性がある: フリンジ・コミュニティのメンバと非メンバーの間のコメントの交換。 r/incel, r/gendercritical, r/the_donaldの3つの著名なフリンジコミュニティの成長に対するフリンジ相互作用の影響を調べるために, テキストに基づく因果推論手法を適用した。 この結果から,フリンジ・インタラクションが新たなメンバーを惹きつけることが示唆された。 これらのやりとりを受けたユーザーは、一致しない類似したユーザーよりも、フリンジコミュニティに参加する確率が最大4.2パーセンテージポイント(pp)高い。 この効果は影響を受けている 1)インタラクションが発生するコミュニティの特徴(例えば、左対右利きコミュニティ)と 2) 相互作用に使用される言語。 有毒な言語を用いた相互作用は、非有毒な相互作用よりも新参者を引き付けてコミュニティを侵害する確率が高い。 フォレスト(r/Incel,r/GenderCritical,r/The_Donald)を非フォレストコミュニティ(r/climatechange,r/NBA,r/leagueoflegends)に置き換えることで、この分析を繰り返しても効果が見つからない。 総じて, フランジ作用の縮小は主流プラットフォームにおけるフランジコミュニティの成長を減少させる可能性が示唆された。

Fringe communities promoting conspiracy theories and extremist ideologies have thrived on mainstream platforms, raising questions about the mechanisms driving their growth. Here, we hypothesize and study a possible mechanism: new members may be recruited through fringe-interactions: the exchange of comments between members and non-members of fringe communities. We apply text-based causal inference techniques to study the impact of fringe-interactions on the growth of three prominent fringe communities on Reddit: r/Incel, r/GenderCritical, and r/The_Donald. Our results indicate that fringe-interactions attract new members to fringe communities. Users who receive these interactions are up to 4.2 percentage points (pp) more likely to join fringe communities than similar, matched users who do not. This effect is influenced by 1) the characteristics of communities where the interaction happens (e.g., left vs. right-leaning communities) and 2) the language used in the interactions. Interactions using toxic language have a 5pp higher chance of attracting newcomers to fringe communities than non-toxic interactions. We find no effect when repeating this analysis by replacing fringe (r/Incel, r/GenderCritical, and r/The_Donald) with non-fringe communities (r/climatechange, r/NBA, r/leagueoflegends), suggesting this growth mechanism is specific to fringe communities. Overall, our findings suggest that curtailing fringe-interactions may reduce the growth of fringe communities on mainstream platforms.
翻訳日:2023-10-20 18:27:54 公開日:2023-10-18
# GNN集約プログラミング抽象化のアーキテクチャ的意味

Architectural Implications of GNN Aggregation Programming Abstractions ( http://arxiv.org/abs/2310.12184v1 )

ライセンス: Link先を確認
Yingjie Qi, Jianlei Yang, Ao Zhou, Tong Qiao and Chunming Hu(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータから有用な表現を抽出する強力な能力のために、大きな人気を集めている。 効率的なGNN計算の必要性が増すにつれ、GNNアグリゲーションを最適化するために設計された様々なプログラミング抽象化が登場し、加速が促進された。 しかしながら、既存の抽象化に関する包括的な評価や分析は存在しないため、どのアプローチがよいかを明確に合意することはできません。 本稿では,gnnアグリゲーションのための既存のプログラミング抽象化を,データ構造と伝播方法の次元で分類する。 これらの抽象化を最先端のGNNライブラリ上に構築することにより、その性能と効率を詳細に比較し、分析に基づく今後のGNN加速に関する洞察を提供する。

Graph neural networks (GNNs) have gained significant popularity due to the powerful capability to extract useful representations from graph data. As the need for efficient GNN computation intensifies, a variety of programming abstractions designed for optimizing GNN Aggregation have emerged to facilitate acceleration. However, there is no comprehensive evaluation and analysis upon existing abstractions, thus no clear consensus on which approach is better. In this letter, we classify existing programming abstractions for GNN Aggregation by the dimension of data organization and propagation method. By constructing these abstractions on a state-of-the-art GNN library, we perform a thorough and detailed characterization study to compare their performance and efficiency, and provide several insights on future GNN acceleration based on our analysis.
翻訳日:2023-10-20 18:27:21 公開日:2023-10-18
# 記憶を伴うドメイン増分学習への統一的アプローチ:理論とアルゴリズム

A Unified Approach to Domain Incremental Learning with Memory: Theory and Algorithm ( http://arxiv.org/abs/2310.12244v1 )

ライセンス: Link先を確認
Haizhou Shi, Hao Wang(参考訳) ドメインインクリメンタル学習は、以前のドメインからのデータ(すなわちメモリ)のごく一部にアクセスするドメインのシーケンスに適応することを目的としている。 この問題に対して様々な方法が提案されているが、それらがどのような関係があるのか、いつ別の方法を選ぶべきかは不明である。 そこで本研究では,メモリを用いた領域インクリメンタル学習のための統一ドメインインクリメンタル学習(udil)という統一フレームワークを提案する。 我々の UDIL**** は既存の様々なメソッドを統一し、我々の理論解析は、UDILがこれらのメソッドよりも厳密な一般化誤差を常に達成していることを示している。 この統一からの洞察に基づいて、我々のudilはトレーニング中に**adaptive**係数を許容するので、常に最も密接な境界を達成することができる。 実験の結果,我々のUDILは,合成データセットと実世界のデータセットの両方において,最先端のドメインインクリメンタル学習手法よりも優れていた。 コードはhttps://github.com/Wang-ML-Lab/unified-continual-learningで入手できる。

Domain incremental learning aims to adapt to a sequence of domains with access to only a small subset of data (i.e., memory) from previous domains. Various methods have been proposed for this problem, but it is still unclear how they are related and when practitioners should choose one method over another. In response, we propose a unified framework, dubbed Unified Domain Incremental Learning (UDIL), for domain incremental learning with memory. Our UDIL **unifies** various existing methods, and our theoretical analysis shows that UDIL always achieves a tighter generalization error bound compared to these methods. The key insight is that different existing methods correspond to our bound with different **fixed** coefficients; based on insights from this unification, our UDIL allows **adaptive** coefficients during training, thereby always achieving the tightest bound. Empirical results show that our UDIL outperforms the state-of-the-art domain incremental learning methods on both synthetic and real-world datasets. Code will be available at https://github.com/Wang-ML-Lab/unified-continual-learning.
翻訳日:2023-10-20 18:18:09 公開日:2023-10-18
# REVAMP: リアルな場面における任意物体に対する敵攻撃の自動シミュレーション

REVAMP: Automated Simulations of Adversarial Attacks on Arbitrary Objects in Realistic Scenes ( http://arxiv.org/abs/2310.12243v1 )

ライセンス: Link先を確認
Matthew Hull, Zijie J. Wang, and Duen Horng Chau(参考訳) 自動運転車で使用されるようなディープラーニングモデルは、攻撃者が環境に敵の物体を配置できる敵攻撃に対して脆弱であり、誤分類につながる。 デジタル空間におけるこれらの敵対的物体の生成は広く研究されているが、実際の環境要因を制御する上では、これらの攻撃をデジタル空間から物理的領域に転送することに成功している。 このライブラリは任意のオブジェクトで攻撃シナリオを作成し、現実的な環境要因、照明、反射、屈折をシミュレートする。 REVAMPにより、研究者や実践者は、実験を設計するための幅広い構成可能な選択肢を提供することで、デジタル領域内の様々なシナリオを迅速に探索することができる。 我々は,様々なシーンパラメータを制御しながら,選択したオブジェクトに対して逆テクスチャを生成するために,REVAMPを試してみる。 観客はシーン、攻撃対象、所望のアタッククラス、使用するカメラ位置を選択する。 そして、この変化したテクスチャが、選択したオブジェクトを誤って分類し、現実のシナリオにおけるREVAMPの可能性を示す。 REVAMPはオープンソースでhttps://github.com/poloclub/revamp.comから入手できる。

Deep Learning models, such as those used in an autonomous vehicle are vulnerable to adversarial attacks where an attacker could place an adversarial object in the environment, leading to mis-classification. Generating these adversarial objects in the digital space has been extensively studied, however successfully transferring these attacks from the digital realm to the physical realm has proven challenging when controlling for real-world environmental factors. In response to these limitations, we introduce REVAMP, an easy-to-use Python library that is the first-of-its-kind tool for creating attack scenarios with arbitrary objects and simulating realistic environmental factors, lighting, reflection, and refraction. REVAMP enables researchers and practitioners to swiftly explore various scenarios within the digital realm by offering a wide range of configurable options for designing experiments and using differentiable rendering to reproduce physically plausible adversarial objects. We will demonstrate and invite the audience to try REVAMP to produce an adversarial texture on a chosen object while having control over various scene parameters. The audience will choose a scene, an object to attack, the desired attack class, and the number of camera positions to use. Then, in real time, we show how this altered texture causes the chosen object to be mis-classified, showcasing the potential of REVAMP in real-world scenarios. REVAMP is open-source and available at https://github.com/poloclub/revamp.
翻訳日:2023-10-20 18:17:50 公開日:2023-10-18
# 暗黙的グラフアライメントによるマイテーション学習

Few-Shot In-Context Imitation Learning via Implicit Graph Alignment ( http://arxiv.org/abs/2310.12238v1 )

ライセンス: Link先を確認
Vitalis Vosylius and Edward Johns(参考訳) いくつかの異なるオブジェクトにまたがるタスクのデモを数回考えれば、ロボットはどのようにして、これまで目に見えない新しいオブジェクトに対して同じタスクを実行するかを学べるのか? クラス内の多種多様なオブジェクトは、新しいオブジェクトとデモにおけるオブジェクトの間のタスク関連の関係を推測することが難しくなるため、これは難しい。 オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。 そこで本研究では,ロボットが実演直後の新たな物体群に対して,事前の知識やさらなる訓練を必要とせずにタスクを遂行できる,文脈内学習を可能にすることを実証する。 実験では,デザイン選択を探索し,検証し,本手法が実世界の日常タスクを数回学習する上で,ベースラインを上回りながら,非常に効果的であることを示す。 ビデオはhttps://www.robot-learning.uk/implicit-graph-alignment.com/で閲覧できます。

Consider the following problem: given a few demonstrations of a task across a few different objects, how can a robot learn to perform that same task on new, previously unseen objects? This is challenging because the large variety of objects within a class makes it difficult to infer the task-relevant relationship between the new objects and the objects in the demonstrations. We address this by formulating imitation learning as a conditional alignment problem between graph representations of objects. Consequently, we show that this conditioning allows for in-context learning, where a robot can perform a task on a set of new objects immediately after the demonstrations, without any prior knowledge about the object class or any further training. In our experiments, we explore and validate our design choices, and we show that our method is highly effective for few-shot learning of several real-world, everyday tasks, whilst outperforming baselines. Videos are available on our project webpage at https://www.robot-learning.uk/implicit-graph-alignment.
翻訳日:2023-10-20 18:17:22 公開日:2023-10-18
# タスクレベルの混合モデルを用いた直接ニューラルマシン翻訳

Direct Neural Machine Translation with Task-level Mixture of Experts models ( http://arxiv.org/abs/2310.12236v1 )

ライセンス: Link先を確認
Isidora Chara Tourni, Subhajit Naskar(参考訳) direct neural machine translation (direct nmt) は、2つの非英語言語間でテキストを翻訳するnmtシステムの一種である。 直接nmtシステムは、非英語の言語ペア間の並列データの不足により、しばしば制限を受ける。 この制限に対処するために、多言語NMTやピボットNMT(英語版)のようないくつかのアプローチが提案されている。 Task-level Mixture of Expert Model (Task-level MoE)は、Transformerベースのモデルの推論効率のばらつきであり、多数の言語ペアに対して有望なNMT性能を示す。 Task-level MoEでは、異なる言語グループが異なるルーティング戦略を使用して、言語間の学習と推論速度を最適化できる。 本研究では,タスクレベル MoE の直接 NMT 適用性について検討し,タスクレベル MoE に基づく直接 NMT システムは,多数の低リソースと高リソースの直接対,および翻訳方向に対してバイリンガルおよびピボットモデルより優れる一連の高パフォーマンストレーニングおよび評価構成を提案する。 16名の専門家によるタスクレベルMoEは、7つの言語ペアのバイリンガルNMT、Pivot NMTモデルよりも優れています。

Direct neural machine translation (direct NMT) is a type of NMT system that translates text between two non-English languages. Direct NMT systems often face limitations due to the scarcity of parallel data between non-English language pairs. Several approaches have been proposed to address this limitation, such as multilingual NMT and pivot NMT (translation between two languages via English). Task-level Mixture of expert models (Task-level MoE), an inference-efficient variation of Transformer-based models, has shown promising NMT performance for a large number of language pairs. In Task-level MoE, different language groups can use different routing strategies to optimize cross-lingual learning and inference speed. In this work, we examine Task-level MoE's applicability in direct NMT and propose a series of high-performing training and evaluation configurations, through which Task-level MoE-based direct NMT systems outperform bilingual and pivot-based models for a large number of low and high-resource direct pairs, and translation directions. Our Task-level MoE with 16 experts outperforms bilingual NMT, Pivot NMT models for 7 language pairs, while pivot-based models still performed better in 9 pairs and directions.
翻訳日:2023-10-20 18:16:58 公開日:2023-10-18
# 代数データ型に対するEager Satisfiability Modulo理論

An Eager Satisfiability Modulo Theories Solver for Algebraic Datatypes ( http://arxiv.org/abs/2310.12234v1 )

ライセンス: Link先を確認
Amar Shah, Federico Mora, Sanjit A. Seshia(参考訳) Algebraic Data Types (ADT) は、列挙型、リスト、ツリーなどのデータ構造をキャプチャする関数型プログラミング言語で古典的に見られる構造である。 近年,adtsへの関心が高まっている。 例えば、Pythonのような人気のあるプログラミング言語は、ADTのサポートを追加した。 ADTに関する自動推論は、一階構造上の制約を伴うブール充足可能性問題の拡張であるSMT(Satisfiability modulo theory)解決を用いて行うことができる。 残念なことに、 ADT をサポートする SMT ソルバは、最先端のアプローチでは、すべて同じ \emph{lazy} アプローチのバリエーションを使用するため、スケールしない。 本稿では, 基本的に異なるアプローチ, \emph{eager} アプローチをとるSMTソルバを提案する。 具体的には、ADTクエリを単純な論理理論、非解釈関数(UF)に減らし、その減らしたクエリに既存のソルバを使用する。 われわれのアプローチの健全性と完全性を証明し、既存のベンチマークで最先端のベンチマークを上回り、計画領域からの新しいより挑戦的なベンチマークを上回ります。

Algebraic data types (ADTs) are a construct classically found in functional programming languages that capture data structures like enumerated types, lists, and trees. In recent years, interest in ADTs has increased. For example, popular programming languages, like Python, have added support for ADTs. Automated reasoning about ADTs can be done using satisfiability modulo theories (SMT) solving, an extension of the Boolean satisfiability problem with constraints over first-order structures. Unfortunately, SMT solvers that support ADTs do not scale as state-of-the-art approaches all use variations of the same \emph{lazy} approach. In this paper, we present an SMT solver that takes a fundamentally different approach, an \emph{eager} approach. Specifically, our solver reduces ADT queries to a simpler logical theory, uninterpreted functions (UF), and then uses an existing solver on the reduced query. We prove the soundness and completeness of our approach and demonstrate that it outperforms the state-of-theart on existing benchmarks, as well as a new, more challenging benchmark set from the planning domain.
翻訳日:2023-10-20 18:16:32 公開日:2023-10-18
# 量子テレポーテーションは対称性で保護された位相秩序を意味する

Quantum teleportation implies symmetry-protected topological order ( http://arxiv.org/abs/2310.12227v1 )

ライセンス: Link先を確認
Yifan Hong, David T. Stephen, Aaron J. Friedman(参考訳) 我々は、地域性からの洞察を用いて、幅広い種類のテレポーテーションプロトコルを制約する。 我々が考える「標準」テレポーテーションプロトコルでは、すべての結果依存ユニタリは、測定結果の線形関数に条件付けられたパウリ作用素である。 そのようなプロトコルはすべて、対称性を保護した位相的(SPT)順序を示す「資源状態」を作成することを含み、アベリアは対称性を保護している(\mathbb{Z}_2 \times \mathbb{Z}_2)^k$。 k$論理状態は、バルク内の対応する2k$文字列順序パラメータを測定し、結果依存のPaulisを適用することで、チェーンのエッジ間でテレポートされる。 したがって、この非自明なSPT状態の単一のクラスは、$k$ qubitsの標準的なテレポートに必要かつ十分である。 この結果を非安定化ハイパーグラフ状態を含むいくつかの例で示す。

We constrain a broad class of teleportation protocols using insights from locality. In the "standard" teleportation protocols we consider, all outcome-dependent unitaries are Pauli operators conditioned on linear functions of the measurement outcomes. We find that all such protocols involve preparing a "resource state" exhibiting symmetry-protected topological (SPT) order with Abelian protecting symmetry $\mathcal{G}_{k}= (\mathbb{Z}_2 \times \mathbb{Z}_2)^k$. The $k$ logical states are teleported between the edges of the chain by measuring the corresponding $2k$ string order parameters in the bulk and applying outcome-dependent Paulis. Hence, this single class of nontrivial SPT states is both necessary and sufficient for the standard teleportation of $k$ qubits. We illustrate this result with several examples, including a nonstabilizer hypergraph state.
翻訳日:2023-10-20 18:16:13 公開日:2023-10-18
# スピン鎖の基底状態における量子情報のスクランブルとアンスクランブルのメカニズム:ドメインウォール、スピンフリップ、散乱位相シフト

Mechanisms of scrambling and unscrambling of quantum information in the ground state in spin chains: domain-walls, spin-flips and scattering phase shifts ( http://arxiv.org/abs/2310.12226v1 )

ライセンス: Link先を確認
Samudra Sur, Diptiman Sen(参考訳) 時間外相関器(OTOC)の時空間進化は、局所的な量子情報の伝播とスクランブルを測定する。 開境界を持つ横フィールドイジングモデルについて、局所作用素 $\sigma^{x}$ は、局所情報がシステム全体にわたってスクランブルされ、さらに顕著に、もう一方の端で反射すると 'unscrambling' を開始する、基底状態 OTOC の興味深い図を示す。 以前のOTOCに関する議論では、そのような混乱と情報の不安定化の原因となる物理的プロセスは説明されなかった。 常磁性相では、スクランブルとアンスクランブルは、小さな相互作用が存在する場合でも、一対の低エネルギースピンフリップ励起が散乱するためであることを示す。 強磁性相では、同じ現象はドメインウォール励起の運動によって説明される。 したがって、システムパラメータの異なる範囲において、1つと2つのスピンフリップや1つのドメインウォールのような低エネルギー励起の観点で、非スクランブルを含むOTOCの時空画像の単純かつほぼ完全な理解を提供してきた。

The spatiotemporal evolution of the out-of-time-order correlator (OTOC) measures the propagation and scrambling of local quantum information. For the transverse field Ising model with open boundaries, the local operator $\sigma^{x}$ shows an interesting picture of the ground state OTOC where the local information gets scrambled throughout the entire system and, more strikingly, starts `unscrambling' upon reflection at the other end. Earlier discussions of OTOCs did not explain the physical processes responsible for such scrambling and unscrambling of information. We explicitly show that in the paramagnetic phase, the scrambling and unscrambling is due to the scattering of a pair of low-energy spin-flip excitations, even in the presence of small interactions. In the ferromagnetic phase the same phenomena are explained by the motion of a domain-wall excitation. Thus, in different limits of the system parameters, we have provided a simple and almost complete understanding of the space-time pictures of the OTOCs, including the unscrambling, in terms of the low-energy excitations like one and two spin-flips or a single domain wall.
翻訳日:2023-10-20 18:15:58 公開日:2023-10-18
# 量子重力を再考する時か?

Is it time to rethink quantum gravity? ( http://arxiv.org/abs/2310.12221v1 )

ライセンス: Link先を確認
Jonathan Oppenheim(参考訳) 重力は他のすべての力と同様に量子の性質を持つべきだと広く信じられているが、重力の量子理論を構築するための概念的な障害は、他の視点を探索することを妨げる。 重力は他の力と同じではない。 これは、量子場が発展する普遍的な時空幾何を定義するだけである。 物質は時空を曲げるので重力を感じます。 時間の流れは異なる場所で不均等である。 時間の流れの速度とそれが提供する因果構造は、量子論が十分に形式化されるためには古典的な記述が必要である。 この提案について議論するが、最終的には私たちを導くために実験をしなければならないと結論づける。

Although it's widely believed that gravity should have a quantum nature like every other force, the conceptual obstacles to constructing a quantum theory of gravity compel us to explore other perspectives. Gravity is not like any other force. It alone defines a universal space-time geometry, upon which quantum fields evolve. We feel gravity because matter causes space-time to bend. Time flows at unequal rates at different locations. The rate at which time flows, and the causal structure it provides, may be required to have a classical description in order for quantum theory to be well-formulated. I discuss arguments for this proposition, but ultimately conclude that we must turn to experiment to guide us.
翻訳日:2023-10-20 18:15:33 公開日:2023-10-18
# 動的量子相転移による閉じ込めの探索:量子スピンモデルから格子ゲージ理論へ

Probing Confinement Through Dynamical Quantum Phase Transitions: From Quantum Spin Models to Lattice Gauge Theories ( http://arxiv.org/abs/2310.12210v1 )

ライセンス: Link先を確認
Jesse Osborne, Ian P. McCulloch, Jad C. Halimeh(参考訳) 凝縮は凝縮物や高エネルギー物理学でよく見られる興味深い現象である。 量子多体系の遠方平衡臨界性に対するその効果の探索は、基本的および技術的な観点から大きな関心を持つ。 ここでは、動的量子相転移(dqpts)のタイプの定性的変化が3つのパラダイムモデル -- パワーロー相互作用量子イジングチェーン、二次元量子イジングモデル、スピン-$s$$$\mathrm{u}(1)$量子リンクモデル -- における閉じ込め-解法遷移に付随することを示すために、大規模な一様行列積状態計算を用いる。 これらのモデルの精細化パラメータをチューニングすることにより、(de) 分割のシグネチャとして \textit{branch} (\textit{manifold}) DQPT が生じることが分かる。 多様体 DQPT は順序パラメータの符号変化に関連付けられているのに対し、その分岐は順序パラメータがかなり制約されたダイナミクスを示すときでも発生する。 結論は、イオントラップのセットアップやゲージ理論のコールド原子実験など、現代の量子シミュレーションプラットフォームで検証できる。

Confinement is an intriguing phenomenon prevalent in condensed matter and high-energy physics. Exploring its effect on the far-from-equilibrium criticality of quantum many-body systems is of great interest both from a fundamental and technological point of view. Here, we employ large-scale uniform matrix product state calculations to show that a qualitative change in the type of dynamical quantum phase transitions (DQPTs) accompanies the confinement-deconfinement transition in three paradigmatic models -- the power-law interacting quantum Ising chain, the two-dimensional quantum Ising model, and the spin-$S$ $\mathrm{U}(1)$ quantum link model. By tuning a confining parameter in these models, it is found that \textit{branch} (\textit{manifold}) DQPTs arise as a signature of (de)confinement. Whereas manifold DQPTs are associated with a sign change of the order parameter, their branch counterparts are not, but rather occur even when the order parameter exhibits considerably constrained dynamics. Our conclusions can be tested in modern quantum-simulation platforms, such as ion-trap setups and cold-atom experiments of gauge theories.
翻訳日:2023-10-20 18:15:23 公開日:2023-10-18
# 正規化流れを持つパルサータイミングアレイの高速パラメータ推定

Fast Parameter Inference on Pulsar Timing Arrays with Normalizing Flows ( http://arxiv.org/abs/2310.12209v1 )

ライセンス: Link先を確認
David Shih, Marat Freytsis, Stephen R. Taylor, Jeff A. Dror, Nolan Smyth(参考訳) パルサータイミングアレイ (PTA) は高価なMCMC法を用いてベイズ後部推論を行う。 10-100パルサーとO(10^3)タイミングのデータセットが与えられた場合、確率重力波背景(SGWB)の後方分布を生成するのに数日から1週間かかる。 計算ボトルネックは、探索空間の次元を考慮した場合、MCMCに必要な可能性評価が極めてコストがかかるため生じる。 幸いなことに、シミュレーションデータの生成は高速であるため、現代的なシミュレーションベースの推論技術が問題に対処できる。 本稿では,シミュレーションデータに基づいて訓練された条件付き正規化フローを用いて,SGWB後部を極めて高速かつ高精度に推定し,サンプリング時間を数週間から秒単位に短縮できることを示す。

Pulsar timing arrays (PTAs) perform Bayesian posterior inference with expensive MCMC methods. Given a dataset of ~10-100 pulsars and O(10^3) timing residuals each, producing a posterior distribution for the stochastic gravitational wave background (SGWB) can take days to a week. The computational bottleneck arises because the likelihood evaluation required for MCMC is extremely costly when considering the dimensionality of the search space. Fortunately, generating simulated data is fast, so modern simulation-based inference techniques can be brought to bear on the problem. In this paper, we demonstrate how conditional normalizing flows trained on simulated data can be used for extremely fast and accurate estimation of the SGWB posteriors, reducing the sampling time from weeks to a matter of seconds.
翻訳日:2023-10-20 18:14:53 公開日:2023-10-18
# オープンセット多変量時系列異常検出

Open-Set Multivariate Time-Series Anomaly Detection ( http://arxiv.org/abs/2310.12294v1 )

ライセンス: Link先を確認
Thomas Lai, Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 近年,時系列異常検出法(TSAD)が多数出現している。 既存の手法の多くは教師なしであり、通常のトレーニングサンプルのみを前提としているが、トレーニングフェーズにラベル付き異常サンプルを組み込むことで優れた性能を示す方法はほとんどない。 しかしながら、特定の異常型は、教師なし手法が通常のデータと区別することが本質的に困難であるが、教師付き手法は訓練中に存在するものと類似した異常の検出に制約される。 本稿では,限られた種類の異常から少数のラベル付けされた異常を学習段階に表示し,テスト段階における異常と異常の両方を検出することを目的とした,オープンセットTSAD問題に対する新しいアプローチを提案する試みである。 提案手法は,MOSAD (Multivarate Open-Set timeseries Anomaly Detection) と呼ばれる,有意な時系列特徴を抽出する特徴エクストラクタ (Feature Extractor) と,可視・可視の両方の異常クラスを捕捉する生成型,偏差型,コントラスト型の両方からなるマルチヘッドネットワーク (Multiple-head) と,異常検出のための3つの頭部の洞察を利用した異常検出モジュールからなる。 3つの実世界のデータセットに関する広範囲な実験は、様々な実験環境で既存の方法を超えることを一貫して示しており、tsadフィールドにおける新しい最先端のパフォーマンスを確立している。

Numerous methods for time series anomaly detection (TSAD) methods have emerged in recent years. Most existing methods are unsupervised and assume the availability of normal training samples only, while few supervised methods have shown superior performance by incorporating labeled anomalous samples in the training phase. However, certain anomaly types are inherently challenging for unsupervised methods to differentiate from normal data, while supervised methods are constrained to detecting anomalies resembling those present during training, failing to generalize to unseen anomaly classes. This paper is the first attempt in providing a novel approach for the open-set TSAD problem, in which a small number of labeled anomalies from a limited class of anomalies are visible in the training phase, with the objective of detecting both seen and unseen anomaly classes in the test phase. The proposed method, called Multivariate Open-Set timeseries Anomaly Detection (MOSAD) consists of three primary modules: a Feature Extractor to extract meaningful time-series features; a Multi-head Network consisting of Generative-, Deviation-, and Contrastive heads for capturing both seen and unseen anomaly classes; and an Anomaly Scoring module leveraging the insights of the three heads to detect anomalies. Extensive experiments on three real-world datasets consistently show that our approach surpasses existing methods under various experimental settings, thus establishing a new state-of-the-art performance in the TSAD field.
翻訳日:2023-10-20 18:09:13 公開日:2023-10-18
# マルチエージェント強化学習のためのファクトベースエージェントモデリング

Fact-based Agent modeling for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.12290v1 )

ライセンス: Link先を確認
Baofu Fang, Caiming Zheng and Hao Wang(参考訳) マルチエージェントシステムでは、エージェントは環境で他のエージェントと相互作用し、協調する必要がある。 エージェントモデリングはエージェントの相互作用を促進し、適応的な協調戦略を作るのに不可欠である。 しかしながら、エージェントが他のエージェントの信念、行動、意図をモデル化することは、エージェントポリシーが同時に学習される非定常環境において困難である。 さらに、既存の手法では、実行やトレーニング中に他のエージェントのローカル情報にアクセス可能であると仮定した行動クローニングによるエージェントモデリングを実現する。 しかし、この仮定は、競争チーム、信頼できないコミュニケーション、プライバシーの懸念による連合学習など、未知のエージェントによって特徴づけられる未知のシナリオでは実現不可能である。 この仮定を取り除き、未知のシナリオでエージェントモデリングを実現するために、ファクトベース信念推論(fbi)ネットワークが、そのローカル情報のみに基づいて、部分的に観察可能な環境で他のエージェントをモデル化するファクトベースエージェントモデリング(fam)法が提案されている。 アクションの後にエージェントが得られる報酬と観察は事実と呼ばれ、FAMは事実を再構築ターゲットとして使用して、変動オートエンコーダを通じて他のエージェントのポリシー表現を学習する。 種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。 実験の結果,famは,多エージェント強化学習タスクにおいて適応的協調戦略を行い,複雑な競合協調混合シナリオにおいて高いリターンを達成し,エージェントポリシー学習の効率を効果的に向上できることがわかった。

In multi-agent systems, agents need to interact and collaborate with other agents in environments. Agent modeling is crucial to facilitate agent interactions and make adaptive cooperation strategies. However, it is challenging for agents to model the beliefs, behaviors, and intentions of other agents in non-stationary environment where all agent policies are learned simultaneously. In addition, the existing methods realize agent modeling through behavior cloning which assume that the local information of other agents can be accessed during execution or training. However, this assumption is infeasible in unknown scenarios characterized by unknown agents, such as competition teams, unreliable communication and federated learning due to privacy concerns. To eliminate this assumption and achieve agent modeling in unknown scenarios, Fact-based Agent modeling (FAM) method is proposed in which fact-based belief inference (FBI) network models other agents in partially observable environment only based on its local information. The reward and observation obtained by agents after taking actions are called facts, and FAM uses facts as reconstruction target to learn the policy representation of other agents through a variational autoencoder. We evaluate FAM on various Multiagent Particle Environment (MPE) and compare the results with several state-of-the-art MARL algorithms. Experimental results show that compared with baseline methods, FAM can effectively improve the efficiency of agent policy learning by making adaptive cooperation strategies in multi-agent reinforcement learning tasks, while achieving higher returns in complex competitive-cooperative mixed scenarios.
翻訳日:2023-10-20 18:08:41 公開日:2023-10-18
# ダイヤモンド中のシリコン空孔の高速光電子電荷状態変換

Fast optoelectronic charge state conversion of silicon vacancies in diamond ( http://arxiv.org/abs/2310.12288v1 )

ライセンス: Link先を確認
Manuel Rieger, Viviana Villafane, Lina M. Todenhagen, Stephan Matthies, Stefan Appel, Martin S. Brandt, Kai Mueller, Jonathan J. Finley(参考訳) ダイヤモンド中のIV族空色中心は、フォトニック量子技術への応用に強い可能性を持つスピン光子界面を約束している。 マルチキュービットデバイスへのスケーリングには、充電状態の制御と安定化のための信頼性の高い方法が緊急に必要である。 ここでは、発光と光電流分光を組み合わせたシリコン空孔(SiV)アンサンブルの電荷状態を操作する。 光活性siv$^-$とdark siv$^{2-}$の電荷状態をmhzレートと90%コントラストで制御し、面内電極とレーザー励起波長に適用される局所電位を任意に選択する。 我々は、ホールキャプチャーの下で強いSiV$^-$フォトルミネッセンスを観察し、暗いSiV$^{2-}$から明るいSiV$^-$36.4(6.7)msへの固有の変換時間を計測し、光ポンピングによる10^5$でどのように拡張できるかを実証した。 さらに,光導電性に寄与する欠陥を新たに把握し,置換窒素と希薄性の存在を示唆する。

Group IV vacancy color centers in diamond are promising spin-photon interfaces with strong potential for applications for photonic quantum technologies. Reliable methods for controlling and stabilizing their charge state are urgently needed for scaling to multi-qubit devices. Here, we manipulate the charge state of silicon vacancy (SiV) ensembles by combining luminescence and photo-current spectroscopy. We controllably convert the charge state between the optically active SiV$^-$ and dark SiV$^{2-}$ with MHz rates and 90% contrast by judiciously choosing the local potential applied to in-plane surface electrodes and the laser excitation wavelength. We observe intense SiV$^-$ photoluminescence under hole-capture, measure the intrinsic conversion time from the dark SiV$^{2-}$ to the bright SiV$^-$ to be 36.4(6.7)ms and demonstrate how it can be enhanced by a factor of $10^5$ via optical pumping. Moreover, we obtain new information on the defects that contribute to photo-conductivity, indicating the presence of substitutional nitrogen and divacancies.
翻訳日:2023-10-20 18:08:13 公開日:2023-10-18
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形混合モデリング

Sparse high-dimensional linear mixed modeling with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2310.12285v1 )

ライセンス: Link先を確認
Anja Zgodic, Ray Bai, Jiajia Zhang, Alexander C. McLain(参考訳) 高次元の縦断データは、幅広い科学研究でますます使われている。 しかし,高次元線形混合モデル(LMM)の統計的手法はほとんどなく,ベイズ変分選択法やペナル化法は独立な観測のために設計されている。 加えて、高次元LMM用の利用可能な数少ないソフトウェアパッケージはスケーラビリティの問題に悩まされている。 この研究は、高次元LMMに対する効率的かつ正確なベイズ的枠組みを示す。 我々は,パラメータの最大値(MAP)推定を計算効率よく行うために,ハイパーパラメータの実証的ベイズ推定器を柔軟性の向上に使用し,期待-決定-最小化(ECM)アルゴリズムを用いた。 このアプローチの目新しさは、パーティショニングとパラメータ拡張と高速でスケーラブルな計算にある。 計算時間とともに固定およびランダム効果推定を評価するシミュレーション研究において,分割経験ベイズecm(lmm-probe)を用いた線形混合モデリングについて述べる。 実世界の例では、小児のループスの研究データを用いて、新しいループスバイオマーカーに関連する遺伝子と臨床因子を特定し、時間とともにバイオマーカーを予測する。

High-dimensional longitudinal data is increasingly used in a wide range of scientific studies. However, there are few statistical methods for high-dimensional linear mixed models (LMMs), as most Bayesian variable selection or penalization methods are designed for independent observations. Additionally, the few available software packages for high-dimensional LMMs suffer from scalability issues. This work presents an efficient and accurate Bayesian framework for high-dimensional LMMs. We use empirical Bayes estimators of hyperparameters for increased flexibility and an Expectation-Conditional-Minimization (ECM) algorithm for computationally efficient maximum a posteriori probability (MAP) estimation of parameters. The novelty of the approach lies in its partitioning and parameter expansion as well as its fast and scalable computation. We illustrate Linear Mixed Modeling with PaRtitiOned empirical Bayes ECM (LMM-PROBE) in simulation studies evaluating fixed and random effects estimation along with computation time. A real-world example is provided using data from a study of lupus in children, where we identify genes and clinical factors associated with a new lupus biomarker and predict the biomarker over time.
翻訳日:2023-10-20 18:07:52 公開日:2023-10-18
# グラフ表現学習を用いたMOOCにおける自動グレード予測の性能向上

Enhancing the Performance of Automated Grade Prediction in MOOC using Graph Representation Learning ( http://arxiv.org/abs/2310.12281v1 )

ライセンス: Link先を確認
Soheila Farokhi, Aswani Yaramala, Jiangtao Huang, Muhammad F. A. Khan, Xiaojun Qi, Hamid Karimi(参考訳) 近年、大規模オープンオンラインコース(moocs)が急速に成長するオンライン学習現象として大きな注目を集めている。 伝統的な教室とは異なり、moocは異なる背景や地理的な場所から多様な観客に届けるユニークな機会を提供する。 ローンの大学や、CourseraのようなMOOC固有のプロバイダは、様々な分野のMOOCコースを提供している。 教師と学習者の直接的な交流が限られているため、成績や早期のドロップアウト予測のような自動評価タスクが必要である。 しかし、現在の自動評価アプローチでは、生徒やコースなど下流タスクに関わるさまざまなエンティティ間の構造的リンクを見落としている。 我々の仮説は、これらの構造的関係は相互作用グラフを通して表され、手前のタスクの性能を高める貴重な情報を含んでいることを示唆している。 これを検証するために,大規模なMOOCデータセットのためのユニークな知識グラフを構築し,研究コミュニティに公開する。 さらに,グラフ埋め込み技術を用いて,データセット内のエンティティ間の相互作用で符号化された潜在構造情報を抽出する。 これらの技術は真実のラベルを必要とせず、様々なタスクに利用できる。 最後に,エンティティ特有の特徴,行動的特徴,抽出された構造的特徴を組み合わせることで,学習者の割当成績予測における予測機械学習モデルの性能を向上させる。 実験により,下流評価タスクの予測性能が大幅に向上することを示す。 コードとデータは \url{https://github.com/DSAatUSU/MOOPer_grade_prediction} で公開されている。

In recent years, Massive Open Online Courses (MOOCs) have gained significant traction as a rapidly growing phenomenon in online learning. Unlike traditional classrooms, MOOCs offer a unique opportunity to cater to a diverse audience from different backgrounds and geographical locations. Renowned universities and MOOC-specific providers, such as Coursera, offer MOOC courses on various subjects. Automated assessment tasks like grade and early dropout predictions are necessary due to the high enrollment and limited direct interaction between teachers and learners. However, current automated assessment approaches overlook the structural links between different entities involved in the downstream tasks, such as the students and courses. Our hypothesis suggests that these structural relationships, manifested through an interaction graph, contain valuable information that can enhance the performance of the task at hand. To validate this, we construct a unique knowledge graph for a large MOOC dataset, which will be publicly available to the research community. Furthermore, we utilize graph embedding techniques to extract latent structural information encoded in the interactions between entities in the dataset. These techniques do not require ground truth labels and can be utilized for various tasks. Finally, by combining entity-specific features, behavioral features, and extracted structural features, we enhance the performance of predictive machine learning models in student assignment grade prediction. Our experiments demonstrate that structural features can significantly improve the predictive performance of downstream assessment tasks. The code and data are available in \url{https://github.com/DSAatUSU/MOOPer_grade_prediction}
翻訳日:2023-10-20 18:07:36 公開日:2023-10-18
# 画像は価値ある複数の単語である:多概念プロンプト学習を用いたオブジェクトレベル概念の学習

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning ( http://arxiv.org/abs/2310.12274v1 )

ライセンス: Link先を確認
Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare(参考訳) プロンプト学習法であるtextural inversionは、画像のスタイルと外観を表現する新しい「単語」のための特異な埋め込みを学習し、自然言語文に統合して新しい合成画像を生成することができる。 しかし、複数のオブジェクトレベルの概念を1つのシーンで識別し統合することは、個々の概念への埋め込みが達成可能であったとしても、重大な課題となる。 これは我々の経験的テストによってさらに確認される。 この課題に対処するために,複数の新しい単語を1つの文と画像のペアから同時に学習するMCPL(Multi-Concept Prompt Learning)フレームワークを提案する。 単語-概念相関の精度を高めるために、関連する領域の学習に集中するための注意的マスキング(AttnMask)、異なる概念の埋め込みを分離するためのPrompts Contrastive Loss(PromptCL)、既知の単語に新しい「単語」を関連付けるBind形容詞(Bind adj.)の3つの正規化手法を提案する。 画像生成,編集,多彩な画像による注意の可視化による評価を行った。 広範囲な定量的比較により,本手法は単語と概念の相関性を高め,より意味論的に絡み合った概念を学習できることが示される。 さらに,オブジェクト指向概念を学習する新たな課題に合わせた,新たなデータセットと評価プロトコルを提案する。

Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.
翻訳日:2023-10-20 18:07:14 公開日:2023-10-18
# p$-進ユニタリ作用素のスペクトル理論

Spectral theory of $p$-adic unitary operator ( http://arxiv.org/abs/2310.12266v1 )

ライセンス: Link先を確認
Zhao Tianhong(参考訳) p$-進ユニタリ作用素 $u$ は、$p$-進超計量バナッハ空間上の可逆作用素として定義され、$\left |u\right |=\left |u^{-1}\right |=1$ となる。 U$ のスペクトル測度は \textbf{projection functors {\displaystyle \textbf{projection functors} で表されるが、これは形式群スキームの測度論として説明できる。 U$のスペクトル分解は、$\psi$が$p$進波動関数であるときに完了する。 我々は$\textbf{the Galois theory of operator}$を研究する。 $\mathbb{q}_p$ のアーベル拡大理論は、$p$-進ユニタリ作用素の位相的性質と連結である。 p$-adicユニタリ演算子を3つの型に分類する。 $\textbf{Teichm\"uller type}, \textbf{continuous type}, \textbf{pro-finite type}$。 最後に、$\textbf{framework of $p$-adic quantum mechanics}$を定め、射影関手は量子測定の役割を果たす。

The $p$-adic unitary operator $U$ is defined as an invertible operator on $p$-adic ultrametric Banach space such that $\left |U\right |=\left |U^{-1}\right |=1$. We point out $U$ has a spectral measure valued in \textbf{projection functors}, which can be explained as the measure theory on the formal group scheme. The spectrum decomposition of $U$ is complete when $\psi$ is a $p$-adic wave function. We study $\textbf{the Galois theory of operators}$. The abelian extension theory of $\mathbb{Q}_p$ is connected to the topological properties of the $p$-adic unitary operator. We classify the $p$-adic unitary operator as three types: $\textbf{Teichm\"uller type}, \textbf{continuous type}, \textbf{pro-finite type}$. Finally, we establish a $\textbf{framework of $p$-adic quantum mechanics}$, where projection functor plays a role of quantum measurement.
翻訳日:2023-10-20 18:06:46 公開日:2023-10-18
# SCGANの類似性制約の改善とより良い遠交表現の学習

Improving SCGAN's Similarity Constraint and Learning a Better Disentangled Representation ( http://arxiv.org/abs/2310.12262v1 )

ライセンス: Link先を確認
Iman Yazdanpanah(参考訳) SCGANは生成した画像と条件の類似性制約を生成的敵ネットワーク上の正規化用語として追加する。 類似性制約は、生成ネットワークに条件に基づいた表現の違いを理解するよう指示するチュータとして機能する。 SCGANがより深いレベルでどのように機能するかを理解する。 この理解により、対比損失関数のような類似性制約関数が認識される。 高い理解と知性を持つモデルは、人間のように、その構造と高レベルの特徴に基づいて画像間の類似性を測定する。 修正モデルを作成するためにSCGANに適用した2つの大きな変更は、画像間の類似性を測定するためにSSIMを使用し、類似性制約に対照的な損失原理を適用することである。 修正されたモデルはfidとfactorvaeメトリクスを使ってより良く機能する。 修正されたモデルは、他のモデルと比べてより汎用性が高い。 キーワード生成逆ネット,教師なし学習,異方性表現学習,コントラスト的異方性,ssim

SCGAN adds a similarity constraint between generated images and conditions as a regularization term on generative adversarial networks. Similarity constraint works as a tutor to instruct the generator network to comprehend the difference of representations based on conditions. We understand how SCGAN works on a deeper level. This understanding makes us realize that the similarity constraint functions like the contrastive loss function. We believe that a model with high understanding and intelligence measures the similarity between images based on their structure and high level features, just like humans do. Two major changes we applied to SCGAN in order to make a modified model are using SSIM to measure similarity between images and applying contrastive loss principles to the similarity constraint. The modified model performs better using FID and FactorVAE metrics. The modified model also has better generalisability compared to other models. Keywords Generative Adversarial Nets, Unsupervised Learning, Disentangled Representation Learning, Contrastive Disentanglement, SSIM
翻訳日:2023-10-20 18:06:27 公開日:2023-10-18
# ハミルトニアンシミュレーションのための製品公式回路の改良

Some improvements to product formula circuits for Hamiltonian simulation ( http://arxiv.org/abs/2310.12256v1 )

ライセンス: Link先を確認
Andre Kornell and Peter Selinger(参考訳) トロッター・スズキ分解による基底状態エネルギー推定アルゴリズムの標準実装における3つの改善点を提案する。 これらは、ハミルトニアン項毎のより小さな回路テンプレート、可換制御回転の並列化、より効率的なスケジューリングからなる。 これらの改善は別々に検討され、標準実装の他の改善と組み合わせられる可能性があると期待する。 地中エネルギー推定のための新しいアルゴリズムを提案していないことに留意し、また、トロッタースズキ積公式のアルゴリズムがこの問題の最適選択であると主張することに留意する。 むしろ我々は、この特定のアルゴリズムの非常に効率的な実装を提供するために、回路最適化手法の使用を実証している。

We provide three improvements to the standard implementation of the ground state energy estimation algorithm via Trotter-Suzuki decomposition. These consist of smaller circuit templates for each Hamiltonian term, parallelization of commuting controlled rotations, and more efficient scheduling. These improvements may be regarded separately, and we anticipate that they may be combined with other improvements to the standard implementation. Note that we are not proposing a new algorithm for ground state energy estimation, nor are we claiming that the Trotter-Suzuki product formula family of algorithms is the optimal choice for this problem. Rather, we are demonstrating the use of circuit optimization techniques to give a very efficient implementation of this particular algorithm.
翻訳日:2023-10-20 18:06:13 公開日:2023-10-18
# MDPにおけるLTLとOmega-regular ObjectiveのPAC学習アルゴリズム

A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs ( http://arxiv.org/abs/2310.12248v1 )

ライセンス: Link先を確認
Mateo Perez, Fabio Somenzi, Ashutosh Trivedi(参考訳) リニア時間論理(LTL)とオメガ規則目的(LTLのスーパーセット)は、近年、強化学習における非マルコフ的目的を表現する手段として使われている。 マルコフ決定過程におけるオメガ正規目標に対するモデルベース近似ほぼ正の学習アルゴリズムを提案する。 従来の手法とは異なり,本アルゴリズムはシステムのサンプル軌跡から学習し,システムのトポロジに関する事前知識を必要としない。

Linear temporal logic (LTL) and omega-regular objectives -- a superset of LTL -- have seen recent use as a way to express non-Markovian objectives in reinforcement learning. We introduce a model-based probably approximately correct (PAC) learning algorithm for omega-regular objectives in Markov decision processes. Unlike prior approaches, our algorithm learns from sampled trajectories of the system and does not require prior knowledge of the system's topology.
翻訳日:2023-10-20 18:06:01 公開日:2023-10-18
# インセンティブとインセンティブのトレードオフによる継続的改善を可能にする適応実験の機会

Opportunities for Adaptive Experiments to Enable Continuous Improvement that Trades-off Instructor and Researcher Incentives ( http://arxiv.org/abs/2310.12324v1 )

ライセンス: Link先を確認
Ilya Musabirov, Angela Zavaleta-Bernuy, Pan Chen, Michael Liut and Joseph Jay Williams(参考訳) 代替教育戦略のランダム化実験比較は、インストラクターの意思決定において有用な実証的証拠となる。 しかし、従来の実験では、実験の学生が最良の条件を得られる可能性を高めるために、データを使用するための明確で単純な経路を持っていない。 先進技術企業における製品開発における機械学習と実験の利用からインスピレーションを得て,アダプティブ実験が継続的改善にどのように役立つかを検討する。 適応実験では、学生に異なる武器や条件が展開されるにつれて、データは分析され、将来の学生の体験を変えるために使用される。 これは、機械学習アルゴリズムを使って、学生の体験や成果を改善するための、より有望なアクションを特定することができる。 このアルゴリズムは、将来の学生に最も効果的な条件を動的に展開し、学生のニーズをより良く支援することができる。 cs1コースにおけるオンライン宿題問題における自己説明プロンプトの従来の実験と適応実験を並べて比較したケーススタディにより,本手法を述べる。 これは、この方法論が継続的な改善を行うための研究と実践を橋渡しするのにどのように役立つかの未来を探求するための第一歩となる。

Randomized experimental comparisons of alternative pedagogical strategies could provide useful empirical evidence in instructors' decision-making. However, traditional experiments do not have a clear and simple pathway to using data rapidly to try to increase the chances that students in an experiment get the best conditions. Drawing inspiration from the use of machine learning and experimentation in product development at leading technology companies, we explore how adaptive experimentation might help in continuous course improvement. In adaptive experiments, as different arms/conditions are deployed to students, data is analyzed and used to change the experience for future students. This can be done using machine learning algorithms to identify which actions are more promising for improving student experience or outcomes. This algorithm can then dynamically deploy the most effective conditions to future students, resulting in better support for students' needs. We illustrate the approach with a case study providing a side-by-side comparison of traditional and adaptive experimentation of self-explanation prompts in online homework problems in a CS1 course. This provides a first step in exploring the future of how this methodology can be useful in bridging research and practice in doing continuous improvement.
翻訳日:2023-10-20 17:57:37 公開日:2023-10-18
# 感性問題:感性分析の分解に関する批判的調査

The Sentiment Problem: A Critical Survey towards Deconstructing Sentiment Analysis ( http://arxiv.org/abs/2310.12318v1 )

ライセンス: Link先を確認
Pranav Narayanan Venkit, Mukund Srinath, Sanjana Gautam, Saranya Venkatraman, Vipul Gupta, Rebecca J. Passonneau, Shomir Wilson(参考訳) 我々は,感情分析(SA)の社会技術的側面について,その応用,モデル,データセットに関する189の査読論文を批判的に検討する。 我々の調査は、SAが多様な社会技術システムにおいて不可欠な要素となり、社会と技術の両方のユーザーに影響を与えることに由来する。 感情に関する社会学的・技術的文献を掘り下げることで、金融、政府、医療などの分野において、この用語の明確な概念化を明らかにする。 我々の研究は、感情を特徴づける明確な定義と枠組みの欠如を露呈し、潜在的な課題とバイアスをもたらす。 そこで本研究では,saの公平な利用を確保するために,実践者を指導するための重要な問合せを包含する倫理シートを提案する。 本研究は,saにおける感情定義に学際的アプローチを採用することの重要性を強調し,実践的なソリューションを提供する。

We conduct an inquiry into the sociotechnical aspects of sentiment analysis (SA) by critically examining 189 peer-reviewed papers on their applications, models, and datasets. Our investigation stems from the recognition that SA has become an integral component of diverse sociotechnical systems, exerting influence on both social and technical users. By delving into sociological and technological literature on sentiment, we unveil distinct conceptualizations of this term in domains such as finance, government, and medicine. Our study exposes a lack of explicit definitions and frameworks for characterizing sentiment, resulting in potential challenges and biases. To tackle this issue, we propose an ethics sheet encompassing critical inquiries to guide practitioners in ensuring equitable utilization of SA. Our findings underscore the significance of adopting an interdisciplinary approach to defining sentiment in SA and offer a pragmatic solution for its implementation.
翻訳日:2023-10-20 17:57:18 公開日:2023-10-18
# 局所フィルタリングを伴わない真の四者スヴェトリニー型非局所性の密接な上界

Tight upper bound of genuine four party Svetlichny type nonlocality with and without local filtering ( http://arxiv.org/abs/2310.12311v1 )

ライセンス: Link先を確認
Sk Sahadat Hossain, Biswajit Paul, Indrani Chattopadhyay and Debasis Sarkar(参考訳) マルチパーティ量子状態の非局所性を特定することは、量子力学において重要なタスクである。 Seevinck and Svetlichny [Phys. Rev. Lett. 89, 060401 (2002)] と独立に、コリンズと同僚 (Phys. Rev. Lett. 88, 170405 (2002)) は、Svetlichny の n-部への非局所性の概念を一般化した。 ここでは、真の4つのSvetlichny型非局所性に対する厳密な上限を開発した。 境界の厳密性に対する量子状態の制約も提示される。 この方法により、複数の量子状態に対して4ビットのSvetlichny型不等式に違反するための必要かつ十分な条件を提供することができる。 純粋4量子ビット状態に対するゼーヴィンクおよびスヴェトリクニー作用素の真の多成分絡み合いと極大量子値との関係についても論じる。 その結果,局所フィルタリングでは真の4ビット非局所性を示した。 この結果は、多部量子非局所性の研究を効果的かつ効果的に行う方法である。

Identifying the nonlocality of a multiparty quantum state is an important task in quantum mechanics. Seevinck and Svetlichny [Phys. Rev. Lett. 89, 060401 (2002)], and independently, Collins and co-workers [Phys. Rev. Lett. 88, 170405 (2002)] have generalized the tripartite notion of Svetlichny nonlocality to n-parties. Here we have developed a tight upper bound for genuine four party Svetlichny type nonlocality. The constraints on the quantum states for the tightness of the bound are also presented. The method enables us to provide necessary and sufficient conditions for violating the four qubit Svetlichny type inequality for several quantum states. The relations between the genuine multipartite entanglement and the maximal quantum value of the Seevinck and Svetlichny operators for pure four qubit states are also discussed. Consequently, we have exhibited genuine four qubit hidden nonlocality under local filtering. Our result provides an effective and operational method for further study of multipartite quantum nonlocality.
翻訳日:2023-10-20 17:56:55 公開日:2023-10-18
# 議論セマンティクス学習のための統一フレームワーク

A Unifying Framework for Learning Argumentation Semantics ( http://arxiv.org/abs/2310.12309v1 )

ライセンス: Link先を確認
Zlatina Mileva, Antonis Bikakis, Fabio Aurelio D'Asaro, Mark Law, Alessandra Russo(参考訳) 議論は人工知能の非常に活発な研究分野であり、人間と人工エージェントの対話で使用される議論の表現と評価に関係している。 形式的議論システムの受容可能性意味論は、議論の受け入れまたは拒否の基準を定義する。 議論解法として知られるいくつかのソフトウェアシステムは、そのような基準を用いて受け入れられ/拒絶された議論を計算するために開発された。 これらは、非解釈可能な方法を用いて受け入れられた引数を識別するシステムを含む。 本稿では、帰納的論理プログラミング手法を用いて、抽象的および構造化された議論フレームワークのアクセシビリティセマンティクスを解釈可能な方法で学習する新しいフレームワークを提案する。 経験的評価を通じて,提案手法は既存の議論解決手法を上回っており,形式的議論と人間-機械対話の分野における新たな研究の方向性が明らかにされる。

Argumentation is a very active research field of Artificial Intelligence concerned with the representation and evaluation of arguments used in dialogues between humans and/or artificial agents. Acceptability semantics of formal argumentation systems define the criteria for the acceptance or rejection of arguments. Several software systems, known as argumentation solvers, have been developed to compute the accepted/rejected arguments using such criteria. These include systems that learn to identify the accepted arguments using non-interpretable methods. In this paper we present a novel framework, which uses an Inductive Logic Programming approach to learn the acceptability semantics for several abstract and structured argumentation frameworks in an interpretable way. Through an empirical evaluation we show that our framework outperforms existing argumentation solvers, thus opening up new future research directions in the area of formal argumentation and human-machine dialogues.
翻訳日:2023-10-20 17:56:32 公開日:2023-10-18
# 分子言語モデルの選好最適化

Preference Optimization for Molecular Language Models ( http://arxiv.org/abs/2310.12304v1 )

ライセンス: Link先を確認
Ryan Park, Ryan Theisen, Navriti Sahni, Marcel Patek, Anna Cicho\'nska, Rayees Rahman(参考訳) 分子言語モデリングは、新しい化学構造を生成する効果的なアプローチである。 しかしこれらのモデルは、化学者が望むかもしれない特定の選好をエンコードしない。 直接選好最適化を用いた微調整を用いて、生成分子と化学選好との整合性を向上する。 以上より,このアプローチは単純,効率的,かつ極めて効果的であることが示唆された。

Molecular language modeling is an effective approach to generating novel chemical structures. However, these models do not \emph{a priori} encode certain preferences a chemist may desire. We investigate the use of fine-tuning using Direct Preference Optimization to better align generated molecules with chemist preferences. Our findings suggest that this approach is simple, efficient, and highly effective.
翻訳日:2023-10-20 17:56:20 公開日:2023-10-18
# 機械翻訳のための文書レベル言語モデル

Document-Level Language Models for Machine Translation ( http://arxiv.org/abs/2310.12303v1 )

ライセンス: Link先を確認
Frithjof Petrick and Christian Herold and Pavel Petrushkov and Shahram Khadivi and Hermann Ney(参考訳) 既知の制限にもかかわらず、今日でもほとんどの機械翻訳システムは文レベルで動作している。 この理由の1つは、ほとんどの並列トレーニングデータが文書レベルのメタ情報なしで、文レベルのアライメントのみであることだ。 本研究では,文書レベルのモノリンガルデータを用いた文脈対応翻訳システムの構築に着手した。 これは、既存の文レベルの翻訳モデルを文書レベルの言語モデルと組み合わせることで実現できる。 モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善する。 さらに,システムの組み合わせをより柔軟にし,計算オーバーヘッドを大幅に削減する新しい重み付け手法を提案する。 4つの多様な翻訳タスクの包括的評価において,本拡張により文書を対象とするスコアが大幅に向上し,計算効率も向上することを示した。 しかし、ほとんどのシナリオでは、バックトランスレーションは翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。 最後に,近年の大規模言語モデルの進歩を踏まえ,言語モデルの融合について考察する。 以上の結果から,モデルの組み合わせによる大規模言語モデルの利用には大きな可能性が示唆された。

Despite the known limitations, most machine translation systems today still operate on the sentence-level. One reason for this is, that most parallel training data is only sentence-level aligned, without document-level meta information available. In this work, we set out to build context-aware translation systems utilizing document-level monolingual data instead. This can be achieved by combining any existing sentence-level translation model with a document-level language model. We improve existing approaches by leveraging recent advancements in model combination. Additionally, we propose novel weighting techniques that make the system combination more flexible and significantly reduce computational overhead. In a comprehensive evaluation on four diverse translation tasks, we show that our extensions improve document-targeted scores substantially and are also computationally more efficient. However, we also find that in most scenarios, back-translation gives even better results, at the cost of having to re-train the translation system. Finally, we explore language model fusion in the light of recent advancements in large language models. Our findings suggest that there might be strong potential in utilizing large language models via model combination.
翻訳日:2023-10-20 17:56:15 公開日:2023-10-18
# 正の作用素価値測度の存在条件

Conditions for the existence of positive operator valued measures ( http://arxiv.org/abs/2310.12302v1 )

ライセンス: Link先を確認
Maximilian Schumacher and Gernot Alber(参考訳) 任意の次元量子系に有効な$(N,M)$-陽性作用素値測度(N,M)$-POVMs)の存在に対して、十分かつ必要な条件が提示される。 n,m)$-povmが存在するための十分な条件が提示される。 任意の$(N,M)$-POVM の連続パラメータ上の上限を決定する単純な関係を導き、以下にすべての POVM 要素が正半定値であることが保証される。 最適な$(N,M)$-POVMの存在のために必要条件が導出される。 これらの条件の1つは、最適情報完備$(N,M)$-POVMの存在と、パラメータ$M$が検討中の量子系の次元を超える場合の等スペクトル、トレースレス、正則、エルミート作用素基底の存在との間に密接な関係を示す。 別の必要条件は最適$(N,M)$-POVMsに対して導出され、パラメータ$M$は量子系の次元よりも小さい。 これらの後者の場合、すべてのPOVM元は必ずしも等級の射影作用素である。 これは最適な$(n,m)$-povmを構築するために可能なパラメータを大幅に制約する。 M=2$ の特別な場合、最適な$(N,2)$-POVMsが存在するための必要かつ十分な条件を示す。

Sufficient and necessary conditions are presented for the existence of $(N,M)$-positive operator valued measures ($(N,M)$-POVMs) valid for arbitrary-dimensional quantum systems. A sufficient condition for the existence of $(N,M)$-POVMs is presented. It yields a simple relation determining an upper bound on the continuous parameter of an arbitrary $(N,M)$-POVM, below which all its POVM elements are guaranteed to be positive semidefinite. Necessary conditions are derived for the existence of optimal $(N,M)$-POVMs. One of these necessary conditions exhibits a close connection between the existence of optimal informationally complete $(N,M)$-POVMs and the existence of isospectral, traceless, orthonormal, hermitian operator bases in cases, in which the parameter $M$ exceeds the dimension of the quantum system under consideration. Another necessary condition is derived for optimal $(N,M)$-POVMs, whose parameter $M$ is less than the dimension of the quantum system. It is shown that in these latter cases all POVM elements necessarily are projection operators of equal rank. This significantly constrains the possible parameters for constructing optimal $(N,M)$-POVMs. For the special case of $M=2$ a necessary and sufficient condition for the existence of optimal $(N,2)$-POVMs is presented.
翻訳日:2023-10-20 17:55:59 公開日:2023-10-18
# ポイントワイズ $\mathcal{V}$-Usable Information In-Context-ly

Measuring Pointwise $\mathcal{V}$-Usable Information In-Context-ly ( http://arxiv.org/abs/2310.12300v1 )

ライセンス: Link先を確認
Sheng Lu, Shan Chen, Yingya Li, Danielle Bitterman, Guergana Savova, and Iryna Gurevych(参考訳) In-context Learning(ICL)は、大規模言語モデルの開発とともに人気を博した新しい学習パラダイムである。 本研究では,最近提案されたハードネス指標であるポイントワイズ$\mathcal{v}$-usable information (pvi) をコンテキスト内バージョン (in-context pvi) に適用する。 オリジナルのPVIと比較すると、インコンテキストのPVIの方がより効率的であり、いくつかの例を必要とせず、微調整も必要としない。 テキスト内PVIの信頼性を評価するための総合的な実験分析を行った。 この結果から,テキスト内PVI推定値とPVI推定値の類似性が示唆された。 in-context設定に特有なものとして,in-context pvi推定値が,さまざまな例選択やショット数にわたって一貫していることを示す。 コンテクスト内PVIの推定値の相違は、コンテクスト内PVIが安定であることが示唆される。 さらに,コンテクスト内PVIを用いて難易度の高いインスタンスを識別する方法を示す。 我々の研究は、文脈内PVIの可能性を強調し、ICLの能力に関する新たな洞察を提供する。

In-context learning (ICL) is a new learning paradigm that has gained popularity along with the development of large language models. In this work, we adapt a recently proposed hardness metric, pointwise $\mathcal{V}$-usable information (PVI), to an in-context version (in-context PVI). Compared to the original PVI, in-context PVI is more efficient in that it requires only a few exemplars and does not require fine-tuning. We conducted a comprehensive empirical analysis to evaluate the reliability of in-context PVI. Our findings indicate that in-context PVI estimates exhibit similar characteristics to the original PVI. Specific to the in-context setting, we show that in-context PVI estimates remain consistent across different exemplar selections and numbers of shots. The variance of in-context PVI estimates across different exemplar selections is insignificant, which suggests that in-context PVI are stable. Furthermore, we demonstrate how in-context PVI can be employed to identify challenging instances. Our work highlights the potential of in-context PVI and provides new insights into the capabilities of ICL.
翻訳日:2023-10-20 17:55:35 公開日:2023-10-18
# Jorge: GPU効率の2階最適化のための近似プレコンディショニング

Jorge: Approximate Preconditioning for GPU-efficient Second-order Optimization ( http://arxiv.org/abs/2310.12298v1 )

ライセンス: Link先を確認
Siddharth Singh, Zachary Sating, Abhinav Bhatele(参考訳) 1次オプティマイザに比べて収束性は優れているが、深層学習のための2次オプティマイザは計算コストが大きいためあまり人気がない。 このようなオプティマイザの主な効率ボトルネックは、プリコンディショニングステップにおける行列逆計算である。 本稿では、二階法の急速な収束効果と一階法の典型的な計算効率の両立を約束する二階最適化器である jorge を紹介する。 我々は,プリコンディショナ計算の近似を用いて,計算行列の逆計算の主計算ボトルネックに対処する。 これによりJorgeは、ウォールタイムの点でGPU上で極めて効率が良い。 さらに,よく調整されたsgdベースラインから直接jorgeのハイパーパラメータを決定する手法について述べる。 実験による評価では,サンプル効率と壁面時間の両方で,SGD,AdamW,Shmpooといった最先端の最適化モデルよりも優れたJorgeを用いることのメリットが示された。

Despite their better convergence properties compared to first-order optimizers, second-order optimizers for deep learning have been less popular due to their significant computational costs. The primary efficiency bottleneck in such optimizers is matrix inverse calculations in the preconditioning step, which are expensive to compute on GPUs. In this paper, we introduce Jorge, a second-order optimizer that promises the best of both worlds -- rapid convergence benefits of second-order methods, and high computational efficiency typical of first-order methods. We address the primary computational bottleneck of computing matrix inverses by completely eliminating them using an approximation of the preconditioner computation. This makes Jorge extremely efficient on GPUs in terms of wall-clock time. Further, we describe an approach to determine Jorge's hyperparameters directly from a well-tuned SGD baseline, thereby significantly minimizing tuning efforts. Our empirical evaluations demonstrate the distinct advantages of using Jorge, outperforming state-of-the-art optimizers such as SGD, AdamW, and Shampoo across multiple deep learning models, both in terms of sample efficiency and wall-clock time.
翻訳日:2023-10-20 17:55:13 公開日:2023-10-18
# セグメンテーションのためのビデオトランスフォーマーの理解:応用と解釈可能性の検討

Understanding Video Transformers for Segmentation: A Survey of Application and Interpretability ( http://arxiv.org/abs/2310.12296v1 )

ライセンス: Link先を確認
Rezaul Karim, Richard P. Wildes(参考訳) ビデオセグメンテーションは、オブジェクト、シーン、アクタアクション、マルチモーダルビデオセグメンテーションなど、タスク固有のシーンコンポーネントをピクセルレベルのマスクでラインナリングするための問題定式化の幅広いカテゴリを含んでいる。 近年、この研究領域におけるアプローチは、ConvNetベースからトランスフォーマーベースモデルへとシフトしている。 さらに、トランスフォーマーモデルやビデオテンポラリダイナミクスに対する様々な解釈可能性アプローチが登場し、科学的な基礎理解、モデル診断、現実世界の展開の社会的影響への関心が高まっている。 以前の調査は主に、分類タスクのためのビデオセグメンテーションタスクまたはトランスフォーマーのサブセットに関するConvNetモデルに焦点を当てていた。 さらに、トランスベースビデオセグメンテーションモデルのコンポーネント単位での議論はまだ検討されていない。 さらに,ビデオモデルの時間的ダイナミックスモデリング能力の解析よりも,分類のためのトランスフォーマーに着目した解釈可能性手法の以前のレビューの方が注目度が低かった。 本調査では,ビデオセグメンテーションのさまざまなカテゴリに関する徹底的な議論,最先端のトランスフォーマーモデルに関するコンポーネントワイドな議論,および関連する解釈可能性手法について述べる。 まず、異なるビデオセグメンテーションタスクカテゴリ、その目的、具体的な課題、ベンチマークデータセットについて紹介する。 次に、近年のトランスフォーマーベースモデルのコンポーネントワイドレビューを行い、異なるビデオセグメンテーションタスクにおける技術の現状を文書化する。 次に,変圧器モデルのポストホックおよびアンテホック解釈法と,映像モデルにおける時間次元の役割を理解するための解釈法について論じる。 最後に、今後の研究方針で議論を締めくくります。

Video segmentation encompasses a wide range of categories of problem formulation, e.g., object, scene, actor-action and multimodal video segmentation, for delineating task-specific scene components with pixel-level masks. Recently, approaches in this research area shifted from concentrating on ConvNet-based to transformer-based models. In addition, various interpretability approaches have appeared for transformer models and video temporal dynamics, motivated by the growing interest in basic scientific understanding, model diagnostics and societal implications of real-world deployment. Previous surveys mainly focused on ConvNet models on a subset of video segmentation tasks or transformers for classification tasks. Moreover, component-wise discussion of transformer-based video segmentation models has not yet received due focus. In addition, previous reviews of interpretability methods focused on transformers for classification, while analysis of video temporal dynamics modelling capabilities of video models received less attention. In this survey, we address the above with a thorough discussion of various categories of video segmentation, a component-wise discussion of the state-of-the-art transformer-based models, and a review of related interpretability methods. We first present an introduction to the different video segmentation task categories, their objectives, specific challenges and benchmark datasets. Next, we provide a component-wise review of recent transformer-based models and document the state of the art on different video segmentation tasks. Subsequently, we discuss post-hoc and ante-hoc interpretability methods for transformer models and interpretability methods for understanding the role of the temporal dimension in video models. Finally, we conclude our discussion with future research directions.
翻訳日:2023-10-20 17:54:50 公開日:2023-10-18
# van der waals chain: 誘電体中のカシミール力の簡単なモデル

Van der Waals chain: a simple model for Casimir forces in dielectrics ( http://arxiv.org/abs/2310.12356v1 )

ライセンス: Link先を確認
H. Horner, L. M. Rachbauer, S. Rotter, U. Leonhardt(参考訳) 誘電体間のカシミール力はよく理解されているが、誘電体内部のカシミール力、特にその再正規化ではない。 我々は、再正規化のない媒体内でカシミール力の単純なモデルを開発し、分析し、次に再正規化がどのように現れるかを示す。 一次元に制限された電磁場の零点ゆらぎを散乱することにより、互いに相互作用する点粒子の1次元鎖を考える。 各粒子の力を計算するための高速で効率的なアルゴリズムを開発し、無限に多くの無限に弱い散乱体のマクロ限界の研究に適用する。 力密度は断片的に均質な媒質に収束するが、不均質な媒質に分散し、理論上すぐに崩壊する。 メディアの短距離対決力は、現実のこの崩壊を防ぎます。 これらの効果は誘電体のカシミール応力の再正規化として現れる。 我々の単純なモデルはまた、曲線空間における量子場のトレース異常の基本的な類似性も導出することができる。

The Casimir force between dielectric bodies is well-understood, but not the Casimir force inside a dielectric, in particular its renormalization. We develop and analyse a simple model for the Casimir forces inside a medium that is completely free of renormalization and show then how renormalization emerges. We consider a one-dimensional chain of point particles interacting with each other by scattering the zero-point fluctuations of the electromagnetic field confined to one dimension. We develop a fast, efficient algorithm for calculating the forces on each particle and apply it to study the macroscopic limit of infinitely many, infinitely weak scatterers. The force density converges for piece-wise homogeneous media, but diverges in inhomogeneous media, which would cause instant collapse in theory. We argue that short-range counter forces in the medium prevent this collapse in reality. Their effect appears as the renormalization of the Casimir stress in dielectrics. Our simple model also allows us to derive an elementary analogue of the trace anomaly of quantum fields in curved space.
翻訳日:2023-10-20 17:50:44 公開日:2023-10-18
# 異種情報を用いたネットワーク全体のトラフィック状態予測:多次元グラフアテンションに基づくアプローチ

Networkwide Traffic State Forecasting Using Exogenous Information: A Multi-Dimensional Graph Attention-Based Approach ( http://arxiv.org/abs/2310.12353v1 )

ライセンス: Link先を確認
Syed Islam, Monika Filipovska(参考訳) 交通状態予測は交通管理と制御戦略、および交通ネットワークにおけるユーザーおよびシステムレベルの意思決定において重要である。 過去数十年間、交通予測は様々な手法でアプローチされてきたが、ほとんどのアプローチは、外因性要因が交通条件に大きな影響を及ぼすという証拠にもかかわらず、内因性交通変数に依存している。 本稿では,過去の速度観測に基づくトラヒック予測と車線閉鎖イベント,温度,交通ネットワーク全体の可視性を考慮した多次元時空間グラフ注意型トラヒック予測手法(m-stgat)を提案する。 このアプローチはグラフ注意ネットワークアーキテクチャに基づいており、これらの変数が観測される輸送ネットワークの構造に基づいて学習する。 カリフォルニア交通省 (Caltrans) Performance Measurement System (PeMS) の交通速度と車線閉鎖データを用いて, 数値実験を行った。 気象データは、NOOA (National Oceanic and Atmospheric Administration) Automated Surface Observing Systems (ASOS)からダウンロードされた。 比較のために、数値実験は多次元入力を許さない3つの代替モデルを実装している。 M-STGATは、平均絶対誤差(MAE)、ルート平均角誤差(RMSE)、平均絶対誤差(MAPE)の3つの誤差尺度で、30分、45分、60分の予測水平線で予測するために、一次データセットを用いてテストを行う場合、以下の3つの代替モデルより優れている。 しかし、モデルの転送性は異なる転送データセットによって異なり、この側面はさらなる調査を必要とするかもしれない。

Traffic state forecasting is crucial for traffic management and control strategies, as well as user- and system-level decision making in the transportation network. While traffic forecasting has been approached with a variety of techniques over the last couple of decades, most approaches simply rely on endogenous traffic variables for state prediction, despite the evidence that exogenous factors can significantly impact traffic conditions. This paper proposes a multi-dimensional spatio-temporal graph attention-based traffic prediction approach (M-STGAT), which predicts traffic based on past observations of speed, along with lane closure events, temperature, and visibility across the transportation network. The approach is based on a graph attention network architecture, which also learns based on the structure of the transportation network on which these variables are observed. Numerical experiments are performed using traffic speed and lane closure data from the California Department of Transportation (Caltrans) Performance Measurement System (PeMS). The corresponding weather data were downloaded from the National Oceanic and Atmospheric Administration (NOOA) Automated Surface Observing Systems (ASOS). For comparison, the numerical experiments implement three alternative models which do not allow for the multi-dimensional input. The M-STGAT is shown to outperform the three alternative models, when performing tests using our primary data set for prediction with a 30-, 45-, and 60-minute prediction horizon, in terms of three error measures: Mean Absolute Error (MAE), Root Mean Square Error (RMSE) and Mean Absolute Percentage Error (MAPE). However, the model's transferability can vary for different transfer data sets and this aspect may require further investigation.
翻訳日:2023-10-20 17:50:27 公開日:2023-10-18
# knn-seq: 効率的で拡張可能なkNN-MTフレームワーク

knn-seq: Efficient, Extensible kNN-MT Framework ( http://arxiv.org/abs/2310.12352v1 )

ライセンス: Link先を確認
Hiroyuki Deguchi, Hayate Hirano, Tomoki Hoshino, Yuto Nishida, Justin Vasselli, Taro Watanabe(参考訳) k-nearest-neighbor machine translation (kNN-MT)は、デコード中の翻訳例を利用して、トレーニング済みニューラルネットワーク翻訳(NMT)モデルの翻訳品質を高める。 翻訳例は、データストアと呼ばれるベクトルデータベースに格納され、そのデータから生成された並列データから各ターゲットトークンへのエントリが1つ含まれている。 その大きさのため、データストアから例を作成および取得するのに計算コストがかかる。 本稿では,10億規模の大規模データストアでも効率的に動作するよう設計されている研究者や開発者に対して,効率的で拡張可能なkNN-MTフレームワークであるknn-seqを提案する。 knn-seqはfairseqのプラグインとして開発されており、モデルやkNNインデックスを簡単に切り替えることができる。 実験の結果,本実装の knn-mt はオリジナルの knn-mt に匹敵する向上を達成し,wmt'19 ドイツ語対英翻訳作業で2.21時間かかった。 私たちはknn-seqをMITライセンスのオープンソースプロジェクトとして公開しています。 デモビデオはhttps://youtu.be/ztdzeoq80m0。

k-nearest-neighbor machine translation (kNN-MT) boosts the translation quality of a pre-trained neural machine translation (NMT) model by utilizing translation examples during decoding. Translation examples are stored in a vector database, called a datastore, which contains one entry for each target token from the parallel data it is made from. Due to its size, it is computationally expensive both to construct and to retrieve examples from the datastore. In this paper, we present an efficient and extensible kNN-MT framework, knn-seq, for researchers and developers that is carefully designed to run efficiently, even with a billion-scale large datastore. knn-seq is developed as a plug-in on fairseq and easy to switch models and kNN indexes. Experimental results show that our implemented kNN-MT achieves a comparable gain to the original kNN-MT, and the billion-scale datastore construction took 2.21 hours in the WMT'19 German-to-English translation task. We publish our knn-seq as an MIT-licensed open-source project and the code is available on https://github.com/naist-nlp/knn-seq . The demo video is available on https://youtu.be/zTDzEOq80m0 .
翻訳日:2023-10-20 17:49:57 公開日:2023-10-18
# NuQKD: エンジニアリングアプリケーションのためのモジュラ量子鍵分布シミュレーションフレームワーク

NuQKD: A Modular Quantum Key Distribution Simulation Framework for Engineering Applications ( http://arxiv.org/abs/2310.12351v1 )

ライセンス: Link先を確認
Konstantinos Gkouliaras, Vasileios Theos, Phil Evans, Stylianos Chatzidakis(参考訳) 実験的なQuantum Key Distribution (QKD) の実装では、ほとんどの研究環境で利用できない高度なハードウェアが必要であり、プロトコルテストと性能評価が複雑になる。 歴史的に、これはQKDシミュレーションフレームワークの開発の大きな動機であり、研究者が実践的な実装を始める前に洞察を得られるようにしている。 近年、いくつかのシミュレータが導入された。 しかし4機のみが公開されており、そのうち1機のみが装備不足である。 現在、オープンソースのシミュレータには、チャネル減衰モデル、機器の欠陥とキーレートへの影響、量子チャネルプロセス中の経過時間の推定、量子ビットと測定ベースに真にランダムなバイナリシーケンスの使用、共有ビット分数カスタマイズなど、すべての機能が含まれていない。 本稿では,これらの機能をすべて備えた,オープンソースのモジュール型直感型シミュレータnuqkdを提案する。 NuQKDは、2つのコンピュータ端末間の通信を確立し、カスタム入力(編集、生のキーサイズ、インターセプションレートなど)を受け入れ、シフされたキー長、量子ビット誤り率(QBER)、経過した通信時間などを評価する。 NuQKDの機能には、光ファイバーと自由空間シミュレーション、機器/チャネル不完全性のモデリング、True Random Number Generatorからのビットストリング、モジュール設計とパフォーマンスメトリクスの自動評価が含まれる。 我々はNuQKDが実際の実験条件の簡便かつ正確な表現を可能にすることを期待する。

An experimental Quantum Key Distribution (QKD) implementation requires advanced costly hardware, unavailable in most research environments, making protocol testing and performance evaluation complicated. Historically, this has been a major motivation for the development of QKD simulation frameworks, to allow researchers to obtain insight before proceeding into practical implementations. Several simulators have been introduced over the recent years. However, only four are publicly available, only one of which models equipment imperfections. Currently, no open-source simulator includes all following capabilities: channel attenuation modelling, equipment imperfections and effect on key rates, estimation of elapsed time during quantum channel processes, use of truly random binary sequences for qubits and measurement bases, shared-bit fraction customization. In this paper, we present NuQKD, an open-source modular, intuitive simulator, featuring all the above capabilities. NuQKD establishes communication between two computer terminals, accepts custom inputs (iterations, raw key size, interception rate etc.) and evaluates the sifted key length, Quantum Bit Error Rate (QBER), elapsed communication time and more). NuQKD capabilities include optical fiber and free-space simulation, modeling of equipment/channel imperfections, bitstrings from True Random Number Generator, modular design and automated evaluation of performance metrics. We expect NuQKD to enable convenient and accurate representation of actual experimental conditions.
翻訳日:2023-10-20 17:49:34 公開日:2023-10-18
# 構造認識群フェアネスを用いたフェデレーショングラフニューラルネットワーク

Equipping Federated Graph Neural Networks with Structure-aware Group Fairness ( http://arxiv.org/abs/2310.12350v1 )

ライセンス: Link先を確認
Nan Cui, Xiuling Wang, Wendy Hui Wang, Violet Chen and Yue Ning(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野のグラフデータ処理や分析タスクに広く利用されている。 集中的なグラフデータのトレーニングは、プライバシー上の懸念と規制上の制約のために不可能である。 このようにして、フェデレーション学習(fl)は、分散学習パラダイムにおけるこの課題に対処するためのトレンドソリューションとなる。 しかし、GNNはトレーニングデータから歴史的バイアスを継承し、差別的予測につながる可能性があるため、ローカルモデルのバイアスは分散環境でグローバルモデルに容易に伝播することができる。 これは連合gnnのバイアスを軽減するための新たな課題となる。 この課題に対処するために、Fair Federated Graph Neural Networkである$\text{F}^2$GNNを提案する。 データと学習アルゴリズムの両方からバイアスを発生させることができるため、$\text{F}^2$GNNは、フェデレートされた設定の下で両方のバイアスを緩和することを目的としている。 まず、トレーニンググラフにおけるデータバイアスと、トレーニングされたGNNモデルの統計的公正度メトリクスの関係に関する理論的知見を提供する。 理論的解析に基づいて、クライアント側のローカルモデルのグループフェアネスを高めるフェアネス対応ローカルモデル更新スキームと、アグリゲーションプロセスにおいてローカルモデルのデータのバイアスとフェアネスを考慮に入れたフェアネス対応グローバルモデル更新スキームの2つの主要なコンポーネントを含む、$\text{F}^2$GNNを設計する。 我々は, $\text{F}^2$GNNを実験的に, 多数のベースライン法に対して評価し, フェアネスとモデル精度の両面で, これらのベースラインよりも優れていることを示した。

Graph Neural Networks (GNNs) have been widely used for various types of graph data processing and analytical tasks in different domains. Training GNNs over centralized graph data can be infeasible due to privacy concerns and regulatory restrictions. Thus, federated learning (FL) becomes a trending solution to address this challenge in a distributed learning paradigm. However, as GNNs may inherit historical bias from training data and lead to discriminatory predictions, the bias of local models can be easily propagated to the global model in distributed settings. This poses a new challenge in mitigating bias in federated GNNs. To address this challenge, we propose $\text{F}^2$GNN, a Fair Federated Graph Neural Network, that enhances group fairness of federated GNNs. As bias can be sourced from both data and learning algorithms, $\text{F}^2$GNN aims to mitigate both types of bias under federated settings. First, we provide theoretical insights on the connection between data bias in a training graph and statistical fairness metrics of the trained GNN models. Based on the theoretical analysis, we design $\text{F}^2$GNN which contains two key components: a fairness-aware local model update scheme that enhances group fairness of the local models on the client side, and a fairness-weighted global model update scheme that takes both data bias and fairness metrics of local models into consideration in the aggregation process. We evaluate $\text{F}^2$GNN empirically versus a number of baseline methods, and demonstrate that $\text{F}^2$GNN outperforms these baselines in terms of both fairness and model accuracy.
翻訳日:2023-10-20 17:49:09 公開日:2023-10-18
# 夜間光とソーシャルメディアを用いた電気損失の追跡とその認識要因

Tracking electricity losses and their perceived causes using nighttime light and social media ( http://arxiv.org/abs/2310.12346v1 )

ライセンス: Link先を確認
Samuel W Kerber, Nicholas A Duncan, Guillaume F LHer, Morgan Bazilian, Chris Elvidge, Mark R Deinert(参考訳) 都市環境は、重要なインフラの崩壊が経済と社会の健全性の両方に影響を与える複雑なシステムである。 電気システムは、他のインフラにとって不可欠であり、破壊は広範な結果を引き起こす可能性があるため、特に重要である。 典型的には、電力の可用性を評価するには地上レベルのデータが必要である。 本研究は,衛星画像,ソーシャルメディア,情報抽出が,ブラックアウトとその知覚原因を監視できることを示す。 夜間光データ(2019年3月、ベネズエラのカラカス)は停電地域を示すために使用される。 Twitterのデータは感情やトピックの傾向を決定するのに使われ、統計分析とトピックモデリングはブラックアウトの原因に関する一般の認識を掘り下げた。 その結果,夜間光強度の逆相関が認められた。 ベネズエラ大統領に関するツイートは、ネガティリティの高まりと非難関連用語の増加を示し、停電に対する政府の説明責任の認識を示唆した。

Urban environments are intricate systems where the breakdown of critical infrastructure can impact both the economic and social well-being of communities. Electricity systems hold particular significance, as they are essential for other infrastructure, and disruptions can trigger widespread consequences. Typically, assessing electricity availability requires ground-level data, a challenge in conflict zones and regions with limited access. This study shows how satellite imagery, social media, and information extraction can monitor blackouts and their perceived causes. Night-time light data (in March 2019 for Caracas, Venezuela) is used to indicate blackout regions. Twitter data is used to determine sentiment and topic trends, while statistical analysis and topic modeling delved into public perceptions regarding blackout causes. The findings show an inverse relationship between nighttime light intensity. Tweets mentioning the Venezuelan President displayed heightened negativity and a greater prevalence of blame-related terms, suggesting a perception of government accountability for the outages.
翻訳日:2023-10-20 17:48:17 公開日:2023-10-18
# ClusT3:情報不変テストタイムトレーニング

ClusT3: Information Invariant Test-Time Training ( http://arxiv.org/abs/2310.12345v1 )

ライセンス: Link先を確認
Gustavo A. Vargas Hakim and David Osowiechi and Mehrdad Noori and Milad Cheraghalikhani and Ismail Ben Ayed and Christian Desrosiers(参考訳) ディープラーニングモデルは、幅広いビジョンタスクにおいて顕著なパフォーマンスを示している。 しかし、テスト時にドメインシフトに弱いことが多い。 テストタイムトレーニング(TTT)手法は、これらの脆弱性を軽減するために開発され、二次タスクがメインタスクと同時にトレーニング時に解決され、後にテスト時に自己監督的なプロキシタスクとして使用される。 本研究では,マルチスケール特徴写像と離散潜在表現の相互情報の最大化に基づく新しい非教師付きTTT手法を提案する。 実験結果から, 各種テスト時間適応ベンチマークにおける競合分類性能が示された。

Deep Learning models have shown remarkable performance in a broad range of vision tasks. However, they are often vulnerable against domain shifts at test-time. Test-time training (TTT) methods have been developed in an attempt to mitigate these vulnerabilities, where a secondary task is solved at training time simultaneously with the main task, to be later used as an self-supervised proxy task at test-time. In this work, we propose a novel unsupervised TTT technique based on the maximization of Mutual Information between multi-scale feature maps and a discrete latent representation, which can be integrated to the standard training as an auxiliary clustering task. Experimental results demonstrate competitive classification performance on different popular test-time adaptation benchmarks.
翻訳日:2023-10-20 17:47:47 公開日:2023-10-18
# LACMA:メタアクションを用いた言語適応型コントラスト学習

LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction Following ( http://arxiv.org/abs/2310.12344v1 )

ライセンス: Link先を確認
Cheng-Fu Yang, Yen-Chun Chen, Jianwei Yang, Xiyang Dai, Lu Yuan, Yu-Chiang Frank Wang, Kai-Wei Chang(参考訳) エンド・ツー・エンドトランスフォーマは、訓練中に環境が見えてきたときに実施した実施命令の成功率を実証した。 しかし、目に見えない環境では苦労する傾向があります。 この一般化性の欠如は、エージェントが自然言語命令の微妙な変化に敏感でないためである。 この問題を軽減するために,エージェントの隠れ状態と命令を対照学習で明示的に整合させる手法を提案する。 それでも、ハイレベルな言語命令とエージェントの低レベルなアクション空間とのセマンティックなギャップは依然として障害である。 そこで我々はさらに,このギャップを橋渡しする新しいメタアクション概念を導入する。 メタアクションは、元のアクションシーケンスから解析できるユビキタスなアクションパターンである。 これらのパターンは直感的に命令に近い高レベルな意味論を表す。 メタアクションを追加の訓練信号として適用すると、エージェントは見当たらない環境に一般化する。 強力なマルチモーダルトランスフォーマーベースラインと比較して,ALFREDの未確認環境における絶対的な成功率の4.5%を達成できた。 さらなる分析により、対照的な目的とメタアクションは最良の結果を達成するのに相補的であり、その結果のエージェントは、その状態と対応する命令とをよりよく整合させ、現実世界のエンボダイドエージェントにより適していることが示された。 コードは以下の通り。 https://github.com/joeyy5588/LACMA。

End-to-end Transformers have demonstrated an impressive success rate for Embodied Instruction Following when the environment has been seen in training. However, they tend to struggle when deployed in an unseen environment. This lack of generalizability is due to the agent's insensitivity to subtle changes in natural language instructions. To mitigate this issue, we propose explicitly aligning the agent's hidden states with the instructions via contrastive learning. Nevertheless, the semantic gap between high-level language instructions and the agent's low-level action space remains an obstacle. Therefore, we further introduce a novel concept of meta-actions to bridge the gap. Meta-actions are ubiquitous action patterns that can be parsed from the original action sequence. These patterns represent higher-level semantics that are intuitively aligned closer to the instructions. When meta-actions are applied as additional training signals, the agent generalizes better to unseen environments. Compared to a strong multi-modal Transformer baseline, we achieve a significant 4.5% absolute gain in success rate in unseen environments of ALFRED Embodied Instruction Following. Additional analysis shows that the contrastive objective and meta-actions are complementary in achieving the best results, and the resulting agent better aligns its states with corresponding instructions, making it more suitable for real-world embodied agents. The code is available at: https://github.com/joeyy5588/LACMA.
翻訳日:2023-10-20 17:47:01 公開日:2023-10-18
# 計画による推論による推論の排除: llmsの非線形思考を導く新しい枠組み

Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking ( http://arxiv.org/abs/2310.12342v1 )

ライセンス: Link先を確認
Yongqi Tong, Yifan Wang, Dawei Li, Sizhe Wang, Zi Lin, Simeng Han, Jingbo Shang(参考訳) CoT(Chain-of-Thought)の促進と、その変種は、人間のような線形認知と論理をエミュレートすることで、高い推論能力を持つ大規模言語モデル(LLM)の装備を探究する。 しかし、人間の心は複雑で、線形思考と非線形思考の両方と混ざり合っている。 本研究では, LLM の非直線的思考を導くために, 排除原理と推論の原理を組み合わさった小説である \textbf{I}nferential \textbf{E}xclusion \textbf{P}rompting (IEP) を提案する。 IEP は LLM を計画し、自然言語推論 (NLI) を利用して、それぞれの可能なソリューションのコンテキスト、常識、事実との関係を推論する。 この前方計画と後方削除プロセスにより、IEPは、線形認知過程のみを反映する他のCoTベースの方法と比較して、複雑な人間の思考プロセスをシミュレートすることができる。 我々は一連の実証実験を行い、IEPがCoTを一貫して上回っていることを裏付けた。 さらに、IEPとCoTの統合により、特定のタスクにおけるLLMの性能が向上し、混合論理プロセスによるLLMの装備の必要性が強調される。 さらに,人間の論理に固有の包括的特徴をよりよく評価するために,<textbf{M}ental-\textbf{A}bility \textbf{R}easoning \textbf{B}enchmark (MARB)を紹介する。 このベンチマークは6つの新しいサブタスクから成り、合計9,115の質問があり、そのうち1,685は手作りの合理化参照で開発されている。 我々は,「textsc{IEP}」と「textsc{MARB}」の両方が,LLMの論理と言語推論能力を明らかにする上で有望な方向として機能し,さらなる進歩をもたらすと考えている。 もうすぐ ~\texttt{anonymity link} で \textsc{MARB} が利用可能になる。

Chain-of-Thought(CoT) prompting and its variants explore equipping large language models (LLMs) with high-level reasoning abilities by emulating human-like linear cognition and logic. However, the human mind is complicated and mixed with both linear and nonlinear thinking. In this work, we propose \textbf{I}nferential \textbf{E}xclusion \textbf{P}rompting (IEP), a novel prompting that combines the principles of elimination and inference in order to guide LLMs to think non-linearly. IEP guides LLMs to plan and then utilize Natural Language Inference (NLI) to deduce each possible solution's entailment relation with context, commonsense, or facts, therefore yielding a broader perspective by thinking back for inferring. This forward planning and backward eliminating process allows IEP to better simulate the complex human thinking processes compared to other CoT-based methods, which only reflect linear cognitive processes. We conducted a series of empirical studies and have corroborated that IEP consistently outperforms CoT across various tasks. Additionally, we observe that integrating IEP and CoT further improves the LLMs' performance on certain tasks, highlighting the necessity of equipping LLMs with mixed logic processes. Moreover, to better evaluate comprehensive features inherent in human logic, we introduce \textbf{M}ental-\textbf{A}bility \textbf{R}easoning \textbf{B}enchmark (MARB). The benchmark comprises six novel subtasks with a total of 9,115 questions, among which 1,685 are developed with hand-crafted rationale references. We believe both \textsc{IEP} and \textsc{MARB} can serve as a promising direction for unveiling LLMs' logic and verbal reasoning abilities and drive further advancements. \textsc{MARB} will be available at ~\texttt{anonymity link} soon.
翻訳日:2023-10-20 17:46:34 公開日:2023-10-18
# クラスタ制約による病理画像の表現学習の改善

Improving Representation Learning for Histopathologic Images with Cluster Constraints ( http://arxiv.org/abs/2310.12334v1 )

ライセンス: Link先を確認
Weiyi Wu, Chongyang Gao, Joseph DiPalma, Soroush Vosoughi, Saeed Hassanpour(参考訳) 近年のWSIスキャナーと計算能力の進歩は、病理組織学的スライド解析における人工知能の適用を著しく促進している。 これらの進歩は有望だが、現在のwsi分析のための教師付き学習アプローチでは、高い解像度のスライドを徹底的にラベル付けするという課題が伴っている。 対照的に、自己教師付き学習(SSL)事前トレーニング戦略は、明示的なデータアノテーションに依存しないため、実行可能な代替手段として現れています。 これらのSSL戦略は、管理対象とパフォーマンス格差を急速に埋め込んでいる。 この文脈ではSSLフレームワークを導入します。 このフレームワークは、WSI分析における不変損失とクラスタリング損失を相乗化することにより、伝達可能な表現学習と意味的なクラスタリングを目指している。 特に,megalyon16と膵癌データセットのテストで証明されたように,下流の分類とクラスタリングタスクにおけるsslメソッドよりも優れた手法である。 コードと追加の詳細は、https://github.com/wwyi1828/CluSiam.comで確認できる。

Recent advances in whole-slide image (WSI) scanners and computational capabilities have significantly propelled the application of artificial intelligence in histopathology slide analysis. While these strides are promising, current supervised learning approaches for WSI analysis come with the challenge of exhaustively labeling high-resolution slides - a process that is both labor-intensive and time-consuming. In contrast, self-supervised learning (SSL) pretraining strategies are emerging as a viable alternative, given that they don't rely on explicit data annotations. These SSL strategies are quickly bridging the performance disparity with their supervised counterparts. In this context, we introduce an SSL framework. This framework aims for transferable representation learning and semantically meaningful clustering by synergizing invariance loss and clustering loss in WSI analysis. Notably, our approach outperforms common SSL methods in downstream classification and clustering tasks, as evidenced by tests on the Camelyon16 and a pancreatic cancer dataset. The code and additional details are accessible at: https://github.com/wwyi1828/CluSiam.
翻訳日:2023-10-20 17:45:53 公開日:2023-10-18
# 変圧器を用いた気候センサ配置問題の解法

Learning to Solve Climate Sensor Placement Problems with a Transformer ( http://arxiv.org/abs/2310.12387v1 )

ライセンス: Link先を確認
Chen Wang, Victoria Huang, Gang Chen, Hui Ma, Bryce Chen, and Jochen Schmidt(参考訳) 環境モニタリングと災害管理のためのセンサの最適配置は、NPハードの性質のため難しい問題である。 センサ配置の伝統的な方法には、精密、近似、ヒューリスティックなアプローチがあり、後者が最も広く使われている。 しかし、ヒューリスティックな手法は専門家の直観と経験によって制限される。 ディープラーニング(DL)はヒューリスティックアルゴリズムを自動生成するための有望なアプローチとして登場した。 本稿では, 深部強化学習(RL)法を用いた学習改善ヒューリスティックスに着目した新しいセンサ配置手法を提案する。 提案手法は,政策ネットワークをトレーニングするためのアクター・クリティカル・アルゴリズムによって駆動される学習改善ヒューリスティックスのためのRL定式化を利用する。 本手法をいくつかの最先端手法と比較し, 総合的な実験を行い, 提案手法の有効性と優位性を実証した。 本研究は,気候センサ配置問題に対する高度DLおよびRL技術の適用に向けた有望な方向性を示す。

The optimal placement of sensors for environmental monitoring and disaster management is a challenging problem due to its NP-hard nature. Traditional methods for sensor placement involve exact, approximation, or heuristic approaches, with the latter being the most widely used. However, heuristic methods are limited by expert intuition and experience. Deep learning (DL) has emerged as a promising approach for generating heuristic algorithms automatically. In this paper, we introduce a novel sensor placement approach focused on learning improvement heuristics using deep reinforcement learning (RL) methods. Our approach leverages an RL formulation for learning improvement heuristics, driven by an actor-critic algorithm for training the policy network. We compare our method with several state-of-the-art approaches by conducting comprehensive experiments, demonstrating the effectiveness and superiority of our proposed approach in producing high-quality solutions. Our work presents a promising direction for applying advanced DL and RL techniques to challenging climate sensor placement problems.
翻訳日:2023-10-20 17:36:57 公開日:2023-10-18
# 認知階層におけるオンライン学習と計画

Online Learning and Planning in Cognitive Hierarchies ( http://arxiv.org/abs/2310.12386v1 )

ライセンス: Link先を確認
Bernhard Hengst, Maurice Pagnucco, David Rajaratnam, Claude Sammut, Michael Thielscher(参考訳) 複雑なロボットの振る舞いは、通常、複数のロボットと人工知能(AI)の技術とコンポーネントを統合する必要がある。 このような異なるコンポーネントをコヒーレントなシステムに統合することは、グローバルな特性と行動を保証すると同時に、認知ロボティクスにとって大きな課題である。 正式なフレームワークを使用してコンポーネント間のインタラクションをモデル化することは、この課題に対処するための重要なステップである。 本稿では,ロボットシステムの複雑な統合的推論行動(シンボリック・プランニングからポリシやトランジションシステムのオンライン学習まで)をモデル化するために,既存の形式的フレームワーク [clark et al., 2016] を拡張する。 さらに、新しいフレームワークは異なる推論コンポーネント間の相互作用をより柔軟なモデリングを可能にする。

Complex robot behaviour typically requires the integration of multiple robotic and Artificial Intelligence (AI) techniques and components. Integrating such disparate components into a coherent system, while also ensuring global properties and behaviours, is a significant challenge for cognitive robotics. Using a formal framework to model the interactions between components can be an important step in dealing with this challenge. In this paper we extend an existing formal framework [Clark et al., 2016] to model complex integrated reasoning behaviours of robotic systems; from symbolic planning through to online learning of policies and transition systems. Furthermore the new framework allows for a more flexible modelling of the interactions between different reasoning components.
翻訳日:2023-10-20 17:36:43 公開日:2023-10-18
# 関係埋め込み連鎖を用いたハードアナロジー問題の解法

Solving Hard Analogy Questions with Relation Embedding Chains ( http://arxiv.org/abs/2310.12379v1 )

ライセンス: Link先を確認
Nitesh Kumar and Steven Schockaert(参考訳) 概念の関連性をモデル化することは、語彙意味論において中心的なトピックである。 共通の戦略は、概念ネットのような知識グラフ(kgs)に依存し、2つの概念の関係を経路の集合としてモデル化することである。 しかしながら、KGは関係型の固定集合に限られており、それらは不完全であり、しばしばうるさい。 もう1つの戦略は、微調整言語モデルから関係埋め込みを蒸留することである。 しかし、これは間接的にのみ関係のある単語には適さないため、構造化されたドメイン知識を組み込むことはできない。 本稿では,両世界のベストを組み合わせることを目的とする。 我々は関係を経路としてモデル化するが、エッジと関係埋め込みを関連付ける。 経路は、まず適切な中間語を識別し、次に情報的関係埋め込みが得られる単語を選択することで得られる。 提案した表現は,難解な類似問題の解法に有用であることを示す。

Modelling how concepts are related is a central topic in Lexical Semantics. A common strategy is to rely on knowledge graphs (KGs) such as ConceptNet, and to model the relation between two concepts as a set of paths. However, KGs are limited to a fixed set of relation types, and they are incomplete and often noisy. Another strategy is to distill relation embeddings from a fine-tuned language model. However, this is less suitable for words that are only indirectly related and it does not readily allow us to incorporate structured domain knowledge. In this paper, we aim to combine the best of both worlds. We model relations as paths but associate their edges with relation embeddings. The paths are obtained by first identifying suitable intermediate words and then selecting those words for which informative relation embeddings can be obtained. We empirically show that our proposed representations are useful for solving hard analogy questions.
翻訳日:2023-10-20 17:36:33 公開日:2023-10-18
# グローバル予算均衡による二国間貿易におけるノンレグレット学習

No-Regret Learning in Bilateral Trade via Global Budget Balance ( http://arxiv.org/abs/2310.12370v1 )

ライセンス: Link先を確認
Martino Bernasconi, Matteo Castiglioni, Andrea Celli, Federico Fusco(参考訳) 二国間貿易は、2つの戦略エージェント(売り手と買い手)の取引を促進するという課題を中心に展開している。 我々は、問題のオンラインバージョンを調査し、各段階で新しい売り手と買い手が到着する。 学習者の仕事は、各エージェントの価格を設定することであり、その評価について何の知識も持たない。 売り手と買い手の連続は、不可解な敵によって選択される。 この設定では、既知の負の結果は、学習者が反復ごとに予算バランスを保証しなければならない場合に、サブ線形後悔を伴うアルゴリズムを設計する可能性を排除している。 本稿では,グローバルな予算バランスの概念を紹介する。これは,時間的地平線全体を通してのみ,エージェントが予算バランスを取ることを必要とする。 グローバル予算均衡を求めることにより,様々なフィードバックモデルにおいて,対向入力との双方向取引のための最初のno-regretアルゴリズムを提供する。 まず、フルフィードバックモデルにおいて学習者は、従順に最適である最高の固定価格に対して$\tilde{o}(\sqrt{t})$ regretを保証できることを示す。 そして、部分フィードバックモデルの場合、1ビットフィードバックで$\tilde{O}(T^{3/4})$残念な上限を保証し、ほぼ一致する下限を補完するアルゴリズムを提供する。 最後に,代替ベンチマークを用いて後悔度を測定する際に,これらの結果がどのように変化するかを検討する。

Bilateral trade revolves around the challenge of facilitating transactions between two strategic agents -- a seller and a buyer -- both of whom have a private valuations for the item. We study the online version of the problem, in which at each time step a new seller and buyer arrive. The learner's task is to set a price for each agent, without any knowledge about their valuations. The sequence of sellers and buyers is chosen by an oblivious adversary. In this setting, known negative results rule out the possibility of designing algorithms with sublinear regret when the learner has to guarantee budget balance for each iteration. In this paper, we introduce the notion of global budget balance, which requires the agent to be budget balance only over the entire time horizon. By requiring global budget balance, we provide the first no-regret algorithms for bilateral trade with adversarial inputs under various feedback models. First, we show that in the full-feedback model the learner can guarantee $\tilde{O}(\sqrt{T})$ regret against the best fixed prices in hindsight, which is order-wise optimal. Then, in the case of partial feedback models, we provide an algorithm guaranteeing a $\tilde{O}(T^{3/4})$ regret upper bound with one-bit feedback, which we complement with a nearly-matching lower bound. Finally, we investigate how these results vary when measuring regret using an alternative benchmark.
翻訳日:2023-10-20 17:36:20 公開日:2023-10-18
# 複合密結合モデルの解析的進化:量子光マニピュレーションへの応用

Analytic Evolution for Complex Coupled Tight-Binding Models: Applications to Quantum Light Manipulation ( http://arxiv.org/abs/2310.12366v1 )

ライセンス: Link先を確認
Santiago Rojas-Rojas and Camila Mu\~noz and Edgar Barriga and Pablo Solano and Aldo Delgado and Carla Hermann-Avigliano(参考訳) 一次元強結合モデルにおいて、等振幅および任意の位相を持つ複素第一近傍結合を考慮した空間発展の解析解を提案する。 本研究は,計算が困難であるシステム内の期待値と相関を効率的に計算するための強力なツールを提供する。 我々は,Nポートリニアカプラを用いた量子光操作における一般的な例に適用し,単一(多重)モードのスクイーズ,単一光子付加(置換)ガウス状態,および2次サイト-サイト-サイト-フォトン相関について述べる。 解析結果は標準数値計算より優れている。 本研究は、強結合モデルによって制御される幅広い物理系における量子状態の空間的進化を記述する包括的数学的枠組みへの道を開くものである。

We present analytic solutions to the spatial evolution in one-dimensional tight-binding models, considering complex first-neighbor couplings with equal amplitude and arbitrary phases. Our findings provide a powerful tool for efficiently calculating expectation values and correlations within the system, which are otherwise difficult to compute numerically. We apply our general results to relevant examples in quantum light manipulation using N-port linear couplers, describing the evolution of single(multi)-mode squeezing, single photon added (subtracted) Gaussian states, and second-order site-to-site photon correlations. Significantly, our analytic results outperform standard numerical calculations. Our study paves the way for a comprehensive mathematical framework describing the spatial evolution of quantum states across a wide range of physical systems governed by the tight-binding model.
翻訳日:2023-10-20 17:35:55 公開日:2023-10-18
# 高速ランダム化部分トレース推定

Faster randomized partial trace estimation ( http://arxiv.org/abs/2310.12364v1 )

ライセンス: Link先を確認
Tyler Chen, Robert Chen, Kevin Li, Skai Nzeuton, Yilu Pan, Yixin Wang(参考訳) 部分的トレースを推定するランダム化行列フリーアルゴリズムを開発した。 本アルゴリズムは,[t. chen と y-c. cheng で用いられる典型性に基づく手法,すなわち強結合開量子系に対する平衡還元密度行列の数値計算,j. chem. phys. 157, 064106 (2022)] を,重要な部分空間(例えば低エネルギー固有状態に対応する)を明示的にデフレーションすることによって改善する。 これにより、急速に減衰する特異値を持つ行列の分散が著しく減少する。 このアルゴリズムをいくつかのハイゼンベルクスピン系の熱力学、特に絡み合いスペクトルとエルゴトロピーの研究に応用する。

We develop randomized matrix-free algorithms for estimating partial traces. Our algorithm improves on the typicality-based approach used in [T. Chen and Y-C. Cheng, Numerical computation of the equilibrium-reduced density matrix for strongly coupled open quantum systems, J. Chem. Phys. 157, 064106 (2022)] by deflating important subspaces (e.g. corresponding to the low-energy eigenstates) explicitly. This results in a significant variance reduction for matrices with quickly decaying singular values. We then apply our algorithm to study the thermodynamics of several Heisenberg spin systems, particularly the entanglement spectrum and ergotropy.
翻訳日:2023-10-20 17:35:39 公開日:2023-10-18
# REMARK-LLM: 大規模言語モデル生成のためのロバストで効率的な透かしフレームワーク

REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models ( http://arxiv.org/abs/2310.12362v1 )

ライセンス: Link先を確認
Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz Koushanfar(参考訳) 本稿では,大規模な言語モデル(LLM)によって生成されたテキストを対象とした,新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。 llmsを用いたヒューマンライクなコンテンツの合成は、膨大な計算資源と膨大なデータセットを必要とし、重要な知的財産(ip)をカプセル化する。 しかし、生成されたコンテンツはスパムや盗作など悪用される傾向がある。 この課題に対処するため、REMARK-LLMは3つの新しいコンポーネントを提案する。 i) LLM生成テキストにバイナリ署名を注入する学習ベースのメッセージ符号化モジュール 二 密集分布を、メッセージエンコーディングから透かし付きテキストトークンの疎分布に変換するための再パラメータ化モジュール 3)署名抽出専用のデコードモジュール,さらに,生成されたコンテンツの一貫性と一貫性を保証するために最適化されたビーム探索アルゴリズムを導入する。 REMARK-LLMは、効果的な透かし検索を確保しつつ、透かし内容のセマンティックな整合性を維持するために厳格に訓練されている。 複数の未確認データセットに対する広範囲な評価は、REMARK-LLMの習熟度と転送性を強調し、意味的整合性を維持しながら、2倍の署名ビットを同じテキストに挿入する。 さらにREMARK-LLMは、透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。

We present REMARK-LLM, a novel efficient, and robust watermarking framework designed for texts generated by large language models (LLMs). Synthesizing human-like content using LLMs necessitates vast computational resources and extensive datasets, encapsulating critical intellectual property (IP). However, the generated content is prone to malicious exploitation, including spamming and plagiarism. To address the challenges, REMARK-LLM proposes three new components: (i) a learning-based message encoding module to infuse binary signatures into LLM-generated texts; (ii) a reparameterization module to transform the dense distributions from the message encoding to the sparse distribution of the watermarked textual tokens; (iii) a decoding module dedicated for signature extraction; Furthermore, we introduce an optimized beam search algorithm to guarantee the coherence and consistency of the generated content. REMARK-LLM is rigorously trained to encourage the preservation of semantic integrity in watermarked content, while ensuring effective watermark retrieval. Extensive evaluations on multiple unseen datasets highlight REMARK-LLM proficiency and transferability in inserting 2 times more signature bits into the same texts when compared to prior art, all while maintaining semantic integrity. Furthermore, REMARK-LLM exhibits better resilience against a spectrum of watermark detection and removal attacks.
翻訳日:2023-10-20 17:35:23 公開日:2023-10-18
# GRI:単語埋め込み空間のグラフベース相対同型

GRI: Graph-based Relative Isomorphism of Word Embedding Spaces ( http://arxiv.org/abs/2310.12360v1 )

ライセンス: Link先を確認
Muhammad Asif Ali, Yan Hu, Jianbin Qin, Di Wang(参考訳) 単言語埋め込み空間を用いたバイリンガル辞書の自動構築は機械翻訳の重要な課題である。 これらの辞書の終わりのパフォーマンスは、個々の空間の幾何学的類似性、すなわちそれらの同型度に依存する。 異なる空間の相対同型を制御しようとする既存の試みは、訓練対象に意味的関連語の影響を組み込むことができない。 そこで本研究では,分布的学習目標と注意グラフ畳み込みを組み合わせることで,複数空間の相対同型を定義する/計算に必要な意味論的類似語の影響を満場一致で検討する。 実験により、GRIは、P@1の平均スコアを63.6%まで改善することで、既存の研究より優れていることが示された。 GRIのコードはhttps://github.com/asif6827/GRIで公開しています。

Automated construction of bilingual dictionaries using monolingual embedding spaces is a core challenge in machine translation. The end performance of these dictionaries relies upon the geometric similarity of individual spaces, i.e., their degree of isomorphism. Existing attempts aimed at controlling the relative isomorphism of different spaces fail to incorporate the impact of semantically related words in the training objective. To address this, we propose GRI that combines the distributional training objectives with attentive graph convolutions to unanimously consider the impact of semantically similar words required to define/compute the relative isomorphism of multiple spaces. Experimental evaluation shows that GRI outperforms the existing research by improving the average P@1 by a relative score of up to 63.6%. We release the codes for GRI at https://github.com/asif6827/GRI.
翻訳日:2023-10-20 17:35:01 公開日:2023-10-18
# MARVEL:大規模可変速度限界に対するマルチエージェント強化学習

MARVEL: Multi-Agent Reinforcement-Learning for Large-Scale Variable Speed Limits ( http://arxiv.org/abs/2310.12359v1 )

ライセンス: Link先を確認
Yuhang Zhang, Marcos Quinones-Grueiro, Zhiyao Zhang, Yanbing Wang, William Barbour, Gautam Biswas and Daniel Work(参考訳) 可変速度制限(VSL)制御は、安全と移動性を高めるための交通管理戦略として有望である。 本稿では,一般利用可能データのみを使用して,高速道路廊下で大規模vsl制御を実現するマルチエージェント強化学習(marl)フレームワークであるmarvelを紹介する。 エージェントは、交通条件、安全、モビリティへの適応性を取り入れた報酬構造を通じて学習し、エージェント間の協調を可能にする。 提案するフレームワークは,VSLエージェント間のパラメータ共有により,多数のガテリーを持つ廊下をカバーする。 エージェントは、TNのナッシュビル近郊17マイルのI-24にまたがる8ガントリと34ガントリからなる短い高速道路のストレッチに基づいて、マイクロシミュレーション環境で訓練される。 MARVELは制御不能なシナリオと比較して交通安全を63.4%改善し、I-24にデプロイされた最先端のアルゴリズムと比較して14.6%の交通移動率向上を実現している。 異なる交通条件下で学習した政策を探索するために説明可能性分析を行い,エージェントの意思決定過程に関する洞察を与える。 最後に、I-24からの実際の入力データに関するシミュレーションに基づく実験から得られたポリシーを検証し、学習されたポリシーの潜在的展開能力を示す。

Variable speed limit (VSL) control is a promising traffic management strategy for enhancing safety and mobility. This work introduces MARVEL, a multi-agent reinforcement learning (MARL) framework for implementing large-scale VSL control on freeway corridors using only commonly available data. The agents learn through a reward structure that incorporates adaptability to traffic conditions, safety, and mobility; enabling coordination among the agents. The proposed framework scales to cover corridors with many gantries thanks to a parameter sharing among all VSL agents. The agents are trained in a microsimulation environment based on a short freeway stretch with 8 gantries spanning 7 miles and tested with 34 gantries spanning 17 miles of I-24 near Nashville, TN. MARVEL improves traffic safety by 63.4% compared to the no control scenario and enhances traffic mobility by 14.6% compared to a state-of-the-practice algorithm that has been deployed on I-24. An explainability analysis is undertaken to explore the learned policy under different traffic conditions and the results provide insights into the decision-making process of agents. Finally, we test the policy learned from the simulation-based experiments on real input data from I-24 to illustrate the potential deployment capability of the learned policy.
翻訳日:2023-10-20 17:34:45 公開日:2023-10-18
# TrueTeacher: 大規模言語モデルによる現実的一貫性評価の学習

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models ( http://arxiv.org/abs/2305.11171v3 )

ライセンス: Link先を確認
Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and Idan Szpektor(参考訳) 事実整合性評価は自然言語推論(nli)モデルを用いて行われることが多いが、これらのモデルは要約の評価に限定的な成功を示している。 以前の作業は、合成トレーニングデータでそのようなモデルを改善した。 しかし、データは典型的には、乱れた人書きの要約に基づいており、実際のモデル生成の要約と特徴が異なることが多く、事実の誤りをカバーできる範囲が限られている。 あるいは、最近、大言語モデル(llm)は生成的タスクを直接評価する有望な結果を示したが、実用には計算コストが高すぎる。 そこで我々は,LLMを用いた多種多様なモデル生成要約を注釈付けして合成データを生成するTrueTeacherを紹介した。 以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。 TRUEベンチマークの実験では、我々のデータを用いて訓練された学生モデルが、同等の能力で最先端のモデルとLLMの教師の両方を著しく上回っていることが示されている。 本研究では,TrueTeacherを既存の合成データ生成手法と比較し,その優位性とドメインシフトに対する堅牢性を示す。 また,本手法が多言語シナリオに一般化することを示す。 最後に、TrueTeacherを用いて生成された大規模合成データセット(1.4M例)と、このデータに基づいてトレーニングされたチェックポイントをリリースする。

Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. We also show that our method generalizes to multilingual scenarios. Lastly, we release our large scale synthetic dataset (1.4M examples), generated using TrueTeacher, and a checkpoint trained on this data.
翻訳日:2023-10-20 11:44:39 公開日:2023-10-18
# 分布外論理推論課題における大規模言語モデルの体系的評価

A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks ( http://arxiv.org/abs/2310.09430v3 )

ライセンス: Link先を確認
Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan, Yang Chen, Michael Witbrock, Jiamou Liu(参考訳) GPT-3.5やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける人工システムの性能を大幅に向上させた。 しかし、論理的な推論を行うための一般化と堅牢性は未評価のままである。 この能力を探索するために,まずランダムにシャッフルされた選択肢の1つ,第2の選択肢が正しい選択肢の1つに置き換わる「ReClor-plus」「LogiQA-plus」「LogiQAv2-plus」という3つの新しい論理的推論データセットと,それ以前の2つのサブセットの組み合わせを提案する。 識別と生成の両方でこれらのデータセットの実験を行い、これらの単純なトリックが言語モデルの性能を著しく損なうことを示す。 オリジナルの公開データセットでのパフォーマンスは優れていますが、私たちはすべてのモデルが新しく構築されたデータセットに答えるのに苦労しています。 本研究では,相当量のトレーニング集合を摂動させることで,論理推論タスクにおけるモデルの一般化とロバスト性が著しく向上することを示す。 さらに、微調整に論理駆動データ拡張を適用すると、プロンプトと組み合わせることで、判別型大言語モデルと生成型大言語モデルの双方の一般化性能が向上する。 これらの結果は、論理推論タスクのための大規模言語モデルの一般化と堅牢性の評価と改善に関する洞察を提供する。 ソースコードとデータは \url{https://github.com/strong-ai-lab/logical-and-abstract-reasoning} で公開しています。

Large language models (LLMs), such as GPT-3.5 and GPT-4, have greatly advanced the performance of artificial systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness to perform logical reasoning remain under-evaluated. To probe this ability, we propose three new logical reasoning datasets named "ReClor-plus", "LogiQA-plus" and "LogiQAv2-plus", each featuring three subsets: the first with randomly shuffled options, the second with the correct choices replaced by "none of the other options are correct", and a combination of the previous two subsets. We carry out experiments on these datasets with both discriminative and generative LLMs and show that these simple tricks greatly hinder the performance of the language models. Despite their superior performance on the original publicly available datasets, we find that all models struggle to answer our newly constructed datasets. We show that introducing task variations by perturbing a sizable training set can markedly improve the model's generalisation and robustness in logical reasoning tasks. Moreover, applying logic-driven data augmentation for fine-tuning, combined with prompting can enhance the generalisation performance of both discriminative large language models and generative large language models. These results offer insights into assessing and improving the generalisation and robustness of large language models for logical reasoning tasks. We make our source code and data publicly available \url{https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning}.
翻訳日:2023-10-20 11:35:51 公開日:2023-10-18
# スパースビューを用いた神経表面再構成のための幾何誘導線増補法

Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views ( http://arxiv.org/abs/2310.05483v3 )

ライセンス: Link先を確認
Jiawei Yao and Chen Wang and Tong Wu and Chuming Li(参考訳) 本稿では,スパース多視点画像からの3次元シーンとオブジェクト再構成の新たな手法を提案する。 シーン間の奥行きや一般化などの付加的な情報を利用する従来の方法とは異なり,マルチビュー入力に埋め込まれたシーンプロパティを活用して,事前のトレーニングなしに最適化のための正確な擬似ラベルを作成する。 具体的には,球面高調波を利用して新しい放射能を予測し,シーン内の点に対するすべての色観測を確率的に考慮しながら,疎視による表面再構成精度を向上させる幾何誘導手法を提案する。 また,このパイプラインはプロキシジオメトリを活用し,従来の画像ウォーピング手法では回避できなかった放射能の擬似ラベルを生成する際に,オクルージョンを正しく処理する。 Ray Augmentation (RayAug) と呼ばれるこの手法は、事前トレーニングを必要とせず、DTUおよびBlenderデータセット上で優れた結果を得ることができ、スパースビュー再構成の問題に対処する効果を実証することができる。 私たちのパイプラインは柔軟で、スパースビューのための他の暗黙的な神経再構成方法に統合できます。

In this paper, we propose a novel method for 3D scene and object reconstruction from sparse multi-view images. Different from previous methods that leverage extra information such as depth or generalizable features across scenes, our approach leverages the scene properties embedded in the multi-view inputs to create precise pseudo-labels for optimization without any prior training. Specifically, we introduce a geometry-guided approach that improves surface reconstruction accuracy from sparse views by leveraging spherical harmonics to predict the novel radiance while holistically considering all color observations for a point in the scene. Also, our pipeline exploits proxy geometry and correctly handles the occlusion in generating the pseudo-labels of radiance, which previous image-warping methods fail to avoid. Our method, dubbed Ray Augmentation (RayAug), achieves superior results on DTU and Blender datasets without requiring prior training, demonstrating its effectiveness in addressing the problem of sparse view reconstruction. Our pipeline is flexible and can be integrated into other implicit neural reconstruction methods for sparse views.
翻訳日:2023-10-20 11:35:24 公開日:2023-10-18
# MedSyn:高忠実度3DCT画像のテキスト誘導型解剖学的合成

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images ( http://arxiv.org/abs/2310.03559v4 )

ライセンス: Link先を確認
Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, and Kayhan Batmanghelich(参考訳) 本稿では,テキスト情報を用いた高品質な3次元肺CT画像作成手法を提案する。 拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。 放射線レポートは、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することで、生成プロセスを強化することができる。 それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。 メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。 まず,テキストに条件づけられた低解像度画像を合成し,それに続くボリュームデータ生成の基盤として機能する。 生成した試料の解剖学的可溶性を確保するため,ct画像と連動して血管,気道,球状分節マスクを作製し,さらなる指導を行う。 このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。 比較評価の結果,ganおよび拡散法に基づく最も先進的なモデルと比較して,特に断裂線,気道,血管構造などの重要な解剖学的特徴を正確に保持する手法が優れていることが示された。 この革新は新しい可能性をもたらす。 本研究は,(1)文章的プロンプトと解剖学的要素に基づく画像作成手法の開発,(2)解剖学的要素を条件とした新たな画像生成機能の開発,という2つの目的に焦点を当てた。 画像生成の進歩は、多くの下流タスクを強化するために応用できる。

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
翻訳日:2023-10-20 11:35:04 公開日:2023-10-18
# BiomedJourney:マルチモーダル患者からの指導学習によるバイオメディカル画像生成

BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys ( http://arxiv.org/abs/2310.10765v2 )

ライセンス: Link先を確認
Yu Gu, Jianwei Yang, Naoto Usuyama, Chunyuan Li, Sheng Zhang, Matthew P. Lungren, Jianfeng Gao, Hoifung Poon(参考訳) InstructPix2Pixの例のように、自然言語による画像編集のためのインストラクション学習が急速に進歩している。 バイオメディシンでは, 因果構造と突発的相関とを区別し, 疾患進行モデルのための堅牢な画像解釈を容易にする, 反ファクト画像生成に適用することができる。 しかし、汎用的な画像編集モデルは生体医学領域に不適合であり、反事実的生体医学的画像生成は概ね過小評価されている。 本稿では,マルチモーダル患者からの指導学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを提案する。 異なる地点で2つの生体医用画像が撮影された場合,gpt-4を用いて対応する画像報告を処理し,疾患進展の自然言語記述を生成する。 得られたトリプル(優先画像、進行記述、新しい画像)は、反事実的生物医学的画像生成のための潜在拡散モデルを訓練するために使用される。 画像時系列データの相対的不足を考慮し,より豊富な単一画像レポートペア(ダミー先行画像を含む)を用いてデノナイジングネットワークを事前訓練し,次いで,デノナイジングネットワークを用いたトレーニングを継続する2段階カリキュラムを導入する。 標準MIMIC-CXRデータセットを用いた実験により,提案手法の可能性を実証した。 InstructPix2PixやRoentGenのような命令画像編集や医用画像生成において、BiomedJourneyは従来の最先端の手法を大幅に上回っている。 偽医療生成における今後の研究を促進するため,我々は,教育学習コードと事前学習モデルをリリースする予定である。

Rapid progress has been made in instruction-learning for image editing with natural-language instruction, as exemplified by InstructPix2Pix. In biomedicine, such methods can be applied to counterfactual image generation, which helps differentiate causal structure from spurious correlation and facilitate robust image interpretation for disease progression modeling. However, generic image-editing models are ill-suited for the biomedical domain, and counterfactual biomedical image generation is largely underexplored. In this paper, we present BiomedJourney, a novel method for counterfactual biomedical image generation by instruction-learning from multimodal patient journeys. Given a patient with two biomedical images taken at different time points, we use GPT-4 to process the corresponding imaging reports and generate a natural language description of disease progression. The resulting triples (prior image, progression description, new image) are then used to train a latent diffusion model for counterfactual biomedical image generation. Given the relative scarcity of image time series data, we introduce a two-stage curriculum that first pretrains the denoising network using the much more abundant single image-report pairs (with dummy prior image), and then continues training using the counterfactual triples. Experiments using the standard MIMIC-CXR dataset demonstrate the promise of our method. In a comprehensive battery of tests on counterfactual medical image generation, BiomedJourney substantially outperforms prior state-of-the-art methods in instruction image editing and medical image generation such as InstructPix2Pix and RoentGen. To facilitate future study in counterfactual medical generation, we plan to release our instruction-learning code and pretrained models.
翻訳日:2023-10-20 11:26:10 公開日:2023-10-18
# ACES: 自動言語モデルとセマンティック記述子による多言語プログラミングパズルの生成

ACES: Generating Diverse Programming Puzzles with Autotelic Language Models and Semantic Descriptors ( http://arxiv.org/abs/2310.10692v2 )

ライセンス: Link先を確認
Julien Pourcel, C\'edric Colas, Pierre-Yves Oudeyer, Laetitia Teodorescu(参考訳) 解決すべき新しい興味深い問題の発見と選択は好奇心、科学、イノベーションの中心にある。 ここでは、ピソンプログラミングパズルのオープンエンド空間の文脈における自動問題生成について検討する。 既存の生成モデルはしばしば、明示的な多様性の最適化なしに参照分布をモデル化することを目的としている。 多様性を明示的に最適化する他の方法は、限られた手符号化表現空間でも、興味深いバリエーションの人間の知覚と一致しないような解釈不能な埋め込み空間でもそうである。 ACES(Autotelic Code Exploration via Semantic Descriptors)では,大きな言語モデル(LLM)が生成するセマンティック記述子を利用して,興味ある多様性を直接最適化し,少数ショットベースの生成を行う。 各パズルは10次元にラベル付けされ、それぞれがそれを解くのに必要なプログラミングスキルをキャプチャする。 ACESは、抽象的なセマンティック空間を探索するために、新しく実現可能な目標を生成し、追求する。 一連の実験を通じて, acesは, 既存の多様性を最大化するアルゴリズムよりも, 多様なパズルを発見できることを示した。 さらに,この多様性がパズル解法モデルの学習に応用できるかどうかについても検討した。

Finding and selecting new and interesting problems to solve is at the heart of curiosity, science and innovation. We here study automated problem generation in the context of the open-ended space of python programming puzzles. Existing generative models often aim at modeling a reference distribution without any explicit diversity optimization. Other methods explicitly optimizing for diversity do so either in limited hand-coded representation spaces or in uninterpretable learned embedding spaces that may not align with human perceptions of interesting variations. With ACES (Autotelic Code Exploration via Semantic descriptors), we introduce a new autotelic generation method that leverages semantic descriptors produced by a large language model (LLM) to directly optimize for interesting diversity, as well as few-shot-based generation. Each puzzle is labeled along 10 dimensions, each capturing a programming skill required to solve it. ACES generates and pursues novel and feasible goals to explore that abstract semantic space, slowly discovering a diversity of solvable programming puzzles in any given run. Across a set of experiments, we show that ACES discovers a richer diversity of puzzles than existing diversity-maximizing algorithms as measured across a range of diversity metrics. We further study whether and in which conditions this diversity can translate into the successful training of puzzle solving models.
翻訳日:2023-10-20 11:25:35 公開日:2023-10-18
# リンク予測のための適応ペアワイズ符号化

Adaptive Pairwise Encodings for Link Prediction ( http://arxiv.org/abs/2310.11009v2 )

ライセンス: Link先を確認
Harry Shomer, Yao Ma, Haitao Mao, Juanhui Li, Bo Wu, Jiliang Tang(参考訳) リンク予測は、さまざまなドメインでアプリケーションを見たグラフ構造化データに関する一般的なタスクである。 古典的には手作りのヒューリスティックが用いられた。 ヒューリスティック測度は、リンク形成に関連する基礎因子とよく相関するように選択される。 近年,メッセージパッシングニューラルネットワーク(MPNN)とヒューリスティックス手法の利点を組み合わせた新しい手法が出現している。 これらの手法は、候補リンク内のノード間の関係をキャプチャする"ペアワイズエンコーディング"と合わせて、MPNNの出力を用いて予測を行う。 多数のデータセットで高いパフォーマンスを達成することが示されている。 しかし、現在のペアエンコーディングはしばしば強い帰納バイアスを伴い、全てのリンクを分類するために同じ基礎的要素を使用する。 これは、異なる要因から形成される様々なリンクを適切に分類する方法を学ぶ既存の方法の能力を制限する。 この制限に対処するため,各リンクのペアエンコーディングを適応的に学習するLPFormerを提案する。 lpformerは、リンク予測に不可欠な複数の因子をモデル化することで、ノード間に存在するペアワイズエンコーディングを学習するアテンションモジュールを介してリンクファクタをモデル化する。 大規模な実験では、LPFormerは効率を保ちながら、多数のデータセット上でSOTA性能を達成することができる。

Link prediction is a common task on graph-structured data that has seen applications in a variety of domains. Classically, hand-crafted heuristics were used for this task. Heuristic measures are chosen such that they correlate well with the underlying factors related to link formation. In recent years, a new class of methods has emerged that combines the advantages of message-passing neural networks (MPNN) and heuristics methods. These methods perform predictions by using the output of an MPNN in conjunction with a "pairwise encoding" that captures the relationship between nodes in the candidate link. They have been shown to achieve strong performance on numerous datasets. However, current pairwise encodings often contain a strong inductive bias, using the same underlying factors to classify all links. This limits the ability of existing methods to learn how to properly classify a variety of different links that may form from different factors. To address this limitation, we propose a new method, LPFormer, which attempts to adaptively learn the pairwise encodings for each link. LPFormer models the link factors via an attention module that learns the pairwise encoding that exists between nodes by modeling multiple factors integral to link prediction. Extensive experiments demonstrate that LPFormer can achieve SOTA performance on numerous datasets while maintaining efficiency.
翻訳日:2023-10-20 11:16:35 公開日:2023-10-18
# 新型コロナウイルス対策戦略の要件調査 第1部:新聞のクリップ

A Survey of Requirements for COVID-19 Mitigation Strategies. Part I: Newspaper Clips ( http://arxiv.org/abs/2011.07887v4 )

ライセンス: Link先を確認
Wojciech Jamroga, David Mestel, Peter B. Roenne, Peter Y. A. Ryan, Marjan Skrobot(参考訳) 新型コロナウイルスのパンデミックは、私たちの生活のあらゆる側面に影響を与えています。 世界各国は、社会的、政治的、技術的手段に基づいた様々な緩和戦略を流行に応用してきた。 我々は、特定の緩和戦略にコミットする前に、関連する要件を識別するべきであると仮定する。 これを実現する一つの方法は、一般大衆が関係していると考えられるものを概観し、メディアで言及することである。 この目的のために、私たちは多くのニュースクリップを集め、緩和戦略の可能な目標と要件について言及しました。 スニペットは、健康関連の目標、社会的、政治的影響、公民権、倫理的要件など、いくつかのカテゴリに分類される。 近日発表のコンパニオンペーパーでは,ニュースクリップから得られた要件のダイジェストと,それらの公式仕様に関する予備的考察を紹介する。

The COVID-19 pandemic has influenced virtually all aspects of our lives. Across the world, countries have applied various mitigation strategies for the epidemic, based on social, political, and technological instruments. We postulate that one should {identify the relevant requirements} before committing to a particular mitigation strategy. One way to achieve it is through an overview of what is considered relevant by the general public, and referred to in the media. To this end, we have collected a number of news clips that mention the possible goals and requirements for a mitigation strategy. The snippets are sorted thematically into several categories, such as health-related goals, social and political impact, civil rights, ethical requirements, and so on. In a forthcoming companion paper, we will present a digest of the requirements, derived from the news clips, and a preliminary take on their formal specification.
翻訳日:2023-10-19 21:30:11 公開日:2023-10-18
# 関数プロファイルのモデリングと説明可能な形状シフト検出:Fr'echet平均の概念と形状不変モデルを組み合わせたアプローチ

Modelling of functional profiles and explainable shape shifts detection: An approach combining the notion of the Fr\'echet mean with the shape invariant model ( http://arxiv.org/abs/2010.02968v4 )

ライセンス: Link先を確認
Georgios I. Papayiannis, Stelios Psarakis, Athanasios N. Yannacopoulos(参考訳) fr\'echet平均の概念と変形モデルの概念を組み合わせた機能プロファイルの形状シフト検出に適したモデリングフレームワークを開発し,提案する。 Fr\'echet平均概念によって提供される一般化平均感覚は、研究中のプロファイルの典型的なパターンを捉えるために使用され、一方変形モデルの概念、特に形状不変モデルの概念は、プロファイルの偏差を典型的な形状から解釈可能なパラメータ化を可能にする。 データの機能的性質に適合するewma型制御チャートと、使用済みの変形モデルを構築し、一般化平均感覚に関して研究中のプロファイルの特定の形状特性を利用し、形状及び/又は変形過程に関する電位シフトを識別できるようにする。 形状変形過程における電位シフトは、さらに振幅および/または研究中のプロファイルの位相に関する重要なシフトと区別される。 提案するモデリング・シフト検出フレームワークは,アテネ市域の大気汚染物質に関する日次濃度プロファイルをモデル化し,危険濃度レベルを示すプロファイルを殆どのケースで同定する実世界のケーススタディに実装されている。

A modelling framework suitable for detecting shape shifts in functional profiles combining the notion of Fr\'echet mean and the concept of deformation models is developed and proposed. The generalized mean sense offered by the Fr\'echet mean notion is employed to capture the typical pattern of the profiles under study, while the concept of deformation models, and in particular of the shape invariant model, allows for interpretable parameterizations of profile's deviations from the typical shape. EWMA-type control charts compatible with the functional nature of data and the employed deformation model are built and proposed, exploiting certain shape characteristics of the profiles under study with respect to the generalized mean sense, allowing for the identification of potential shifts concerning the shape and/or the deformation process. Potential shifts in the shape deformation process, are further distinguished to significant shifts with respect to amplitude and/or the phase of the profile under study. The proposed modelling and shift detection framework is implemented to a real world case study, where daily concentration profiles concerning air pollutants from an area in the city of Athens are modelled, while profiles indicating hazardous concentration levels are successfully identified in most of the cases.
翻訳日:2023-10-19 21:29:56 公開日:2023-10-18
# 誤りと外乱の不確かさ関係の普遍的定式化

A Universal Formulation of Uncertainty Relation for Error and Disturbance ( http://arxiv.org/abs/2004.06099v2 )

ライセンス: Link先を確認
Jaeha Lee and Izumi Tsutsui(参考訳) 本稿では、任意の量子測定に有効な不確実性関係の普遍的な定式化と、統計的性質の観測(オブザーバ)効果を示す。 その単純さと操作性から、我々の一般関係も実験的に検証可能である。 我々の関係は、不確実性原理のハイゼンベルクの元々の哲学を尊重しながら、位置運動量測定のための従来のna{\"i}ve $\hbar/2$ に反する。 これは、標準のkennard-robertson (schr{\"o}dinger) 関係を特別な場合として含むもので、量子不確定性、測定、観察効果に関する3つの正統な領域の統一的な図式を得る。

We present a universal formulation of uncertainty relation valid for any conceivable quantum measurement and the resultant observation (observer) effect of statistical nature. Owing to its simplicity and operational tangibility, our general relation is also experimentally verifiable. Our relation violates the traditional na{\"i}ve bound $\hbar/2$ for the position-momentum measurement while respecting Heisenberg's original philosophy of the uncertainty principle. Our error-disturbance relation admits a parallel formulation to our relation for errors, which also embraces the standard Kennard--Robertson (Schr{\"o}dinger) relation as a special case; this attains a unified picture of the three orthodox realms of uncertainty regarding quantum indeterminacy, measurement, and observation effect within a single framework.
翻訳日:2023-10-19 21:29:35 公開日:2023-10-18
# 完全拡張:量子精製の非シグナルアナログ

Complete extension: the non-signaling analog of quantum purification ( http://arxiv.org/abs/1810.02222v4 )

ライセンス: Link先を確認
Marek Winczewski, Tamoghna Das, John H. Selby, Karol Horodecki, Pawe{\l} Horodecki, {\L}ukasz Pankowski, Marco Piani, and Ravishankar Ramanathan(参考訳) 情報理論的な仮定から量子力学を導出することは、部分的には超量子論の発見という観点から、最近の研究の方向性である。 キーポストレートは,完全拡張ポストレート(cep,complete extension postulate)と呼ばれる,より一般的に適用可能なポストレート,すなわち,他の拡張を生成可能な物理システムの拡張の存在に置き換えることを提案している。 この新しい概念は、CEPを満たす一般理論の研究(量子論への超脱ハザードの理論を含むかもしれない)において、多くのオープンな疑問と研究の方向性をもたらす。 例えば、CEPはビットコミットの不可能性を示唆している。 これは、CEPを満足することを示す非シグナリング挙動の理論のケーススタディによって実証される。 さらに、ある場合において、完全拡張は純粋ではないことを示し、精製仮定から重要な分岐を浮き彫りにする。

Deriving quantum mechanics from information-theoretic postulates is a recent research direction taken, in part, with the view of finding a beyond-quantum theory; once the postulates are clear, we can consider modifications to them. A key postulate is the purification postulate, which we propose to replace by a more generally applicable postulate that we call the complete extension postulate (CEP), i.e., the existence of an extension of a physical system from which one can generate any other extension. This new concept leads to a plethora of open questions and research directions in the study of general theories satisfying the CEP (which may include a theory that hyper-decoheres to quantum theory). For example, we show that the CEP implies the impossibility of bit-commitment. This is exemplified by a case study of the theory of non-signalling behaviors which we show satisfies the CEP. We moreover show that in certain cases the complete extension will not be pure, highlighting the key divergence from the purification postulate.
翻訳日:2023-10-19 21:29:17 公開日:2023-10-18
# フィッティングと学習におけるロバストさと最適性の採用

Adopting Robustness and Optimality in Fitting and Learning ( http://arxiv.org/abs/1510.03826v4 )

ライセンス: Link先を確認
Zhiguang Wang, Tim Oates, James Lo(参考訳) 準ミニミン関数を最適化することで、外れ値に対するロバスト性を達成するためにロバスト最適(ro)インデックス$\lambda$を$-\infty$にすることで、修正された指数化推定器を一般化した。 このロバスト性は、予め定義された閾値なしにRO指数によって適応的に実現され制御される。 最適性は、局所最適を避けるためにヘッセン行列の凸領域の拡大によって保証される。 ロバスト性および最適性に関する詳細な定量的解析を提供する。 MNISTデータセット上の3つのノイズ非凸関数に対する適合タスクと桁認識タスクに関する提案実験の結果を集約した。

We generalized a modified exponentialized estimator by pushing the robust-optimal (RO) index $\lambda$ to $-\infty$ for achieving robustness to outliers by optimizing a quasi-Minimin function. The robustness is realized and controlled adaptively by the RO index without any predefined threshold. Optimality is guaranteed by expansion of the convexity region in the Hessian matrix to largely avoid local optima. Detailed quantitative analysis on both robustness and optimality are provided. The results of proposed experiments on fitting tasks for three noisy non-convex functions and the digits recognition task on the MNIST dataset consolidate the conclusions.
翻訳日:2023-10-19 21:29:00 公開日:2023-10-18
# fedfa: 機能アンカーによるフェデレーション学習によるヘテロジニアスデータの特徴と分類

FedFA: Federated Learning with Feature Anchors to Align Features and Classifiers for Heterogeneous Data ( http://arxiv.org/abs/2211.09299v4 )

ライセンス: Link先を確認
Tailin Zhou, Jun Zhang, Danny H.K. Tsang(参考訳) フェデレーション学習により、複数のクライアントがデータを交換することなく、協調的にモデルをトレーニングできる。 残念ながら、クライアントの異種データによってパフォーマンスが大幅に低下する。 一般的な解決策は、局所訓練中に重量分散や特徴の不整合を規則化する補助的な損失を設計することである。 しかし,これらの手法は,クライアント間の機能不整合と分類器のばらつきの間の悪循環の存在を無視するため,期待する性能に欠けることが判明した。 この悪質なサイクルは、クライアントモデルをより分散した分類器を持つ一貫性のない特徴空間で更新する。 本稿では,FedFA(Federated Learning with Feature Anchors)という新しいフレームワークを提案する。 FedFAは機能アンカーを使用して機能を調整し、同時にクライアント間で分類器を校正する。 これにより、クライアントモデルは、ローカルトレーニング中に一貫した分類器を備えた共有機能空間で更新できる。 理論的には、FedFAの非凸収束速度を分析する。 また,federaにおける機能アライメントと分類器のキャリブレーションの統合により,機能更新と分類器更新の間に激しいサイクルが発生し,現在のアプローチに存在する悪循環を損なうことを実証した。 大規模実験により,FedFAはラベル分布スキューおよび特徴分布スキューの下で,様々な分類データセットの既存手法よりも有意に優れていた。

Federated learning allows multiple clients to collaboratively train a model without exchanging their data, thus preserving data privacy. Unfortunately, it suffers significant performance degradation due to heterogeneous data at clients. Common solutions involve designing an auxiliary loss to regularize weight divergence or feature inconsistency during local training. However, we discover that these approaches fall short of the expected performance because they ignore the existence of a vicious cycle between feature inconsistency and classifier divergence across clients. This vicious cycle causes client models to be updated in inconsistent feature spaces with more diverged classifiers. To break the vicious cycle, we propose a novel framework named Federated learning with Feature Anchors (FedFA). FedFA utilizes feature anchors to align features and calibrate classifiers across clients simultaneously. This enables client models to be updated in a shared feature space with consistent classifiers during local training. Theoretically, we analyze the non-convex convergence rate of FedFA. We also demonstrate that the integration of feature alignment and classifier calibration in FedFA brings a virtuous cycle between feature and classifier updates, which breaks the vicious cycle existing in current approaches. Extensive experiments show that FedFA significantly outperforms existing approaches on various classification datasets under label distribution skew and feature distribution skew.
翻訳日:2023-10-19 21:25:27 公開日:2023-10-18
# 顔提示攻撃検出の公正性

Fairness in Face Presentation Attack Detection ( http://arxiv.org/abs/2209.09035v2 )

ライセンス: Link先を確認
Meiling Fang and Wufei Yang and Arjan Kuijper and Vitomir Struc and Naser Damer(参考訳) 顔認識(FR)アルゴリズムは、特定の人口集団や非人口集団に対する差別行動を示すことが証明されており、現実のシナリオへの展開に関する倫理的および法的懸念を提起している。 FRにおけるフェアネス研究の増加にもかかわらず、顔提示攻撃検出(PAD)の公平さは、主に適切な注釈データがないために見過ごされている。 このような行動の潜在的な負の影響を回避・緩和するためには, PAD面の公平さを評価し, 公正なPADモデルを開発することが不可欠である。 顔PADの公平性解析を可能にするために, 7つの属性ラベルを付加したCAAD-PAD(Combined Attribute Annotated PAD Dataset)を提案する。 そこで我々は,PADの公正性とトレーニングデータの性質,およびODTA(Operational Decision Threshold Assignment)との関係を,顔PADソリューションの集合を通して包括的に分析した。 さらに, パッドフェアネスと絶対パッド性能の両方を共同で表現した新しい指標, 精度バランスフェアネス(abf)を提案する。 実験結果から, すべてのパッド溶液により, 女性および顔(眼鏡, あごひげなど)は, 男性および非閉塞群に比べて比較的保護が小さいことが示唆された。 この観察された不公平さを緩和するため,我々は,id/semantic情報を混乱させ,モデルに攻撃の手がかりをマイニングするよう促すために,fairswapというプラグイン・アンド・プレイデータ拡張手法を提案する。 以上の結果から,FairSWAPは12例中10例において,より良好で公平な対面PADを誘導することが明らかとなった。

Face recognition (FR) algorithms have been proven to exhibit discriminatory behaviors against certain demographic and non-demographic groups, raising ethical and legal concerns regarding their deployment in real-world scenarios. Despite the growing number of fairness studies in FR, the fairness of face presentation attack detection (PAD) has been overlooked, mainly due to the lack of appropriately annotated data. To avoid and mitigate the potential negative impact of such behavior, it is essential to assess the fairness in face PAD and develop fair PAD models. To enable fairness analysis in face PAD, we present a Combined Attribute Annotated PAD Dataset (CAAD-PAD), offering seven human-annotated attribute labels. Then, we comprehensively analyze the fairness of PAD and its relation to the nature of the training data and the Operational Decision Threshold Assignment (ODTA) through a set of face PAD solutions. Additionally, we propose a novel metric, the Accuracy Balanced Fairness (ABF), that jointly represents both the PAD fairness and the absolute PAD performance. The experimental results pointed out that female and faces with occluding features (e.g. eyeglasses, beard, etc.) are relatively less protected than male and non-occlusion groups by all PAD solutions. To alleviate this observed unfairness, we propose a plug-and-play data augmentation method, FairSWAP, to disrupt the identity/semantic information and encourage models to mine the attack clues. The extensive experimental results indicate that FairSWAP leads to better-performing and fairer face PADs in 10 out of 12 investigated cases.
翻訳日:2023-10-19 21:24:33 公開日:2023-10-18
# 量子スイッチ情報容量活性化の熱力学

Thermodynamics of quantum switch information capacity activation ( http://arxiv.org/abs/2205.07406v3 )

ライセンス: Link先を確認
Xiangjing Liu, Daniel Ebler, Oscar Dahlsten(参考訳) 第二の法則が問題となっている新しい状況に対処する: 因果順序の量子重ね合わせにおける熱化は、いわゆる量子スイッチによって実現される。 この重ね合わせは、チャネルの通信能力の増大と関連し、データ処理の不平等の明らかな違反と、熱と寒さを分離する可能性をもたらすことが示されている。 我々は,この情報容量増加過程の熱力学解析を行う。 情報容量の増大が熱力学とどのように相容れないかを示す。 熱力学の第1法則および第2法則に従う連続熱化における情報容量の増大は,不確定な順序で配置され,また,有界な増加しか可能でないことを示す。 この増加は、スイッチに関連するコヒーレンスの自由エネルギーである熱力学的資源を消費するコストによって生じる。

We address a new setting where the second law is under question: thermalizations in a quantum superposition of causal orders, enacted by the so-called quantum switch. This superposition has been shown to be associated with an increase in the communication capacity of the channels, yielding an apparent violation of the data-processing inequality and a possibility to separate hot from cold. We analyze the thermodynamics of this information capacity increasing process. We show how the information capacity increase is compatible with thermodynamics. We show that there may indeed be an information capacity increase for consecutive thermalizations obeying the first and second laws of thermodynamics if these are placed in an indefinite order and moreover that only a significantly bounded increase is possible. The increase comes at the cost of consuming a thermodynamic resource, the free energy of coherence associated with the switch.
翻訳日:2023-10-19 21:23:53 公開日:2023-10-18
# 2サンプルテストによる強化学習における最大化バイアスの解消

Addressing Maximization Bias in Reinforcement Learning with Two-Sample Testing ( http://arxiv.org/abs/2201.08078v3 )

ライセンス: Link先を確認
Martin Waltz and Ostap Okhrin(参考訳) 価値に基づく強化学習アルゴリズムは、ゲーム、ロボティクス、その他の現実世界のアプリケーションにおいて強力な結果を示している。 過大評価バイアスはこれらのアルゴリズムに対する既知の脅威であり、劇的なパフォーマンス低下や完全なアルゴリズムの失敗につながる可能性がある。 バイアス問題を統計的に定式化し、確率変数の集合の最大期待値(MEV)を推定する事例とみなす。 基礎となる仮説テストの重要度を調節することにより,過度と過度を柔軟に補間する2つのサンプルテストに基づく$t$-estimator (te) を提案する。 K$-Estimator (KE) と呼ばれる一般化は、ほぼ任意のカーネル関数に依存しながら、TEと同じバイアスと分散境界に従う。 本稿では,TE と KE を用いた $Q$-Learning と Bootstrapped Deep $Q$-Network (BDQN) の修正を導入し,表の設定における収束性を証明する。 さらに,絶対推定バイアスを最小化するために,重要度レベルを動的に調整するte系bdqnの適応型を提案する。 提案する推定器とアルゴリズムはすべて、teとkeのバイアス制御とパフォーマンスポテンシャルを示しながら、さまざまなタスクや環境上で徹底的にテストされ検証される。

Value-based reinforcement-learning algorithms have shown strong results in games, robotics, and other real-world applications. Overestimation bias is a known threat to those algorithms and can lead to dramatic performance decreases or even complete algorithmic failure. We frame the bias problem statistically and consider it an instance of estimating the maximum expected value (MEV) of a set of random variables. We propose the $T$-Estimator (TE) based on two-sample testing for the mean, that flexibly interpolates between over- and underestimation by adjusting the significance level of the underlying hypothesis tests. A generalization, termed $K$-Estimator (KE), obeys the same bias and variance bounds as the TE while relying on a nearly arbitrary kernel function. We introduce modifications of $Q$-Learning and the Bootstrapped Deep $Q$-Network (BDQN) using the TE and the KE, and prove convergence in the tabular setting. Furthermore, we propose an adaptive variant of the TE-based BDQN that dynamically adjusts the significance level to minimize the absolute estimation bias. All proposed estimators and algorithms are thoroughly tested and validated on diverse tasks and environments, illustrating the bias control and performance potential of the TE and KE.
翻訳日:2023-10-19 21:23:15 公開日:2023-10-18
# CTR予測におけるSparse Group Lassoを用いたニューラルネットワークの適応最適化

Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction ( http://arxiv.org/abs/2107.14432v5 )

ライセンス: Link先を確認
Yun Yue, Yongchao Liu, Suo Tong, Minghao Li, Zhen Zhang, Chunyang Wen, Huanjun Bao, Lihong Gu, Jinjie Gu, Yixiang Mu(参考訳) 我々は,momentum,adagrad,adam,amsgrad,adahessianなど,ディープラーニングにおける適応オプティマイザ群にsparse group lassoのレギュラライザを追加する新しいフレームワークを開発し,それに従ってgroup momentum,group adagrad,group adam,group amsgrad,group adahessianなどと呼ばれる新しいクラスのオプティマイザを作成する。 原始双対法に基づく確率凸設定において理論的に証明された収束保証を確立する。 我々は,最先端のディープラーニングモデルを用いた3つの大規模実世界広告クリックデータセットにおける新しいオプティマイザの正規化効果を評価する。 実験結果から, 初期最適化手法と大切削方式を用いた後処理法を比較すると, モデルの性能は同一の空間レベルで有意に向上できることがわかった。 さらに, ダイオードプルーニングを伴わない場合と比較して, 提案手法は極めて高いスパルシティーを達成でき, 優れた性能, 高い競合性能が得られる。 コードはhttps://github.com/intelligent-machine-learning/dlrover/blob/master/tfplusで入手できる。

We develop a novel framework that adds the regularizers of the sparse group lasso to a family of adaptive optimizers in deep learning, such as Momentum, Adagrad, Adam, AMSGrad, AdaHessian, and create a new class of optimizers, which are named Group Momentum, Group Adagrad, Group Adam, Group AMSGrad and Group AdaHessian, etc., accordingly. We establish theoretically proven convergence guarantees in the stochastic convex settings, based on primal-dual methods. We evaluate the regularized effect of our new optimizers on three large-scale real-world ad click datasets with state-of-the-art deep learning models. The experimental results reveal that compared with the original optimizers with the post-processing procedure which uses the magnitude pruning method, the performance of the models can be significantly improved on the same sparsity level. Furthermore, in comparison to the cases without magnitude pruning, our methods can achieve extremely high sparsity with significantly better or highly competitive performance. The code is available at https://github.com/intelligent-machine-learning/dlrover/blob/master/tfplus.
翻訳日:2023-10-19 21:22:53 公開日:2023-10-18
# 定量化法の比較評価

A Comparative Evaluation of Quantification Methods ( http://arxiv.org/abs/2103.03223v3 )

ライセンス: Link先を確認
Tobias Schumacher, Markus Strohmaier, Florian Lemmerich(参考訳) 定量化は、データセット内のクラス分布を予測する問題を表す。 また、近年、様々なアルゴリズムが提案されている教師付き機械学習の研究分野も拡大している。 しかし,アルゴリズム選択をサポートする定量化手法の包括的比較は未だ行われていない。 本研究では,40以上のデータセットに対する24種類の量子化手法の徹底的な性能比較を行い,バイナリとマルチクラスの量子化設定を考慮し,この研究ギャップを解消する。 一つのアルゴリズムが一般に競合に勝ることはないが、しきい値選択に基づくMedian SweepやTSMaxメソッド、DySフレームワーク、Friedmanのメソッドなど、バイナリ環境で最高の性能を発揮するメソッド群を識別する。 マルチクラス設定では,一般化確率的調整数,readme法,エネルギー距離最小化法,em法,フリードマン法など,異なるアルゴリズム群が優れた性能をもたらすことを観測した。 また、基礎となる分類器のチューニングは、ほとんどの場合、定量化性能に限られた影響を与えている。 より一般的には、多クラス定量化の性能はバイナリ設定の結果よりも劣っていることが分かる。 本研究は,定量化アルゴリズムを適用しようとする実践者の指導と,今後の研究の機会の特定を支援する。

Quantification represents the problem of predicting class distributions in a dataset. It also represents a growing research field in supervised machine learning, for which a large variety of different algorithms has been proposed in recent years. However, a comprehensive empirical comparison of quantification methods that supports algorithm selection is not available yet. In this work, we close this research gap by conducting a thorough empirical performance comparison of 24 different quantification methods on overall more than 40 data sets, considering binary as well as multiclass quantification settings. We observe that no single algorithm generally outperforms all competitors, but identify a group of methods including the threshold selection-based Median Sweep and TSMax methods, the DyS framework, and Friedman's method that performs best in the binary setting. For the multiclass setting, we observe that a different group of algorithms yields good performance, including the Generalized Probabilistic Adjusted Count, the readme method, the energy distance minimization method, the EM algorithm for quantification, and Friedman's method. We also find that tuning the underlying classifiers has in most cases only a limited impact on the quantification performance. More generally, we find that the performance on multiclass quantification is inferior to the results obtained in the binary setting. Our results can guide practitioners who intend to apply quantification algorithms and help researchers to identify opportunities for future research.
翻訳日:2023-10-19 21:22:29 公開日:2023-10-18
# ユークリッドノルムによる低ランクテンソル完備化とテンソルロバスト主成分分析のための準ノルム正則化

Euclidean-Norm-Induced Schatten-p Quasi-Norm Regularization for Low-Rank Tensor Completion and Tensor Robust Principal Component Analysis ( http://arxiv.org/abs/2012.03436v5 )

ライセンス: Link先を確認
Jicong Fan, Lijun Ding, Chengrun Yang, Zhao Zhang, Madeleine Udell(参考訳) 核ノルムとSchatten-$p$ quasi-normは低ランク行列回復において一般的なランクプロキシである。 しかし、テンソルの核ノルムやSchatten-$p$準ノルムの計算は理論と実践の両方において困難であり、ローランクテンソル完備化(LRTC)やテンソル頑健成分分析(TRPCA)への応用を妨げる。 本稿では、テンソルのCP成分ベクトルのユークリッドノルムに基づくテンソル階数正規化器の新しいクラスを提案し、これらの正規化器がテンソルシャッテン=$p$準ノルムの単調変換であることを示す。 この接続により、LRTC と TRPCA における Schatten-$p$ quasi-norm をコンポーネントベクトルを通して暗黙的に最小化できる。 この方法はビッグテンソルにスケールし、核標準よりも低ランクテンソル回復のための任意にシャープなランクプロキシを提供する。 一方、Schatten-$p$ quasi-norm regularizer を用いたLRTCの一般化能力と、提案した正則化器を用いたLRTCについて検討する。 定理は、よりシャープな正則化器がより厳密な誤差境界をもたらすことを示しているが、これは我々の数値結果と一致している。 特に、d$-オーダーテンソル上のschatten-$p$準ノルム正規化子を持つ lrtc に対して、一般化能力の観点からは、$p=1/d$ は任意の $p>1/d$ よりも常に良いことを証明する。 また、TRPCA に対する Schatten-$p$ quasi-norm の小さい$p$ の有用性を検証するための回復誤差も提供する。 合成データと実データに関する数値的な結果は正規化法と定理の有効性を示す。

The nuclear norm and Schatten-$p$ quasi-norm are popular rank proxies in low-rank matrix recovery. However, computing the nuclear norm or Schatten-$p$ quasi-norm of a tensor is hard in both theory and practice, hindering their application to low-rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA). In this paper, we propose a new class of tensor rank regularizers based on the Euclidean norms of the CP component vectors of a tensor and show that these regularizers are monotonic transformations of tensor Schatten-$p$ quasi-norm. This connection enables us to minimize the Schatten-$p$ quasi-norm in LRTC and TRPCA implicitly via the component vectors. The method scales to big tensors and provides an arbitrarily sharper rank proxy for low-rank tensor recovery compared to the nuclear norm. On the other hand, we study the generalization abilities of LRTC with the Schatten-$p$ quasi-norm regularizer and LRTC with the proposed regularizers. The theorems show that a relatively sharper regularizer leads to a tighter error bound, which is consistent with our numerical results. Particularly, we prove that for LRTC with Schatten-$p$ quasi-norm regularizer on $d$-order tensors, $p=1/d$ is always better than any $p>1/d$ in terms of the generalization ability. We also provide a recovery error bound to verify the usefulness of small $p$ in the Schatten-$p$ quasi-norm for TRPCA. Numerical results on synthetic data and real data demonstrate the effectiveness of the regularization methods and theorems.
翻訳日:2023-10-19 21:22:06 公開日:2023-10-18
# 高性能コンピューティングにおける神話と伝説

Myths and Legends in High-Performance Computing ( http://arxiv.org/abs/2301.02432v2 )

ライセンス: Link先を確認
Satoshi Matsuoka, Jens Domke, Mohamed Wahib, and Aleksandr Drozd, Torsten Hoefler(参考訳) 本稿では,高性能コンピューティングコミュニティのメンバの間で伝承される神話や伝説について論じる。 私たちはこれらの神話を、カンファレンスや会議での会話、製品広告、新聞、ツイート、ブログ、コミュニティ内外のニュース記事といった他のコミュニケーションから収集しました。 それらは、デンナード・スケーリングやムーアの法則のような多くのスケーリング法則の終わりによって引き起こされた、現在の大規模な変化の時代におけるジートジストであると信じています。 いくつかの法則は終わるが、アルゴリズムのスケーリングや新しいアーキテクチャの研究など、新しい方向性が生まれている。 しかしながら、これらの神話は科学的事実に基づいていることは稀であり、むしろいくつかの証拠や議論に基づいている。 実際、これは多くの神話が存在する理由であり、それが明確に答えられない理由であると信じている。 それぞれに明確な答えがあるように感じられるが、ベートーヴェンがモーツァルトより優れているかどうかなど、無限の哲学的議論が残ることもある。 我々は、私たちの神話の収集を、研究と産業投資の新たな方向性に関する議論として見たいと思っています。

In this thought-provoking article, we discuss certain myths and legends that are folklore among members of the high-performance computing community. We gathered these myths from conversations at conferences and meetings, product advertisements, papers, and other communications such as tweets, blogs, and news articles within and beyond our community. We believe they represent the zeitgeist of the current era of massive change, driven by the end of many scaling laws such as Dennard scaling and Moore's law. While some laws end, new directions are emerging, such as algorithmic scaling or novel architecture research. Nevertheless, these myths are rarely based on scientific facts, but rather on some evidence or argumentation. In fact, we believe that this is the very reason for the existence of many myths and why they cannot be answered clearly. While it feels like there should be clear answers for each, some may remain endless philosophical debates, such as whether Beethoven was better than Mozart. We would like to see our collection of myths as a discussion of possible new directions for research and industry investment.
翻訳日:2023-10-19 21:14:53 公開日:2023-10-18
# Aging with GRACE: 離散キー値アダプタによる生涯モデル編集

Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors ( http://arxiv.org/abs/2211.11031v5 )

ライセンス: Link先を確認
Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi(参考訳) デプロイされた言語モデルは、入力のシフト、ユーザニーズの変化、あるいは創発的な世界知識ギャップによって、時間の経過とともに崩壊する。 このような問題が特定できれば、高価なリトレーニングを避けながら、ターゲットとなる編集を行いたいと思っています。 しかし、事前訓練されたモデルの振る舞いを変更する現在のモデルエディタは、複数のシーケンシャルな編集でモデル性能を急速に低下させる。 本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装し,無関係な入力への影響を最小限に抑える,生涯モデル編集手法GRACEを提案する。 GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを書き、モデルの重みを変えることなく、個別にローカルな編集のコードブックを作成する。 これはストリーミングエラーのみを使用して、数千のシーケンシャルな編集を可能にする最初の方法である。 T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。 私たちのコードはhttps://www.github.com/thartvigsen/grace}で入手できる。

Deployed language models decay over time due to shifting inputs, changing user needs, or emergent world-knowledge gaps. When such problems are identified, we want to make targeted edits while avoiding expensive retraining. However, current model editors, which modify such behaviors of pre-trained models, degrade model performance quickly across multiple, sequential edits. We propose GRACE, a lifelong model editing method, which implements spot-fixes on streaming errors of a deployed model, ensuring minimal impact on unrelated inputs. GRACE writes new mappings into a pre-trained model's latent space, creating a discrete, local codebook of edits without altering model weights. This is the first method enabling thousands of sequential edits using only streaming errors. Our experiments on T5, BERT, and GPT models show GRACE's state-of-the-art performance in making and retaining edits, while generalizing to unseen inputs. Our code is available at https://www.github.com/thartvigsen/grace}.
翻訳日:2023-10-19 21:14:11 公開日:2023-10-18
# FairMile: グラフ表現学習のための効率的なフレームワーク

FairMILE: Towards an Efficient Framework for Fair Graph Representation Learning ( http://arxiv.org/abs/2211.09925v3 )

ライセンス: Link先を確認
Yuntian He, Saket Gurukar, Srinivasan Parthasarathy(参考訳) グラフ表現学習モデルは、多くの現実世界のアプリケーションで優れた能力を示している。 それにもかかわらず、先行研究はこれらのモデルが差別的な結果につながる偏見のある表現を学習できることを示している。 グラフ表現のバイアスを軽減するためにいくつかの研究が提案されている。 しかし、既存の作品の多くはトレーニングと微調整のために特別な時間と計算リソースを必要とする。 そこで本研究では,効率的なグラフ表現学習の課題を考察し,新しい枠組みであるfairmileを提案する。 FairMILEはグラフ表現を効率よく学習できるマルチレベルパラダイムであり、公正さと有効性を保っている。 教師なしの埋め込みアプローチと組み合わせて動作し、様々なフェアネス制約を満たすことができる。 さまざまな下流タスクにわたる広範囲な実験によって、fairmileは実行時間の観点から最先端のベースラインを著しく上回り、フェアネスとユーティリティの間の優れたトレードオフを達成することが示されている。

Graph representation learning models have demonstrated great capability in many real-world applications. Nevertheless, prior research indicates that these models can learn biased representations leading to discriminatory outcomes. A few works have been proposed to mitigate the bias in graph representations. However, most existing works require exceptional time and computing resources for training and fine-tuning. To this end, we study the problem of efficient fair graph representation learning and propose a novel framework FairMILE. FairMILE is a multi-level paradigm that can efficiently learn graph representations while enforcing fairness and preserving utility. It can work in conjunction with any unsupervised embedding approach and accommodate various fairness constraints. Extensive experiments across different downstream tasks demonstrate that FairMILE significantly outperforms state-of-the-art baselines in terms of running time while achieving a superior trade-off between fairness and utility.
翻訳日:2023-10-19 21:13:53 公開日:2023-10-18
# Seq2Seq-SC:事前学習言語モデルによるエンドツーエンドのセマンティック通信システム

Seq2Seq-SC: End-to-End Semantic Communication Systems with Pre-trained Language Model ( http://arxiv.org/abs/2210.15237v2 )

ライセンス: Link先を確認
Ju-Hyung Lee, Dong-Ho Lee, Eunsoo Sheen, Thomas Choi, Jay Pujara(参考訳) 本稿では,5g nrと互換性を持ち,事前学習した言語モデルを用いて汎用テキストデータセットを処理可能な,seq2seq-scと呼ばれる現実的な意味ネットワークを提案する。 目的は、意味コミュニケーションにおけるメッセージの意味に注目して、前例のないコミュニケーション効率を達成することである。 我々は,語彙的類似度をBLEUで測定し,意味的類似度をSBERTで測定した意味的類似度という性能指標を用いる。 本研究は,セq2seq-SCが従来のモデルよりも優れていることを示す。 本研究は,6Gネットワークにおけるセマンティックコミュニケーションの継続的な進歩と,今後の無線システムとの連携の道を開くものである。

In this work, we propose a realistic semantic network called seq2seq-SC, designed to be compatible with 5G NR and capable of working with generalized text datasets using a pre-trained language model. The goal is to achieve unprecedented communication efficiency by focusing on the meaning of messages in semantic communication. We employ a performance metric called semantic similarity, measured by BLEU for lexical similarity and SBERT for semantic similarity. Our findings demonstrate that seq2seq-SC outperforms previous models in extracting semantically meaningful information while maintaining superior performance. This study paves the way for continued advancements in semantic communication and its prospective incorporation with future wireless systems in 6G networks.
翻訳日:2023-10-19 21:13:38 公開日:2023-10-18
# YATO: もう1つのディープラーニングベースのテキスト分析オープンツールキット

YATO: Yet Another deep learning based Text analysis Open toolkit ( http://arxiv.org/abs/2209.13877v4 )

ライセンス: Link先を確認
Zeqiang Wang, Yile Wang, Jiageng Wu, Zhiyang Teng, Jie Yang(参考訳) 本稿では,ディープラーニングを用いたテキスト解析のためのオープンソースで使いやすいツールキットYATOを紹介する。 既存の高度にエンジニアリングされたツールキットやプラットフォームとは異なり、YATOは軽量で、学際的な分野の研究者に親しみやすい。 階層構造で設計されたYATOは、広く使われている3種類の機能の組み合わせを無償でサポートする。 1) 従来のニューラルネットワーク(CNN,RNNなど) 2)事前訓練言語モデル(BERT、RoBERTa、ELECTRAなど)及び 3) シンプルな構成ファイルによるユーザカスタマイズ型ニューラル機能。 YATOは、柔軟性と使いやすさの利点から、最先端のNLPモデルの高速な再現と改良を促進し、NLP技術の学際的応用を促進する。 コード、サンプル、ドキュメントはhttps://github.com/jiesutd/YATOで公開されている。 デモビデオはhttps://www.youtube.com/playlist? list=PLJ0mhzMcRuDUlTkzBfAftOqiJRxYTTjXH

We introduce YATO, an open-source, easy-to-use toolkit for text analysis with deep learning. Different from existing heavily engineered toolkits and platforms, YATO is lightweight and user-friendly for researchers from cross-disciplinary areas. Designed in a hierarchical structure, YATO supports free combinations of three types of widely used features including 1) traditional neural networks (CNN, RNN, etc.); 2) pre-trained language models (BERT, RoBERTa, ELECTRA, etc.); and 3) user-customized neural features via a simple configurable file. Benefiting from the advantages of flexibility and ease of use, YATO can facilitate fast reproduction and refinement of state-of-the-art NLP models, and promote the cross-disciplinary applications of NLP techniques. The code, examples, and documentation are publicly available at https://github.com/jiesutd/YATO. A demo video is also available at https://www.youtube.com/playlist?list=PLJ0mhzMcRuDUlTkzBfAftOqiJRxYTTjXH.
翻訳日:2023-10-19 21:12:48 公開日:2023-10-18
# パラフレージングはai生成テキストの検出器を回避しますが、検索は効果的な防御です

Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense ( http://arxiv.org/abs/2303.13408v2 )

ライセンス: Link先を確認
Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit Iyyer(参考訳) フェイクコンテンツの作成や学術的盗作などの大規模な言語モデルの悪質な使用の増加は、ウォーターマーキングや異常検出に基づくものを含む、aiが生成したテキストを識別するアプローチの開発を促した。 しかし、これらの検出アルゴリズムのAI生成テキストのパラフレーズに対する堅牢性は、まだ不明である。 本研究では,11Bパラメータパラフレーズ生成モデル(DIPPER)を構築し,パラフレーズ段落,周辺状況の条件,語彙の多様性と内容の並べ替えを制御する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かし、GPTZero、TectGPT、OpenAIのテキスト分類器など、いくつかの検出器を回避できた。 例えば、DIPPERは入力のセマンティクスを適切に変更することなく、検出精度を70.3%から4.6%(一定の偽陽性率で1%)に下げる。 本稿では,AI生成したテキスト検出とパラフレーズ攻撃の堅牢性を高めるために,意味論的に類似した世代を検索し,言語モデルAPIプロバイダがメンテナンスしなければならない,シンプルな防御手法を提案する。 候補テキストが与えられた場合,提案アルゴリズムは以前にAPIが生成したシーケンスのデータベースを検索し,特定のしきい値内で候補テキストと一致するシーケンスを探す。 我々は、微調整されたT5-XXLモデルから1500万世代分のデータベースを使用して、我々の防衛を実証的に検証し、異なる設定で言い換えられた世代の80%から97%を検出でき、人間の書き起こしシーケンスの1%をAI生成と分類できることがわかった。 モデル、コード、データをオープンソースにしています。

The rise in malicious usage of large language models, such as fake content creation and academic plagiarism, has motivated the development of approaches that identify AI-generated text, including those based on watermarking or outlier detection. However, the robustness of these detection algorithms to paraphrases of AI-generated text remains unclear. To stress test these detectors, we build a 11B parameter paraphrase generation model (DIPPER) that can paraphrase paragraphs, condition on surrounding context, and control lexical diversity and content reordering. Using DIPPER to paraphrase text generated by three large language models (including GPT3.5-davinci-003) successfully evades several detectors, including watermarking, GPTZero, DetectGPT, and OpenAI's text classifier. For example, DIPPER drops detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false positive rate of 1%), without appreciably modifying the input semantics. To increase the robustness of AI-generated text detection to paraphrase attacks, we introduce a simple defense that relies on retrieving semantically-similar generations and must be maintained by a language model API provider. Given a candidate text, our algorithm searches a database of sequences previously generated by the API, looking for sequences that match the candidate text within a certain threshold. We empirically verify our defense using a database of 15M generations from a fine-tuned T5-XXL model and find that it can detect 80% to 97% of paraphrased generations across different settings while only classifying 1% of human-written sequences as AI-generated. We open-source our models, code and data.
翻訳日:2023-10-19 21:06:08 公開日:2023-10-18
# Marich: 公開データを用いたクエリ効率の高い分散等価モデル抽出攻撃

Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data ( http://arxiv.org/abs/2302.08466v2 )

ライセンス: Link先を確認
Pratik Karmakar and Debabrota Basu(参考訳) 本研究では,公開データセットからターゲットmlモデルへの最小限のクエリを予測apiを通じてターゲットモデルに送信できるブラックボックスモデル抽出攻撃の設計について検討する。 まず,分布同値および最大情報モデル抽出攻撃を定義し,それを変動最適化問題に還元する。 攻撃者は、この最適化問題を逐次解決し、同時にエントロピーを最大化し、ターゲットと盗難モデルのミスマッチを低減する最も情報性の高いクエリを選択する。 これにより、アクティブなサンプリングベースのクエリ選択アルゴリズムであるMarichが実現される。 次に,テキストと画像データセット,CNNやBERTなどさまざまなモデルを用いて,Marichを評価した。 Marich氏は、真のモデルの精度を$\sim 60-95\%で達成したモデルを抽出し、公開データセットから$\sim 1,000 - 8,500$クエリを使用する。 Marichの収率予測分布から抽出されたモデルは、既存のアクティブサンプリングベースの攻撃と比較してターゲットの分布に近い$\sim 2-4\times$である。 抽出されたモデルはまた、メンバーシップ推論攻撃で8,4-96\%の精度をもたらす。 実験の結果,marichはクエリ効率が高く,タスク精度,忠実度,情報モデル抽出が可能であることが確認された。

We study design of black-box model extraction attacks that can send minimal number of queries from a publicly available dataset to a target ML model through a predictive API with an aim to create an informative and distributionally equivalent replica of the target. First, we define distributionally equivalent and Max-Information model extraction attacks, and reduce them into a variational optimisation problem. The attacker sequentially solves this optimisation problem to select the most informative queries that simultaneously maximise the entropy and reduce the mismatch between the target and the stolen models. This leads to an active sampling-based query selection algorithm, Marich, which is model-oblivious. Then, we evaluate Marich on different text and image data sets, and different models, including CNNs and BERT. Marich extracts models that achieve $\sim 60-95\%$ of true model's accuracy and uses $\sim 1,000 - 8,500$ queries from the publicly available datasets, which are different from the private training datasets. Models extracted by Marich yield prediction distributions, which are $\sim 2-4\times$ closer to the target's distribution in comparison to the existing active sampling-based attacks. The extracted models also lead to $84-96\%$ accuracy under membership inference attacks. Experimental results validate that Marich is query-efficient, and capable of performing task-accurate, high-fidelity, and informative model extraction.
翻訳日:2023-10-19 21:05:35 公開日:2023-10-18
# 拡散モデルを用いた境界案内学習自由意味制御

Boundary Guided Learning-Free Semantic Control with Diffusion Models ( http://arxiv.org/abs/2302.08357v3 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan(参考訳) 画像意味編集のような下流タスクに予め訓練された生成的分別拡散モデル(ddm)を適用するには、通常、既存の文献において微調整されたddmまたは補助編集ネットワークの学習が必要となる。 本研究では,フリーズドトレーニングDDMを用いた効率的な,効率的かつ軽量なセマンティック制御のための境界拡散法を提案する。 最初の学習自由拡散編集作業として、マルコフ連鎖における確率的および幾何学的挙動を理論的かつ実験的に解析することにより、中間高次元潜在空間の包括的理解を求めることから始める。 そこで本研究では,事前学習されたddmの収束を特徴付けるデノイジング軌道における編集のクリティカルステップをさらに探究し,自動探索法を提案する。 最後に、DDMが比較的貧弱な意味的振る舞いを持つという従来の理解とは対照的に、我々が発見した臨界潜在空間は、無条件DDMの一般的なレベルで意味的部分空間境界をすでに示しており、単一ステップの操作によって目標境界への指示軌道を誘導することで制御可能な操作を可能にする。 我々は,複数のDPMアーキテクチャ (DDPM, iDDPM) とデータセット (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) の様々な解像度 (64, 256) を用いて,様々なタスクシナリオ(画像セマンティック編集,テキストベース編集,非条件セマンティック制御) において,優れた,あるいは最先端のパフォーマンスを実現し,その効果を示す。

Applying pre-trained generative denoising diffusion models (DDMs) for downstream tasks such as image semantic editing usually requires either fine-tuning DDMs or learning auxiliary editing networks in the existing literature. In this work, we present our BoundaryDiffusion method for efficient, effective and light-weight semantic control with frozen pre-trained DDMs, without learning any extra networks. As one of the first learning-free diffusion editing works, we start by seeking a comprehensive understanding of the intermediate high-dimensional latent spaces by theoretically and empirically analyzing their probabilistic and geometric behaviors in the Markov chain. We then propose to further explore the critical step for editing in the denoising trajectory that characterizes the convergence of a pre-trained DDM and introduce an automatic search method. Last but not least, in contrast to the conventional understanding that DDMs have relatively poor semantic behaviors, we prove that the critical latent space we found already exhibits semantic subspace boundaries at the generic level in unconditional DDMs, which allows us to do controllable manipulation by guiding the denoising trajectory towards the targeted boundary via a single-step operation. We conduct extensive experiments on multiple DPMs architectures (DDPM, iDDPM) and datasets (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64, 256), achieving superior or state-of-the-art performance in various task scenarios (image semantic editing, text-based editing, unconditional semantic control) to demonstrate the effectiveness.
翻訳日:2023-10-19 21:05:12 公開日:2023-10-18
# オンライン授業増分学習におけるタスク要求バイアスの救済に関する新しい視点

New Insights on Relieving Task-Recency Bias for Online Class Incremental Learning ( http://arxiv.org/abs/2302.08243v2 )

ライセンス: Link先を確認
Guoqiang Liang, Zhaojie Chen, Zhaoqiang Chen, Shiyu Ji, Yanning Zhang(参考訳) 人間の学習を継続する能力の模倣として、絶え間なく続くデータストリームから学習できる連続学習が近年注目を集めている。 すべての設定において、データストリームから入力されるサンプルを一度だけ使用可能なオンラインクラスインクリメンタルラーニング(OCIL)は、より困難で、現実世界でより頻繁に発生する可能性がある。 実際、全ての連続学習モデルは安定性と塑性のジレンマに直面し、安定性は古い知識を保存する能力を意味し、可塑性は新しい知識を組み込む能力を示す。 リプレイベースの手法は例外的な可能性を示したが、その多くは可塑性を犠牲にして安定性を維持するためにメモリを更新して取得する戦略に集中している。 安定性と可塑性のトレードオフに対処するため,モデル学習における不明瞭なサンプルや非ターゲットロジットへのフォーカスを動的に調整する適応型フォーカスシフトアルゴリズム(AFS)を提案する。 クラス不均衡に起因するタスク・レジデンスバイアスの深い分析を通じて,主に安定性を維持するために焦点損失の修正を提案する。 新しい重み関数を利用することで、修正された焦点損失は現在のあいまいなサンプルにより多くの注意を払うことになる。 可塑性を促進するため,仮想知識蒸留法を提案する。 仮想教師を設計することで、非ターゲットクラスにもっと注意を向け、過信を克服し、クラス間情報にフォーカスするようモデルに促す。 OCILの3つの一般的なデータセットに対する大規模な実験は、AFSの有効性を示した。 コードは \url{https://github.com/czjghost/AFS} で入手できる。

To imitate the ability of keeping learning of human, continual learning which can learn from a never-ending data stream has attracted more interests recently. In all settings, the online class incremental learning (OCIL), where incoming samples from data stream can be used only once, is more challenging and can be encountered more frequently in real world. Actually, all continual learning models face a stability-plasticity dilemma, where the stability means the ability to preserve old knowledge while the plasticity denotes the ability to incorporate new knowledge. Although replay-based methods have shown exceptional promise, most of them concentrate on the strategy for updating and retrieving memory to keep stability at the expense of plasticity. To strike a preferable trade-off between stability and plasticity, we propose an Adaptive Focus Shifting algorithm (AFS), which dynamically adjusts focus to ambiguous samples and non-target logits in model learning. Through a deep analysis of the task-recency bias caused by class imbalance, we propose a revised focal loss to mainly keep stability. \Rt{By utilizing a new weight function, the revised focal loss will pay more attention to current ambiguous samples, which are the potentially valuable samples to make model progress quickly.} To promote plasticity, we introduce a virtual knowledge distillation. By designing a virtual teacher, it assigns more attention to non-target classes, which can surmount overconfidence and encourage model to focus on inter-class information. Extensive experiments on three popular datasets for OCIL have shown the effectiveness of AFS. The code will be available at \url{https://github.com/czjghost/AFS}.
翻訳日:2023-10-19 21:04:37 公開日:2023-10-18
# 非ラベルデータを用いたチェーン・オブ・サート・プロンプティングのための説明選択

Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting ( http://arxiv.org/abs/2302.04813v3 )

ライセンス: Link先を確認
Xi Ye and Greg Durrett(参考訳) 最近の研究は、テキスト推論タスク、すなわちチェーン・オブ・シント・パラダイムの強力なパフォーマンスを得るために、説明付きで大規模な言語モデルを促す方法を示している。 しかし、微妙に異なる説明は下流のタスクの精度を大きく変化させる可能性がある。 非専門家による本棚外の説明など、タスクの"調整"されていない説明は、中途半端なパフォーマンスにつながる可能性がある。 本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に取り組む。 まず,各事例の候補説明のセットを,各事例の候補説明のセットにまとめて,その有効組み合わせを2段階のフレームワークで確認する。 まず,2つのプロキシ指標,ログの妥当性と新しい例の精度に基づいて,コンテキスト内の各例に対する説明を分離して評価する。 次に,説明の組み合わせを検索して,シルバーラベルの開発セットに対して高いパフォーマンスをもたらすものを探す。 質問応答,数学的推論,自然言語推論にまたがる4つのテキスト推論タスクにおいて,我々のプロキシ指標が真実の正確さと相関し,我々の全体的な手法は,クラウドワーカーアノテーションやナイーブ検索戦略よりも効果的に促進できることを示す。

Recent work has shown how to prompt large language models with explanations to obtain strong performance on textual reasoning tasks, i.e., the chain-of-thought paradigm. However, subtly different explanations can yield widely varying downstream task accuracy. Explanations that have not been "tuned" for a task, such as off-the-shelf explanations written by nonexperts, may lead to mediocre performance. This paper tackles the problem of how to optimize explanation-infused prompts in a blackbox fashion. We first generate sets of candidate explanations for each example in the prompt using a leave-one-out scheme, then find an effective combination of these explanations with a two-stage framework. We first evaluate explanations for each in-context example in isolation according to two proxy metrics, log likelihood and accuracy on new examples. Then, we search over combinations of explanations to find one that yields high performance against a silver-labeled development set. Across four textual reasoning tasks spanning question answering, mathematical reasoning, and natural language inference, results show that our proxy metrics correlate with ground truth accuracy and our overall method can effectively improve prompts over crowdworker annotations and naive search strategies
翻訳日:2023-10-19 21:04:09 公開日:2023-10-18
# フィードバックを伴う隠れたアライメント言語モデルの連鎖

Chain of Hindsight Aligns Language Models with Feedback ( http://arxiv.org/abs/2302.02676v8 )

ライセンス: Link先を確認
Hao Liu, Carmelo Sferrazza, Pieter Abbeel(参考訳) 人間の嗜好から学ぶことは、言語モデルが人間の要求にマッチし、人間や社会的価値に合わせるために重要である。 以前の作品は、人間のフィードバックから学び、指示を理解し、従うことで、目覚ましい成功を収めた。 それにもかかわらず、これらの手法は人間のアノテータに好まれる手書きモデル世代に基づいて構築され、データ利用の面で効率が悪く、一般に適用が難しいか、あるいは不完全な報酬機能に悩まされ、極めて困難な最適化に依存している強化学習に依存している。 本研究では,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。 私たちのアイデアは、人間が言語形式で提示された広範なフィードバックから学ぶ方法にインスピレーションを受けています。 我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにします。 フィードバックとペアリングしたモデル生成のシーケンス上でモデルを条件付けする。 そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。 提案手法を大規模言語モデルに適用することにより,Hendsight の Chain が従来の手法をはるかに上回り,言語モデルと人間の嗜好の整合を図った。 要約と対話のベンチマークにおいて有意な改善を報告し,このアプローチは人的評価において顕著に好まれる。

Learning from human preferences is important for language models to match human needs and to align with human and social values. Prior works have achieved remarkable successes by learning from human feedback to understand and follow instructions. Nonetheless, these methods are either founded on hand-picked model generations that are favored by human annotators, rendering them inefficient in terms of data utilization and challenging to apply in general, or they depend on reinforcement learning, which often suffers from imperfect reward functions and relies on extremely challenging optimizations. In this work, we propose a novel technique, Chain of Hindsight, that is easy to optimize and can learn from any form of feedback, regardless of its polarity. Our idea is inspired by how humans learn from extensive feedback presented in the form of languages. We convert all types of feedback into sequences of sentences, which are then used to fine-tune the model, allowing us to take advantage of the language comprehension capabilities of language models. We condition the model on a sequence of model generations paired with feedback. By doing so, the model is trained to generate outputs based on feedback, while learning to identify and correct negative attributes or errors. Applying our method to large language models, we observed that Chain of Hindsight significantly surpasses previous methods in aligning language models with human preferences. We report significant improvements on summarization and dialogue benchmarks, with our approach markedly preferred in human evaluations.
翻訳日:2023-10-19 21:02:47 公開日:2023-10-18
# ファウショット生成領域適応のためのドメイン再変調

Domain Re-Modulation for Few-Shot Generative Domain Adaptation ( http://arxiv.org/abs/2302.02550v4 )

ライセンス: Link先を確認
Yi Wu, Ziqiang Li, Chaoyue Wang, Heliang Zheng, Shanshan Zhao, Bin Li, Dacheng Tao(参考訳) 本研究では,いくつかの参照画像のみを用いて,事前学習したジェネレータを1つのドメインから新しいドメインに転送する作業である生成ドメイン適応(GDA)について検討する。 人間の脳が新しいドメインの知識を得る方法に触発されて、ドメイン再構成(DoRM)と呼ばれる革新的なジェネレータ構造を示す。 DoRMは、GDAの以前の研究によって達成された高品質、大規模な合成の多様性、ドメイン間の整合性の基準を満たすだけでなく、人間の脳の動作に類似した記憶とドメイン関連も含んでいる。 具体的には、DoRMはソースジェネレータを凍結し、新しいマッピングとアフィンモジュール(M&Aモジュール)を導入し、GDA中にターゲットドメインの属性をキャプチャする。 この過程はヒト脳の新しいシナプスの形成に似ている。 その結果、スタイル空間において線形結合可能なドメインシフトが発生する。 複数の新しいm&aモジュールを組み込むことで、ジェネレータは高忠実度マルチドメインおよびハイブリッドドメイン生成を実行する能力を得る。 さらに、ドメイン間の一貫性をより効果的に維持するために、類似性に基づく構造損失を導入する。 この損失は、トレーニング中に対象画像の自己相関マップと対応するソース画像の自己相関マップとを一致させる。 広汎な実験により,数ショットGDAにおけるDoRMの優れた性能と類似性に基づく構造損失を定量的および定性的に実証した。 コードはhttps://github.com/wuyi2020/DoRM.comから入手できる。

In this study, we delve into the task of few-shot Generative Domain Adaptation (GDA), which involves transferring a pre-trained generator from one domain to a new domain using only a few reference images. Inspired by the way human brains acquire knowledge in new domains, we present an innovative generator structure called Domain Re-Modulation (DoRM). DoRM not only meets the criteria of high quality, large synthesis diversity, and cross-domain consistency, which were achieved by previous research in GDA, but also incorporates memory and domain association, akin to how human brains operate. Specifically, DoRM freezes the source generator and introduces new mapping and affine modules (M&A modules) to capture the attributes of the target domain during GDA. This process resembles the formation of new synapses in human brains. Consequently, a linearly combinable domain shift occurs in the style space. By incorporating multiple new M&A modules, the generator gains the capability to perform high-fidelity multi-domain and hybrid-domain generation. Moreover, to maintain cross-domain consistency more effectively, we introduce a similarity-based structure loss. This loss aligns the auto-correlation map of the target image with its corresponding auto-correlation map of the source image during training. Through extensive experiments, we demonstrate the superior performance of our DoRM and similarity-based structure loss in few-shot GDA, both quantitatively and qualitatively. The code will be available at https://github.com/wuyi2020/DoRM.
翻訳日:2023-10-19 21:02:19 公開日:2023-10-18
# 深層学習型アクセシブルパーキング管理システムShine

SHINE: Deep Learning-Based Accessible Parking Management System ( http://arxiv.org/abs/2302.00837v3 )

ライセンス: Link先を確認
Dhiraj Neupane, Aashish Bhattarai, Sunil Aryal, Mohamed Reda Bouadjenek, Uk-Min Seok, and Jongwon Seok(参考訳) 科学技術の進歩により、現在進行中の都市部の拡大は、韓国を含む世界中の民間所有車両の数が大幅に増加した。 しかし、この段階的な車両数の増加は必然的に、障害者専用駐車スペース(以下「アクセス可能な駐車スペース」と呼ぶ)の乱用など、駐車関連の問題を引き起こしている。 従来のlprシステムは、監視カメラのフレームレートが高いこと、自然と人工のノイズの存在、これらのシステムによる検出と認識を妨げる照明や気象条件の変化などにより、このような問題をリアルタイムに対処できないことが証明されている。 パーキング4.0の概念の高まりにより、多くのセンサー、IoTおよびディープラーニングベースのアプローチが自動LPRとパーキング管理システムに適用された。 それにもかかわらず、この研究は韓国でアクセス可能な駐車スペースを管理するための堅牢で効率的なモデルの必要性を示している。 これに対処するため,我々は,深層学習に基づく物体検出アルゴリズムを用いて車両,ナンバープレート,障害バッジ(以下,カード,バッジ,アクセスバッジとして参照)を検出し,中央サーバと協調してアクセス可能な駐車スペースの使用権を検証する,shineという新しいシステムを提案する。 本モデルは,平均92.16%の精度を実現し,アクセス可能な駐車スペース乱用の問題に対処し,都市環境における効率的な駐車管理に大いに寄与する。

The ongoing expansion of urban areas facilitated by advancements in science and technology has resulted in a considerable increase in the number of privately owned vehicles worldwide, including in South Korea. However, this gradual increment in the number of vehicles has inevitably led to parking-related issues, including the abuse of disabled parking spaces (hereafter referred to as accessible parking spaces) designated for individuals with disabilities. Traditional license plate recognition (LPR) systems have proven inefficient in addressing such a problem in real-time due to the high frame rate of surveillance cameras, the presence of natural and artificial noise, and variations in lighting and weather conditions that impede detection and recognition by these systems. With the growing concept of parking 4.0, many sensors, IoT and deep learning-based approaches have been applied to automatic LPR and parking management systems. Nonetheless, the studies show a need for a robust and efficient model for managing accessible parking spaces in South Korea. To address this, we have proposed a novel system called, Shine, which uses the deep learning-based object detection algorithm for detecting the vehicle, license plate, and disability badges (referred to as cards, badges, or access badges hereafter) and verifies the rights of the driver to use accessible parking spaces by coordinating with the central server. Our model, which achieves a mean average precision of 92.16%, is expected to address the issue of accessible parking space abuse and contributes significantly towards efficient and effective parking management in urban environments.
翻訳日:2023-10-19 21:01:55 公開日:2023-10-18
# Neural Relation Graph: ラベルノイズと外部データの識別のための統一フレームワーク

Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data ( http://arxiv.org/abs/2301.12321v3 )

ライセンス: Link先を確認
Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song(参考訳) データの診断とクリーニングは、堅牢な機械学習システムを構築するための重要なステップである。 しかしながら、ラベルエラーや過剰表現、外れ値といった複雑な問題が存在するため、大規模なデータセット内の問題を特定することは難しい。 本稿では,主に無視される情報のソースである特徴埋め込み空間におけるデータの関係構造を利用して,問題データを特定する統一的な手法を提案する。 そこで本研究では,データの関係グラフ構造に基づいてラベル誤りや異常データを検出するスケーラブルで効果的なアルゴリズムを提案する。 さらに,特徴埋め込み空間におけるデータポイントの文脈情報を提供する可視化ツールを導入し,インタラクティブにデータ診断を行うための効果的なツールとして機能する。 本研究では,画像Net,ESC-50,SST2を含む大規模画像,音声,言語領域タスクにおけるラベル誤りとOODの検出性能を評価する。 本手法は,検討中のすべてのタスクにおける最先端検出性能を達成し,様々なドメインにまたがる大規模実世界のデータセットのデバッグにおいてその効果を実証する。 私たちはhttps://github.com/snu-mllab/Neural-Relation-Graphでコードをリリースします。

Diagnosing and cleaning data is a crucial step for building robust machine learning systems. However, identifying problems within large-scale datasets with real-world distributions is challenging due to the presence of complex issues such as label errors, under-representation, and outliers. In this paper, we propose a unified approach for identifying the problematic data by utilizing a largely ignored source of information: a relational structure of data in the feature-embedded space. To this end, we present scalable and effective algorithms for detecting label errors and outlier data based on the relational graph structure of data. We further introduce a visualization tool that provides contextual information of a data point in the feature-embedded space, serving as an effective tool for interactively diagnosing data. We evaluate the label error and outlier/out-of-distribution (OOD) detection performances of our approach on the large-scale image, speech, and language domain tasks, including ImageNet, ESC-50, and SST2. Our approach achieves state-of-the-art detection performance on all tasks considered and demonstrates its effectiveness in debugging large-scale real-world datasets across various domains. We release codes at https://github.com/snu-mllab/Neural-Relation-Graph.
翻訳日:2023-10-19 21:01:28 公開日:2023-10-18
# YOLOv8アルゴリズムを用いた小児関節外傷X線画像の破壊検出

Fracture Detection in Pediatric Wrist Trauma X-ray Images Using YOLOv8 Algorithm ( http://arxiv.org/abs/2304.05071v4 )

ライセンス: Link先を確認
Rui-Yang Ju, Weiming Cai(参考訳) 病院の救急部門では、多くの骨折が頻繁に発生し、そのほとんどが小児手首外傷骨折である。 小児外科医が手術を行う前は,骨折がどのように発生したか患者に質問し,x線像を解釈して骨折状況を分析する必要がある。 X線画像の解釈は、しばしば放射線医と外科医の技法の組み合わせを必要とする。 コンピュータビジョンの分野におけるディープラーニングの台頭に伴い、破壊検出に適用するネットワークモデルが重要な研究課題となっている。 本稿では,公衆データセットである小児手首外傷x線データセット(grazpedwri-dx)におけるyolov8アルゴリズム(最新版は1回しか見ることができない)のモデル性能向上のためにデータ拡張を用いた。 実験の結果,本モデルは最先端(sota)リアルタイムモデル性能に到達した。 具体的には、我々のモデルの平均平均精度(mAP 50)は0.638であり、改良されたYOLOv7および元のYOLOv8モデルの0.634および0.636よりも大幅に高い。 小児手関節外傷X線画像の骨折検出に外科医が利用できるように, 手術者の骨折診断を支援し, エラー解析の可能性を低減し, 手術に有用な情報を提供するアプリケーション「YOLOv8 Appを用いたフラクチャー検出」を設計した。

Hospital emergency departments frequently receive lots of bone fracture cases, with pediatric wrist trauma fracture accounting for the majority of them. Before pediatric surgeons perform surgery, they need to ask patients how the fracture occurred and analyze the fracture situation by interpreting X-ray images. The interpretation of X-ray images often requires a combination of techniques from radiologists and surgeons, which requires time-consuming specialized training. With the rise of deep learning in the field of computer vision, network models applying for fracture detection has become an important research topic. In this paper, we use data augmentation to improve the model performance of YOLOv8 algorithm (the latest version of You Only Look Once) on a pediatric wrist trauma X-ray dataset (GRAZPEDWRI-DX), which is a public dataset. The experimental results show that our model have reached the state-of-the-art (SOTA) real-time model performance. Specifically, the mean average precision (mAP 50) of our model is 0.638, which is significantly higher than the 0.634 and 0.636 of the improved YOLOv7 and original YOLOv8 models. To enable surgeons to use our model for fracture detection on pediatric wrist trauma X-ray images, we have designed the application "Fracture Detection Using YOLOv8 App" to assist surgeons in diagnosing fractures, reducing the probability of error analysis, and providing more useful information for surgery.
翻訳日:2023-10-19 20:54:52 公開日:2023-10-18
# 知識蒸留を用いた低メモリデバイス用混合型ウェハ分類

Mixed-Type Wafer Classification For Low Memory Devices Using Knowledge Distillation ( http://arxiv.org/abs/2303.13974v2 )

ライセンス: Link先を確認
Nitish Shukla, Anurima Dey, Srivatsan K(参考訳) ウェハーの製造は何千ものステップを伴う複雑な作業です。 ウェハマップの欠陥パターン認識(DPR)は生産欠陥の根本原因決定に不可欠であり、ウェハファウントリーの収量改善の洞察を与える可能性がある。 製造中、様々な欠陥がウエハに単独で現れるか、異なる組み合わせとして現れる。 ウエハ内の複数の欠陥を特定することは、単一の欠陥を特定するよりも一般的に難しい。 近年,混合型DPRの深層学習手法が注目されている。 しかし、欠陥の複雑さは複雑で大きなモデルを必要とするため、製造ラボで一般的に使用される低メモリの組み込みデバイスで運用するのが非常に困難である。 もうひとつの一般的な問題は、複雑なネットワークをトレーニングするためのラベル付きデータの可用性の欠如である。 本研究では,複雑な事前学習モデルの知識を軽量なデプロイメント対応モデルに割くための教師なしトレーニングルーチンを提案する。 教師モデルよりも最大10倍小さくても, 精度を犠牲にすることなく, モデルを圧縮できることを実証的に示す。 圧縮されたモデルは、現代の最先端モデルよりも優れている。

Manufacturing wafers is an intricate task involving thousands of steps. Defect Pattern Recognition (DPR) of wafer maps is crucial for determining the root cause of production defects, which may further provide insight for yield improvement in wafer foundry. During manufacturing, various defects may appear standalone in the wafer or may appear as different combinations. Identifying multiple defects in a wafer is generally harder compared to identifying a single defect. Recently, deep learning methods have gained significant traction in mixed-type DPR. However, the complexity of defects requires complex and large models making them very difficult to operate on low-memory embedded devices typically used in fabrication labs. Another common issue is the unavailability of labeled data to train complex networks. In this work, we propose an unsupervised training routine to distill the knowledge of complex pre-trained models to lightweight deployment-ready models. We empirically show that this type of training compresses the model without sacrificing accuracy despite being up to 10 times smaller than the teacher model. The compressed model also manages to outperform contemporary state-of-the-art models.
翻訳日:2023-10-19 20:54:24 公開日:2023-10-18
# 超軽量タッチによる量子因果推論

Quantum Causal Inference with Extremely Light Touch ( http://arxiv.org/abs/2303.10544v2 )

ライセンス: Link先を確認
Xiangjing Liu, Yixian Qiu, Oscar Dahlsten, Vlatko Vedral(参考訳) 事象間の因果関係を推定する量子バージョンを考える。 必要最小限の介入と観察を特定するための最近の進歩がある。 ここで、明示的なスキームを構築することによって、量子観測だけでは2回測定された二成分量子システムの場合の量子因果推論に十分であることを示す。 重要な技術的貢献は、多くの時間と量子ビットに関連する時空擬密度行列に対する閉形式表現の導出である。 この行列は粗い粒度の量子観測だけで決定できる。 この行列から因果単音と呼ばれる特定の関数の符号を通して因果構造を推測できることを示す。 その結果,量子プロセスでは,異なる時間における観測間の相関のみから因果構造を推測できることがわかった。

We consider the quantum version of inferring the causal relation between events. There has been recent progress towards identifying minimal interventions and observations needed. We here show, by means of constructing an explicit scheme, that quantum observations alone are sufficient for quantum causal inference for the case of a bipartite quantum system with measurements at two times. A key technical contribution is the derivation of a closed-form expression for the space-time pseudo-density matrix associated with many times and qubits. This matrix can be determined by coarse-grained quantum observations alone. We show that from this matrix one can infer the causal structure via the sign of a particular function called a causal monotone. Our results show that for quantum processes one can infer the causal structure solely from correlations between observations at different times.
翻訳日:2023-10-19 20:53:36 公開日:2023-10-18
# dialogpaint:ダイアログベースの画像編集モデル

DialogPaint: A Dialog-based Image Editing Model ( http://arxiv.org/abs/2303.10073v2 )

ライセンス: Link先を確認
Jingxuan Wei, Shiyu Wu, Xin Jiang, Yequan Wang(参考訳) 画像編集と対話をブリッジする新しいフレームワークであるDialogPaintを導入し、ユーザが自然な対話を通じて画像を修正できるようにする。 対話モデルと安定した拡散画像変換技術を統合することで、dialogpaintはより直感的でインタラクティブな画像修正アプローチを提供する。 提案手法は,明示的命令と曖昧な命令の両方を効果的に解釈し,実行し,オブジェクト置換やスタイル転送,色変化などの処理を行う。 注目すべきなのは、DialogPaintは反復的な複数ラウンド編集をサポートしており、ユーザーは連続するインタラクションを通して画像編集を洗練できる。 総合評価では,提案手法のロバスト性と汎用性が強調され,対話型画像編集における重要な進歩を示す。

We introduce DialogPaint, a novel framework that bridges conversational interactions with image editing, enabling users to modify images through natural dialogue. By integrating a dialogue model with the Stable Diffusion image transformation technique, DialogPaint offers a more intuitive and interactive approach to image modifications. Our method stands out by effectively interpreting and executing both explicit and ambiguous instructions, handling tasks such as object replacement, style transfer, and color modification. Notably, DialogPaint supports iterative, multi-round editing, allowing users to refine image edits over successive interactions. Comprehensive evaluations highlight the robustness and versatility of our approach, marking a significant advancement in dialogue-driven image editing.
翻訳日:2023-10-19 20:53:25 公開日:2023-10-18
# 制御可能なデータ生成のためのソフトプロンプトの混合

Mixture of Soft Prompts for Controllable Data Generation ( http://arxiv.org/abs/2303.01580v2 )

ライセンス: Link先を確認
Derek Chen, Celine Lee, Yunan Lu, Domenic Rosati, Zhou Yu(参考訳) 大規模言語モデル(llm)は、対象の出力が自然言語パターンに従うと、効果的にフルーレントテキストを生成する。 しかし、構造化予測タスクは出力形式を限定的なオントロジーに限定し、そのような制約を念頭に置いて訓練されなかったため、非常に大きなモデルでさえ苦労した。 直接予測にLLMを使うことの難しさは、ドメインシフトとリソース制限によって一般的に生じる、数ショットの学習シナリオで悪化する。 直接予測ではなく,データ拡張ツールとしてLLMを活用することで,この問題を克服する。 提案するMixture of Soft Prompts (MSP) は,制御された方法でデータを生成するパラメータ効率の高い手法である。 さらにデノナイジング機構を適用して、合成データの品質を向上させる。 自動メトリクスは,ラベルのセマンティクスを保ちながら,多様で自然なテキストを生成可能であることを示す。 さらに、MSPは、強いベースラインと比較した場合、3つのベンチマークで最先端の結果を得る。 本手法は,複雑な予測タスクにllmを適用するための代替データ中心アプローチを提供する。

Large language models (LLMs) effectively generate fluent text when the target output follows natural language patterns. However, structured prediction tasks confine the output format to a limited ontology, causing even very large models to struggle since they were never trained with such restrictions in mind. The difficulty of using LLMs for direct prediction is exacerbated in few-shot learning scenarios, which commonly arise due to domain shift and resource limitations. We flip the problem on its head by leveraging the LLM as a tool for data augmentation rather than direct prediction. Our proposed Mixture of Soft Prompts (MSP) serves as a parameter-efficient procedure for generating data in a controlled manner. Denoising mechanisms are further applied to improve the quality of synthesized data. Automatic metrics show our method is capable of producing diverse and natural text, while preserving label semantics. Moreover, MSP achieves state-of-the-art results on three benchmarks when compared against strong baselines. Our method offers an alternate data-centric approach for applying LLMs to complex prediction tasks.
翻訳日:2023-10-19 20:53:12 公開日:2023-10-18
# Taylor TD ラーニング

Taylor TD-learning ( http://arxiv.org/abs/2302.14182v2 )

ライセンス: Link先を確認
Michele Garibbo, Maxime Robeyns and Laurence Aitchison(参考訳) 多くの強化学習アプローチは、批判を学ぶために時間差学習(TD)に依存している。 しかし、td-learningのアップデートは大きなばらつきがある。 本稿では,モデルに基づくRLフレームワークであるTaylor TDを紹介する。 Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。 この拡張により、Taylor TDはアクション選択における確率性と、各TD更新の初期状態と動作に対する状態分布における確率性を解析的に統合することができる。 Taylor TD 更新が標準 TD 更新よりも実際に低い分散であるという理論的および経験的な証拠を含む。 さらに,Taylor TDは線形関数近似を用いた標準TD学習と同じ安定な学習保証を持つことを示す。 次にTaylor TDとTD3アルゴリズムを組み合わせてTaTD3を生成する。 TaTD3は、標準的なベンチマークタスクのセット上で、最先端のモデルフリーおよびモデルベースラインアルゴリズムよりも優れたパフォーマンスを示す。

Many reinforcement learning approaches rely on temporal-difference (TD) learning to learn a critic. However, TD-learning updates can be high variance. Here, we introduce a model-based RL framework, Taylor TD, which reduces this variance in continuous state-action settings. Taylor TD uses a first-order Taylor series expansion of TD updates. This expansion allows Taylor TD to analytically integrate over stochasticity in the action-choice, and some stochasticity in the state distribution for the initial state and action of each TD update. We include theoretical and empirical evidence that Taylor TD updates are indeed lower variance than standard TD updates. Additionally, we show Taylor TD has the same stable learning guarantees as standard TD-learning with linear function approximation under a reasonable assumption. Next, we combine Taylor TD with the TD3 algorithm, forming TaTD3. We show TaTD3 performs as well, if not better, than several state-of-the art model-free and model-based baseline algorithms on a set of standard benchmark tasks.
翻訳日:2023-10-19 20:52:57 公開日:2023-10-18
# エンドツーエンド手話翻訳のためのモーダリティデータ拡張

Cross-modality Data Augmentation for End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.11096v3 )

ライセンス: Link先を確認
Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong(参考訳) エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。 サインビデオとテキストの差異やラベル付きデータの不足などにより,この課題は難しい課題となっている。 これらの課題に対処するため,我々は,手話翻訳モデルから擬似手話対を活用し,手話翻訳機能をエンドツーエンド手話翻訳(すなわちビデオからテキストへの翻訳)に移すための,新しいクロスモダリティデータ拡張(xmda)フレームワークを提案する。 具体的には、XmDAは2つの重要な構成要素、すなわち、相互モダリティ混合と相互モダリティ知識蒸留からなる。 前者は、手話ビデオ機能と光沢埋め込みのアライメントを明示的に奨励し、モダリティギャップを橋渡ししている。 後者は、音声テキスト生成を指導するために、教師モデルからの知識を活用している。 PHOENIX-2014TとCSL-Dailyという2つの広く使われているSLTデータセットの実験結果は、提案したXmDAフレームワークがベースラインモデルを大幅に上回っていることを示す。 XmDAはビデオとテキスト間の表現距離を減らし、低頻度語と長文の処理を改善することで、音声テキスト生成を向上させるという我々の主張を確認した。

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.
翻訳日:2023-10-19 20:43:28 公開日:2023-10-18
# IMAP: 本質的には敵対的政策

IMAP: Intrinsically Motivated Adversarial Policy ( http://arxiv.org/abs/2305.02605v2 )

ライセンス: Link先を確認
Xiang Zheng, Xingjun Ma, Shengjie Wang, Xinyu Wang, Chao Shen, Cong Wang(参考訳) 強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。 単一エージェント環境では、これらの攻撃は、被害者ポリシーネットワークの入力に注入される不可避な摂動によって起こりうる。 多エージェント環境では、攻撃者は敵を操り、被害者の政策の観察に間接的に影響を及ぼすことができる。 敵対的な政策はこのような攻撃を仕掛ける有望な技術を提供するが、現在の手法は、探索戦略の貧弱さによるサンプル非効率か、ブラックボックスの仮定の下で追加のサロゲートモデルトレーニングを必要とする。 本稿では,単一エージェント環境と複数エージェント環境の両方において,効率的なブラックボックス・アドバーサリアン・ポリシー学習のための本質的モチベーション・アドバーサリアン・ポリシー(imap)を提案する。 我々は, 敵対的内在的正規化要因の4つのタイプを定式化し, 敵対的状態カバレッジ, 政策カバレッジ, リスク, 分散度を最大化し, 被害者政策の潜在的な脆弱性を原則的に発見する。 また,IMAPをさらに促進するための新しいBias-Reduction(BR)法を提案する。 本実験は,ブラックボックス型対向政策学習における4種類の対向型内向正則化器とBRの有効性を検証した。 我々のIMAPは、対人訓練と頑健な正則化という2種類の防御手法を回避し、4つの単一エージェントタスクにおいて、最先端のロバストなWocaR-PPOエージェントの性能を34%-54%低下させることに成功した。 IMAPはマルチエージェントゲームのYouShallNotPassで最先端の攻撃成功率83.91%を達成した。

Reinforcement learning agents are susceptible to evasion attacks during deployment. In single-agent environments, these attacks can occur through imperceptible perturbations injected into the inputs of the victim policy network. In multi-agent environments, an attacker can manipulate an adversarial opponent to influence the victim policy's observations indirectly. While adversarial policies offer a promising technique to craft such attacks, current methods are either sample-inefficient due to poor exploration strategies or require extra surrogate model training under the black-box assumption. To address these challenges, in this paper, we propose Intrinsically Motivated Adversarial Policy (IMAP) for efficient black-box adversarial policy learning in both single- and multi-agent environments. We formulate four types of adversarial intrinsic regularizers -- maximizing the adversarial state coverage, policy coverage, risk, or divergence -- to discover potential vulnerabilities of the victim policy in a principled way. We also present a novel Bias-Reduction (BR) method to boost IMAP further. Our experiments validate the effectiveness of the four types of adversarial intrinsic regularizers and BR in enhancing black-box adversarial policy learning across a variety of environments. Our IMAP successfully evades two types of defense methods, adversarial training and robust regularizer, decreasing the performance of the state-of-the-art robust WocaR-PPO agents by 34%-54% across four single-agent tasks. IMAP also achieves a state-of-the-art attacking success rate of 83.91% in the multi-agent game YouShallNotPass.
翻訳日:2023-10-19 20:42:33 公開日:2023-10-18
# LMは将来のデータに一般化できるか? テキスト要約に関する経験的分析

Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization ( http://arxiv.org/abs/2305.01951v2 )

ライセンス: Link先を確認
Chi Seng Cheang, Hou Pong Chan, Derek F. Wong, Xuebo Liu, Zhaocong Li, Yanming Sun, Shudong Liu, Lidia S. Chao(参考訳) 最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。 しかし、既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重なる。 したがって、PLMの強い性能は、事前学習と微調整の間に記憶されるパラメトリック知識に依存する可能性がある。 さらに, PLM が記憶する知識は急速に時代遅れになり, 将来のデータに対する PLM の一般化性能に影響を与える可能性がある。 本研究では,抽象的な要約モデルの時間的一般化能力を理解するため,2010年から2022年までのデータサンプルを含む新しいベンチマークであるTempoSumを提案する。 本研究では,要約モデルに蓄積されたパラメトリック知識が,生成した要約の忠実性に大きく影響することを示す。 また,既存の忠実性向上手法は,将来のデータに対する要約モデルの忠実性を確実に改善することができない。 最後に,テキスト要約モデルの時間的一般化能力の評価と改善について,研究コミュニティにいくつか提言する。

Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpora and finetuning datasets. Hence, the strong performance of PLMs may rely on the parametric knowledge that is memorized during pre-training and fine-tuning. Moreover, the knowledge memorized by PLMs may quickly become outdated, which affects the generalization performance of PLMs on future data. In this work, we propose TempoSum, a novel benchmark that contains data samples from 2010 to 2022, to understand the temporal generalization ability of abstractive summarization models. Through extensive human evaluation, we show that parametric knowledge stored in summarization models significantly affects the faithfulness of the generated summaries on future data. Moreover, existing faithfulness enhancement methods cannot reliably improve the faithfulness of summarization models on future data. Finally, we discuss several recommendations to the research community on how to evaluate and improve the temporal generalization capability of text summarization models.
翻訳日:2023-10-19 20:42:05 公開日:2023-10-18
# RexUIE:ユニバーサル情報抽出のための明示的スキーマインストラクタを用いた再帰的手法

RexUIE: A Recursive Method with Explicit Schema Instructor for Universal Information Extraction ( http://arxiv.org/abs/2304.14770v2 )

ライセンス: Link先を確認
Chengyuan Liu, Fubang Zhao, Yangyang Kang, Jingyuan Zhang, Xiang Zhou, Changlong Sun, Kun Kuang, Fei Wu(参考訳) ユニバーサル情報抽出(UIE)は、様々なターゲット、異種構造、要求固有のスキーマによって引き起こされる課題により、関心のある分野である。 しかし、従来の作業は、名前付きエンティティ認識(NER)やリレーショナル抽出(RE)といった、特に四重項や四重項のような他の一般的なスキーマを抽出する場合に、真のUIEモデルに欠けるタスクを統一することで、限られた成功を収めただけである。 さらに、これらのモデルは暗黙的な構造スキーマインストラクタを使用しており、型間の誤ったリンクを引き起こし、低リソースシナリオにおけるモデルの一般化とパフォーマンスを妨げる可能性がある。 本稿では,ほぼすべての抽出スキーマを含む公式な定式化により,認証UIEを再定義する。 私たちの知る限りでは、どんな種類のスキーマにもUIEを導入するのは初めてです。 さらに,UIEのための明示的スキーマインストラクタを備えた再帰的手法であるRexUIEを提案する。 異なるタイプの干渉を避けるため,位置idと注意マスク行列をリセットした。 rexuieはフルショット設定と少数ショット設定の両方で強力なパフォーマンスを示し、複雑なスキーマを抽出するタスクで最先端の結果を得る。

Universal Information Extraction (UIE) is an area of interest due to the challenges posed by varying targets, heterogeneous structures, and demand-specific schemas. However, previous works have only achieved limited success by unifying a few tasks, such as Named Entity Recognition (NER) and Relation Extraction (RE), which fall short of being authentic UIE models particularly when extracting other general schemas such as quadruples and quintuples. Additionally, these models used an implicit structural schema instructor, which could lead to incorrect links between types, hindering the model's generalization and performance in low-resource scenarios. In this paper, we redefine the authentic UIE with a formal formulation that encompasses almost all extraction schemas. To the best of our knowledge, we are the first to introduce UIE for any kind of schemas. In addition, we propose RexUIE, which is a Recursive Method with Explicit Schema Instructor for UIE. To avoid interference between different types, we reset the position ids and attention mask matrices. RexUIE shows strong performance under both full-shot and few-shot settings and achieves State-of-the-Art results on the tasks of extracting complex schemas.
翻訳日:2023-10-19 20:41:50 公開日:2023-10-18
# バルク偏極チタニル酸カリウムを用いたモノリシックキャビティにおける低ノイズ量子周波数変換

Low-noise quantum frequency conversion in a monolithic cavity with bulk periodically poled potassium titanyl phosphate ( http://arxiv.org/abs/2304.13459v5 )

ライセンス: Link先を確認
Felix Mann, Helen M. Chrzanowski, Felipe Gewers, Marlon Placke, Sven Ramelow(参考訳) 将来の大規模量子ネットワークの異なるビルディングブロックのインターフェイスは、効率良くノイズのない量子光の周波数変換を必要とする。 ダイヤモンド中の窒素空孔(NV)中心は、そのようなネットワークのノードを形成する主要な候補である。 しかし, 既往の実証実験は, 目標通信波長で発生する寄生雑音によって著しく制限されているため, 適切なコンバータの性能は依然としてボトルネックである。 本稿では,モノリシックなバルクppktpキャビティに基づく高効率な低ノイズ量子周波数変換のための新しいプラットフォームを示し,ダイヤモンド中のnv中心から通信波長への637nm単一光子変換に適していることを示す。 オフザシェルフポンプレーザーの出力を共鳴的に高めることにより、アクティブ安定化を必要とせず、ターゲット波長で(110\pm 4) \mbox{ kHz/nm}$のみを発生させながら、内部変換効率が$(72.3\pm 0.4)\%となる。 これは、この波長での既存の最先端のシングルステップ変換器に対する5倍のノイズ改善である。 自発的なパラメトリックダウン変換源から光子を変換することで非古典的相関のほぼ理想的保存を検証し、さらにフランソン干渉法による時間エネルギーの絡み合いの保存を示す。

Interfacing the different building blocks of a future large scale quantum network will demand efficient and noiseless frequency conversion of quantum light. Nitrogen-vacancy (NV) centers in diamond are a leading candidate to form the nodes of such a network. However, the performance of a suitable converter remains a bottleneck, with existing demonstrations severely limited by parasitic noise arising at the target telecom wavelength. Here, we demonstrate a new platform for efficient low-noise quantum frequency conversion based on a monolithic bulk ppKTP cavity and show its suitability for the conversion of 637 nm single photons from NV centers in diamond to telecommunication wavelengths. By resonantly enhancing the power of an off-the-shelf pump laser, we achieve an internal conversion efficiency of $(72.3\pm 0.4)\%$ while generating only $(110\pm 4) \mbox{ kHz/nm}$ noise at the target wavelength without the need for any active stabilization. This constitutes a 5-fold improvement in noise over existing state-of-the-art single-step converters at this wavelengths. We verify the almost ideal preservation of non-classical correlations by converting photons from a spontaneous parametric down-conversion source and moreover show the preservation of time-energy entanglement via Franson interferometry.
翻訳日:2023-10-19 20:41:13 公開日:2023-10-18
# skillgpt: 大きな言語モデルを用いたスキル抽出と標準化のためのrestful apiサービス

SkillGPT: a RESTful API service for skill extraction and standardization using a Large Language Model ( http://arxiv.org/abs/2304.11060v2 )

ライセンス: Link先を確認
Nan Li, Bo Kang, Tijl De Bie(参考訳) 本稿では,オープンソースのLarge Language Model(LLM)をバックボーンとして,フリースタイルのジョブ記述とユーザプロファイルからスキル抽出と標準化を行うSkillGPTを提案する。 同様のタスクのためのほとんどの以前のメソッドは、監督を必要とするか、重いデータ前処理と機能工学に依存している。 しかし、最新の会話型LLMに標準スキルを直接促すことは、遅く、コストがかかり、不正確である。 対照的に、SkillGPTはLLMを使用して、要約とベクトル類似性探索によるステップでタスクを実行し、速度と精度のバランスをとる。 skillgptのバックボーンllmはllamaをベースにしており、学術的な使用は無料であり、探索的な研究やプロトタイプ開発に有用である。 したがって、当社のコストフリーSkillGPTは、会話型SESの利便性を効率的かつ確実に提供します。

We present SkillGPT, a tool for skill extraction and standardization (SES) from free-style job descriptions and user profiles with an open-source Large Language Model (LLM) as backbone. Most previous methods for similar tasks either need supervision or rely on heavy data-preprocessing and feature engineering. Directly prompting the latest conversational LLM for standard skills, however, is slow, costly and inaccurate. In contrast, SkillGPT utilizes a LLM to perform its tasks in steps via summarization and vector similarity search, to balance speed with precision. The backbone LLM of SkillGPT is based on Llama, free for academic use and thus useful for exploratory research and prototype development. Hence, our cost-free SkillGPT gives users the convenience of conversational SES, efficiently and reliably.
翻訳日:2023-10-19 20:40:28 公開日:2023-10-18
# 大規模言語モデルの相互整合性の検討:ディベートによる詳細な分析

Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate ( http://arxiv.org/abs/2305.11595v3 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin(参考訳) 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい機能を見せているが、それでも様々な矛盾に直面している。 既存の作業は主に1つのLLM内の不整合の問題に焦点を合わせ、協調のために複数のLLM間の一貫性を補完的に検討する。 共有目標の合意を達成するためにLLMが効果的に協力できるかどうかを検討するために、我々はコモンセンス推論に注目し、現実のシナリオを整合させた3段階の議論を行うための公式な議論枠組み(FORD)を導入する。 様々なデータセットに関する広範な実験を通じて、LLMは顕著な矛盾にもかかわらず、効果的に協力して合意に達することができるが、それらの能力の不均衡は優れたLLMによる支配につながる。 GPT-4のような高度なLCMを権威ある裁判官として活用すれば、コラボレーションのパフォーマンスが向上する。 我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。 コードとデータはhttps://github.com/Waste-Wood/FORDで公開されている。

Large Language Models (LLMs) have shown impressive capabilities in various applications, but they still face various inconsistency issues. Existing works primarily focus on the inconsistency issues within a single LLM, while we complementarily explore the inter-consistency among multiple LLMs for collaboration. To examine whether LLMs can collaborate effectively to achieve a consensus for a shared goal, we focus on commonsense reasoning, and introduce a formal debate framework (FORD) to conduct a three-stage debate among LLMs with real-world scenarios alignment: fair debate, mismatched debate, and roundtable debate. Through extensive experiments on various datasets, LLMs can effectively collaborate to reach a consensus despite noticeable inter-inconsistencies, but imbalances in their abilities can lead to domination by superior LLMs. Leveraging a more advanced LLM like GPT-4 as an authoritative judge can boost collaboration performance. Our work contributes to understanding the inter-consistency among LLMs and lays the foundation for developing future collaboration methods. Codes and data are available at https://github.com/Waste-Wood/FORD
翻訳日:2023-10-19 20:33:58 公開日:2023-10-18
# plugmed:in-context learningを用いた患者中心医療対話生成の特異性向上

PlugMed: Improving Specificity in Patient-Centered Medical Dialogue Generation using In-Context Learning ( http://arxiv.org/abs/2305.11508v2 )

ライセンス: Link先を確認
Chengfeng Dou, Zhi Jin, Wenping Jiao, Haiyan Zhao, Zhenwei Tao, Yongqiang Zhao(参考訳) 患者中心の医療対話システムは、患者固有の応答を提供することの重要性を強調することによって、医療知識に精通していないユーザーに診断解釈サービスを提供する。 医療分野でのタスクにおいても,期待できる性能にもかかわらず,大きな言語モデル(LLM)が応答の特異性を保証することは困難である。 そこで本研究では,この課題に対処するためのプラグイン・アンド・プレイ医療対話システムであるPlugMedを提案する。 PlugMedは、対話の特異性を改善するためのLLMの対話戦略を強化するために、プロンプト生成(PG)モジュールと応答ランキング(RR)モジュールの2つのモジュールを備えている。 PGモジュールは、同様の患者からの実際の対話をプロンプトとして提供することにより、LPMの模倣能力を刺激するように設計されている。 RRモジュールは細調整された小さなモデルを応答フィルタとして組み込んで、LLMによって生成される適切な応答の選択を可能にする。 さらに,ユーザの意図と高周波医療用語を一致させ,反応の特異性を効果的に評価する新しい評価手法を提案する。 3つの医療対話データセットを実験的に評価し, 自動評価と人間評価の両方を含む結果から, 提案手法の有効性を実証した。

The patient-centered medical dialogue systems strive to offer diagnostic interpretation services to users who are less knowledgeable about medical knowledge, through emphasizing the importance of providing responses specific to the patients. It is difficult for the large language models (LLMs) to guarantee the specificity of responses in spite of its promising performance even in some tasks in medical field. Inspired by in-context learning, we propose PlugMed, a Plug-and-Play Medical Dialogue System, for addressing this challenge. PlugMed is equipped with two modules, the prompt generation (PG) module and the response ranking (RR) module, to enhances LLMs' dialogue strategies for improving the specificity of the dialogue. The PG module is designed to stimulate the imitative ability of LLMs by providing them with real dialogues from similar patients as prompts. The RR module incorporates fine-tuned small model as response filter to enable the selection of appropriate responses generated by LLMs. Furthermore, we introduce a new evaluation method based on matching both user's intent and high-frequency medical term to effectively assess the specificity of the responses. We conduct experimental evaluations on three medical dialogue datasets, and the results, including both automatic and human evaluation, demonstrate the effectiveness of our approach.
翻訳日:2023-10-19 20:33:34 公開日:2023-10-18
# クリフォード群同変ニューラルネットワーク

Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2305.11141v4 )

ライセンス: Link先を確認
David Ruhe, Johannes Brandstetter, Patrick Forr\'e(参考訳) 我々は、clifford group equivariant neural networks: $\mathrm{o}(n)$- および $\mathrm{e}(n)$-同変モデルを構築するための新しいアプローチを紹介する。 クリフォード代数内の部分群である $\textit{Clifford group}$ を特定し、研究し、その定義を調整していくつかの好ましい性質を達成する。 主に、群の作用は直交自己同型を形成し、これは典型的なベクトル空間を越えてクリフォード代数全体へ拡張し、乗ベクトル階調を尊重する。 これにより、多重ベクトル分解に対応する複数の非同値な部分表現が導かれる。 さらに、作用はクリフォード代数のベクトル空間構造だけでなく、その乗法構造、すなわち幾何学積も尊重していることを証明する。 これらの結果から、乗ベクトルのすべての多項式は、任意の次元の内積空間に優雅に一般化できる表現的層が得られるという利点がある。 特に,1つのコア実装,3次元$n$-body実験,4次元Lorentz-equivariant高エネルギー物理実験,5次元凸船体実験など,いくつかの異なるタスクにおける最先端性能を実証する。

We introduce Clifford Group Equivariant Neural Networks: a novel approach for constructing $\mathrm{O}(n)$- and $\mathrm{E}(n)$-equivariant models. We identify and study the $\textit{Clifford group}$, a subgroup inside the Clifford algebra whose definition we adjust to achieve several favorable properties. Primarily, the group's action forms an orthogonal automorphism that extends beyond the typical vector space to the entire Clifford algebra while respecting the multivector grading. This leads to several non-equivalent subrepresentations corresponding to the multivector decomposition. Furthermore, we prove that the action respects not just the vector space structure of the Clifford algebra but also its multiplicative structure, i.e., the geometric product. These findings imply that every polynomial in multivectors, An advantage worth mentioning is that we obtain expressive layers that can elegantly generalize to inner-product spaces of any dimension. We demonstrate, notably from a single core implementation, state-of-the-art performance on several distinct tasks, including a three-dimensional $n$-body experiment, a four-dimensional Lorentz-equivariant high-energy physics experiment, and a five-dimensional convex hull experiment.
翻訳日:2023-10-19 20:33:11 公開日:2023-10-18
# DiffUTE: ユニバーサルテキスト編集拡散モデル

DiffUTE: Universal Text Editing Diffusion Model ( http://arxiv.org/abs/2305.10825v3 )

ライセンス: Link先を確認
Haoxing Chen and Zhuoer Xu and Zhangxuan Gu and Jun Lan and Xing Zheng and Yaohui Li and Changhua Meng and Huijia Zhu and Weiqiang Wang(参考訳) 拡散モデルに基づく言語誘導画像編集は近年大きな成功を収めている。 しかし、既存の最先端拡散モデルは、生成中に正しいテキストとテキストスタイルをレンダリングするのに苦労している。 この問題に対処するために,テキスト編集拡散モデル(DiffUTE)を提案する。 具体的には,拡散モデルに基づいてモデルを構築し,ネットワーク構造を慎重に修正し,グリフと位置情報を用いて多言語文字の描画を可能にする。 さらに,多量の web データを活用し,モデルの表現能力を向上させるために,自己教師付き学習フレームワークを設計した。 実験結果から,本手法は優れた性能を実現し,高忠実度画像の編集を制御可能であることがわかった。 我々のコードは \url{https://github.com/chenhaoxing/DiffUTE} で無効にされます。

Diffusion model based language-guided image editing has achieved great success recently. However, existing state-of-the-art diffusion models struggle with rendering correct text and text style during generation. To tackle this problem, we propose a universal self-supervised text editing diffusion model (DiffUTE), which aims to replace or modify words in the source image with another one while maintaining its realistic appearance. Specifically, we build our model on a diffusion model and carefully modify the network structure to enable the model for drawing multilingual characters with the help of glyph and position information. Moreover, we design a self-supervised learning framework to leverage large amounts of web data to improve the representation ability of the model. Experimental results show that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity. Our code will be avaliable in \url{https://github.com/chenhaoxing/DiffUTE}.
翻訳日:2023-10-19 20:32:52 公開日:2023-10-18
# テストデータを平文にアップロードするのをやめよう:評価ベンチマークによるデータ汚染の軽減のための実践的戦略

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks ( http://arxiv.org/abs/2305.10160v2 )

ライセンス: Link先を確認
Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg(参考訳) 大規模なコーパスで事前訓練されたモデルの増加に伴い、データ汚染は広く普及し、挑戦的になっている。 クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。 隠れた回答を持つリーダボードや、見当たらないと保証されたテストデータの使用といった戦略は高価で、時間とともに脆弱になります。 すべてのアクターがクリーンなテストデータを評価し、データの汚染を軽減するために協力すると仮定すれば、何ができるか? 1)公開されたテストデータを公開鍵で暗号化してデリバティブ配布を禁止するライセンスを付与すること,(2)クローズドapi保有者からのトレーニング除外制御を要求し,評価を拒むことによってテストデータを保護すること,(3)インターネット上でそのソリューションで現れるデータを避けること,およびデータとともにインターネット由来データのwebページコンテキストをリリースすること,の3つの戦略を提案する。 これらの戦略は実用的であり、データ汚染の防止に有効である。

Data contamination has become prevalent and challenging with the rise of models pretrained on large automatically-crawled corpora. For closed models, the training data becomes a trade secret, and even for open models, it is not trivial to detect contamination. Strategies such as leaderboards with hidden answers, or using test data which is guaranteed to be unseen, are expensive and become fragile with time. Assuming that all relevant actors value clean test data and will cooperate to mitigate data contamination, what can be done? We propose three strategies that can make a difference: (1) Test data made public should be encrypted with a public key and licensed to disallow derivative distribution; (2) demand training exclusion controls from closed API holders, and protect your test data by refusing to evaluate without them; (3) avoid data which appears with its solution on the internet, and release the web-page context of internet-derived data along with the data. These strategies are practical and can be effective in preventing data contamination.
翻訳日:2023-10-19 20:32:38 公開日:2023-10-18
# GNN学習評価の不確実性:コミュニティ検出のための一貫性ベンチマークの重要性

Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection ( http://arxiv.org/abs/2305.06026v3 )

ライセンス: Link先を確認
William Leeney, Ryan McConville(参考訳) グラフニューラルネットワーク(gnns)は、グラフの接続性と特徴情報空間の2次元性をエンコードする能力により、クラスタ化されたノードの教師なしのコミュニティ検出を改善した。 潜在コミュニティを特定することは、ソーシャルネットワークからゲノム学まで、多くの実用的な応用がある。 この課題におけるGNNの評価に影響を及ぼす様々な決定が原因で、現在の現実世界のパフォーマンスのベンチマークは混乱している。 そこで我々は,共通評価プロトコルを確立するためのフレームワークを提案する。 プロトコルの有無の違いを示すことによって、モチベーションと正当化を行います。 Wランダムネス係数(W Randomness Coefficient)は、アルゴリズムランキングの一貫性を評価し、ランダム性の存在下で結果の信頼性を定量化する指標である。 また,同じ評価基準に従うことで,本課題において報告された手法の性能と有意な差が生じる可能性があるが,より完全な評価と手法の比較が可能となる。

Graph Neural Networks (GNNs) have improved unsupervised community detection of clustered nodes due to their ability to encode the dual dimensionality of the connectivity and feature information spaces of graphs. Identifying the latent communities has many practical applications from social networks to genomics. Current benchmarks of real world performance are confusing due to the variety of decisions influencing the evaluation of GNNs at this task. To address this, we propose a framework to establish a common evaluation protocol. We motivate and justify it by demonstrating the differences with and without the protocol. The W Randomness Coefficient is a metric proposed for assessing the consistency of algorithm rankings to quantify the reliability of results under the presence of randomness. We find that by ensuring the same evaluation criteria is followed, there may be significant differences from the reported performance of methods at this task, but a more complete evaluation and comparison of methods is possible.
翻訳日:2023-10-19 20:32:16 公開日:2023-10-18
# 透かしを用いたAI生成コンテンツの検出

Evading Watermark based Detection of AI-Generated Content ( http://arxiv.org/abs/2305.03807v4 )

ライセンス: Link先を確認
Zhengyuan Jiang, Jinghuai Zhang, Neil Zhenqiang Gong(参考訳) 生成可能なAIモデルは、極めて現実的なコンテンツを生成することができ、情報の信頼性に対する課題が増大する。 この課題に対処するために、透かしを利用してAI生成コンテンツを検出する。 具体的には、リリース前にAI生成コンテンツに透かしを埋め込む。 類似の透かしをデコードできれば、コンテンツはAI生成として検出される。 本研究では,このような透かしに基づくAI生成コンテンツ検出の堅牢性に関する系統的研究を行う。 AI生成画像に焦点を当てる。 本研究は,視覚品質を維持したまま検出を回避できるような,人間に知覚できない小さな摂動を加えることで,後処理が可能なことを示す。 理論的にも経験的にも攻撃の有効性を示す。 さらに,検出を回避するために,AI生成画像の摂動をはるかに小さくし,JPEG圧縮やガウスアンボケ,明度/コントラストといった一般的な後処理方法よりも視覚的品質を向上する。 我々の研究は、既存の透かしに基づくAI生成コンテンツの検出が不十分であることを示し、新しい方法の緊急性を強調している。 私たちのコードは、https://github.com/zhengyuan-jiang/WEvade.comで公開されています。

A generative AI model can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process a watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed image evades detection while maintaining its visual quality. We show the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to AI-generated images and thus better maintain their visual quality than existing popular post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work shows the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new methods. Our code is publicly available: https://github.com/zhengyuan-jiang/WEvade.
翻訳日:2023-10-19 20:31:35 公開日:2023-10-18
# vera:commonsense文の汎用的妥当性推定モデル

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements ( http://arxiv.org/abs/2305.03695v3 )

ライセンス: Link先を確認
Jiacheng Liu, Wenya Wang, Dianzhuo Wang, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi(参考訳) 今日の言語モデルでよく議論されている機能にもかかわらず、彼らはいまだにばかばかしく予期せぬコモンセンスの失敗の傾向にある。 我々は,lm出力の正確性を反映したふりかえり検証手法を検討し,共通認識知識に基づいて宣言文の妥当性を推定する汎用モデル vera を導入する。 19のqaデータセットと2つの大規模知識ベースから作成された約7mのcommonsenseステートメントでトレーニングされ、3つのトレーニング目標を組み合わせたveraは、さまざまなcommonsenseドメインにわたる不正ステートメントとを効果的に分離する汎用モデルである。 検証形式におけるコモンセンス問題の解法に適用した場合、Veraは、コモンセンス検証のために再利用できる既存のモデルを大幅に上回り、未確認タスクへの一般化能力を示し、よく校正された出力を提供する。 Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。

Despite the much discussed capabilities of today's language models, they are still prone to silly and unexpected commonsense failures. We consider a retrospective verification approach that reflects on the correctness of LM outputs, and introduce Vera, a general-purpose model that estimates the plausibility of declarative statements based on commonsense knowledge. Trained on ~7M commonsense statements created from 19 QA datasets and two large-scale knowledge bases, and with a combination of three training objectives, Vera is a versatile model that effectively separates correct from incorrect statements across diverse commonsense domains. When applied to solving commonsense problems in the verification format, Vera substantially outperforms existing models that can be repurposed for commonsense verification, and it further exhibits generalization capabilities to unseen tasks and provides well-calibrated outputs. We find that Vera excels at filtering LM-generated commonsense knowledge and is useful in detecting erroneous commonsense statements generated by models like ChatGPT in real-world settings.
翻訳日:2023-10-19 20:31:15 公開日:2023-10-18
# Koopa: Koopman Predictorsで非定常時系列ダイナミクスを学ぶ

Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors ( http://arxiv.org/abs/2305.18803v2 )

ライセンス: Link先を確認
Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long(参考訳) 実世界の時系列は、深い予測モデルの主要な課題となる本質的に非定常性によって特徴づけられる。 従来のモデルは時間分布の変化によって引き起こされる複雑な直列変動に苦しむが、根底にある時変ダイナミクスを根本的に考慮する現代のクープマン理論で非定常時系列に取り組む。 複雑な力学系を記述するクープマン理論に触発されて、フーリエフィルタにより複雑な非定常級数から時間不変成分と時間不変成分を解き、クープマン予測器を設計し、それぞれのダイナミクスを前進させた。 技術的には、階層的ダイナミクスを学習するスタック可能なブロックからなる新しいkoopman予測器としてkoopaを提案する。 クーパはクープマン埋め込みの測定関数を求め、クープマン作用素を暗黙的な遷移の線形ポートレートとして利用する。 強局所性を示す時間変化ダイナミクスに対処するため、koopaは、時間近傍の文脈認識演算子を計算し、入ってくる地上真理を利用して予測地平線をスケールできる。 さらに,クープマン予測器を深い残差構造に組み込むことで,従来のクープマン予測器の結合再構成損失を解消し,エンドツーエンドの予測目標最適化を実現する。 最先端のモデルと比較すると、Koopaは77.3%のトレーニング時間と76.0%のメモリを節約しながら、競争性能を達成した。

Real-world time series are characterized by intrinsic non-stationarity that poses a principal challenge for deep forecasting models. While previous models suffer from complicated series variations induced by changing temporal distribution, we tackle non-stationary time series with modern Koopman theory that fundamentally considers the underlying time-variant dynamics. Inspired by Koopman theory of portraying complex dynamical systems, we disentangle time-variant and time-invariant components from intricate non-stationary series by Fourier Filter and design Koopman Predictor to advance respective dynamics forward. Technically, we propose Koopa as a novel Koopman forecaster composed of stackable blocks that learn hierarchical dynamics. Koopa seeks measurement functions for Koopman embedding and utilizes Koopman operators as linear portraits of implicit transition. To cope with time-variant dynamics that exhibits strong locality, Koopa calculates context-aware operators in the temporal neighborhood and is able to utilize incoming ground truth to scale up forecast horizon. Besides, by integrating Koopman Predictors into deep residual structure, we ravel out the binding reconstruction loss in previous Koopman forecasters and achieve end-to-end forecasting objective optimization. Compared with the state-of-the-art model, Koopa achieves competitive performance while saving 77.3% training time and 76.0% memory.
翻訳日:2023-10-19 20:22:52 公開日:2023-10-18
# 時間に敏感な質問を解くためのプログラミングとしての質問答え

Question Answering as Programming for Solving Time-Sensitive Questions ( http://arxiv.org/abs/2305.14221v2 )

ライセンス: Link先を確認
Xinyu Zhu, Cheng Yang, Bei Chen, Siheng Li, Jian-Guang Lou, Yujiu Yang(参考訳) 質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を果たす。 しかし、実世界の事実の動的かつ絶え間なく変化する性質から、問題の時間的制約が変化すると答えは完全に異なる場合がある。 近年,Large Language Models (LLM) は疑問に答える上で顕著な知性を示したが,実験の結果,既存のLLMにはまだ大きな課題があることがわかった。 これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。 この制限を克服するために, LLM に直接答えるのではなく, $\textbf{Q}$uestion $\textbf{A}$nswering Task $\textbf{a}$s $\textbf{P}$rogramming $\textbf{QAaP}$を再構成する新しいアプローチを提案する。 具体的には、自然言語とプログラミング言語の両方を理解する上で、現代のLLMの優れた能力を生かして、多様に表現されたテキストとよく構造化されたコードを表現するためにLLMを活用し、プログラミングを通して複数の候補から最適な解を選択する。 当社のQAaPフレームワークを、いくつかの時間に敏感な質問応答データセットで評価し、強力なベースラインに対して最大14.5$%の改善を実現しました。 私たちのコードとデータはhttps://github.com/tianhongzxy/qaapで入手できます。

Question answering plays a pivotal role in human daily life because it involves our acquisition of knowledge about the world. However, due to the dynamic and ever-changing nature of real-world facts, the answer can be completely different when the time constraint in the question changes. Recently, Large Language Models (LLMs) have shown remarkable intelligence in question answering, while our experiments reveal that the aforementioned problems still pose a significant challenge to existing LLMs. This can be attributed to the LLMs' inability to perform rigorous reasoning based on surface-level text semantics. To overcome this limitation, rather than requiring LLMs to directly answer the question, we propose a novel approach where we reframe the $\textbf{Q}$uestion $\textbf{A}$nswering task $\textbf{a}$s $\textbf{P}$rogramming ($\textbf{QAaP}$). Concretely, by leveraging modern LLMs' superior capability in understanding both natural language and programming language, we endeavor to harness LLMs to represent diversely expressed text as well-structured code and select the best matching answer from multiple candidates through programming. We evaluate our QAaP framework on several time-sensitive question answering datasets and achieve decent improvement, up to $14.5$% over strong baselines. Our codes and data are available at https://github.com/TianHongZXY/qaap
翻訳日:2023-10-19 20:22:26 公開日:2023-10-18
# 単言語データは多言語翻訳にいつ役立つか:ドメインとモデルスケールの役割

When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale ( http://arxiv.org/abs/2305.14124v2 )

ライセンス: Link先を確認
Christos Baziotis, Biao Zhang, Alexandra Birch, Barry Haddow(参考訳) 並列データと単言語データの混合に基づいて訓練された多言語機械翻訳(MMT)は、低リソース言語ペアの翻訳を改善する鍵となる。 しかし、この文献はモノリンガルデータを含む様々な方法のパフォーマンスに矛盾する結果をもたらす。 そこで本研究では,DAE(Denoising Autoencoding)とBT(Back Translation)がMPTにどう影響するかを,異なるデータ条件とモデルスケールで検討する。 従来の研究とは異なり、100の翻訳方向の現実的なデータセットを使用し、モノリンガルデータとテストデータの多くのドメインの組み合わせを検討する。 モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。 BTは、並列、単言語、およびテストデータソースが類似している場合に有用であるが、それ以外は有害であり、DAEは以前報告したよりも効果が低い。 次に、スケールの影響(90Mから1.6Bパラメータ)を分析し、これら2つの手法、特にDAEにとって重要であることを発見した。 スケールが増加するにつれて、daeは90mで並列のみのベースラインを過小評価し、1.6bでbtパフォーマンスを収束させ、低リソースでそれを超えることさえある。 これらの結果は、MTにおけるモノリンガルデータの使用方法に関する新たな洞察を提供する。

Multilingual machine translation (MMT), trained on a mixture of parallel and monolingual data, is key for improving translation in low-resource language pairs. However, the literature offers conflicting results on the performance of different methods of including monolingual data. To resolve this, we examine how denoising autoencoding (DAE) and backtranslation (BT) impact MMT under different data conditions and model scales. Unlike prior studies, we use a realistic dataset of 100 translation directions and consider many domain combinations of monolingual and test data. We find that monolingual data generally helps MMT, but models are surprisingly brittle to domain mismatches, especially at smaller model scales. BT is beneficial when the parallel, monolingual, and test data sources are similar but can be detrimental otherwise, while DAE is less effective than previously reported. Next, we analyze the impact of scale (from 90M to 1.6B parameters) and find it is important for both methods, particularly DAE. As scale increases, DAE transitions from underperforming the parallel-only baseline at 90M to converging with BT performance at 1.6B, and even surpassing it in low-resource. These results offer new insights into how to best use monolingual data in MMT.
翻訳日:2023-10-19 20:21:55 公開日:2023-10-18
# MADNet:多人数会話生成のための出席者予測の最大化

MADNet: Maximizing Addressee Deduction Expectation for Multi-Party Conversation Generation ( http://arxiv.org/abs/2305.12733v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Chao-Hong Tan, Caiyuan Chu, Zhen-Hua Ling, Chongyang Tao, Quan Liu, Cong Liu(参考訳) グラフニューラルネットワークを用いた多人数会話(MPC)のモデリングは、複雑でグラフィカルな情報の流れを捉えるのに有効であることが証明されている。 しかし、既存のメソッドは必要なアドレスラベルに大きく依存しており、各発話をアドレスラベルでタグ付けしなければならない理想的な設定にのみ適用できる。 MPCでは一般的な問題であるアドレナリラベルの不足について検討するため,MPC生成のためのヘテロジニアスグラフニューラルネットワークにおけるアドレナリ推論期待を最大化するMADNetを提案する。 少数のアドレスラベルが欠けているmpcがあると、既存のメソッドは連続接続された会話グラフを構築することができないが、代わりにいくつかの別々の会話フラグメントしか作れない。 これらの会話フラグメント間のメッセージパッシングを保証するために、4種類の潜在エッジが完全に接続されたグラフを完成させるように設計されている。 また、アドレスラベルのない発話に対してエッジタイプ依存のメッセージパッシングを最適化するため、銀アドレスラベルを反復的に生成し(Eステップ)、生成した応答の品質を最適化する期待最大化方式(Mステップ)を設計する。 2つのUbuntu IRCチャネルベンチマークの実験結果から、MADNetは、MPC生成のタスクにおいて、特にアドレスラベルの一部が欠落しているより一般的で困難な設定の下で、様々なベースラインモデルよりも優れていた。

Modeling multi-party conversations (MPCs) with graph neural networks has been proven effective at capturing complicated and graphical information flows. However, existing methods rely heavily on the necessary addressee labels and can only be applied to an ideal setting where each utterance must be tagged with an addressee label. To study the scarcity of addressee labels which is a common issue in MPCs, we propose MADNet that maximizes addressee deduction expectation in heterogeneous graph neural networks for MPC generation. Given an MPC with a few addressee labels missing, existing methods fail to build a consecutively connected conversation graph, but only a few separate conversation fragments instead. To ensure message passing between these conversation fragments, four additional types of latent edges are designed to complete a fully-connected graph. Besides, to optimize the edge-type-dependent message passing for those utterances without addressee labels, an Expectation-Maximization-based method that iteratively generates silver addressee labels (E step), and optimizes the quality of generated responses (M step), is designed. Experimental results on two Ubuntu IRC channel benchmarks show that MADNet outperforms various baseline models on the task of MPC generation, especially under the more common and challenging setting where part of addressee labels are missing.
翻訳日:2023-10-19 20:21:10 公開日:2023-10-18
# MNERにおけるPrompting ChatGPT:補助的知識を用いたマルチモーダル名前付きエンティティ認識の強化

Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition with Auxiliary Refined Knowledge ( http://arxiv.org/abs/2305.12212v2 )

ライセンス: Link先を確認
Jinyuan Li, Han Li, Zhuo Pan, Di Sun, Jiahao Wang, Wenkun Zhang, Gang Pan(参考訳) ソーシャルメディア上でのマルチモーダル名前付きエンティティ認識(MNER)は、画像に基づく手がかりを取り入れることで、テキストエンティティ予測を強化することを目的としている。 既存の研究は主に、関連する画像情報の活用の最大化や、明示的な知識ベースからの外部知識の取り込みに重点を置いている。 しかし、これらの手法は、モデルに外部知識を提供する必要性を無視したり、取得した知識に高い冗長性の問題に遭遇する。 本稿では,ChatGPTを暗黙の知識基盤として活用し,より効率的なエンティティ予測のための補助知識をヒューリスティックに生成することを目的とした2段階フレームワークPGIMを提案する。 具体的には、pgimは、少数の事前定義された人工サンプルから適切な例を選択するマルチモーダル類似の例認識モジュールを含んでいる。 これらの例は、MNERに合わせたフォーマット化されたプロンプトテンプレートに統合され、ChatGPTをガイドして補助的な洗練された知識を生成する。 最後に、取得した知識を原文に統合して下流モデルに供給し、さらなる処理を行う。 広範な実験により、PGIMは2つの古典的MNERデータセット上で最先端の手法より優れており、強い堅牢性と一般化能力を示している。

Multimodal Named Entity Recognition (MNER) on social media aims to enhance textual entity prediction by incorporating image-based clues. Existing studies mainly focus on maximizing the utilization of pertinent image information or incorporating external knowledge from explicit knowledge bases. However, these methods either neglect the necessity of providing the model with external knowledge, or encounter issues of high redundancy in the retrieved knowledge. In this paper, we present PGIM -- a two-stage framework that aims to leverage ChatGPT as an implicit knowledge base and enable it to heuristically generate auxiliary knowledge for more efficient entity prediction. Specifically, PGIM contains a Multimodal Similar Example Awareness module that selects suitable examples from a small number of predefined artificial samples. These examples are then integrated into a formatted prompt template tailored to the MNER and guide ChatGPT to generate auxiliary refined knowledge. Finally, the acquired knowledge is integrated with the original text and fed into a downstream model for further processing. Extensive experiments show that PGIM outperforms state-of-the-art methods on two classic MNER datasets and exhibits a stronger robustness and generalization capability.
翻訳日:2023-10-19 20:20:42 公開日:2023-10-18
# 合成一般化改善のための異なるエンコーダ層の表現構成の学習

Learning to Compose Representations of Different Encoder Layers towards Improving Compositional Generalization ( http://arxiv.org/abs/2305.12169v2 )

ライセンス: Link先を確認
Lei Lin, Shuangtao Li, Yafang Zheng, Biao Fu, Shan Liu, Yidong Chen, Xiaodong Shi(参考訳) 近年の研究では、シーケンス・ツー・シーケンス(seq2seq)モデルが構成一般化(CG)に苦しむことが示されている。 CGを妨げる理由の1つはエンコーダの最上層が絡み合っていること、すなわちシーケンスの構文的および意味的表現が絡み合っていることである。 しかし,前述した表現の絡み合い問題は十分に包括的ではないと考えられる。 さらに、異なるデコーダ層に渡されるソースキーと値の表現も絡み合っていると仮定する。 この直感から、我々は、異なるエンコーダ層の表現を動的に生成することを学ぶseq2seqモデルの拡張である \textsc{CompoSition} (\textbf{Compo}se \textbf{S}yntactic and Semant\textbf{i}c Representa\textbf{tion}s)を提案する。 具体的には、エンコーダとデコーダの間に \textit{composed layer} を導入し、異なるエンコーダ層の表現を作成し、異なるデコーダ層に渡される特定のキーと値を生成する。 提案手法の有効性を実証的に実証した2つの総合的および現実的なベンチマークにおいて, 競合する結果を得る。 コードは~\url{https://github.com/thinkaboutzero/COMPOSITION}で入手できる。

Recent studies have shown that sequence-to-sequence (seq2seq) models struggle with compositional generalization (CG), i.e., the ability to systematically generalize to unseen compositions of seen components. There is mounting evidence that one of the reasons hindering CG is the representation of the encoder uppermost layer is entangled, i.e., the syntactic and semantic representations of sequences are entangled. However, we consider that the previously identified representation entanglement problem is not comprehensive enough. Additionally, we hypothesize that the source keys and values representations passing into different decoder layers are also entangled. Starting from this intuition, we propose \textsc{CompoSition} (\textbf{Compo}se \textbf{S}yntactic and Semant\textbf{i}c Representa\textbf{tion}s), an extension to seq2seq models which learns to compose representations of different encoder layers dynamically for different tasks, since recent studies reveal that the bottom layers of the Transformer encoder contain more syntactic information and the top ones contain more semantic information. Specifically, we introduce a \textit{composed layer} between the encoder and decoder to compose different encoder layers' representations to generate specific keys and values passing into different decoder layers. \textsc{CompoSition} achieves competitive results on two comprehensive and realistic benchmarks, which empirically demonstrates the effectiveness of our proposal. Codes are available at~\url{https://github.com/thinkaboutzero/COMPOSITION}.
翻訳日:2023-10-19 20:20:18 公開日:2023-10-18
# テキストにおけるエントロピー速度定数の再検討

Revisiting Entropy Rate Constancy in Text ( http://arxiv.org/abs/2305.12084v2 )

ライセンス: Link先を確認
Vivek Verma, Nicholas Tomlin, Dan Klein(参考訳) 均一情報密度(UID)仮説は、人間がほぼ均等に情報を発話や談話に分散する傾向があることを示している。 uid仮説を支持する初期の証拠はgenzel & charniak (2002) から出され、n-gram 言語モデルの下で英語のテキストの確率に基づくエントロピー率定数原理を提案した。 我々は、genzel & charniak (2002) の主張をニューラルネットワークモデルで再評価し、エントロピー率定数を支持する明確な証拠を見つけられなかった。 我々は、データセット、モデルサイズ、言語にまたがる様々な実験を行い、一様情報密度仮説や効率的なコミュニケーションの言語理論について、より広範に論じる。

The uniform information density (UID) hypothesis states that humans tend to distribute information roughly evenly across an utterance or discourse. Early evidence in support of the UID hypothesis came from Genzel & Charniak (2002), which proposed an entropy rate constancy principle based on the probability of English text under n-gram language models. We re-evaluate the claims of Genzel & Charniak (2002) with neural language models, failing to find clear evidence in support of entropy rate constancy. We conduct a range of experiments across datasets, model sizes, and languages and discuss implications for the uniform information density hypothesis and linguistic theories of efficient communication more broadly.
翻訳日:2023-10-19 20:19:43 公開日:2023-10-18
# スパースリモートセンシングデータを用いた位相分解型非線形海面高度再構成のための機械学習

Machine learning for phase-resolved reconstruction of nonlinear ocean wave surface elevations from sparse remote sensing data ( http://arxiv.org/abs/2305.11913v2 )

ライセンス: Link先を確認
Svenja Ehlers, Marco Klein, Alexander Heinlein, Mathies Wedler, Nicolas Desmars, Norbert Hoffmann, Merten Stender(参考訳) 相分解水波の正確な短期予測は海洋工学の意思決定に不可欠である。 しかし、リモートセンシングに基づく波動予測モデルの初期化は、まずレーダーのような粗い測定から波面を再構築する必要がある。 既存の再構成手法は、計算集約的な最適化手順や、その後の予測プロセスのリアルタイム能力や精度を損なう単純化されたモデリング仮定に依存する。 そこで我々は,U-Net と Fourier Neural operator (FNO) アーキテクチャに基づくニューラルネットワークを用いた位相分解波面再構成手法を提案する。 本研究では,波動シミュレーションのための高次スペクトル法と幾何学的レーダモデリング手法を用いて,一次元格子の合成と高精度な訓練データを利用する。 調査の結果,両モデルとも正確な波動再構成結果が得られ,各入力に複数の歴史的レーダスナップショットを含む時空間レーダデータを用いて訓練すると,異なる海状態に対して良好な一般化が得られた。 特に、FNOは、フーリエ空間における入力と出力のマッピングを学習するためのグローバルアプローチにより、波動物理学によって課されるデータ構造を扱う上で、優れた性能を示す。

Accurate short-term predictions of phase-resolved water wave conditions are crucial for decision-making in ocean engineering. However, the initialization of remote-sensing-based wave prediction models first requires a reconstruction of wave surfaces from sparse measurements like radar. Existing reconstruction methods either rely on computationally intensive optimization procedures or simplistic modelling assumptions that compromise the real-time capability or accuracy of the subsequent prediction process. We therefore address these issues by proposing a novel approach for phase-resolved wave surface reconstruction using neural networks based on the U-Net and Fourier neural operator (FNO) architectures. Our approach utilizes synthetic yet highly realistic training data on uniform one-dimensional grids, that is generated by the high-order spectral method for wave simulation and a geometric radar modelling approach. The investigation reveals that both models deliver accurate wave reconstruction results and show good generalization for different sea states when trained with spatio-temporal radar data containing multiple historic radar snapshots in each input. Notably, the FNO demonstrates superior performance in handling the data structure imposed by wave physics due to its global approach to learn the mapping between input and output in Fourier space.
翻訳日:2023-10-19 20:19:29 公開日:2023-10-18
# 医療システムレビューにおけるLCMの有用性とハーム

Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews ( http://arxiv.org/abs/2305.11828v3 )

ライセンス: Link先を確認
Hye Sun Yun, Iain J. Marshall, Thomas A. Trikalinos, Byron C. Wallace(参考訳) 医療体系的レビューは、医療の意思決定と政策において重要な役割を果たす。 しかし、生産には時間がかかり、高品質で最新の証拠の要約の入手が制限されている。 大規模言語モデル(LLM)の最近の進歩は、必要に応じて文献レビューを自動的に生成する可能性を提供し、この問題に対処する。 しかし、LLMは幻覚や省略によって不正確な(そしておそらく誤解を招く)テキストを生成することがある。 医療の分野では、LSMを悪用し、最悪の場合危険に晒す可能性がある。 医学的エビデンスレビューの特定の文脈におけるllmの有用性とリスクを特徴付けるため,国際組織的レビュー専門家と16回のインタビューを行った。 専門家は、要約のドラフト作成、テンプレートの生成、蒸留情報、クロスチェック情報により、llmが書き込みプロセスを支援することを示唆した。 彼らはまた、信頼性が高く構成されているが不正確なLCM出力や、説明責任の低下や低品質レビューの拡散など、下流の潜在的な害に関する懸念も提起した。 この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。

Medical systematic reviews play a vital role in healthcare decision making and policy. However, their production is time-consuming, limiting the availability of high-quality and up-to-date evidence summaries. Recent advancements in large language models (LLMs) offer the potential to automatically generate literature reviews on demand, addressing this issue. However, LLMs sometimes generate inaccurate (and potentially misleading) texts by hallucination or omission. In healthcare, this can make LLMs unusable at best and dangerous at worst. We conducted 16 interviews with international systematic review experts to characterize the perceived utility and risks of LLMs in the specific context of medical evidence reviews. Experts indicated that LLMs can assist in the writing process by drafting summaries, generating templates, distilling information, and crosschecking information. They also raised concerns regarding confidently composed but inaccurate LLM outputs and other potential downstream harms, including decreased accountability and proliferation of low-quality reviews. Informed by this qualitative analysis, we identify criteria for rigorous evaluation of biomedical LLMs aligned with domain expert views.
翻訳日:2023-10-19 20:19:09 公開日:2023-10-18
# MuZeroはどのようなモデルを学びますか?

What model does MuZero learn? ( http://arxiv.org/abs/2306.00840v2 )

ライセンス: Link先を確認
Jinke He and Thomas M. Moerland and Frans A. Oliehoek(参考訳) モデルベースの強化学習は、サンプル効率を改善するという約束から、近年かなりの関心を集めている。 さらに、深層学習モデルを使用する場合、複雑なセンサデータからコンパクトモデルを学ぶことができる。 しかし、これらの学習モデルの有効性、特に計画する能力、すなわち現在の方針を改善する能力は、まだ不明である。 本研究では,よく知られた深層モデルに基づく強化学習アルゴリズムであるmuzeroを調査し,その学習目標である価値等価モデルの実現と,学習モデルが政策改善にどの程度有用かを検討する。 その他の様々な知見の中で,MuZeroが学習したモデルでは,目に見えない政策を効果的に評価することは不可能であり,モデルを用いて計画することで,現在の政策をさらに改善できる範囲を制限することができる。

Model-based reinforcement learning has drawn considerable interest in recent years, given its promise to improve sample efficiency. Moreover, when using deep-learned models, it is potentially possible to learn compact models from complex sensor data. However, the effectiveness of these learned models, particularly their capacity to plan, i.e., to improve the current policy, remains unclear. In this work, we study MuZero, a well-known deep model-based reinforcement learning algorithm, and explore how far it achieves its learning objective of a value-equivalent model and how useful the learned models are for policy improvement. Amongst various other insights, we conclude that the model learned by MuZero cannot effectively generalize to evaluate unseen policies, which limits the extent to which we can additionally improve the current policy by planning with the model.
翻訳日:2023-10-19 20:12:42 公開日:2023-10-18
# Bayesian Implicit Neural Representation による圧縮

Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2305.19185v4 )

ライセンス: Link先を確認
Zongyu Guo, Gergely Flamich, Jiajun He, Zhibo Chen, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 多くの一般的なデータ型は、ピクセルの位置や画像の場合のrgb値など、座標を信号値にマッピングする関数として表現することができる。 このビューに基づいて、コンパクトニューラルネットワークを機能表現に過度に適合させ、ネットワーク重みを符号化することで、データを圧縮することができる。 しかし、現在のソリューションのほとんどは非効率であり、低ビット精度への量子化は再構成品質を実質的に低下させる。 この問題に対処するために、変分ベイズニューラルネットワークをデータに適用し、量子化やエントロピー符号化の代わりに相対エントロピー符号化を用いて近似後重みサンプルを圧縮する手法を提案する。 この戦略により、$\beta$-elboを最小化し、$\beta$を調整して所定のネットワークアーキテクチャの異なるレートディストリクトトレードオフを目標とするレートディストリクト性能の直接最適化が可能になる。 さらに, 先行体重分布を学習するための反復アルゴリズムを導入し, 変動後方の漸進的改良プロセスを採用し, 性能を著しく向上させる。 実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。

Many common types of data can be represented as functions that map coordinates to signal values, such as pixel locations to RGB values in the case of an image. Based on this view, data can be compressed by overfitting a compact neural network to its functional representation and then encoding the network weights. However, most current solutions for this are inefficient, as quantization to low-bit precision substantially degrades the reconstruction quality. To address this issue, we propose overfitting variational Bayesian neural networks to the data and compressing an approximate posterior weight sample using relative entropy coding instead of quantizing and entropy coding it. This strategy enables direct optimization of the rate-distortion performance by minimizing the $\beta$-ELBO, and target different rate-distortion trade-offs for a given network architecture by adjusting $\beta$. Moreover, we introduce an iterative algorithm for learning prior weight distributions and employ a progressive refinement process for the variational posterior that significantly enhances performance. Experiments show that our method achieves strong performance on image and audio compression while retaining simplicity.
翻訳日:2023-10-19 20:12:25 公開日:2023-10-18
# 大規模言語モデルを破壊的にする鍵としてのドメイン特化 - 総合的な調査

Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey ( http://arxiv.org/abs/2305.18703v6 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Jian Pei, and Liang Zhao(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。 しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。 ドメイン仕様技術は多くのアプリケーションで大きな言語モデルを破壊的にする鍵となる。 特に、これらのハードルを解決するために、近年、LLMの領域特化に関する研究や実践が顕著に増加している。 この新たな研究分野は、影響の実質的な可能性を秘めており、この領域で進行中の研究をより要約し指導するために、包括的かつ体系的なレビューを必要としている。 本稿では,大規模言語モデルアプリケーションに不可欠な新たな方向性である,大規模言語モデルのドメイン仕様技術に関する包括的調査を紹介する。 まず, LLM のアクセシビリティに基づいた LLM ドメイン特殊化手法を分類し, 各サブカテゴリの枠組み, 相互の関係, 相違点を要約する系統分類法を提案する。 第二に、専門的なllmから劇的に利益を得られる重要なアプリケーションドメインの広範な分類を提示し、それらの実用的意義とオープンな課題について論じる。 最後に、この分野の現在の研究状況と今後のトレンドについて考察する。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). Domain specification techniques are key to make large language models disruptive in many applications. Specifically, to solve these hurdles, there has been a notable increase in research and practices conducted in recent years on the domain specialization of LLMs. This emerging field of study, with its substantial potential for impact, necessitates a comprehensive and systematic review to better summarize and guide ongoing work in this area. In this article, we present a comprehensive survey on domain specification techniques for large language models, an emerging direction critical for large language model applications. First, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. Second, we present an extensive taxonomy of critical application domains that can benefit dramatically from specialized LLMs, discussing their practical significance and open challenges. Last, we offer our insights into the current research status and future trends in this area.
翻訳日:2023-10-19 20:12:04 公開日:2023-10-18
# 部分サンプリングとリッジ正則化の一般同値

Generalized equivalences between subsampling and ridge regularization ( http://arxiv.org/abs/2305.18496v2 )

ライセンス: Link先を確認
Pratik Patil and Jin-Hong Du(参考訳) 我々は,アンサンブルリッジ推定器のサブサンプリングとリッジ正規化の正確な構造的およびリスク等価性を確立する。 具体的には、異なるリッジ正規化レベル$\lambda$とsubsampleアスペクト比$\psi$は、$(\lambda,\psi)$-plane(ここで$\psi$はサブサンプルサイズに対する特徴次元の比率である)の特定の経路に沿って漸近的に等価であることを示す。 その結果,特徴量分布と応答分布の有界モーメント仮定のみが必要となり,任意のジョイント分布が可能となった。 さらに、$(\lambda,\psi)$の等価パスを決定するためのデータ依存の方法も提供します。 我々の同値の間接的含意は、最適に調整されたリッジ回帰がデータアスペクト比において単調な予測リスクを示すことである。 これは、線形化された信号-雑音比を通じて回帰硬度を維持する穏やかな規則性条件を仮定して、比例漸近の下での一般的なデータ分布について、Nakkiranらによって最近提起されたオープンな問題を解決している。

We establish precise structural and risk equivalences between subsampling and ridge regularization for ensemble ridge estimators. Specifically, we prove that linear and quadratic functionals of subsample ridge estimators, when fitted with different ridge regularization levels $\lambda$ and subsample aspect ratios $\psi$, are asymptotically equivalent along specific paths in the $(\lambda,\psi)$-plane (where $\psi$ is the ratio of the feature dimension to the subsample size). Our results only require bounded moment assumptions on feature and response distributions and allow for arbitrary joint distributions. Furthermore, we provide a data-dependent method to determine the equivalent paths of $(\lambda,\psi)$. An indirect implication of our equivalences is that optimally tuned ridge regression exhibits a monotonic prediction risk in the data aspect ratio. This resolves a recent open problem raised by Nakkiran et al. for general data distributions under proportional asymptotics, assuming a mild regularity condition that maintains regression hardness through linearized signal-to-noise ratios.
翻訳日:2023-10-19 20:11:35 公開日:2023-10-18
# 方向性指向多目的学習:単純で証明可能な確率的アルゴリズム

Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms ( http://arxiv.org/abs/2305.18409v2 )

ライセンス: Link先を確認
Peiyao Xiao, Hao Ban, Kaiyi Ji(参考訳) 多目的最適化(MOO)は、複数の基準による学習やマルチタスク学習(MTL)など、多くの機械学習問題において重要なフレームワークとなっている。 本稿では,MTLにおける平均損失などの目的の線形結合を最適化する方向の近傍において,共通降下方向を正規化することにより,新たな方向指向多目的問題を提案する。 この定式化には特殊ケースとしてGDとMGDAが含まれ、CAGradのような方向指向の利点を享受し、確率的アルゴリズムの設計を容易にする。 そこで本研究では,SGD方式の簡易な更新による確率方向指向型多目的勾配降下(SDMGrad)と,目的数が大きければ効率的な客観的サンプリングを行うSDMGrad-OSを提案する。 定数レベルの正則化パラメータ $\lambda$ に対して、SDMGrad と SDMGrad-OS がパレート定常点に確実に収束することを示す。 増加する$\lambda$ に対して、この収束点は目的の線形結合の定常点に還元される。 マルチタスク型教師付き学習と強化学習の一連の課題において提案手法の優れた性能を示す。 コードはhttps://github.com/ml-opt-lab/sdmgrad.comで提供される。

Multi-objective optimization (MOO) has become an influential framework in many machine learning problems with multiple objectives such as learning with multiple criteria and multi-task learning (MTL). In this paper, we propose a new direction-oriented multi-objective problem by regularizing the common descent direction within a neighborhood of a direction that optimizes a linear combination of objectives such as the average loss in MTL. This formulation includes GD and MGDA as special cases, enjoys the direction-oriented benefit as in CAGrad, and facilitates the design of stochastic algorithms. To solve this problem, we propose Stochastic Direction-oriented Multi-objective Gradient descent (SDMGrad) with simple SGD type of updates, and its variant SDMGrad-OS with an efficient objective sampling in the setting where the number of objectives is large. For a constant-level regularization parameter $\lambda$, we show that SDMGrad and SDMGrad-OS provably converge to a Pareto stationary point with improved complexities and milder assumptions. For an increasing $\lambda$, this convergent point reduces to a stationary point of the linear combination of objectives. We demonstrate the superior performance of the proposed methods in a series of tasks on multi-task supervised learning and reinforcement learning. Code is provided at https://github.com/ml-opt-lab/sdmgrad.
翻訳日:2023-10-19 20:11:14 公開日:2023-10-18
# TFDet:RGB-Tペデストリアン検出のためのターゲット認識融合

TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection ( http://arxiv.org/abs/2305.16580v3 )

ライセンス: Link先を確認
Xue Zhang, Xiao-Han Zhang, Jiacheng Ying, Zehua Sheng, Heng Yu, Chunguang Li, Hui-Liang Shen(参考訳) 歩行者検出は、交通安全の確保に寄与するため、コンピュータビジョンにおいて重要な役割を果たす。 RGB画像のみに依存する既存の手法は、有用な情報がないため、低照度条件下での性能劣化に悩まされる。 この問題に対処するため、近年のマルチスペクトル検出手法では、熱画像を組み合わせて補完情報を提供し、性能の向上が図られている。 それにもかかわらず、ノイズの多い特徴マップによって引き起こされる偽陽性の悪影響に焦点を当てるアプローチはほとんどない。 それらと異なるのは,偽陽性が検出性能に与える影響を包括的に分析し,特徴コントラストの強化によってこれらの偽陽性を著しく低減できることを見出した。 本稿では,TFDet と呼ばれる多スペクトル歩行者検出のための新たな目標対応融合戦略を提案する。 我々の融合戦略は歩行者に関連する特徴を強調し、無関係な特徴を抑え、より差別的な融合特徴を生み出す。 TFDet は KAIST と LLVIP のベンチマークで最先端のパフォーマンスを実現している。 重要なこととして、TFDetは低照度条件下でも著しく性能が良く、道路安全を確保するための重要な進歩である。 コードはhttps://github.com/XueZ-phd/TFDet.gitで公開される。

Pedestrian detection plays a critical role in computer vision as it contributes to ensuring traffic safety. Existing methods that rely solely on RGB images suffer from performance degradation under low-light conditions due to the lack of useful information. To address this issue, recent multispectral detection approaches have combined thermal images to provide complementary information and have obtained enhanced performances. Nevertheless, few approaches focus on the negative effects of false positives caused by noisy fused feature maps. Different from them, we comprehensively analyze the impacts of false positives on the detection performance and find that enhancing feature contrast can significantly reduce these false positives. In this paper, we propose a novel target-aware fusion strategy for multispectral pedestrian detection, named TFDet. Our fusion strategy highlights the pedestrian-related features and suppresses unrelated ones, generating more discriminative fused features. TFDet achieves state-of-the-art performance on both KAIST and LLVIP benchmarks, with an efficiency comparable to the previous state-of-the-art counterpart. Importantly, TFDet performs remarkably well even under low-light conditions, which is a significant advancement for ensuring road safety. The code will be made publicly available at https://github.com/XueZ-phd/TFDet.git.
翻訳日:2023-10-19 20:10:49 公開日:2023-10-18
# 不確実性定量化のためのbi-fidelity variational auto-encoder

Bi-fidelity Variational Auto-encoder for Uncertainty Quantification ( http://arxiv.org/abs/2305.16530v2 )

ライセンス: Link先を確認
Nuojin Cheng, Osman Asif Malik, Subhayan De, Stephen Becker, Alireza Doostan(参考訳) 物理システムからの関心量の不確実性(qois)の定量化はモデル検証の主要な目的である。 しかし、この目標を達成するには、計算効率と数値精度の要求のバランスをとる必要がある。 このトレードオフに対処するために,QoIの低忠実度(LF)と高忠実度(HF)サンプルからQoIに関連する不確かさを推定するために,変分オートエンコーダ(BF-VAE)の2次元定式化を提案する。 このモデルにより、LFから派生した情報を活用することで、HF QoIの統計量の近似が可能になる。 具体的には,VAEの確率的エンコーダ・デコーダ構造に組み込まれた2次元自己回帰モデルの設計を行う。 限られたHFデータが存在する場合のHFログの変動的下界を最大化するために有効なアルゴリズムが提案され、計算コストを低減したHFの実現が実現された。 さらに,提案するbf-vaeモデルの情報理論的解釈を行うために,bi-fidelity information bottleneck (bf-ib)の概念を導入する。 以上の結果から,BF-VAEの精度は,HFデータのみを用いて訓練したVAEと比較して有意に向上した。

Quantifying the uncertainty of quantities of interest (QoIs) from physical systems is a primary objective in model validation. However, achieving this goal entails balancing the need for computational efficiency with the requirement for numerical accuracy. To address this trade-off, we propose a novel bi-fidelity formulation of variational auto-encoders (BF-VAE) designed to estimate the uncertainty associated with a QoI from low-fidelity (LF) and high-fidelity (HF) samples of the QoI. This model allows for the approximation of the statistics of the HF QoI by leveraging information derived from its LF counterpart. Specifically, we design a bi-fidelity auto-regressive model in the latent space that is integrated within the VAE's probabilistic encoder-decoder structure. An effective algorithm is proposed to maximize the variational lower bound of the HF log-likelihood in the presence of limited HF data, resulting in the synthesis of HF realizations with a reduced computational cost. Additionally, we introduce the concept of the bi-fidelity information bottleneck (BF-IB) to provide an information-theoretic interpretation of the proposed BF-VAE model. Our numerical results demonstrate that BF-VAE leads to considerably improved accuracy, as compared to a VAE trained using only HF data, when limited HF data is available.
翻訳日:2023-10-19 20:10:28 公開日:2023-10-18
# ResShift: 残差シフトによる画像超解像の効率的な拡散モデル

ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting ( http://arxiv.org/abs/2307.12348v3 )

ライセンス: Link先を確認
Zongsheng Yue, Jianyi Wang, Chen Change Loy(参考訳) 拡散に基づく画像超解像法(SR)は主に、数百から数千のサンプリングステップの要求により、低い推論速度によって制限される。 既存の加速サンプリング技術は必然的に性能を犠牲にし、過度なSR結果をもたらす。 そこで本稿では,srの新しい効率的な拡散モデルを提案する。拡散ステップ数を大幅に削減し,推論時の高速化の必要性をなくし,それに伴う性能劣化を解消する。 本手法では,高分解能画像と低分解能画像との間で残差を移動させ,遷移効率を大幅に向上させるマルコフ連鎖を構築する。 また、拡散過程におけるシフト速度と騒音強度を柔軟に制御する精巧なノイズスケジュールを開発する。 実験の結果,提案手法は,15段階のサンプリングでも,合成と実世界の両方のデータセットにおいて,現在の最先端手法よりも優れた,あるいは少なくとも同等の性能が得られることが示された。 私たちのコードとモデルはhttps://github.com/zsyoaoa/resshiftで利用可能です。

Diffusion-based image super-resolution (SR) methods are mainly limited by the low inference speed due to the requirements of hundreds or even thousands of sampling steps. Existing acceleration sampling techniques inevitably sacrifice performance to some extent, leading to over-blurry SR results. To address this issue, we propose a novel and efficient diffusion model for SR that significantly reduces the number of diffusion steps, thereby eliminating the need for post-acceleration during inference and its associated performance deterioration. Our method constructs a Markov chain that transfers between the high-resolution image and the low-resolution image by shifting the residual between them, substantially improving the transition efficiency. Additionally, an elaborate noise schedule is developed to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experiments demonstrate that the proposed method obtains superior or at least comparable performance to current state-of-the-art methods on both synthetic and real-world datasets, even only with 15 sampling steps. Our code and model are available at https://github.com/zsyOAOA/ResShift.
翻訳日:2023-10-19 20:01:57 公開日:2023-10-18
# 量子情報測度に対する純度に基づく連続性境界

Purity based continuity bounds for quantum information measures ( http://arxiv.org/abs/2306.16631v3 )

ライセンス: Link先を確認
Komal Kumar and Nirman Ganguly(参考訳) 量子情報理論では、通信容量は主にエントロピー公式によって与えられる。 このようなエントロピー量の連続性は、量子状態の摂動に対する測度の均一性を保証するため重要である。 伝統的に、連続性境界はトレース距離の観点から提供され、これは量子状態の集合上のボナフィド計量である。 本研究では,関連する量子状態の純度差に基づく各種情報測度の連続性境界を導出する。 有限次元系において、系の純度距離と次元にのみ依存するフォン・ノイマンエントロピーの連続性境界を確立する。 次に条件付きフォン・ノイマンエントロピーに対して、条件付きサブシステムの次元を含まない純度距離の観点から一様連続性境界を求める。 さらに、相対エントロピー距離、量子相互情報、量子条件相互情報といった他のエントロピー量に対する一様連続性境界を導出する。 応用として, 純度に対する赤道絡みのばらつきについて検討する。 また、量子マルコフ連鎖に任意に近接する量子状態の量子条件相互情報に対する有界値を得る。

In quantum information theory, communication capacities are mostly given in terms of entropic formulas. Continuity of such entropic quantities are significant, as they ensure uniformity of measures against perturbations of quantum states. Traditionally, continuity bounds have been provided in terms of the trace distance, which is a bonafide metric on the set of quantum states. In the present contribution we derive continuity bounds for various information measures based on the difference in purity of the concerned quantum states. In a finite-dimensional system, we establish continuity bounds for von Neumann entropy which depend only on purity distance and dimension of the system. We then obtain uniform continuity bounds for conditional von Neumann entropy in terms of purity distance which is free of the dimension of the conditioning subsystem. Furthermore, we derive the uniform continuity bounds for other entropic quantities like relative entropy distance, quantum mutual information and quantum conditional mutual information. As an application, we investigate the variation in squashed entanglement with respect to purity. We also obtain a bound to the quantum conditional mutual information of a quantum state which is arbitrarily close to a quantum Markov chain.
翻訳日:2023-10-19 20:01:39 公開日:2023-10-18
# 帰属訓練データジェネレータとしての大規模言語モデル:多様性とバイアスの物語

Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias ( http://arxiv.org/abs/2306.15895v2 )

ライセンス: Link先を確認
Yue Yu, Yuchen Zhuang, Jieyu Zhang, Yu Meng, Alexander Ratner, Ranjay Krishna, Jiaming Shen, Chao Zhang(参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。 従来の研究では、生成データを用いたモデルトレーニングのさまざまなアプローチが検討されているが、一般的には、生成されたデータの多様性を制限し、LLMの系統的バイアスを継承する、単純なクラス条件のプロンプトに依存している。 そこで本研究では,多様な属性を持つプロンプト(例えば,長さやスタイルなどの属性を指定する)を用いたトレーニングデータ生成について検討する。 本研究は,高い濃度と多様なドメインを持つデータセットに着目し,帰属プロンプトが,結果モデルの性能の点で単純なクラス条件プロンプトよりも優れていることを示す。 Additionally, we present a comprehensive empirical study on data generation encompassing vital aspects like bias, diversity, and efficiency, and highlight three key observations: firstly, synthetic datasets generated by simple prompts exhibit significant biases, such as regional bias; secondly, attribute diversity plays a pivotal role in enhancing model performance; lastly, attributed prompts achieve the performance of simple class-conditional prompts while utilizing only 5\% of the querying cost of ChatGPT associated with the latter. データとコードは \url{https://github.com/yueyu1030/attrprompt} で入手できる。

Large language models (LLMs) have been recently leveraged as training data generators for various natural language processing (NLP) tasks. While previous research has explored different approaches to training models using generated data, they generally rely on simple class-conditional prompts, which may limit the diversity of the generated data and inherit systematic biases of LLM. Thus, we investigate training data generation with diversely attributed prompts (e.g., specifying attributes like length and style), which have the potential to yield diverse and attributed generated data. Our investigation focuses on datasets with high cardinality and diverse domains, wherein we demonstrate that attributed prompts outperform simple class-conditional prompts in terms of the resulting model's performance. Additionally, we present a comprehensive empirical study on data generation encompassing vital aspects like bias, diversity, and efficiency, and highlight three key observations: firstly, synthetic datasets generated by simple prompts exhibit significant biases, such as regional bias; secondly, attribute diversity plays a pivotal role in enhancing model performance; lastly, attributed prompts achieve the performance of simple class-conditional prompts while utilizing only 5\% of the querying cost of ChatGPT associated with the latter. The data and code are available on \url{https://github.com/yueyu1030/AttrPrompt}.
翻訳日:2023-10-19 20:01:20 公開日:2023-10-18
# 非漸近的超線形収束率を持つリミテッドメモリグリーディ準ニュートン法

Limited-Memory Greedy Quasi-Newton Method with Non-asymptotic Superlinear Convergence Rate ( http://arxiv.org/abs/2306.15444v2 )

ライセンス: Link先を確認
Zhan Gao and Aryan Mokhtari and Alec Koppel(参考訳) 準ニュートン法の非漸近収束解析は、o$((1/\sqrt{t})^t)$という明示的な局所超線形速度を確立して注目されている。 しかし、この値を得る方法にはよく知られた欠点があり、現在のヘッセン逆近似を形成するためには、以前のヘッセン近似行列や過去の曲率情報の保存が必要である。 有名なL-BFGSのような準ニュートン法は、過去の曲率情報の限られた窓を利用してヘッセン逆近似を構築することでこの問題を緩和する。 その結果、各イテレーションの複雑さとストレージ要件はo$(\tau d)$であり、ここで$\tau\le d$はウィンドウのサイズであり、$d$は標準準ニュートン法のo$(d^2)$計算コストとメモリ要求を減らす問題次元である。 しかしながら、我々の知る限り、任意の限定メモリ準ニュートン法に対して非漸近超線形収束率を示す結果は存在しない。 本研究では,このギャップを,非漸近性超線形速度を明示的に達成できるリミテッドメモリグレディBFGS(LG-BFGS)法によって埋める。 本研究では, 変形後の勾配変動に, 変位分布, すなわちデコリレーション射影を組み込むとともに, ヘシアン推定の進捗測度を真のヘッシアンにグレッシィに最大化する可変変動に対する基底ベクトル選択スキームを組み込んだ。 それらの組み合わせにより、過去の曲率情報はスパース部分空間に留まり、完全な歴史の有効な表現が得られる。 興味深いことに、確立された非漸近超線形収束速度は、我々の知る限りでは最初の収束速度とメモリ要求との明らかなトレードオフを示している。 数値実験の結果から,本手法の有効性が示唆された。

Non-asymptotic convergence analysis of quasi-Newton methods has gained attention with a landmark result establishing an explicit local superlinear rate of O$((1/\sqrt{t})^t)$. The methods that obtain this rate, however, exhibit a well-known drawback: they require the storage of the previous Hessian approximation matrix or all past curvature information to form the current Hessian inverse approximation. Limited-memory variants of quasi-Newton methods such as the celebrated L-BFGS alleviate this issue by leveraging a limited window of past curvature information to construct the Hessian inverse approximation. As a result, their per iteration complexity and storage requirement is O$(\tau d)$ where $\tau\le d$ is the size of the window and $d$ is the problem dimension reducing the O$(d^2)$ computational cost and memory requirement of standard quasi-Newton methods. However, to the best of our knowledge, there is no result showing a non-asymptotic superlinear convergence rate for any limited-memory quasi-Newton method. In this work, we close this gap by presenting a Limited-memory Greedy BFGS (LG-BFGS) method that can achieve an explicit non-asymptotic superlinear rate. We incorporate displacement aggregation, i.e., decorrelating projection, in post-processing gradient variations, together with a basis vector selection scheme on variable variations, which greedily maximizes a progress measure of the Hessian estimate to the true Hessian. Their combination allows past curvature information to remain in a sparse subspace while yielding a valid representation of the full history. Interestingly, our established non-asymptotic superlinear convergence rate demonstrates an explicit trade-off between the convergence speed and memory requirement, which to our knowledge, is the first of its kind. Numerical results corroborate our theoretical findings and demonstrate the effectiveness of our method.
翻訳日:2023-10-19 20:01:01 公開日:2023-10-18
# デカップリング拡散モデル:画像からゼロ、ノイズまで

Decoupled Diffusion Models: Image to Zero and Zero to Noise ( http://arxiv.org/abs/2306.13720v6 )

ライセンス: Link先を確認
Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-10-19 20:00:27 公開日:2023-10-18
# OpenSTL: 時空間予測学習の総合ベンチマーク

OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning ( http://arxiv.org/abs/2306.11249v2 )

ライセンス: Link先を確認
Cheng Tan, Siyuan Li, Zhangyang Gao, Wenfei Guan, Zedong Wang, Zicheng Liu, Lirong Wu, Stan Z. Li(参考訳) 時空間予測学習は、モデルが与えられた過去のフレームから教師なしの方法で将来のフレームを予測することによって、空間的および時間的パターンを学習できる学習パラダイムである。 近年の顕著な進歩にもかかわらず、様々な設定、複雑な実装、難しい再現性のために体系的な理解が欠如している。 標準化がなければ、比較は不公平であり、洞察は決定的ではない。 このジレンマに対処するために,我々は,時空間予測学習のための包括的ベンチマークであるopenstlを提案する。 OpenSTLは、様々な最先端メソッドを実装するモジュラーで拡張可能なフレームワークを提供する。 我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。 本報告では,モデルアーキテクチャとデータセット特性が時空間予測学習性能に与える影響を詳細に分析する。 驚くべきことに、リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。 そこで我々は,MetaFormerを拡張して,再帰的空間時間予測学習を促進する。 コードとモデルはhttps://github.com/chengtan9907/OpenSTL.orgで公開しています。

Spatio-temporal predictive learning is a learning paradigm that enables models to learn spatial and temporal patterns by predicting future frames from given past frames in an unsupervised manner. Despite remarkable progress in recent years, a lack of systematic understanding persists due to the diverse settings, complex implementation, and difficult reproducibility. Without standardization, comparisons can be unfair and insights inconclusive. To address this dilemma, we propose OpenSTL, a comprehensive benchmark for spatio-temporal predictive learning that categorizes prevalent approaches into recurrent-based and recurrent-free models. OpenSTL provides a modular and extensible framework implementing various state-of-the-art methods. We conduct standard evaluations on datasets across various domains, including synthetic moving object trajectory, human motion, driving scenes, traffic flow and weather forecasting. Based on our observations, we provide a detailed analysis of how model architecture and dataset properties affect spatio-temporal predictive learning performance. Surprisingly, we find that recurrent-free models achieve a good balance between efficiency and performance than recurrent models. Thus, we further extend the common MetaFormers to boost recurrent-free spatial-temporal predictive learning. We open-source the code and models at https://github.com/chengtan9907/OpenSTL.
翻訳日:2023-10-19 19:59:59 公開日:2023-10-18
# DORSal: シーンのオブジェクト中心表現のための拡散

DORSal: Diffusion for Object-centric Representations of Scenes et al ( http://arxiv.org/abs/2306.08068v2 )

ライセンス: Link先を確認
Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf(参考訳) 最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。 結果として、見えないシーンやオブジェクトへの一般化、単一のまたは少数の入力画像からの新規ビューのレンダリング、編集をサポートする制御可能なシーン生成が可能になった。 しかし、多数のシーンでの共同トレーニングは、NeRFのようなシングルシーン最適化モデルと比較してレンダリング品質を損なうのが一般的である。 本稿では,拡散モデルの最近の進歩を利用して,オブジェクトレベルのシーン編集などのメリットを最大限に保ちながら,高忠実度な新規ビューを描画できる3次元シーン表現学習モデルを実現する。 特に,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。 複雑な合成多目的シーンと実世界の大規模ストリートビューデータセットの両方において、DORSalはオブジェクトレベルの編集と既存のアプローチの改善による3Dシーンのスケーラブルなニューラルレンダリングを実現する。

Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on frozen object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches.
翻訳日:2023-10-19 19:59:38 公開日:2023-10-18
# 説明可能な科学文献レコメンデーションシステムにおける詳細条件付き対話的説明

Interactive Explanation with Varying Level of Details in an Explainable Scientific Literature Recommender System ( http://arxiv.org/abs/2306.05809v3 )

ライセンス: Link先を確認
Mouadh Guesmi and Mohamed Amine Chatti and Shoeb Joarder and Qurat Ul Ain and Rawaa Alatrash and Clara Siepmann and Tannaz Vahidi(参考訳) 説明可能なレコメンデータシステム(RS)は従来,個々のニーズや目標を考慮せずに,ユーザ毎に同じ説明レベルの詳細を提供する,ワンサイズなアプローチを採用してきました。 さらに、RSにおける説明は、主に静的で非インタラクティブな方法で提示されている。 これらの研究ギャップを埋めるために、我々は、ユーザ中心のインタラクティブな説明モデルを導入し、様々な詳細レベルの説明を提供し、ユーザがニーズや好みに基づいて説明を対話し、制御し、パーソナライズできるようにする。 3段階のディテール(基本、中間、上級)によるインタラクティブな説明を設計するためのユーザ中心のアプローチに従って、透過的レコメンデーションおよび関心モデリングアプリケーション(rima)に実装しました。 筆者らは,対話的説明の提供がユーザによる説明可能なRSの知覚に与える影響について,定性的なユーザスタディ (N=14) を行った。 本研究は,対話を育み,どのような説明を見たいかを決める上でユーザがコントロールできることが,異なるニーズ,好み,目標を持つユーザの要求に合致し,その結果,透明性,信頼,満足度,ユーザエクスペリエンスなど,説明可能なレコメンデーションのさまざまな重要な側面に肯定的な影響を与えるという質的証拠を示した。

Explainable recommender systems (RS) have traditionally followed a one-size-fits-all approach, delivering the same explanation level of detail to each user, without considering their individual needs and goals. Further, explanations in RS have so far been presented mostly in a static and non-interactive manner. To fill these research gaps, we aim in this paper to adopt a user-centered, interactive explanation model that provides explanations with different levels of detail and empowers users to interact with, control, and personalize the explanations based on their needs and preferences. We followed a user-centered approach to design interactive explanations with three levels of detail (basic, intermediate, and advanced) and implemented them in the transparent Recommendation and Interest Modeling Application (RIMA). We conducted a qualitative user study (N=14) to investigate the impact of providing interactive explanations with varying level of details on the users' perception of the explainable RS. Our study showed qualitative evidence that fostering interaction and giving users control in deciding which explanation they would like to see can meet the demands of users with different needs, preferences, and goals, and consequently can have positive effects on different crucial aspects in explainable recommendation, including transparency, trust, satisfaction, and user experience.
翻訳日:2023-10-19 19:59:19 公開日:2023-10-18
# 不均一リワードを有する分散ランダム分散マルチエージェントマルチアームバンド

Decentralized Randomly Distributed Multi-agent Multi-armed Bandit with Heterogeneous Rewards ( http://arxiv.org/abs/2306.05579v2 )

ライセンス: Link先を確認
Mengfan Xu and Diego Klabjan(参考訳) 環境によって提供される時間依存ランダムグラフによって複数のクライアントが接続される分散マルチエージェントマルチアームバンディット問題について検討する。 各アームの報酬分布はクライアント間で異なり、報酬はサブ指数分布とサブゲージ分布の両方を含む分布に基づく環境によって時間とともに独立に生成される。 各クライアントはarmをプルし、環境が提供するグラフに基づいて隣人と通信する。 目標は、コラボレーションを通じてシステム全体の後悔を最小化することです。 そこで,本研究では,マルコフ連鎖あるいはランダムグラフモデルを用いて,ランダムグラフを生成するためのロバストなシミュレーション手法を提供し,平均値に基づくコンセンサスアプローチと,新たに提案する重み付け手法と,ucb型ソリューションを提供するための上位信頼度を組み合わせたアルゴリズムフレームワークを提案する。 我々のアルゴリズムはグラフのランダム性を考慮し、従来の2倍確率性仮定を取り除き、初期化時のクライアント数の知識のみを必要とする。 我々は、サブゲージ環境とサブ指数環境の両方において、最適なインスタンス依存の後悔の上限である$\log{t}$を導出し、ほぼ最適な平均ギャップ独立な後悔の上限である$\sqrt{t}\log t$を$\log t$ファクターまで導出する。 重要なのは、私たちの後悔の境界は高い確率とグラフのランダム性を持ち、先行研究は想定された後悔を考慮し、より厳密な報酬分布を必要とする。

We study a decentralized multi-agent multi-armed bandit problem in which multiple clients are connected by time dependent random graphs provided by an environment. The reward distributions of each arm vary across clients and rewards are generated independently over time by an environment based on distributions that include both sub-exponential and sub-gaussian distributions. Each client pulls an arm and communicates with neighbors based on the graph provided by the environment. The goal is to minimize the overall regret of the entire system through collaborations. To this end, we introduce a novel algorithmic framework, which first provides robust simulation methods for generating random graphs using rapidly mixing Markov chains or the random graph model, and then combines an averaging-based consensus approach with a newly proposed weighting technique and the upper confidence bound to deliver a UCB-type solution. Our algorithms account for the randomness in the graphs, removing the conventional doubly stochasticity assumption, and only require the knowledge of the number of clients at initialization. We derive optimal instance-dependent regret upper bounds of order $\log{T}$ in both sub-gaussian and sub-exponential environments, and a nearly optimal mean-gap independent regret upper bound of order $\sqrt{T}\log T$ up to a $\log T$ factor. Importantly, our regret bounds hold with high probability and capture graph randomness, whereas prior works consider expected regret under assumptions and require more stringent reward distributions.
翻訳日:2023-10-19 19:58:54 公開日:2023-10-18
# PromptBench: 対向的プロンプトにおける大規模言語モデルのロバスト性評価に向けて

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts ( http://arxiv.org/abs/2306.04528v4 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Yue Zhang, Neil Zhenqiang Gong, Xing Xie(参考訳) 学界や業界全体にわたる大規模言語モデル(llm)への依存の高まりは、プロンプトに対する強固さを包括的に理解する必要がある。 この重要なニーズに応えて、LLMの反発性を測定するために設計された堅牢性ベンチマークであるPromptBenchを紹介する。 本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。 逆のプロンプトは、タイプミスやシノニムなどのユーザエラーを模倣するものであり、意味的整合性を維持しながら、LCMの結果にわずかなずれがどの程度影響するかを評価することを目的としている。 これらのプロンプトは、感情分析、自然言語推論、読み理解、機械翻訳、数学の問題解決といった様々なタスクで使用される。 本研究は,8つのタスクと13のデータセットに対して,4788の逆のプロンプトを生成する。 以上の結果から,現代のLDMは敵のプロンプトに対して堅牢ではないことが示唆された。 さらに,素早い堅牢性と伝達性の背後にあるミステリーを理解するため,包括的解析を行った。 そして、洞察に富んだロバストネス分析と、プロンプト・コンポジションのための実用的なレコメンデーションを提供し、研究者と日々のユーザの両方に有益です。 コードはhttps://github.com/microsoft/promptbench.com/で入手できる。

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. The adversarial prompts, crafted to mimic plausible user errors like typos or synonyms, aim to evaluate how slight deviations can affect LLM outcomes while maintaining semantic integrity. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4788 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets. Our findings demonstrate that contemporary LLMs are not robust to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. Code is available at: https://github.com/microsoft/promptbench.
翻訳日:2023-10-19 19:58:26 公開日:2023-10-18
# トラベルセールスマン問題に対する強化学習に基づく非自己回帰解法

Reinforcement Learning-based Non-Autoregressive Solver for Traveling Salesman Problems ( http://arxiv.org/abs/2308.00560v2 )

ライセンス: Link先を確認
Yubin Xiao, Di Wang, Boyang Li, Huanhuan Chen, Wei Pang, Xuan Wu, Hao Li, Dong Xu, Yanchun Liang, and You Zhou(参考訳) トラベリングセールスマン問題 (TSP) は、幅広い現実世界の応用においてよく知られた組合せ最適化問題である。 近年、ニューラルネットワークはTSPに対して強いヒューリスティックなソリューションを提供するため、この分野で人気を集めている。 自己回帰ニューラルネットワークと比較して、非自己回帰(NAR)ネットワークは推論の並列性を利用して推論速度を向上するが、比較的低い解品質に悩まされる。 本稿では,特別に設計されたアーキテクチャと強化学習戦略を組み込んだnar4tspと呼ばれる新しいnarモデルを提案する。 我々の知る限り、NAR4TSPは、RLとNARネットワークをうまく組み合わせた最初のTSPソルバである。 鍵となるのは、NARネットワーク出力デコードをトレーニングプロセスに組み込むことにある。 NAR4TSPは、TSPエンコードされた情報を報酬として効率的に表現し、トレーニングとテストの段階で一貫したTSPシーケンス制約を維持しながら、強化学習戦略にシームレスに統合する。 NAR4TSPは、合成TSPインスタンスと実世界のTSPインスタンスの両方で、ソリューションの品質、推論速度、そして予期せぬシナリオへの一般化の点で、最先端の4つのモデルより優れていることを示した。

The Traveling Salesman Problem (TSP) is a well-known combinatorial optimization problem with broad real-world applications. Recently, neural networks have gained popularity in this research area because they provide strong heuristic solutions to TSPs. Compared to autoregressive neural approaches, non-autoregressive (NAR) networks exploit the inference parallelism to elevate inference speed but suffer from comparatively low solution quality. In this paper, we propose a novel NAR model named NAR4TSP, which incorporates a specially designed architecture and an enhanced reinforcement learning strategy. To the best of our knowledge, NAR4TSP is the first TSP solver that successfully combines RL and NAR networks. The key lies in the incorporation of NAR network output decoding into the training process. NAR4TSP efficiently represents TSP encoded information as rewards and seamlessly integrates it into reinforcement learning strategies, while maintaining consistent TSP sequence constraints during both training and testing phases. Experimental results on both synthetic and real-world TSP instances demonstrate that NAR4TSP outperforms four state-of-the-art models in terms of solution quality, inference speed, and generalization to unseen scenarios.
翻訳日:2023-10-19 19:52:52 公開日:2023-10-18
# 仮面画像モデリングを用いた動的MRI再構成のためのグローバルk空間補間

Global k-Space Interpolation for Dynamic MRI Reconstruction using Masked Image Modeling ( http://arxiv.org/abs/2307.12672v2 )

ライセンス: Link先を確認
Jiazhen Pan, Suprosanna Shit, \"Ozg\"un Turgut, Wenqi Huang, Hongwei Bran Li, Nil Stolt-Ans\'o, Thomas K\"ustner, Kerstin Hammernik, Daniel Rueckert(参考訳) 動的磁気共鳴イメージング(mri)では、k空間は通常走査時間の制限によりアンサンプされ、画像領域内のアーティファクトをエイリアスする。 したがって、動的MR再構成は、k空間のx方向とy方向の空間周波数成分をモデル化するだけでなく、時間的冗長性も考慮する必要がある。 以前の作品の多くは、mr再構成を行うために画像領域正規化器(prior)に依存している。 対照的に、フーリエ変換で画像を得る前に、アンサンプリングされたk空間を補間することに集中する。 本研究では,マスク付き画像モデリングとk空間補間を結合し,k-GINと呼ばれるトランスフォーマーベースのk空間グローバル補間ネットワークを提案する。 我々のk-ginは、2d+t k-空間の低周波および高周波成分間のグローバル依存性を学習し、非サンプリングデータの補間に用いる。 さらに、高周波コンポーネント学習を強化するため、新しいk空間イテレーティブリファインメントモジュール(k-IRM)を提案する。 92例の2d+t心筋mrに対するアプローチを評価し,mri再建法と画像領域調整法との比較を行った。 実験により,提案するk空間補間法がベースライン法を定量的に定性的に上回ることを示した。 重要な点として, 提案手法は, 高信頼mrデータの場合のロバスト性, 一般化性が大幅に向上する。 ビデオプレゼンテーション、ポスター、GIF結果、コードについては、プロジェクトページをチェックしてください。

In dynamic Magnetic Resonance Imaging (MRI), k-space is typically undersampled due to limited scan time, resulting in aliasing artifacts in the image domain. Hence, dynamic MR reconstruction requires not only modeling spatial frequency components in the x and y directions of k-space but also considering temporal redundancy. Most previous works rely on image-domain regularizers (priors) to conduct MR reconstruction. In contrast, we focus on interpolating the undersampled k-space before obtaining images with Fourier transform. In this work, we connect masked image modeling with k-space interpolation and propose a novel Transformer-based k-space Global Interpolation Network, termed k-GIN. Our k-GIN learns global dependencies among low- and high-frequency components of 2D+t k-space and uses it to interpolate unsampled data. Further, we propose a novel k-space Iterative Refinement Module (k-IRM) to enhance the high-frequency components learning. We evaluate our approach on 92 in-house 2D+t cardiac MR subjects and compare it to MR reconstruction methods with image-domain regularizers. Experiments show that our proposed k-space interpolation method quantitatively and qualitatively outperforms baseline methods. Importantly, the proposed approach achieves substantially higher robustness and generalizability in cases of highly-undersampled MR data. For video presentation, poster, GIF results and code please check our project page: https://jzpeterpan.github.io/k-gin.github.io/.
翻訳日:2023-10-19 19:52:34 公開日:2023-10-18
# JoinGym:強化学習のための効率的なクエリ最適化環境

JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning ( http://arxiv.org/abs/2307.11704v2 )

ライセンス: Link先を確認
Kaiwen Wang, Junxiong Wang, Yueying Li, Nathan Kallus, Immanuel Trummer, Wen Sun(参考訳) JOS(Join Order selection)は、クエリの総実行コストを最小限に抑えるために結合操作を順序付けする問題であり、クエリ最適化のNPハード組合せ最適化問題である。 本稿では,JOS問題の左深部とブッディ部の両方をキャプチャする強化学習(RL)のための軽量で使いやすいクエリ最適化環境であるJoinGymを提案する。 既存のクエリ最適化環境と比較して、JoinGymの主な利点は、完全にオフラインでクエリ実行をシミュレートすることで実現したユーザビリティとスループットである。 内部でjoingymは、事前に計算されたデータセットから中間結果の基数を調べることで、クエリプランのコストをシミュレートする。 我々は、実際のimdbワークロードに基づく3300ドルのsqlクエリのための新しい基数データセットをリリースします。 最後に、4つのRLアルゴリズムを広範囲にベンチマークし、そのコスト分布が重く、リスクに敏感なRLの今後の研究を動機付けていることを確かめる。 要約すると、JoinGymを使えば、ユーザはライブシステムのセットアップや実行を必要とせずに、現実的なデータベース上のRLアルゴリズムを迅速にプロトタイプできる。

Join order selection (JOS) is the problem of ordering join operations to minimize total query execution cost and it is the core NP-hard combinatorial optimization problem of query optimization. In this paper, we present JoinGym, a lightweight and easy-to-use query optimization environment for reinforcement learning (RL) that captures both the left-deep and bushy variants of the JOS problem. Compared to existing query optimization environments, the key advantages of JoinGym are usability and significantly higher throughput which we accomplish by simulating query executions entirely offline. Under the hood, JoinGym simulates a query plan's cost by looking up intermediate result cardinalities from a pre-computed dataset. We release a novel cardinality dataset for $3300$ SQL queries based on real IMDb workloads which may be of independent interest, e.g., for cardinality estimation. Finally, we extensively benchmark four RL algorithms and find that their cost distributions are heavy-tailed, which motivates future work in risk-sensitive RL. In sum, JoinGym enables users to rapidly prototype RL algorithms on realistic database problems without needing to setup and run live systems.
翻訳日:2023-10-19 19:51:53 公開日:2023-10-18
# 量子不協和状態の不斉半デバイス非依存性

Asymmetric One-Sided Semi-Device-Independent Steerability of Quantum Discordant States ( http://arxiv.org/abs/2307.09116v4 )

ライセンス: Link先を確認
Chellasamy Jebarathinam (National Cheng Kung University, Taiwan), Debarshi Das, R. Srikanth(参考訳) 超局所性と超非ステアビリティは、それぞれ特定の局所状態と非ステアブル状態における量子相関の操作的特徴を与える。 このような量子相関状態は非零量子不一致を持つ。 超局所性によって指摘される量子相関には、双方向の非零量子ディスコルドが必要である。 一方,本研究では,超unsteerabilityの証明には2方向非ゼロ量子ディスコドは不要であることを示す。 この目的のために、一方向量子不協和状態の超unsteerabilityを示す。 このことは、一方向超不安定の存在と超局所性のない超不安定の存在を暗示する。 非零量子不協和状態の超unsteerabilityは、片側半デバイス非依存な方法でのステアビリティの発生を意味する。 一方向ステアビリティがベル局所状態に対して一方向デバイス非依存的に発生するのと同じように、一方向ステアビリティは一方向半デバイス非依存な状態でも起こりうることを示した。

Superlocality and superunsteerability provide operational characterization of quantum correlations in certain local and unsteerable states respectively. Such quantum correlated states have a nonzero quantum discord. A two-way nonzero quantum discord is necessary for quantum correlations pointed out by superlocality. On the other hand, in this work, we demonstrate that a two-way nonzero quantum discord is not necessary to demonstrate superunsteerability. To this end, we demonstrate superunsteerability for one-way quantum discordant states. This in turn implies the existence of one-way superunsteerability and also the presence of superunsteerability without superlocality. Superunsteerability for nonzero quantum discord states implies the occurence of steerability in a one-sided semi-device-independent way. Just like one-way steerability occurs for certain Bell-local states in a one-sided device-independent way, our result shows that one-way steerability can also occur for certain nonsuperlocal states but in a one-sided semi-device-independent way.
翻訳日:2023-10-19 19:51:24 公開日:2023-10-18
# 分子相互作用と経路知識抽出のための大規模言語モデルの比較性能評価

Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge ( http://arxiv.org/abs/2307.08813v2 )

ライセンス: Link先を確認
Gilchan Park, Byung-Jun Yoon, Xihaier Luo, Vanessa L\'opez-Marrero, Shinjae Yoo, Shantenu Jha(参考訳) タンパク質の相互作用と経路の知識を理解することは、生体システムの複雑さを解明し、生物学的機能や複雑な疾患の基盤となるメカニズムを研究するために重要である。 既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供するが、それらはしばしば不完全であり、保守は労働集約的であり、代替アプローチを必要とする。 本研究では,このような知識を科学文献から自動抽出し,大規模言語モデルの能力を活用することを提案する。 本研究は,タンパク質相互作用の認識,低線量放射線による経路関連遺伝子同定,および遺伝子制御関係に関わるタスクにおいて,異なる大規模言語モデルの有効性について検討する。 我々は,様々なモデルの性能を徹底的に評価し,重要な知見を浮き彫りにし,今後の可能性と今後の課題を議論する。 コードとデータは、https://github.com/boxorange/bioie-llmで入手できる。

Understanding protein interactions and pathway knowledge is crucial for unraveling the complexities of living systems and investigating the underlying mechanisms of biological functions and complex diseases. While existing databases provide curated biological data from literature and other sources, they are often incomplete and their maintenance is labor-intensive, necessitating alternative approaches. In this study, we propose to harness the capabilities of large language models to address these issues by automatically extracting such knowledge from the relevant scientific literature. Toward this goal, in this work, we investigate the effectiveness of different large language models in tasks that involve recognizing protein interactions, identifying genes associated with pathways affected by low-dose radiation, and gene regulatory relations. We thoroughly evaluate the performance of various models, highlight the significant findings, and discuss both the future opportunities and the remaining challenges associated with this approach. The code and data are available at: https://github.com/boxorange/BioIE-LLM
翻訳日:2023-10-19 19:50:46 公開日:2023-10-18
# min-max多重販売マン問題に対するハイブリッド遺伝的アルゴリズム

A Hybrid Genetic Algorithm for the min-max Multiple Traveling Salesman Problem ( http://arxiv.org/abs/2307.07120v2 )

ライセンス: Link先を確認
Sasan Mahmoudinazlou and Changhyun Kwon(参考訳) 本稿では,長期ツアーの長さを最小化するために,Multiple Traveling Salesman Problem (mTSP) を解くハイブリッド遺伝的アルゴリズムを提案する。 遺伝的アルゴリズムは、TSPシーケンスを個々の表現として利用し、動的プログラミングアルゴリズムを用いて、その個人を評価し、与えられた都市のシーケンスに対して最適なmTSPソリューションを求める。 新たなクロスオーバーオペレーターは、2人の親からの同様のツアーを組み合わせるように設計されており、人口に対して大きな多様性を提供する。 生成した子孫のいくつかは、交差のない解を得るためにツアー間の交差点を検出して除去する。 これはmin-max mTSPに特に有用である。 生成した子孫は、自己適応型ランダム局所探索と完全近傍探索により改善される。 我々のアルゴリズムは、文献にある複数のベンチマークセットに対して、同様のカットオフ時間しきい値で、すべての既存のアルゴリズムを平均で上回る。 さらに、4つのベンチマークセットで899ドルのインスタンスのうち21ドルで、最もよく知られたソリューションを改善します。

This paper proposes a hybrid genetic algorithm for solving the Multiple Traveling Salesman Problem (mTSP) to minimize the length of the longest tour. The genetic algorithm utilizes a TSP sequence as the representation of each individual, and a dynamic programming algorithm is employed to evaluate the individual and find the optimal mTSP solution for the given sequence of cities. A novel crossover operator is designed to combine similar tours from two parents and offers great diversity for the population. For some of the generated offspring, we detect and remove intersections between tours to obtain a solution with no intersections. This is particularly useful for the min-max mTSP. The generated offspring are also improved by a self-adaptive random local search and a thorough neighborhood search. Our algorithm outperforms all existing algorithms on average, with similar cutoff time thresholds, when tested against multiple benchmark sets found in the literature. Additionally, we improve the best-known solutions for $21$ out of $89$ instances on four benchmark sets.
翻訳日:2023-10-19 19:50:30 公開日:2023-10-18
# 分離言語事前学習によるブートストラップ型ビジョンランゲージ学習

Bootstrapping Vision-Language Learning with Decoupled Language Pre-training ( http://arxiv.org/abs/2307.07063v2 )

ライセンス: Link先を確認
Yiren Jian, Chongyang Gao, Soroush Vosoughi(参考訳) 本稿では,凍結型大言語モデル(llms)のリソース集約型視覚言語(vl)事前学習への応用を最適化する新しい手法を提案する。 現在のパラダイムでは、言語モデルをガイドするプロンプトとして視覚的特徴を使用し、対応するテキストに対して最も関連性の高い視覚的特徴を決定することに重点を置いている。 私たちのアプローチは、言語コンポーネントに集中することで、視覚的な特徴に合わせるのに最適なプロンプトを特定することで多様化します。 Prompt-Transformer (P-Former) は,これらの理想的なプロンプトを予測し,画像とテキストのペアリングの必要性を回避し,言語データのみを訓練するモデルである。 この戦略は、エンドツーエンドのVLトレーニングプロセスを、別段のステージに微妙に分岐させる。 実験の結果,本フレームワークはロバストな画像からテキストへのベースライン(blip-2)の性能を大幅に向上させ,4mまたは129mのイメージテキストペアでトレーニングされたモデル間のパフォーマンスギャップを効果的に狭めていることが明らかとなった。 重要な点として,本フレームワークはアーキテクチャ設計の観点からはモダリティ非依存かつ柔軟であり,多様なベースモジュールを用いたビデオ学習タスクにおいて,その成功例によって検証されている。 コードはhttps://github.com/yiren-jian/BLITextで入手できる。

We present a novel methodology aimed at optimizing the application of frozen large language models (LLMs) for resource-intensive vision-language (VL) pre-training. The current paradigm uses visual features as prompts to guide language models, with a focus on determining the most relevant visual features for corresponding text. Our approach diverges by concentrating on the language component, specifically identifying the optimal prompts to align with visual features. We introduce the Prompt-Transformer (P-Former), a model that predicts these ideal prompts, which is trained exclusively on linguistic data, bypassing the need for image-text pairings. This strategy subtly bifurcates the end-to-end VL training process into an additional, separate stage. Our experiments reveal that our framework significantly enhances the performance of a robust image-to-text baseline (BLIP-2), and effectively narrows the performance gap between models trained with either 4M or 129M image-text pairs. Importantly, our framework is modality-agnostic and flexible in terms of architectural design, as validated by its successful application in a video learning task using varied base modules. The code will be made available at https://github.com/yiren-jian/BLIText.
翻訳日:2023-10-19 19:50:14 公開日:2023-10-18
# CBDC用非Custodial Walletの設計課題と機会

A Non-Custodial Wallet for CBDC: Design Challenges and Opportunities ( http://arxiv.org/abs/2307.05167v2 )

ライセンス: Link先を確認
Ryan Bowler, Geoffrey Goodell, Joe Revans, Gabriel Bizama, Chris Speed(参考訳) 中央銀行デジタル通貨(CBDC、Central Bank Digital Currency)は、中央銀行が発行・規制し、プログラム可能性、セキュリティ、プライバシーなどの利点を提供する新しい形態の通貨である。 しかし,CBDCシステムの設計には技術的・社会的課題が数多く存在する。 本稿では,CBDCを様々な状況で保存・使用可能な非カセット型ウォレットの設計と試作について述べる。 cbdcシステムの設計の課題に対処するため,我々は,ストーリーテリングやメタファ,プロボタイプといった手法を用いて,内部や外部の利害関係者と一連のワークショップを実施し,cbdcの概念を伝え,ユーザからのフィードバックや批判を導き,規範的な価値を技術設計に取り入れた。 我々は,技術的な側面と社会的側面のバランスをとり,ユーザニーズと価値を反映したcbdcシステム設計のための基本ガイドラインを導出した。 本稿は,cbdcを日常生活でどのように活用できるかを実例で示し,ユーザ中心のアプローチの重要性を強調することで,cbdcの談話に寄与する。

Central Bank Digital Currency (CBDC) is a novel form of money that could be issued and regulated by central banks, offering benefits such as programmability, security, and privacy. However, the design of a CBDC system presents numerous technical and social challenges. This paper presents the design and prototype of a non-custodial wallet, a device that enables users to store and spend CBDC in various contexts. To address the challenges of designing a CBDC system, we conducted a series of workshops with internal and external stakeholders, using methods such as storytelling, metaphors, and provotypes to communicate CBDC concepts, elicit user feedback and critique, and incorporate normative values into the technical design. We derived basic guidelines for designing CBDC systems that balance technical and social aspects, and reflect user needs and values. Our paper contributes to the CBDC discourse by demonstrating a practical example of how CBDC could be used in everyday life and by highlighting the importance of a user-centred approach.
翻訳日:2023-10-19 19:49:51 公開日:2023-10-18
# 離散変数に対する混合変分流

Mixed Variational Flows for Discrete Variables ( http://arxiv.org/abs/2308.15613v2 )

ライセンス: Link先を確認
Gian Carlo Diluvi, Benjamin Bloem-Reddy, Trevor Campbell(参考訳) 変動フローにより、実践者は複雑な連続分布を学習できるが、離散分布を近似することは依然として困難である。 現在の方法論では、通常、離散対象を連続的な空間(通常、連続的な緩和や非量子化を通じて)に埋め込み、連続的な流れを適用する。 これらのアプローチは、元の離散的ターゲットを捉えず、偏りや不安定な勾配を持ち、難しい最適化問題を引き起こすサロゲートターゲットを含む。 本研究では,連続埋め込みを伴わない離散分布に対する変分フローファミリを開発した。 まず,離散的対象不変量を残した測度保存・離散的可逆写像を開発し,その写像に基づいて混合変動流(MAD Mix)を生成する。 我々の家族は、ほとんどチューニングの努力なしに、i.d.サンプリングと密度評価へのアクセスを提供する。 また、連立離散モデルおよび連続モデルを扱うMAD Mixの拡張も開発した。 実験の結果,MAD Mixは連続埋込流よりも信頼性の高い近似を生成できるが,訓練は極めて高速であることが示唆された。

Variational flows allow practitioners to learn complex continuous distributions, but approximating discrete distributions remains a challenge. Current methodologies typically embed the discrete target in a continuous space - usually via continuous relaxation or dequantization - and then apply a continuous flow. These approaches involve a surrogate target that may not capture the original discrete target, might have biased or unstable gradients, and can create a difficult optimization problem. In this work, we develop a variational flow family for discrete distributions without any continuous embedding. First, we develop a measure-preserving and discrete (MAD) invertible map that leaves the discrete target invariant, and then create a mixed variational flow (MAD Mix) based on that map. Our family provides access to i.i.d. sampling and density evaluation with virtually no tuning effort. We also develop an extension to MAD Mix that handles joint discrete and continuous models. Our experiments suggest that MAD Mix produces more reliable approximations than continuous-embedding flows while being significantly faster to train.
翻訳日:2023-10-19 19:40:30 公開日:2023-10-18
# 量子力学から見た量子化に基づく最適化

Quantization-based Optimization with Perspective of Quantum Mechanics ( http://arxiv.org/abs/2308.11594v3 )

ライセンス: Link先を確認
Jinwuk Seok, and Changsik Cho(参考訳) 熱力学に基づく統計的・確率的解析は、確率的大域的最適化の主要な分析フレームワークである。 近年,グローバル最適化のための量子アニーリングや量子トンネリングアルゴリズムが登場し,グローバル最適化アルゴリズムのための新たな研究フレームワークが求められている。 本稿では、量子力学のどの性質が大域的最適化を可能にするかを明らかにするために、Schr\"odinger方程式に基づく量子化に基づく最適化の解析を行う。 量子化に基づく最適化におけるschr\"odinger方程式によるトンネル効果は,局所最小値の回避を可能にする。 さらに, このトンネル効果が, 量子力学に基づく大域的最適化に含まれるのと同じ性質であることを確認した。 標準マルチモーダルベンチマーク関数を用いた実験は,提案手法が有効であることを示す。

Statistical and stochastic analysis based on thermodynamics has been the main analysis framework for stochastic global optimization. Recently, appearing quantum annealing or quantum tunneling algorithm for global optimization, we require a new researching framework for global optimization algorithms. In this paper, we provide the analysis for quantization-based optimization based on the Schr\"odinger equation to reveal what property in quantum mechanics enables global optimization. We present that the tunneling effect derived by the Schr\"odinger equation in quantization-based optimization enables to escape of a local minimum. Additionally, we confirm that this tunneling effect is the same property included in quantum mechanics-based global optimization. Experiments with standard multi-modal benchmark functions represent that the proposed analysis is valid.
翻訳日:2023-10-19 19:40:12 公開日:2023-10-18
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進

Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v3 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。 しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。 本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。 視覚トランスフォーマーを利用して 重みを初期化しました (i)自然画像によるSSL事前トレーニング(DINOv2) (ii)自然画像(画像Netデータセット)におけるSL事前学習 3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練 我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。 我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。 以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。 胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。

Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging.
翻訳日:2023-10-19 19:39:43 公開日:2023-10-18
# TongueSAM:zero-Shotを用いたSAMに基づくユニバーサルトングセグメンテーションモデル

TongueSAM: An Universal Tongue Segmentation Model Based on SAM with Zero-Shot ( http://arxiv.org/abs/2308.06444v2 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan and Qingfeng Wu(参考訳) 舌分節はtcm舌の自動診断の第一段階であり, 診断結果において重要な役割を担っている。 現在、多くのディープラーニングベースの手法が有望な結果を得ている。 しかし、トレーニングセットと異なる、あるいは課題のある背景を持つ舌画像と向き合うと、これらの手法は限られた性能を示す。 そこで本研究では,SAM(Segment Anything Model)に基づく舌分割モデルTongueSAMを提案する。 SAMは、その強力なゼロショット一般化能力で知られている大規模な事前訓練された対話的セグメンテーションモデルである。 SAMを舌のセグメンテーションに適用することは、自然画像から学んだ知識を活用し、様々な種類の舌画像に対するゼロショットセグメンテーションの達成を可能にする。 本研究では,物体検出に基づくプロンプトジェネレータをSAMに統合し,エンドツーエンドの自動舌分割法を実現する。 TongueSAMは、特にゼロショット下で、様々な舌のセグメンテーションデータセットで例外的なパフォーマンスを達成している。 難しい背景舌画像を扱う場合でも、ランサムは他のセグメンテーション法を上回って、ゼロショット条件下で95.23\%のmiouを達成する。 われわれが知る限り、これは舌分割のための大規模事前訓練モデルの最初の応用である。 プロジェクトと事前訓練されたモデルは、論文が受け入れられると公表される。

Tongue segmentation serves as the primary step in automated TCM tongue diagnosis, which plays a significant role in the diagnostic results. Currently, numerous deep learning based methods have achieved promising results. However, when confronted with tongue images that differ from the training set or possess challenging backgrounds, these methods demonstrate limited performance. To address this issue, this paper proposes a universal tongue segmentation model named TongueSAM based on SAM (Segment Anything Model). SAM is a large-scale pretrained interactive segmentation model known for its powerful zero-shot generalization capability. Applying SAM to tongue segmentation leverages its learned prior knowledge from natural images, enabling the achievement of zero-shot segmentation for various types of tongue images. In this study, a Prompt Generator based on object detection is integrated into SAM to enable an end-to-end automated tongue segmentation method. Experiments demonstrate that TongueSAM achieves exceptional performance across various of tongue segmentation datasets, particularly under zero-shot. Even when dealing with challenging background tongue images, TongueSAM achieves a mIoU of 95.23\% under zero-shot conditions, surpassing other segmentation methods. As far as we know, this is the first application of large-scale pretrained model for tongue segmentation. The project and pretrained model will be made public when the paper is accepted.
翻訳日:2023-10-19 19:39:19 公開日:2023-10-18
# 大規模屋外点群登録のための深部意味グラフマッチング

Deep Semantic Graph Matching for Large-scale Outdoor Point Clouds Registration ( http://arxiv.org/abs/2308.05314v2 )

ライセンス: Link先を確認
Shaocong Liu, Tao Wang, Yan Zhang, Ruqin Zhou, Li Li, Chenguang Dai, Yongsheng Zhang, Longguang Wang, Hanyun Wang(参考訳) 現在のクラウド登録法は主に局所的な幾何学的情報に基づいており、通常はシーンに含まれる意味情報を無視する。 本稿では,ポイントクラウド登録問題を意味インスタンスマッチングおよび登録タスクとして扱い,大規模アウトドアポイントクラウド登録のためのdeep semantic graph matching method (deepsgm)を提案する。 まず、意味的セグメンテーションネットワークを用いて、3Dポイントの意味的分類ラベルを得る。 次に、同一のカテゴリラベルを持つ隣接点をユークリッドクラスタリングアルゴリズムを用いてクラスタ化し、空間的位置情報、意味的分類情報、大域的幾何学的形状情報を含む3種類の属性で表される意味インスタンスを得る。 次に、セマンティックインスタンスの空間的隣接関係に基づいてセマンティック隣接グラフを構築する。 同一シーンのセマンティックインスタンスと異なるシーン間のトポロジ構造を網羅するために,グラフ畳み込みネットワークを用いて空間分布特徴とセマンティックカテゴリー特徴を学習し,ポイントネットのようなネットワークを用いてグローバルな幾何学的形状特徴を学習する。 これらの3種類の特徴は、自己注意機構と相互注意機構によってさらに強化される。 第3に、セマンティックインスタンスマッチングを最適なトランスポート問題として定式化し、最適なマッチング層を通して解く。 最後に、2つの点雲間の幾何変換行列を最初にsvdアルゴリズムで推定し、その後icpアルゴリズムによって洗練する。 KITTIオドメトリデータセットで行った実験結果から,提案手法は登録性能を向上し,各種の最先端手法よりも優れた性能を示した。

Current point cloud registration methods are mainly based on local geometric information and usually ignore the semantic information contained in the scenes. In this paper, we treat the point cloud registration problem as a semantic instance matching and registration task, and propose a deep semantic graph matching method (DeepSGM) for large-scale outdoor point cloud registration. Firstly, the semantic categorical labels of 3D points are obtained using a semantic segmentation network. The adjacent points with the same category labels are then clustered together using the Euclidean clustering algorithm to obtain the semantic instances, which are represented by three kinds of attributes including spatial location information, semantic categorical information, and global geometric shape information. Secondly, the semantic adjacency graph is constructed based on the spatial adjacency relations of semantic instances. To fully explore the topological structures between semantic instances in the same scene and across different scenes, the spatial distribution features and the semantic categorical features are learned with graph convolutional networks, and the global geometric shape features are learned with a PointNet-like network. These three kinds of features are further enhanced with the self-attention and cross-attention mechanisms. Thirdly, the semantic instance matching is formulated as an optimal transport problem, and solved through an optimal matching layer. Finally, the geometric transformation matrix between two point clouds is first estimated by the SVD algorithm and then refined by the ICP algorithm. Experimental results conducted on the KITTI Odometry dataset demonstrate that the proposed method improves the registration performance and outperforms various state-of-the-art methods.
翻訳日:2023-10-19 19:38:55 公開日:2023-10-18
# 信頼性とオープンワールド学習の橋渡し--解釈性、一般化、ロバスト性を高める探索的ニューラルアプローチ

Bridging Trustworthiness and Open-World Learning: An Exploratory Neural Approach for Enhancing Interpretability, Generalization, and Robustness ( http://arxiv.org/abs/2308.03666v4 )

ライセンス: Link先を確認
Shide Du, Zihan Fang, Shiyang Lan, Yanchao Tan, Manuel G\"unther, Shiping Wang, Wenzhong Guo(参考訳) 人工知能技術の発展を通じて、人工知能と人間のギャップを狭めようとしている研究者にとって、オープンワールドにおける信頼の重要さは、誰もが日々の生活のあらゆる面で普及していると認識することが不可欠である。 しかし、いくつかの課題は、橋渡しが必要な現在の人工知能システムに対する信頼の危機を引き起こす可能性がある。 1) 予測結果の不十分な説明 2)学習モデルに対する不適切な一般化 3)不確かな環境への適応性の低下。 その結果,信頼性とオープンワールド学習をブリッジするニューラルプログラムが,シングルモーダルからマルチモーダルシナリオへと拡張された。 1) 設計レベルの解釈性を高めるために,まず,特定の物理的意味を持つ信頼できるネットワークをカスタマイズする。 2) 信頼性のある学習の一般化を改善するために, フレキシブルラーニングレギュレータによる環境調和型タスクインタフェースを設計する。 3) オープンワールド認識損失をエージェント機構と統合することにより,信頼に値する学習の堅牢性を高めることを提案する。 最終的には, 設計レベルの説明可能性, 環境保全課題インターフェース, オープンワールド認識プログラムの確立を通じて, 信頼性を高める。 これらの設計されたオープンワールドプロトコルは、オープンワールドマルチメディア認識シナリオの下で、幅広い環境にまたがって適用され、大幅なパフォーマンス改善が観察されている。

As researchers strive to narrow the gap between machine intelligence and human through the development of artificial intelligence technologies, it is imperative that we recognize the critical importance of trustworthiness in open-world, which has become ubiquitous in all aspects of daily life for everyone. However, several challenges may create a crisis of trust in current artificial intelligence systems that need to be bridged: 1) Insufficient explanation of predictive results; 2) Inadequate generalization for learning models; 3) Poor adaptability to uncertain environments. Consequently, we explore a neural program to bridge trustworthiness and open-world learning, extending from single-modal to multi-modal scenarios for readers. 1) To enhance design-level interpretability, we first customize trustworthy networks with specific physical meanings; 2) We then design environmental well-being task-interfaces via flexible learning regularizers for improving the generalization of trustworthy learning; 3) We propose to increase the robustness of trustworthy learning by integrating open-world recognition losses with agent mechanisms. Eventually, we enhance various trustworthy properties through the establishment of design-level explainability, environmental well-being task-interfaces and open-world recognition programs. These designed open-world protocols are applicable across a wide range of surroundings, under open-world multimedia recognition scenarios with significant performance improvements observed.
翻訳日:2023-10-19 19:38:26 公開日:2023-10-18
# q-pandora unboxed: 量子誤り訂正符号のノイズレジリエンスを特徴付ける

Q-Pandora Unboxed: Characterizing Noise Resilience of Quantum Error Correction Codes ( http://arxiv.org/abs/2308.02769v2 )

ライセンス: Link先を確認
Avimita Chatterjee, Subrata Das and Swaroop Ghosh(参考訳) 量子誤り訂正符号(QECC)は、脆弱な量子状態をノイズやエラーから保護することにより、信頼性の高い量子コンピューティングを実現するために重要である。 しかし、QECCの雑音耐性を分析し、最適な符号を選択するのに役立っている。 本稿では,2つのQECC(回転面符号と回転面符号)を異なる誤差型とノイズモデルで解析する。 その中でも、ローテーションされた表面符号は、単純さとキュービットオーバーヘッドの低下に起因するしきい値が高い場合に最もよく機能する。 ノイズしきい値(またはQECCが非効率になる点)は、現代の量子プロセッサで見られる誤り率を上回る。 特定のエラーやノイズモデルが支配的な量子ハードウェアに直面すると、リソース要求の観点から、表面コードの実装において識別可能な階層が現れる。 この順序付けは、回転しない、回転した表面コード間で一貫して観測される。 我々のノイズモデル解析は、コード容量モデルを最も悲観的で回路レベルのモデルとして位置づけている。 この研究はエラー閾値をマッピングし、現代の量子プロセッサに対する表面符号の利点を明らかにした。 また、より高いコード距離を示し、ラウンドは継続的にパフォーマンスを改善します。 しかし、過剰な距離はクビットオーバーヘッドを必然的に増加させる。 最適表面符号パラメータにターゲットの論理誤差率と量子ビット数を整合させることにより、信頼性と量子ビット資源のバランスをとるためにこれらの符号を調整する必要があることを実証した。 包括的に、表面的なコードのオーバーヘッドとクォービットの改善に関連する顕著な課題に対処することの重要性を強調します。

Quantum error correction codes (QECCs) are critical for realizing reliable quantum computing by protecting fragile quantum states against noise and errors. However, limited research has analyzed the noise resilience of QECCs to help select optimal codes. This paper conducts a comprehensive study analyzing two QECCs - rotated and unrotated surface codes - under different error types and noise models using simulations. Among them, rotated surface codes perform best with higher thresholds attributed to simplicity and lower qubit overhead. The noise threshold, or the point at which QECCs become ineffective, surpasses the error rate found in contemporary quantum processors. When confronting quantum hardware where a specific error or noise model is dominant, a discernible hierarchy emerges for surface code implementation in terms of resource demand. This ordering is consistently observed across unrotated, and rotated surface codes. Our noise model analysis ranks the code-capacity model as the most pessimistic and circuit-level model as the most realistic. The study maps error thresholds, revealing surface code's advantage over modern quantum processors. It also shows higher code distances and rounds consistently improve performance. However, excessive distances needlessly increase qubit overhead. By matching target logical error rates and feasible number of qubits to optimal surface code parameters, our study demonstrates the necessity of tailoring these codes to balance reliability and qubit resources. Conclusively, we underscore the significance of addressing the notable challenges associated with surface code overheads and qubit improvements.
翻訳日:2023-10-19 19:38:04 公開日:2023-10-18
# フォトニック非線形量子ウォークにおけるソリトン:連続体からの教訓

Solitons in a photonic nonlinear quantum walk: lessons from the continuum ( http://arxiv.org/abs/2308.01014v2 )

ライセンス: Link先を確認
Andreu Angl\'es-Castillo, Armando P\'erez, Eugenio Rold\'an(参考訳) 我々は、光学非線形カー媒体上の電界成分を用いて実験的に実装できる非線形QWモデルを、(非線形に)歩行者の状態に依存する角度で、コイン演算子の回転に変換する非線形QWモデルの解析を行う。 この単純な依存により、非線形ディラック方程式の形をとる進化方程式の時空連続体極限を考えるのが容易である。 この連続極限の解析により、いくつかの近似の下で、ソリトン構造の性質についていくつかの知見を得ることができる。 これらのソリトンは、適切な初期条件を選択することで軌道を変調できる安定な構造である。 また,外部電界をシミュレートする追加位相を受けるソリトンの安定性についても検討し,高次元空間で形成されるかどうかを考察した。

We analyse a nonlinear QW model which can be experimentally implemented using the components of the electric field on an optical nonlinear Kerr medium, which translates into a rotation in the coin operator, with an angle which depends (in a nonlinear fashion) on the state of the walker. This simple dependence makes it easy to consider the space-time continuum limit of the evolution equation, which takes the form of a nonlinear Dirac equation. The analysis of this continuum limit allows us, under some approximations, to gain some insight into the nature of soliton structures, which is illustrated by our numerical calculations. These solitons are stable structures whose trajectories can be modulated by choosing the appropriate initial conditions. We have also studied the stability of solitons when they are subject to an additional phase that simulates an external electric field, and also explored if they are formed in higher dimensional spaces.
翻訳日:2023-10-19 19:37:38 公開日:2023-10-18
# 最小パルス列を持つ2量子量子ゲート

Two-qubit quantum gates with minimal pulse sequences ( http://arxiv.org/abs/2309.12432v2 )

ライセンス: Link先を確認
Ignacio R. Sola, Seokmin Shin, Bo Y. Chang(参考訳) 互いに近い距離で閉じ込められた原子で作業することで、量子ビット当たりの単一パルスまたは単一構造パルスを用いて非独立な量子ビットに基づくエンタングリングゲートを実装することができることを示す。 最適パラメータはディオファントス方程式の近似解に依存するため、有限性は理想的な条件下であっても完全ではない。 我々は、ゲートが動作する機構を完全に特徴付け、特に強いフィールドを使用するゲートの忠実度を損なうピーク強度の変動から、現実的な実装におけるエラーの主な原因が生じることを示す。 2パルスシーケンスで作業することで、複数の機構と幅広い最適なパラメータを選択でき、高忠実度ゲートを実現することができる。

Working with trapped atoms at close distance to each other, we show that one can implement entangling gates based on non-independent qubits using a single pulse per qubit, or a single structured pulse. The optimal parameters depend on approximate solutions of Diophantine equations, causing the fidelity to never be exactly perfect, even under ideal conditions, although the errors can be made arbitrarily smaller at the cost of stronger fields. We fully characterize the mechanism by which the gates operate, and show that the main source of error in realistic implementations comes from fluctuations in the peak intensity, which especially damages the fidelity of the gates that use stronger fields. Working with two-pulse sequences, instead of one, enables the use of a plethora of mechanisms and a broad range of optimal parameters to choose from, to achieve high-fidelity gates.
翻訳日:2023-10-19 19:31:11 公開日:2023-10-18
# freeu:distribution u-netのフリーランチ

FreeU: Free Lunch in Diffusion U-Net ( http://arxiv.org/abs/2309.11497v2 )

ライセンス: Link先を確認
Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu(参考訳) 本稿では,フライ時の生成品質を大幅に向上させる「フリーランチ」として機能する拡散U-Netの未発達の可能性を明らかにする。 我々はまず,u-netアーキテクチャのデノージングプロセスへの重要な貢献を調査し,その主バックボーンが主にデノージングに寄与していることを確認し,そのスキップ接続が主にデコーダモジュールに高周波機能を導入し,ネットワークがバックボーンセマンティクスを見落としてしまう原因となった。 この発見に乗じて,追加のトレーニングや微調整を行わずに生成品質を向上させる,単純かつ効果的な手法であるfreeuを提案する。 私たちの重要な洞察は、U-Netのスキップ接続とバックボーン機能マップから得られるコントリビューションを戦略的に再重み付けし、U-Netアーキテクチャの両コンポーネントの強みを活用することです。 画像およびビデオ生成タスクにおける結果の証明は、FreeUが既存の拡散モデル(例えば、Stable Diffusion、DreamBooth、ModelScope、Rerender、ReVersion)と容易に統合でき、コード数行で生成品質を向上できることを示している。 必要なのは、推論中に2つのスケーリング要素を調整することです。 プロジェクトページ: https://chenyangsi.top/freeu/

In this paper, we uncover the untapped potential of diffusion U-Net, which serves as a "free lunch" that substantially improves the generation quality on the fly. We initially investigate the key contributions of the U-Net architecture to the denoising process and identify that its main backbone primarily contributes to denoising, whereas its skip connections mainly introduce high-frequency features into the decoder module, causing the network to overlook the backbone semantics. Capitalizing on this discovery, we propose a simple yet effective method-termed "FreeU" - that enhances generation quality without additional training or finetuning. Our key insight is to strategically re-weight the contributions sourced from the U-Net's skip connections and backbone feature maps, to leverage the strengths of both components of the U-Net architecture. Promising results on image and video generation tasks demonstrate that our FreeU can be readily integrated to existing diffusion models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion, to improve the generation quality with only a few lines of code. All you need is to adjust two scaling factors during inference. Project page: https://chenyangsi.top/FreeU/.
翻訳日:2023-10-19 19:30:57 公開日:2023-10-18
# デカップリングメトリックスケールリカバリによるrgbに基づくカテゴリレベルのオブジェクトポーズ推定

RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery ( http://arxiv.org/abs/2309.10255v2 )

ライセンス: Link先を確認
Jiaxin Wei, Xibin Song, Weizhe Liu, Laurent Kneip, Hongdong Li and Pan Ji(参考訳) 近年のRGB-Dカメラを用いたカテゴリーレベルのオブジェクトポーズ推定法では,深度センサへの依存度が高いため,適用が制限されている。 rgbのみの手法は、この問題の代替を提供するが、単眼的な観察から生じる固有のスケールの曖昧さに苦しむ。 本稿では,不完全スケールが剛体変換に与える影響を緩和するために,6次元ポーズとサイズ推定を分離する新しいパイプラインを提案する。 具体的には,事前学習した単眼推定器を用いて局所幾何情報を抽出し,不規則な2d-3d対応の探索を容易にする。 一方、別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。 最後に,RANSAC-P$n$Pアルゴリズムを用いて6次元オブジェクトポーズを頑健に解くことを提案する。 合成データと実データの両方で広範な実験が行われ、従来のrgbベースのアプローチ、特に回転精度の点でより優れた性能を示している。 コード:https://github.com/goldoak/DMSR。

While showing promising results, recent RGB-D camera-based category-level object pose estimation methods have restricted applications due to the heavy reliance on depth sensors. RGB-only methods provide an alternative to this problem yet suffer from inherent scale ambiguity stemming from monocular observations. In this paper, we propose a novel pipeline that decouples the 6D pose and size estimation to mitigate the influence of imperfect scales on rigid transformations. Specifically, we leverage a pre-trained monocular estimator to extract local geometric information, mainly facilitating the search for inlier 2D-3D correspondence. Meanwhile, a separate branch is designed to directly recover the metric scale of the object based on category-level statistics. Finally, we advocate using the RANSAC-P$n$P algorithm to robustly solve for 6D object pose. Extensive experiments have been conducted on both synthetic and real datasets, demonstrating the superior performance of our method over previous state-of-the-art RGB-based approaches, especially in terms of rotation accuracy. Code: https://github.com/goldoak/DMSR.
翻訳日:2023-10-19 19:30:30 公開日:2023-10-18
# 欠落データに基づく不確実性を考慮したトラヒック予測

Uncertainty-aware Traffic Prediction under Missing Data ( http://arxiv.org/abs/2309.06800v4 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Zhiming Liang, Guanjie Zheng, Bin Shi, Hua Wei(参考訳) 交通分野の応用範囲が広いため、交通予測は重要なトピックである。 近年,様々な研究が有望な成果を上げている。 しかし、ほとんどの研究は予測場所が完全な、あるいは少なくとも部分的な歴史記録を持っていると仮定しており、歴史的に記録されていない場所まで拡張することはできない。 実際のシナリオでは、予算の制限とインストールの可用性のためにセンサーの配置が制限される可能性があるため、現在のほとんどのモデルでは適用できない。 欠落した場所の交通状態を暗示しようとする文献は少ないが、これらの手法にはセンサーで同時に観測されるデータが必要であるため、予測タスクには適用できない。 もうひとつの欠点は、予測の不確実性の測定の欠如であり、以前の作業がリスクに敏感なタスクや意思決定に適さないことだ。 このギャップを埋めるために、従来のインダクティブグラフニューラルネットワークに触発された本研究では、不確実性を認識するフレームワークを提案する。 1) 過去の記録のない場所への予測を延長し, センサの配置を減少させながら, 予測位置の空間的範囲を著しく拡大する。 2) 下流作業におけるリスクと意思決定の管理を支援するため, 不確実性定量化による確率予測を生成する。 実生活データセットを広範囲に実験した結果,予測課題において有望な結果が得られ,不確かさの定量化により,過去のデータと無関係な場所と高い相関性が得られた。 また,センサ配置予算を限定した精度向上のために,交通分野におけるセンサ展開タスクを支援できることを示す。

Traffic prediction is a crucial topic because of its broad scope of applications in the transportation domain. Recently, various studies have achieved promising results. However, most studies assume the prediction locations have complete or at least partial historical records and cannot be extended to non-historical recorded locations. In real-life scenarios, the deployment of sensors could be limited due to budget limitations and installation availability, which makes most current models not applicable. Though few pieces of literature tried to impute traffic states at the missing locations, these methods need the data simultaneously observed at the locations with sensors, making them not applicable to prediction tasks. Another drawback is the lack of measurement of uncertainty in prediction, making prior works unsuitable for risk-sensitive tasks or involving decision-making. To fill the gap, inspired by the previous inductive graph neural network, this work proposed an uncertainty-aware framework with the ability to 1) extend prediction to missing locations with no historical records and significantly extend spatial coverage of prediction locations while reducing deployment of sensors and 2) generate probabilistic prediction with uncertainty quantification to help the management of risk and decision making in the down-stream tasks. Through extensive experiments on real-life datasets, the result shows our method achieved promising results on prediction tasks, and the uncertainty quantification gives consistent results which highly correlated with the locations with and without historical data. We also show that our model could help support sensor deployment tasks in the transportation field to achieve higher accuracy with a limited sensor deployment budget.
翻訳日:2023-10-19 19:30:14 公開日:2023-10-18
# 運動解析によるロバスト視覚追跡

Robust Visual Tracking by Motion Analyzing ( http://arxiv.org/abs/2309.03247v2 )

ライセンス: Link先を確認
Mohammed Leo and Kurban Ubul and ShengJie Cheng and Michael Ma(参考訳) 近年,ビデオオブジェクト・セグメンテーション (VOS) がビデオオブジェクト追跡 (VOT) の補完手法として出現している。 VOSはターゲット周辺のすべてのピクセルの分類に重点を置いており、正確な形状のラベル付けを可能にしている。 しかし、従来のセグメンテーションモジュールは通常、隣接するフレーム間の情報を無視して、フレームごとにピクセルを分類する。 本稿では,固有テンソル構造を用いて運動パターンを分析することで,この制限に対処する新しいアルゴリズムを提案する。 タッカー2テンソル分解によって得られるテンソル構造は、ターゲットの動きを記述するのに有効であることが証明される。 この情報を取り入れることで、SOTAによるLaSOT\cite{fan2019lasot}, AVisT\cite{noman2022avist}, OTB100\cite{7001050}, GOT-10k\cite{huang2019got} LaSOT\cite{fan2019lasot}の4つのベンチマークの競争結果を得た。 さらに,提案するトラッカーはリアルタイム動作が可能であり,実用的応用に価値が付加される。

In recent years, Video Object Segmentation (VOS) has emerged as a complementary method to Video Object Tracking (VOT). VOS focuses on classifying all the pixels around the target, allowing for precise shape labeling, while VOT primarily focuses on the approximate region where the target might be. However, traditional segmentation modules usually classify pixels frame by frame, disregarding information between adjacent frames. In this paper, we propose a new algorithm that addresses this limitation by analyzing the motion pattern using the inherent tensor structure. The tensor structure, obtained through Tucker2 tensor decomposition, proves to be effective in describing the target's motion. By incorporating this information, we achieved competitive results on Four benchmarks LaSOT\cite{fan2019lasot}, AVisT\cite{noman2022avist}, OTB100\cite{7001050}, and GOT-10k\cite{huang2019got} LaSOT\cite{fan2019lasot} with SOTA. Furthermore, the proposed tracker is capable of real-time operation, adding value to its practical application.
翻訳日:2023-10-19 19:29:27 公開日:2023-10-18
# 強調的・混合的特徴再建による暗黙的神経画像縫合

Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction ( http://arxiv.org/abs/2309.01409v4 )

ライセンス: Link先を確認
Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin(参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。 しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。 近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。 この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。 画質向上のための画像のフーリエ係数を推定する。 提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。 提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。 ソースコードはhttps://github.com/minshu-kim/nisで入手できます。

Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS.
翻訳日:2023-10-19 19:29:03 公開日:2023-10-18
# ディリクレ境界条件下における画像縫合における残留弾性ワルプの学習

Learning Residual Elastic Warps for Image Stitching under Dirichlet Boundary Condition ( http://arxiv.org/abs/2309.01406v3 )

ライセンス: Link先を確認
Minsu Kim, Yongjun Lee, Woo Kyoung Han, Kyong Hwan Jin(参考訳) 学習に基づく弾性ワープの傾向は、深層画像の縫合によって大きなパララックス誤差に晒された画像の整列を可能にする。 対象画像のオーバーラップ領域と非オーバーラップ領域のずれや穴が生じたり,不連続性に支障をきたすことがあるが,この手法は,主にオーバーラップ領域アライメントに着目した学習戦略である。 結果として、不連続性を隠蔽するために、シームファインダーやイメージインペイントなどの追加モジュールが必要である。 本稿では,ディリクレ境界条件の問題に対処するリカレント弾性ワープ(Recurrent Elastic Warps,REwarp)を提案する。 特に、Rewarpは、不連続およびホールフリー画像縫合のための境界制約の下で、ホモグラフィと薄板スプライン(TPS)を予測する。 本実験は,既存の縫合法と比較して,Rewarpの整合性および競合計算コストを示す。 ソースコードはhttps://github.com/minshu-kim/rewarp.comから入手できます。

Trendy suggestions for learning-based elastic warps enable the deep image stitchings to align images exposed to large parallax errors. Despite the remarkable alignments, the methods struggle with occasional holes or discontinuity between overlapping and non-overlapping regions of a target image as the applied training strategy mostly focuses on overlap region alignment. As a result, they require additional modules such as seam finder and image inpainting for hiding discontinuity and filling holes, respectively. In this work, we suggest Recurrent Elastic Warps (REwarp) that address the problem with Dirichlet boundary condition and boost performances by residual learning for recurrent misalign correction. Specifically, REwarp predicts a homography and a Thin-plate Spline (TPS) under the boundary constraint for discontinuity and hole-free image stitching. Our experiments show the favorable aligns and the competitive computational costs of REwarp compared to the existing stitching methods. Our source code is available at https://github.com/minshu-kim/REwarp.
翻訳日:2023-10-19 19:28:46 公開日:2023-10-18
# 不確実性分析と大規模言語モデルによるアクティブ質問による対話型ロボット行動計画

Interactively Robot Action Planning with Uncertainty Analysis and Active Questioning by Large Language Model ( http://arxiv.org/abs/2308.15684v2 )

ライセンス: Link先を確認
Kazuki Hori, Kanata Suzuki, Tetsuya Ogata(参考訳) ロボット行動計画への大規模言語モデル(llm)の適用は活発に研究されている。 自然言語によるLLMへの指示には、タスクコンテキストによる曖昧さと情報の欠如が含まれる。 命令入力をより詳細にすることでllmの出力を調整することができるが、設計コストは高い。 本稿では,人間に質問することで,LLMが行方不明情報を分析・収集できる対話型ロボット行動計画法を提案する。 この方法は、正確なロボット命令を生成する設計コストを最小化することができる。 調理作業における具体例を通して本手法の有効性を実証した。 しかし,本実験では,ロボットの行動計画において重要でない質問をしたり,質問せずに重要な情報を仮定したりするといった課題も明らかにしている。 これらの問題に光を当てることで、ロボット工学におけるLLMの利用に関する今後の研究に役立つ。

The application of the Large Language Model (LLM) to robot action planning has been actively studied. The instructions given to the LLM by natural language may include ambiguity and lack of information depending on the task context. It is possible to adjust the output of LLM by making the instruction input more detailed; however, the design cost is high. In this paper, we propose the interactive robot action planning method that allows the LLM to analyze and gather missing information by asking questions to humans. The method can minimize the design cost of generating precise robot instructions. We demonstrated the effectiveness of our method through concrete examples in cooking tasks. However, our experiments also revealed challenges in robot action planning with LLM, such as asking unimportant questions and assuming crucial information without asking. Shedding light on these issues provides valuable insights for future research on utilizing LLM for robotics.
翻訳日:2023-10-19 19:28:28 公開日:2023-10-18
# セルオートマトンを用いた連合学習のための知的クライアント選択

Intelligent Client Selection for Federated Learning using Cellular Automata ( http://arxiv.org/abs/2310.00627v2 )

ライセンス: Link先を確認
Nikolaos Pavlidis, Vasileios Perifanis, Theodoros Panagiotis Chatzinikolaou, Georgios Ch. Sirakoulis, Pavlos S. Efraimidis(参考訳) Federated Learning(FL)は、輸送、通信、医療など、さまざまな現実のアプリケーションにおいて、プライバシの強化とレイテンシの最小化のための有望なソリューションとして登場した。 FLは、数百万のデバイスとIoTセンサからのデータを活用することで、マシンラーニング(ML)をエッジに持ち込もうとしているため、動的環境への迅速な応答と、高度にパーソナライズされた結果が得られる。 しかし、多様なアプリケーションにまたがるセンサの増加は、コミュニケーションやリソース割り当ての面での課題を招き、すべてのデバイスがフェデレーションプロセスに参加するのを妨げ、効果的なFLクライアント選択の必要性を喚起する。 本稿では, 高速進化環境における時空間変化を効果的に捉えるモデルとして, セルラーオートマタ(CA)を利用した新しいクライアント選択アルゴリズムであるCellular Automaton-based Client Selection (CA-CS)を提案する。 ca-csは、各クライアントの計算資源と通信能力を考慮しつつ、クライアント選択プロセス中のクライアント間インタラクションを考慮し、実世界のシナリオに非常に近いデータストリーム上のオンラインflプロセスに対するインテリジェントなクライアント選択を可能にする。 本稿では,mnistとcifar-10のデータセットを用いたca-csアルゴリズムの徹底的な評価を行い,ランダムなクライアント選択方式と直接比較する。 その結果,CA-CSは高遅延クライアントを効果的に回避しつつ,ランダム選択手法に匹敵する精度を達成できることを示した。

Federated Learning (FL) has emerged as a promising solution for privacy-enhancement and latency minimization in various real-world applications, such as transportation, communications, and healthcare. FL endeavors to bring Machine Learning (ML) down to the edge by harnessing data from million of devices and IoT sensors, thus enabling rapid responses to dynamic environments and yielding highly personalized results. However, the increased amount of sensors across diverse applications poses challenges in terms of communication and resource allocation, hindering the participation of all devices in the federated process and prompting the need for effective FL client selection. To address this issue, we propose Cellular Automaton-based Client Selection (CA-CS), a novel client selection algorithm, which leverages Cellular Automata (CA) as models to effectively capture spatio-temporal changes in a fast-evolving environment. CA-CS considers the computational resources and communication capacity of each participating client, while also accounting for inter-client interactions between neighbors during the client selection process, enabling intelligent client selection for online FL processes on data streams that closely resemble real-world scenarios. In this paper, we present a thorough evaluation of the proposed CA-CS algorithm using MNIST and CIFAR-10 datasets, while making a direct comparison against a uniformly random client selection scheme. Our results demonstrate that CA-CS achieves comparable accuracy to the random selection approach, while effectively avoiding high-latency clients.
翻訳日:2023-10-19 19:20:27 公開日:2023-10-18
# 大規模言語モデルにおけるインテクスト学習 : 表現の神経科学による分析

In-Context Learning in Large Language Models: A Neuroscience-inspired Analysis of Representations ( http://arxiv.org/abs/2310.00313v2 )

ライセンス: Link先を確認
Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Akanksha Saran, Rapha\"el Milli\`ere, Ida Momennejad(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。 しかし、この改善のメカニズムはいまだ解明されていない。 本研究では,Llama-270BとVicuna 13Bの埋め込みと注意表現について検討する。 具体的には、コンテキスト内学習後の埋め込みと注意がどのように変化するか、そしてこれらの変化が行動改善の媒介となるかを検討する。 我々は,表現類似性分析(RSA)などの神経科学に触発された手法を採用し,パラメータ化探索と注意比率分析(ARA)のための新しい手法を提案する。 本研究は,3つの条件,すなわち読解理解,線形回帰,対向的プロンプトインジェクションの3つのタスクを設計した。 埋め込みや注意の潜伏変化を調べるために,タスク表現における期待される類似性について仮説を立てた。 ICL後の行動特性の改善とともに,埋め込みと注意表現の両方の変化に有意な相関が認められた。 この実証的なフレームワークは、潜伏表現がICLの有無にかかわらずLLMの振る舞いにどのように影響するかを微妙に理解し、将来の研究や実用化に有用なツールと洞察を提供する。

Large language models (LLMs) exhibit remarkable performance improvement through in-context learning (ICL) by leveraging task-specific examples in the input. However, the mechanisms behind this improvement remain elusive. In this work, we investigate embeddings and attention representations in Llama-2 70B and Vicuna 13B. Specifically, we study how embeddings and attention change after in-context-learning, and how these changes mediate improvement in behavior. We employ neuroscience-inspired techniques, such as representational similarity analysis (RSA), and propose novel methods for parameterized probing and attention ratio analysis (ARA, measuring the ratio of attention to relevant vs. irrelevant information). We designed three tasks with a priori relationships among their conditions: reading comprehension, linear regression, and adversarial prompt injection. We formed hypotheses about expected similarities in task representations to investigate latent changes in embeddings and attention. Our analyses revealed a meaningful correlation between changes in both embeddings and attention representations with improvements in behavioral performance after ICL. This empirical framework empowers a nuanced understanding of how latent representations affect LLM behavior with and without ICL, offering valuable tools and insights for future research and practical applications.
翻訳日:2023-10-19 19:19:32 公開日:2023-10-18
# 医用画像における一般移動物体分割の基礎モデル

A Foundation Model for General Moving Object Segmentation in Medical Images ( http://arxiv.org/abs/2309.17264v3 )

ライセンス: Link先を確認
Zhongnuo Yan, Tong Han, Yuhao Huang, Lian Liu, Han Zhou, Jiongquan Chen, Wenlong Shi, Yan Cao, Xin Yang, Dong Ni(参考訳) 医用画像分割は, 臨床診断において重要な役割を担い, 解剖学的, 病理学的構造を明らかにすることを目的としている。 高精度の深部セグメンテーションモデルを構築するためには,高品質なアノテートデータが多く重要である。 しかし、医療アノテーションは、特に医療ビデオや3Dボリュームでは、巨大なラベル付けスペースとフレーム間の一貫性の欠如のため、非常に面倒で時間を要する。 近年,移動物体分割(MOS)という基本課題が自然画像に大きく進展している。 その目的は、最小限のアノテーションしか必要とせず、画像シーケンス内の背景から動くオブジェクトをデラインすることである。 本稿では,医療画像におけるMOSのための基礎モデルiMOSを提案する。 大規模マルチモーダル医療データセットに関する広範な実験により、提案するimosの有効性が検証された。 具体的には、シーケンス内の少数の画像のみをアノテーションすることで、imosは双方向で、シーケンス全体にわたって動くオブジェクトの十分なトラッキングとセグメンテーション性能を実現することができる。 提案したiMOSが専門家のアノテーションのスピードを加速し、医療基盤モデルの開発を促進することを願っている。

Medical image segmentation aims to delineate the anatomical or pathological structures of interest, playing a crucial role in clinical diagnosis. A substantial amount of high-quality annotated data is crucial for constructing high-precision deep segmentation models. However, medical annotation is highly cumbersome and time-consuming, especially for medical videos or 3D volumes, due to the huge labeling space and poor inter-frame consistency. Recently, a fundamental task named Moving Object Segmentation (MOS) has made significant advancements in natural images. Its objective is to delineate moving objects from the background within image sequences, requiring only minimal annotations. In this paper, we propose the first foundation model, named iMOS, for MOS in medical images. Extensive experiments on a large multi-modal medical dataset validate the effectiveness of the proposed iMOS. Specifically, with the annotation of only a small number of images in the sequence, iMOS can achieve satisfactory tracking and segmentation performance of moving objects throughout the entire sequence in bi-directions. We hope that the proposed iMOS can help accelerate the annotation speed of experts, and boost the development of medical foundation models.
翻訳日:2023-10-19 19:19:09 公開日:2023-10-18
# SA2-Net:顕微鏡画像分割のためのスケールアウェアアテンションネットワーク

SA2-Net: Scale-aware Attention Network for Microscopic Image Segmentation ( http://arxiv.org/abs/2309.16661v2 )

ライセンス: Link先を確認
Mustansar Fiaz, Rao Muhammad Anwer, Hisham Cholakkal(参考訳) 顕微鏡画像分割は、与えられた顕微鏡画像内の各ピクセルに意味的ラベルを割り当てることを目的としている。 畳み込みニューラルネットワーク(CNN)は多くの既存のフレームワークの基礎となっているが、多くの場合、長距離依存を明示的に捉えるのに苦労する。 当初、トランスフォーマーは自己注意でこの問題に対処するために考案されたが、形状、サイズ、外観、ターゲット領域密度など、顕微鏡画像における様々な課題に対処するために、局所的特徴とグローバルな特徴の両方が重要であることが証明されている。 本稿では,マルチスケール特徴学習を利用して,顕微鏡画像内の多様な構造を効果的に処理する,注意誘導型SA2-Netを提案する。 具体的には,細胞などの微細領域のスケールや形状の変動を正確に把握し,正確なセグメンテーションを行うためのSA2モジュールを提案する。 このモジュールは、マルチステージ機能の各レベルにおけるローカルな注意と、複数の解像度にわたるグローバルな関心を取り入れている。 さらに、アダプティブアップアテンション(AuA)モジュールと呼ばれる新しいアップサンプリング戦略を導入することで、ぼやけた領域境界(セル境界など)の問題に対処する。 このモジュールは、明示的な注意機構を用いて顕微鏡領域の局在性を改善するための識別能力を高める。 5つの挑戦的なデータセットに関する広範な実験は、sa2-netモデルの利点を示しています。 ソースコードは \url{https://github.com/mustansarfiaz/sa2-net} で公開されている。

Microscopic image segmentation is a challenging task, wherein the objective is to assign semantic labels to each pixel in a given microscopic image. While convolutional neural networks (CNNs) form the foundation of many existing frameworks, they often struggle to explicitly capture long-range dependencies. Although transformers were initially devised to address this issue using self-attention, it has been proven that both local and global features are crucial for addressing diverse challenges in microscopic images, including variations in shape, size, appearance, and target region density. In this paper, we introduce SA2-Net, an attention-guided method that leverages multi-scale feature learning to effectively handle diverse structures within microscopic images. Specifically, we propose scale-aware attention (SA2) module designed to capture inherent variations in scales and shapes of microscopic regions, such as cells, for accurate segmentation. This module incorporates local attention at each level of multi-stage features, as well as global attention across multiple resolutions. Furthermore, we address the issue of blurred region boundaries (e.g., cell boundaries) by introducing a novel upsampling strategy called the Adaptive Up-Attention (AuA) module. This module enhances the discriminative ability for improved localization of microscopic regions using an explicit attention mechanism. Extensive experiments on five challenging datasets demonstrate the benefits of our SA2-Net model. Our source code is publicly available at \url{https://github.com/mustansarfiaz/SA2-Net}.
翻訳日:2023-10-19 19:18:50 公開日:2023-10-18
# SEPT:動き予測のための効率的なシーン表現学習を目指して

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction ( http://arxiv.org/abs/2309.15289v3 )

ライセンス: Link先を確認
Zhiqian Lan, Yuxuan Jiang, Yao Mu, Chen Chen, Shengbo Eben Li, Hang Zhao, Keqiang Li(参考訳) 運動予測は、自動運転車が複雑な交通環境下で安全に動作するために不可欠である。 交通要素間の効果的な時空間関係の抽出は正確な予測の鍵となる。 本稿では,事前学習された大規模言語モデルの実践に触発されて,自己教師付き学習を活用して複雑な交通シーンの時空間的強力な理解を実現するためのモデリングフレームワークSEPTを提案する。 具体的には,3つのマスキング・リコンストラクション・モデリングタスクを,エージェントのトラジェクタや道路網を含むシーン入力,軌道内の運動量をキャプチャするシーンエンコーダの事前学習,道路網の空間構造,道路とエージェント間のインタラクションなどに適用した。 プリトレーニングされたエンコーダは、下流予測タスクで微調整される。 大規模な実験により、SEPTは複雑なアーキテクチャ設計や手動の特徴工学を伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成し、すべての主要な指標に対する従来の手法よりも大きなマージンで優れていることが示された。

Motion prediction is crucial for autonomous vehicles to operate safely in complex traffic environments. Extracting effective spatiotemporal relationships among traffic elements is key to accurate forecasting. Inspired by the successful practice of pretrained large language models, this paper presents SEPT, a modeling framework that leverages self-supervised learning to develop powerful spatiotemporal understanding for complex traffic scenes. Specifically, our approach involves three masking-reconstruction modeling tasks on scene inputs including agents' trajectories and road network, pretraining the scene encoder to capture kinematics within trajectory, spatial structure of road network, and interactions among roads and agents. The pretrained encoder is then finetuned on the downstream forecasting task. Extensive experiments demonstrate that SEPT, without elaborate architectural design or manual feature engineering, achieves state-of-the-art performance on the Argoverse 1 and Argoverse 2 motion forecasting benchmarks, outperforming previous methods on all main metrics by a large margin.
翻訳日:2023-10-19 19:18:24 公開日:2023-10-18
# 価値モデルを捨てるな! 値誘導モンテカルロ木探索デコードによるPPOのさらなる改善

Don't throw away your value model! Making PPO even better via Value-Guided Monte-Carlo Tree Search decoding ( http://arxiv.org/abs/2309.15028v2 )

ライセンス: Link先を確認
Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi, Asli Celikyilmaz(参考訳) モンテカルロ木探索 (MCTS) のような推論時探索アルゴリズムは,PPO (Proximal Policy Optimization) のような最先端の強化学習に基づく自然言語テキストを生成する際に不要に思える。 本稿では, MCTSを上面に統合することにより, PPOから余分な距離を得ることが可能であることを実証する。 鍵となるアイデアは、ポリシーネットワークからテキストを復号する際に、部分的な出力シーケンスを評価するためのPPOトレーニングの副産物であるバリューネットワークを捨てないことである。 より具体的には、ppo-mctsと呼ばれる新しい値誘導復号アルゴリズムを提案する。これはppoからの価値ネットワークを統合して、推論時間生成中にポリシーネットワークと密接に連携することができる。 制御テキスト生成のためのMCTSに基づく従来の手法と比較して,本手法の主な強みは,トレーニングとテストの間の部分出力のスコアリング機構の基本的なミスマッチを低減することである。 4つのテキスト生成タスクの評価により, PPO-MCTS は PPO ポリシーのみを使用する標準的な方法に比べて, 生成テキストの優先性を大幅に向上することが示された。 この結果から,PPO の言語モデル上でも検索アルゴリズムが実現可能であること,および,探索されていない価値ネットワークの利点が示された。

Inference-time search algorithms such as Monte-Carlo Tree Search (MCTS) may seem unnecessary when generating natural language text based on state-of-the-art reinforcement learning such as Proximal Policy Optimization (PPO). In this paper, we demonstrate that it is possible to get extra mileage out of PPO by integrating MCTS on top. The key idea is not to throw out the value network, a byproduct of PPO training for evaluating partial output sequences, when decoding text out of the policy network. More concretely, we present a novel value-guided decoding algorithm called PPO-MCTS, which can integrate the value network from PPO to work closely with the policy network during inference-time generation. Compared to prior approaches based on MCTS for controlled text generation, the key strength of our approach is to reduce the fundamental mismatch of the scoring mechanisms of the partial outputs between training and test. Evaluation on four text generation tasks demonstrate that PPO-MCTS greatly improves the preferability of generated text compared to the standard practice of using only the PPO policy. Our results demonstrate the promise of search algorithms even on top of the aligned language models from PPO, and the under-explored benefit of the value network.
翻訳日:2023-10-19 19:17:39 公開日:2023-10-18
# IBMDPにおける決定木ポリシー学習のためのアクタクリティカルアルゴリズムの限界

Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in IBMDPs ( http://arxiv.org/abs/2309.13365v2 )

ライセンス: Link先を確認
Hecotr Kohler, Riad Akrour, Philippe Preux(参考訳) AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。 特に、意思決定木(dts)は、学習したモデルをグローバルに観察し、どの入力の特徴が決定に不可欠か透過的に明らかにします。 しかし、DTが大きすぎると解釈が妨げられる。 小型木を学習するために,近年の強化学習(Reinforcement Learning, RL)フレームワークが提案され, 深いRLを用いてDTの空間を探索する。 このフレームワークは、決定問題(例えば教師付き分類タスク)を、隠された入力の特徴に関する情報を収集する追加のアクションで強化する。 これらの行動を適切にペナルティ化することにより、エージェントはdtsのトレードオフサイズと性能を最適に学習する。 実際には、部分的に観測可能なマルコフ決定プロセス(MDP)のための反応性ポリシーを学ぶ必要があるが、これはまだ未解決の問題である。 本稿では,本クラスにおける単純な玩具作業においても,深部RLは失敗する可能性があることを示す。 しかし, 基本決定問題が教師付き分類課題である場合, 最適木を求めることは, 完全に観察可能なマルコフ決定問題としてキャスティングでき, 効率的に解くことができることを示す。

Interpretability of AI models allows for user safety checks to build trust in such AIs. In particular, Decision Trees (DTs) provide a global look at the learned model and transparently reveal which features of the input are critical for making a decision. However, interpretability is hindered if the DT is too large. To learn compact trees, a recent Reinforcement Learning (RL) framework has been proposed to explore the space of DTs using deep RL. This framework augments a decision problem (e.g. a supervised classification task) with additional actions that gather information about the features of an otherwise hidden input. By appropriately penalizing these actions, the agent learns to optimally trade-off size and performance of DTs. In practice, a reactive policy for a partially observable Markov decision process (MDP) needs to be learned, which is still an open problem. We show in this paper that deep RL can fail even on simple toy tasks of this class. However, when the underlying decision problem is a supervised classification task, we show that finding the optimal tree can be cast as a fully observable Markov decision problem and be solved efficiently, giving rise to a new family of algorithms for learning DTs that go beyond the classical greedy maximization ones.
翻訳日:2023-10-19 19:17:19 公開日:2023-10-18
# Foundation Metrics: ジェネレーティブAIを活用したヘルスケア会話の有効性の定量化

Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI ( http://arxiv.org/abs/2309.12444v2 )

ライセンス: Link先を確認
Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra Shakeri Hossein Abad, Alexander Thieme, Ram Sriram, Zhongqi Yang, Yanshan Wang, Bryant Lin, Olivier Gevaert, Li-Jia Li, Ramesh Jain, Amir M. Rahmani(参考訳) 生成型人工知能(generative artificial intelligence)は、従来の患者のケアをよりパーソナライズし、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。 対話型会話モデルとして機能するチャットボットは、この患者中心の医療変革を推進するだろう。 診断、パーソナライズされたライフスタイル・レコメンデーション、メンタルヘルスサポートなど、さまざまなサービスの提供を通じて、医療提供者のワークロード負担を軽減する一方で、患者の健康成果を大幅に増やすことが目的である。 医療アプリケーションのライフクリティカルな性質は、会話モデルのための統一的で包括的な評価指標を確立する必要がある。 様々な総合的大言語モデル(LLM)に提案されている既存の評価指標は、医療と健康の概念に関する理解の欠如と、患者の幸福を促進する上での意義を示している。 さらに、これらの指標は、信頼構築、倫理、パーソナライゼーション、共感、ユーザーの理解、感情的支援など、重要なユーザー中心の側面を無視している。 本研究の目的は,医療における対話型対話モデルの評価に特に適用可能な,最先端のLCMに基づく評価指標を検討することである。 次に、エンドユーザーの視点から医療チャットボットのパフォーマンスを徹底的に評価するための総合的な評価指標を提案する。 これらの指標は、言語処理能力の評価、実際の臨床タスクへの影響、ユーザ対話における有効性を含む。 最後に,これらの指標の定義と実装に関連する課題,特に対象オーディエンス,評価方法,評価プロセスに関わる迅速化手法といった要素の融合に重点を置く議論を行う。

Generative Artificial Intelligence is set to revolutionize healthcare delivery by transforming traditional patient care into a more personalized, efficient, and proactive process. Chatbots, serving as interactive conversational models, will probably drive this patient-centered transformation in healthcare. Through the provision of various services, including diagnosis, personalized lifestyle recommendations, and mental health support, the objective is to substantially augment patient health outcomes, all the while mitigating the workload burden on healthcare providers. The life-critical nature of healthcare applications necessitates establishing a unified and comprehensive set of evaluation metrics for conversational models. Existing evaluation metrics proposed for various generic large language models (LLMs) demonstrate a lack of comprehension regarding medical and health concepts and their significance in promoting patients' well-being. Moreover, these metrics neglect pivotal user-centered aspects, including trust-building, ethics, personalization, empathy, user comprehension, and emotional support. The purpose of this paper is to explore state-of-the-art LLM-based evaluation metrics that are specifically applicable to the assessment of interactive conversational models in healthcare. Subsequently, we present an comprehensive set of evaluation metrics designed to thoroughly assess the performance of healthcare chatbots from an end-user perspective. These metrics encompass an evaluation of language processing abilities, impact on real-world clinical tasks, and effectiveness in user-interactive conversations. Finally, we engage in a discussion concerning the challenges associated with defining and implementing these metrics, with particular emphasis on confounding factors such as the target audience, evaluation methods, and prompt techniques involved in the evaluation process.
翻訳日:2023-10-19 19:16:55 公開日:2023-10-18
# CLIPからDINO: マルチモーダル大規模言語モデルにおけるビジュアルエンコーダ

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models ( http://arxiv.org/abs/2310.08825v2 )

ライセンス: Link先を確認
Dongsheng Jiang, Yuchen Liu, Songlin Liu, Xiaopeng Zhang, Jin Li, Hongkai Xiong, Qi Tian(参考訳) マルチモーダル大言語モデル(mllm)は、視覚知覚インタフェースの組み込みを通じて、大言語モデル(llm)の能力を拡大する上で大きな進歩を遂げた。 エキサイティングなアプリケーションが現れ、多様な命令チューニングデータが利用可能になったにもかかわらず、既存のアプローチはしばしばビジュアルブランチとしてクリップやその変種に依存し、深層からフィーチャを抽出するだけである。 しかし、これらの手法はMLLMの視覚エンコーダの包括的解析を欠いている。 本稿では,MLLM内の異なる視覚エンコーダの有効性について検討する。 以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。 驚くべきことに、テキストイメージアライメントを事前トレーニングしていないビジョンのみのモデルであるDINOは、MLLM内のビジュアルブランチとして有望なパフォーマンスを示している。 単にアライメントのためのMDP層を装備することで、DINOはきめ細かな関連する知覚タスクにおいてCLIPを追い越す。 これらの観測に基づいて,CLIPとDINOとMergingを統合し,MLLMの視覚能力を高めるシンプルな機能統合戦略であるCOMMを提案する。 我々は,画像キャプション,視覚的質問応答,視覚的接地,物体幻覚など,幅広いベンチマークの総合的な実験を通じてCOMMを評価する。 実験の結果,既存の手法と比較してCOMMの性能が優れており,MLLM内の視覚能力の向上が示されている。 コードはhttps://github.com/yuchenliu98/commで入手できる。

Multi-modal Large Language Models (MLLMs) have made significant strides in expanding the capabilities of Large Language Models (LLMs) through the incorporation of visual perception interfaces. Despite the emergence of exciting applications and the availability of diverse instruction tuning data, existing approaches often rely on CLIP or its variants as the visual branch, and merely extract features from the deep layers. However, these methods lack a comprehensive analysis of the visual encoders in MLLMs. In this paper, we conduct an extensive investigation into the effectiveness of different vision encoders within MLLMs. Our findings reveal that the shallow layer features of CLIP offer particular advantages for fine-grained tasks such as grounding and region understanding. Surprisingly, the vision-only model DINO, which is not pretrained with text-image alignment, demonstrates promising performance as a visual branch within MLLMs. By simply equipping it with an MLP layer for alignment, DINO surpasses CLIP in fine-grained related perception tasks. Building upon these observations, we propose a simple yet effective feature merging strategy, named COMM, that integrates CLIP and DINO with Multi-level features Merging, to enhance the visual capabilities of MLLMs. We evaluate COMM through comprehensive experiments on a wide range of benchmarks, including image captioning, visual question answering, visual grounding, and object hallucination. Experimental results demonstrate the superior performance of COMM compared to existing methods, showcasing its enhanced visual capabilities within MLLMs. Code will be made available at https://github.com/YuchenLiu98/COMM.
翻訳日:2023-10-19 19:10:30 公開日:2023-10-18
# 大規模言語モデルの認知的知識構造を探る--教育的診断評価アプローチ

Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach ( http://arxiv.org/abs/2310.08172v2 )

ライセンス: Link先を確認
Zheyuan Zhang, Jifan Yu, Juanzi Li, Lei Hou(参考訳) 大規模言語モデル(llm)は、様々なタスクで例外的なパフォーマンスを示すだけでなく、知性の火花も見せた。 近年の研究では、人間試験における能力評価に焦点が当てられ、異なる領域におけるその印象的な能力が明らかにされている。 しかし、llmsの全体的知識構造に関する認知研究はまだ欠落している。 本稿では,Bloom Taxonomyに基づく人体検査データセットであるMoocRadarを用いて,教育診断評価手法を用いて評価を行う。 我々は,LLMの知識構造を明らかにし,認知能力の洞察を得ることを目指している。 本研究は,LLMの知識を解明し,LLMの異なる認知パターンを理解することの重要性を強調する。 モデルの知識に光を当てることで、研究者はLLMの開発と活用をより情報的かつ効果的に進めることができる。

Large Language Models (LLMs) have not only exhibited exceptional performance across various tasks, but also demonstrated sparks of intelligence. Recent studies have focused on assessing their capabilities on human exams and revealed their impressive competence in different domains. However, cognitive research on the overall knowledge structure of LLMs is still lacking. In this paper, based on educational diagnostic assessment method, we conduct an evaluation using MoocRadar, a meticulously annotated human test dataset based on Bloom Taxonomy. We aim to reveal the knowledge structures of LLMs and gain insights of their cognitive capabilities. This research emphasizes the significance of investigating LLMs' knowledge and understanding the disparate cognitive patterns of LLMs. By shedding light on models' knowledge, researchers can advance development and utilization of LLMs in a more informed and effective manner.
翻訳日:2023-10-19 19:10:02 公開日:2023-10-18
# 大規模言語モデルにおけるファクタリティに関する調査:知識・検索・ドメイン特質

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity ( http://arxiv.org/abs/2310.07521v2 )

ライセンス: Link先を確認
Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs)における事実性の重要課題について述べる。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。 我々は、現実と矛盾するコンテンツを生成するLLMの確率として、現実問題を定義する。 まず、これらの不正確さの影響を掘り下げ、LCM出力における事実誤りによる潜在的な結果と課題を明らかにする。 その後,LLMが事実を保存・処理するメカニズムを解析し,事実誤りの主な原因を探究する。 この議論は、LLMの事実性を評価する方法論に移行し、主要な指標、ベンチマーク、研究を強調する。 特定のドメインに適したアプローチを含む,LLMの事実性向上戦略についても検討する。 独立LLMと外部データを利用するRetrieval-Augmented LLMの2つの主要なLLM構成に注目し、それらの固有の課題と潜在的な拡張について詳述する。 本調査は,llmの信頼性を高めることを目的とした構造化ガイドを提供する。

This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
翻訳日:2023-10-19 19:09:48 公開日:2023-10-18
# 自動音韻再構成のためのコグネートトランスフォーマーとコグネート反射予測

Cognate Transformer for Automated Phonological Reconstruction and Cognate Reflex Prediction ( http://arxiv.org/abs/2310.07487v2 )

ライセンス: Link先を確認
V.S.D.S.Mahesh Akavarapu and Arnab Bhattacharya(参考訳) 音韻復元は歴史的言語学における中心的な問題の1つであり、祖先語の原語が娘言語の観察された子音語から決定される。 歴史言語学への計算的アプローチは、利用可能な言語データに基づいてモデルを学習することによってタスクを自動化しようとする。 計算生物学から導かれたいくつかのアイデアと技術は、計算史言語学の分野でうまく適用されている。 そこで我々は,自動音韻再構成の問題に対して,タンパク質言語モデルであるMSA Transformerを適用した。 msaトランスフォーマは入力として複数のシーケンスアライメントを訓練するので、アライメントされたコグネートワードに応用できる。 したがって、当社のモデルをCognate Transformerと名付けます。 また,娘言語の反射語を他の娘言語の共起語に基づいて予測するコグネイト反射予測(cognate reflex prediction, cognate reflex prediction)という別のタスクにもモデルを適用する。 特に,マスク付き単語予測タスクで事前学習した場合に,既存のモデルよりも優れていることを示す。

Phonological reconstruction is one of the central problems in historical linguistics where a proto-word of an ancestral language is determined from the observed cognate words of daughter languages. Computational approaches to historical linguistics attempt to automate the task by learning models on available linguistic data. Several ideas and techniques drawn from computational biology have been successfully applied in the area of computational historical linguistics. Following these lines, we adapt MSA Transformer, a protein language model, to the problem of automated phonological reconstruction. MSA Transformer trains on multiple sequence alignments as input and is, thus, apt for application on aligned cognate words. We, hence, name our model as Cognate Transformer. We also apply the model on another associated task, namely, cognate reflex prediction, where a reflex word in a daughter language is predicted based on cognate words from other daughter languages. We show that our model outperforms the existing models on both tasks, especially when it is pre-trained on masked word prediction task.
翻訳日:2023-10-19 19:09:30 公開日:2023-10-18
# ドローンによるスマートホームの異常健康状態の検出

Detecting Abnormal Health Conditions in Smart Home Using a Drone ( http://arxiv.org/abs/2310.05012v2 )

ライセンス: Link先を確認
Pronob Kumar Barman(参考訳) 現在、異常な健康問題の検出は難しいプロセスである。 特に高齢者の転倒は世界中で深刻な問題となっている。 転倒は、無意識、内出血、しばしば死など、致命的な結果をもたらす可能性がある。 落下を検知する実用的で最適なアプローチが、現在懸念されている。 高齢者や他の健康状態の人が独立して生活できるように、視覚に基づく転倒モニタリングが科学者の間で一般的になっている。 追跡、監視、救助のために、無人航空機はビデオまたはイメージセグメンテーションと物体検出方法を使用する。 telloドローンにはカメラが装備されており、この装置は参加者の正常な行動と異常な行動を判断する。 自律落下物体は畳み込みニューラルネットワーク(CNN)分類器を用いて分類される。 その結果,0.9948の精度で落下物体を識別できることがわかった。

Nowadays, detecting aberrant health issues is a difficult process. Falling, especially among the elderly, is a severe concern worldwide. Falls can result in deadly consequences, including unconsciousness, internal bleeding, and often times, death. A practical and optimal, smart approach of detecting falling is currently a concern. The use of vision-based fall monitoring is becoming more common among scientists as it enables senior citizens and those with other health conditions to live independently. For tracking, surveillance, and rescue, unmanned aerial vehicles use video or image segmentation and object detection methods. The Tello drone is equipped with a camera and with this device we determined normal and abnormal behaviors among our participants. The autonomous falling objects are classified using a convolutional neural network (CNN) classifier. The results demonstrate that the systems can identify falling objects with a precision of 0.9948.
翻訳日:2023-10-19 19:08:33 公開日:2023-10-18
# クリスタル:自己フィードバックによる内省的推論

Crystal: Introspective Reasoners Reinforced with Self-Feedback ( http://arxiv.org/abs/2310.04921v2 )

ライセンス: Link先を確認
Jiacheng Liu, Ramakanth Pasunuru, Hannaneh Hajishirzi, Yejin Choi, Asli Celikyilmaz(参考訳) 広範にわたる研究により、常識推論の性能と解釈性は、推論プロセスの基盤となる知識が明示的に言語化され、活用される知識増進推論手法によって改善できることが示されている。 しかし、「思考の連鎖」やその変種を含む既存の実装は、常識的推論に必要な知識の内省的な性質を捉え、知識の生成と利用の相互適応を考慮に入れていない。 本稿では,イントロスペクティブ・コモンセンス推論器であるクリスタルを開発するための新しい手法を提案する。 コモンセンス問題に対処するため、まず与えられた質問に関連する知識ステートメントのイントロスペクションを行い、その後、それまでのイントロスペクションされた知識に根ざした情報予測を行う。 モデルの知識イントロスペクションと知識ベース推論モードは、モデル自体が与えるフィードバックから得られる報酬を相互に適応させるために強化学習を介して調整される。 実験により、クリスタルは標準的な微調整法と連鎖蒸留法の両方に優れており、コモンセンス推論プロセスの透明性を高めることが示されている。 我々の研究は最終的に、自己フィードバックで神経モデルを強化する可能性と可能性を検証する。

Extensive work has shown that the performance and interpretability of commonsense reasoning can be improved via knowledge-augmented reasoning methods, where the knowledge that underpins the reasoning process is explicitly verbalized and utilized. However, existing implementations, including "chain-of-thought" and its variants, fall short in capturing the introspective nature of knowledge required in commonsense reasoning, and in accounting for the mutual adaptation between the generation and utilization of knowledge. We propose a novel method to develop an introspective commonsense reasoner, Crystal. To tackle commonsense problems, it first introspects for knowledge statements related to the given question, and subsequently makes an informed prediction that is grounded in the previously introspected knowledge. The knowledge introspection and knowledge-grounded reasoning modes of the model are tuned via reinforcement learning to mutually adapt, where the reward derives from the feedback given by the model itself. Experiments show that Crystal significantly outperforms both the standard supervised finetuning and chain-of-thought distilled methods, and enhances the transparency of the commonsense reasoning process. Our work ultimately validates the feasibility and potential of reinforcing a neural model with self-feedback.
翻訳日:2023-10-19 19:08:23 公開日:2023-10-18
# 大規模マルチタスクデータセットにおける分子学習の基礎モデルに向けて

Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets ( http://arxiv.org/abs/2310.04292v3 )

ライセンス: Link先を確認
Dominique Beaini, Shenyang Huang, Joao Alex Cunha, Zhiyi Li, Gabriela Moisescu-Pareja, Oleksandr Dymov, Samuel Maddrell-Mander, Callum McLean, Frederik Wenkel, Luis M\"uller, Jama Hussein Mohamud, Ali Parviz, Michael Craig, Micha{\l} Koziarski, Jiarui Lu, Zhaocheng Zhu, Cristian Gabellini, Kerstin Klaser, Josef Dean, Cas Wognum, Maciej Sypetkowski, Guillaume Rabusseau, Reihaneh Rabbany, Jian Tang, Christopher Morris, Ioannis Koutis, Mirco Ravanelli, Guy Wolf, Prudencio Tossou, Hadrien Mary, Therence Bois, Andrew Fitzgibbon, B{\l}a\.zej Banaszewski, Chad Martin, Dominic Masters(参考訳) 近年、事前訓練された基礎モデルによって、複数の分野で大きな進歩がもたらされている。 しかし、分子機械学習では、しばしばデータセットが手作業で計算されるため、通常は小さくなっているため、ラベル付き特徴を持つデータセットやそれらのデータセットを管理するコードベースが欠如しているため、基礎モデルの開発が妨げられている。 本研究では,ToyMix,Large,UltraLargeの3つのカテゴリに分類した7つの新しいデータセットを提案する。 これらのデータセットは、分子学習のための教師付きラベルのスケールと多様性の両方の境界を押し上げる。 それらは1億近い分子と3000あまりの小さなタスクをカバーし、合計130億個以上の量子と生物のラベルがある。 比較すると、我々のデータセットは、広く使われているOGB-LSC PCQM4Mv2データセットの300倍のデータポイントを含み、量子のみのQM1Bデータセットの13倍である。 さらに,提案するデータセットに基づく基礎モデルの開発を支援するために,マルチタスクおよびマルチレベル分子データセットのための分子機械学習モデルの構築とトレーニングのプロセスを簡素化するgraphium graph machine learning libraryを提案する。 最後に,これらのデータセット上でのマルチタスクおよびマルチレベルトレーニングの出発点として,ベースライン結果の範囲を提案する。 実験により、低リソースの生物データセットの性能は、大量の量子データをトレーニングすることで改善されることを示した。 これは、基礎モデルのマルチタスクおよびマルチレベルトレーニングと、リソース制約された下流タスクへの微調整の可能性を示唆している。

Recently, pre-trained foundation models have enabled significant advancements in multiple fields. In molecular machine learning, however, where datasets are often hand-curated, and hence typically small, the lack of datasets with labeled features, and codebases to manage those datasets, has hindered the development of foundation models. In this work, we present seven novel datasets categorized by size into three distinct categories: ToyMix, LargeMix and UltraLarge. These datasets push the boundaries in both the scale and the diversity of supervised labels for molecular learning. They cover nearly 100 million molecules and over 3000 sparsely defined tasks, totaling more than 13 billion individual labels of both quantum and biological nature. In comparison, our datasets contain 300 times more data points than the widely used OGB-LSC PCQM4Mv2 dataset, and 13 times more than the quantum-only QM1B dataset. In addition, to support the development of foundational models based on our proposed datasets, we present the Graphium graph machine learning library which simplifies the process of building and training molecular machine learning models for multi-task and multi-level molecular datasets. Finally, we present a range of baseline results as a starting point of multi-task and multi-level training on these datasets. Empirically, we observe that performance on low-resource biological datasets show improvement by also training on large amounts of quantum data. This indicates that there may be potential in multi-task and multi-level training of a foundation model and fine-tuning it to resource-constrained downstream tasks.
翻訳日:2023-10-19 19:08:02 公開日:2023-10-18
# BLP-2023タスク2におけるBanglaNLP:Banglaソーシャルメディアポストの知覚分析のための異なるトランスフォーマーモデルのベンチマーク

BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models for Sentiment Analysis of Bangla Social Media Posts ( http://arxiv.org/abs/2310.09238v2 )

ライセンス: Link先を確認
Saumajit Saha and Albert Nanda(参考訳) バングラ語は世界で7番目に広く話されている言語であり、インドやバングラデシュからの話者は2億2400万人である。 この形態学的に豊かな言語は豊富な文学的伝統を持ち、多様な方言と言語固有の課題を含んでいる。 言語豊かさと歴史にもかかわらず、バングラは自然言語処理(NLP)と音声コミュニティの中で、低リソース言語として分類されている。 本稿では,blpワークショップのタスク2 (sentiment analysis of bangla social media post) への投稿について述べる。 この課題を解決するために、Transformerベースの様々なアーキテクチャを実験する。 我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。 これは、感情分析タスクのために既にtwitterデータに微調整されたモデルと、その微調整されたモデルが他のすべてのモデルの中で最善の性能を発揮すると、明らかになる。 また、詳細なエラー解析を行い、基底真理ラベルを見直す必要があるいくつかのインスタンスを見つけます。 テストセットで67.02\%のマイクロF1を取得し、この共有タスクにおけるパフォーマンスをリーダーボードで21にランク付けする。

Bangla is the 7th most widely spoken language globally, with a staggering 234 million native speakers primarily hailing from India and Bangladesh. This morphologically rich language boasts a rich literary tradition, encompassing diverse dialects and language-specific challenges. Despite its linguistic richness and history, Bangla remains categorized as a low-resource language within the natural language processing (NLP) and speech community. This paper presents our submission to Task 2 (Sentiment Analysis of Bangla Social Media Posts) of the BLP Workshop. We experiment with various Transformer-based architectures to solve this task. Our quantitative results show that transfer learning really helps in better learning of the models in this low-resource language scenario. This becomes evident when we further finetune a model which has already been finetuned on twitter data for sentiment analysis task and that finetuned model performs the best among all other models. We also perform a detailed error analysis where we find some instances where ground truth labels need to be relooked at. We obtain a micro-F1 of 67.02\% on the test set and our performance in this shared task is ranked at 21 in the leaderboard.
翻訳日:2023-10-19 18:57:10 公開日:2023-10-18
# ゼロショット学習のためのChatGPT-Guided Semantics

ChatGPT-guided Semantics for Zero-shot Learning ( http://arxiv.org/abs/2310.11657v1 )

ライセンス: Link先を確認
Fahimul Hoque Shubho, Townim Faisal Chowdhury, Ali Cheraghian, Morteza Saberi, Nabeel Mohammed, Shafin Rahman(参考訳) Zero-shot Learning (ZSL) は、トレーニング中に観察されていないオブジェクトを分類することを目的としている。 参照されるクラスから未知のクラスへの知識の転送には、クラスの意味記述に依存する。 クラスセマンティクスを取得する既存の方法には、言語モデル(word2vecなど)からの手動属性や自動単語ベクトルが含まれる。 属性アノテーションはコストがかかるが、自動語ベクトルは比較的ノイズが多い。 この問題に対処するために,大規模な言語モデルであるChatGPTを用いて,ZSLタスクのクラスセマンティクスを強化する方法について検討する。 ChatGPTは、関連する属性とセマンティクスを含む各クラスのテキスト記述を取得するのに役立つソースになる。 私たちはword2vecモデルを使用して、chatgptのテキストを使用してワードベクターを取得します。 次に,ChatGPTが生成したクラス名と記述からの単語埋め込みを組み合わせることで,単語ベクトルを豊かにする。 より具体的には、ChatGPTを活用してクラス記述を余分に監視し、最終的にはZSLモデルの恩恵を受ける。 各種2D画像(CUB,AwA)と3Dポイントクラウド(ModelNet10,ModelNet40,ScanObjectNN)のデータセットに対するアプローチを評価し,ZSLの性能向上を示す。 本研究は,クラスセマンティクスの強化にChatGPTを適用し,新しい単語ベクトル融合法を提案することによって,ZSL文献に寄与する。

Zero-shot learning (ZSL) aims to classify objects that are not observed or seen during training. It relies on class semantic description to transfer knowledge from the seen classes to the unseen classes. Existing methods of obtaining class semantics include manual attributes or automatic word vectors from language models (like word2vec). We know attribute annotation is costly, whereas automatic word-vectors are relatively noisy. To address this problem, we explore how ChatGPT, a large language model, can enhance class semantics for ZSL tasks. ChatGPT can be a helpful source to obtain text descriptions for each class containing related attributes and semantics. We use the word2vec model to get a word vector using the texts from ChatGPT. Then, we enrich word vectors by combining the word embeddings from class names and descriptions generated by ChatGPT. More specifically, we leverage ChatGPT to provide extra supervision for the class description, eventually benefiting ZSL models. We evaluate our approach on various 2D image (CUB and AwA) and 3D point cloud (ModelNet10, ModelNet40, and ScanObjectNN) datasets and show that it improves ZSL performance. Our work contributes to the ZSL literature by applying ChatGPT for class semantics enhancement and proposing a novel word vector fusion method.
翻訳日:2023-10-19 18:19:32 公開日:2023-10-18
# 大規模言語モデルにおけるファクチュアル知識の体系的評価

Systematic Assessment of Factual Knowledge in Large Language Models ( http://arxiv.org/abs/2310.11638v1 )

ライセンス: Link先を確認
Linhao Luo, Thuy-Trang Vu, Dinh Phung, Gholamreza Haffari(参考訳) 従来の研究では,大規模言語モデル(LLM)に格納された知識を評価するために,既存の質問応答ベンチマークに頼っていた。 しかし、このアプローチは、主に事前学習データと重複するジェネリックドメインに焦点を当てているため、事実的知識カバレッジに関する制限がある。 本稿では,知識グラフ(KG)を利用して,LLMの事実知識を体系的に評価する枠組みを提案する。 本フレームワークは,所定のKGに格納された事実から,質問の集合と期待された回答を自動的に生成し,これらの質問に対するLLMの精度を評価する。 汎用ドメインと特定ドメインのKGを用いて,最先端のLCMを体系的に評価した。 この実験は、ChatGPTがすべてのドメインで一貫してトップパフォーマーであることを示している。 また, LLMの性能は命令の微調整, ドメイン, 質問の複雑さに左右され, 相手のコンテキストに左右される傾向がある。

Previous studies have relied on existing question-answering benchmarks to evaluate the knowledge stored in large language models (LLMs). However, this approach has limitations regarding factual knowledge coverage, as it mostly focuses on generic domains which may overlap with the pretraining data. This paper proposes a framework to systematically assess the factual knowledge of LLMs by leveraging knowledge graphs (KGs). Our framework automatically generates a set of questions and expected answers from the facts stored in a given KG, and then evaluates the accuracy of LLMs in answering these questions. We systematically evaluate the state-of-the-art LLMs with KGs in generic and specific domains. The experiment shows that ChatGPT is consistently the top performer across all domains. We also find that LLMs performance depends on the instruction finetuning, domain and question complexity and is prone to adversarial context.
翻訳日:2023-10-19 18:19:07 公開日:2023-10-18
# MAGNIFICo:新しい解釈を一般化する大規模言語モデルの文脈内学習能力の評価

MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language Models to Generalize to Novel Interpretations ( http://arxiv.org/abs/2310.11634v1 )

ライセンス: Link先を確認
Arkil Patel, Satwik Bhattamishra, Siva Reddy, Dzmitry Bahdanau(参考訳) 人間は言語表現に新しい解釈を割り当て、新しい単語を学習し、コミュニティ固有の意味を理解することができる。 しかし、大きな言語モデル(llm)は知識のカットオフがあり、繰り返し微調整するのにコストがかかる。 したがって、LLMは文脈内で新しい解釈を学ぶことが不可欠である。 本稿では,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。 多様なトークンとプロンプト設定を組み込んだテキストからsqlへの意味解析フレームワークで実装された評価スイートで,実世界の複雑さをシミュレートする。 MAGNIFICo の実験結果から,LLM は自然言語記述や長期会話での議論から新たな解釈を解釈する上で,驚くほど堅牢な能力を示すことが示された。 それにもかかわらず、我々の研究は、特に不慣れな単語を解釈する場合や、同じ例で複数の新しい解釈を同時に作成する場合に、さらなる改善の必要性も強調している。 さらに,LLMのセマンティックな前置詞を解析し,長い文脈で提示された情報に対する遅延バイアスの影響を明らかにする。

Humans possess a remarkable ability to assign novel interpretations to linguistic expressions, enabling them to learn new words and understand community-specific connotations. However, Large Language Models (LLMs) have a knowledge cutoff and are costly to finetune repeatedly. Therefore, it is crucial for LLMs to learn novel interpretations in-context. In this paper, we systematically analyse the ability of LLMs to acquire novel interpretations using in-context learning. To facilitate our study, we introduce MAGNIFICo, an evaluation suite implemented within a text-to-SQL semantic parsing framework that incorporates diverse tokens and prompt settings to simulate real-world complexity. Experimental results on MAGNIFICo demonstrate that LLMs exhibit a surprisingly robust capacity for comprehending novel interpretations from natural language descriptions as well as from discussions within long conversations. Nevertheless, our findings also highlight the need for further improvements, particularly when interpreting unfamiliar words or when composing multiple novel interpretations simultaneously in the same example. Additionally, our analysis uncovers the semantic predispositions in LLMs and reveals the impact of recency bias for information presented in long contexts.
翻訳日:2023-10-19 18:18:51 公開日:2023-10-18
# サンプル効率の良いマルチタスクチューニングのためのプロトタイプベースハイパーアダプタ

Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning ( http://arxiv.org/abs/2310.11670v1 )

ライセンス: Link先を確認
Hao Zhao, Jie Fu, Zhaofeng He(参考訳) パラメータ効率のよい微調整(PEFT)は、少数のパラメータを更新するだけで、トレーニング済み言語モデルを下流タスクに適応させる効果を示した。 成功にもかかわらず、既存の手法のほとんどはタスク間の知識伝達を考慮せずに個別にタスクに適応し、低データ体制に限られる。 この問題を解決するために,アダプタチューニングとハイパーネットワークに基づく新しいフレームワークであるPrototype-based HyperAdapter (PHA)を提案する。 インスタンスデンスレトリバーとプロトタイプのハイパーネットワークを導入し、条件付きモジュールをサンプル効率のよい方法で生成する。 これにより、マルチタスク学習と少ない転送学習において、既存のpeftメソッドと同等のパフォーマンス改善がもたらされる。 さらに重要なことは、利用可能なデータサイズが小さくなると、我々のメソッドは大きなマージンで他の強力なベースラインを上回っます。 さまざまなデータセットにわたる広範な実証実験に基づいて、トレーニング可能なパラメータとストリームタスクの正確性、サンプル効率のトレードオフをPHAがよりよいものにすることを実証した。

Parameter-efficient fine-tuning (PEFT) has shown its effectiveness in adapting the pre-trained language models to downstream tasks while only updating a small number of parameters. Despite the success, most existing methods independently adapt to each task without considering knowledge transfer between tasks and are limited to low-data regimes. To overcome this issue, we propose Prototype-based HyperAdapter (PHA), a novel framework built on the adapter-tuning and hypernetwork. It introduces an instance-dense retriever and a prototypical hypernetwork to generate the conditional modules in a sample-efficient manner. This leads to comparable performance improvements against existing PEFT methods on multi-task learning and few-shot transfer learning. More importantly, when the available data size gets smaller, our method outperforms other strong baselines by a large margin. Based on our extensive empirical experiments across various datasets, we demonstrate that PHA strikes a better trade-off between trainable parameters, accuracy on stream tasks, and sample efficiency.
翻訳日:2023-10-19 18:10:35 公開日:2023-10-18
# sotopia: 言語エージェントにおけるソーシャルインテリジェンスの対話的評価

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents ( http://arxiv.org/abs/2310.11667v1 )

ライセンス: Link先を確認
Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, Maarten Sap(参考訳) 人間は社会的存在であり、社会知性の重要な側面である日々の交流において社会的な目標を追求する。 しかし、この領域におけるAIシステムの能力はいまだ解明されていない。 人工エージェント間の複雑な社会的相互作用をシミュレートし,その社会的知性を評価するオープンエンド環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために、協調し、協力し、交換し、互いに競い合う。 SOTOPIA-Eval と呼ばれる総合評価フレームワークを用いて,LLM ベースのエージェントと人間とのロールプレイの相互作用をシミュレートし,その性能を評価する。 SOTOPIAでは、これらのモデル間で社会的知性の観点から大きな違いが見られ、SOTOPIAのシナリオのサブセットであるSOTOPIA-hardを特定します。 このサブセットでは,GPT-4は人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。 これらの結果から,SOTOPIAは人工エージェントにおける社会的知能の評価・改善のための総合的なプラットフォームとしての存在が示唆された。

Humans are social beings; we pursue social goals in our daily interactions, which is a crucial aspect of social intelligence. Yet, AI systems' abilities in this realm remain elusive. We present SOTOPIA, an open-ended environment to simulate complex social interactions between artificial agents and evaluate their social intelligence. In our environment, agents role-play and interact under a wide variety of scenarios; they coordinate, collaborate, exchange, and compete with each other to achieve complex social goals. We simulate the role-play interaction between LLM-based agents and humans within this task space and evaluate their performance with a holistic evaluation framework called SOTOPIA-Eval. With SOTOPIA, we find significant differences between these models in terms of their social intelligence, and we identify a subset of SOTOPIA scenarios, SOTOPIA-hard, that is generally challenging for all models. We find that on this subset, GPT-4 achieves a significantly lower goal completion rate than humans and struggles to exhibit social commonsense reasoning and strategic communication skills. These findings demonstrate SOTOPIA's promise as a general platform for research on evaluating and improving social intelligence in artificial agents.
翻訳日:2023-10-19 18:10:03 公開日:2023-10-18
# hetero$^2$net:異種グラフを用いたヘテロフィアウェア表現学習

Hetero$^2$Net: Heterophily-aware Representation Learning on Heterogenerous Graphs ( http://arxiv.org/abs/2310.11664v1 )

ライセンス: Link先を確認
Jintang Li, Zheng Wei, Jiawang Dan, Jing Zhou, Yuchang Zhu, Ruofan Wu, Baokun Wang, Zhang Zhen, Changhua Meng, Hong Jin, Zibin Zheng, Liang Chen(参考訳) 実世界のグラフは概して複雑であり、大域的な構造に異質性を示し、また近隣では強い異質性を示す。 ヘテロジニアスグラフをヘテロジニアスグラフで扱う際の共通グラフニューラルネットワーク(GNN)の限界が増大する一方で、ヘテロジニアスグラフの文脈におけるヘテロジニアス特性の研究はほとんど行われていない。 この研究ギャップを埋めるために,メタパスを用いて異種グラフのヘテロフィリを同定し,ヘテロフィリのレベルを定量的に記述する2つの実用的な指標を提案する。 ヘテロフィリーのレベルが異なる実世界の異種グラフの詳細な調査を通じて、同種グラフ用に設計されたGNNから多くのメカニズムを継承するヘテロジニアスグラフニューラルネットワーク(HGNN)が、異種グラフや低次ホモフィリーのヘテロジニアスグラフへの一般化に失敗することを発見した。 この課題に対処するために,マスク付きメタパス予測とマスク付きラベル予測タスクを併用したヘテロフィックなHGNNであるHetero$^2$Netを提案し,同種グラフとヘテロフィリックなヘテロジニアスグラフの両方を効果的かつ柔軟に扱う。 我々は,ヘテロフィアレベルが異なる5つの実世界のヘテロフィアグラフベンチマークにおいて,ヘテロ$^2$netの性能を評価する。 その結果、Hetero$^2$Netは、半教師付きノード分類タスクにおいて強いベースラインを上回り、より複雑な異種グラフを効果的に扱うための貴重な洞察を与えている。

Real-world graphs are typically complex, exhibiting heterogeneity in the global structure, as well as strong heterophily within local neighborhoods. While a growing body of literature has revealed the limitations of common graph neural networks (GNNs) in handling homogeneous graphs with heterophily, little work has been conducted on investigating the heterophily properties in the context of heterogeneous graphs. To bridge this research gap, we identify the heterophily in heterogeneous graphs using metapaths and propose two practical metrics to quantitatively describe the levels of heterophily. Through in-depth investigations on several real-world heterogeneous graphs exhibiting varying levels of heterophily, we have observed that heterogeneous graph neural networks (HGNNs), which inherit many mechanisms from GNNs designed for homogeneous graphs, fail to generalize to heterogeneous graphs with heterophily or low level of homophily. To address the challenge, we present Hetero$^2$Net, a heterophily-aware HGNN that incorporates both masked metapath prediction and masked label prediction tasks to effectively and flexibly handle both homophilic and heterophilic heterogeneous graphs. We evaluate the performance of Hetero$^2$Net on five real-world heterogeneous graph benchmarks with varying levels of heterophily. The results demonstrate that Hetero$^2$Net outperforms strong baselines in the semi-supervised node classification task, providing valuable insights into effectively handling more complex heterogeneous graphs.
翻訳日:2023-10-19 18:09:25 公開日:2023-10-18
# 人工知能を用いたフィールドテスト項目:トランスフォーマーを用いた自然言語処理

Field-testing items using artificial intelligence: Natural language processing with transformers ( http://arxiv.org/abs/2310.11655v1 )

ライセンス: Link先を確認
Hotaka Maeda(参考訳) テキスト言語を理解できる人工知能の「トランスフォーマー」であるRoBERTaモデルの5万種類が、29の質問で英語の識字試験を完了した。 データは項目の心理測定特性を計算し、ヒトの検査データから得られたものとある程度の一致を示した。

Five thousand variations of the RoBERTa model, an artificially intelligent "transformer" that can understand text language, completed an English literacy exam with 29 multiple-choice questions. Data were used to calculate the psychometric properties of the items, which showed some degree of agreement to those obtained from human examinee data.
翻訳日:2023-10-19 18:08:40 公開日:2023-10-18
# 被写体特異的深層ニューラルネットワークによる高心性カテゴリー別カウントデータ

Subject-specific Deep Neural Networks for Count Data with High-cardinality Categorical Features ( http://arxiv.org/abs/2310.11654v1 )

ライセンス: Link先を確認
Hangbin Lee, Il Do Ha, Changha Hwang, Youngjo Lee(参考訳) 現実世界のデータはしばしば相関関係を示しており、従来のdnnフレームワークでは見過ごされてきたため、ディープニューラルネットワーク(dnn)を用いた主題固有の予測への関心が高まっている。 本稿では,ポアソンDNNにガンマランダム効果を導入するための新しい階層的確率学習フレームワークを提案する。 提案手法は, 1つの目的関数を最適化することにより, パラメータの最大推定とランダム効果の最適非バイアス予測を同時に行う。 このアプローチにより、クラスタ化されたカウントデータを扱うための高速なエンドツーエンドアルゴリズムが実現される。 さらに、最先端のネットワークアーキテクチャは、提案されているh-likelihoodフレームワークに容易に実装できる。 例えば,マルチヘッドアテンション層とスパースマックス関数を導入し,高次元設定における特徴選択を可能にする。 実用性能と学習効率を向上させるため,ランダムパラメータの予測のための調整手順と,分散成分の事前学習のためのモーメント推定器を提案する。 各種実験研究と実データ解析により,提案手法の利点が確認できた。

There is a growing interest in subject-specific predictions using deep neural networks (DNNs) because real-world data often exhibit correlations, which has been typically overlooked in traditional DNN frameworks. In this paper, we propose a novel hierarchical likelihood learning framework for introducing gamma random effects into the Poisson DNN, so as to improve the prediction performance by capturing both nonlinear effects of input variables and subject-specific cluster effects. The proposed method simultaneously yields maximum likelihood estimators for fixed parameters and best unbiased predictors for random effects by optimizing a single objective function. This approach enables a fast end-to-end algorithm for handling clustered count data, which often involve high-cardinality categorical features. Furthermore, state-of-the-art network architectures can be easily implemented into the proposed h-likelihood framework. As an example, we introduce multi-head attention layer and a sparsemax function, which allows feature selection in high-dimensional settings. To enhance practical performance and learning efficiency, we present an adjustment procedure for prediction of random parameters and a method-of-moments estimator for pretraining of variance component. Various experiential studies and real data analyses confirm the advantages of our proposed methods.
翻訳日:2023-10-19 18:08:16 公開日:2023-10-18
# 量子研究:量子力学と熱力学の調和

Quantum work: reconciling quantum mechanics and thermodynamics ( http://arxiv.org/abs/2310.11653v1 )

ライセンス: Link先を確認
Thales Augusto Barbosa Pinto Silva and David Gelbwaser-Klimovsky(参考訳) 量子力学、熱力学、古典的極限との整合性に疑問を呈し、量子力学を測るプロトコルが標準的な物理原理を満足できないと最近主張されている。 この手紙では、この非互換性に対する解決策を提示する。 これらの原理の標準定式化が古典的極限に適切に対応できないことを示す。 この方向の変化を提案することによって、仕事が量子観測可能と定義され、量子作業統計と熱力学とを調和させることで、すべての本質的な原理が満たされることを証明する。

It has been recently claimed that no protocol for measuring quantum work can satisfy standard required physical principles, casting doubts on the compatibility between quantum mechanics, thermodynamics, and the classical limit. In this Letter, we present a solution for this incompatibility. We demonstrate that the standard formulation of these principles fails to address the classical limit properly. By proposing changes in this direction, we prove that all the essential principles can be satisfied when work is defined as a quantum observable, reconciling quantum work statistics and thermodynamics.
翻訳日:2023-10-19 18:07:57 公開日:2023-10-18
# 基礎言語モデルを用いたテキスト要約のためのゼロショット忠実度評価

Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model ( http://arxiv.org/abs/2310.11648v1 )

ライセンス: Link先を確認
Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu(参考訳) 自然言語生成の大幅な改善にもかかわらず、要約モデルは未だに不満足な問題に苦しんでいる。 これまでの研究は、他のタスクでトレーニングされたモデルやドメイン内の合成データを使ったり、ChatGPTのような大規模なモデルに刺激を与えたりした。 本稿では,適度な基礎言語モデルを用いて,単純にゼロショット忠実性評価を行うことを提案する。 出力に整合したテキストをプレフィックスすることで、出力を予測する確率を増大させるという直感に基づいて、確率変化の組合せである新しい計量FFLMを導入する。 実験の結果、fflmは24倍のパラメータで非一貫性検出と忠実性評価の両方において、chatgptと競合するか、あるいは上回るパフォーマンスを示している。 FFLMは他の強力なベースラインよりも改善されている。

Despite tremendous improvements in natural language generation, summarization models still suffer from the unfaithfulness issue. Previous work evaluates faithfulness either using models trained on the other tasks or in-domain synthetic data, or prompting a large model such as ChatGPT. This paper proposes to do zero-shot faithfulness evaluation simply with a moderately-sized foundation language model. We introduce a new metric FFLM, which is a combination of probability changes based on the intuition that prefixing a piece of text that is consistent with the output will increase the probability of predicting the output. Experiments show that FFLM performs competitively with or even outperforms ChatGPT on both inconsistency detection and faithfulness rating with 24x fewer parameters. FFLM also achieves improvements over other strong baselines.
翻訳日:2023-10-19 18:07:46 公開日:2023-10-18
# nerfsを用いた腹腔鏡下手術ビデオからの腹部3次元映像レンダリング

Towards Abdominal 3-D Scene Rendering from Laparoscopy Surgical Videos using NeRFs ( http://arxiv.org/abs/2310.11645v1 )

ライセンス: Link先を確認
Khoa Tuan Nguyen, Francesca Tozzi, Nikdokht Rashidian, Wouter Willaert, Joris Vankerschaver, and Wesley De Neve(参考訳) 従来の腹腔鏡が2次元 (2-d) ビューのみを提供するため, 疾患の検出と診断は困難である。 腹腔鏡に関連する視覚制約を克服するため,腹腔鏡下画像とビデオを用いて腹部の3次元解剖学的構造を再構築することは有望なアプローチであることが証明されている。 ニューラル・ラジアンス・フィールド(NeRF)は3次元静的なシーンからフォトリアリスティックな画像を生成する能力により近年注目を集めており、新しいビューの合成を通じて腹部のより包括的な探索を容易にする。 これにより、NeRFは、SLAM(Symtaneous Localization and Mapping)や深さ推定といった代替手法と区別される。 本稿では,腹腔鏡下手術映像におけるNeRFの包括的検討を行い,腹部シーンを3Dでレンダリングすることを目的とした。 実験結果は有望だが,提案手法は今後の研究においてさらなる探索を必要とする重大な課題に直面する。

Given that a conventional laparoscope only provides a two-dimensional (2-D) view, the detection and diagnosis of medical ailments can be challenging. To overcome the visual constraints associated with laparoscopy, the use of laparoscopic images and videos to reconstruct the three-dimensional (3-D) anatomical structure of the abdomen has proven to be a promising approach. Neural Radiance Fields (NeRFs) have recently gained attention thanks to their ability to generate photorealistic images from a 3-D static scene, thus facilitating a more comprehensive exploration of the abdomen through the synthesis of new views. This distinguishes NeRFs from alternative methods such as Simultaneous Localization and Mapping (SLAM) and depth estimation. In this paper, we present a comprehensive examination of NeRFs in the context of laparoscopy surgical videos, with the goal of rendering abdominal scenes in 3-D. Although our experimental results are promising, the proposed approach encounters substantial challenges, which require further exploration in future research.
翻訳日:2023-10-19 18:07:34 公開日:2023-10-18
# オピニオン・チェンジまたはディファレンシャル・ターンアウト:予算フィードバックプロセスにおけるオースチン警察署の意見変更

Opinion Change or Differential Turnout: Changing Opinions on the Austin Police Department in a Budget Feedback Process ( http://arxiv.org/abs/2310.11643v1 )

ライセンス: Link先を確認
Lodewijk L. Gelauff and Ashish Goel(参考訳) 2020年、警察当局の手によるジョージ・フロイドの悲劇的な殺人は全国的な抗議活動に火をつけ、警察の資金提供と割り当ての変更を要求した。 テキサス州オースチンの住民が、当社のチームが設計したオンラインプラットフォーム上で、警察を含むさまざまな都市サービスエリアの予算について意見を交わすために招待された。 毎日の反応は100倍増加し、警察資金の削減を圧倒的に主張した「外因性ショック」の後に登録された。 この意見の転換は、我々の参加予算プラットフォーム上での他の14回の与党予算選挙よりもはるかに上回っており、反応人口の変動によって説明できない。 2021年のオースチン予算のフィードバック活動の結果の分析とその後の調査の結果から、2020年からの意見シフトは継続しており、警察の予算拡大に対する意見格差が続いていることが示されている。 我々は警察の資金提供に関する意見が実際に変わったと結論づけた。 本研究は,2020年のイベントや抗議活動が世論に持続する影響を浮き彫りにするだけでなく,調査主催者の評価ツールキットとして,団結した意見の分析の価値を示すものである。

In 2020 the tragic murder of George Floyd at the hands of law enforcement ignited and intensified nationwide protests, demanding changes in police funding and allocation. This happened during a budgeting feedback exercise where residents of Austin, Texas were invited to share opinions on the budgets of various city service areas, including the Police Department, on an online platform designed by our team. Daily responses increased by a hundredfold and responses registered after the "exogenous shock" overwhelmingly advocated for reducing police funding. This opinion shift far exceeded what we observed in 14 other Participatory Budgeting elections on our Participatory Budgeting Platform, and can't be explained by shifts in the respondent demographics. Analysis of the results from an Austin budgetary feedback exercise in 2021 and a follow-up survey indicates that the opinion shift from 2020 persisted, with the opinion gap on police funding widening. We conclude that there was an actual change of opinion regarding police funding. This study not only sheds light on the enduring impact of the 2020 events and protests on public opinion, but also showcases the value of analysis of clustered opinions as a tool in the evaluation toolkit of survey organizers.
翻訳日:2023-10-19 18:07:15 公開日:2023-10-18
# MOHO:マルチビューオクルージョン・アウェア・スーパービジョンを用いたシングルビューハンドヘルドオブジェクト再構成学習

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision ( http://arxiv.org/abs/2310.11696v1 )

ライセンス: Link先を確認
Chenyangguang Zhang, Guanlong Jiao, Yan Di, Ziqin Huang, Gu Wang, Ruida Zhang, Bowen Fu, Federico Tombari and Xiangyang Ji(参考訳) シングルビューハンドヘルドオブジェクト再構築に関するこれまでの研究は、現実世界では収集が難しい3D地上真理モデルからの監督を利用するのが一般的である。 対照的に、手と物体の相互作用を描いた豊富なビデオは低コストで簡単にアクセスできるが、それらは複雑な咬合を伴う部分的なオブジェクト観察しか与えない。 本稿では,対象物の自己排他性,手による閉塞性といった2つの課題に取り組むとともに,対象ビデオから多視点の監視を施した単一画像から手持ち物体を再構成するmohoを提案する。 MOHOは、目に見える対象部分を示す意味的特徴と、手話によって提供される幾何学的埋め込みを、オブジェクトの完全な形状を回復するために、オブジェクトの自己閉塞に抵抗する部分対フルキューとして入力する。 一方, 合成から現実へのパラダイムに従って, 新たな2d-3dハンドオクルージョン・アウェアトレーニング方式が提案されている。 合成前訓練段階において、mohoとレンダリング画像とを監督することにより、2d及び3d空間におけるオブジェクトのハンドコンセラル領域を完結させる2d−3dハンドオブジェクト相関を構築する。 その後、プリトレーニング中に得られた手オブジェクト相関を応用したマスク重み付きボリュームレンダリング監視により、実世界でMOHOを微調整する。 HO3D と DexYCB データセットの大規模な実験により、2D 教師付き MOHO が 3D 教師付き手法に対して大きなマージンで優れた結果を得ることが示された。 コードと主要な資産はまもなくリリースされる。

Previous works concerning single-view hand-held object reconstruction typically utilize supervision from 3D ground truth models, which are hard to collect in real world. In contrast, abundant videos depicting hand-object interactions can be accessed easily with low cost, although they only give partial object observations with complex occlusion. In this paper, we present MOHO to reconstruct hand-held object from a single image with multi-view supervision from hand-object videos, tackling two predominant challenges including object's self-occlusion and hand-induced occlusion. MOHO inputs semantic features indicating visible object parts and geometric embeddings provided by hand articulations as partial-to-full cues to resist object's self-occlusion, so as to recover full shape of the object. Meanwhile, a novel 2D-3D hand-occlusion-aware training scheme following the synthetic-to-real paradigm is proposed to release hand-induced occlusion. In the synthetic pre-training stage, 2D-3D hand-object correlations are constructed by supervising MOHO with rendered images to complete the hand-concealed regions of the object in both 2D and 3D space. Subsequently, MOHO is finetuned in real world by the mask-weighted volume rendering supervision adopting hand-object correlations obtained during pre-training. Extensive experiments on HO3D and DexYCB datasets demonstrate that 2D-supervised MOHO gains superior results against 3D-supervised methods by a large margin. Codes and key assets will be released soon.
翻訳日:2023-10-19 17:58:15 公開日:2023-10-18
# LLMにおける選択予測改善のための自己評価による適応

Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs ( http://arxiv.org/abs/2310.11689v1 )

ライセンス: Link先を確認
Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas Pfister, Somesh Jha(参考訳) 大規模言語モデル(LLM)は近年,自然言語理解や生成など,さまざまなタスクにおいて大きな進歩を見せている。 しかし、高い意思決定シナリオでの使用は、エラーの可能性があるため、依然として制限されている。 選択予測(Selective prediction)とは、LLMの信頼性を向上させるために、答えが不確実な場合には予測を控えることによって使用できる手法である。 本研究では, LLMの選択的予測性能を向上させるために, 自己評価による適応のための新しいフレームワークを提案する。 本フレームワークは,自己評価能力の向上を図りながら,パラメータ効率のチューニングを用いて,特定のタスクにLLMを適用するという考え方に基づいている。 提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択予測手法よりも優れていることを示す。 例えば、CoQAベンチマークでは、AUACCを91.23%から92.63%に改善し、AUROCを74.61%から80.25%に改善した。

Large language models (LLMs) have recently shown great advances in a variety of tasks, including natural language understanding and generation. However, their use in high-stakes decision-making scenarios is still limited due to the potential for errors. Selective prediction is a technique that can be used to improve the reliability of the LLMs by allowing them to abstain from making predictions when they are unsure of the answer. In this work, we propose a novel framework for adaptation with self-evaluation to improve the selective prediction performance of LLMs. Our framework is based on the idea of using parameter-efficient tuning to adapt the LLM to the specific task at hand while improving its ability to perform self-evaluation. We evaluate our method on a variety of question-answering (QA) datasets and show that it outperforms state-of-the-art selective prediction methods. For example, on the CoQA benchmark, our method improves the AUACC from 91.23% to 92.63% and improves the AUROC from 74.61% to 80.25%.
翻訳日:2023-10-19 17:57:48 公開日:2023-10-18
# softmaxの優位性:線形注意によるパフォーマンスエッジの顕在化

Superiority of Softmax: Unveiling the Performance Edge Over Linear Attention ( http://arxiv.org/abs/2310.11685v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Tianyi Zhou(参考訳) 大規模なトランスフォーマーモデルは、多くの自然言語処理タスクで最先端の成果を達成している。 トランスアーキテクチャの重要な構成要素のうち、アテンション機構はソフトマックス関数の利用を通じてシーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。 逆に、線形注意は、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。 しかし,従来のソフトマックスアテンション機構に比べて性能が著しく低下する。 本稿では,ソフトマックスと線形注意の実用的性能差の背後にある理由に関する理論的理解のギャップを橋渡しする。 これら2つの注意機構の包括的比較分析を行い,ソフトマックス注意がリニア注意よりも優れている理由について考察した。

Large transformer models have achieved state-of-the-art results in numerous natural language processing tasks. Among the pivotal components of the transformer architecture, the attention mechanism plays a crucial role in capturing token interactions within sequences through the utilization of softmax function. Conversely, linear attention presents a more computationally efficient alternative by approximating the softmax operation with linear complexity. However, it exhibits substantial performance degradation when compared to the traditional softmax attention mechanism. In this paper, we bridge the gap in our theoretical understanding of the reasons behind the practical performance gap between softmax and linear attention. By conducting a comprehensive comparative analysis of these two attention mechanisms, we shed light on the underlying reasons for why softmax attention outperforms linear attention in most scenarios.
翻訳日:2023-10-19 17:57:31 公開日:2023-10-18
# Infinite Horizon Average-Reward Reinforcement Learningの量子加速

Quantum Acceleration of Infinite Horizon Average-Reward Reinforcement Learning ( http://arxiv.org/abs/2310.11684v1 )

ライセンス: Link先を確認
Bhargav Ganguly and Vaneet Aggarwal(参考訳) 本稿では,無限大地平線マルコフ決定過程(mdps)の解法における量子加速度のポテンシャルについて検討する。 我々は、エージェントが未知のMDPと関わり合うための革新的な量子フレームワークを導入し、従来の相互作用パラダイムを拡張した。 提案手法は,効率的な量子平均推定手法を用いて,エージェントが取得した量子信号を利用する楽観性駆動型表型強化学習アルゴリズムの設計を含む。 徹底的な理論解析を通じて,平均推定における量子優位は無限遠地平線強化学習における後悔保証の指数関数的発展をもたらすことを実証する。 具体的には、提案したQuantumアルゴリズムは、古典的対象によって示される$\tilde{\mathcal{O}}(1)$に対する大きな改善である$\tilde{\mathcal{O}}(1)$の後悔境界を達成する。

This paper investigates the potential of quantum acceleration in addressing infinite horizon Markov Decision Processes (MDPs) to enhance average reward outcomes. We introduce an innovative quantum framework for the agent's engagement with an unknown MDP, extending the conventional interaction paradigm. Our approach involves the design of an optimism-driven tabular Reinforcement Learning algorithm that harnesses quantum signals acquired by the agent through efficient quantum mean estimation techniques. Through thorough theoretical analysis, we demonstrate that the quantum advantage in mean estimation leads to exponential advancements in regret guarantees for infinite horizon Reinforcement Learning. Specifically, the proposed Quantum algorithm achieves a regret bound of $\tilde{\mathcal{O}}(1)$, a significant improvement over the $\tilde{\mathcal{O}}(\sqrt{T})$ bound exhibited by classical counterparts.
翻訳日:2023-10-19 17:57:20 公開日:2023-10-18
# 医学領域における記述的知識グラフ

Descriptive Knowledge Graph in Biomedical Domain ( http://arxiv.org/abs/2310.11681v1 )

ライセンス: Link先を確認
Kerui Zhu, Jie Huang, Kevin Chen-Chuan Chang(参考訳) 本稿では,バイオメディカルコーパスから情報文や記述文を自動的に抽出・生成し,関係知識を効率的に検索するシステムを提案する。 非連結の通路を検索する以前の検索エンジンや探索システムとは異なり、システムは記述文を関係グラフとして整理し、研究者が密接に関連する生物医学的実体(例えば、化学物質によって治療された疾患)や間接的に結合した実体(例えば、病気を治療するための潜在的な薬物)を探索することができる。 また、検索情報から簡潔で信頼性の高い記述文を生成するために、chatgptと微調整された関係合成モデルを用いる。 本システムでは,高水準の知識と詳細な参照の双方を容易に取得し,興味のある情報を対話的に操ることができる。 我々は,このシステムを新型コロナウイルス研究に応用し,薬剤の補充や文献のキュレーションなどの分野における有用性を示す。

We present a novel system that automatically extracts and generates informative and descriptive sentences from the biomedical corpus and facilitates the efficient search for relational knowledge. Unlike previous search engines or exploration systems that retrieve unconnected passages, our system organizes descriptive sentences as a relational graph, enabling researchers to explore closely related biomedical entities (e.g., diseases treated by a chemical) or indirectly connected entities (e.g., potential drugs for treating a disease). Our system also uses ChatGPT and a fine-tuned relation synthesis model to generate concise and reliable descriptive sentences from retrieved information, reducing the need for extensive human reading effort. With our system, researchers can easily obtain both high-level knowledge and detailed references and interactively steer to the information of interest. We spotlight the application of our system in COVID-19 research, illustrating its utility in areas such as drug repurposing and literature curation.
翻訳日:2023-10-19 17:57:02 公開日:2023-10-18
# 経験分類を用いた非マルコフ課題の訓練

Using Experience Classification for Training Non-Markovian Tasks ( http://arxiv.org/abs/2310.11678v1 )

ライセンス: Link先を確認
Ruixuan Miao, Xu Lu, Cong Tian, Bin Yu, Zhenhua Duan(参考訳) 標準強化学習(rl)モデルとは異なり、多くの実世界のタスクは非マルコフ型であり、その報酬は現在の状態のみではなく、状態履歴に述語される。 自動運転、金融取引、医療診断といった実用的な用途にしばしば適用される非マルコフ的課題を解決することは、非常に困難である。 時間論理 LTL$_f$ (Linear Temporal Logic over Finite Traces) で表される非マルコフ報酬を実現するための新しいRL手法を提案する。 この目的のために、LTL$_f$ から MDP (Markov Decision Processes) への線形複雑性の符号化を導入し、高度な RL アルゴリズムを活用する。 次に、オートマトン構造(LTL$_f$仕様に相当する意味)に基づく優先体験再生技術を用いて、トレーニングプロセスを改善する。 我々は,非マルコフ的タスクを付加したいくつかのベンチマーク問題を実証的に評価し,本手法の有効性と有効性を示す。

Unlike the standard Reinforcement Learning (RL) model, many real-world tasks are non-Markovian, whose rewards are predicated on state history rather than solely on the current state. Solving a non-Markovian task, frequently applied in practical applications such as autonomous driving, financial trading, and medical diagnosis, can be quite challenging. We propose a novel RL approach to achieve non-Markovian rewards expressed in temporal logic LTL$_f$ (Linear Temporal Logic over Finite Traces). To this end, an encoding of linear complexity from LTL$_f$ into MDPs (Markov Decision Processes) is introduced to take advantage of advanced RL algorithms. Then, a prioritized experience replay technique based on the automata structure (semantics equivalent to LTL$_f$ specification) is utilized to improve the training process. We empirically evaluate several benchmark problems augmented with non-Markovian tasks to demonstrate the feasibility and effectiveness of our approach.
翻訳日:2023-10-19 17:56:44 公開日:2023-10-18
# Infinite Horizon Discounted Reward Markov Decision Processs の一般パラメータ化による自然ポリシー勾配アルゴリズムのサンプル複素性解析の改善

Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision Processes ( http://arxiv.org/abs/2310.11677v1 )

ライセンス: Link先を確認
Washim Uddin Mondal and Vaneet Aggarwal(参考訳) 無限遠地平線割引報酬マルコフ決定プロセスのためのサンプル効率的な学習アルゴリズムの設計の問題を考える。 具体的には, 高速化確率勾配勾配法を用いて自然政策勾配を求める高速化自然政策勾配(ANPG)アルゴリズムを提案する。 anpgは$\mathcal{o}({\epsilon^{-2}})$サンプル複雑性と$\mathcal{o}(\epsilon^{-1})$イテレーション複雑性を達成し、$\epsilon$は最適性エラーを定義する。 これは$\log(\frac{1}{\epsilon})$ factorによって最先端のサンプルの複雑さを改善する。 ANPGは1次アルゴリズムであり、既存の文献とは異なり、重要サンプリング(IS)重みの分散が上限となるという検証不可能な仮定を必要としない。 Hessian-free アルゴリズムと IS-free アルゴリズムのクラスでは、ANPG は $\mathcal{O}(\epsilon^{-\frac{1}{2}})$ の係数で最もよく知られたサンプル複雑性を破り、同時に彼らの最先端の反復複雑性と一致する。

We consider the problem of designing sample efficient learning algorithms for infinite horizon discounted reward Markov Decision Process. Specifically, we propose the Accelerated Natural Policy Gradient (ANPG) algorithm that utilizes an accelerated stochastic gradient descent process to obtain the natural policy gradient. ANPG achieves $\mathcal{O}({\epsilon^{-2}})$ sample complexity and $\mathcal{O}(\epsilon^{-1})$ iteration complexity with general parameterization where $\epsilon$ defines the optimality error. This improves the state-of-the-art sample complexity by a $\log(\frac{1}{\epsilon})$ factor. ANPG is a first-order algorithm and unlike some existing literature, does not require the unverifiable assumption that the variance of importance sampling (IS) weights is upper bounded. In the class of Hessian-free and IS-free algorithms, ANPG beats the best-known sample complexity by a factor of $\mathcal{O}(\epsilon^{-\frac{1}{2}})$ and simultaneously matches their state-of-the-art iteration complexity.
翻訳日:2023-10-19 17:56:29 公開日:2023-10-18
# PreM:ノードレベルグラフ異常検出のためのシンプルで効果的なアプローチ

PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection ( http://arxiv.org/abs/2310.11676v1 )

ライセンス: Link先を確認
Junjun Pan, Yixin Liu, Yizhen Zheng, Shirui Pan(参考訳) ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなど、さまざまな領域におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。 しかし、異常の多様性とラベル付きデータの変形により、問題が発生している。 既存の方法論に基づくコントラスト学習 - 効率的ではあるが、しばしば効率上の問題に悩まされ、複雑な目的や精巧なモジュールから生じる。 本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。 我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減する。 プリプロセッシングモジュールとego-neighborマッチングモジュールの2つのモジュールで構成されるpremは、トレーニング中にメッセージパッシング伝搬の必要性をなくし、単純なコントラスト損失を採用し、トレーニング時間とメモリ使用量を大幅に削減する。 さらに,5つの実世界のデータセットの厳密な評価により,ロバスト性と有効性を示した。 特に、ACMデータセットで検証された場合、PremMはAUCの5%の改善、トレーニング速度の9倍向上、最も効率的なベースラインと比較してメモリ使用量を大幅に削減した。

Node-level graph anomaly detection (GAD) plays a critical role in identifying anomalous nodes from graph-structured data in various domains such as medicine, social networks, and e-commerce. However, challenges have arisen due to the diversity of anomalies and the dearth of labeled data. Existing methodologies - reconstruction-based and contrastive learning - while effective, often suffer from efficiency issues, stemming from their complex objectives and elaborate modules. To improve the efficiency of GAD, we introduce a simple method termed PREprocessing and Matching (PREM for short). Our approach streamlines GAD, reducing time and memory consumption while maintaining powerful anomaly detection capabilities. Comprising two modules - a pre-processing module and an ego-neighbor matching module - PREM eliminates the necessity for message-passing propagation during training, and employs a simple contrastive loss, leading to considerable reductions in training time and memory usage. Moreover, through rigorous evaluations of five real-world datasets, our method demonstrated robustness and effectiveness. Notably, when validated on the ACM dataset, PREM achieved a 5% improvement in AUC, a 9-fold increase in training speed, and sharply reduce memory usage compared to the most efficient baseline.
翻訳日:2023-10-19 17:56:06 公開日:2023-10-18
# 非制限回答スコープによるオープンエンドコモンセンス推論

Open-ended Commonsense Reasoning with Unrestricted Answer Scope ( http://arxiv.org/abs/2310.11672v1 )

ライセンス: Link先を確認
Chen Ling, Xuchao Zhang, Xujiang Zhao, Yanchi Liu, Wei Cheng, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao(参考訳) Open-ended Commonsense Reasoningは、提供せずにCommonsenseの問題を解決するものとして定義される 1) 回答候補の短いリスト及び 2) 予め定義された回答範囲。 従来の質問文を質問文形式に定式化したり、外部知識を利用して検索手法を学習する方法は、固有の課題のため、オープンエンド環境では適用できない。 答えの範囲やいくつかの候補を事前に定義せずに、オープンエンドのコモンセンス推論は、非常に大きな検索空間を探索することによって回答を予測する。 さらに、ほとんどの質問は暗黙のマルチホップ推論を必要とし、これは我々の問題にさらに多くの課題をもたらす。 本研究では、事前学習した言語モデルを用いて、タスク固有の監督を必要としない外部知識ベース上の推論経路を反復的に取得する。 推論パスは、常識的な質問に対する最も正確な答えを特定するのに役立つ。 2つのCommonsenseベンチマークデータセットで実験を行う。 他の手法と比較して,提案手法は量的,質的にも良好な性能を実現する。

Open-ended Commonsense Reasoning is defined as solving a commonsense question without providing 1) a short list of answer candidates and 2) a pre-defined answer scope. Conventional ways of formulating the commonsense question into a question-answering form or utilizing external knowledge to learn retrieval-based methods are less applicable in the open-ended setting due to an inherent challenge. Without pre-defining an answer scope or a few candidates, open-ended commonsense reasoning entails predicting answers by searching over an extremely large searching space. Moreover, most questions require implicit multi-hop reasoning, which presents even more challenges to our problem. In this work, we leverage pre-trained language models to iteratively retrieve reasoning paths on the external knowledge base, which does not require task-specific supervision. The reasoning paths can help to identify the most precise answer to the commonsense question. We conduct experiments on two commonsense benchmark datasets. Compared to other approaches, our proposed method achieves better performance both quantitatively and qualitatively.
翻訳日:2023-10-19 17:55:41 公開日:2023-10-18
# MixEdit: 文法的エラー訂正のためのデータ拡張の再検討

MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error Correction ( http://arxiv.org/abs/2310.11671v1 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Yangning Li, Hai-Tao Zheng(参考訳) 擬似データの生成によるデータ拡張は,文法的誤り訂正(GEC)分野におけるデータ不足の軽減に有効であることが証明されている。 様々な拡張戦略が広く研究され、そのほとんどは2つのヒューリスティック、すなわち擬似データの分布類似性と多様性の増大によって動機付けられている。 しかし、これらの戦略の有効性に責任を負うメカニズムはいまだに理解されていない。 本稿では,データ拡張がGECモデルをどのように改善するかを明らかにすることを目的とする。 そこで本研究では,親和性と多様性という2つの解釈可能かつ計算効率の高い尺度を提案する。 以上の結果から,高い親和性と適切な多様性を特徴とする優れたGECデータ拡張戦略が,GECモデルの性能向上に寄与することが示唆された。 そこで本研究では,単言語コーパスを余分に必要とせずに,リアルデータを戦略的かつ動的に拡張するデータ拡張手法であるmixeditを提案する。 提案したMixEditの正しさと有効性を検証するため,本研究では,主流の英語と中国語のGECデータセットを用いて実験を行った。 その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。

Data Augmentation through generating pseudo data has been proven effective in mitigating the challenge of data scarcity in the field of Grammatical Error Correction (GEC). Various augmentation strategies have been widely explored, most of which are motivated by two heuristics, i.e., increasing the distribution similarity and diversity of pseudo data. However, the underlying mechanism responsible for the effectiveness of these strategies remains poorly understood. In this paper, we aim to clarify how data augmentation improves GEC models. To this end, we introduce two interpretable and computationally efficient measures: Affinity and Diversity. Our findings indicate that an excellent GEC data augmentation strategy characterized by high Affinity and appropriate Diversity can better improve the performance of GEC models. Based on this observation, we propose MixEdit, a data augmentation approach that strategically and dynamically augments realistic data, without requiring extra monolingual corpora. To verify the correctness of our findings and the effectiveness of the proposed MixEdit, we conduct experiments on mainstream English and Chinese GEC datasets. The results show that MixEdit substantially improves GEC models and is complementary to traditional data augmentation methods.
翻訳日:2023-10-19 17:55:26 公開日:2023-10-18
# Chain-of-Thought Tuning: Masked Language Modelsは自然言語理解のステップバイステップで考えることもできる

Chain-of-Thought Tuning: Masked Language Models can also Think Step By Step in Natural Language Understanding ( http://arxiv.org/abs/2310.11721v1 )

ライセンス: Link先を確認
Caoyun Fan, Jidong Tian, Yitian Li, Wenqing Chen, Hao He, Yaohui Jin(参考訳) CoT(Chain-of-Thought)は、Large Language Models (LLM) を誘導し、複雑なタスクを自然言語形式の中間ステップを通じて多段階の推論に分解する技法である。 簡単に言うと、CoTはLLMをステップバイステップで考えることを可能にする。 しかし、多くの自然言語理解(NLU)タスクもステップバイステップで考える必要があるが、LLMは小規模のマスケッド言語モデル(MLM)よりも性能が低い。 LLM から MLM へ CoT を移行させるため,NLU タスク上での MLM のステップバイステップ思考を実現するために,プロンプトチューニングに基づく2段階推論フレームワークである Chain-of-Thought Tuning (CoTT) を提案する。 CoTの観点からは、CoTTの2段階フレームワークは、MLMがタスク分解を実装することを可能にする。 これにより、COT の成功は MLM を通して NLU タスクに拡張できる。 CoTTの有効性を検証するために、階層分類と関係抽出という2つのNLUタスクの実験を行い、その結果、CoTTがベースラインを上回り、最先端の性能を達成することを示す。

Chain-of-Thought (CoT) is a technique that guides Large Language Models (LLMs) to decompose complex tasks into multi-step reasoning through intermediate steps in natural language form. Briefly, CoT enables LLMs to think step by step. However, although many Natural Language Understanding (NLU) tasks also require thinking step by step, LLMs perform less well than small-scale Masked Language Models (MLMs). To migrate CoT from LLMs to MLMs, we propose Chain-of-Thought Tuning (CoTT), a two-step reasoning framework based on prompt tuning, to implement step-by-step thinking for MLMs on NLU tasks. From the perspective of CoT, CoTT's two-step framework enables MLMs to implement task decomposition; CoTT's prompt tuning allows intermediate steps to be used in natural language form. Thereby, the success of CoT can be extended to NLU tasks through MLMs. To verify the effectiveness of CoTT, we conduct experiments on two NLU tasks: hierarchical classification and relation extraction, and the results show that CoTT outperforms baselines and achieves state-of-the-art performance.
翻訳日:2023-10-19 17:49:32 公開日:2023-10-18
# リフレクションチューニング: LLMインストラクションチューニングを改善するデータリサイクル

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning ( http://arxiv.org/abs/2310.11716v1 )

ライセンス: Link先を確認
Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Heng Huang, Jiuxiang Gu, Tianyi Zhou(参考訳) 大規模言語モデル(llm)の最近の進歩は、自然言語理解と生成の地平を広げた。 特に、LLMの入力に対する出力制御とアライメントは、命令チューニングによって洗練することができる。 しかしながら、いくつかの研究で強調されているように、トレーニングセットの低品質データは通常、命令チューニングに不利であり、結果としてllm出力の一貫性や誤解を招く。 本稿では,LLMの自己改善と判断能力によって問題に対処する,リフレクションチューニングと呼ばれる新しい手法を提案する。 このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。 広く使われている評価ベンチマークに関する広範囲な実験は、再生データで訓練されたllmが、様々なベンチマークで既存のデータセットで訓練されたものよりも優れていることを示している。

Recent advancements in Large Language Models (LLMs) have expanded the horizons of natural language understanding and generation. Notably, the output control and alignment with the input of LLMs can be refined through instruction tuning. However, as highlighted in several studies, low-quality data in the training set are usually detrimental to instruction tuning, resulting in inconsistent or even misleading LLM outputs. We propose a novel method, termed "reflection-tuning," which addresses the problem by self-improvement and judging capabilities of LLMs. This approach utilizes an oracle LLM to recycle the original training data by introspecting and enhancing the quality of instructions and responses in the data. Extensive experiments on widely used evaluation benchmarks show that LLMs trained with our recycled data outperform those trained with existing datasets in various benchmarks.
翻訳日:2023-10-19 17:49:07 公開日:2023-10-18
# 粗粒度データセットの活用による低リソースきめ細粒度エンティティ認識の実現

Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets ( http://arxiv.org/abs/2310.11715v1 )

ライセンス: Link先を確認
Su Ah Lee, Seokjin Oh and Woohwan Jung(参考訳) 名前付きエンティティ認識(NER)は、特に粒度の細かいNERシナリオにおいて、ラベル付きデータの不十分な問題にしばしば悩まされる。 k$-shotの学習テクニックは適用可能だが、アノテーション数が数十のラベルを超えると、そのパフォーマンスは飽和する傾向がある。 この問題を解決するために、多数のアノテーションを提供する既存の粗粒度データセットを利用する。 この問題を解決するための直接的なアプローチは、表現学習に粗い粒度データを用いる事前調整である。 しかし、粗粒状エンティティと粗粒状エンティティの関係を直接利用することはできないが、粗粒状エンティティタイプは粗粒状エンティティタイプのサブカテゴリである可能性が高い。 階層構造を明示的に活用するためにF2Cマッピング行列を用いた粒度NERモデルを提案する。 さらに,性能劣化を回避するために,粒度が粗いエンティティと不一致なエンティティを除去する不整合フィルタリング手法を提案する。 提案手法は,少量の微粒なアノテーションを扱う場合,K$-shot学習法と教師あり学習法の両方より優れていることを示す。

Named Entity Recognition (NER) frequently suffers from the problem of insufficient labeled data, particularly in fine-grained NER scenarios. Although $K$-shot learning techniques can be applied, their performance tends to saturate when the number of annotations exceeds several tens of labels. To overcome this problem, we utilize existing coarse-grained datasets that offer a large number of annotations. A straightforward approach to address this problem is pre-finetuning, which employs coarse-grained data for representation learning. However, it cannot directly utilize the relationships between fine-grained and coarse-grained entities, although a fine-grained entity type is likely to be a subcategory of a coarse-grained entity type. We propose a fine-grained NER model with a Fine-to-Coarse(F2C) mapping matrix to leverage the hierarchical structure explicitly. In addition, we present an inconsistency filtering method to eliminate coarse-grained entities that are inconsistent with fine-grained entity types to avoid performance degradation. Our experimental results show that our method outperforms both $K$-shot learning and supervised learning methods when dealing with a small number of fine-grained annotations.
翻訳日:2023-10-19 17:48:52 公開日:2023-10-18
# 分散学習タスクにおける生成モデルの評価について

On the Evaluation of Generative Models in Distributed Learning Tasks ( http://arxiv.org/abs/2310.11714v1 )

ライセンス: Link先を確認
Zixiao Wang, Farzan Farnia, Zhenghao Lin, Yunheng Shen, Bei Yu(参考訳) 生成的逆ネットワーク(gans)や拡散モデルを含む深層生成モデルの評価は文献で広く研究されている。 既存の評価方法は、主に単一のクライアントが格納したトレーニングデータによる集中学習問題を対象としているが、生成モデルの多くの応用は、複数のクライアント間でトレーニングデータを収集し分散するフェデレーション学習シナリオなど、分散学習設定に関するものである。 本稿では,異種データ分布を持つ分散学習タスクにおける生成モデルの評価について検討する。 まず、Fr'echet開始距離(FID)に着目し、クライアントに対する以下のFIDベースの集計スコアを検討する。 1)クライアントの個別FIDスコアの平均としてのFID-avg 2)FID-allは、訓練されたモデルからすべてのクライアントのデータを含む集合データセットまでのFID距離である。 FID-allとFID-avgのスコアによるモデルランキングは矛盾する可能性があり、2つのスコアに応じて最適な生成モデルを生成することができる。 次に、カーネル開始距離(KID)を考察し、同様にKID-avgおよびKID-allアグリゲーションを定義する。 FIDの場合とは異なり、KID-allとKID-avgは生成モデルと同じランキングになる。 我々は,分散学習問題における生成モデルの評価に関する理論的知見を支援するために,標準画像データセットとトレーニングスキームに関する数値実験を行った。

The evaluation of deep generative models including generative adversarial networks (GANs) and diffusion models has been extensively studied in the literature. While the existing evaluation methods mainly target a centralized learning problem with training data stored by a single client, many applications of generative models concern distributed learning settings, e.g. the federated learning scenario, where training data are collected by and distributed among several clients. In this paper, we study the evaluation of generative models in distributed learning tasks with heterogeneous data distributions. First, we focus on the Fr\'echet inception distance (FID) and consider the following FID-based aggregate scores over the clients: 1) FID-avg as the mean of clients' individual FID scores, 2) FID-all as the FID distance of the trained model to the collective dataset containing all clients' data. We prove that the model rankings according to the FID-all and FID-avg scores could be inconsistent, which can lead to different optimal generative models according to the two aggregate scores. Next, we consider the kernel inception distance (KID) and similarly define the KID-avg and KID-all aggregations. Unlike the FID case, we prove that KID-all and KID-avg result in the same rankings of generative models. We perform several numerical experiments on standard image datasets and training schemes to support our theoretical findings on the evaluation of generative models in distributed learning problems.
翻訳日:2023-10-19 17:48:31 公開日:2023-10-18
# マルチモーダル失語症型検出のための学習協調ジェスチャー

Learning Co-Speech Gesture for Multimodal Aphasia Type Detection ( http://arxiv.org/abs/2310.11710v1 )

ライセンス: Link先を確認
Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han(参考訳) 脳損傷による言語障害である失語症は、効果的な治療のためにブロカ失語症やヴェルニッケ失語症のような特定の失語症の正確な同定を必要とする。 しかし、異なる種類の失語症を検出する方法の開発にはほとんど注意が払われていない。 失語症を識別するための共語ジェスチャ分析の重要性を認識し,音声と対応するジェスチャパターンを用いた失語症検出のためのマルチモーダルグラフニューラルネットワークを提案する。 本モデルでは,各失語型における発話とジェスチャーのモダリティの相関関係を学習することにより,ジェスチャー情報に敏感なテキスト表現を生成できる。 実験の結果,既存手法よりも優れた手法が得られた(F1 84.2\%)。 また,ジェスチャ特徴が音響特徴よりも優れており,失語検出におけるジェスチャ表現の重要性を強調する。 再現性のためのコード: \url{https://github.com/dsail-skku/multimodal-aphasia-type-detection_emnlp_2023}}。

Aphasia, a language disorder resulting from brain damage, requires accurate identification of specific aphasia types, such as Broca's and Wernicke's aphasia, for effective treatment. However, little attention has been paid to developing methods to detect different types of aphasia. Recognizing the importance of analyzing co-speech gestures for distinguish aphasia types, we propose a multimodal graph neural network for aphasia type detection using speech and corresponding gesture patterns. By learning the correlation between the speech and gesture modalities for each aphasia type, our model can generate textual representations sensitive to gesture information, leading to accurate aphasia type detection. Extensive experiments demonstrate the superiority of our approach over existing methods, achieving state-of-the-art results (F1 84.2\%). We also show that gesture features outperform acoustic features, highlighting the significance of gesture expression in detecting aphasia types. We provide the codes for reproducibility purposes\footnote{Code: \url{https://github.com/DSAIL-SKKU/Multimodal-Aphasia-Type-Detection_EMNLP_2023}}.
翻訳日:2023-10-19 17:48:08 公開日:2023-10-18
# Live Graph Lab: NFTによるオープン、動的、リアルなトランザクショングラフを目指す

Live Graph Lab: Towards Open, Dynamic and Real Transaction Graphs with NFT ( http://arxiv.org/abs/2310.11709v1 )

ライセンス: Link先を確認
Zhen Zhang, Bingqiao Luo, Shengliang Lu, Bingsheng He(参考訳) 大規模時間グラフの性質について多くの研究がなされている。 これらのグラフが現実世界のシナリオで普及しているにもかかわらず、プライバシの懸念と技術的な制限のために、リアルタイムグラフ全体を取得するのは、通常非現実的です。 本稿では,ブロックチェーンからオープンで動的,かつ実際のトランザクショングラフを可能にする時間グラフのための"it live graph lab"の概念を紹介する。 その中でも、Non-fungible tokens(NFT)は、ここ数年でブロックチェーンの最も顕著な部分のひとつになっている。 400億ドル以上の市場資本を持つこの分散エコシステムは、巨大で匿名の実際の取引活動を生み出し、自然に複雑な取引ネットワークを形成する。 しかし、時間グラフ分析の観点からは、この新興nftエコシステムの特徴に関する理解は限られている。 このギャップを軽減するために、NFTトランザクションネットワークでライブグラフをインスタンス化し、そのダイナミクスを調査し、新しい観察と洞察を提供する。 具体的には、NFTトランザクションアクティビティのダウンロードと解析を通じて、450万以上のノードと1400万のエッジを持つ時間グラフを得る。 次に、NFT生態系の性質を理解するための一連の測定結果を示す。 ソーシャル, 引用, およびウェブネットワークとの比較を通じて, 分析によって興味深い結果が得られ, 今後の探索の可能性も指摘される。 最後に、このライブグラフで機械学習モデルを調べ、現在のデータセットを強化し、グラフコミュニティに新たな機会を提供する。 ソースコードとデータセットはhttps://livegraphlab.github.ioで入手できる。

Numerous studies have been conducted to investigate the properties of large-scale temporal graphs. Despite the ubiquity of these graphs in real-world scenarios, it's usually impractical for us to obtain the whole real-time graphs due to privacy concerns and technical limitations. In this paper, we introduce the concept of {\it Live Graph Lab} for temporal graphs, which enables open, dynamic and real transaction graphs from blockchains. Among them, Non-fungible tokens (NFTs) have become one of the most prominent parts of blockchain over the past several years. With more than \$40 billion market capitalization, this decentralized ecosystem produces massive, anonymous and real transaction activities, which naturally forms a complicated transaction network. However, there is limited understanding about the characteristics of this emerging NFT ecosystem from a temporal graph analysis perspective. To mitigate this gap, we instantiate a live graph with NFT transaction network and investigate its dynamics to provide new observations and insights. Specifically, through downloading and parsing the NFT transaction activities, we obtain a temporal graph with more than 4.5 million nodes and 124 million edges. Then, a series of measurements are presented to understand the properties of the NFT ecosystem. Through comparisons with social, citation, and web networks, our analyses give intriguing findings and point out potential directions for future exploration. Finally, we also study machine learning models in this live graph to enrich the current datasets and provide new opportunities for the graph community. The source codes and dataset are available at https://livegraphlab.github.io.
翻訳日:2023-10-19 17:47:48 公開日:2023-10-18
# テキスト分類のためのラベルによる学習

Learning under Label Proportions for Text Classification ( http://arxiv.org/abs/2310.11707v1 )

ライセンス: Link先を確認
Jatin Chauhan, Xiaoxuan Wang, Wei Wang(参考訳) 本稿では,LLP(Learning from Label Proportions)の挑戦的な設定の下で,各クラス内のサンプルの割合を基本事実として,バッグと呼ばれる集約形式でデータを提供する予備的NLP作品の1つを紹介する。 この設定は、プライバシ設定と弱い監督の下でトレーニングモデルの望ましい特性と合致する。 最も広く使われているベースライン技術DLLPのいくつかの不規則性を特徴付けることにより、ロバストな新しい定式化を提案する。 これは LLP で有界な一般化を提供する学習可能性結果に付随する。 この定式化を自己教師付き目的と組み合わせることで,実験構成のほぼ87%のベースラインと比較して,複数のメトリクスをまたいだ長距離テキストと短距離テキストの大規模モデルを含むような結果が得られる。

We present one of the preliminary NLP works under the challenging setup of Learning from Label Proportions (LLP), where the data is provided in an aggregate form called bags and only the proportion of samples in each class as the ground truth. This setup is inline with the desired characteristics of training models under Privacy settings and Weakly supervision. By characterizing some irregularities of the most widely used baseline technique DLLP, we propose a novel formulation that is also robust. This is accompanied with a learnability result that provides a generalization bound under LLP. Combining this formulation with a self-supervised objective, our method achieves better results as compared to the baselines in almost 87% of the experimental configurations which include large scale models for both long and short range texts across multiple metrics.
翻訳日:2023-10-19 17:47:26 公開日:2023-10-18
# DPF-Nutrition:深度予測と核融合による食品栄養推定

DPF-Nutrition: Food Nutrition Estimation via Depth Prediction and Fusion ( http://arxiv.org/abs/2310.11702v1 )

ライセンス: Link先を確認
Yuzhe Han and Qimin Cheng and Wenjin Wu and Ziyang Huang(参考訳) 健康を維持するには合理的でバランスの取れた食事が不可欠である。 深層学習の進歩に伴い、食品画像に基づく栄養自動推定手法は、毎日の栄養摂取をモニターし、食事の健康を促進させる有望なソリューションを提供する。 単眼画像に基づく栄養評価は便利で効率的で経済的であるが、限られた精度の課題は依然として重要な課題である。 そこで本研究では,モノクロ画像を用いたエンドツーエンド栄養推定手法DPF-Nutritionを提案する。 DPF-Nutritionでは,深度マップを生成するための深度予測モジュールを導入し,食品部分推定の精度を向上した。 さらに,単分子画像と予測深度情報を組み合わせたRGB-D融合モジュールを設計した。 我々の知る限りでは、食品栄養推定に深度予測とRGB-D融合技術を統合した先駆的な取り組みであった。 Nutrition5kの総合実験はDPF-Nutritionの有効性と効率を評価した。

A reasonable and balanced diet is essential for maintaining good health. With the advancements in deep learning, automated nutrition estimation method based on food images offers a promising solution for monitoring daily nutritional intake and promoting dietary health. While monocular image-based nutrition estimation is convenient, efficient, and economical, the challenge of limited accuracy remains a significant concern. To tackle this issue, we proposed DPF-Nutrition, an end-to-end nutrition estimation method using monocular images. In DPF-Nutrition, we introduced a depth prediction module to generate depth maps, thereby improving the accuracy of food portion estimation. Additionally, we designed an RGB-D fusion module that combined monocular images with the predicted depth information, resulting in better performance for nutrition estimation. To the best of our knowledge, this was the pioneering effort that integrated depth prediction and RGB-D fusion techniques in food nutrition estimation. Comprehensive experiments performed on Nutrition5k evaluated the effectiveness and efficiency of DPF-Nutrition.
翻訳日:2023-10-19 17:47:11 公開日:2023-10-18
# オープンワールド設定における単眼映像からのランナー再同定

Runner re-identification from single-view video in the open-world setting ( http://arxiv.org/abs/2310.11700v1 )

ライセンス: Link先を確認
Tomohiro Suzuki, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii(参考訳) 多くのスポーツにおいて、プレイヤーの再識別は自動ビデオ処理と分析に不可欠である。 しかし,近年の多視点スポーツビデオやシングルビュースポーツビデオにおけるプレイヤー再識別に関する研究は,ラベル付き画像データセットを用いた閉世界設定におけるプレイヤー再識別に重点を置いている。 本稿では,単眼映像を直接処理してオープンワールド設定に対処するランナー再識別システムを提案する。 オープンワールド設定では、ラベル付きデータセットは使用できず、ビデオを直接処理する必要があります。 提案システムでは,入力として生映像を自動的に処理してランナーを識別し,複数回フレームアウトしてもランナーを識別できる。 自動処理では、事前に訓練されたYOLOv8と微調整されたEfficientNetを用いて、ビデオ中のランナーを検出する。 次に、ByteTrackを使用してランナーを追跡し、微調整されたYOLOv8で靴を検出する。 最後に,ゲート型再帰単位オートエンコーダモデルを用いて,教師なし手法を用いてランナーの画像特徴を抽出する。 ランナー再同定の精度を向上させるため,実行中のシーケンス画像の動的特徴を用いる。 ランニング実践ビデオデータセットを用いてシステム評価を行い,教師なし再同定における最先端モデルの1つよりも高い精度でランナーを特定した。 また,実行中の動的特徴抽出器がランナーの再識別に有効であることを示した。 ランナー再識別システムは,実行中の動画の自動解析に有用である。

In many sports, player re-identification is crucial for automatic video processing and analysis. However, most of the current studies on player re-identification in multi- or single-view sports videos focus on re-identification in the closed-world setting using labeled image dataset, and player re-identification in the open-world setting for automatic video analysis is not well developed. In this paper, we propose a runner re-identification system that directly processes single-view video to address the open-world setting. In the open-world setting, we cannot use labeled dataset and have to process video directly. The proposed system automatically processes raw video as input to identify runners, and it can identify runners even when they are framed out multiple times. For the automatic processing, we first detect the runners in the video using the pre-trained YOLOv8 and the fine-tuned EfficientNet. We then track the runners using ByteTrack and detect their shoes with the fine-tuned YOLOv8. Finally, we extract the image features of the runners using an unsupervised method using the gated recurrent unit autoencoder model. To improve the accuracy of runner re-identification, we use dynamic features of running sequence images. We evaluated the system on a running practice video dataset and showed that the proposed method identified runners with higher accuracy than one of the state-of-the-art models in unsupervised re-identification. We also showed that our unsupervised running dynamic feature extractor was effective for runner re-identification. Our runner re-identification system can be useful for the automatic analysis of running videos.
翻訳日:2023-10-19 17:46:53 公開日:2023-10-18
# MISAR:拡張現実を付加したマルチモーダル教育システム

MISAR: A Multimodal Instructional System with Augmented Reality ( http://arxiv.org/abs/2310.11699v1 )

ライセンス: Link先を確認
Jing Bi, Nguyen Manh Nguyen, Ali Vosoughi, Chenliang Xu(参考訳) Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。 聴覚および視覚入力は、リアルタイムおよびコンテキストのユーザガイダンスを促進するが、この状況における大規模言語モデル(llm)の可能性はほとんどない。 本研究では,視覚,聴覚,文脈からの情報の同化にLLMを用いた革新的な手法を提案する。 arにおけるタスクパフォーマンス定量化のユニークな課題に着目し,エゴセントリックビデオ,音声,文脈分析を用いた。 LLMの統合は、より適応的なARシステムへの一歩として、状態推定の強化を促進する。 コード、データセット、デモはhttps://github.com/nguyennm1024/misarで入手できる。

Augmented reality (AR) requires the seamless integration of visual, auditory, and linguistic channels for optimized human-computer interaction. While auditory and visual inputs facilitate real-time and contextual user guidance, the potential of large language models (LLMs) in this landscape remains largely untapped. Our study introduces an innovative method harnessing LLMs to assimilate information from visual, auditory, and contextual modalities. Focusing on the unique challenge of task performance quantification in AR, we utilize egocentric video, speech, and context analysis. The integration of LLMs facilitates enhanced state estimation, marking a step towards more adaptive AR systems. Code, dataset, and demo will be available at https://github.com/nguyennm1024/misar.
翻訳日:2023-10-19 17:46:27 公開日:2023-10-18
# ChatGPTを用いた感情認識におけるバイアス

Bias in Emotion Recognition with ChatGPT ( http://arxiv.org/abs/2310.11753v1 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi(参考訳) このテクニカルレポートは、対話型チャットボット、データアノテーション、メンタルヘルス分析といったさまざまなアプリケーションの基礎となるテキストからの感情認識におけるchatgptの能力について検討している。 以前の研究では、感情分析におけるchatgptの基本能力が示されているが、よりニュアンス的な感情認識におけるその性能はまだ検討されていない。 本研究では,異なるデータセットと感情ラベルを用いた感情認識の性能評価実験を行った。 以上の結果から,再現性は良好であり,微調整による改善がみられた。 しかし、パフォーマンスは異なる感情ラベルとデータセットによって異なり、固有の不安定性とバイアスが強調される。 データセットと感情ラベルの選択は、ChatGPTの感情認識性能に大きな影響を及ぼす。 本稿では、データセットとラベルの選択の重要性と、ChatGPTの感情認識能力を高めるための微調整の可能性に注目し、ChatGPTを用いたアプリケーションにおける感情分析のより良い統合のための基盤を提供する。

This technical report explores the ability of ChatGPT in recognizing emotions from text, which can be the basis of various applications like interactive chatbots, data annotation, and mental health analysis. While prior research has shown ChatGPT's basic ability in sentiment analysis, its performance in more nuanced emotion recognition is not yet explored. Here, we conducted experiments to evaluate its performance of emotion recognition across different datasets and emotion labels. Our findings indicate a reasonable level of reproducibility in its performance, with noticeable improvement through fine-tuning. However, the performance varies with different emotion labels and datasets, highlighting an inherent instability and possible bias. The choice of dataset and emotion labels significantly impacts ChatGPT's emotion recognition performance. This paper sheds light on the importance of dataset and label selection, and the potential of fine-tuning in enhancing ChatGPT's emotion recognition capabilities, providing a groundwork for better integration of emotion analysis in applications using ChatGPT.
翻訳日:2023-10-19 17:39:05 公開日:2023-10-18
# Sum-GP-UCBを用いた相互作用物体の材料特性の推定

Estimating Material Properties of Interacting Objects Using Sum-GP-UCB ( http://arxiv.org/abs/2310.11749v1 )

ライセンス: Link先を確認
M. Yunus Seker, Oliver Kroemer(参考訳) ロボットは、それらを正確にシミュレートするために、観察から物体の物質と動的特性を推定する必要がある。 本稿では,一連の観測に基づいて物体の物質特性パラメータを同定するベイズ最適化手法を提案する。 我々は,相互作用対象の異なるシーンの観察に基づいて,これらの特性を推定することに注力する。 本稿では,各観測対象に対する報酬を個別にモデル化し,そのシーンのオブジェクトのパラメータのみを入力として利用することにより,報酬関数の構造を利用する手法を提案する。 その結果得られる低次元モデルはパラメータ空間をより一般化し、結果として最適化がより速くなる。 さらに最適化プロセスを高速化し、優れたパラメータ値を求めるのに必要なシミュレーションの実行回数を減らすために、選択したパラメータが実世界の評価のサブセットでのみ評価されるような報酬関数の部分的な評価も提案する。 本手法は,物体間相互作用の広い場面で評価し,収集した観測結果の報奨をリセットすることなく,効果的なインクリメンタル学習が可能であることを示した。

Robots need to estimate the material and dynamic properties of objects from observations in order to simulate them accurately. We present a Bayesian optimization approach to identifying the material property parameters of objects based on a set of observations. Our focus is on estimating these properties based on observations of scenes with different sets of interacting objects. We propose an approach that exploits the structure of the reward function by modeling the reward for each observation separately and using only the parameters of the objects in that scene as inputs. The resulting lower-dimensional models generalize better over the parameter space, which in turn results in a faster optimization. To speed up the optimization process further, and reduce the number of simulation runs needed to find good parameter values, we also propose partial evaluations of the reward function, wherein the selected parameters are only evaluated on a subset of real world evaluations. The approach was successfully evaluated on a set of scenes with a wide range of object interactions, and we showed that our method can effectively perform incremental learning without resetting the rewards of the gathered observations.
翻訳日:2023-10-19 17:38:49 公開日:2023-10-18
# BanglaAbuseMeme: Bengali Abusive Meme分類のためのデータセット

BanglaAbuseMeme: A Dataset for Bengali Abusive Meme Classification ( http://arxiv.org/abs/2310.11748v1 )

ライセンス: Link先を確認
Mithun Das and Animesh Mukherjee(参考訳) 情報共有のためのソーシャルメディアプラットフォームの利用が劇的に増加したことも、オンラインの悪用が急増した。 個人やコミュニティを虐待するシンプルで効果的な方法は、ミームを作成することだ。 このような有害な要素は普及しており、オンラインの安全を脅かしている。 したがって、乱用ミームを検出してフラグを立てる効率的なモデルを開発する必要がある。 この問題は、AIモデルをトレーニング可能なベンチマークデータセットが存在しないため、低リソース環境(例えば、ベンガルのミーム、すなわち、ベンガルのテキストが埋め込まれた画像)ではより困難になる。 本稿では,このギャップをベンガルミームデータセットの構築によって橋渡しする。 効果的なベンチマークを設定するために、このデータセットを使用して乱用ミームを分類するためのベースラインモデルをいくつか実装します。 テキスト情報と視覚情報の両方を利用するマルチモーダルモデルは、単調モデルよりも優れている。 我々の最高の性能モデルは、マクロF1スコア70.51を達成する。 最後に,テキストベース,イメージベース,マルチモーダルモデルの誤分類されたミームの質的誤り解析を行う。

The dramatic increase in the use of social media platforms for information sharing has also fueled a steep growth in online abuse. A simple yet effective way of abusing individuals or communities is by creating memes, which often integrate an image with a short piece of text layered on top of it. Such harmful elements are in rampant use and are a threat to online safety. Hence it is necessary to develop efficient models to detect and flag abusive memes. The problem becomes more challenging in a low-resource setting (e.g., Bengali memes, i.e., images with Bengali text embedded on it) because of the absence of benchmark datasets on which AI models could be trained. In this paper we bridge this gap by building a Bengali meme dataset. To setup an effective benchmark we implement several baseline models for classifying abusive memes using this dataset. We observe that multimodal models that use both textual and visual information outperform unimodal models. Our best-performing model achieves a macro F1 score of 70.51. Finally, we perform a qualitative error analysis of the misclassified memes of the best-performing text-based, image-based and multimodal models.
翻訳日:2023-10-19 17:38:30 公開日:2023-10-18
# DBDNet:Dual Branchs DecouplingによるPartial-to-Partial Point Cloud登録

DBDNet:Partial-to-Partial Point Cloud Registration with Dual Branches Decoupling ( http://arxiv.org/abs/2310.11733v1 )

ライセンス: Link先を確認
Shiqi Li, Jihua Zhu, Yifan Xie(参考訳) ポイントクラウドの登録は、様々なコンピュータビジョンタスクにおいて重要な役割を果たす。 既存の方法の多くは回転と変換の連続計算を行うが、登録時の重複を共同で予測する一方で、この結合は登録性能を低下させる傾向がある。 本稿では,DBDNetと呼ばれる部分的/部分的登録のための二枝分離による効果的な登録手法を提案する。 具体的には、2つの個別対応行列を別々に作成することにより、回転と変換の相互干渉誤差を解消する二重分岐構造を導入する。 部分的から部分的な登録については、オーバーラップ予測を登録手続きの前に事前注文タスクとみなす。 そこで,我々は,明示的な特徴間相互作用の利点を享受する重なり予測器を提案する。 さらに,局所パターンとグローバルパターンの両方をキャプチャするマルチレゾリューション特徴抽出ネットワークを設計することにより,重複予測と登録モジュールの両方を拡張できる。 提案手法の有効性を,合成データと実データの両方で検証した。

Point cloud registration plays a crucial role in various computer vision tasks, and usually demands the resolution of partial overlap registration in practice. Most existing methods perform a serial calculation of rotation and translation, while jointly predicting overlap during registration, this coupling tends to degenerate the registration performance. In this paper, we propose an effective registration method with dual branches decoupling for partial-to-partial registration, dubbed as DBDNet. Specifically, we introduce a dual branches structure to eliminate mutual interference error between rotation and translation by separately creating two individual correspondence matrices. For partial-to-partial registration, we consider overlap prediction as a preordering task before the registration procedure. Accordingly, we present an overlap predictor that benefits from explicit feature interaction, which is achieved by the powerful attention mechanism to accurately predict pointwise masks. Furthermore, we design a multi-resolution feature extraction network to capture both local and global patterns thus enhancing both overlap prediction and registration module. Experimental results on both synthetic and real datasets validate the effectiveness of our proposed method.
翻訳日:2023-10-19 17:38:13 公開日:2023-10-18
# 複数経路設定によるアライメント言語モデルの不確かさ校正の検討

Investigating Uncertainty Calibration of Aligned Language Models under the Multiple-Choice Setting ( http://arxiv.org/abs/2310.11732v1 )

ライセンス: Link先を確認
Guande He, Peng Cui, Jianfei Chen, Wenbo Hu, Jun Zhu(参考訳) 協調言語モデル (LM) の実践的応用において顕著な進歩はあったが, 対応する事前学習型 LM と比較すると, 出力応答が過度に信頼される傾向にある。 本研究では,多段設定下でのlmsのロジットに基づく不確実性校正に対するアライメントプロセスの影響を体系的に評価する。 我々はまず,事前学習したキャリブレーションとlmsのキャリブレーションの違いについて,注意深い実験を行った。 実験結果から,複数選択条件下でのLMには2つの不確実性が存在することが明らかとなった。 次に,単純な合成アライメントスキームにおける微調整によるlmの調整におけるこれら2つの不確かさの役割について検討し,これら2つの不確かさの和合がlmsの過密化の一因であると結論づける。 さらに,アライメントLMの一般的なポストホックキャリブレーション法の有用性について検討し,アライメントLMのキャリブレーションを容易かつ効率的に行う方法を提案する。 lmsのより信頼性の高いアライメントプロセスの設計に関する洞察を私たちの発見に提供できることを願っています。

Despite the significant progress made in practical applications of aligned language models (LMs), they tend to be overconfident in output answers compared to the corresponding pre-trained LMs. In this work, we systematically evaluate the impact of the alignment process on logit-based uncertainty calibration of LMs under the multiple-choice setting. We first conduct a thoughtful empirical study on how aligned LMs differ in calibration from their pre-trained counterparts. Experimental results reveal that there are two distinct uncertainties in LMs under the multiple-choice setting, which are responsible for the answer decision and the format preference of the LMs, respectively. Then, we investigate the role of these two uncertainties on aligned LM's calibration through fine-tuning in simple synthetic alignment schemes and conclude that one reason for aligned LMs' overconfidence is the conflation of these two types of uncertainty. Furthermore, we examine the utility of common post-hoc calibration methods for aligned LMs and propose an easy-to-implement and sample-efficient method to calibrate aligned LMs. We hope our findings could provide insights into the design of more reliable alignment processes for LMs.
翻訳日:2023-10-19 17:37:53 公開日:2023-10-18
# ロボットスキル学習のためのアクション量子オフライン強化学習

Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning ( http://arxiv.org/abs/2310.11731v1 )

ライセンス: Link先を確認
Jianlan Luo, Perry Dong, Jeffrey Wu, Aviral Kumar, Xinyang Geng, Sergey Levine(参考訳) オフライン強化学習(RL)パラダイムは、静的な行動データセットをデータ収集ポリシーよりも優れたパフォーマンスのポリシーに変換する一般的なレシピを提供する。 政策制約、保守主義、その他の分散シフトを緩和する手法はオフライン強化学習をより効果的にしたが、連続的な行動設定はこれらの手法を適用するために様々な近似を必要とすることが多い。 これらの課題の多くは、オフラインのrl制約や正規化子をより正確に、あるいは正確に計算できる個別のアクション設定で大幅に軽減される。 本稿では,アクション量子化のための適応スキームを提案する。 VQ-VAE を用いて状態条件の作用量子化を学習し、作用空間の na\" な離散化を伴う指数的爆発を避ける。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。 さらに,ロボミミック環境におけるロボット操作の課題に対するアプローチを検証し,識別されたオフラインRLアルゴリズムを2~3倍の精度で改善できることを示す。 プロジェクトページはhttps://saqrl.github.io/にあります。

The offline reinforcement learning (RL) paradigm provides a general recipe to convert static behavior datasets into policies that can perform better than the policy that collected the data. While policy constraints, conservatism, and other methods for mitigating distributional shifts have made offline reinforcement learning more effective, the continuous action setting often necessitates various approximations for applying these techniques. Many of these challenges are greatly alleviated in discrete action settings, where offline RL constraints and regularizers can often be computed more precisely or even exactly. In this paper, we propose an adaptive scheme for action quantization. We use a VQ-VAE to learn state-conditioned action quantization, avoiding the exponential blowup that comes with na\"ive discretization of the action space. We show that several state-of-the-art offline RL methods such as IQL, CQL, and BRAC improve in performance on benchmarks when combined with our proposed discretization scheme. We further validate our approach on a set of challenging long-horizon complex robotic manipulation tasks in the Robomimic environment, where our discretized offline RL algorithms are able to improve upon their continuous counterparts by 2-3x. Our project page is at https://saqrl.github.io/
翻訳日:2023-10-19 17:37:31 公開日:2023-10-18
# プライバシー保護レコメンデーションのためのフェデレーション不均質グラフニューラルネットワーク

Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation ( http://arxiv.org/abs/2310.11730v1 )

ライセンス: Link先を確認
Bo Yan, Yang Cao, Haoyu Wang, Wenchuan Yang, Junping Du, Chuan Shi(参考訳) メタパスで表現されるリッチなセマンティクスを含む異種情報ネットワーク(HIN)は,レコメンデータシステムにおけるデータの分散を緩和する強力なツールとなっている。 既存のHINベースのレコメンデーションは、データの集中型ストレージ仮定を保持し、集中型モデルトレーニングを実行する。 しかし、現実のデータはしばしばプライバシー上の懸念のために分散的に保存されるため、中央集権的なHINベースのレコメンデーションが失敗する。 本稿では,HINをクライアント側に保存されたプライベートなHINに分割し,サーバ側で共有する手法を提案する。 この設定に続いて、ユーザプライバシを漏らさずに分散HIN上でレコメンデーションモデルを協調的にトレーニングできるフェデレーションヘテロジニアスグラフニューラルネットワーク(FedHGNN)ベースのフレームワークを提案する。 具体的には、HINをベースとしたフェデレーションレコメンデーションの差分プライバシーの観点から、まずプライバシ定義を定式化し、プライベートHINとユーザの高次パターンを共有HINから保護することを目的としている。 分散データストレージによる破断したメタパスに基づくセマンティクスを回復し、提案するプライバシーを満たすために、ユーザの高次パターンを局所的に摂動させるセマンティクス保存ユーザインタラクションパブリッシング法と、関連するユーザインタラクションを設計する。 その後,ノード・セマンティクスレベルのアグリゲーションを行い,回復したセマンティクスをキャプチャするhgnnモデルを提案する。 3つのデータセットに対する大規模な実験では、当社のモデルが既存の手法よりも大きなマージン(HR@10では最大34%、NDCG@10では最大42%)で、許容可能なプライバシー予算の下でパフォーマンスを示している。

Heterogeneous information network (HIN), which contains rich semantics depicted by meta-paths, has become a powerful tool to alleviate data sparsity in recommender systems. Existing HIN-based recommendations hold the data centralized storage assumption and conduct centralized model training. However, the real-world data is often stored in a distributed manner for privacy concerns, resulting in the failure of centralized HIN-based recommendations. In this paper, we suggest the HIN is partitioned into private HINs stored in the client side and shared HINs in the server. Following this setting, we propose a federated heterogeneous graph neural network (FedHGNN) based framework, which can collaboratively train a recommendation model on distributed HINs without leaking user privacy. Specifically, we first formalize the privacy definition in the light of differential privacy for HIN-based federated recommendation, which aims to protect user-item interactions of private HIN as well as user's high-order patterns from shared HINs. To recover the broken meta-path based semantics caused by distributed data storage and satisfy the proposed privacy, we elaborately design a semantic-preserving user interactions publishing method, which locally perturbs user's high-order patterns as well as related user-item interactions for publishing. After that, we propose a HGNN model for recommendation, which conducts node- and semantic-level aggregations to capture recovered semantics. Extensive experiments on three datasets demonstrate our model outperforms existing methods by a large margin (up to 34% in HR@10 and 42% in NDCG@10) under an acceptable privacy budget.
翻訳日:2023-10-19 17:37:08 公開日:2023-10-18
# VST++: 効率的で強力なビジュアルサリエンシ変換器

VST++: Efficient and Stronger Visual Saliency Transformer ( http://arxiv.org/abs/2310.11725v1 )

ライセンス: Link先を確認
Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han(参考訳) 従来のCNNベースのモデルでは、サルエントオブジェクト検出(SOD)の有望な結果を示しているが、グローバルな長距離依存関係を探索する能力は制限されている。 我々の以前の研究であるVisual Saliency Transformer (VST)は、RGBとRGB-D SODを統合するために、変換器に基づくシーケンス・ツー・シーケンスの観点からこの制約に対処した。 VSTでは、純粋なトランスアーキテクチャにおける正当性と境界値の同時予測を行うマルチタスクトランスフォーマーデコーダを開発した。 さらに, 逆T2Tと呼ばれる新しいトークンアップサンプリング手法を導入し, トランスフォーマー構造内の高分解能サリエンシマップを逐次予測する。 VSTモデルに基づいて、この作業においてより効率的で強力なVSTバージョン、すなわちVST++を提案する。 VSTモデルの計算コストを軽減するため,Select-Integrate Attention (SIA)モジュールを提案し,前景を細かなセグメントに分割し,背景情報を粗いトークンに集約する。 低コストで3次元深度情報を組み込むために,深度マップに適した新しい深度位置符号化法を設計する。 さらに,タスク関連トークンの簡単なガイダンスを提供するために,トークン管理による予測損失を導入する。 RGB, RGB-D, RGB-T SODベンチマークデータセット上で, トランスフォーマーベースのバックボーン間でVST++モデルを評価した。 実験の結果,提案手法は計算コストを25%削減しつつ,性能上の妥協を伴わずに既存の手法を上回っていることがわかった。 一般化の強力な能力、性能の向上、VST++モデルの効率向上などが、その可能性を強調している。

While previous CNN-based models have exhibited promising results for salient object detection (SOD), their ability to explore global long-range dependencies is restricted. Our previous work, the Visual Saliency Transformer (VST), addressed this constraint from a transformer-based sequence-to-sequence perspective, to unify RGB and RGB-D SOD. In VST, we developed a multi-task transformer decoder that concurrently predicts saliency and boundary outcomes in a pure transformer architecture. Moreover, we introduced a novel token upsampling method called reverse T2T for predicting a high-resolution saliency map effortlessly within transformer-based structures. Building upon the VST model, we further propose an efficient and stronger VST version in this work, i.e. VST++. To mitigate the computational costs of the VST model, we propose a Select-Integrate Attention (SIA) module, partitioning foreground into fine-grained segments and aggregating background information into a single coarse-grained token. To incorporate 3D depth information with low cost, we design a novel depth position encoding method tailored for depth maps. Furthermore, we introduce a token-supervised prediction loss to provide straightforward guidance for the task-related tokens. We evaluate our VST++ model across various transformer-based backbones on RGB, RGB-D, and RGB-T SOD benchmark datasets. Experimental results show that our model outperforms existing methods while achieving a 25% reduction in computational costs without significant performance compromise. The demonstrated strong ability for generalization, enhanced performance, and heightened efficiency of our VST++ model highlight its potential.
翻訳日:2023-10-19 17:36:33 公開日:2023-10-18
# 自動オントロジーマッチングの不確実性:実証実験から学んだ教訓

Uncertainty in Automated Ontology Matching: Lessons Learned from an Empirical Experimentation ( http://arxiv.org/abs/2310.11723v1 )

ライセンス: Link先を確認
In\`es Osman, Salvatore F. Pileggi, Sadok Ben Yahia(参考訳) データ統合は、古典的な研究分野であり、情報科学のコミュニティにおける必要に迫られている。 オントロジーは、相互運用性を通じてデータセットをリンクし、意味的に統合するための統合サポートを提供することで、そのようなプロセスにおいて重要な役割を果たす。 本稿では、オントロジーマッチングに基づく手法に着目し、アプリケーションの観点からデータ統合にアプローチする。 オントロジに基づくプロセスは、異なる情報ソースの手動マッチングを仮定することでのみ適切と考えることができる。 しかし、システムがスケールアップしたらアプローチが非現実的になるため、マッチングプロセスの自動化は魅力的なニーズとなる。 そこで,本研究では,既存の科学コミュニティによるオントロジー自動マッチングツールを用いた実データ実験を行った。 比較的単純なケーススタディ(つまり、グローバル指標の時空間的アライメント)を考えると、自動マッチングプロセスのエラーや不正確さに起因する重大な不確実性は明らかである。 具体的には,実世界のデータをボトムアップの知識構築アプローチとして検証し,ケーススタディの実験結果から得られた教訓を考察し,自動オントロジーマッチングプロセスにおける不確実性と不確実性管理に関する結論を引き出すことを目的とする。 最も一般的な評価指標は、完全に自動化されたマッチングソリューションの信頼性の欠如を示しているが、より一般化されたアプリケーションのために適切に設計された半教師付きアプローチは成熟しているようである。

Data integration is considered a classic research field and a pressing need within the information science community. Ontologies play a critical role in such a process by providing well-consolidated support to link and semantically integrate datasets via interoperability. This paper approaches data integration from an application perspective, looking at techniques based on ontology matching. An ontology-based process may only be considered adequate by assuming manual matching of different sources of information. However, since the approach becomes unrealistic once the system scales up, automation of the matching process becomes a compelling need. Therefore, we have conducted experiments on actual data with the support of existing tools for automatic ontology matching from the scientific community. Even considering a relatively simple case study (i.e., the spatio-temporal alignment of global indicators), outcomes clearly show significant uncertainty resulting from errors and inaccuracies along the automated matching process. More concretely, this paper aims to test on real-world data a bottom-up knowledge-building approach, discuss the lessons learned from the experimental results of the case study, and draw conclusions about uncertainty and uncertainty management in an automated ontology matching process. While the most common evaluation metrics clearly demonstrate the unreliability of fully automated matching solutions, properly designed semi-supervised approaches seem to be mature for a more generalized application.
翻訳日:2023-10-19 17:36:00 公開日:2023-10-18
# 中国医学大言語モデルにおける健康関連原子知識の定量化:計算解析

Quantify Health-Related Atomic Knowledge in Chinese Medical Large Language Models: A Computational Analysis ( http://arxiv.org/abs/2310.11722v1 )

ライセンス: Link先を確認
Yaxin Fan, Feng Jiang, Peifeng Li, Haizhou Li(参考訳) 大きな言語モデル(LLM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。 近年の研究では, GPT-4 で評価された LLM の品質や, 医学試験に合格する能力に焦点が当てられ, LLM の記憶に蓄積される健康関連原子知識の程度を定量化する研究は行われていない。 本稿では、まず、ユーザ自己診断クエリにおいて最も一般的な原子知識の種類を含む17の原子タイプと合計14,048の原子知識を含むベンチマークを構築した。 そして、ベンチマーク上で、ジェネリックLLMと特殊LLMの両方を評価した。 実験の結果, 汎用LLMは, 原子知識と命令追従能力の観点から, 特殊LLMよりも優れた性能を示した。 エラー分析により、ジェネリックと特殊のllmの両方が共犯的であることが明らかとなった。 さらに, 汎用LLMは高い安全性を示し, 蒸留データを用いて, 特殊なLLMから学習することができる。 さらに, 微調整専用LLM, 実世界, 半蒸留, 蒸留データなど, 様々な種類のデータについて検討し, 蒸留データが最もLLMに有効であることを示した。

Large Language Models (LLMs) have the potential to revolutionize the way users self-diagnose through search engines by offering direct and efficient suggestions. Recent studies primarily focused on the quality of LLMs evaluated by GPT-4 or their ability to pass medical exams, no studies have quantified the extent of health-related atomic knowledge stored in LLMs' memory, which is the basis of LLMs to provide more factual suggestions. In this paper, we first constructed a benchmark, including the most common types of atomic knowledge in user self-diagnosis queries, with 17 atomic types and a total of 14, 048 pieces of atomic knowledge. Then, we evaluated both generic and specialized LLMs on the benchmark. The experimental results showcased that generic LLMs perform better than specialized LLMs in terms of atomic knowledge and instruction-following ability. Error analysis revealed that both generic and specialized LLMs are sycophantic, e.g., always catering to users' claims when it comes to unknown knowledge. Besides, generic LLMs showed stronger safety, which can be learned by specialized LLMs through distilled data. We further explored different types of data commonly adopted for fine-tuning specialized LLMs, i.e., real-world, semi-distilled, and distilled data, and found that distilled data can benefit LLMs most.
翻訳日:2023-10-19 17:35:36 公開日:2023-10-18
# Progressive3D:複雑なセマンティックプロンプトによるテキストから3Dコンテンツ作成のためのプログレッシブローカル編集

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts ( http://arxiv.org/abs/2310.11784v1 )

ライセンス: Link先を確認
Xinhua Cheng, Tianyu Yang, Jianan Wang, Yu Li, Lei Zhang, Jian Zhang, Li Yuan(参考訳) 最近のテキスト3d生成手法は,画像拡散モデルと最適化戦略の進歩により,印象的な3dコンテンツ作成能力を実現している。 しかし、現在の手法は、セマンティックスにおける複雑なプロンプト、すなわち異なる属性で結合された複数の相互作用オブジェクトを記述するプロンプトに対して正しい3Dコンテンツを生成するのに苦労している。 本稿では,プログレッシブ3d(progressive3d)という汎用フレームワークを提案し,複雑なプロンプトのための正確な3dコンテンツを作成するために,世代全体を一連の局所的なプログレッシブ編集ステップに分解する。 さらに,最適化プロセスにおいて,プロンプト間の意味的差異をより強調するために,重複した意味成分抑制手法を提案する。 広汎な実験により,提案するプログレッシブ3Dフレームワークは複雑なセマンティクスを持つプロンプトに対して正確な3Dコンテンツを生成し,異なる3D表現によって駆動される様々なテキストから3Dメソッドに対して一般的であることが示された。

Recent text-to-3D generation methods achieve impressive 3D content creation capacity thanks to the advances in image diffusion models and optimizing strategies. However, current methods struggle to generate correct 3D content for a complex prompt in semantics, i.e., a prompt describing multiple interacted objects binding with different attributes. In this work, we propose a general framework named Progressive3D, which decomposes the entire generation into a series of locally progressive editing steps to create precise 3D content for complex prompts, and we constrain the content change to only occur in regions determined by user-defined region prompts in each editing step. Furthermore, we propose an overlapped semantic component suppression technique to encourage the optimization process to focus more on the semantic differences between prompts. Extensive experiments demonstrate that the proposed Progressive3D framework generates precise 3D content for prompts with complex semantics and is general for various text-to-3D methods driven by different 3D representations.
翻訳日:2023-10-19 17:29:46 公開日:2023-10-18
# テキストアノテーションハンドブック: 機械学習プロジェクトのための実践的ガイド

Text Annotation Handbook: A Practical Guide for Machine Learning Projects ( http://arxiv.org/abs/2310.11780v1 )

ライセンス: Link先を確認
Felix Stollenwerk, Joey \"Ohman, Danila Petrelli, Emma Waller\"o, Fredrik Olsson, Camilla Bengtsson, Andreas Horndahl, Gabriela Zarzar Gandler(参考訳) このハンドブックは、テキストアノテーションタスクへのアプローチに関するハンズオンガイドです。 トピックを穏やかに紹介し、理論的な概念の概要と実践的なアドバイスを提供します。 主に技術的な話題だが、ビジネス、倫理、規制の問題も取り上げられている。 その焦点は、完全性や科学的厳密性よりも可読性と簡潔性にある。 アノテーションと機械学習の知識の経験は有用だが、必要ではない。 ドキュメントは、チームリーダー、プロジェクトマネージャ、ITアーキテクト、ソフトウェア開発者、機械学習エンジニアなど、幅広い専門職のためのプライマーまたはリファレンスブックとして機能する。

This handbook is a hands-on guide on how to approach text annotation tasks. It provides a gentle introduction to the topic, an overview of theoretical concepts as well as practical advice. The topics covered are mostly technical, but business, ethical and regulatory issues are also touched upon. The focus lies on readability and conciseness rather than completeness and scientific rigor. Experience with annotation and knowledge of machine learning are useful but not required. The document may serve as a primer or reference book for a wide range of professions such as team leaders, project managers, IT architects, software developers and machine learning engineers.
翻訳日:2023-10-19 17:29:24 公開日:2023-10-18
# 大規模テキスト・画像モデルにおける不適切なステレオタイプ検出のための言語エージェント

Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale ( http://arxiv.org/abs/2310.11778v1 )

ライセンス: Link先を確認
Qichao Wang, Tian Bian, Yian Yin, Tingyang Xu, Hong Cheng, Helen M. Meng, Zibin Zheng, Liang Chen, Bingzhe Wu(参考訳) 最近の拡散モデルの研究の急増は、様々な人工知能生成コンテンツ(aigc)製品におけるテキストから画像へのモデルの採用を加速させた。 これらの例外的なaigc製品は、消費者の認知と熱意の高まりを招いているが、これらのモデルが既存の社会ステレオタイプを意図せず強化するかどうか、いつ、そしてどのように疑問を抱いている。 近年の言語エージェントの進歩に触発され,テキストから画像へのステレオタイプ検出に適した新しいエージェントアーキテクチャを導入する。 この多用途エージェントアーキテクチャは、フリーフォーム検出タスクを収容することができ、対応する命令や画像の生成からステレオタイプの検出まで、プロセス全体を容易にするための様々なツールを自律的に呼び出すことができる。 我々は,複数のオープンテキストデータセットに基づくステレオタイプ対応ベンチマークを構築し,このアーキテクチャを商用製品や一般的なオープンソースのテキスト・ツー・イメージモデルに適用する。 これらのモデルは、個人的特徴、社会的文化的文脈、犯罪関連側面に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。 要約すると、これらの経験的発見は、ジェンダー、人種、宗教を含む社会次元にまたがるステレオタイプの存在を浮き彫りにして、提案手法の有効性を検証するだけでなく、AIGCの急成長する領域における潜在的な倫理的リスクに対処する上で重要な必要性を強調している。 aigcは急速に拡大を続け、新しいモデルとプラグインが日々驚くべき数で出現するにつれ、これらのモデル内の潜在的なバイアスをタイムリーに検出し緩和することが課題となっている。

The recent surge in the research of diffusion models has accelerated the adoption of text-to-image models in various Artificial Intelligence Generated Content (AIGC) commercial products. While these exceptional AIGC products are gaining increasing recognition and sparking enthusiasm among consumers, the questions regarding whether, when, and how these models might unintentionally reinforce existing societal stereotypes remain largely unaddressed. Motivated by recent advancements in language agents, here we introduce a novel agent architecture tailored for stereotype detection in text-to-image models. This versatile agent architecture is capable of accommodating free-form detection tasks and can autonomously invoke various tools to facilitate the entire process, from generating corresponding instructions and images, to detecting stereotypes. We build the stereotype-relevant benchmark based on multiple open-text datasets, and apply this architecture to commercial products and popular open source text-to-image models. We find that these models often display serious stereotypes when it comes to certain prompts about personal characteristics, social cultural context and crime-related aspects. In summary, these empirical findings underscore the pervasive existence of stereotypes across social dimensions, including gender, race, and religion, which not only validate the effectiveness of our proposed approach, but also emphasize the critical necessity of addressing potential ethical risks in the burgeoning realm of AIGC. As AIGC continues its rapid expansion trajectory, with new models and plugins emerging daily in staggering numbers, the challenge lies in the timely detection and mitigation of potential biases within these models.
翻訳日:2023-10-19 17:29:15 公開日:2023-10-18
# コヒーレンスモデルの拡張による長文トピックセグメンテーションモデルの改善

Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling ( http://arxiv.org/abs/2310.11772v1 )

ライセンス: Link先を確認
Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang(参考訳) トピックセグメンテーションは構造化された長いドキュメントを取得し、情報検索のような下流タスクを改善するために重要である。 大量のラベル付きデータからトピックシフトの手がかりを自動的に探索する能力のため、近年の教師付きニューラルネットワークは、長い文書のトピックセグメンテーションの開発を大いに促進しているが、セマンティックコヒーレンスとトピックセグメンテーションの深い関係は未解明のままである。 そこで本論文では,教師付きモデルにより,構造と類似性の観点からコヒーレンスを捉える能力を高め,トピック認識文構造予測 (tssp) やコントラスト的意味類似性学習 (cssl) など,トピックセグメンテーション性能をさらに向上させる。 具体的には、TSSPタスクは、そのトピックと文レベルで原文を共同的に破壊して構築した非配列文書において、隣接文の原文関係を学習することにより、構造情報の理解を強制する。 さらに,トピック間情報とトピック内情報を用いて対比サンプルを作成し,cssl目標の設計を行い,同一トピック内の文表現が意味的類似度が高いが,異なるトピックの文は類似度が低いことを保証する。 広汎な実験により,我々のアプローチによるロングフォーマーは,従来のSOTA法よりも優れていた。 提案手法は,wiki-727k において,古い sota の $f_{1}$ を 3.42 (73.74 -> 77.16) 改善し,$p_{k}$ を 1.11 ポイント (15.0 -> 13.89) 削減し,wiki セクション 上で $p_{k}$ で 0.83 ポイント削減する。 P_{k}$平均2.82点のドメイン外のデータセットは、我々のアプローチの堅牢性も示している。

Topic segmentation is critical for obtaining structured long documents and improving downstream tasks like information retrieval. Due to its ability of automatically exploring clues of topic shift from a large amount of labeled data, recent supervised neural models have greatly promoted the development of long document topic segmentation, but leaving the deeper relationship of semantic coherence and topic segmentation underexplored. Therefore, this paper enhances the supervised model's ability to capture coherence from both structure and similarity perspectives to further improve the topic segmentation performance, including the Topic-aware Sentence Structure Prediction (TSSP) and Contrastive Semantic Similarity Learning (CSSL). Specifically, the TSSP task is proposed to force the model to comprehend structural information by learning the original relations of adjacent sentences in a disarrayed document, which is constructed by jointly disrupting the original document at the topic and sentence levels. In addition, we utilize inter- and intra-topic information to construct contrastive samples and design the CSSL objective to ensure that the sentences representations in the same topic have higher semantic similarity, while those in different topics are less similar. Extensive experiments show that the Longformer with our approach significantly outperforms old state-of-the-art (SOTA) methods. Our approach improves $F_{1}$ of old SOTA by 3.42 (73.74 -> 77.16) and reduces $P_{k}$ by 1.11 points (15.0 -> 13.89) on WIKI-727K and achieves an average reduction of 0.83 points on $P_{k}$ on WikiSection. The average $P_{k}$ drop of 2.82 points on the two out-of-domain datasets also illustrates the robustness of our approach
翻訳日:2023-10-19 17:28:47 公開日:2023-10-18
# 名前付きエンティティ認識によるアノテートジョブ広告

Annotated Job Ads with Named Entity Recognition ( http://arxiv.org/abs/2310.11769v1 )

ライセンス: Link先を確認
Felix Stollenwerk, Niklas Fastlund, Anna Nyqvist, Joey \"Ohman(参考訳) 我々は、スウェーデンの求人広告を様々な有用な情報(求職者に必要なスキルなど)にスクリーニングする名前付きエンティティ認識(NER)モデルを訓練した。 KB-BERTを微調整した。 私たちが直面した最大の課題は、手動アノテーションを必要とするラベル付きデータセットの作成でした。 本稿では,アノテーション処理をより効率的にし,高品質なデータを確保するために採用した手法の概要を示す。 また、結果のモデルの性能についても報告する。

We have trained a named entity recognition (NER) model that screens Swedish job ads for different kinds of useful information (e.g. skills required from a job seeker). It was obtained by fine-tuning KB-BERT. The biggest challenge we faced was the creation of a labelled dataset, which required manual annotation. This paper gives an overview of the methods we employed to make the annotation process more efficient and to ensure high quality data. We also report on the performance of the resulting model.
翻訳日:2023-10-19 17:28:09 公開日:2023-10-18
# マルチタスク一貫性 ソースフリーテスト時間領域適応医療画像セグメンテーション

Multi Task Consistency Guided Source-Free Test-Time Domain Adaptation Medical Image Segmentation ( http://arxiv.org/abs/2310.11766v1 )

ライセンス: Link先を確認
Yanyu Ye, Zhenxi Zhang, Wei Wei, Chunna Tian(参考訳) 医用画像セグメンテーションのソースフリーなテストタイム適応は、対象領域の多様な未確認テストセットへのセグメンテーションモデルの適応性を高めることを目的としており、ソースドメインにアクセスすることなく、医用画像セグメンテーションモデルの一般化性と堅牢性に寄与する。 ターゲットエッジとペア入力の整合性の確保は、テスト時間適応に不可欠である。 テスト時間領域適応の性能を向上させるために,ローカル境界予測とグローバルプロトタイプ表現の整合性を保証するマルチタスク整合性ガイド付きソースフリーなテスト時間領域適応医療画像分割法を提案する。 具体的には,組織領域セグメンテーションと組織境界局所化タスクの関係を探索する局所境界整合性制約法を提案する。 さらに,クラス内コンパクト性を高めるため,グローバルな特徴整合性制約を提案する。 我々はベンチマーク眼底画像のセグメンテーションに関する広範囲な実験を行う。 ソースドメインモデルによる予測と比較して、セグメンテーションDiceスコアはRIM-ONE-r3とDrishti GSデータセットでそれぞれ6.27\%と0.96\%向上する。 さらに,提案手法が既存の競合領域適応セグメンテーションアルゴリズムよりも優れていることを示す実験を行った。

Source-free test-time adaptation for medical image segmentation aims to enhance the adaptability of segmentation models to diverse and previously unseen test sets of the target domain, which contributes to the generalizability and robustness of medical image segmentation models without access to the source domain. Ensuring consistency between target edges and paired inputs is crucial for test-time adaptation. To improve the performance of test-time domain adaptation, we propose a multi task consistency guided source-free test-time domain adaptation medical image segmentation method which ensures the consistency of the local boundary predictions and the global prototype representation. Specifically, we introduce a local boundary consistency constraint method that explores the relationship between tissue region segmentation and tissue boundary localization tasks. Additionally, we propose a global feature consistency constraint toto enhance the intra-class compactness. We conduct extensive experiments on the segmentation of benchmark fundus images. Compared to prediction directly by the source domain model, the segmentation Dice score is improved by 6.27\% and 0.96\% in RIM-ONE-r3 and Drishti GS datasets, respectively. Additionally, the results of experiments demonstrate that our proposed method outperforms existing competitive domain adaptation segmentation algorithms.
翻訳日:2023-10-19 17:28:01 公開日:2023-10-18
# グラフニューラルネットワーク学習のための準wasserstein損失

A Quasi-Wasserstein Loss for Learning Graph Neural Networks ( http://arxiv.org/abs/2310.11762v1 )

ライセンス: Link先を確認
Minjie Cheng and Hongteng Xu(参考訳) ノードレベルの予測タスクでグラフニューラルネットワーク(GNN)を学習する場合、ノードの埋め込みとそのラベルがグラフ構造のため非i.d.である場合でも、既存の損失関数は各ノードに独立して適用される。 そこで本研究では,グラフ上で定義された最適輸送の助けを借りて,新たな準ワッサーシュタイン損失(QW)を提案し,GNNの新たな学習・予測パラダイムを導出する。 特に,観測された多次元ノードラベルと推定値との"Quasi-Wasserstein"距離を設計し,グラフエッジ上で定義されたラベル転送を最適化する。 推定は、最適ラベル輸送がグラフエッジ重みを任意に決定できるGNNによってパラメータ化される。 ラベル転送の厳密な制約をbregman divergence-based regularizerに再構成することで、gnnを学習する2つの効率的な解法と最適なラベル転送に関する疑似wasserstein損失を得る。 ノードラベルを予測する場合、GNNの出力と最適なラベル転送によって提供される残差成分を組み合わせ、新たなトランスダクティブ予測パラダイムを導出する。 実験の結果,提案したQW損失は様々なGNNに適用され,ノードレベルの分類や回帰タスクのパフォーマンス向上に有効であることがわかった。

When learning graph neural networks (GNNs) in node-level prediction tasks, most existing loss functions are applied for each node independently, even if node embeddings and their labels are non-i.i.d. because of their graph structures. To eliminate such inconsistency, in this study we propose a novel Quasi-Wasserstein (QW) loss with the help of the optimal transport defined on graphs, leading to new learning and prediction paradigms of GNNs. In particular, we design a "Quasi-Wasserstein" distance between the observed multi-dimensional node labels and their estimations, optimizing the label transport defined on graph edges. The estimations are parameterized by a GNN in which the optimal label transport may determine the graph edge weights optionally. By reformulating the strict constraint of the label transport to a Bregman divergence-based regularizer, we obtain the proposed Quasi-Wasserstein loss associated with two efficient solvers learning the GNN together with optimal label transport. When predicting node labels, our model combines the output of the GNN with the residual component provided by the optimal label transport, leading to a new transductive prediction paradigm. Experiments show that the proposed QW loss applies to various GNNs and helps to improve their performance in node-level classification and regression tasks.
翻訳日:2023-10-19 17:27:41 公開日:2023-10-18
# 法的判断予測に基づく大規模言語モデルの包括的評価

A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction ( http://arxiv.org/abs/2310.11761v1 )

ライセンス: Link先を確認
Ruihao Shui, Yixin Cao, Xiang Wang and Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)は、法律ドメインのようなドメイン固有のアプリケーションに大きな可能性を示している。 しかし、近年のGPT-4の法律評価をめぐる論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。 法律におけるその能力を体系的に調査するために,llmに基づく実用的なベースラインソリューションを設計し,法的判断予測のタスクをテストする。 我々のソリューションでは、llmは単独でオープン質問に答えるか、情報検索(ir)システムと協調して類似したケースから学ぶか、あるいは単純化されたマルチチョイス問題を解くことができる。 同様のケースやマルチチョイスオプション、すなわちプロンプトに含まれるラベル候補は、専門知識の法的推論に不可欠なドメイン知識をllmが思い出すのに役立つことを示す。 さらに、強力なIRシステムから弱いLLMが獲得した限られた利得により、IRシステムがLLM+IRの性能を上回る興味深いパラドックスを提示する。 このような場合、LLMの役割は冗長になる。 評価パイプラインは、他の領域での評価を容易にするために、簡単に他のタスクに拡張できる。 コードはhttps://github.com/srhthu/LM-CompEval-Legalで入手できる。

Large language models (LLMs) have demonstrated great potential for domain-specific applications, such as the law domain. However, recent disputes over GPT-4's law evaluation raise questions concerning their performance in real-world legal tasks. To systematically investigate their competency in the law, we design practical baseline solutions based on LLMs and test on the task of legal judgment prediction. In our solutions, LLMs can work alone to answer open questions or coordinate with an information retrieval (IR) system to learn from similar cases or solve simplified multi-choice questions. We show that similar cases and multi-choice options, namely label candidates, included in prompts can help LLMs recall domain knowledge that is critical for expertise legal reasoning. We additionally present an intriguing paradox wherein an IR system surpasses the performance of LLM+IR due to limited gains acquired by weaker LLMs from powerful IR systems. In such cases, the role of LLMs becomes redundant. Our evaluation pipeline can be easily extended into other tasks to facilitate evaluations in other domains. Code is available at https://github.com/srhthu/LM-CompEval-Legal
翻訳日:2023-10-19 17:27:16 公開日:2023-10-18
# 未知の攻撃を伴うドメイン一般化顔偽造

Domain-Generalized Face Anti-Spoofing with Unknown Attacks ( http://arxiv.org/abs/2310.11758v1 )

ライセンス: Link先を確認
Zong-Wei Hong, Yu-Chen Lin, Hsuan-Tung Liu, Yi-Ren Yeh, Chu-Song Chen(参考訳) face anti-spoofing (fas) メソッドは特定のドメインや攻撃タイプにおいて顕著なパフォーマンスを達成したが、実際のアプリケーションシナリオに近いドメイン変更と未知のアタックの同時発生に焦点を当てた研究はほとんどない。 ドメイン一般化未知攻撃に対処するため,トランスフォーマーベースの特徴抽出器と合成未知攻撃サンプルジェネレータ(SUASG)を組み合わせた新しい手法DGUA-FASを導入する。 SUASGネットワークは未知の攻撃サンプルをシミュレートし、特徴抽出器の訓練を支援する。 実験結果から,本手法は未知または未知の攻撃を伴う領域一般化FASにおいて優れた性能を発揮することが示された。

Although face anti-spoofing (FAS) methods have achieved remarkable performance on specific domains or attack types, few studies have focused on the simultaneous presence of domain changes and unknown attacks, which is closer to real application scenarios. To handle domain-generalized unknown attacks, we introduce a new method, DGUA-FAS, which consists of a Transformer-based feature extractor and a synthetic unknown attack sample generator (SUASG). The SUASG network simulates unknown attack samples to assist the training of the feature extractor. Experimental results show that our method achieves superior performance on domain generalization FAS with known or unknown attacks.
翻訳日:2023-10-19 17:26:57 公開日:2023-10-18
# rgm:ロバストなジェネラリストマッチングモデル

RGM: A Robust Generalist Matching Model ( http://arxiv.org/abs/2310.11755v1 )

ライセンス: Link先を確認
Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen(参考訳) 画像のペア内で対応するピクセルを見つけることは、様々な応用を伴う基本的なコンピュータビジョンタスクである。 光学的フロー推定や局所的特徴マッチングのような様々なタスクの特定の要求のため、以前の研究は主に、特定のアーキテクチャに焦点を当てた密マッチングとスパースな特徴マッチングとタスク固有のデータセットに分類される。 本稿では, rgm (robust generalist matching) と呼ばれる, ばらばらで密なマッチングのための深いモデルを提案する。 特に,複数のスケールで幾何的類似性を反復的に探索し,スペーシフィケーションのための新たな不確実性推定モジュールを付加することにより,改良のためのカスケードGRUモジュールを精巧に設計する。 合成トレーニングサンプルと実世界のシナリオの間のギャップを狭めるために,より間隔の長い光フロー監視を生成することにより,スパース対応基底真理を持つ新しい大規模データセットを構築した。 そのため、さまざまな密集したスパースマッチングデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善できます。 提案するRGMの一般化能力は、2段階の混合データに基づいてマッチングと不確実性推定を学習することにより大幅に向上する。 ゼロショットマッチングとダウンストリームジオメトリを複数のデータセットにまたがって推定することで優れた性能を実現し、従来の手法を大きなマージンで上回っている。

Finding corresponding pixels within a pair of images is a fundamental computer vision task with various applications. Due to the specific requirements of different tasks like optical flow estimation and local feature matching, previous works are primarily categorized into dense matching and sparse feature matching focusing on specialized architectures along with task-specific datasets, which may somewhat hinder the generalization performance of specialized models. In this paper, we propose a deep model for sparse and dense matching, termed RGM (Robust Generalist Matching). In particular, we elaborately design a cascaded GRU module for refinement by exploring the geometric similarity iteratively at multiple scales following an additional uncertainty estimation module for sparsification. To narrow the gap between synthetic training samples and real-world scenarios, we build a new, large-scale dataset with sparse correspondence ground truth by generating optical flow supervision with greater intervals. As such, we are able to mix up various dense and sparse matching datasets, significantly improving the training diversity. The generalization capacity of our proposed RGM is greatly improved by learning the matching and uncertainty estimation in a two-stage manner on the large, mixed data. Superior performance is achieved for zero-shot matching and downstream geometry estimation across multiple datasets, outperforming the previous methods by a large margin.
翻訳日:2023-10-19 17:26:43 公開日:2023-10-18
# IntentDial:Reasoning Pathを可視化したインテントグラフに基づくマルチトゥル対話システム

IntentDial: An Intent Graph based Multi-Turn Dialogue System with Reasoning Path Visualization ( http://arxiv.org/abs/2310.11818v1 )

ライセンス: Link先を確認
Zengguang Hao and Jie Zhang and Binxia Xu and Yafang Wang and Gerard de Melo and Xiaolong Li(参考訳) 対話エージェント,例えば音声アシスタントやインテリジェント顧客サービスにおいて,マルチターン対話からのインテント検出と識別が広く研究されている。 従来のアプローチでは、インテントマイニングプロセスを分類タスクとして採用していた。 神経分類器はそのような分類タスクに長けているが、ニューラルネットワークモデルの問題はしばしば実際の環境での実際の展開を妨げる。 本稿では,動的に構築された拡張可能なインテントグラフから,インテント要素と標準クエリを識別することでユーザのインテントを識別する,グラフベースの多ターン対話システムである。 さらに,対話の各行毎の即時推論経路を監視するための可視化コンポーネントも提供し,システムの改善を大いに促進する。

Intent detection and identification from multi-turn dialogue has become a widely explored technique in conversational agents, for example, voice assistants and intelligent customer services. The conventional approaches typically cast the intent mining process as a classification task. Although neural classifiers have proven adept at such classification tasks, the issue of neural network models often impedes their practical deployment in real-world settings. We present a novel graph-based multi-turn dialogue system called , which identifies a user's intent by identifying intent elements and a standard query from a dynamically constructed and extensible intent graph using reinforcement learning. In addition, we provide visualization components to monitor the immediate reasoning path for each turn of a dialogue, which greatly facilitates further improvement of the system.
翻訳日:2023-10-19 17:19:47 公開日:2023-10-18
# うるさい金融データに対する保守的予測

Conservative Predictions on Noisy Financial Data ( http://arxiv.org/abs/2310.11815v1 )

ライセンス: Link先を確認
Omkar Nabar, Gautam Shroff(参考訳) 金融市場の価格変動は非常に騒々しいことが知られている。 結果として、たとえ機械学習アルゴリズムによって拾える悪用可能なパターンがあったとしても、これらは特徴やラベルのノイズによって曖昧にされ、予測があまり有用でなく、実際は危険である。 cn2などのノイズデータのための従来のルール学習技術は、高精度なルールのみを求め、先行者が適用しない予測を控える。 我々は、モデルが不確実であるデータポイントの予測を控える、同様のアプローチを適用する。 トレーニング中、これらのモデルのカスケードはルールリストに似た順序で学習され、各モデルは前のモデルが不確かだったデータに基づいてのみ訓練される。 同様のデータのプルーニングはテスト時に行われ、(より精度の高い)予測はテスト時間データのほんの一部(サポート)でのみ行われる。 金融予測設定では、このようなアプローチにより、アンサンブルモデルが信頼されている場合にのみ決定を下すことができ、リスクを低減できる。 本稿では,従来のMLPと相違可能な決定木を用いて,合成データと実際の金融市場データを用いて,一般的な特徴を用いた定期リターンの予測を行う。 当社のアプローチはリスクの低いレベルで全体のリターンが向上する可能性が高いと提案します。 この文脈では、貿易当たりの平均利得を測定するための実用的指標と、ダウンサイドリスクのために調整されたリターンを導入し、どちらも我々のアプローチによって大幅に改善される。

Price movements in financial markets are well known to be very noisy. As a result, even if there are, on occasion, exploitable patterns that could be picked up by machine-learning algorithms, these are obscured by feature and label noise rendering the predictions less useful, and risky in practice. Traditional rule-learning techniques developed for noisy data, such as CN2, would seek only high precision rules and refrain from making predictions where their antecedents did not apply. We apply a similar approach, where a model abstains from making a prediction on data points that it is uncertain on. During training, a cascade of such models are learned in sequence, similar to rule lists, with each model being trained only on data on which the previous model(s) were uncertain. Similar pruning of data takes place at test-time, with (higher accuracy) predictions being made albeit only on a fraction (support) of test-time data. In a financial prediction setting, such an approach allows decisions to be taken only when the ensemble model is confident, thereby reducing risk. We present results using traditional MLPs as well as differentiable decision trees, on synthetic data as well as real financial market data, to predict fixed-term returns using commonly used features. We submit that our approach is likely to result in better overall returns at a lower level of risk. In this context we introduce an utility metric to measure the average gain per trade, as well as the return adjusted for downside risk, both of which are improved significantly by our approach.
翻訳日:2023-10-19 17:19:24 公開日:2023-10-18
# shapegraformer:graformerベースの単一深度マップからのハンドオブジェクト再構成ネットワーク

ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map ( http://arxiv.org/abs/2310.11811v1 )

ライセンス: Link先を確認
Ahmed Tawfik Aboukhadra, Jameel Malik, Nadia Robertini, Ahmed Elhayek, Didier Stricker(参考訳) 人間の動作をエミュレートするためには,手指操作の3次元再構築が重要である。 問題のあるオブジェクト操作シナリオを扱うほとんどのメソッドは、分離されたハンドレコンストラクションにフォーカスし、オブジェクトの接触による物理的および運動的な制約を無視している。 いくつかのアプローチは、3Dハンドオブジェクトの相互作用を共同で再構築することでより現実的な結果をもたらす。 しかし、それらは粗いポーズ推定にフォーカスするか、既知の手や物体の形状に依存する。 そこで本研究では, 現実的な3次元物体形状に対する最初のアプローチを提案する。 従来の作業とは異なり、我々のボクセルベースの再構成ネットワークは、手と物体の頂点座標を後退させ、より現実的な相互作用を再構築する。 当社のパイプラインではさらに,入力されたvoxelized深度への1対1マッピングによって,voxelizedハンドオブジェクト形状を予測しています。 その後,最近のグラフォーマネットワークと位置埋め込みを利用して,テンプレートメッシュから形状を再構成することで,手と物体の形状のグラフ性を活用する。 さらに,手動物体の相互作用に基づいて再構成された形状を改良するGraFormerコンポーネントの追加と,より正確な形状を再構築する能力について述べる。 HO-3D と DexYCB のデータセットを広範囲に評価し,本手法が手指再建における既存手法よりも優れていることを示す。

3D reconstruction of hand-object manipulations is important for emulating human actions. Most methods dealing with challenging object manipulation scenarios, focus on hands reconstruction in isolation, ignoring physical and kinematic constraints due to object contact. Some approaches produce more realistic results by jointly reconstructing 3D hand-object interactions. However, they focus on coarse pose estimation or rely upon known hand and object shapes. We propose the first approach for realistic 3D hand-object shape and pose reconstruction from a single depth map. Unlike previous work, our voxel-based reconstruction network regresses the vertex coordinates of a hand and an object and reconstructs more realistic interaction. Our pipeline additionally predicts voxelized hand-object shapes, having a one-to-one mapping to the input voxelized depth. Thereafter, we exploit the graph nature of the hand and object shapes, by utilizing the recent GraFormer network with positional embedding to reconstruct shapes from template meshes. In addition, we show the impact of adding another GraFormer component that refines the reconstructed shapes based on the hand-object interactions and its ability to reconstruct more accurate object shapes. We perform an extensive evaluation on the HO-3D and DexYCB datasets and show that our method outperforms existing approaches in hand reconstruction and produces plausible reconstructions for the objects
翻訳日:2023-10-19 17:18:40 公開日:2023-10-18
# マルチタスクニューラルネットワークによる量子特性の学習と発見

Learning and Discovering Quantum Properties with Multi-Task Neural Networks ( http://arxiv.org/abs/2310.11807v1 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Yuexuan Wang and Giulio Chiribella(参考訳) ディープニューラルネットワークは、限られた測定データから量子状態の特性を予測する強力なツールである。 ここでは、量子可観測物の期待値だけでなく、絡み合いエントロピーや多体位相不変量などの量子状態の一般的な非線形関数を含む、複数の量子特性を同時に予測できるネットワークモデルを開発する。 注目すべきは、与えられたプロパティセットでトレーニングされたモデルが、そのセットの外で新しいプロパティを発見できることだ。 多目的トレーニングはまた、モデルが局所的な測定から多体量子システムの大域的性質を推測し、対称性が保護された物質の位相相を分類し、異なる位相間の未知の境界を発見することを可能にする。

Deep neural networks are a powerful tool for predicting properties of quantum states from limited measurement data. Here we develop a network model that can simultaneously predict multiple quantum properties, including not only expectation values of quantum observables, but also general nonlinear functions of the quantum state, like entanglement entropies and many-body topological invariants. Remarkably, we find that a model trained on a given set of properties can also discover new properties outside that set. Multi-purpose training also enables the model to infer global properties of many-body quantum systems from local measurements, to classify symmetry protected topological phases of matter, and to discover unknown boundaries between different phases.
翻訳日:2023-10-19 17:17:37 公開日:2023-10-18
# タクシーの局所ホットスポットの空間配置における階層的付随と抑制パターン

Hierarchical accompanying and inhibiting patterns on the spatial arrangement of taxis' local hotspots ( http://arxiv.org/abs/2310.11806v1 )

ライセンス: Link先を確認
Xiao-Jian Chen, Changjiang Xiao, Zhou Huanga, Keli Wang, Weiyu Zhang, Yu Liu(参考訳) 記録量が多いこと、完全な自発性、柔軟なピックアップ・アンド・ドロップオフの場所などにより、タクシーデータは都市空間の使用の写実的で詳細な描写をある程度表現している。 ピックアップ・アンド・ドロップオフホットスポットの空間配置は、都市構造研究で注目されている組織空間を反映している。 これまでの研究は主に、ビジュアル分析や簡単な指標によって大規模なホットスポットを探索し、そのホットスポットは通常、中央ビジネス地区、駅、密集した住宅地全体をカバーし、半径数百m、あるいは数千mに達する。 しかし, 小型ホットスポットの空間配置パターンは, 特定のピックアップスポットやドロップオフロケーションを反映しているため, あまり注目されていない。 本研究は,中国武漢と北京の2つのタクシー軌道データセットを用いて,現地のホットスポット識別手法により,武漢の90m*90m,北京の105m*105mを適応的に設定した,異なる人気水準の局所ホットスポットの細粒度ピックアップとドロップオフの空間配置を定量的に検討した。 その結果、人気のあるホットスポットは、あまり人気のあるホットスポットに囲まれない傾向があるが、人気ホットスポットが少ない地域では、人気ホットスポットの存在が抑制されている。 これら2つの空間構成の階層化とパターンの抑制という用語を用いる。 最後に、その基盤となるメカニズムを明らかにするために、最もポピュラーでないホットスポットの空間分布を再現するKNNモデルを提案する。 これらの知見は、意思決定者が正確な交通量と疾病管理のための合理的な都市最小単位を構築するのに役立つ。

Due to the large volume of recording, the complete spontaneity, and the flexible pick-up and drop-off locations, taxi data portrays a realistic and detailed picture of urban space use to a certain extent. The spatial arrangement of pick-up and drop-off hotspots reflects the organizational space, which has received attention in urban structure studies. Previous studies mainly explore the hotspots at a large scale by visual analysis or some simple indexes, where the hotspots usually cover the entire central business district, train stations, or dense residential areas, reaching a radius of hundreds or even thousands of meters. However, the spatial arrangement patterns of small-scale hotspots, reflecting the specific popular pick-up and drop-off locations, have not received much attention. Using two taxi trajectory datasets in Wuhan and Beijing, China, this study quantitatively explores the spatial arrangement of fine-grained pick-up and drop-off local hotspots with different levels of popularity, where the sizes are adaptively set as 90m*90m in Wuhan and 105m*105m in Beijing according to the local hotspot identification method. Results show that popular hotspots tend to be surrounded by less popular hotspots, but the existence of less popular hotspots is inhibited in regions with a large number of popular hotspots. We use the terms hierarchical accompany and inhibiting patterns for these two spatial configurations. Finally, to uncover the underlying mechanism, a KNN-based model is proposed to reproduce the spatial distribution of other less popular hotspots according to the most popular ones. These findings help decision-makers construct reasonable urban minimum units for precise traffic and disease control, as well as plan a more humane spatial arrangement of points of interest.
翻訳日:2023-10-19 17:17:18 公開日:2023-10-18
# 物理系の量子力学シミュレーションに向けて:サーベイ

Towards Quantum Dynamics Simulation of Physical Systems: A Survey ( http://arxiv.org/abs/2310.11801v1 )

ライセンス: Link先を確認
Rikteem Bhowmick, Navaneeth Krishnan Mohan, Devesh Kumar, Rohit Chaurasiya, Nixon Patel(参考訳) 量子力学が出現し、物理系の正確な理解の必要性が認識された後、数値的な手法が量子力学処理に用いられてきた。 システム相関とサイズの増加に伴い、数値的な手法はかなり非効率になり、実際の量子コンピューティングハードウェア上で量子力学現象をシミュレートする必要が生じた。 今や、ノイズの多い量子コンピューティングマシンが構築され、使用できるようになった今、量子シミュレーションの実現は現実に近づいている。 本稿では,実際の量子コンピューティングハードウェアによる量子シミュレーションの分野における進歩について論じるとともに,枝を広げた非常に魅力的な分野についても述べる。 それだけでなく、これまで利用可能なさまざまなソフトウェアツールセットについてもレビューしています。

After the emergence of quantum mechanics and realising its need for an accurate understanding of physical systems, numerical methods were being used to undergo quantum mechanical treatment. With increasing system correlations and size, numerical methods fell rather inefficient, and there was a need to simulate quantum mechanical phenomena on actual quantum computing hardware. Now, with noisy quantum computing machines that have been built and made available to use, realising quantum simulations are edging towards a practical reality. In this paper, we talk about the progress that has been made in the field of quantum simulations by actual quantum computing hardware and talk about some very fascinating fields where it has expanded its branches, too. Not only that, but we also review different software tool-sets available to date, which are to lay the foundation for realising quantum simulations in a much more comprehensive manner.
翻訳日:2023-10-19 17:16:46 公開日:2023-10-18
# オークションに基づくスケジューリング

Auction-Based Scheduling ( http://arxiv.org/abs/2310.11798v1 )

ライセンス: Link先を確認
Guy Avni, Kaushik Mallik, Suman Sadhukhan(参考訳) 多くのシーケンシャルな意思決定タスクは、複数の部分的に矛盾する目的の満足度を必要とする。 既存のアプローチはモノリシックで、すなわち、アクションのシーケンスを選択する関数である単一のポリシを使用して、すべての目的を達成している。 本稿では,多目的意思決定問題に対するモジュラーフレームワークであるオークションベースのスケジューリングを提案する。 それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。 当然のことながら、相反する目標を持つ異なる政策は、同時に相反する行動を選択することがある。 紛争を解決し、政策を構成するために、我々は新しいオークションベースのメカニズムを採用する。 我々は、各政策に制限付き予算を割り当て、各段階において、スケジュールされ、行動を選択する特権のために、利用可能な予算から同時に政策を入札する。 ポリシーは入札と境界予算を使ってスケジュールの緊急性を表現し、長期のスケジュールの公平性を保証する。 2つの時間目標を持つ有限グラフ上の経路計画問題を用いたオークションベースのスケジューリングの基礎を提示する。 我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。 我々は、政策が相互に行う仮定によってパラメータ化される分散合成問題の3つのカテゴリを考察する。 (a)強い合成、仮定なし、強い保証なし。 (b)最弱理性仮定による前提許容合成、及び (c) 明示的な契約に基づく仮定を伴う前提保証合成。 到達可能性の目的に対して、すべての頂点の外度が少なくとも2つであるとき、驚くほど、非集中的な仮定許容合成が常に可能であることを示す。

Many sequential decision-making tasks require satisfaction of multiple, partially contradictory objectives. Existing approaches are monolithic, namely all objectives are fulfilled using a single policy, which is a function that selects a sequence of actions. We present auction-based scheduling, a modular framework for multi-objective decision-making problems. Each objective is fulfilled using a separate policy, and the policies can be independently created, modified, and replaced. Understandably, different policies with conflicting goals may choose conflicting actions at a given time. In order to resolve conflicts, and compose policies, we employ a novel auction-based mechanism. We allocate a bounded budget to each policy, and at each step, the policies simultaneously bid from their available budgets for the privilege of being scheduled and choosing an action. Policies express their scheduling urgency using their bids and the bounded budgets ensure long-run scheduling fairness. We lay the foundations of auction-based scheduling using path planning problems on finite graphs with two temporal objectives. We present decentralized algorithms to synthesize a pair of policies, their initially allocated budgets, and bidding strategies. We consider three categories of decentralized synthesis problems, parameterized by the assumptions that the policies make on each other: (a) strong synthesis, with no assumptions and strongest guarantees, (b) assume-admissible synthesis, with weakest rationality assumptions, and (c) assume-guarantee synthesis, with explicit contract-based assumptions. For reachability objectives, we show that, surprisingly, decentralized assume-admissible synthesis is always possible when the out-degrees of all vertices are at most two.
翻訳日:2023-10-19 17:16:33 公開日:2023-10-18
# Panoptic Out-of-Distribution Segmentation

Panoptic Out-of-Distribution Segmentation ( http://arxiv.org/abs/2310.11797v1 )

ライセンス: Link先を確認
Rohit Mohan, Kiran Kumaraswamy, Juana Valeria Hurtado, K\"ursat Petek, and Abhinav Valada(参考訳) ディープラーニングはシーン理解の飛躍的な進歩をもたらし、全体論的シーン解釈タスクとしてパンオプティカルセグメンテーションが出現した。 しかし、パノプティクスのセグメンテーションの性能は、トレーニング分布から逸脱するオブジェクトのカテゴリ(out-of-distriion(OOD)オブジェクトの存在に大きく影響している。 この制限を克服するために,インスタンス予測を用いた画素レベルの意味的分布分割と分布の分類を行うpanoptic out-of distribution segmentationを提案する。 確立されたpanopticセグメンテーションベンチマークであるcityscapesとbdd100kを拡張し、分散インスタンスセグメンテーションアノテーションを適用し、適切な評価メトリクスを提案し、複数の強力なベースラインを提示します。 重要なことは,共有バックボーンを持つ新しいPoDSアーキテクチャ,グローバルおよびローカルなOODオブジェクトキューを学習するためのOODコンテキストモジュール,および我々のアライメントミスマッチ戦略を利用したタスク固有ヘッドを持つデュアル対称デコーダを提案することである。 データ拡張戦略と組み合わせることで、このアプローチは、分散性能を維持しつつ、分散オブジェクトのプログレッシブな学習を促進する。 我々は,提案するPoDSネットワークが主要な課題に効果的に対処し,ベースラインを大幅に上回ることを示す広範な評価を行う。 データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。

Deep learning has led to remarkable strides in scene understanding with panoptic segmentation emerging as a key holistic scene interpretation task. However, the performance of panoptic segmentation is severely impacted in the presence of out-of-distribution (OOD) objects i.e. categories of objects that deviate from the training distribution. To overcome this limitation, we propose Panoptic Out-of Distribution Segmentation for joint pixel-level semantic in-distribution and out-of-distribution classification with instance prediction. We extend two established panoptic segmentation benchmarks, Cityscapes and BDD100K, with out-of-distribution instance segmentation annotations, propose suitable evaluation metrics, and present multiple strong baselines. Importantly, we propose the novel PoDS architecture with a shared backbone, an OOD contextual module for learning global and local OOD object cues, and dual symmetrical decoders with task-specific heads that employ our alignment-mismatch strategy for better OOD generalization. Combined with our data augmentation strategy, this approach facilitates progressive learning of out-of-distribution objects while maintaining in-distribution performance. We perform extensive evaluations that demonstrate that our proposed PoDS network effectively addresses the main challenges and substantially outperforms the baselines. We make the dataset, code, and trained models publicly available at http://pods.cs.uni-freiburg.de.
翻訳日:2023-10-19 17:16:11 公開日:2023-10-18
# 量子鍵分布のための約1550nmの65nm波長範囲で波長可変可能な光送信装置

Optical transmitter tunable over a 65-nm wavelength range around 1550 nm for quantum key distribution ( http://arxiv.org/abs/2310.11794v1 )

ライセンス: Link先を確認
B. Griffiths, Y. S. Lo, J. F. Dynes, R. I. Woodward, A. J. Shields(参考訳) 波長可変で位相制御された光パルスを生成する能力は、量子および古典的な通信ネットワークにまたがる応用がある。 伝統的に、光送信装置は一定の波長で位相制御パルスを生成するか、波長調整可能な連続波光を光パルスに変換するために、かさばる高価な外部変調器のチェーンを必要とする。 qkd(quantum key distribution)は、安全な通信を確保するために、リモートノードで完全にランダムな鍵を生成する技術である。 ユーザーが定期的に変更する必要があるデータセンターのような環境は、古典的な光ネットワークに統合するためにQKDの展開に適応性を必要とする。 本稿では、波長可変レーザーで固定された多モードファブリペロレーザー光注入による代替量子送信器の設計を提案し、実証する。 送信機は位相制御された光パルスを1550nm中心の波長範囲から65nmの範囲でGHz速度で生成することができる。 この送信機を用いて,Mb/sのビットレートが確保されたQKDの証明を行う。

The ability to create phase-controlled pulses of light with wavelength tunability has applications spanning quantum and classical communications networks. Traditionally, optical transmitters are able to either produce phase-controlled pulses at a fixed wavelength or require a chain of bulky and expensive external modulators to convert wavelength tunable continuous-wave light into optical pulses. One technology of great interest is quantum key distribution (QKD), a technology for generating perfectly random keys at remote nodes to ensure secure communications. Environments such as data centers, where the user needs change regularly, will require adaptability in the deployment of QKD to integrate into classical optical networks. Here we propose and demonstrate an alternative quantum transmitter design consisting of a multimodal Fabry-Perot laser optically injection locked by a wavelength tunable laser. The transmitter is able to produce phase-controlled optical pulses at GHz speeds with a tunable wavelength range of >65nm centered at 1550 nm. With this transmitter, we perform proof-of-principle QKD with secure bit rates of order Mb/s.
翻訳日:2023-10-19 17:15:47 公開日:2023-10-18
# neurocut:ロバストグラフ分割のためのニューラルネットワークアプローチ

NeuroCUT: A Neural Approach for Robust Graph Partitioning ( http://arxiv.org/abs/2310.11787v1 )

ライセンス: Link先を確認
Rishi Shah, Krishnanshu Jain, Sahil Manchanda, Sourav Medya and Sayan Ranu(参考訳) グラフパーティショニングは、グラフを$k$非結合サブセットに分割し、特定のパーティショニング目的を最適化することを目的としている。 グラフ分割に関する定式化の大部分は、その組合せの性質によりNP硬度を示す。 結果として、従来の近似アルゴリズムはヒューリスティックな手法に依存しており、時には近似を保証する。 残念なことに、伝統的なアプローチは特定の分割の目的のために調整されており、文献から他の既知の分割の目的をうまく一般化していない。 この制限を克服し、データから直接ヒューリスティックスを学ぶために、ニューラルネットワークが登場し、有望な結果を示している。 本研究では,ニューロカットという新たな枠組みを用いて,この研究を展開する。 NeuroCutは、一般的な方法論に関する2つの重要なイノベーションを紹介している。 まず、クエリ時に提供されるグラフトポロジとパーティションカウントの両方に誘導される。 第二に、グラフニューラルネットワークから派生したノード表現よりも強化学習に基づくフレームワークを活用することにより、NeuroCutは、微分不可能な関数を含む任意の最適化目標を満たすことができる。 経験的評価を通じて,ニューロカットは高品質なパーティションの同定に優れ,広い範囲の分割対象に対して強い一般化を示し,トポロジカルな修正に対するレジリエンスを示す。

Graph partitioning aims to divide a graph into $k$ disjoint subsets while optimizing a specific partitioning objective. The majority of formulations related to graph partitioning exhibit NP-hardness due to their combinatorial nature. As a result, conventional approximation algorithms rely on heuristic methods, sometimes with approximation guarantees and sometimes without. Unfortunately, traditional approaches are tailored for specific partitioning objectives and do not generalize well across other known partitioning objectives from the literature. To overcome this limitation, and learn heuristics from the data directly, neural approaches have emerged, demonstrating promising outcomes. In this study, we extend this line of work through a novel framework, NeuroCut. NeuroCut introduces two key innovations over prevailing methodologies. First, it is inductive to both graph topology and the partition count, which is provided at query time. Second, by leveraging a reinforcement learning based framework over node representations derived from a graph neural network, NeuroCut can accommodate any optimization objective, even those encompassing non-differentiable functions. Through empirical evaluation, we demonstrate that NeuroCut excels in identifying high-quality partitions, showcases strong generalization across a wide spectrum of partitioning objectives, and exhibits resilience to topological modifications.
翻訳日:2023-10-19 17:15:30 公開日:2023-10-18
# VQ-NeRF:ベクトル量子化によるニューラルリフレクタンス分解と編集

VQ-NeRF: Neural Reflectance Decomposition and Editing with Vector Quantization ( http://arxiv.org/abs/2310.11864v1 )

ライセンス: Link先を確認
Hongliang Zhong, Jingbo Zhang, Jing Liao(参考訳) 本研究では,ベクトル量子化(vector quantization, vq)を組み込んだ2分岐ニューラルネットワークモデルであるvq-nerfを提案する。 従来のニューラル・リフレクタンス・フィールドは、3Dシーンをモデル化するためにのみ連続表現を使用する。 この離散化の欠如は、ノイズのある材料分解と複雑な材料編集をもたらす。 これらの制限に対処するため、我々のモデルは連続枝と離散枝からなる。 連続枝は従来のパイプラインに従って分解物を予測し、離散枝はVQ機構を用いて連続物質を個別に定量化する。 材料を離散化することにより,分解過程におけるノイズを低減し,離散材料のセグメンテーションマップを生成する。 セグメンテーション結果の対応する領域をクリックして、さらに編集するための特定材料を容易に選択することができる。 さらに,シーン内の材料数を予測するために,ドロップアウトに基づくVQコードワードランキング手法を提案する。 ユーザビリティを向上させるために,素材編集を支援するインタラクティブインタフェースも開発している。 我々は,コンピュータ生成シーンと実世界のシーンの両方でモデルを評価し,その優れた性能を示す。 我々の知る限り、我々のモデルは3Dシーンで個別の素材編集を可能にする最初のモデルである。

We propose VQ-NeRF, a two-branch neural network model that incorporates Vector Quantization (VQ) to decompose and edit reflectance fields in 3D scenes. Conventional neural reflectance fields use only continuous representations to model 3D scenes, despite the fact that objects are typically composed of discrete materials in reality. This lack of discretization can result in noisy material decomposition and complicated material editing. To address these limitations, our model consists of a continuous branch and a discrete branch. The continuous branch follows the conventional pipeline to predict decomposed materials, while the discrete branch uses the VQ mechanism to quantize continuous materials into individual ones. By discretizing the materials, our model can reduce noise in the decomposition process and generate a segmentation map of discrete materials. Specific materials can be easily selected for further editing by clicking on the corresponding area of the segmentation outcomes. Additionally, we propose a dropout-based VQ codeword ranking strategy to predict the number of materials in a scene, which reduces redundancy in the material segmentation process. To improve usability, we also develop an interactive interface to further assist material editing. We evaluate our model on both computer-generated and real-world scenes, demonstrating its superior performance. To the best of our knowledge, our model is the first to enable discrete material editing in 3D scenes.
翻訳日:2023-10-19 17:10:16 公開日:2023-10-18
# 画像データに対するconvnetのパラメータ生成のための学習

Learning to Generate Parameters of ConvNets for Unseen Image Data ( http://arxiv.org/abs/2310.11862v1 )

ライセンス: Link先を確認
Shiye Wang, Kaituo Feng, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) 典型的な畳み込みニューラルネットワーク(convnets)は、大量の画像データに大きく依存し、ネットワークパラメータを学習するために反復最適化アルゴリズム(sgdやadamなど)を利用する。 本稿では,convnetアーキテクチャが与えられたとき,画像データセットとそれに対応する最適なネットワークパラメータの間に相関関係が存在することを観測し,それらの関係を捉えるハイパーマップを学習できるかどうかを検証し,トレーニングフェーズで見たことのない画像データセットのネットワークパラメータを直接予測できるように,新たなトレーニングパラダイムを提案し,convnetのパラメータ学習を予測タスクに定式化する。 そこで我々は,データセットとそれに対応するネットワークパラメータのマッピングを学習する目的で,PudNetと呼ばれる新しいハイパーネットワークモデルを提案し,そのパラメータを1つの前方伝播だけで予測する。 さらに,重みを共有する一連の適応型ハイパーリカレントユニットにより,異なるネットワーク層間のパラメータの依存性を捉えることができる。 大規模な実験により,提案手法は,データセット内予測とデータセット間予測の2種類のデータセットに対して有効であることが示された。 当社のPudNetは,ImageNet-1Kなど,大規模なデータセットにもスケールアップ可能です。 GCをスクラッチから使用してImageNet-1K上でResNet-18をトレーニングするには8967GPU秒を要する。 しかし、我々のpudnetはresnet-18のネットワークパラメータを予測するのにわずか3.89gpu秒しかかからない(44.92%)。

Typical Convolutional Neural Networks (ConvNets) depend heavily on large amounts of image data and resort to an iterative optimization algorithm (e.g., SGD or Adam) to learn network parameters, which makes training very time- and resource-intensive. In this paper, we propose a new training paradigm and formulate the parameter learning of ConvNets into a prediction task: given a ConvNet architecture, we observe there exists correlations between image datasets and their corresponding optimal network parameters, and explore if we can learn a hyper-mapping between them to capture the relations, such that we can directly predict the parameters of the network for an image dataset never seen during the training phase. To do this, we put forward a new hypernetwork based model, called PudNet, which intends to learn a mapping between datasets and their corresponding network parameters, and then predicts parameters for unseen data with only a single forward propagation. Moreover, our model benefits from a series of adaptive hyper recurrent units sharing weights to capture the dependencies of parameters among different network layers. Extensive experiments demonstrate that our proposed method achieves good efficacy for unseen image datasets on two kinds of settings: Intra-dataset prediction and Inter-dataset prediction. Our PudNet can also well scale up to large-scale datasets, e.g., ImageNet-1K. It takes 8967 GPU seconds to train ResNet-18 on the ImageNet-1K using GC from scratch and obtain a top-5 accuracy of 44.65 %. However, our PudNet costs only 3.89 GPU seconds to predict the network parameters of ResNet-18 achieving comparable performance (44.92 %), more than 2,300 times faster than the traditional training paradigm.
翻訳日:2023-10-19 17:09:56 公開日:2023-10-18
# 転送可能な敵対的イメージ例の再検討:攻撃分類、評価ガイドライン、新しい洞察

Revisiting Transferable Adversarial Image Examples: Attack Categorization, Evaluation Guidelines, and New Insights ( http://arxiv.org/abs/2310.11850v1 )

ライセンス: Link先を確認
Zhengyu Zhao, Hanwei Zhang, Renjue Li, Ronan Sicre, Laurent Amsaleg, Michael Backes, Qi Li, Chao Shen(参考訳) トランスファー可能な敵の例は、現実のブラックボックス攻撃シナリオにおいて重要なセキュリティ上の懸念を引き起こす。 しかし,本研究では,(1)攻撃の伝達性,系統的,1対1の攻撃比較の欠如,および公平なハイパーパラメータ設定の2つの共通評価手法の問題点を明らかにする。 2)ステルスネス攻撃の場合、比較は行わない。 これらの課題に対処するため,(1)新規な攻撃分類戦略を提案し,トランスファービリティに関する系統的かつ公平なカテゴリー内分析を行い,(2)攻撃トレーサビリティの観点から,多様な認識不能指標とよりきめ細かい盗難特性を考慮することにより,新たな評価ガイドラインを確立する。 この目的のために,9つの代表的防御に対する23のの代表的攻撃を含む,転送可能な敵例をImageNet上で初めて大規模に評価した。 1) 公平な攻撃ハイパーパラメータ設定の下では、DIという1つの早期攻撃方法が、実際にはすべてのフォローアップメソッドよりも優れています。 2) 最先端のディフェンスであるDiffPureは、実際には(ブラックボックス)転送可能な攻撃によってほとんどバイパスされているので、(ホワイトボックス)セキュリティの誤った感覚を与えます。 3) すべての攻撃が同じ$l_p$ノルムで区切られている場合でも、ステルス性は劇的に異なり、転送性のパフォーマンスと負の相関がある。 本研究は,既存の問題点評価が誤解を招く結論と欠落点を実際に引き起こし,その結果,この分野における実際の進歩の評価を妨げていることを示した。

Transferable adversarial examples raise critical security concerns in real-world, black-box attack scenarios. However, in this work, we identify two main problems in common evaluation practices: (1) For attack transferability, lack of systematic, one-to-one attack comparison and fair hyperparameter settings. (2) For attack stealthiness, simply no comparisons. To address these problems, we establish new evaluation guidelines by (1) proposing a novel attack categorization strategy and conducting systematic and fair intra-category analyses on transferability, and (2) considering diverse imperceptibility metrics and finer-grained stealthiness characteristics from the perspective of attack traceback. To this end, we provide the first large-scale evaluation of transferable adversarial examples on ImageNet, involving 23 representative attacks against 9 representative defenses. Our evaluation leads to a number of new insights, including consensus-challenging ones: (1) Under a fair attack hyperparameter setting, one early attack method, DI, actually outperforms all the follow-up methods. (2) A state-of-the-art defense, DiffPure, actually gives a false sense of (white-box) security since it is indeed largely bypassed by our (black-box) transferable attacks. (3) Even when all attacks are bounded by the same $L_p$ norm, they lead to dramatically different stealthiness performance, which negatively correlates with their transferability performance. Overall, our work demonstrates that existing problematic evaluations have indeed caused misleading conclusions and missing points, and as a result, hindered the assessment of the actual progress in this field.
翻訳日:2023-10-19 17:09:25 公開日:2023-10-18
# マルチエージェント意思決定のためのマスクプリトレーニング

Masked Pretraining for Multi-Agent Decision Making ( http://arxiv.org/abs/2310.11846v1 )

ライセンス: Link先を確認
Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu, Wanli Ouyang(参考訳) ゼロショット機能を持つ単一ジェネラリストエージェントの構築は、最近、意思決定において大きな進歩をもたらした。 しかし、この機能をマルチエージェントシナリオに拡張することは課題を提示する。 集中型事前学習と分散実行のミスマッチ、エージェント番号とアクションスペースのばらつきなど、マルチエージェント設定に特有の2つの課題のため、現在の作業ではゼロショット機能に苦労している。 これらの課題を克服するため、我々は \textbf{M}ulti-\textbf{a}gent decision making (MaskMA) のための \textbf{Mask}ed pretraining framework を提案する。 このモデルはトランスフォーマーアーキテクチャに基づいており、部分的観察を伴う分散実行に適したマスクベースの協調学習戦略を採用している。 さらに、MaskMAは、アクション空間を、他のエンティティに関連する自己情報やアクションに向けてのアクションに分割することで、一般化可能なアクション表現を統合する。 この柔軟性により、MaskMAは様々なエージェント番号と異なるアクション空間でタスクに取り組むことができる。 SMACの大規模な実験により、MaskMAは11のトレーニングマップに事前訓練された1つのモデルで、60の見えないテストマップ上で、非集中的な実行によって77.8%のゼロショットの勝利率を達成すると同時に、他のダウンストリームタスクでも効果的に機能する(例えば、様々なポリシーコラボレーションとアドホックチームプレイ)。

Building a single generalist agent with zero-shot capability has recently sparked significant advancements in decision-making. However, extending this capability to multi-agent scenarios presents challenges. Most current works struggle with zero-shot capabilities, due to two challenges particular to the multi-agent settings: a mismatch between centralized pretraining and decentralized execution, and varying agent numbers and action spaces, making it difficult to create generalizable representations across diverse downstream tasks. To overcome these challenges, we propose a \textbf{Mask}ed pretraining framework for \textbf{M}ulti-\textbf{a}gent decision making (MaskMA). This model, based on transformer architecture, employs a mask-based collaborative learning strategy suited for decentralized execution with partial observation. Moreover, MaskMA integrates a generalizable action representation by dividing the action space into actions toward self-information and actions related to other entities. This flexibility allows MaskMA to tackle tasks with varying agent numbers and thus different action spaces. Extensive experiments in SMAC reveal MaskMA, with a single model pretrained on 11 training maps, can achieve an impressive 77.8% zero-shot win rate on 60 unseen test maps by decentralized execution, while also performing effectively on other types of downstream tasks (\textit{e.g.,} varied policies collaboration and ad hoc team play).
翻訳日:2023-10-19 17:08:55 公開日:2023-10-18
# 強化学習による大規模線形プログラミングの高速化

Accelerate Presolve in Large-Scale Linear Programming via Reinforcement Learning ( http://arxiv.org/abs/2310.11845v1 )

ライセンス: Link先を確認
Yufei Kuang, Xijun Li, Jie Wang, Fangzhou Zhu, Meng Lu, Zhihai Wang, Jia Zeng, Houqiang Li, Yongdong Zhang, Feng Wu(参考訳) 産業からの大規模lp問題には、通常多くの冗長性が含まれており、lp解決の効率と信頼性が著しく損なわれ、プリソルバ(すなわち問題単純化モジュール)は現代のlpソルバにおいて最も重要なコンポーネントの1つとなっている。 However, how to design high-quality presolve routines -that is, the program determining (P1) which presolvers to select, (P2) in what order to execute, and (P3) when to stop -- remains a highly challenging task due to the extensive requirements on expert knowledge and the large search space. Due to the sequential decision property of the task and the lack of expert demonstrations, we propose a simple and efficient reinforcement learning (RL) framework -- namely, reinforcement learning for presolve (RL4Presolve) -to tackle (P1)-(P3) simultaneously. 具体的には、ルーチン設計タスクをマルコフ決定プロセスとして定式化し、高品質のプリソルバルーチンを効率的に生成するための適応的なアクションシーケンスを持つrlフレームワークを提案する。 適応的なアクションシーケンスは複雑な振る舞いを効率的に学習し、様々なベンチマークに適応するのに役立ちます。 2つの解法(オープンソースと商用)と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LP、特に業界からのベンチマークの解決効率を大幅に改善することを示した。 さらに,Huaweiのサプライチェーンへのシンプルかつ効率的な展開のための学習ポリシからルールを抽出することにより,LPソルバのハードコード事前解決ルーチンを最適化する。 その結果,現代の問題解決者に機械学習を組み込むための経済的,学術的な可能性を示唆した。

Large-scale LP problems from industry usually contain much redundancy that severely hurts the efficiency and reliability of solving LPs, making presolve (i.e., the problem simplification module) one of the most critical components in modern LP solvers. However, how to design high-quality presolve routines -- that is, the program determining (P1) which presolvers to select, (P2) in what order to execute, and (P3) when to stop -- remains a highly challenging task due to the extensive requirements on expert knowledge and the large search space. Due to the sequential decision property of the task and the lack of expert demonstrations, we propose a simple and efficient reinforcement learning (RL) framework -- namely, reinforcement learning for presolve (RL4Presolve) -- to tackle (P1)-(P3) simultaneously. Specifically, we formulate the routine design task as a Markov decision process and propose an RL framework with adaptive action sequences to generate high-quality presolve routines efficiently. Note that adaptive action sequences help learn complex behaviors efficiently and adapt to various benchmarks. Experiments on two solvers (open-source and commercial) and eight benchmarks (real-world and synthetic) demonstrate that RL4Presolve significantly and consistently improves the efficiency of solving large-scale LPs, especially on benchmarks from industry. Furthermore, we optimize the hard-coded presolve routines in LP solvers by extracting rules from learned policies for simple and efficient deployment to Huawei's supply chain. The results show encouraging economic and academic potential for incorporating machine learning to modern solvers.
翻訳日:2023-10-19 17:08:28 公開日:2023-10-18
# 強化学習における目的特定形式主義の表現性について

On The Expressivity of Objective-Specification Formalisms in Reinforcement Learning ( http://arxiv.org/abs/2310.11840v1 )

ライセンス: Link先を確認
Rohan Subramani and Marcus Williams and Max Heitmann and Halfdan Holm and Charlie Griffin and Joar Skalse(参考訳) 強化学習(RL)の課題を解決するためには,その課題の目標を正式に指定する必要がある。 ほとんどのRLアルゴリズムはゴールをマルコフ報酬関数として定式化する必要があるが、代替案が開発されている(線形時間論理や多目的強化学習など)。 さらに、これらの形式主義のいくつかは他の形式主義が表現できない特定のタスクを表現できることはよく知られている。 しかしながら、これらの形式が相互にどのような関係を持つのか、表現性の観点からの詳細な分析はまだ行われていない。 本稿では,既存の文献におけるこのギャップを,RLにおける17の客観的特定形式表現の包括的比較によって埋める。 私たちはこれらの形式をその表現力に基づいて前順序に置き、この前順序をハッセ図として提示する。 我々は、異なる形式主義に対する様々な制限を見つけ、形式主義が支配的に表現的であり、現在の技法で最適化するのには単純でない。 例えば、正規化rl、外部非線形マルコフ報酬、報酬機械、線形時相論理、限界平均報酬のそれぞれが、他者ができない目標を表現することができることを証明している。 この結果は,政策最適化と報奨学習の両方に影響を及ぼす。 まず,現実の目的を特定する際に考慮すべき表現性制限を同定する。 第2に, 既存の報酬学習手法の多くは, 希望する目的をマルコフ的報酬で表現できると暗黙的に仮定しているため, 報酬学習を様々な形式に適応させる今後の研究の必要性を浮き彫りにしている。 我々の研究は、RLの客観的な定式化のコストと利点をより密集した理解に寄与する。

To solve a task with reinforcement learning (RL), it is necessary to formally specify the goal of that task. Although most RL algorithms require that the goal is formalised as a Markovian reward function, alternatives have been developed (such as Linear Temporal Logic and Multi-Objective Reinforcement Learning). Moreover, it is well known that some of these formalisms are able to express certain tasks that other formalisms cannot express. However, there has not yet been any thorough analysis of how these formalisms relate to each other in terms of expressivity. In this work, we fill this gap in the existing literature by providing a comprehensive comparison of the expressivities of 17 objective-specification formalisms in RL. We place these formalisms in a preorder based on their expressive power, and present this preorder as a Hasse diagram. We find a variety of limitations for the different formalisms, and that no formalism is both dominantly expressive and straightforward to optimise with current techniques. For example, we prove that each of Regularised RL, Outer Nonlinear Markov Rewards, Reward Machines, Linear Temporal Logic, and Limit Average Rewards can express an objective that the others cannot. Our findings have implications for both policy optimisation and reward learning. Firstly, we identify expressivity limitations which are important to consider when specifying objectives in practice. Secondly, our results highlight the need for future research which adapts reward learning to work with a variety of formalisms, since many existing reward learning methods implicitly assume that desired objectives can be expressed with Markovian rewards. Our work contributes towards a more cohesive understanding of the costs and benefits of different RL objective-specification formalisms.
翻訳日:2023-10-19 17:08:03 公開日:2023-10-18
# 画像逆問題における不確かさ定量のための等変ブートストラップ

Equivariant Bootstrapping for Uncertainty Quantification in Imaging Inverse Problems ( http://arxiv.org/abs/2310.11838v1 )

ライセンス: Link先を確認
Julian Tachella and Marcelo Pereyra(参考訳) 科学的イメージングの問題は、しばしば深刻な問題であり、したがって固有の不確実性がある。 このような問題に対する解決策の不確実性を正確に定量化することは、実験結果の厳密な解釈や、再構成された画像を科学的証拠として確実に使用するために重要である。 残念なことに、既存の撮像法は複製実験に頑健な方法で再構成画像の不確かさを定量化できない。 本稿では,画像問題によく見られる対称性と不変性を利用したパラメトリックブートストラップアルゴリズムの等価な定式化に基づく新しい不確実性定量法を提案する。 さらに,提案手法は一般に,観測データのみからトレーニング可能な教師なしのトレーニング戦略を含む,任意の画像再構成手法に容易に適用できるため,真理データがない場合に不確実性定量化が可能となる。 提案手法は,一連の数値実験と,スコアベース拡散モデルを含むベイズ的手法やランゲヴィン・サンプルラーなど,最先端技術からの代替不確実性定量化戦略との比較により実証する。 全ての実験において,提案手法は高精度な高次元信頼領域を提供し,推定精度,不確実性定量化精度,計算時間において競合する手法より優れている。

Scientific imaging problems are often severely ill-posed, and hence have significant intrinsic uncertainty. Accurately quantifying the uncertainty in the solutions to such problems is therefore critical for the rigorous interpretation of experimental results as well as for reliably using the reconstructed images as scientific evidence. Unfortunately, existing imaging methods are unable to quantify the uncertainty in the reconstructed images in a manner that is robust to experiment replications. This paper presents a new uncertainty quantification methodology based on an equivariant formulation of the parametric bootstrap algorithm that leverages symmetries and invariance properties commonly encountered in imaging problems. Additionally, the proposed methodology is general and can be easily applied with any image reconstruction technique, including unsupervised training strategies that can be trained from observed data alone, thus enabling uncertainty quantification in situations where there is no ground truth data available. We demonstrate the proposed approach with a series of numerical experiments and through comparisons with alternative uncertainty quantification strategies from the state-of-the-art, such as Bayesian strategies involving score-based diffusion models and Langevin samplers. In all our experiments, the proposed method delivers remarkably accurate high-dimensional confidence regions and outperforms the competing approaches in terms of estimation accuracy, uncertainty quantification accuracy, and computing time.
翻訳日:2023-10-19 17:07:32 公開日:2023-10-18
# 自然勾配サーロゲートによる最適化分布

Optimising Distributions with Natural Gradient Surrogates ( http://arxiv.org/abs/2310.11837v1 )

ライセンス: Link先を確認
Jonathan So, Richard E. Turner(参考訳) 自然勾配法は様々な設定で確率分布のパラメータを最適化するために使われており、しばしば高速収束手順をもたらす。 残念なことに、多くの関心の分布に対して、自然勾配の計算には多くの課題がある。 本研究では,自然勾配の計算が容易なサーロゲート分布のパラメータに対して,最適化を1として再設計することを含む,このような問題に取り組むための新しい手法を提案する。 本稿では,この手法を応用できる既存手法の例をいくつか紹介し,その手法を様々な問題に適用する新しい手法を提案する。 本手法は,自然勾配を効率的に対象とする分布の集合を拡張する。 さらに、高速で理解しやすく、標準のautodiffソフトウェアを使って簡単に実装でき、長いモデル固有の導出を必要としない。 本稿では,最大確率推定と変分推論タスクについて述べる。

Natural gradient methods have been used to optimise the parameters of probability distributions in a variety of settings, often resulting in fast-converging procedures. Unfortunately, for many distributions of interest, computing the natural gradient has a number of challenges. In this work we propose a novel technique for tackling such issues, which involves reframing the optimisation as one with respect to the parameters of a surrogate distribution, for which computing the natural gradient is easy. We give several examples of existing methods that can be interpreted as applying this technique, and propose a new method for applying it to a wide variety of problems. Our method expands the set of distributions that can be efficiently targeted with natural gradients. Furthermore, it is fast, easy to understand, simple to implement using standard autodiff software, and does not require lengthy model-specific derivations. We demonstrate our method on maximum likelihood estimation and variational inference tasks.
翻訳日:2023-10-19 17:07:10 公開日:2023-10-18
# HB-net:Occluded Multi-objects Recognitionのためのホロスティックバーストセルクラスタ統合ネットワーク

HB-net: Holistic bursting cell cluster integrated network for occluded multi-objects recognition ( http://arxiv.org/abs/2310.11834v1 )

ライセンス: Link先を確認
Xudong Gao, Xiao Guang Gao, Jia Rong, Xiaowei Chen, Xiang Liao, Jun Chen(参考訳) 画像認識の分野では、視覚野内の物体がお互いを遮蔽する可能性がある場合に、オクルードとオクルーディングの両方のオブジェクトの同時識別を要求するマルチラベル分類(mlc:multi-label classification)の特定のカテゴリが発生する。 従来の畳み込みニューラルネットワーク(CNN)はこれらの課題に対処できるが、これらのモデルはかさばる傾向があり、わずかな精度しか達成できない。 本稿では,最先端のニューラルネットワーク研究,特にHBセルの知見を活用して,HB-netというネットワークフレームワークを先駆的に導入する。 HBセルクラスタの基礎の上に構築されたHB-netは、画像内の複数の隠蔽オブジェクトを同時に認識する複雑なタスクに対処するように設計されている。 様々なバースト細胞クラスター構造を導入し、エビデンス蓄積機構を補完する。 数字と文字からなる複数のデータセットでテストを行う。 その結果、hbフレームワークを組み込んだモデルは、hbフレームワークを持たないモデルに比べて認識精度が大幅に向上している($1.0298$ times, $p=0.0499$)。 ハイノイズ環境では、標準CNNはHB-netモデルと比較してわずかに頑丈であるが、HBフレームワークとEAメカニズムを組み合わせたモデルは、3つの畳み込み層と約1/30ドルのパラメータしか持たないにもかかわらず、ResNet50に匹敵する精度とレジリエンスを達成する。 本研究は,コンピュータビジョンアルゴリズムの改良に有用な知見を提供する。 必須コードはhttps://github.com/d-lab438/hb-net.gitにある。

Within the realm of image recognition, a specific category of multi-label classification (MLC) challenges arises when objects within the visual field may occlude one another, demanding simultaneous identification of both occluded and occluding objects. Traditional convolutional neural networks (CNNs) can tackle these challenges; however, those models tend to be bulky and can only attain modest levels of accuracy. Leveraging insights from cutting-edge neural science research, specifically the Holistic Bursting (HB) cell, this paper introduces a pioneering integrated network framework named HB-net. Built upon the foundation of HB cell clusters, HB-net is designed to address the intricate task of simultaneously recognizing multiple occluded objects within images. Various Bursting cell cluster structures are introduced, complemented by an evidence accumulation mechanism. Testing is conducted on multiple datasets comprising digits and letters. The results demonstrate that models incorporating the HB framework exhibit a significant $2.98\%$ enhancement in recognition accuracy compared to models without the HB framework ($1.0298$ times, $p=0.0499$). Although in high-noise settings, standard CNNs exhibit slightly greater robustness when compared to HB-net models, the models that combine the HB framework and EA mechanism achieve a comparable level of accuracy and resilience to ResNet50, despite having only three convolutional layers and approximately $1/30$ of the parameters. The findings of this study offer valuable insights for improving computer vision algorithms. The essential code is provided at https://github.com/d-lab438/hb-net.git.
翻訳日:2023-10-19 17:06:56 公開日:2023-10-18
# グラフファウンデーションモデルに向けて:サーベイとその先

Towards Graph Foundation Models: A Survey and Beyond ( http://arxiv.org/abs/2310.11829v1 )

ライセンス: Link先を確認
Jiawei Liu, Cheng Yang, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi(参考訳) 多様な人工知能アプリケーションの基本構成要素として登場し、基礎モデルは自然言語処理や他の多くの領域で顕著な成功を収めてきた。 グラフ機械学習(Graph Machine learning, グラフ機械学習)は、進化的なシフトを目の当たりにしている。 基礎モデルの出現と均質化能力は、グラフ機械学習研究者の関心を喚起し、幅広いグラフデータに基づいて事前訓練され、幅広い下流グラフタスクに適応できる次のグラフ学習パラダイムの開発に関する議論を巻き起こした。 しかし、現時点ではこの種の作業について明確な定義や体系的な分析はされていない。 本稿では,グラフ基礎モデル(gfms)の概念を提案し,その鍵となる特性と技術について,最初の包括的解明を行う。 その後、グラフニューラルネットワークと大規模言語モデルに依存したGFMに対する既存の研究を3つのカテゴリに分類する。 グラフ基盤モデルの現在の展望を包括的に概観するだけでなく、この進化する分野の潜在的研究方向性についても論じる。

Emerging as fundamental building blocks for diverse artificial intelligence applications, foundation models have achieved notable success across natural language processing and many other domains. Parallelly, graph machine learning has witnessed a transformative shift, with shallow methods giving way to deep learning approaches. The emergence and homogenization capabilities of foundation models have piqued the interest of graph machine learning researchers, sparking discussions about developing the next graph learning paradigm that is pre-trained on broad graph data and can be adapted to a wide range of downstream graph tasks. However, there is currently no clear definition and systematic analysis for this type of work. In this article, we propose the concept of graph foundation models (GFMs), and provide the first comprehensive elucidation on their key characteristics and technologies. Following that, we categorize existing works towards GFMs into three categories based on their reliance on graph neural networks and large language models. Beyond providing a comprehensive overview of the current landscape of graph foundation models, this article also discusses potential research directions for this evolving field.
翻訳日:2023-10-19 17:06:29 公開日:2023-10-18
# 切り替えコストと遅延勾配を考慮したオンライン凸最適化

Online Convex Optimization with Switching Cost and Delayed Gradients ( http://arxiv.org/abs/2310.11880v1 )

ライセンス: Link先を確認
Spandan Senapati, Rahul Vaze(参考訳) 制約情報設定において,オンライン凸最適化(OCO)問題を2次・線形切替コストで考慮し,従来の目的関数の勾配情報のみを用いて,オンラインアルゴリズムでその動作を選択する。 L$-smooth と $\mu$-strongly convex objective function に対して、オンライン多重勾配降下法(OMGD)アルゴリズムを提案し、OCO問題の2次切替コストに対する競合比が少なくとも 4(L + 5) + \frac{16(L + 5)}{\mu}$ であることを示す。 OMGD の競合比上界は、$L,\mu$ の点で順序的に厳密であることも示される。 さらに、オンラインアルゴリズムの競合比率は、スイッチングコストが二次的である場合の限られた情報設定において$\max\{\omega(l), \omega(\frac{l}{\sqrt{\mu}})\}$であることが示される。 また,OMGDアルゴリズムは限られた情報設定において最適(順序的に)動的後悔を実現することを示す。 線形切替コストについては、omgdアルゴリズムの競合比上限が問題インスタンスの経路長と二乗経路長の両方に依存することが示され、l, \mu$ に加えて順序的に、オンラインアルゴリズムが達成できる最高の競合比が示される。 その結果,2次切替コストと線形切替コストの最適競争比率は,制限情報設定において根本的に異なることがわかった。

We consider the online convex optimization (OCO) problem with quadratic and linear switching cost in the limited information setting, where an online algorithm can choose its action using only gradient information about the previous objective function. For $L$-smooth and $\mu$-strongly convex objective functions, we propose an online multiple gradient descent (OMGD) algorithm and show that its competitive ratio for the OCO problem with quadratic switching cost is at most $4(L + 5) + \frac{16(L + 5)}{\mu}$. The competitive ratio upper bound for OMGD is also shown to be order-wise tight in terms of $L,\mu$. In addition, we show that the competitive ratio of any online algorithm is $\max\{\Omega(L), \Omega(\frac{L}{\sqrt{\mu}})\}$ in the limited information setting when the switching cost is quadratic. We also show that the OMGD algorithm achieves the optimal (order-wise) dynamic regret in the limited information setting. For the linear switching cost, the competitive ratio upper bound of the OMGD algorithm is shown to depend on both the path length and the squared path length of the problem instance, in addition to $L, \mu$, and is shown to be order-wise, the best competitive ratio any online algorithm can achieve. Consequently, we conclude that the optimal competitive ratio for the quadratic and linear switching costs are fundamentally different in the limited information setting.
翻訳日:2023-10-19 16:58:49 公開日:2023-10-18
# ディスコナンスからインサイトへ:事例アウトカム分類のためのRationaleデータセット構築における相違

From Dissonance to Insights: Dissecting Disagreements in Rationale Dataset Construction for Case Outcome Classification ( http://arxiv.org/abs/2310.11878v1 )

ライセンス: Link先を確認
Shanshan Xu, Santosh T.Y.S.S, Oana Ichim, Isabella Risini, Barbara Plank, Matthias Grabmair(参考訳) 法的NLPでは、ケースアウトカム分類(COC)は正確であるだけでなく、信頼性と説明性も必要である。 説明可能なCOCの既存の作業は、単一の専門家によるアノテーションに限定されている。 しかし、弁護士が事件事実の評価に異議を唱えることも知られている。 そこで我々は,国際人権法領域の専門家2人から得られたechr1の合理的な変動に関する新たなデータセットを収集し,弱い合意を遵守する。 それらの不一致を調査し,coc固有のサブカテゴリを補う2段階のタスク非依存分類法を構築した。 我々の知る限り、これは人間のラベルの変化に焦点を当てた法的NLPにおける最初の研究である。 異なる分類群を定量的に評価し,cocメタデータの粒度やノイズを考慮し,法的な文脈を過小に特定することによる不一致が主な原因であることを見出した。 さらに、RAVE上でのSOTA COCモデルの妥当性を評価し、モデルと専門家間の限定的な合意を観察する。 総じて,本事例のケーススタディでは,法的nlpにおけるベンチマークデータセット作成におけるhhertoの不正確さが明らかにされている。

In legal NLP, Case Outcome Classification (COC) must not only be accurate but also trustworthy and explainable. Existing work in explainable COC has been limited to annotations by a single expert. However, it is well-known that lawyers may disagree in their assessment of case facts. We hence collect a novel dataset RAVE: Rationale Variation in ECHR1, which is obtained from two experts in the domain of international human rights law, for whom we observe weak agreement. We study their disagreements and build a two-level task-independent taxonomy, supplemented with COC-specific subcategories. To our knowledge, this is the first work in the legal NLP that focuses on human label variation. We quantitatively assess different taxonomy categories and find that disagreements mainly stem from underspecification of the legal context, which poses challenges given the typically limited granularity and noise in COC metadata. We further assess the explainablility of SOTA COC models on RAVE and observe limited agreement between models and experts. Overall, our case study reveals hitherto underappreciated complexities in creating benchmark datasets in legal NLP that revolve around identifying aspects of a case's facts supposedly relevant to its outcome.
翻訳日:2023-10-19 16:58:19 公開日:2023-10-18
# 幻覚的不理解の奇妙なケース--自信過剰大言語モデルの隠れた状態における真理の探索

The Curious Case of Hallucinatory Unanswerablity: Finding Truths in the Hidden States of Over-Confident Large Language Models ( http://arxiv.org/abs/2310.11877v1 )

ライセンス: Link先を確認
Aviv Slobodkin, Omer Goldman, Avi Caciularu, Ido Dagan, Shauli Ravfogel(参考訳) 大規模言語モデル(LLM)は印象的な能力を持つ一方で、応答の忠実さに関して重要な懸念を提起している。 この文脈で生じる主要な問題は、LLMによる解決不可能なクエリの管理であり、しばしば過剰な自信のために幻覚的行動を引き起こす。 本稿では,LLMの問合せ不能なクエリを提示する場合の挙動について検討する。 モデル \textbf{represent} 幻覚的な答えを生成するとき、質問は答えられないという事実ですか? この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。 これらの発見は、llmの潜在表現内の空間的構造に新しい光を当て、これらのモデルの未調査の面を披露した。 さらに、特にクエリのアンアンポーラビリティが懸念されるシナリオにおいて、事実生成への順応性を高めることにより、デコード技術の改善への道を開く。

Large language models (LLMs) have been shown to possess impressive capabilities, while also raising crucial concerns about the faithfulness of their responses. A primary issue arising in this context is the management of unanswerable queries by LLMs, which often results in hallucinatory behavior, due to overconfidence. In this paper, we explore the behavior of LLMs when presented with unanswerable queries. We ask: do models \textbf{represent} the fact that the question is unanswerable when generating a hallucinatory answer? Our results show strong indications that such models encode the answerability of an input query, with the representation of the first decoded token often being a strong indicator. These findings shed new light on the spatial organization within the latent representations of LLMs, unveiling previously unexplored facets of these models. Moreover, they pave the way for the development of improved decoding techniques with better adherence to factual generation, particularly in scenarios where query unanswerability is a concern.
翻訳日:2023-10-19 16:57:59 公開日:2023-10-18
# 線形分類器の混合学習のためのSQ下界

SQ Lower Bounds for Learning Mixtures of Linear Classifiers ( http://arxiv.org/abs/2310.11876v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane and Yuxin Sun(参考訳) ガウス共変量に基づく線形分類器の混合学習問題について検討する。 $(\mathbf{x},y_{\ell})$, $\ell\in [r]$, where $\mathbf{x}\sim\mathcal{N}(0,\mathbf{I}_n)$ and $y_\ell=\mathrm{sign}(\langle\mathbf{v}_\ell,\mathbf{x}\rangle)$ という形の$r$分布へのサンプルアクセスが与えられたとき、目的は、未知の単位ベクトル $\mathbf{v}_\ell$ に対して、全変動距離の基底分布を学ぶことである。 我々の主な成果は、一様混合の場合であっても、この問題に対する既知のアルゴリズムが本質的には最適であることを示す統計的クエリ(SQ)の下限である。 特に、問題に対する任意のsqアルゴリズムの複雑性は、$n^{\mathrm{poly}(1/\delta) \log(r)}$であり、ここで$\delta$ は、$\mathbf{v}_\ell$'s の間のペアワイズ $\ell_2$-分離において下界である。 この結果を支える重要な技術的要素は、独立した関心を持つかもしれない球面デザインの新しい構成である。

We study the problem of learning mixtures of linear classifiers under Gaussian covariates. Given sample access to a mixture of $r$ distributions on $\mathbb{R}^n$ of the form $(\mathbf{x},y_{\ell})$, $\ell\in [r]$, where $\mathbf{x}\sim\mathcal{N}(0,\mathbf{I}_n)$ and $y_\ell=\mathrm{sign}(\langle\mathbf{v}_\ell,\mathbf{x}\rangle)$ for an unknown unit vector $\mathbf{v}_\ell$, the goal is to learn the underlying distribution in total variation distance. Our main result is a Statistical Query (SQ) lower bound suggesting that known algorithms for this problem are essentially best possible, even for the special case of uniform mixtures. In particular, we show that the complexity of any SQ algorithm for the problem is $n^{\mathrm{poly}(1/\Delta) \log(r)}$, where $\Delta$ is a lower bound on the pairwise $\ell_2$-separation between the $\mathbf{v}_\ell$'s. The key technical ingredient underlying our result is a new construction of spherical designs that may be of independent interest.
翻訳日:2023-10-19 16:57:40 公開日:2023-10-18
# ニューラルネットワークにおけるフラクショナル概念:アクティベーションとロス関数の強化

Fractional Concepts in Neural Networks: Enhancing Activation and Loss Functions ( http://arxiv.org/abs/2310.11875v1 )

ライセンス: Link先を確認
Zahra Alijani, Vojtech Molek(参考訳) 本稿では,ニューラルネットワークにおける分数概念を用いて,アクティベーション関数と損失関数を修正する手法を提案する。 この手法により、ニューラルネットワークは、トレーニングプロセスの分数デリバティブ順序を追加のハイパーパラメータとして決定することによって、そのアクティベーション関数を定義し、最適化することができる。 これにより、ネットワーク内のニューロンは、入力データとの整合性を向上し、出力エラーを低減し、ネットワーク全体のパフォーマンスを改善することができる。

The paper presents a method for using fractional concepts in a neural network to modify the activation and loss functions. The methodology allows the neural network to define and optimize its activation functions by determining the fractional derivative order of the training process as an additional hyperparameter. This will enable neurons in the network to adjust their activation functions to match input data better and reduce output errors, potentially improving the network's overall performance.
翻訳日:2023-10-19 16:56:47 公開日:2023-10-18
# AI Nushu: 星座における言語創発の探索 -計算言語学のレンズを通して-

AI Nushu: An Exploration of Language Emergence in Sisterhood -Through the Lens of Computational Linguistics ( http://arxiv.org/abs/2310.11870v1 )

ライセンス: Link先を確認
Yuqian Sun, Yuying Tang, Ze Gao, Zhijun Pan, Chuyan Xu, Yurou Chen, Kejiang Qian, Zhigang Wang, Tristan Braud, Chang Hee Lee, Ali Asadipour(参考訳) 本論では, 華族社会下で照らされたと思われた古代中国人女性のみによって作成された, 独特な言語である, 女性文に触発された新語体系である「AI Nushu」について述べる。 このインタラクティブなインストレーションでは、2つの人工知能(ai)エージェントが中国語辞書とヌーシュコーパスでトレーニングされる。 環境を継続的に観察し、コミュニケーションをとることで、これらのエージェントは中国語をエンコードする標準的な書き込みシステムを構築するために協力する。 計算言語学の観点からは、非西洋文字の作成を芸術的に解釈し、AI技術を中国の文化遺産とフェミニストの視点に統合する。

This paper presents "AI Nushu," an emerging language system inspired by Nushu (women's scripts), the unique language created and used exclusively by ancient Chinese women who were thought to be illiterate under a patriarchal society. In this interactive installation, two artificial intelligence (AI) agents are trained in the Chinese dictionary and the Nushu corpus. By continually observing their environment and communicating, these agents collaborate towards creating a standard writing system to encode Chinese. It offers an artistic interpretation of the creation of a non-western script from a computational linguistics perspective, integrating AI technology with Chinese cultural heritage and a feminist viewpoint.
翻訳日:2023-10-19 16:56:39 公開日:2023-10-18
# 生成するかどうか? 安全駆動型未学習拡散モデルでは、安全でない画像を簡単に生成できる... 今のところ

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now ( http://arxiv.org/abs/2310.11868v1 )

ライセンス: Link先を確認
Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu(参考訳) 拡散モデル(DM)の最近の進歩は、複雑で多様な画像の生成に革命をもたらした。 しかし、これらのモデルは有害なコンテンツの生成やデータ著作権の侵害など、潜在的な安全リスクも導入する。 これらの課題に対処するために、安全駆動のアンラーニング手法を作成する努力はあったが、その能力に疑問が残る。 この不確かさを解消するために,我々は,これらの安全駆動型非学習dmの信頼性を識別するために,敵攻撃(敵プロンプトとも呼ばれる)に基づく評価フレームワークを提案する。 特に本研究では,不必要な概念,スタイル,オブジェクトの消去において,非学習dmの(最悪の)堅牢性について検討し,敵のプロンプトの生成によって評価する。 我々は, 画像分類攻撃の手法として, DMの固有な分類能力を活用して, 画像分類攻撃と同様に, DMの生成を簡素化する, UnlearnDiff と呼ばれる新しい逆学習手法を開発した。 このテクニックは、敵対的プロンプトの作成を合理化し、画像分類攻撃と同様に生成モデリングのプロセスを直感的にします。 総合的なベンチマークにより、複数のタスクにまたがる5つの未学習DMの未学習堅牢性を評価する。 本研究は,UnlearnDiffの有効性と効率を,最先端の対人プロンプト法と比較した。 コードはhttps://github.com/optml-group/diffusion-mu-attackで入手できる。 WARNING: 本論文は、自然界で攻撃的なモデル出力を含む。

The recent advances in diffusion models (DMs) have revolutionized the generation of complex and diverse images. However, these models also introduce potential safety hazards, such as the production of harmful content and infringement of data copyrights. Although there have been efforts to create safety-driven unlearning methods to counteract these challenges, doubts remain about their capabilities. To bridge this uncertainty, we propose an evaluation framework built upon adversarial attacks (also referred to as adversarial prompts), in order to discern the trustworthiness of these safety-driven unlearned DMs. Specifically, our research explores the (worst-case) robustness of unlearned DMs in eradicating unwanted concepts, styles, and objects, assessed by the generation of adversarial prompts. We develop a novel adversarial learning approach called UnlearnDiff that leverages the inherent classification capabilities of DMs to streamline the generation of adversarial prompts, making it as simple for DMs as it is for image classification attacks. This technique streamlines the creation of adversarial prompts, making the process as intuitive for generative modeling as it is for image classification assaults. Through comprehensive benchmarking, we assess the unlearning robustness of five prevalent unlearned DMs across multiple tasks. Our results underscore the effectiveness and efficiency of UnlearnDiff when compared to state-of-the-art adversarial prompting methods. Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack. WARNING: This paper contains model outputs that may be offensive in nature.
翻訳日:2023-10-19 16:56:28 公開日:2023-10-18
# コンピュータビジョンにおける判別基礎モデルの公平性の評価

Evaluating the Fairness of Discriminative Foundation Models in Computer Vision ( http://arxiv.org/abs/2310.11867v1 )

ライセンス: Link先を確認
Junaid Ali, Matthaeus Kleindessner, Florian Wenzel, Kailash Budhathoki, Volkan Cevher and Chris Russell(参考訳) 本稿では,ラベル付け作業に使用されるCLIP (Contrastive Language-Pretraining) などの差別的基礎モデルのバイアス評価のための新しい分類法を提案する。 そして,これらのモデルにおける偏りを緩和するための既存の手法を体系的に評価した。 具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。 3つの軸に基づいた望ましい行動の分類を行う。 (i) タスクが人間に関するものである場合 (ii)課題がどの程度主観的であるか(すなわち、さまざまな背景の人々がラベル付けに同意する可能性が高いか) 三 課題の意図的目的及び公正性が公平性(保護された属性から独立して決定すること)又は表現(多様性を最大化する決定を行うこと)によりより良く機能すること。 最後に,10種類のデータセットに対して二値および多値保護属性の定量的公正度評価を行う。 フェア表現のためのポストプロセッシング手法であるfair pcaは、上記のタスクのほとんどをデバイアスするのに非常によく機能し、パフォーマンスの小さな損失しか発生しない。 しかし、異なるデバイアスアプローチは、タスクによってその効果が異なる。 したがって、特定のユースケースに応じてデバイアスアプローチを選択するべきである。

We propose a novel taxonomy for bias evaluation of discriminative foundation models, such as Contrastive Language-Pretraining (CLIP), that are used for labeling tasks. We then systematically evaluate existing methods for mitigating bias in these models with respect to our taxonomy. Specifically, we evaluate OpenAI's CLIP and OpenCLIP models for key applications, such as zero-shot classification, image retrieval and image captioning. We categorize desired behaviors based around three axes: (i) if the task concerns humans; (ii) how subjective the task is (i.e., how likely it is that people from a diverse range of backgrounds would agree on a labeling); and (iii) the intended purpose of the task and if fairness is better served by impartiality (i.e., making decisions independent of the protected attributes) or representation (i.e., making decisions to maximize diversity). Finally, we provide quantitative fairness evaluations for both binary-valued and multi-valued protected attributes over ten diverse datasets. We find that fair PCA, a post-processing method for fair representations, works very well for debiasing in most of the aforementioned tasks while incurring only minor loss of performance. However, different debiasing approaches vary in their effectiveness depending on the task. Hence, one should choose the debiasing approach depending on the specific use case.
翻訳日:2023-10-19 16:56:01 公開日:2023-10-18
# ヘッセン行列, 勾配, 関数を含む非凸問題に対する確率的最適化

Stochastic Optimization for Non-convex Problem with Inexact Hessian Matrix, Gradient, and Function ( http://arxiv.org/abs/2310.11866v1 )

ライセンス: Link先を確認
Liu Liu, Xuanqing Liu, Cho-Jui Hsieh, and Dacheng Tao(参考訳) 立方体を用いた信頼領域(TR)と適応正則化(ARC)は、次の探索方向と調整されたパラメータを得るために、関数値、勾配、およびヘッセン行列を同時に計算することで、非凸最適化のための非常に魅力的な理論的特性を持つことが証明されている。 確率近似は計算コストを大幅に削減するが、理論的に収束率を保証することは困難である。 本稿では,ヘッセン行列,勾配,関数値の非コンパクトな計算を同時に行うことのできる確率的TR法とARC法のファミリーを探索する。 我々のアルゴリズムはTRやARCよりも1イテレーションあたりの伝搬オーバーヘッドをはるかに少なくする。 近似二階最適性を達成するためのイテレーションの複雑さは、以前の研究で示された正確な計算と同じ順序であることが証明される。 さらに、有限サム最小化問題におけるランダムサンプリング技術を活用することで、不完全性に関する穏やかな条件を満たすことができる。 非凸問題による数値実験はこれらの結果を支持し、同じあるいは類似の反復数で、我々のアルゴリズムは現在の2次法よりも反復当たりの計算オーバーヘッドを少なくすることを示した。

Trust-region (TR) and adaptive regularization using cubics (ARC) have proven to have some very appealing theoretical properties for non-convex optimization by concurrently computing function value, gradient, and Hessian matrix to obtain the next search direction and the adjusted parameters. Although stochastic approximations help largely reduce the computational cost, it is challenging to theoretically guarantee the convergence rate. In this paper, we explore a family of stochastic TR and ARC methods that can simultaneously provide inexact computations of the Hessian matrix, gradient, and function values. Our algorithms require much fewer propagations overhead per iteration than TR and ARC. We prove that the iteration complexity to achieve $\epsilon$-approximate second-order optimality is of the same order as the exact computations demonstrated in previous studies. Additionally, the mild conditions on inexactness can be met by leveraging a random sampling technology in the finite-sum minimization problem. Numerical experiments with a non-convex problem support these findings and demonstrate that, with the same or a similar number of iterations, our algorithms require less computational overhead per iteration than current second-order methods.
翻訳日:2023-10-19 16:55:40 公開日:2023-10-18
# ハイブリッドデータを用いた効果的なフェデレーションツリー学習

Effective and Efficient Federated Tree Learning on Hybrid Data ( http://arxiv.org/abs/2310.11865v1 )

ライセンス: Link先を確認
Qinbin Li, Chulin Xie, Xiaojun Xu, Xiaoyuan Liu, Ce Zhang, Bo Li, Bingsheng He, Dawn Song(参考訳) フェデレートラーニングは有望な分散学習パラダイムとして登場し、生データを転送することなく、複数のパーティ間の協調学習を促進する。 しかし、既存のフェデレート学習研究の多くは、異なるパーティのデータが同じ特徴やサンプル空間から来ていると仮定される水平または垂直のデータ設定に焦点を当てている。 実際には、共通のシナリオはハイブリッドデータ設定であり、異なるパーティのデータが特徴とサンプルの両方で異なる可能性がある。 そこで本研究では,ハイブリッドデータ上でのフェデレーションツリー学習を可能にする,新しいフェデレーション学習手法であるHybridTreeを提案する。 木における一貫した分割規則の存在を観察する。 これらの分割ルールの助けを借りて、理論的には、当事者の知識が木の下層に組み込むことができることを示す。 理論解析に基づき,木を訓練するために,頻繁な通信トラフィックを必要としない階層レベルのソリューションを提案する。 実験により,hybridtreeは計算オーバーヘッドと通信オーバーヘッドの少ない集中型設定と同等の精度を実現できることを示した。 hybridtreeは他のベースラインと比べて最大8倍のスピードアップを達成できる。

Federated learning has emerged as a promising distributed learning paradigm that facilitates collaborative learning among multiple parties without transferring raw data. However, most existing federated learning studies focus on either horizontal or vertical data settings, where the data of different parties are assumed to be from the same feature or sample space. In practice, a common scenario is the hybrid data setting, where data from different parties may differ both in the features and samples. To address this, we propose HybridTree, a novel federated learning approach that enables federated tree learning on hybrid data. We observe the existence of consistent split rules in trees. With the help of these split rules, we theoretically show that the knowledge of parties can be incorporated into the lower layers of a tree. Based on our theoretical analysis, we propose a layer-level solution that does not need frequent communication traffic to train a tree. Our experiments demonstrate that HybridTree can achieve comparable accuracy to the centralized setting with low computational and communication overhead. HybridTree can achieve up to 8 times speedup compared with the other baselines.
翻訳日:2023-10-19 16:55:19 公開日:2023-10-18
# wavelet pooled edge preservation autoencoderを用いたマルチモーダル医用神経画像融合

Multi-modal Medical Neurological Image Fusion using Wavelet Pooled Edge Preserving Autoencoder ( http://arxiv.org/abs/2310.11910v1 )

ライセンス: Link先を確認
Manisha Das, Deep Gupta, Petia Radeva, and Ashwini M Bakde(参考訳) 医用画像融合は、ソース画像の相補的な診断情報を統合し、基礎となる異常の可視化と解析を改善する。 近年, 深層学習に基づくモデルでは, 特徴抽出, 特徴選択, 特徴融合タスクを同時に実行することにより, 従来の融合手法に優れている。 しかしながら、既存の畳み込みニューラルネットワーク(cnn)アーキテクチャのほとんどは、機能マップをダウンサンプルするために、従来のプールあるいはストレート畳み込み戦略を使用している。 これにより、ソースイメージで利用可能な重要な診断情報やエッジ詳細のぼやけや失われが生じ、特徴抽出プロセスの有効性が損なわれる。 そこで本稿では,エッジ保存型高密度オートエンコーダネットワークに基づくマルチモーダル医用画像のエンドツーエンド非教師付き核融合モデルを提案する。 提案モデルでは,ウェーブレット分解に基づく特徴マップの注意プーリングを用いて特徴抽出を改善する。 これにより、ソース画像の両方に存在する細かいエッジ詳細情報が保存され、融合画像の視覚知覚が向上する。 さらに、提案モデルは、ソース画像の強度分布を捉えるのに役立ち、診断情報を効果的に保存する様々な医用画像ペアで訓練される。 提案法が他の最先端融合法と比較して視覚的および定量的な結果をもたらすことを実証する実験を行った。

Medical image fusion integrates the complementary diagnostic information of the source image modalities for improved visualization and analysis of underlying anomalies. Recently, deep learning-based models have excelled the conventional fusion methods by executing feature extraction, feature selection, and feature fusion tasks, simultaneously. However, most of the existing convolutional neural network (CNN) architectures use conventional pooling or strided convolutional strategies to downsample the feature maps. It causes the blurring or loss of important diagnostic information and edge details available in the source images and dilutes the efficacy of the feature extraction process. Therefore, this paper presents an end-to-end unsupervised fusion model for multimodal medical images based on an edge-preserving dense autoencoder network. In the proposed model, feature extraction is improved by using wavelet decomposition-based attention pooling of feature maps. This helps in preserving the fine edge detail information present in both the source images and enhances the visual perception of fused images. Further, the proposed model is trained on a variety of medical image pairs which helps in capturing the intensity distributions of the source images and preserves the diagnostic information effectively. Substantial experiments are conducted which demonstrate that the proposed method provides improved visual and quantitative results as compared to the other state-of-the-art fusion methods.
翻訳日:2023-10-19 16:49:32 公開日:2023-10-18
# 走行波パラメトリック増幅器の最適性能のための埋め込みネットワーク

Embedding networks for ideal performance of a travelling-wave parametric amplifier ( http://arxiv.org/abs/2310.11909v1 )

ライセンス: Link先を確認
Hampus Renberg Nilsson, Daryoush Shiri, Robert Rehammar, Anita Fadavi Roudsari, Per Delsing(参考訳) 3波混合(3wm)に基づく高利得進行波パラメトリック増幅器(twpa)の最適性能を実現するために必要な埋め込みネットワークの検討を行った。 超伝導ダイプレクサとハイブリッドカプラのネットワークにTWPAを埋め込むことにより、増幅器は、信号、アイドラー、ポンプの反射を排除し、全ての不要音の伝達を除去しつつ、利得リップルを抑えながら、ほぼ量子制限されたノイズ性能で高い安定した利得を得ることができる。 増幅器が分離可能な構成を示す。 この手法を広帯域アイドラーフィルタリング(wif)と呼ぶ。 この理論は、バンド4-8 GHzで20dB以上のゲインを予測し、1つの増幅器で10dBのアイソレーション、2つのカスケード増幅器で30dBのアイソレーションを行うシミュレーションによって支持されている。 本稿では,WIF-TWPAを用いて40dB以上のアイソレータを4-8GHz帯で構築する方法を示す。 また, ディプレクサを使わずにWIFを実装可能な代替設計を提案する。 最後に、4波長混合(4WM)TWPAにも適用可能であることを示す。

We investigate the required embedding networks to enable ideal performance for a high-gain travelling-wave parametric amplifier (TWPA) based on three-wave mixing (3WM). By embedding the TWPA in a network of superconducting diplexers and hybrid couplers, the amplifier can deliver a high stable gain with near-quantum-limited noise performance, with suppressed gain ripples, while eliminating the reflections of the signal, the idler and the pump as well as the transmission of all unwanted tones. We demonstrate a configuration where the amplifier can isolate. We call this technique Wideband Idler Filtering (WIF). The theory is supported by simulations that predict over 20 dB gain in the band 4-8 GHz with 10 dB isolation for a single amplifier and 30 dB isolation for two cascaded amplifiers. We demonstrate how the WIF-TWPAs can be used to construct switchable isolators with over 40 dB isolation over the full band 4-8 GHz. We also propose an alternative design where the WIF can be implemented without diplexers. Finally we show how, with small modifications, the technique can be implemented for four-wave mixing (4WM) TWPAs as well.
翻訳日:2023-10-19 16:49:10 公開日:2023-10-18
# 医師というよりは看護婦―調査中の対比的説明

Rather a Nurse than a Physician -- Contrastive Explanations under Investigation ( http://arxiv.org/abs/2310.11906v1 )

ライセンス: Link先を確認
Oliver Eberle, Ilias Chalkidis, Laura Cabello, Stephanie Brandl(参考訳) 対照的な説明は、ある決定が別の決定と対照的に説明されるものであり、人間が非矛盾的な説明よりも意思決定を説明する方法に近いものと考えられる。 この主張は実証的に検証されたことはない。 英語のテキスト分類データセット(SST2, DynaSent, BIOS, DBpedia-Animals)を解析した。 3つのモデル (RoBERTa, GTP-2, T5) をそれぞれ3つの異なるサイズで微調整し, 3つのポストホック説明可能性法 (LRP, GradientxInput, GradNorm) を適用した。 さらに、対照的かつ非対照的な設定のために、BIOSデータセットから100のサンプルのサブセットに対する人間の合理性アノテーションを収集、リリースする。 モデルに基づく合理性と人間のアノテーションの相互比較は、対照的な設定と非矛盾的な設定の両方において、モデルと人間の2つの設定の間に高い一致をもたらします。 さらに、両方の設定で計算されたモデルに基づく説明は、人間の理性と等しく一致する。 そこで我々は,ACL 2022 の長い論文において,人間が必ずしも対照的に説明できないことを実証的に見出した。

Contrastive explanations, where one decision is explained in contrast to another, are supposed to be closer to how humans explain a decision than non-contrastive explanations, where the decision is not necessarily referenced to an alternative. This claim has never been empirically validated. We analyze four English text-classification datasets (SST2, DynaSent, BIOS and DBpedia-Animals). We fine-tune and extract explanations from three different models (RoBERTa, GTP-2, and T5), each in three different sizes and apply three post-hoc explainability methods (LRP, GradientxInput, GradNorm). We furthermore collect and release human rationale annotations for a subset of 100 samples from the BIOS dataset for contrastive and non-contrastive settings. A cross-comparison between model-based rationales and human annotations, both in contrastive and non-contrastive settings, yields a high agreement between the two settings for models as well as for humans. Moreover, model-based explanations computed in both settings align equally well with human rationales. Thus, we empirically find that humans do not necessarily explain in a contrastive manner.9 pages, long paper at ACL 2022 proceedings.
翻訳日:2023-10-19 16:48:47 公開日:2023-10-18
# 加速政策グラディエント:強化学習のためのネステロフ運動について

Accelerated Policy Gradient: On the Nesterov Momentum for Reinforcement Learning ( http://arxiv.org/abs/2310.11897v1 )

ライセンス: Link先を確認
Yen-Ju Chen, Nai-Chieh Huang, Ping-Chun Hsieh(参考訳) 政策勾配法は、最近、非正規化タブ状ソフトマックス設定において、$\Theta(1/t)$レートでグローバル収束を楽しむことが示されている。 したがって、重要な研究課題の1つは、この収束率を1次更新だけでさらに改善できるかどうかである。 本稿では,Nesterovの加速勾配法(NAG)を強化学習(RL)に適用することにより,運動量の観点から,上記の疑問に答える。 より高速なグローバル収束を実現する上での APG の可能性を示すために、真の勾配により、ソフトマックスのパラメトリゼーションを持つ APG が $\tilde{O}(1/t^2)$ の速度で最適なポリシーに収束することを示す。 我々の知る限りでは、これはRLの文脈におけるNAGのグローバル収束率を初めて特徴づけるものである。 初期化にかかわらず、apgは局所的にほぼ凹凸に近い状態になり、有限の反復の中でapgは運動量から著しく恩恵を受ける可能性がある。 数値検証により,APGが$\tilde{O}(1/t^2)$レートを示し,APGが標準方針勾配に対する収束挙動を大幅に改善できることを示す。

Policy gradient methods have recently been shown to enjoy global convergence at a $\Theta(1/t)$ rate in the non-regularized tabular softmax setting. Accordingly, one important research question is whether this convergence rate can be further improved, with only first-order updates. In this paper, we answer the above question from the perspective of momentum by adapting the celebrated Nesterov's accelerated gradient (NAG) method to reinforcement learning (RL), termed \textit{Accelerated Policy Gradient} (APG). To demonstrate the potential of APG in achieving faster global convergence, we formally show that with the true gradient, APG with softmax policy parametrization converges to an optimal policy at a $\tilde{O}(1/t^2)$ rate. To the best of our knowledge, this is the first characterization of the global convergence rate of NAG in the context of RL. Notably, our analysis relies on one interesting finding: Regardless of the initialization, APG could end up reaching a locally nearly-concave regime, where APG could benefit significantly from the momentum, within finite iterations. By means of numerical validation, we confirm that APG exhibits $\tilde{O}(1/t^2)$ rate as well as show that APG could significantly improve the convergence behavior over the standard policy gradient.
翻訳日:2023-10-19 16:48:25 公開日:2023-10-18
# チャネルアテンションを有するラプラシアンオートエンコーダを用いた新しいマルチモーダル医用画像融合

A New Multimodal Medical Image Fusion based on Laplacian Autoencoder with Channel Attention ( http://arxiv.org/abs/2310.11896v1 )

ライセンス: Link先を確認
Payal Wankhede, Manisha Das, Deep Gupta, Petia Radeva, and Ashwini M Bakde(参考訳) 医療画像融合はマルチモーダル医療画像の補完情報を組み合わせることで、医療専門家が患者の疾患の診断を補助し、術前および術中処置のガイダンスを提供する。 ディープラーニング(DL)モデルは、非常に堅牢で正確な融合性能を持つエンドツーエンドの画像融合を実現した。 しかし、ほとんどのDLベースの融合モデルは、学習可能なパラメータや計算量を最小限に抑えるために入力画像のダウンサンプリングを行う。 この過程の間、ソースイメージの突出した特徴は、重要な診断エッジの詳細を失う結果となり、様々な脳組織のコントラストが失われる。 本稿では,アテンションプール(LGCA)を併用したラプラシア・ガウス統合に基づくマルチモーダル医療画像融合モデルを提案する。 我々のモデルが効果的に補完的な情報と重要な組織構造を保存できることを証明します。

Medical image fusion combines the complementary information of multimodal medical images to assist medical professionals in the clinical diagnosis of patients' disorders and provide guidance during preoperative and intra-operative procedures. Deep learning (DL) models have achieved end-to-end image fusion with highly robust and accurate fusion performance. However, most DL-based fusion models perform down-sampling on the input images to minimize the number of learnable parameters and computations. During this process, salient features of the source images become irretrievable leading to the loss of crucial diagnostic edge details and contrast of various brain tissues. In this paper, we propose a new multimodal medical image fusion model is proposed that is based on integrated Laplacian-Gaussian concatenation with attention pooling (LGCA). We prove that our model preserves effectively complementary information and important tissue structures.
翻訳日:2023-10-19 16:47:58 公開日:2023-10-18
# 量子カーネル法のハイパーパラメーターによる研究

A Hyperparameter Study for Quantum Kernel Methods ( http://arxiv.org/abs/2310.11891v1 )

ライセンス: Link先を確認
Sebastian Egginger, Alona Sakhnenko, Jeanette Miriam Lorenz(参考訳) 量子カーネルメソッドは、それらに接続された保証のおかげで、量子機械学習において有望な方法である。 分析的考察に対するそれらのアクセシビリティは、量子的優位性の可能性に基づいてデータセットを事前スクリーニングする可能性も開ける。 そのため、初期の研究は、量子カーネルと古典的カーネルの間の2つのカーネルベースの機械学習アプローチの密接度尺度として理解できる幾何学的差異を開発した。 この計量は量子と古典的なモデルの複雑さを結びつける。 したがって、モデル複雑性との関係に基づく幾何学的差が、量子優位のポテンシャル以外の評価において有用なツールであるかどうかという疑問を提起する。 本研究では,ハイパーパラメータ選択がモデル性能および古典カーネルと量子カーネル間の一般化ギャップに与える影響について検討する。 ハイパーパラメータ最適化の重要性は、古典的な機械学習でもよく知られている。 特に量子ハミルトニアン進化の特徴マップでは、入力データのスケーリングが重要であることが示されている。 しかし、最適化すべきパラメータは、投影された量子カーネルを計算する前にトレースする最善の量子ビット数のように、残されている。 これらのハイパーパラメータの影響を調査し,古典的信頼性の高いクロス検証法と幾何学的差異に基づく選択法を比較した。 11のデータセットにわたるハイパーパラメータの徹底的な調査に基づいて、新しいデータセットを調べる際に活用できる商品を特定しました。 さらに,この知見は,幾何学的差異の適用可能性の理解を深める一助となる。

Quantum kernel methods are a promising method in quantum machine learning thanks to the guarantees connected to them. Their accessibility for analytic considerations also opens up the possibility of prescreening datasets based on their potential for a quantum advantage. To do so, earlier works developed the geometric difference, which can be understood as a closeness measure between two kernel-based machine learning approaches, most importantly between a quantum kernel and classical kernel. This metric links the quantum and classical model complexities. Therefore, it raises the question of whether the geometric difference, based on its relation to model complexity, can be a useful tool in evaluations other than for the potential for quantum advantage. In this work, we investigate the effects of hyperparameter choice on the model performance and the generalization gap between classical and quantum kernels. The importance of hyperparameter optimization is well known also for classical machine learning. Especially for the quantum Hamiltonian evolution feature map, the scaling of the input data has been shown to be crucial. However, there are additional parameters left to be optimized, like the best number of qubits to trace out before computing a projected quantum kernel. We investigate the influence of these hyperparameters and compare the classically reliable method of cross validation with the method of choosing based on the geometric difference. Based on the thorough investigation of the hyperparameters across 11 datasets we identified commodities that can be exploited when examining a new dataset. In addition, our findings contribute to better understanding of the applicability of the geometric difference.
翻訳日:2023-10-19 16:47:42 公開日:2023-10-18
# IRAD: 敵対的攻撃に対する暗黙の表現駆動型イメージリサンプリング

IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks ( http://arxiv.org/abs/2310.11890v1 )

ライセンス: Link先を確認
Yue Cao, Tianlin Li, Xiaofeng Cao, Ivor Tsang, Yang Liu, Qing Guo(参考訳) 本稿では,画像再サンプリングによる敵攻撃に対する新たなアプローチを提案する。 画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。 我々の考えの根底にある理論的根拠は、画像再サンプリングは、本質的な意味情報を保持しながら、敵の摂動の影響を緩和し、敵の攻撃から守ることに固有の利点を与える。 この概念を検証するために,画像再サンプリングを活用して敵の攻撃を防ぐための総合的研究を行った。 我々は補間戦略と座標シフト等級を用いた基本的な再サンプリング手法を開発した。 解析の結果,これらの基本手法は部分的に敵攻撃を軽減できることがわかった。 クリーンな画像の精度は顕著に低下するが、敵の例に対する精度の改善はそれほど大きくない。 我々は、これらの制限を克服するために、暗黙的表現駆動画像再サンプリング(irad)を提案する。 まず,任意の入力画像を連続座標空間内で表現できる暗黙的な連続表現を構築する。 次にSampleNetを導入し、異なる入力に応じて再サンプリングのための画素単位のシフトを自動的に生成する。 さらに,我々のアプローチを最先端拡散法に拡張し,防衛能力を保ちながら,より少ない時間ステップで高速化することができる。 大規模な実験により, クリーン画像の精度を維持しつつ, 多様な深層モデルの種々の攻撃に対する対角的堅牢性を著しく向上することが示された。

We introduce a novel approach to counter adversarial attacks, namely, image resampling. Image resampling transforms a discrete image into a new one, simulating the process of scene recapturing or rerendering as specified by a geometrical transformation. The underlying rationale behind our idea is that image resampling can alleviate the influence of adversarial perturbations while preserving essential semantic information, thereby conferring an inherent advantage in defending against adversarial attacks. To validate this concept, we present a comprehensive study on leveraging image resampling to defend against adversarial attacks. We have developed basic resampling methods that employ interpolation strategies and coordinate shifting magnitudes. Our analysis reveals that these basic methods can partially mitigate adversarial attacks. However, they come with apparent limitations: the accuracy of clean images noticeably decreases, while the improvement in accuracy on adversarial examples is not substantial. We propose implicit representation-driven image resampling (IRAD) to overcome these limitations. First, we construct an implicit continuous representation that enables us to represent any input image within a continuous coordinate space. Second, we introduce SampleNet, which automatically generates pixel-wise shifts for resampling in response to different inputs. Furthermore, we can extend our approach to the state-of-the-art diffusion-based method, accelerating it with fewer time steps while preserving its defense capability. Extensive experiments demonstrate that our method significantly enhances the adversarial robustness of diverse deep models against various attacks while maintaining high accuracy on clean images.
翻訳日:2023-10-19 16:47:24 公開日:2023-10-18
# 火星の過去の居住可能性を理解するための人工知能による質量分析データの解析と今後のミッションへの洞察

Analyze Mass Spectrometry data with Artificial Intelligence to assist the understanding of past habitability of Mars and provide insights for future missions ( http://arxiv.org/abs/2310.11888v1 )

ライセンス: Link先を確認
Ioannis Nasios(参考訳) 本稿では,古代火星の居住可能性検出のための質量分析データへの人工知能の応用について述べる。 火星で収集されたデータは、太陽系のあらゆる天体に対して同じアプローチで複製することができる。 さらに、提案手法は質量分析を用いる任意の領域に適応することができる。 本研究は,地質試料中の特定の化学物質を同定するために用いられるガス分析法 (ega-ms) とガスクロマトグラフィー法 (gc-ms) の2つの質量分析手法のデータ分析に焦点を当てている。 本研究では,地球外物質分析へのEGA-MSおよびGC-MSデータの適用性を示す。 提案手法の最も重要な特徴は、質量分析値の正方根変換、生データの2次元スプレットログラムへの変換、および比較的小さなデータセットへの過剰フィットを避けるために特定の機械学習モデルと技術の利用である。 EGA-MSとGC-MSのデータセットはどちらも、NASAと、著者が参加して活用した2つの機械学習コンペから生まれたものだ。 GC-MSデータセット/競合の完全な実行コードはGitHub.1で公開されている。 生訓練質量分析データには、特定の化学物質の[0, 1]ラベルが含まれており、貴重な洞察を提供し、火星の過去の居住可能性の理解に寄与している。

This paper presents an application of artificial intelligence on mass spectrometry data for detecting habitability potential of ancient Mars. Although data was collected for planet Mars the same approach can be replicated for any terrestrial object of our solar system. Furthermore, proposed methodology can be adapted to any domain that uses mass spectrometry. This research is focused in data analysis of two mass spectrometry techniques, evolved gas analysis (EGA-MS) and gas chromatography (GC-MS), which are used to identify specific chemical compounds in geological material samples. The study demonstrates the applicability of EGA-MS and GC-MS data to extra-terrestrial material analysis. Most important features of proposed methodology includes square root transformation of mass spectrometry values, conversion of raw data to 2D sprectrograms and utilization of specific machine learning models and techniques to avoid overfitting on relative small datasets. Both EGA-MS and GC-MS datasets come from NASA and two machine learning competitions that the author participated and exploited. Complete running code for the GC-MS dataset/competition is available at GitHub.1 Raw training mass spectrometry data include [0, 1] labels of specific chemical compounds, selected to provide valuable insights and contribute to our understanding of the potential past habitability of Mars.
翻訳日:2023-10-19 16:47:00 公開日:2023-10-18
# 神経活動から概念へ:ニューラルネットワークにおける概念の説明に関する調査

From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks ( http://arxiv.org/abs/2310.11884v1 )

ライセンス: Link先を確認
Jae Hee Lee, Sergio Lanza and Stefan Wermter(参考訳) 本稿では,ニューラルネットワークにおける概念を説明する最近のアプローチについて述べる。 概念は、学習と推論の間の自然なリンクとして作用する: ニューラルネットワークシステムが使用する概念が特定されると、これらの概念を推論のための推論システムに統合したり、学習システムの改善や強化のために推論システムを使用することができます。 一方で、知識はニューラルネットワークから抽出できるだけでなく、概念知識をニューラルネットワークアーキテクチャに挿入することもできる。 学習と推論の統合は、ニューロシンボリックAIの中核にあるため、この調査から得られた洞察は、説明可能な概念に基づいてニューロシンボリックAIを実現するための重要なステップとなる。

In this paper, we review recent approaches for explaining concepts in neural networks. Concepts can act as a natural link between learning and reasoning: once the concepts are identified that a neural learning system uses, one can integrate those concepts with a reasoning system for inference or use a reasoning system to act upon them to improve or enhance the learning system. On the other hand, knowledge can not only be extracted from neural networks but concept knowledge can also be inserted into neural network architectures. Since integrating learning and reasoning is at the core of neuro-symbolic AI, the insights gained from this survey can serve as an important step towards realizing neuro-symbolic AI based on explainable concepts.
翻訳日:2023-10-19 16:46:39 公開日:2023-10-18
# 一般バックボーンネットワーク設計のための画像復元ネットワークの比較検討

A Comparative Study of Image Restoration Networks for General Backbone Network Design ( http://arxiv.org/abs/2310.11881v1 )

ライセンス: Link先を確認
Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao and Chao Dong(参考訳) 様々な画像復元作業における深層モデルによる顕著な進歩にもかかわらず、既存の画像復元ネットワークはタスクの汎用性の観点からも課題に直面している。 直感的に言えば、特定のタスクで優れているネットワークは、しばしば他のタスクに満足のいく結果をもたらすことができない。 そこで本研究では,5つの代表的な画像復元ネットワークを選択し,5つの古典的な画像復元タスクの比較研究を行う。 まず,異なる画像復元タスクとバックボーンネットワークの特性について詳細な説明を行う。 次に、ベンチマーク結果を示し、様々なタスクにおける異なるモデルの性能格差の背景にある理由を分析する。 この比較研究から,一般的な画像復元バックボーンネットワークは多様なタスクの機能的要件を満たす必要があることを示唆する。 この原理に基づいて,新しい画像復元バックボーンネットワークであるX-Restormerを設計する。 広範な実験により、x-restormerは優れたタスクの汎用性を持ち、さまざまなタスクで最先端のパフォーマンスを実現することが示されている。

Despite the significant progress made by deep models in various image restoration tasks, existing image restoration networks still face challenges in terms of task generality. An intuitive manifestation is that networks which excel in certain tasks often fail to deliver satisfactory results in others. To illustrate this point, we select five representative image restoration networks and conduct a comparative study on five classic image restoration tasks. First, we provide a detailed explanation of the characteristics of different image restoration tasks and backbone networks. Following this, we present the benchmark results and analyze the reasons behind the performance disparity of different models across various tasks. Drawing from this comparative study, we propose that a general image restoration backbone network needs to meet the functional requirements of diverse tasks. Based on this principle, we design a new general image restoration backbone network, X-Restormer. Extensive experiments demonstrate that X-Restormer possesses good task generality and achieves state-of-the-art performance across a variety of tasks.
翻訳日:2023-10-19 16:46:26 公開日:2023-10-18
# bin-wise scalingは、機械学習回帰における予測の不確かさの一貫性と適応性を改善することができるか?

Can bin-wise scaling improve consistency and adaptivity of prediction uncertainty for machine learning regression ? ( http://arxiv.org/abs/2310.11978v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) binwise variance scaling (bvs) は、一様分散(または温度)スケーリングよりも効率的な補正が可能な機械学習回帰問題の予測の不確実性のためのポストホックなリカバリ法として最近提案されている。 BVSのオリジナルバージョンは不確実性ベースのビンニングを使用しており、不確実性、すなわち一貫性に基づいて校正条件を改善することを目的としている。 ここでは,BVSの適応,特に代替損失関数と,適応性を改善するための入力機能(X)に基づくビンニング方式について検討する。すなわち,BVSと提案した変種の性能は,原子化エネルギーの予測のためのベンチマークデータセット上で検証し,等調回帰の結果と比較する。

Binwise Variance Scaling (BVS) has recently been proposed as a post hoc recalibration method for prediction uncertainties of machine learning regression problems that is able of more efficient corrections than uniform variance (or temperature) scaling. The original version of BVS uses uncertainty-based binning, which is aimed to improve calibration conditionally on uncertainty, i.e. consistency. I explore here several adaptations of BVS, in particular with alternative loss functions and a binning scheme based on an input-feature (X) in order to improve adaptivity, i.e. calibration conditional on X. The performances of BVS and its proposed variants are tested on a benchmark dataset for the prediction of atomization energies and compared to the results of isotonic regression.
翻訳日:2023-10-19 16:37:31 公開日:2023-10-18
# シーケンスモデリングとしての連続学習の再キャスト

Recasting Continual Learning as Sequence Modeling ( http://arxiv.org/abs/2310.11952v1 )

ライセンス: Link先を確認
Soochan Lee, Jaehyeon Son, Gunhee Kim(参考訳) 本研究では,連続学習とシーケンスモデリングという,機械学習研究の2つの重要な分野の強い関係を確立することを目的とする。 すなわち,連続学習をシーケンスモデリング問題として定式化し,連続学習に高度なシーケンスモデルを活用することを提案する。 この定式化の下では、連続学習プロセスがシーケンスモデルの前方通過となる。 メタcontinual Learning(MCL)フレームワークを採用することで、複数の連続学習エピソードに基づいて、メタレベルでシーケンスモデルをトレーニングすることができる。 新しい定式化の具体例として、トランスフォーマーとその効率的な変種をmcl法として応用することを示す。 分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。

In this work, we aim to establish a strong connection between two significant bodies of machine learning research: continual learning and sequence modeling. That is, we propose to formulate continual learning as a sequence modeling problem, allowing advanced sequence models to be utilized for continual learning. Under this formulation, the continual learning process becomes the forward pass of a sequence model. By adopting the meta-continual learning (MCL) framework, we can train the sequence model at the meta-level, on multiple continual learning episodes. As a specific example of our new formulation, we demonstrate the application of Transformers and their efficient variants as MCL methods. Our experiments on seven benchmarks, covering both classification and regression, show that sequence models can be an attractive solution for general MCL.
翻訳日:2023-10-19 16:37:15 公開日:2023-10-18
# 正直に言うと:人間活動認識のための(繰り返し)実践におけるパフォーマンス過大評価

Too Good To Be True: performance overestimation in (re)current practices for Human Activity Recognition ( http://arxiv.org/abs/2310.11950v1 )

ライセンス: Link先を確認
Andr\'es Tello, Victoria Degeler and Alexander Lazovik(参考訳) 今日では、Human Activity Recognition (HAR) パイプラインには、標準的で確立された手順がある。 しかし、これらの従来のアプローチのいくつかは精度を過大評価する。 特に、データのセグメンテーションのためのスライディングウィンドウと標準のランダムなk-foldクロス検証は、バイアスのある結果を生成する。 これまでの文献の分析と現在の研究では、これらがHARに関する最先端の研究において一般的なアプローチであることが示されている。 この問題に対する科学界の認識を高めることは重要であり、その悪影響は見過ごされている。 そうでなければ、バイアスのある結果の出版は、正しい偏見のない方法により、より低い精度を報告し、出版が困難になる。 異なる種類のデータセットと異なる種類の分類モデルを使ったいくつかの実験により、問題を示し、メソッドやデータセットとは独立に持続することを示すことができる。

Today, there are standard and well established procedures within the Human Activity Recognition (HAR) pipeline. However, some of these conventional approaches lead to accuracy overestimation. In particular, sliding windows for data segmentation followed by standard random k-fold cross validation, produce biased results. An analysis of previous literature and present-day studies, surprisingly, shows that these are common approaches in state-of-the-art studies on HAR. It is important to raise awareness in the scientific community about this problem, whose negative effects are being overlooked. Otherwise, publications of biased results lead to papers that report lower accuracies, with correct unbiased methods, harder to publish. Several experiments with different types of datasets and different types of classification models allow us to exhibit the problem and show it persists independently of the method or dataset.
翻訳日:2023-10-19 16:37:04 公開日:2023-10-18
# 投影型圧縮状態プロトコルのロバスト性

Robustness of the projected squeezed state protocol ( http://arxiv.org/abs/2310.11948v1 )

ライセンス: Link先を確認
B. J. Alexander, J. J. Bollinger and M. S. Tame(参考訳) 投射圧縮(PS)状態は、ユニタリスピンスクイージングによって生成され、続いて集合量子測定とポストセレクションによって生成される多部交絡状態である。 これらは、イオン、中性原子、超伝導量子ビットなどのスピンスクイージングを実現する物理系におけるユニタリ変換による決定的準備と比較して、最大絡み合うN-量子ビットグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)の状態準備時間を大幅に減少させる。 ここでは,非理想的実験条件下でのPS状態の生成をシミュレーションする。 計算複雑性を低減するためにKraus演算子法と量子軌道法を用いることで、量子フィッシャー情報の評価と、理想的なGHZ状態との重なり合いを評価する。 以上の結果から,PS状態は有用な気象資源であり,Qubit数Nの増加による環境影響に対する堅牢性を示した。

Projected squeezed (PS) states are multipartite entangled states generated by unitary spin squeezing, followed by a collective quantum measurement and post-selection. They can lead to an appreciable decrease in the state preparation time of the maximally entangled N-qubit Greenberger-Horne-Zeilinger (GHZ) state when compared to deterministic preparation by unitary transformations in physical systems where spin squeezing can be realized, such as ion, neutral atom, and superconducting qubits. Here we simulate the generation of PS states in non-ideal experimental conditions with relevant decoherence channels. By employing the Kraus operator method, and quantum trajectory method to reduce the computational complexity, we assess the quantum Fisher information and overlap fidelity with an ideal GHZ state. Our findings highlight PS states as useful metrological resources, demonstrating a robustness against environmental effects with increasing qubit number N.
翻訳日:2023-10-19 16:36:50 公開日:2023-10-18
# 完全制御不能な遺伝子多部絡み合い

Genuine multipartite entanglement without fully controllable measurements ( http://arxiv.org/abs/2310.11946v1 )

ライセンス: Link先を確認
Huan Cao, Simon Morelli, Lee A. Rozema, Chao Zhang, Armin Tavakoli, Philip Walther(参考訳) エンタングルメント検出の標準的な手順は、実験者が特定の量子測定を正確に実装できると仮定する。 ここでは、このような理想化から離れ、理論と実験の両方において、小さな不完全さの対象となる測定値を用いて、真の多重粒子絡みの検出について検討する。 測定の不完全性を考慮し, 偽陽性の可能性を排除するために, 多部交絡証人のよく知られた例を正す方法を示す。 まず, テーブルトップの4成分光子実験を行い, まず, 少量のアライメント誤差が, 不正なエンタングルメント目撃者から得られた結論を損なうこと, そして, 補正されたデータ解析の結果を実証する。 さらに,提案手法は信頼性が高いが不完全な制御をしていない量子デバイスに適合するので,デバイスに依存しないモデルと比較してノイズ耐性の面でその優位性を示す。 本研究は,検証装置における不完全性に関する知識を考慮したマルチパーティイトシステムの量子特性の検証に寄与する。

Standard procedures for entanglement detection assume that experimenters can exactly implement specific quantum measurements. Here, we depart from such idealizations and investigate, in both theory and experiment, the detection of genuine multipartite entanglement using measurements that are subject to small imperfections. We show how to correct well-known examples of multipartite entanglement witnesses to account for measurement imperfection, thereby excluding the possibility of false positives. We proceed with a tabletop four-partite photonic experiment and demonstrate first how a small amount of alignment error can undermine the conclusions drawn from uncorrected entanglement witnesses, and then the conclusions of the corrected data analysis. Furthermore, as our approach is tailored for a quantum device that is trusted but not flawlessly controlled, we show its advantages in terms of noise resilience as compared to device-independent models. Our work contributes to verifying quantum properties of multipartite systems when taking into account knowledge of imperfections in the verification devices.
翻訳日:2023-10-19 16:36:30 公開日:2023-10-18
# 時系列クラスタリングのための解釈可能なスペクトル変動オートエンコーダ(ISVAE)

Interpretable Spectral Variational AutoEncoder (ISVAE) for time series clustering ( http://arxiv.org/abs/2310.11940v1 )

ライセンス: Link先を確認
\'Oscar Jim\'enez Rama, Fernando Moreno-Pino, David Ram\'irez, Pablo M. Olmos(参考訳) 最も優れたエンコーディングは、自然界で解釈できるものである。 本稿では,可変オートエンコーダ(vae)の開始時に,解釈可能なボトルネック項であるフィルタバンク(fb)を組み込んだ新しいモデルを提案する。 このアレンジメントにより、vaeは入力信号の最も有益なセグメントに出席せざるを得なくなり、従来の潜在空間上での解釈性とクラスタ性の向上を誇示する${f_0}$という新しいコーディングの学習が促進される。 このFBでVAEを意図的に拘束することにより、広い入力ドメイン情報へのアクセス能力を意図的に制限し、識別可能で分離可能で、次元が小さくなるエンコードの開発を促進する。 {f_0}$の進化的学習軌道は、よりダイナミックな階層木として現れ、クラスタ類似性に関する深い洞察を提供する。 さらに,複雑なデータ構成を扱うために,fbのアーキテクチャと対称に整合したデコーダ構造を提案する。 ISVAEは、実世界のデータセットにまたがるクラスタリングのメトリクスにおいて、最先端の結果と好意的に比較できる。

The best encoding is the one that is interpretable in nature. In this work, we introduce a novel model that incorporates an interpretable bottleneck-termed the Filter Bank (FB)-at the outset of a Variational Autoencoder (VAE). This arrangement compels the VAE to attend on the most informative segments of the input signal, fostering the learning of a novel encoding ${f_0}$ which boasts enhanced interpretability and clusterability over traditional latent spaces. By deliberately constraining the VAE with this FB, we intentionally constrict its capacity to access broad input domain information, promoting the development of an encoding that is discernible, separable, and of reduced dimensionality. The evolutionary learning trajectory of ${f_0}$ further manifests as a dynamic hierarchical tree, offering profound insights into cluster similarities. Additionally, for handling intricate data configurations, we propose a tailored decoder structure that is symmetrically aligned with FB's architecture. Empirical evaluations highlight the superior efficacy of ISVAE, which compares favorably to state-of-the-art results in clustering metrics across real-world datasets.
翻訳日:2023-10-19 16:36:12 公開日:2023-10-18
# グラウンドドとウェルラウンドド:クロスモーダルおよびクロスランガルグラウンドの研究への方法論的アプローチ

Grounded and Well-rounded: A Methodological Approach to the Study of Cross-modal and Cross-lingual Grounding ( http://arxiv.org/abs/2310.11938v1 )

ライセンス: Link先を確認
Timothee Mickus and Elaine Zosa and Denis Paperno(参考訳) グラウンディングは、より完全で真にセマンティックに有能な人工知能システムの開発において重要な要素であると主張している。 文学は2つのキャンプに分かれている: 基礎化は定性的に異なる一般化を可能にすると主張する者もいるが、ある者はそれがモノモーダルデータ量によって補うことができると信じている。 本研究は, 基礎研究の方法論的課題とNLPシステムへの影響から, いずれの立場に対しても, 限定的な実証的証拠が出現している。 本稿では,テキストのみよりもリッチな入力源を持つモデルを提供する方法として,その効果を研究するための方法論的枠組みを確立する。 その要点は、異なる入力モダリティに基づいて訓練されたモデルの集団の同等のサンプルを構築し、異なる入力源の質的効果を定量的なモデル性能から区別することができることである。 このフレームワークを用いた実験では, 意味論の具体性に応じて, グローバルなデータセットレベルだけでなく, 特定の単語表現に対しても, クロスモーダルグラウンド, クロスランガルグラウンド, アングラウンドモデル間のモデル挙動の質的差異を明らかにする。

Grounding has been argued to be a crucial component towards the development of more complete and truly semantically competent artificial intelligence systems. Literature has divided into two camps: While some argue that grounding allows for qualitatively different generalizations, others believe it can be compensated by mono-modal data quantity. Limited empirical evidence has emerged for or against either position, which we argue is due to the methodological challenges that come with studying grounding and its effects on NLP systems. In this paper, we establish a methodological framework for studying what the effects are - if any - of providing models with richer input sources than text-only. The crux of it lies in the construction of comparable samples of populations of models trained on different input modalities, so that we can tease apart the qualitative effects of different input sources from quantifiable model performances. Experiments using this framework reveal qualitative differences in model behavior between cross-modally grounded, cross-lingually grounded, and ungrounded models, which we measure both at a global dataset level as well as for specific word representations, depending on how concrete their semantics is.
翻訳日:2023-10-19 16:35:52 公開日:2023-10-18
# 多重不整合可観測体の同時測定とマルチパラメータ量子推定のためのトレードオフ関係

Tradeoff relations for simultaneous measurement of multiple incompatible observables and multi-parameter quantum estimation ( http://arxiv.org/abs/2310.11925v1 )

ライセンス: Link先を確認
Hongzhen Chen and Haidong Yuan(参考訳) 複数の非可換オブザーバブルを単一測定でどの程度実装できるか? これは量子力学の基本的な問題であり、量子情報科学における多くのタスクの最適性能を決定する。 既存の研究は主に2つの観測可能な天体を1つの測定で近似することに焦点を当てているが、実際には複数の観測可能な天体がしばしば遭遇し、近似の誤りはほとんど理解されていない。 ここでは、任意の有限個の可観測物の近似を単一の測度で研究するアプローチを提案する。 このアプローチでは、任意の数の可観測値に対する近似の誤差に関する解析的境界を求め、基本的な問題の理解を大幅に改善する。 また、半定値プログラミングの観点からはより厳密な境界を提供し、2つの観測可能の場合、既存の境界よりも厳密な解析的境界をもたらすことができる。 次に,本手法のパワーを,基礎的かつ実用的関心事である複数のパラメータを推定するための精度のトレードオフを定量化することで実証する。

How well can multiple noncommutative observables be implemented by a single measurement? This is a fundamental problem in quantum mechanics and determines the optimal performances of many tasks in quantum information science. While existing studies have been mostly focusing on the approximation of two observables with a single measurement, in practice multiple observables are often encountered, for which the errors of the approximations are little understood. Here we provide an approach to study the approximation of an arbitrary finite number of observables with a single measurement. With this approach, we obtain analytical bounds on the errors of the approximations for an arbitrary number of observables, which significantly improves our understanding of a fundamental problem. We also provide a tighter bound in terms of the semi-definite programming, which, in the case of two observables, can lead to an analytical bound that is tighter than existing bounds. We then demonstrate the power of the approach by quantifying the tradeoff of the precisions for the estimation of multiple parameters in quantum metrology, which is of both fundamental and practical interest.
翻訳日:2023-10-19 16:35:25 公開日:2023-10-18
# 線形構造探索によるトランスフォーマー文埋め込みの意味部分空間の検討

Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing ( http://arxiv.org/abs/2310.11923v1 )

ライセンス: Link先を確認
Dmitry Nikolaev and Sebastian Pad\'o(参考訳) トランスフォーマーベース言語モデルの異なる層にどのような言語情報がエンコードされているかという問題は、NLPコミュニティにとって大きな関心事である。 しかし、既存の作業は、マスキングトケンのトレーニング目的を持つ単語レベルの表現とエンコーダのみの言語モデルに圧倒的に重点を置いている。 本稿では,データポイント間のタスク固有のペアワイズ距離を提供する埋め込み空間のサブスペースを見つけることによって,文レベルの表現を研究するセマンティックな構造探索実験を行う。 本手法は,異なるファミリー(エンコーダのみ,デコーダのみ,エンコーダデコーダのみ)の言語モデルと,意味的テキスト類似性と自然言語推論という2つのタスクの文脈における異なる大きさの言語モデルに適用する。 モデルファミリーは性能と層動力学で大きく異なるが、結果はほとんどがモデルサイズの不変量であることがわかった。

The question of what kinds of linguistic information are encoded in different layers of Transformer-based language models is of considerable interest for the NLP community. Existing work, however, has overwhelmingly focused on word-level representations and encoder-only language models with the masked-token training objective. In this paper, we present experiments with semantic structural probing, a method for studying sentence-level representations via finding a subspace of the embedding space that provides suitable task-specific pairwise distances between data-points. We apply our method to language models from different families (encoder-only, decoder-only, encoder-decoder) and of different sizes in the context of two tasks, semantic textual similarity and natural-language inference. We find that model families differ substantially in their performance and layer dynamics, but that the results are largely model-size invariant.
翻訳日:2023-10-19 16:35:08 公開日:2023-10-18
# 知識グラフにおける半帰納的リンク予測のベンチマーク

A Benchmark for Semi-Inductive Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2310.11917v1 )

ライセンス: Link先を確認
Adrian Kochsiek, Rainer Gemulla(参考訳) 知識グラフ(KG)における半帰納的リンク予測(英: Semi-inductive Link Prediction, LP)は、文脈情報に基づいて、新しい、以前は目に見えないエンティティの事実を予測するタスクである。 新しいエンティティは、原則としてスクラッチからモデルを再トレーニングすることで統合することができるが、そのようなアプローチは大規模なKGでは不可能である。 本稿では,半帰納的LPモデルを評価するための大規模ベンチマークを提案する。 このベンチマークはwikidata5mをベースとし、拡張している:transductive、k-shot、0-shot lpタスクを提供する。 (i)kg構造のみ (二)テキストによる言及を含むこと、 (iii)その実体の詳細な説明 本報告では,最近の研究成果について概説し,全ての実験において,半インダクティブLP性能は長テールエンティティのトランスダクティブ性能には程遠いことを示した。 このベンチマークは、半帰納的LPモデルにおける文脈とテキスト情報の統合に関するさらなる研究のためのテストベッドを提供する。

Semi-inductive link prediction (LP) in knowledge graphs (KG) is the task of predicting facts for new, previously unseen entities based on context information. Although new entities can be integrated by retraining the model from scratch in principle, such an approach is infeasible for large-scale KGs, where retraining is expensive and new entities may arise frequently. In this paper, we propose and describe a large-scale benchmark to evaluate semi-inductive LP models. The benchmark is based on and extends Wikidata5M: It provides transductive, k-shot, and 0-shot LP tasks, each varying the available information from (i) only KG structure, to (ii) including textual mentions, and (iii) detailed descriptions of the entities. We report on a small study of recent approaches and found that semi-inductive LP performance is far from transductive performance on long-tail entities throughout all experiments. The benchmark provides a test bed for further research into integrating context and textual information in semi-inductive LP models.
翻訳日:2023-10-19 16:34:50 公開日:2023-10-18
# 有限ホリゾン法による能動レベル集合推定

A Finite-Horizon Approach to Active Level Set Estimation ( http://arxiv.org/abs/2310.11985v1 )

ライセンス: Link先を確認
Phillip Kearns, Bruno Jedynak, John Lipor(参考訳) レベル集合推定 (lse) における空間サンプリングの文脈におけるアクティブラーニングの問題を考察し, 関心関数が与えられたしきい値以上の領域を可能な限り早く局所化することを目的としている。 1次元でLSEを行うための有限水平探索法を提案するが、最終的な推定誤差と一定数のサンプルの移動距離のバランスは最適である。 チューニングパラメータは、推定精度と走行距離のトレードオフに使用される。 得られた最適化問題をクローズドな形で解き、その結果のポリシーが既存のアプローチを一般化することを示す。 次に,この手法を用いて,ガウス過程モデルの下で高次元のレベルセット推定を行う方法を示す。 合成データを用いた実験の結果, 旅行費が増加するにつれて, 距離を非認知的に扱うことで, 芸術の状態を著しく改善できることがわかった。 実空気質データでは,提案手法は競合するアルゴリズムのコストの半分以下で推定誤差の約5分の1を達成する。

We consider the problem of active learning in the context of spatial sampling for level set estimation (LSE), where the goal is to localize all regions where a function of interest lies above/below a given threshold as quickly as possible. We present a finite-horizon search procedure to perform LSE in one dimension while optimally balancing both the final estimation error and the distance traveled for a fixed number of samples. A tuning parameter is used to trade off between the estimation accuracy and distance traveled. We show that the resulting optimization problem can be solved in closed form and that the resulting policy generalizes existing approaches to this problem. We then show how this approach can be used to perform level set estimation in higher dimensions under the popular Gaussian process model. Empirical results on synthetic data indicate that as the cost of travel increases, our method's ability to treat distance nonmyopically allows it to significantly improve on the state of the art. On real air quality data, our approach achieves roughly one fifth the estimation error at less than half the cost of competing algorithms.
翻訳日:2023-10-19 16:29:21 公開日:2023-10-18
# 補間から外挿へ:算数変換器の完全長一般化

From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers ( http://arxiv.org/abs/2310.11984v1 )

ライセンス: Link先を確認
Shaoxiong Duan and Yining Shi(参考訳) 導入以来、トランスフォーマーモデルは様々なタスクで優れた性能を示している。 しかし、特にアルゴリズム的なタスクにおいて、長さ一般化に関する未解決問題が存在する。 本稿では,加法や乗算などの算術アルゴリズムの学習におけるトランスフォーマーモデルの本質的能力について検討する。 実験と注意分析を通じて,最適な長さ一般化を達成するための重要な要因を明らかにした。 対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。 次に、適切な注意バイアスを自動的に学習できるキャリブレーションステージであるAttention Bias Calibration(ABC)を導入し、相対的な位置符号化のメカニズムとリンクする。 ABCを用いて,ある算術課題に対して,前例のない完全長の一般化を実現できることを示す。

Since its introduction, the transformer model has demonstrated outstanding performance across various tasks. However, there are still unresolved issues regarding length generalization, particularly in algorithmic tasks. In this paper, we investigate the inherent capabilities of transformer models in learning arithmetic algorithms, such as addition and multiplication. Through experiments and attention analysis, we identify a number of crucial factors for achieving optimal length generalization. We show that transformer models are able to generalize to long lengths with the help of targeted attention biasing. We then introduce Attention Bias Calibration (ABC), a calibration stage that enables the model to automatically learn the proper attention biases, which we link to mechanisms in relative position encoding. We demonstrate that using ABC, the transformer model can achieve unprecedented perfect length generalization on certain arithmetic tasks.
翻訳日:2023-10-19 16:29:03 公開日:2023-10-18
# 情報拡散:非自己回帰テキスト生成のための情報エントロピー認識拡散プロセス

InfoDiffusion: Information Entropy Aware Diffusion Process for Non-Autoregressive Text Generation ( http://arxiv.org/abs/2310.11976v1 )

ライセンス: Link先を確認
Renzhi Wang, Jing Li, Piji Li(参考訳) 拡散モデルはテキスト生成の分野でかなりの関心を集めている。 いくつかの研究は異なる構造を持つテキスト拡散モデルを調査し、名前付きエンティティ認識や要約を含む様々なタスクに適用している。 しかし、現在の拡散モデルの「簡単な第一」テキスト生成プロセスと人間の「キーワード第一」自然テキスト生成プロセスとの間には、注目すべき相違がある。 このギャップを埋めるため,非自己回帰的テキスト拡散モデルであるInfoDiffusionを提案する。 提案手法は「キー情報優先」生成戦略を導入し,テキスト情報量に基づくノイズスケジュールを取り入れている。 さらに、infodiffusionは、新しく提案された部分的ノイズモデル構造と自己コンディショニングを組み合わせる。 実験結果から,InfoDiffusionは生成品質と多様性の点でベースラインモデルより優れており,サンプリング効率も高いことがわかった。

Diffusion models have garnered considerable interest in the field of text generation. Several studies have explored text diffusion models with different structures and applied them to various tasks, including named entity recognition and summarization. However, there exists a notable disparity between the "easy-first" text generation process of current diffusion models and the "keyword-first" natural text generation process of humans, which has received limited attention. To bridge this gap, we propose InfoDiffusion, a non-autoregressive text diffusion model. Our approach introduces a "keyinfo-first" generation strategy and incorporates a noise schedule based on the amount of text information. In addition, InfoDiffusion combines self-conditioning with a newly proposed partially noising model structure. Experimental results show that InfoDiffusion outperforms the baseline model in terms of generation quality and diversity, as well as exhibiting higher sampling efficiency.
翻訳日:2023-10-19 16:28:52 公開日:2023-10-18
# グループ不変学習による人間選好へのアライメントの一般化

Improving Generalization of Alignment with Human Preferences through Group Invariant Learning ( http://arxiv.org/abs/2310.11971v1 )

ライセンス: Link先を確認
Rui Zheng, Wei Shen, Yuan Hua, Wenbin Lai, Shihan Dou, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Haoran Huang, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間からのフィードバックからの強化学習(RLHF)に大きく依存している。 ユニバーサルなAIアシスタントとして、さまざまなドメインで一貫して実行するという期待が高まっています。 しかし、以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。 これにより、トレーニングの安定性と、新しい、目に見えないデータに一般化するモデルの能力の両方が損なわれる。 本研究では,様々なデータグループやドメインにまたがる一貫したポリシーをRLで学習する手法を提案する。 グループアノテーションの取得に関わる課題を考慮し,データを自動的に異なるグループに分類し,パフォーマンスの分散を意図的に最大化する。 そして、挑戦するグループでうまく機能するようにポリシーを最適化します。 最後に、確立したグループを活用して探索空間を適応的に調整し、より困難なデータに学習能力を割り当て、モデルが単純なデータに対して過度に最適化されるのを防ぐ。 実験結果から,本手法はトレーニング安定性とモデル一般化を著しく向上させることが示された。

The success of AI assistants based on language models (LLMs) hinges crucially on Reinforcement Learning from Human Feedback (RLHF), which enables the generation of responses more aligned with human preferences. As universal AI assistants, there's a growing expectation for them to perform consistently across various domains. However, previous work shows that Reinforcement Learning (RL) often exploits shortcuts to attain high rewards and overlooks challenging samples. This focus on quick reward gains undermines both the stability in training and the model's ability to generalize to new, unseen data. In this work, we propose a novel approach that can learn a consistent policy via RL across various data groups or domains. Given the challenges associated with acquiring group annotations, our method automatically classifies data into different groups, deliberately maximizing performance variance. Then, we optimize the policy to perform well on challenging groups. Lastly, leveraging the established groups, our approach adaptively adjusts the exploration space, allocating more learning capacity to more challenging data and preventing the model from over-optimizing on simpler data. Experimental results indicate that our approach significantly enhances training stability and model generalization.
翻訳日:2023-10-19 16:28:38 公開日:2023-10-18
# ギャップの充填:グラフオートエンコーダネットワークを用いた効率的なイベント参照解決

Filling in the Gaps: Efficient Event Coreference Resolution using Graph Autoencoder Networks ( http://arxiv.org/abs/2310.11965v1 )

ライセンス: Link先を確認
Loic De Langhe, Orph\'ee De Clercq, Veronique Hoste(参考訳) 本稿では,低リソース言語領域に適用するイベントコリファレンス解決法(ecr)の新規かつ効率的な手法を提案する。 ECRをグラフ再構成タスクとすることで、深いセマンティック埋め込みと構造的コア参照チェーンの知識を組み合わせ、グラフオートエンコーダモデル(GAE)のパラメータ効率の良いファミリを作成することができる。 本手法は,オランダの大規模イベントコリファレンスコーパスにおいて,総合スコア,効率,トレーニング速度の点で,従来の参照ペア法を大幅に上回っている。 さらに,我々のモデルでは,より難易度の高いコリファレンスリンクの分類が可能であり,トランスフォーマーベースの参照ペアコリファレンスアルゴリズムに比べ,低データ設定でははるかに頑健であることを示す。

We introduce a novel and efficient method for Event Coreference Resolution (ECR) applied to a lower-resourced language domain. By framing ECR as a graph reconstruction task, we are able to combine deep semantic embeddings with structural coreference chain knowledge to create a parameter-efficient family of Graph Autoencoder models (GAE). Our method significantly outperforms classical mention-pair methods on a large Dutch event coreference corpus in terms of overall score, efficiency and training speed. Additionally, we show that our models are consistently able to classify more difficult coreference links and are far more robust in low-data settings when compared to transformer-based mention-pair coreference algorithms.
翻訳日:2023-10-19 16:28:04 公開日:2023-10-18
# 因果的階層的注意とポインタを用いたAMR解析

AMR Parsing with Causal Hierarchical Attention and Pointers ( http://arxiv.org/abs/2310.11964v1 )

ライセンス: Link先を確認
Chao Lou, Kewei Tu(参考訳) 翻訳ベースのAMRパーサは、その単純さと有効性から最近人気を集めている。 線形化グラフを自由テキストとして予測し、明示的な構造モデリングを避ける。 しかし、この単純さはAMRグラフの構造的局所性を無視し、コア参照を表現するために不要なトークンを導入する。 本稿では,amr解析の新たな対象形態と,因果的階層的注意とポインタ機構を備えた新しいモデルchapを導入し,構造をトランスフォーマデコーダに統合する。 我々は様々な代替モデリングオプションを経験的に探求する。 実験の結果, 5つのベンチマークのうち4つのベースラインモデルでは, 追加データの設定では, ベースラインモデルよりも優れていた。

Translation-based AMR parsers have recently gained popularity due to their simplicity and effectiveness. They predict linearized graphs as free texts, avoiding explicit structure modeling. However, this simplicity neglects structural locality in AMR graphs and introduces unnecessary tokens to represent coreferences. In this paper, we introduce new target forms of AMR parsing and a novel model, CHAP, which is equipped with causal hierarchical attention and the pointer mechanism, enabling the integration of structures into the Transformer decoder. We empirically explore various alternative modeling options. Experiments show that our model outperforms baseline models on four out of five benchmarks in the setting of no additional data.
翻訳日:2023-10-19 16:27:43 公開日:2023-10-18
# 高速多極型アテンション:長周期の分極型アテンション機構

Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences ( http://arxiv.org/abs/2310.11960v1 )

ライセンス: Link先を確認
Yanming Kang, Giang Tran, Hans De Sterck(参考訳) トランスフォーマーベースのモデルは、多くの分野で最先端のパフォーマンスを達成した。 しかし、入力長に対する自己着脱の二次的複雑さは、トランスフォーマベースのモデルを長い列に適用する可能性を妨げる。 これを解決するために、Fast Multipole Attentionという新しいアテンションメカニズムを提案する。これは、長さ$n$から$\mathcal{O}(n^2)$から$\mathcal{O}(n \log n)$または$O(n)$へのアテンションの時間とメモリの複雑さを減らし、グローバルな受容場を保持しながら、新しいアテンションメカニズムである。 階層的アプローチでは、クエリ、キー、値を$\mathcal{o}( \log n)$の分解レベルにグループ化する。 このように、互いに遠く離れたトークン間の相互作用は、効率的な階層的方法で低い解像度で考慮される。 Fast Multipole Attentionの全体的な複雑さは、クエリがダウンサンプリングされているかどうかによって、$\mathcal{O}(n)$または$\mathcal{O}(n \log n)$である。 この多値除算戦略は、n$-body 物理学と高速多重極法からの高速和法に触発されたものである。 自動回帰および双方向言語モデリングタスクの評価を行い、中規模データセット上での高速多極性注意モデルと他の効率的な注意モデルとの比較を行った。 高速マルチポールトランスフォーマーは,メモリサイズや精度において,他の効率的なトランスフォーマーよりもはるかに優れた性能を示す。 Fast Multipole Attentionメカニズムは、トレーニング中や長いシーケンスを生成する際に、完全なコンテキストを効率的で自然に階層的な方法で考慮し、はるかに大きなシーケンス長の言語モデルを強化する可能性がある。

Transformer-based models have achieved state-of-the-art performance in many areas. However, the quadratic complexity of self-attention with respect to the input length hinders the applicability of Transformer-based models to long sequences. To address this, we present Fast Multipole Attention, a new attention mechanism that uses a divide-and-conquer strategy to reduce the time and memory complexity of attention for sequences of length $n$ from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$ or $O(n)$, while retaining a global receptive field. The hierarchical approach groups queries, keys, and values into $\mathcal{O}( \log n)$ levels of resolution, where groups at greater distances are increasingly larger in size and the weights to compute group quantities are learned. As such, the interaction between tokens far from each other is considered in lower resolution in an efficient hierarchical manner. The overall complexity of Fast Multipole Attention is $\mathcal{O}(n)$ or $\mathcal{O}(n \log n)$, depending on whether the queries are down-sampled or not. This multi-level divide-and-conquer strategy is inspired by fast summation methods from $n$-body physics and the Fast Multipole Method. We perform evaluation on autoregressive and bidirectional language modeling tasks and compare our Fast Multipole Attention model with other efficient attention variants on medium-size datasets. We find empirically that the Fast Multipole Transformer performs much better than other efficient transformers in terms of memory size and accuracy. The Fast Multipole Attention mechanism has the potential to empower large language models with much greater sequence lengths, taking the full context into account in an efficient, naturally hierarchical manner during training and when generating long sequences.
翻訳日:2023-10-19 16:27:28 公開日:2023-10-18
# 時系列解析のためのマルチスケール分解型MLPミクサ

A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis ( http://arxiv.org/abs/2310.11959v1 )

ライセンス: Link先を確認
Shuhan Zhong, Sizhe Song, Guanyao Li, Weipeng Zhuo, Yang Liu, S.-H. Gary Chan(参考訳) 時系列データは、しばしば一意な構成と複雑な多スケールの時間変化によって特徴づけられるが、分析において分解と多スケールモデリングを特に考慮する必要がある。 既存のディープラーニング手法は、一変量時系列にのみ適合し、サブシリーズレベルのモデリングや分解完全性を十分に考慮していない。 そこで我々は,MSD-Mixerを提案する。MLP-Mixerは,入力時系列を異なるコンポーネントに明示的に分解し,異なるレイヤのコンポーネントを表現する。 本稿では,マルチスケールの時間パターンとチャネル間依存性を扱うために,時系列をマルチスケールのサブシリーズ,すなわちパッチとしてモデル化する新しい時間的パッチ手法を提案する。 さらに,分解完全性に対する分解残差の大きさと自己相関を制約する損失関数を提案する。 5つの一般的な時系列分析タスク(長期および短期予測、インプテーション、異常検出、分類)のための様々な実世界のデータセットに関する広範な実験を通じて、msd-mixerは他の最先端のタスクジェネラルやタスク特有のアプローチと比較して、一貫して優れたパフォーマンスを達成できることを実証する。

Time series data, often characterized by unique composition and complex multi-scale temporal variations, requires special consideration of decomposition and multi-scale modeling in its analysis. Existing deep learning methods on this best fit to only univariate time series, and have not sufficiently accounted for sub-series level modeling and decomposition completeness. To address this, we propose MSD-Mixer, a Multi-Scale Decomposition MLP-Mixer which learns to explicitly decompose the input time series into different components, and represents the components in different layers. To handle multi-scale temporal patterns and inter-channel dependencies, we propose a novel temporal patching approach to model the time series as multi-scale sub-series, i.e., patches, and employ MLPs to mix intra- and inter-patch variations and channel-wise correlations. In addition, we propose a loss function to constrain both the magnitude and autocorrelation of the decomposition residual for decomposition completeness. Through extensive experiments on various real-world datasets for five common time series analysis tasks (long- and short-term forecasting, imputation, anomaly detection, and classification), we demonstrate that MSD-Mixer consistently achieves significantly better performance in comparison with other state-of-the-art task-general and task-specific approaches.
翻訳日:2023-10-19 16:26:44 公開日:2023-10-18
# 海をスプーンで空にする:モデルを編集するべきか?

Emptying the Ocean with a Spoon: Should We Edit Models? ( http://arxiv.org/abs/2310.11958v1 )

ライセンス: Link先を確認
Yuval Pinter, Michael Elhadad(参考訳) LLM世代における事実誤りを修正する手段として,最近普及した直接モデル編集手法を疑問視する。 1)事実記憶をllmに具現化された推論や言語能力から切り離した検索ベースアーキテクチャ,(2)生成したテキストの体系的バイアスを防止することを目的とした概念消去手法,(3)世代を特定されたテキストソースに接地することを目的とした帰属法である。 直接モデル編集は, LLMに固有の欠点を体系的に補うものとしては信頼できないと論じ, モデル説明可能性向上の可能性が証明されているが, モデルが事実性を信頼できるという考えを補強することによってリスクを開放する。 我々は、LLMデプロイメントプロセスの一部として、モデル編集の慎重な推進と適用、およびLLMのユースケースを、重要なコンポーネントとして編集に依存しないものに責任を持って制限することを求めている。

We call into question the recently popularized method of direct model editing as a means of correcting factual errors in LLM generations. We contrast model editing with three similar but distinct approaches that pursue better defined objectives: (1) retrieval-based architectures, which decouple factual memory from inference and linguistic capabilities embodied in LLMs; (2) concept erasure methods, which aim at preventing systemic bias in generated text; and (3) attribution methods, which aim at grounding generations into identified textual sources. We argue that direct model editing cannot be trusted as a systematic remedy for the disadvantages inherent to LLMs, and while it has proven potential in improving model explainability, it opens risks by reinforcing the notion that models can be trusted for factuality. We call for cautious promotion and application of model editing as part of the LLM deployment process, and for responsibly limiting the use cases of LLMs to those not relying on editing as a critical component.
翻訳日:2023-10-19 16:25:57 公開日:2023-10-18
# Gold: 常識知識グラフノイズ検出のためのグローバルでローカルなデノイングフレームワーク

Gold: A Global and Local-aware Denoising Framework for Commonsense Knowledge Graph Noise Detection ( http://arxiv.org/abs/2310.12011v1 )

ライセンス: Link先を確認
Zheye Deng, Weiqi Wang, Zhaowei Wang, Xin Liu, Yangqiu Song(参考訳) commonsense knowledge graphs (cskgs) はcommonsenseの推論に不可欠であるが、人間のアノテーションによる構築にはコストがかかる。 その結果、CSKGをより広い意味範囲で構築する様々な自動手法が提案されている。 しかし、これらの教師なしアプローチは、CSKGのノードや構造の特徴から、既存の復調アルゴリズムでは容易に対処できないような、CSKGの品質を低下させる突発的なノイズをもたらす。 この問題に対処するため、CSKGの実体意味情報、グローバルルール、およびCSKGからの局所構造情報を含むCSKGの認知フレームワークであるGold(Global and Local-Aware Denoising)を提案する。 実験結果から,Goldは合成雑音CSKGベンチマークにおいて,ノイズ検出タスクにおけるベースライン法をすべて上回っていることがわかった。 さらに、実世界のCSKGをデノベートすることは効果的であり、下流のゼロショット・コモンセンス質問応答にも有効であることを示す。

Commonsense Knowledge Graphs (CSKGs) are crucial for commonsense reasoning, yet constructing them through human annotations can be costly. As a result, various automatic methods have been proposed to construct CSKG with larger semantic coverage. However, these unsupervised approaches introduce spurious noise that can lower the quality of the resulting CSKG, which cannot be tackled easily by existing denoising algorithms due to the unique characteristics of nodes and structures in CSKGs. To address this issue, we propose Gold (Global and Local-aware Denoising), a denoising framework for CSKGs that incorporates entity semantic information, global rules, and local structural information from the CSKG. Experiment results demonstrate that Gold outperforms all baseline methods in noise detection tasks on synthetic noisy CSKG benchmarks. Furthermore, we show that denoising a real-world CSKG is effective and even benefits the downstream zero-shot commonsense question-answering task.
翻訳日:2023-10-19 16:17:16 公開日:2023-10-18
# 知識グラフを用いたエンティティタイピングのためのマルチビューコントラスト学習

Multi-view Contrastive Learning for Entity Typing over Knowledge Graphs ( http://arxiv.org/abs/2310.12008v1 )

ライセンス: Link先を確認
Zhiwei Hu, V\'ictor Guti\'errez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan(参考訳) 知識グラフエンティティタイピング(KGET)は、知識グラフにおいて、妥当なタイプのエンティティを推測することを目的としている。 KGETの既存のアプローチは、エンティティの隣人やタイプが提供する知識をその表現にどのようにエンコードするかに焦点を当てています。 しかしながら、型をクラスタ化する方法によって提供される意味的知識は無視される。 本稿では,クラスタから提供される粗い知識をエンティティや型埋め込みに効果的にエンコードする,知識グラフエンティティ型付けのためのマルチビューコントラスト学習(mclet)という新しい手法を提案する。 MCLETは3つのモジュールから構成されています。 一 エンティティタイプ、エンティティクラスタ、クラスタタイプのビューから構造化情報をエンコードするマルチビュー生成及びエンコーダモジュール 二 エンティティ及びタイプのビュー固有の表現を共同的に改善するために、異なるビューを奨励するクロスビューコントラスト学習モジュール iii) エンティティタイプ予測モジュールは、欠落しているエンティティタイプを推測するために、多頭注意と専門家の混合戦略を統合する。 大規模実験によるmcletの高性能化と最新技術との比較

Knowledge graph entity typing (KGET) aims at inferring plausible types of entities in knowledge graphs. Existing approaches to KGET focus on how to better encode the knowledge provided by the neighbors and types of an entity into its representation. However, they ignore the semantic knowledge provided by the way in which types can be clustered together. In this paper, we propose a novel method called Multi-view Contrastive Learning for knowledge graph Entity Typing (MCLET), which effectively encodes the coarse-grained knowledge provided by clusters into entity and type embeddings. MCLET is composed of three modules: i) Multi-view Generation and Encoder module, which encodes structured information from entity-type, entity-cluster and cluster-type views; ii) Cross-view Contrastive Learning module, which encourages different views to collaboratively improve view-specific representations of entities and types; iii) Entity Typing Prediction module, which integrates multi-head attention and a Mixture-of-Experts strategy to infer missing entity types. Extensive experiments show the strong performance of MCLET compared to the state-of-the-art
翻訳日:2023-10-19 16:16:55 公開日:2023-10-18
# ki-pmf: ナレッジ統合可能モーション予測

KI-PMF: Knowledge Integrated Plausible Motion Forecasting ( http://arxiv.org/abs/2310.12007v1 )

ライセンス: Link先を確認
Abhishek Vivekanandan, Ahmed Abouelazm, Philip Sch\"orner, J. Marius Z\"ollner(参考訳) 交通機関の正確な動きを予測することは、大規模な自動運転車の配備に不可欠である。 現在の軌道予測手法は、主に特定の計量で損失関数を最適化することに集中しており、結果として物理法則に従わない予測や外部の制約に違反する可能性がある。 本研究の目的は,車両の運動的制約と運転環境の幾何学的制約に適合して,ネットワークが将来の軌跡を予測できる明示的な知識を組み込むことである。 これを実現するために,非パラメトリックプルーニング層とアテンション層を導入し,その知識プリエントを統合する。 提案手法は,複雑な状況と動的状況の両方において,交通アクタの到達可能性を保証するように設計されている。 ネットワークに物理法則に従うよう条件付けすることで、現実の環境での自動運転車の安全性と効率を維持する上で不可欠な正確かつ安全な予測が得られ、要約して、トレーニングプロセスに知識を取り入れることで、安全で信頼性の高い動き予測のためのオフロード予測を防止する概念を提示する。

Accurately forecasting the motion of traffic actors is crucial for the deployment of autonomous vehicles at a large scale. Current trajectory forecasting approaches primarily concentrate on optimizing a loss function with a specific metric, which can result in predictions that do not adhere to physical laws or violate external constraints. Our objective is to incorporate explicit knowledge priors that allow a network to forecast future trajectories in compliance with both the kinematic constraints of a vehicle and the geometry of the driving environment. To achieve this, we introduce a non-parametric pruning layer and attention layers to integrate the defined knowledge priors. Our proposed method is designed to ensure reachability guarantees for traffic actors in both complex and dynamic situations. By conditioning the network to follow physical laws, we can obtain accurate and safe predictions, essential for maintaining autonomous vehicles' safety and efficiency in real-world settings.In summary, this paper presents concepts that prevent off-road predictions for safe and reliable motion forecasting by incorporating knowledge priors into the training process.
翻訳日:2023-10-19 16:16:37 公開日:2023-10-18
# Image Super resolution Via Latent Diffusion: エキスパートのサンプリング空間と周波数拡張デコーダアプローチ

Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of Experts And Frequency-augmented Decoder Approach ( http://arxiv.org/abs/2310.12004v1 )

ライセンス: Link先を確認
Feng Luo, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang(参考訳) 近年、事前訓練されたテキストイメージモデルによって強化された拡散先行利用により、画像超解像(SR)の性能が著しく向上した。 画素ベースの拡散SRで必要とされる膨大な計算コストを軽減するため、ラテントベースの手法では特徴エンコーダを用いて画像を変換し、コンパクトなラテント空間でSR画像を生成する。 それでも、潜伏拡散の性能を制限する2つの大きな問題がある。 まず、遅延空間の圧縮は通常、再構成歪みを引き起こす。 第二に、膨大な計算コストは拡散モデルのパラメータスケールを制約する。 これらの問題を解決するため,我々はまず,周波数成分を潜在空間から画素空間へ拡張する周波数補償モジュールを提案する。 再構成歪み(特に高周波情報)は著しく低減することができる。 次に,より強力な潜在性に基づくsrを実現するために,ss-moeのサンプル空間混合モデル(ss-moe)を用いて,推定コストを大幅に増加させることなく,モデルのキャパシティを着実に向上させる手法を提案する。 これらの慎重に設計された設計は、主に調査された4倍高解像度のベンチマークの性能向上に貢献し、8倍画像SRベンチマークのような大きな倍率係数にまで拡張した。 コードはhttps://github.com/amandaluof/moe_srで入手できる。

The recent use of diffusion prior, enhanced by pre-trained text-image models, has markedly elevated the performance of image super-resolution (SR). To alleviate the huge computational cost required by pixel-based diffusion SR, latent-based methods utilize a feature encoder to transform the image and then implement the SR image generation in a compact latent space. Nevertheless, there are two major issues that limit the performance of latent-based diffusion. First, the compression of latent space usually causes reconstruction distortion. Second, huge computational cost constrains the parameter scale of the diffusion model. To counteract these issues, we first propose a frequency compensation module that enhances the frequency components from latent space to pixel space. The reconstruction distortion (especially for high-frequency information) can be significantly decreased. Then, we propose to use Sample-Space Mixture of Experts (SS-MoE) to achieve more powerful latent-based SR, which steadily improves the capacity of the model without a significant increase in inference costs. These carefully crafted designs contribute to performance improvements in largely explored 4x blind super-resolution benchmarks and extend to large magnification factors, i.e., 8x image SR benchmarks. The code is available at https://github.com/amandaluof/moe_sr.
翻訳日:2023-10-19 16:16:17 公開日:2023-10-18
# 連続学習におけるベイズ流ネットワーク

Bayesian Flow Networks in Continual Learning ( http://arxiv.org/abs/2310.12001v1 )

ライセンス: Link先を確認
Mateusz Pyla, Kamil Deja, Bart{\l}omiej Twardowski, Tomasz Trzci\'nski(参考訳) Bayesian Flow Networks (BFNs) は、データ型を学習する能力を持つ普遍的生成モデリングの最も有望な方向のひとつとして最近提案されている。 彼らの力は、ニューラルネットワークの表現力とベイズ推論が連続学習の文脈で適しているからである。 我々はBFNの背後にある力学を探索し、非定常データにおける生成能力を実証的に検証する実験を行った。

Bayesian Flow Networks (BFNs) has been recently proposed as one of the most promising direction to universal generative modelling, having ability to learn any of the data type. Their power comes from the expressiveness of neural networks and Bayesian inference which make them suitable in the context of continual learning. We delve into the mechanics behind BFNs and conduct the experiments to empirically verify the generative capabilities on non-stationary data.
翻訳日:2023-10-19 16:15:56 公開日:2023-10-18
# 潜在ガウス過程モデルに対するVecchia-Laplace近似の反復法

Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models ( http://arxiv.org/abs/2310.12000v1 )

ライセンス: Link先を確認
Pascal K\"undig, Fabio Sigrist(参考訳) 潜在ガウス過程(GP)モデルは柔軟な確率的非パラメトリック関数モデルである。 ヴェッキア近似はGPが大規模データの計算ボトルネックを克服する正確な近似であり、ラプラス近似は漸近収束性を保証する高速な手法であり、非ガウス的確率に対する近縁確率と後方予測分布を保証している。 残念ながら、コレスキー分解のような直接解法と組み合わせて使う場合、Vecchia-Laplace近似の組み合わせの計算複雑性はサンプルサイズにおいて線形よりも速く増大する。 したがって、vecchia-laplace近似を用いた計算は、近似が通常、大きなデータセットにおいて最も正確である場合、非常に遅くなる。 本稿では,Choleskyに基づく計算と比較して計算をかなり高速にする,Vecchia-Laplace近似を用いた反復的推論法を提案する。 シミュレーションと実世界データを用いて,提案手法を理論的および実験で解析する。 特に,大規模衛星データセット上の最先端手法と比較して,choleskyに基づく推論と比較して桁違いの高速化と,連続的なランク付け確率スコアの3倍の予測精度を得る。 すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。

Latent Gaussian process (GP) models are flexible probabilistic non-parametric function models. Vecchia approximations are accurate approximations for GPs to overcome computational bottlenecks for large data, and the Laplace approximation is a fast method with asymptotic convergence guarantees to approximate marginal likelihoods and posterior predictive distributions for non-Gaussian likelihoods. Unfortunately, the computational complexity of combined Vecchia-Laplace approximations grows faster than linearly in the sample size when used in combination with direct solver methods such as the Cholesky decomposition. Computations with Vecchia-Laplace approximations thus become prohibitively slow precisely when the approximations are usually the most accurate, i.e., on large data sets. In this article, we present several iterative methods for inference with Vecchia-Laplace approximations which make computations considerably faster compared to Cholesky-based calculations. We analyze our proposed methods theoretically and in experiments with simulated and real-world data. In particular, we obtain a speed-up of an order of magnitude compared to Cholesky-based inference and a threefold increase in prediction accuracy in terms of the continuous ranked probability score compared to a state-of-the-art method on a large satellite data set. All methods are implemented in a free C++ software library with high-level Python and R packages.
翻訳日:2023-10-19 16:15:47 公開日:2023-10-18
# 一般多量子量子計算の最適合成

Optimal synthesis of general multi-qutrit quantum computation ( http://arxiv.org/abs/2310.11996v1 )

ライセンス: Link先を確認
Gui-Long Jiang, Wen-Qiang Liu and Hai-Rui Wei(参考訳) 複数の$d$レベルの量子系に作用する一般量子ゲートの量子回路は、多値量子計算において重要な役割を果たす。 まず,半単純ユニタリリー群 $u(3^n)$ (arbitrary $n$-qutrit gate) の新しい再帰的カルタン分解を提案する。 分解は n-量子ゲートを局所および非局所演算に完全に分解する。 我々は、任意の2量子ゲートを実装するための明示的な量子回路を設計し、この構成のコストは21の一般化制御x(gcx)と制御インクリメント(cinc)ゲートであり、26ggxの初期の最良の結果よりも低い。 さらに、プログラムを$n$-qutritシステムに拡張し、一般的な$n$-qutritゲートの量子回路は$\frac{41}{96}\cdot3^{2n}-4\cdot3^{n-1}-(\frac{n^2}{2}+\frac{n}{4}-\frac{29}{32})$GXsとCINCsを含む。 このような漸近的最適構造は、これまでで最も知られている結果である。

Quantum circuits of a general quantum gate acting on multiple $d$-level quantum systems play a prominent role in multi-valued quantum computation. We first propose a new recursive Cartan decomposition of semi-simple unitary Lie group $U(3^n)$ (arbitrary $n$-qutrit gate). Note that the decomposition completely decomposes an n-qutrit gate into local and non-local operations. We design an explicit quantum circuit for implementing arbitrary two-qutrit gates, and the cost of our construction is 21 generalized controlled X (GCX) and controlled increment (CINC) gates less than the earlier best result of 26 GGXs. Moreover, we extend the program to the $n$-qutrit system, and the quantum circuit of generic $n$-qutrit gates contained $\frac{41}{96}\cdot3^{2n}-4\cdot3^{n-1}-(\frac{n^2}{2}+\frac{n}{4}-\frac{29}{32})$ GGXs and CINCs is presented. Such asymptotically optimal structure is the best known result so far.
翻訳日:2023-10-19 16:15:25 公開日:2023-10-18
# ジョイント部分空間推定によるニューラルネットワーク表現からのスプリアス概念の除去

Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation ( http://arxiv.org/abs/2310.11991v1 )

ライセンス: Link先を確認
Floris Holstege, Bram Wouters, Noud van Giersbergen, Cees Diks(参考訳) ニューラルネットワークにおける分散の一般化は、しばしばスプリアス相関によって妨げられる。 一般的な戦略は、データのニューラルネットワーク表現から突発的な概念を取り除き、これを緩和することである。 既存の概念除去手法は、モデルの主要なタスクに関連する機能を不注意に排除し、モデル性能を損なう傾向にある。 本稿では,ニューラルネットワーク表現における2つの低次元直交部分空間を共同で同定することにより,主課題概念からスプリアスを分離する反復アルゴリズムを提案する。 コンピュータビジョン (Waterbirds, CelebA) と自然言語処理 (MultiNLI) のベンチマークデータセット上でのアルゴリズムの評価を行い, 既存の概念除去手法よりも優れていることを示す。

Out-of-distribution generalization in neural networks is often hampered by spurious correlations. A common strategy is to mitigate this by removing spurious concepts from the neural network representation of the data. Existing concept-removal methods tend to be overzealous by inadvertently eliminating features associated with the main task of the model, thereby harming model performance. We propose an iterative algorithm that separates spurious from main-task concepts by jointly identifying two low-dimensional orthogonal subspaces in the neural network representation. We evaluate the algorithm on benchmark datasets for computer vision (Waterbirds, CelebA) and natural language processing (MultiNLI), and show that it outperforms existing concept removal methods
翻訳日:2023-10-19 16:14:59 公開日:2023-10-18
# 外部誘導による画像クラスタリング

Image Clustering with External Guidance ( http://arxiv.org/abs/2310.11989v1 )

ライセンス: Link先を確認
Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Jianping Fan, Xi Peng(参考訳) クラスタリングのコアは、監視信号を構築するための事前知識を取り入れている。 データコンパクト性に基づく古典的なk-平均から、自己スーパービジョンによって導かれる最近のコントラストクラスタリングまで、クラスタリング法の進化は本質的に監督信号の進行に対応している。 現在、データから内部監視信号のマイニングに多大な努力が注がれている。 それでも、クラスタリングを自然に導く意味記述のような豊富な外部知識は、残念にも見過ごされている。 本研究では,外部知識を新たな監視信号として活用し,与えられたデータと無関係に見えてもクラスタリングを誘導する手法を提案する。 提案手法の実装と検証のために,WordNetのテキストセマンティクスを活用して画像クラスタリングを容易にする外部ガイド型クラスタリング手法(Text-Aided Clustering, TAC)を設計した。 特に、TACは最初にWordNet名詞を選択して検索し、特徴識別性を高めるために画像を最もよく区別する。 次に、画像クラスタリング性能を向上させるため、tacは相互にモーダル近傍情報を蒸留することにより、テキストと画像のモダリティを協調させる。 実験によると、tacは広く使用されている5つのベンチマークと、imagenet-1kデータセットを含む3つの挑戦的なイメージクラスタリングベンチマークで最先端のパフォーマンスを達成している。

The core of clustering is incorporating prior knowledge to construct supervision signals. From classic k-means based on data compactness to recent contrastive clustering guided by self-supervision, the evolution of clustering methods intrinsically corresponds to the progression of supervision signals. At present, substantial efforts have been devoted to mining internal supervision signals from data. Nevertheless, the abundant external knowledge such as semantic descriptions, which naturally conduces to clustering, is regrettably overlooked. In this work, we propose leveraging external knowledge as a new supervision signal to guide clustering, even though it seems irrelevant to the given data. To implement and validate our idea, we design an externally guided clustering method (Text-Aided Clustering, TAC), which leverages the textual semantics of WordNet to facilitate image clustering. Specifically, TAC first selects and retrieves WordNet nouns that best distinguish images to enhance the feature discriminability. Then, to improve image clustering performance, TAC collaborates text and image modalities by mutually distilling cross-modal neighborhood information. Experiments demonstrate that TAC achieves state-of-the-art performance on five widely used and three more challenging image clustering benchmarks, including the full ImageNet-1K dataset.
翻訳日:2023-10-19 16:14:46 公開日:2023-10-18
# 生成型AIシステムの社会安全評価

Sociotechnical Safety Evaluation of Generative AI Systems ( http://arxiv.org/abs/2310.11986v1 )

ライセンス: Link先を確認
Laura Weidinger, Maribeth Rauh, Nahema Marchal, Arianna Manzini, Lisa Anne Hendricks, Juan Mateos-Garcia, Stevie Bergman, Jackie Kay, Conor Griffin, Ben Bariach, Iason Gabriel, Verena Rieser, William Isaac(参考訳) 生成AIシステムは、さまざまなリスクを生み出す。 生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。 本稿では,評価の確立に向けて2つの大きな貢献を行う。 まず,リスク評価のための構造的,社会学的アプローチを用いた3層フレームワークを提案する。 このフレームワークは、安全性評価の主要なアプローチである能力評価を包含する。 システム安全性の原則、特に与えられた能力が害をもたらすかどうかをコンテキストが決定する洞察に基づいてさらに到達します。 関連する文脈を説明するため,我々のフレームワークは人的相互作用とシステム的影響を付加的な評価層として追加する。 第2に、生成AIシステムの安全性評価の現状を調査し、既存の評価のリポジトリを作成する。 この分析から3つの顕著な評価ギャップが生じる。 我々はこれらのギャップを解消し、実践的なステップと異なるアクターの役割と責任を概説する。 社会技術的安全性評価は、生成型aiシステムのロバストで包括的な安全性評価への扱いやすいアプローチである。

Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems.
翻訳日:2023-10-19 16:14:23 公開日:2023-10-18
# MLに基づくサロゲートのベイズ的アプローチによる逆問題への応用

Applications of ML-Based Surrogates in Bayesian Approaches to Inverse Problems ( http://arxiv.org/abs/2310.12046v1 )

ライセンス: Link先を確認
Pelin Ersin, Emma Hayes, Peter Matthews, Paramjyoti Mohapatra, Elisa Negrini and Karl Schulz(参考訳) ニューラルネットワークはシミュレーションモデルとして強力なツールとなり、計算効率が向上する科学的な問題に対する数値解を提供する。 この効率性は、解法に要する時間や同様の分析シナリオの評価が必要な場合の数値的に困難な問題に有利である。 科学的関心の1つの領域は逆問題の設定であり、ある系の前方ダイナミクスを偏微分方程式で記述し、これらの力学の(潜在的にうるさい)観測によって与えられた系の特性を推測することである。 2次元音響波動方程式の雑音解を与えられた正方形領域上の波源の位置を推定する逆問題を考える。 ガウス雑音を仮定すると、音源位置の確率関数を定式化することができ、評価毎にシステムの前方シミュレーションを行う必要がある。 サーロゲートモデルとして標準ニューラルネットワークを使用することで、この可能性を数回計算的に評価することができるため、マルコフ連鎖モンテカルロ法を用いてソース位置の後方分布を評価することができる。 本手法はノイズデータから音源位置を正確に推定できることを実証する。

Neural networks have become a powerful tool as surrogate models to provide numerical solutions for scientific problems with increased computational efficiency. This efficiency can be advantageous for numerically challenging problems where time to solution is important or when evaluation of many similar analysis scenarios is required. One particular area of scientific interest is the setting of inverse problems, where one knows the forward dynamics of a system are described by a partial differential equation and the task is to infer properties of the system given (potentially noisy) observations of these dynamics. We consider the inverse problem of inferring the location of a wave source on a square domain, given a noisy solution to the 2-D acoustic wave equation. Under the assumption of Gaussian noise, a likelihood function for source location can be formulated, which requires one forward simulation of the system per evaluation. Using a standard neural network as a surrogate model makes it computationally feasible to evaluate this likelihood several times, and so Markov Chain Monte Carlo methods can be used to evaluate the posterior distribution of the source location. We demonstrate that this method can accurately infer source-locations from noisy data.
翻訳日:2023-10-19 16:08:25 公開日:2023-10-18
# 真の3量子エンタングルメントの決定論的光子源

Deterministic photon source of genuine three-qubit entanglement ( http://arxiv.org/abs/2310.12038v1 )

ライセンス: Link先を確認
Yijian Meng, Ming Lai Chan, Rasmus B. Nielsen, Martin H. Appel, Zhe Liu, Ying Wang, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Alexey Tiranov, Anders S. S{\o}rensen, and Peter Lodahl(参考訳) 決定論的光子源は、量子光学の長期的な進歩を可能にする。 フォトニック共振器または導波管に埋め込まれた単一の量子エミッタは、所望の光モードに一度に1つの光子を放出するようにトリガーされる。 エミッタ内の単一スピンをコヒーレントに制御することにより、多光子絡みを実現することができる。 平面型ナノフォトニック導波路に埋め込まれた量子ドットに閉じ込められた単一電子スピンに基づく3量子絡みの決定論的源を示す。 我々は,高密度コヒーレントな光スピン回転を実現するために,スピン除去時間を$T_2^* \simeq 33$ nsに引き上げるために核スピン絞りを実装し,高密度スピン光子およびスピン光子-光子エンタングルメントの逐次生成のためのスピンエチョパルスシーケンスを実現する。 放出された光子は非常に区別がつかず、光子融合がより大きな絡み合った状態を実現するための鍵となる要件である。 この研究は多光子絡みのスケーラブルな決定論的源を示し、さらなる改善のための明確な経路を示し、フォトニック量子コンピューティングや量子ネットワークにおいて有望な応用を提供する。

Deterministic photon sources allow long-term advancements in quantum optics. A single quantum emitter embedded in a photonic resonator or waveguide may be triggered to emit one photon at a time into a desired optical mode. By coherently controlling a single spin in the emitter, multi-photon entanglement can be realized. We demonstrate a deterministic source of three-qubit entanglement based on a single electron spin trapped in a quantum dot embedded in a planar nanophotonic waveguide. We implement nuclear spin narrowing to increase the spin dephasing time to $T_2^* \simeq 33$ ns, which enables high-fidelity coherent optical spin rotations, and realize a spin-echo pulse sequence for sequential generation of high-fidelity spin-photon and spin-photon-photon entanglement. The emitted photons are highly indistinguishable, which is a key requirement for subsequent photon fusions to realize larger entangled states. This work presents a scalable deterministic source of multi-photon entanglement with a clear pathway for further improvements, offering promising applications in photonic quantum computing or quantum networks.
翻訳日:2023-10-19 16:08:06 公開日:2023-10-18
# 人間の嗜好から学ぶための一般的な理論パラダイム

A General Theoretical Paradigm to Understand Learning from Human Preferences ( http://arxiv.org/abs/2310.12036v1 )

ライセンス: Link先を確認
Mohammad Gheshlaghi Azar and Mark Rowland and Bilal Piot and Daniel Guo and Daniele Calandriello and Michal Valko and R\'emi Munos(参考訳) 強化学習(rlhf)による人間の選好からの学習の一般的な展開は、2つの重要な近似に依存する。 2つ目は、これらのポイントワイズ報酬に基づいて訓練された報酬モデルは、収集されたデータからポリシーによってサンプリングされた分配外データへと一般化することができると仮定する。 近年,2次近似を回避し,報酬モデリングの段階を伴わずに収集データから直接ポリシーを学習するアプローチとして,直接選好最適化(DPO)が提案されている。 しかし、この方法は最初の近似に大きく依存している。 本稿では,これらの実用的なアルゴリズムの理論的理解を深める。 特に、ペアの選好で表される人間の選好から学習するために、$\Psi$POと呼ばれる新しい汎用的目的を導き、したがって両方の近似をバイパスする。 この新たな汎用目的により、RLHF と DPO の挙動を詳細に解析し($\Psi$PO の特別な場合)、潜在的な落とし穴を特定することができる。 次に、$\psi$po の別の特別なケースを検討し、効率的な最適化手順を導出し、パフォーマンス保証を証明し、いくつかの例で dpo に実証的な優位性を示す。

The prevalent deployment of learning from human preferences through reinforcement learning (RLHF) relies on two important approximations: the first assumes that pairwise preferences can be substituted with pointwise rewards. The second assumes that a reward model trained on these pointwise rewards can generalize from collected data to out-of-distribution data sampled by the policy. Recently, Direct Preference Optimisation (DPO) has been proposed as an approach that bypasses the second approximation and learn directly a policy from collected data without the reward modelling stage. However, this method still heavily relies on the first approximation. In this paper we try to gain a deeper theoretical understanding of these practical algorithms. In particular we derive a new general objective called $\Psi$PO for learning from human preferences that is expressed in terms of pairwise preferences and therefore bypasses both approximations. This new general objective allows us to perform an in-depth analysis of the behavior of RLHF and DPO (as special cases of $\Psi$PO) and to identify their potential pitfalls. We then consider another special case for $\Psi$PO by setting $\Psi$ simply to Identity, for which we can derive an efficient optimisation procedure, prove performance guarantees and demonstrate its empirical superiority to DPO on some illustrative examples.
翻訳日:2023-10-19 16:07:44 公開日:2023-10-18
# 濃度推定による共変量シフトによる共形薬物特性予測

Conformal Drug Property Prediction with Density Estimation under Covariate Shift ( http://arxiv.org/abs/2310.12033v1 )

ライセンス: Link先を確認
Siddhartha Laghuvarapu and Zhen Lin and Jimeng Sun(参考訳) 創薬においては, 費用のかかるウェットラブ実験を用いて計算モデルから医薬特性の予測を確認することが重要である。 したがって、信頼性の高い不確実性推定を得ることは、その後の実験的検証のために薬物分子の優先順位付けに不可欠である。 コンフォーマル予測(CP)は、そのような分子特性の予測セットをカバレッジ保証で作成するための有望なツールである。 しかし、CPの交換可能性の仮定は、薬物発見タスクの共変量シフトにしばしば挑戦される: ほとんどのデータセットは、限られたラベル付きデータを含んでおり、これは分子が引き出される広大な化学空間を表すものではないかもしれない。 この制限に対処するために、トレーニングデータと非ラベルデータの両方を利用したエネルギーモデルを用いたCoDrug法と、分子集合の密度を評価するカーネル密度推定(KDE)を提案する。 推定密度は、予測セットを構築しながら分子サンプルを測り、分布シフトを補正するために使用される。 様々な小分子薬物発見タスクにおける現実的な分布ドリフトに関する広範な実験において、我々は、CoDrugがド・ノボの薬物設計モデルから生じる分布シフトに有効な予測セットを提供する能力を実証した。 平均的にCoDrugを用いることで、共変量シフトに調整されていない共変予測セットと比較して、カバレッジギャップを35%以上削減することができる。

In drug discovery, it is vital to confirm the predictions of pharmaceutical properties from computational models using costly wet-lab experiments. Hence, obtaining reliable uncertainty estimates is crucial for prioritizing drug molecules for subsequent experimental validation. Conformal Prediction (CP) is a promising tool for creating such prediction sets for molecular properties with a coverage guarantee. However, the exchangeability assumption of CP is often challenged with covariate shift in drug discovery tasks: Most datasets contain limited labeled data, which may not be representative of the vast chemical space from which molecules are drawn. To address this limitation, we propose a method called CoDrug that employs an energy-based model leveraging both training data and unlabelled data, and Kernel Density Estimation (KDE) to assess the densities of a molecule set. The estimated densities are then used to weigh the molecule samples while building prediction sets and rectifying for distribution shift. In extensive experiments involving realistic distribution drifts in various small-molecule drug discovery tasks, we demonstrate the ability of CoDrug to provide valid prediction sets and its utility in addressing the distribution shift arising from de novo drug design models. On average, using CoDrug can reduce the coverage gap by over 35% when compared to conformal prediction sets not adjusted for covariate shift.
翻訳日:2023-10-19 16:07:18 公開日:2023-10-18
# LMCマルチタスクガウス過程モデルの厳密かつ効率的な解法

Exact and efficient solutions of the LMC Multitask Gaussian Process model ( http://arxiv.org/abs/2310.12032v1 )

ライセンス: Link先を確認
Olivier Truffinet (CEA Saclay), Karim Ammar (CEA Saclay), Jean-Philippe Argaud (EDF R&D), Bertrand Bouriquet (EDF)(参考訳) コリージョン化線形モデル (LMC) は回帰や分類のためのマルチタスクガウス過程の非常に一般的なモデルである。 その表現性と概念的な単純さは魅力的だが、ナイーブな実装はデータポイント数とタスク数において立方的に複雑であり、ほとんどのアプリケーションでは近似が必須である。 しかし、最近の研究により、ある条件下では、モデルの潜在過程は分離可能であることが示され、そのプロセスの数でのみ線形となる複雑さが生じる。 本稿では,lmcの効率的な計算に必要な条件は,ノイズモデル上の軽度仮説のみである,という最も一般的な仮定から,これらの結果を拡張する。 本稿では,結果のemph{projected LMC}モデルの完全なパラメトリゼーションと,効率的な最適化を可能にする限界確率の表現を紹介する。 本手法の優れた性能を示すために, 合成データに関するパラメトリック研究を行い, 非拘束的正確なlccと後者の近似と比較した。 全体として、投影されたlccは最先端のアートモデルに対する信頼性が高く、よりシンプルな代替品として見え、余剰一点のクロスバリデーションやファンタシゼーションのような計算を大いに促進している。

The Linear Model of Co-regionalization (LMC) is a very general model of multitask gaussian process for regression or classification. While its expressivity and conceptual simplicity are appealing, naive implementations have cubic complexity in the number of datapoints and number of tasks, making approximations mandatory for most applications. However, recent work has shown that under some conditions the latent processes of the model can be decoupled, leading to a complexity that is only linear in the number of said processes. We here extend these results, showing from the most general assumptions that the only condition necessary to an efficient exact computation of the LMC is a mild hypothesis on the noise model. We introduce a full parametrization of the resulting \emph{projected LMC} model, and an expression of the marginal likelihood enabling efficient optimization. We perform a parametric study on synthetic data to show the excellent performance of our approach, compared to an unrestricted exact LMC and approximations of the latter. Overall, the projected LMC appears as a credible and simpler alternative to state-of-the art models, which greatly facilitates some computations such as leave-one-out cross-validation and fantasization.
翻訳日:2023-10-19 16:06:53 公開日:2023-10-18
# SegmATRon:屋内環境における適応セマンティックセマンティックセグメンテーション

SegmATRon: Embodied Adaptive Semantic Segmentation for Indoor Environment ( http://arxiv.org/abs/2310.12031v1 )

ライセンス: Link先を確認
Tatiana Zemskova, Margarita Kichik, Dmitry Yudin, Aleksei Staroverov, Aleksandr Panov(参考訳) 本稿では,画像セマンティックセグメンテーションのための適応トランスフォーマモデルSegmATRonを提案する。 その特徴は、ハイブリッド多成分損失関数を用いた複数の画像の推測におけるモデル重みの適応である。 本モデルは,フォトリアリスティックな生息地で収集されたデータセットと合成ai2-thorシミュレータについて検討した。 室内環境におけるエージェントの動作を用いた追加画像の取得により,意味セグメンテーションの品質が向上することを示した。 提案されたアプローチとデータセットのコードはhttps://github.com/wingrune/SegmATRon.comで公開されている。

This paper presents an adaptive transformer model named SegmATRon for embodied image semantic segmentation. Its distinctive feature is the adaptation of model weights during inference on several images using a hybrid multicomponent loss function. We studied this model on datasets collected in the photorealistic Habitat and the synthetic AI2-THOR Simulators. We showed that obtaining additional images using the agent's actions in an indoor environment can improve the quality of semantic segmentation. The code of the proposed approach and datasets are publicly available at https://github.com/wingrune/SegmATRon.
翻訳日:2023-10-19 16:06:33 公開日:2023-10-18
# 機械学習誘導適応設計による非パラメトリック離散選択実験

Nonparametric Discrete Choice Experiments with Machine Learning Guided Adaptive Design ( http://arxiv.org/abs/2310.12026v1 )

ライセンス: Link先を確認
Mingzhang Yin, Ruijiang Gao, Weiran Lin, Steven M. Shugan(参考訳) 消費者の嗜好を満たす製品の設計は、ビジネスの成功に不可欠である。 本稿では,多属性製品設計のための個別選択実験であるGradient-based Survey (GBS)を提案する。 この実験は、部分プロファイルのペア比較のシーケンスを通じて消費者の嗜好を導き出す。 GBSは、回答者の以前の選択に基づいてペア比較質問を適応的に構成する。 従来のランダムなユーティリティ最大化パラダイムとは異なり、GBSはパラメトリックなユーティリティモデルを必要としないため、誤特定をモデル化するのに堅牢である。 機械学習と実験設計のクロスポーリングにより、GBSは数百の属性を持つ製品にスケーラブルであり、異種消費者向けにパーソナライズされた製品を設計することができる。 シミュレーションにおいて,既存のパラメトリック法や非パラメトリック法と比較して,GBSの精度と試料効率の利点を示す。

Designing products to meet consumers' preferences is essential for a business's success. We propose the Gradient-based Survey (GBS), a discrete choice experiment for multiattribute product design. The experiment elicits consumer preferences through a sequence of paired comparisons for partial profiles. GBS adaptively constructs paired comparison questions based on the respondents' previous choices. Unlike the traditional random utility maximization paradigm, GBS is robust to model misspecification by not requiring a parametric utility model. Cross-pollinating the machine learning and experiment design, GBS is scalable to products with hundreds of attributes and can design personalized products for heterogeneous consumers. We demonstrate the advantage of GBS in accuracy and sample efficiency compared to the existing parametric and nonparametric methods in simulations.
翻訳日:2023-10-19 16:06:25 公開日:2023-10-18
# CORE:ロバストドメイン適応のための企業関係分類データセット

CORE: A Few-Shot Company Relation Classification Dataset for Robust Domain Adaptation ( http://arxiv.org/abs/2310.12024v1 )

ライセンス: Link先を確認
Philipp Borchert, Jochen De Weerdt, Kristof Coussement, Arno De Caigny, Marie-Francine Moens(参考訳) 企業関係とビジネスエンティティに着目した数ショット関係分類(RC)データセットであるCOREを紹介する。 COREには、12種類の関係型の4,708のインスタンスと、企業のWikipediaページから抽出された対応するテキスト証拠が含まれている。 企業名とビジネスエンティティは、それらに関連する豊かで多様な情報のために、数ショットのRCモデルに挑戦する。 例えば、企業名は、その状況に応じて法的実体、製品、人、事業部門を表すこともある。 したがって、エンティティ間の関係型を導出することは、テキストコンテキストに大きく依存する。 COREデータセット上での最先端RCモデルの性能を評価するため,数ショット領域適応設定で実験を行った。 その結果、異なるドメインでトレーニングされたモデルがCOREに適応するのに苦労していることが確認された。 興味深いことに、コアでトレーニングされたモデルはドメイン外のパフォーマンスを改善し、堅牢なドメイン適応のために高品質なデータの重要性を強調している。 特に、ビジネスエンティティに埋め込まれた情報豊かさは、モデルが文脈的ニュアンスに焦点を当てることを可能にし、関係固有の動詞のような表面的手がかりへの依存を減らす。 データセットに加えて、再現性の向上とフィールドでのさらなる研究を促進するため、関連するコードスニペットも提供します。

We introduce CORE, a dataset for few-shot relation classification (RC) focused on company relations and business entities. CORE includes 4,708 instances of 12 relation types with corresponding textual evidence extracted from company Wikipedia pages. Company names and business entities pose a challenge for few-shot RC models due to the rich and diverse information associated with them. For example, a company name may represent the legal entity, products, people, or business divisions depending on the context. Therefore, deriving the relation type between entities is highly dependent on textual context. To evaluate the performance of state-of-the-art RC models on the CORE dataset, we conduct experiments in the few-shot domain adaptation setting. Our results reveal substantial performance gaps, confirming that models trained on different domains struggle to adapt to CORE. Interestingly, we find that models trained on CORE showcase improved out-of-domain performance, which highlights the importance of high-quality data for robust domain adaptation. Specifically, the information richness embedded in business entities allows models to focus on contextual nuances, reducing their reliance on superficial clues such as relation-specific verbs. In addition to the dataset, we provide relevant code snippets to facilitate reproducibility and encourage further research in the field.
翻訳日:2023-10-19 16:06:15 公開日:2023-10-18
# LoHoRavens: ロボットテーブルトップ操作のための長期言語仕様ベンチマーク

LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation ( http://arxiv.org/abs/2310.12020v1 )

ライセンス: Link先を確認
Shengqiang Zhang, Philipp Wicke, L\"utfi Kerem \c{S}enel, Luis Figueredo, Abdeldjallil Naceri, Sami Haddadin, Barbara Plank, Hinrich Sch\"utze(参考訳) エンボディエージェントと大規模言語モデル(LLMs)の収束は、インボダイド命令に対する大幅な進歩をもたらした。 特に、LSMの強力な推論能力により、ロボットは高価なアノテートデモなしで長距離タスクを実行できる。 しかし,様々なシナリオにおける言語条件ロボットの長期推論能力をテストするための公開ベンチマークはいまだに欠落している。 このギャップを埋めるために、この研究はテーブルトップ操作タスクに焦点をあて、色、サイズ、空間、算術、参照にまたがる様々な長距離推論の側面をカバーするシミュレーションベンチマークである \textit{LoHoRavens} をリリースする。 さらに、LLMの閉ループ計画において、ロボットの実行中に観察フィードバックを組み込む方法について、LLMによる長期操作タスクにおいて重要なモダリティブリッジング問題がある。 LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。 これらの手法は,提案したベンチマークの2つの基準となる。 実験により、どちらの手法もいくつかのタスクを解くのに苦労していることが示され、現在の一般的なモデルでは長い水平操作タスクが依然として難しいことが示されている。 提案された公開ベンチマークとベースラインは、長期のテーブルトップ操作タスクのためのより良いモデル開発に役立つと期待している。

The convergence of embodied agents and large language models (LLMs) has brought significant advancements to embodied instruction following. Particularly, the strong reasoning capabilities of LLMs make it possible for robots to perform long-horizon tasks without expensive annotated demonstrations. However, public benchmarks for testing the long-horizon reasoning capabilities of language-conditioned robots in various scenarios are still missing. To fill this gap, this work focuses on the tabletop manipulation task and releases a simulation benchmark, \textit{LoHoRavens}, which covers various long-horizon reasoning aspects spanning color, size, space, arithmetics and reference. Furthermore, there is a key modality bridging problem for long-horizon manipulation tasks with LLMs: how to incorporate the observation feedback during robot execution for the LLM's closed-loop planning, which is however less studied by prior work. We investigate two methods of bridging the modality gap: caption generation and learnable interface for incorporating explicit and implicit observation feedback to the LLM, respectively. These methods serve as the two baselines for our proposed benchmark. Experiments show that both methods struggle to solve some tasks, indicating long-horizon manipulation tasks are still challenging for current popular models. We expect the proposed public benchmark and baselines can help the community develop better models for long-horizon tabletop manipulation tasks.
翻訳日:2023-10-19 16:05:56 公開日:2023-10-18
# 顔偽造検出における決定に基づくブラックボックス攻撃の探索

Exploring Decision-based Black-box Attacks on Face Forgery Detection ( http://arxiv.org/abs/2310.12017v1 )

ライセンス: Link先を確認
Zhaoyu Chen, Bo Li, Kaixun Jiang, Shuang Wu, Shouhong Ding, Wenqiang Zhang(参考訳) face forgery生成技術は、セキュリティとプライバシに関する公の関心を喚起する、鮮やかな顔を生成する。 電子決済や身元認証などの多くのインテリジェントシステムは、顔偽造検出に依存している。 顔偽造検出は偽の顔の識別に成功しているが、近年の研究では、顔偽造検知器は敵の例に非常に弱いことが示されている。 一方、既存の攻撃は予測されたラベルの代わりにネットワークアーキテクチャやトレーニングデータセットに依存しているため、デプロイされたアプリケーションに対する攻撃のギャップが生じる。 このギャップを狭めるために,まず,顔偽造検出における意思決定に基づく攻撃について検討する。 しかし、既存の決定に基づく攻撃の適用は、摂動初期化の失敗と画像品質の低下に直結する。 まず,異なるタスクにおける顔の特徴の高相関を利用して,初期化障害に対処するクロスタスク摂動を提案する。 そして、顔偽造検出による周波数手がかりの使用に触発され、周波数決定に基づく攻撃を提案する。 周波数領域に摂動を加え、空間領域の視覚的品質を制約する。 最後に,本手法がfaceforensics++,celebdf,industrial apiで最先端の攻撃性能を実現し,高いクエリ効率と画像品質が保証されていることを示す。 さらに, フェースフォージェリ検出と顔認識をパスすることで, フェースフォージェリ検出のセキュリティ問題を明らかにすることができる。

Face forgery generation technologies generate vivid faces, which have raised public concerns about security and privacy. Many intelligent systems, such as electronic payment and identity verification, rely on face forgery detection. Although face forgery detection has successfully distinguished fake faces, recent studies have demonstrated that face forgery detectors are very vulnerable to adversarial examples. Meanwhile, existing attacks rely on network architectures or training datasets instead of the predicted labels, which leads to a gap in attacking deployed applications. To narrow this gap, we first explore the decision-based attacks on face forgery detection. However, applying existing decision-based attacks directly suffers from perturbation initialization failure and low image quality. First, we propose cross-task perturbation to handle initialization failures by utilizing the high correlation of face features on different tasks. Then, inspired by using frequency cues by face forgery detection, we propose the frequency decision-based attack. We add perturbations in the frequency domain and then constrain the visual quality in the spatial domain. Finally, extensive experiments demonstrate that our method achieves state-of-the-art attack performance on FaceForensics++, CelebDF, and industrial APIs, with high query efficiency and guaranteed image quality. Further, the fake faces by our method can pass face forgery detection and face recognition, which exposes the security problems of face forgery detectors.
翻訳日:2023-10-19 16:05:31 公開日:2023-10-18
# 歩行における代謝エネルギーモデルの代謝コスト推定への寄与成分

Contributing Components of Metabolic Energy Models to Metabolic Cost Estimations in Gait ( http://arxiv.org/abs/2310.12083v1 )

ライセンス: Link先を確認
Markus Gambietz, Marlies Nitschke, J\"org Miehling, Anne Koelewijn(参考訳) 目的:代謝コストが人間の歩行に影響を与える主要な要因であるので、代謝エネルギー支出モデルに対する理解を深めたい。 そこで本稿では, メタボリックコストの正確な推定に寄与する筋や関節の状態などのパラメータや入力変数を明らかにする。 方法:モンテカルロ感度解析において4つの代謝エネルギー消費モデルのパラメータを検討した。 そして, モデルパラメータを, 計算された感度指標, 生理的文脈, 歩行周期における代謝速度によって分析した。 モンテカルロシミュレーションにおける最も精度の高いパラメータの組み合わせは準最適化モデルであった。 第2段階では,異なる入力特徴を持つニューラルネットワークの精度を解析し,入力パラメータと変数の重要性について検討した。 結果: パワー関連パラメータは感度分析とニューラルネットワークに基づく特徴選択に最も影響した。 準最適化モデルでは, 筋の生理と相反する負の代謝率を示した。 ニューラルネットワークに基づくモデルは有望な能力を示したが、従来の代謝エネルギー消費モデルの精度と一致しなかった。 結論: パワー関連代謝エネルギー支出モデルパラメータと入力が歩行中に最も影響があることを示した。 さらに,ニューラルネットワークを用いた代謝エネルギー消費モデルが有効であることが示唆された。 しかし、より良い精度を達成するにはより大きなデータセットが必要である。 意義:より正確な代謝エネルギー消費モデルが必要となるため、代謝エネルギーを推定するモデルを開発する際にどの筋骨格パラメータが不可欠かを検討した。

Objective: As metabolic cost is a primary factor influencing humans' gait, we want to deepen our understanding of metabolic energy expenditure models. Therefore, this paper identifies the parameters and input variables, such as muscle or joint states, that contribute to accurate metabolic cost estimations. Methods: We explored the parameters of four metabolic energy expenditure models in a Monte Carlo sensitivity analysis. Then, we analysed the model parameters by their calculated sensitivity indices, physiological context, and the resulting metabolic rates during the gait cycle. The parameter combination with the highest accuracy in the Monte Carlo simulations represented a quasi-optimized model. In the second step, we investigated the importance of input parameters and variables by analysing the accuracy of neural networks trained with different input features. Results: Power-related parameters were most influential in the sensitivity analysis and the neural network-based feature selection. We observed that the quasi-optimized models produced negative metabolic rates, contradicting muscle physiology. Neural network-based models showed promising abilities but have been unable to match the accuracy of traditional metabolic energy expenditure models. Conclusion: We showed that power-related metabolic energy expenditure model parameters and inputs are most influential during gait. Furthermore, our results suggest that neural network-based metabolic energy expenditure models are viable. However, bigger datasets are required to achieve better accuracy. Significance: As there is a need for more accurate metabolic energy expenditure models, we explored which musculoskeletal parameters are essential when developing a model to estimate metabolic energy.
翻訳日:2023-10-19 15:57:40 公開日:2023-10-18
# 安全対策に向けて:高圧ガス事故の専門的データセットによる今後の失敗防止

Towards Safer Operations: An Expert-involved Dataset of High-Pressure Gas Incidents for Preventing Future Failures ( http://arxiv.org/abs/2310.12074v1 )

ライセンス: Link先を確認
Shumpei Inoue, Minh-Tien Nguyen, Hiroki Mizokuchi, Tuan-Anh D. Nguyen, Huu-Hiep Nguyen, Dung Tien Le(参考訳) 本稿では,安全対策のための新しいインシデントAIデータセットを提案する。 通常、1つのタスクを含む以前のコーパスとは異なり、データセットは名前付きエンティティ認識、原因効果抽出、情報検索の3つのタスクで構成される。 このデータセットは、高圧ガス保存マネージャとして少なくとも6年間の実践経験を持つドメインの専門家によってアノテートされている。 安全対策のシナリオにおけるデータセットの貢献を検証した。 3つのタスクの予備的な結果から、NLP技術はインシデントレポートの分析に有用であり、将来の障害を防ぐことができる。 このデータセットは、NLPとインシデント管理コミュニティにおける将来の研究を促進する。 データセットへのアクセスも提供されている(incidentaiデータセットはhttps://github.com/cinnamon/incident-ai-dataset)。

This paper introduces a new IncidentAI dataset for safety prevention. Different from prior corpora that usually contain a single task, our dataset comprises three tasks: named entity recognition, cause-effect extraction, and information retrieval. The dataset is annotated by domain experts who have at least six years of practical experience as high-pressure gas conservation managers. We validate the contribution of the dataset in the scenario of safety prevention. Preliminary results on the three tasks show that NLP techniques are beneficial for analyzing incident reports to prevent future failures. The dataset facilitates future research in NLP and incident management communities. The access to the dataset is also provided (the IncidentAI dataset is available at: https://github.com/Cinnamon/incident-ai-dataset).
翻訳日:2023-10-19 15:57:20 公開日:2023-10-18
# SPEED: 効率的なデコーディングのための投機的パイプライン実行

SPEED: Speculative Pipelined Execution for Efficient Decoding ( http://arxiv.org/abs/2310.12072v1 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao(参考訳) トランスフォーマーアーキテクチャに基づくジェネレーティブ・大型言語モデル(LLM)は、最近、広範囲の自然言語処理タスクにおいて支配的な基礎モデルとして登場した。 それでも、リアルタイムシナリオでの彼らのアプリケーションは、これらのモデルに関連する大きな推論遅延のため、非常に制限されている。 これは生成LDM推論の自己回帰性のため特に顕著であり、各トークンは以前のすべての出力トークンに依存するため、順次トークンが生成される。 したがって、トークンレベルの並列性を達成し、推論を極めてメモリバウンドにするのは難しい。 本研究では,初期層隠れ状態に基づく予測値を用いて,複数の将来トークンを並列に投機的に実行することにより,推論効率を向上させるSPEEDを提案する。 パラメータ共有を利用するトランスフォーマーデコーダでは、並列に実行されるトークンのメモリ操作を減らし、生成LDM推論を高速化することができる。 モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。

Generative Large Language Models (LLMs) based on the Transformer architecture have recently emerged as a dominant foundation model for a wide range of Natural Language Processing tasks. Nevertheless, their application in real-time scenarios has been highly restricted due to the significant inference latency associated with these models. This is particularly pronounced due to the autoregressive nature of generative LLM inference, where tokens are generated sequentially since each token depends on all previous output tokens. It is therefore challenging to achieve any token-level parallelism, making inference extremely memory-bound. In this work, we propose SPEED, which improves inference efficiency by speculatively executing multiple future tokens in parallel with the current token using predicted values based on early-layer hidden states. For Transformer decoders that employ parameter sharing, the memory operations for the tokens executing in parallel can be amortized, which allows us to accelerate generative LLM inference. We demonstrate the efficiency of our method in terms of latency reduction relative to model accuracy and demonstrate how speculation allows for training deeper decoders with parameter sharing with minimal runtime overhead.
翻訳日:2023-10-19 15:57:04 公開日:2023-10-18
# ニュース記事における多種多様なクロスドキュメント・コリファレンスのアノテーションのためのコードブック

Code Book for the Annotation of Diverse Cross-Document Coreference of Entities in News Articles ( http://arxiv.org/abs/2310.12064v1 )

ライセンス: Link先を確認
Jakob Vogel(参考訳) 本稿では,ニュース記事間のコーパスをアノテートする手法について,近親者関係やブリッジ関係を考慮し,従来のアイデンティティ関係を超えて拡張する手法を提案する。 それぞれのアノテーションツールであるインセプションのセットアップ方法や、ニュース記事のエンティティの注釈付け方法、様々な中核関係とリンクする方法、Wikidataのグローバルな知識グラフへのドキュメントのリンクなど、詳細な説明が含まれている。 この多層アノテーションアプローチはメディアバイアスの問題の文脈で議論されている。 私たちの主な貢献は、ワードチョイスとラベリングによるメディアバイアスの分析に適用可能な、多様なクロスドキュメントコリファレンスコーパスを作成するための方法論を提供することです。

This paper presents a scheme for annotating coreference across news articles, extending beyond traditional identity relations by also considering near-identity and bridging relations. It includes a precise description of how to set up Inception, a respective annotation tool, how to annotate entities in news articles, connect them with diverse coreferential relations, and link them across documents to Wikidata's global knowledge graph. This multi-layered annotation approach is discussed in the context of the problem of media bias. Our main contribution lies in providing a methodology for creating a diverse cross-document coreference corpus which can be applied to the analysis of media bias by word-choice and labelling.
翻訳日:2023-10-19 15:56:48 公開日:2023-10-18
# 検出器ネットワークによるGANのブラックボックス学習データ同定

Black-Box Training Data Identification in GANs via Detector Networks ( http://arxiv.org/abs/2310.12063v1 )

ライセンス: Link先を確認
Lukman Olagoke, Salil Vadhan, Seth Neel(参考訳) その誕生以来、GAN(Generative Adversarial Networks)は画像、オーディオ、ビデオ、および表データ間で人気の生成モデルとなっている。 本稿では,訓練されたGANへのアクセスと,基礎となる分布からの新鮮なサンプルが,攻撃者が与えられたポイントがGANのトレーニングデータの一部であるかどうかを効率的に識別できるかどうかを検討する。 これは、著作権のあるデータがGANのトレーニングに使用されたかどうかをユーザが判断したいという著作権に関する理由と、トレーニングセットのメンバシップを検出する能力がメンバシップ推論アタックとして知られているデータプライバシに関する理由の両方に興味深い。 これまでの作業の多くとは異なり、この論文では、ブラックボックス設定でGANを使用することによるプライバシーへの影響について検討している。 CIFAR10データセットでトレーニングされた画像GANと、ゲノムデータでトレーニングされた表型GANに対して、ブラックボックス設定でGANに対する一連のメンバーシップ推論攻撃を導入し、我々の攻撃を評価する。 我々の最も成功した攻撃は、検出器と呼ばれ、ganが生成する可能性に基づいてサンプルをスコアする第2のネットワークを訓練することである。 我々は、検出器がほぼ最適なメンバーシップ推論攻撃であることを、ジェネレータの単純なモデルで証明する。 表や画像のデータセット、アタック、GANアーキテクチャの幅広い範囲において、敵はジェネレータからのサンプルへのアクセスを提供すると、非自明なプライバシ攻撃を編成できる。 同時に、GANに対する攻撃の成功は、他の生成的・差別的なモデルと比べて依然として低いように見える。

Since their inception Generative Adversarial Networks (GANs) have been popular generative models across images, audio, video, and tabular data. In this paper we study whether given access to a trained GAN, as well as fresh samples from the underlying distribution, if it is possible for an attacker to efficiently identify if a given point is a member of the GAN's training data. This is of interest for both reasons related to copyright, where a user may want to determine if their copyrighted data has been used to train a GAN, and in the study of data privacy, where the ability to detect training set membership is known as a membership inference attack. Unlike the majority of prior work this paper investigates the privacy implications of using GANs in black-box settings, where the attack only has access to samples from the generator, rather than access to the discriminator as well. We introduce a suite of membership inference attacks against GANs in the black-box setting and evaluate our attacks on image GANs trained on the CIFAR10 dataset and tabular GANs trained on genomic data. Our most successful attack, called The Detector, involve training a second network to score samples based on their likelihood of being generated by the GAN, as opposed to a fresh sample from the distribution. We prove under a simple model of the generator that the detector is an approximately optimal membership inference attack. Across a wide range of tabular and image datasets, attacks, and GAN architectures, we find that adversaries can orchestrate non-trivial privacy attacks when provided with access to samples from the generator. At the same time, the attack success achievable against GANs still appears to be lower compared to other generative and discriminative models; this leaves the intriguing open question of whether GANs are in fact more private, or if it is a matter of developing stronger attacks.
翻訳日:2023-10-19 15:56:34 公開日:2023-10-18
# 視覚知覚分析における視覚言語モデルの利用について:CLIPの検討

On the use of Vision-Language models for Visual Sentiment Analysis: a study on CLIP ( http://arxiv.org/abs/2310.12062v1 )

ライセンス: Link先を確認
Cristina Bustos, Carles Civit, Brian Du, Albert Sole-Ribalta, Agata Lapedriza(参考訳) 本稿では,CLIP埋め込み空間を利用して視覚知覚分析を行う方法について述べる。 私たちはCLIP埋め込み空間上に構築された2つのアーキテクチャを実験し、CLIP-Eで示します。 私たちは、Visual Sentiment Analysisのための最大で手動でラベル付けされたベンチマークWEBEMOでCLIP-Eモデルをトレーニングし、2つの実験を実行します。 まず、WEBEMOでテストを行い、CLIP-Eアーキテクチャを最先端(SOTA)モデルとCLIP Zero-Shotと比較する。 次に, WEBEMOでトレーニングしたCLIP-Eアーキテクチャを, 他のVisual Sentiment Analysisベンチマークでテストする。 以上の結果から,CLIP-EはWEBEMOの細粒度分類においてSOTAモデルよりも優れており,トレーニング中に見ていないデータセットでテストした場合の一般化も可能であることがわかった。 興味深いことに、FIデータセットの場合、CLIP Zero-ShotはSOTAモデルやWEBEMOでトレーニングされたCLIP-Eよりも精度が高いことが観察された。 これらの結果は、新しいベンチマークを設計し、視覚知覚分析を評価する方法や、視覚知覚分析のためのカスタマイズされたディープラーニングモデルを設計し続けるべきか、また、このタスクのためにCLIPのような大規模視覚言語モデルで符号化された知識をよりよく活用することに注力するか、など、本稿で論じるいくつかの質問を動機付けている。

This work presents a study on how to exploit the CLIP embedding space to perform Visual Sentiment Analysis. We experiment with two architectures built on top of the CLIP embedding space, which we denote by CLIP-E. We train the CLIP-E models with WEBEmo, the largest publicly available and manually labeled benchmark for Visual Sentiment Analysis, and perform two sets of experiments. First, we test on WEBEmo and compare the CLIP-E architectures with state-of-the-art (SOTA) models and with CLIP Zero-Shot. Second, we perform cross dataset evaluation, and test the CLIP-E architectures trained with WEBEmo on other Visual Sentiment Analysis benchmarks. Our results show that the CLIP-E approaches outperform SOTA models in WEBEmo fine grained categorization, and they also generalize better when tested on datasets that have not been seen during training. Interestingly, we observed that for the FI dataset, CLIP Zero-Shot produces better accuracies than SOTA models and CLIP-E trained on WEBEmo. These results motivate several questions that we discuss in this paper, such as how we should design new benchmarks and evaluate Visual Sentiment Analysis, and whether we should keep designing tailored Deep Learning models for Visual Sentiment Analysis or focus our efforts on better using the knowledge encoded in large vision-language models such as CLIP for this task.
翻訳日:2023-10-19 15:56:02 公開日:2023-10-18
# 部分領域適応のためのロバストなクラス条件分布アライメント

Robust Class-Conditional Distribution Alignment for Partial Domain Adaptation ( http://arxiv.org/abs/2310.12060v1 )

ライセンス: Link先を確認
Sandipan Choudhuri, Arunabha Sen(参考訳) 部分的なドメイン適応設定の学習目的におけるプライベートソースカテゴリからの不要なサンプルは、負の転送と分類性能の低下につながる可能性がある。 目標予測の再重み付けや集約といった既存の手法は、特に初期訓練段階でこの問題に対して脆弱であり、重複するカテゴリ分布に適切に対処しない。 分類分布のロバストなアライメントを1次モーメントを超えて探索することで,これらの制限を克服する手法を提案する。 ドメイン不変な方法でクラス内およびクラス間分布を最適化し、効率的なターゲット監視のための堅牢な擬似ラベルを設計する。 提案手法は,分類の不確かさを低減し,不正確なカテゴリー予測をフラット化するために,補的エントロピー目的モジュールを組み込んだ。 提案モジュールの実験結果とアブレーション解析により,提案モデルの性能をベンチマークと比較した。

Unwanted samples from private source categories in the learning objective of a partial domain adaptation setup can lead to negative transfer and reduce classification performance. Existing methods, such as re-weighting or aggregating target predictions, are vulnerable to this issue, especially during initial training stages, and do not adequately address overlapping categorical distributions. We propose a solution to overcome these limitations by exploring beyond the first-order moments for robust alignment of categorical distributions. We employ objectives that optimize the intra and inter-class distributions in a domain-invariant fashion and design a robust pseudo-labeling for efficient target supervision. Our approach incorporates a complement entropy objective module to reduce classification uncertainty and flatten incorrect category predictions. The experimental findings and ablation analysis of the proposed modules demonstrate the superior performance of our proposed model compared to benchmarks.
翻訳日:2023-10-19 15:55:36 公開日:2023-10-18
# ベトナム一般教育における多言語問題に対する大言語モデルの記号結合能力の評価

Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education ( http://arxiv.org/abs/2310.12059v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Quoc-Nam Nguyen(参考訳) 本稿では,大規模言語モデル(LLM)が複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定でMCSB(Multiple choice symbol binding)を実行する能力を評価する。 ベトナム語に焦点を当てており、英語よりも難しいMCQAデータセットが少ない。 既存の2つのデータセット、ViMMRC 1.0とViMMRC 2.0は文学に焦点を当てている。 ベトナムの自然言語処理(NLP)の最近の研究は、ChatGPTを評価するために、2019年から2023年までベトナム国立高校卒業試験(VNHSGE)に焦点を当てている。 しかしこれらの研究は主に、ChatGPTがVNHSGEを段階的に解く方法に焦点を当てている。 我々は,数学,物理,化学,生物学のLaTeX式を入力するための構造化されたガイドラインを提供することで,新しい高品質なデータセットを作ることを目指している。 このデータセットは、厳密なLaTeXスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用できる。 質問の文脈を考えると、質問に対する最も可能性の高い答えである文字(A、B、C、またはD)を予測することに集中する。 ViMMRC 1.0 と ViMMRC 2.0 ベンチマークを用いて, BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, GPT-4.0 の6つの有名な LLM の評価を行った。 データセットは研究目的でのみ利用できる。

In this paper, we evaluate the ability of large language models (LLMs) to perform multiple choice symbol binding (MCSB) for multiple choice question answering (MCQA) tasks in zero-shot, one-shot, and few-shot settings. We focus on Vietnamese, with fewer challenging MCQA datasets than in English. The two existing datasets, ViMMRC 1.0 and ViMMRC 2.0, focus on literature. Recent research in Vietnamese natural language processing (NLP) has focused on the Vietnamese National High School Graduation Examination (VNHSGE) from 2019 to 2023 to evaluate ChatGPT. However, these studies have mainly focused on how ChatGPT solves the VNHSGE step by step. We aim to create a novel and high-quality dataset by providing structured guidelines for typing LaTeX formulas for mathematics, physics, chemistry, and biology. This dataset can be used to evaluate the MCSB ability of LLMs and smaller language models (LMs) because it is typed in a strict LaTeX style. We focus on predicting the character (A, B, C, or D) that is the most likely answer to a question, given the context of the question. Our evaluation of six well-known LLMs, namely BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, and GPT-4.0, on the ViMMRC 1.0 and ViMMRC 2.0 benchmarks and our proposed dataset shows promising results on the MCSB ability of LLMs for Vietnamese. The dataset is available for research purposes only.
翻訳日:2023-10-19 15:55:23 公開日:2023-10-18
# 機械学習に基づくスマート農業のための栄養素アプリケーションのタイムライン推奨:大規模データマイニングアプローチ

Machine Learning-based Nutrient Application's Timeline Recommendation for Smart Agriculture: A Large-Scale Data Mining Approach ( http://arxiv.org/abs/2310.12052v1 )

ライセンス: Link先を確認
Usama Ikhlaq, Tahar Kechadi(参考訳) 本研究は,作物栽培における肥料利用のモニタリングにおけるデータ分析の重要性について考察した。 不正確なfertiliserのアプリケーション決定はコストのかかる結果をもたらし、食糧生産を阻害し、環境被害を引き起こす可能性がある。 本研究では, 年間を通じて必要な肥料量を決定することにより, 栄養素の応用を予測する方法を提案する。 提案手法は, 費用対効果と環境に優しい農業を促進するため, 気象条件と土壌特性に基づく肥料量の調整を推奨する。 収集されたデータセットは高次元で異種である。 本研究では,データ収集と分析を含む意思決定プロセスにおける大規模異種データセットについて検討する。 また, 冬期コムギ収穫を事例として, 肥料施用と気象データの組み合わせが作物収量に及ぼす影響についても検討した。 地域的・地理的要因を理解することで、作物開発を促進しつつ、農業用栄養素の需要を安定させたり減らしたりしたいと考えています。 提案手法は実世界および大規模データセットを用いて検証されるため,効率的かつスケーラブルであることが証明されている。

This study addresses the vital role of data analytics in monitoring fertiliser applications in crop cultivation. Inaccurate fertiliser application decisions can lead to costly consequences, hinder food production, and cause environmental harm. We propose a solution to predict nutrient application by determining required fertiliser quantities for an entire season. The proposed solution recommends adjusting fertiliser amounts based on weather conditions and soil characteristics to promote cost-effective and environmentally friendly agriculture. The collected dataset is high-dimensional and heterogeneous. Our research examines large-scale heterogeneous datasets in the context of the decision-making process, encompassing data collection and analysis. We also study the impact of fertiliser applications combined with weather data on crop yield, using the winter wheat crop as a case study. By understanding local contextual and geographic factors, we aspire to stabilise or even reduce the demand for agricultural nutrients while enhancing crop development. The proposed approach is proven to be efficient and scalable, as it is validated using a real-world and large dataset.
翻訳日:2023-10-19 15:54:47 公開日:2023-10-18
# 大規模言語モデルを用いたテキストのペアワイズスケーリングのための概念ガイド型チェーン・オブ・サート・プロンプト

Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scaling of Texts with Large Language Models ( http://arxiv.org/abs/2310.12049v1 )

ライセンス: Link先を確認
Patrick Y. Wu, Jonathan Nagler, Joshua A. Tucker, Solomon Messing(参考訳) 既存のテキストスケーリング手法では、大きなコーパス、短いテキストの苦労、ラベル付きデータを必要とすることが多い。 生成型大規模言語モデル(LLM)のパターン認識機能を活用したテキストスケーリング手法を開発した。 具体的には,概念を要約し,テキスト中の相手を識別するプロンプトを用いて,概念固有のブレークダウンを生成するcgcot(concept-guided chain-of-thought,cgcot)を提案する。 CGCoTは、ペアワイズテキスト比較を推論問題からパターン認識問題に効果的にシフトする。 次に、LLMを用いて概念固有の分解をペアで比較する。 これらのペア比較の結果を用いてBradley-Terryモデルを用いてスケールを推定する。 このアプローチをTwitter上で感情的なスピーチをスケールするために使用します。 われわれの対策はWordfishのような代替手法よりも人間の判断と強く関連している。 CGCoTプロンプトを開発するための少数のパイロットデータに加えて、追加のラベル付きデータも必要とせず、何千もの人間ラベル付きツイートに微調整されたRoBERTa-Largeモデルに匹敵するバイナリ予測を生成する。 LLMと実体知識を組み合わせることで、抽象概念の最先端の尺度をいかに作成できるかを実証する。

Existing text scaling methods often require a large corpus, struggle with short texts, or require labeled data. We develop a text scaling method that leverages the pattern recognition capabilities of generative large language models (LLMs). Specifically, we propose concept-guided chain-of-thought (CGCoT), which uses prompts designed to summarize ideas and identify target parties in texts to generate concept-specific breakdowns, in many ways similar to guidance for human coder content analysis. CGCoT effectively shifts pairwise text comparisons from a reasoning problem to a pattern recognition problem. We then pairwise compare concept-specific breakdowns using an LLM. We use the results of these pairwise comparisons to estimate a scale using the Bradley-Terry model. We use this approach to scale affective speech on Twitter. Our measures correlate more strongly with human judgments than alternative approaches like Wordfish. Besides a small set of pilot data to develop the CGCoT prompts, our measures require no additional labeled data and produce binary predictions comparable to a RoBERTa-Large model fine-tuned on thousands of human-labeled tweets. We demonstrate how combining substantive knowledge with LLMs can create state-of-the-art measures of abstract concepts.
翻訳日:2023-10-19 15:54:28 公開日:2023-10-18
# 人間のフィードバックによる品質の多様性

Quality Diversity through Human Feedback ( http://arxiv.org/abs/2310.12103v1 )

ライセンス: Link先を確認
Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman(参考訳) 人間のフィードバックからの強化学習(RLHF)は質的タスクのための基礎モデルの性能を高める可能性を示した。 約束にもかかわらず、その効果は、平均的な人間の嗜好の学習報酬モデルを最大化するためのメカニズムとして概念化される場合、特に多様なモデル応答を要求する画像生成のような領域において、しばしば制限される。 一方、多様で高品質なソリューションを求めることに特化した品質多様性(QD)アルゴリズムは、しばしば手動で定義された多様性メトリクスに依存する。 興味深いことに、RLHF と QD のそのような制限は、両方の洞察を混ぜ合わせることで克服できる。 本稿では,QDアルゴリズムの適用性を高めるため,多様性指標の推測に人的フィードバックを利用するQDHF(Quality Diversity through Human Feedback)を提案する。 その結果、QDHFは、自動多様性発見に関する既存のQD手法よりも優れており、QDの検索能力と人間の構築したメトリクスとが一致していることがわかった。 特に、遅延空間照明タスクにデプロイする場合、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させる。 この研究は、QDHFのサンプル効率と派生した多様性指標の品質を詳細に分析し、複雑でオープンなタスクに対する探索と多様性の向上の約束を強調した。

Reinforcement learning from human feedback (RLHF) has exhibited the potential to enhance the performance of foundation models for qualitative tasks. Despite its promise, its efficacy is often restricted when conceptualized merely as a mechanism to maximize learned reward models of averaged human preferences, especially in areas such as image generation which demand diverse model responses. Meanwhile, quality diversity (QD) algorithms, dedicated to seeking diverse, high-quality solutions, are often constrained by the dependency on manually defined diversity metrics. Interestingly, such limitations of RLHF and QD can be overcome by blending insights from both. This paper introduces Quality Diversity through Human Feedback (QDHF), which employs human feedback for inferring diversity metrics, expanding the applicability of QD algorithms. Empirical results reveal that QDHF outperforms existing QD methods regarding automatic diversity discovery, and matches the search capabilities of QD with human-constructed metrics. Notably, when deployed for a latent space illumination task, QDHF markedly enhances the diversity of images generated by a Diffusion model. The study concludes with an in-depth analysis of QDHF's sample efficiency and the quality of its derived diversity metrics, emphasizing its promise for enhancing exploration and diversity in optimization for complex, open-ended tasks.
翻訳日:2023-10-19 15:48:34 公開日:2023-10-18
# 非インタラクティブ適応:多機能マルチモーダルモデリングのための入力中心パラメータ効率の微調整

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling ( http://arxiv.org/abs/2310.12100v1 )

ライセンス: Link先を確認
Yaqing Wang, Jialin Wu, Tanmaya Dabral, Jiageng Zhang, Geoff Brown, Chun-Ta Lu, Frederick Liu, Yi Liang, Bo Pang, Michael Bendersky, Radu Soricut(参考訳) 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、O(10^9) から O(10^{12}) までのパラメータ数をスケールアップすることで、幅広いタスクにおいて優れた性能を示す。 これらの大規模化により、関心のあるタスクを前提とした、完全に専門的なモデルへの適応と展開が不可能になる。 パラメータ効率のよい微調整(PEFT)は、そのような大きなモデルに適応し、挑戦する上で有望な方向として現れる。 PEFT技術は,侵入型と非侵入型に分類する。 侵入型PEFT技術はモデルの内部アーキテクチャを直接変更する。 柔軟性は高いが、訓練や奉仕には非常に複雑である。 非侵入的PEFT技術は内部アーキテクチャをそのままにして、入力への埋め込みのようなモデル外パラメータのみを適用する。 本研究では,AdaLinkを,SoTA PEFT (LoRA) やフルモデル細調整 (FT) と比較して,各種タスクにおける競合性能を実現する非侵入型PEFT技術として記述する。 我々は,テキストのみのタスクとマルチモーダルタスクの両方を用いて,パラメータカウントのスケーリングとトレーニングの態勢を考慮した実験を行った。

Large language models (LLMs) and vision language models (VLMs) demonstrate excellent performance on a wide range of tasks by scaling up parameter counts from O(10^9) to O(10^{12}) levels and further beyond. These large scales make it impossible to adapt and deploy fully specialized models given a task of interest. Parameter-efficient fine-tuning (PEFT) emerges as a promising direction to tackle the adaptation and serving challenges for such large models. We categorize PEFT techniques into two types: intrusive and non-intrusive. Intrusive PEFT techniques directly change a model's internal architecture. Though more flexible, they introduce significant complexities for training and serving. Non-intrusive PEFT techniques leave the internal architecture unchanged and only adapt model-external parameters, such as embeddings for input. In this work, we describe AdaLink as a non-intrusive PEFT technique that achieves competitive performance compared to SoTA intrusive PEFT (LoRA) and full model fine-tuning (FT) on various tasks. We evaluate using both text-only and multimodal tasks, with experiments that account for both parameter-count scaling and training regime (with and without instruction tuning).
翻訳日:2023-10-19 15:48:12 公開日:2023-10-18
# hstr-net:デュアルカメラによる空中監視のためのリファレンスベースビデオスーパーレゾリューション

HSTR-Net: Reference Based Video Super-resolution for Aerial Surveillance with Dual Cameras ( http://arxiv.org/abs/2310.12092v1 )

ライセンス: Link先を確認
H. Umut Suluhan, Hasan F. Ates, Bahadir K. Gunturk(参考訳) 空中監視は、物体のより正確な検出と追跡のために、高時空間分解能(HSTR)ビデオを必要とする。 これは、調査対象地域が大きく、関心の対象が小さい広域監視(was)において特に当てはまる。 本稿では,参照ベーススーパーレゾリューション(RefSR)を用いたHSTRビデオ生成のためのデュアルカメラシステムを提案する。 1台のカメラは高解像度低フレームレート(HSLF)ビデオを撮影し、もう1台のカメラは同時に低解像度高フレームレート(LSHF)ビデオを撮影する。 HSLFおよびLSHFビデオフィードを融合し、出力時にHSTRビデオフレームを合成する新しいディープラーニングアーキテクチャを提案する。 提案モデルでは,光フロー推定と(チャネルワイドおよび空間的)アテンション機構を組み合わせて,微細な動きを捉え,映像のフレーム間の依存関係を複雑化する。 シミュレーションにより,提案手法はPSNRとSSIMの指標から既存の参照型SR技術よりも大幅に改善されていることが示された。 この方法はまた、デュアルカメラを装備した電力制約のドローンにWASが配備されるときに、秒間十分なフレーム(FPS)を表示する。

Aerial surveillance requires high spatio-temporal resolution (HSTR) video for more accurate detection and tracking of objects. This is especially true for wide-area surveillance (WAS), where the surveyed region is large and the objects of interest are small. This paper proposes a dual camera system for the generation of HSTR video using reference-based super-resolution (RefSR). One camera captures high spatial resolution low frame rate (HSLF) video while the other captures low spatial resolution high frame rate (LSHF) video simultaneously for the same scene. A novel deep learning architecture is proposed to fuse HSLF and LSHF video feeds and synthesize HSTR video frames at the output. The proposed model combines optical flow estimation and (channel-wise and spatial) attention mechanisms to capture the fine motion and intricate dependencies between frames of the two video feeds. Simulations show that the proposed model provides significant improvement over existing reference-based SR techniques in terms of PSNR and SSIM metrics. The method also exhibits sufficient frames per second (FPS) for WAS when deployed on a power-constrained drone equipped with dual cameras.
翻訳日:2023-10-19 15:47:51 公開日:2023-10-18
# サイレンの歌を解き明かす:幻覚検出の信頼性を目指して

Unveiling the Siren's Song: Towards Reliable Fact-Conflicting Hallucination Detection ( http://arxiv.org/abs/2310.12086v1 )

ライセンス: Link先を確認
Xiang Chen, Duanzheng Song, Honghao Gui, Chengxi Wang, Ningyu Zhang, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen(参考訳) chatgpt/gpt-4のような大規模言語モデル(llm)は、その無数の実用的応用のために広く注目を集めているが、webプラットフォーム間で事実衝突の幻覚の問題によって採用が制限されている。 LLMによるテキストにおける事実性の評価は、バニラ事実の判断だけでなく、マルチホップなどの複雑な推論タスクに現れる事実的誤りの評価も含んでいるため、まだ不十分である。 そこで本研究では,LLM向けに精密に設計されたファクトコンフリクト幻覚検出ベンチマークであるFactCHDを紹介する。 クエリ応答"コンテキスト内で事実性を評価する上で重要なツールとして機能するベンチマークでは,大規模データセットを統一し,バニラやマルチホップ,比較,セット操作パターンなど,さまざまな事実性パターンをカプセル化する。 我々のベンチマークの特徴は、事実に基づく証拠の連鎖を組み込むことで、評価プロセス全体を通して包括的で導出的な事実推論を促進することである。 我々は複数のllmを評価し、ベンチマークと現在の手法の有効性を実証し、事実的誤りを忠実に検出することができなかった。 さらに,ツールエンハンスされたchatgptとllama2に基づくlora-tuningによるリフレクティブな考察を合成し,予測結果とエビデンスを融合することで,より信頼性の高い検出を可能にする真理トライアンギュレータを提案する。 ベンチマークデータセットとソースコードはhttps://github.com/zjunlp/FactCHDで公開される。

Large Language Models (LLMs), such as ChatGPT/GPT-4, have garnered widespread attention owing to their myriad of practical applications, yet their adoption has been constrained by issues of fact-conflicting hallucinations across web platforms. The assessment of factuality in text, produced by LLMs, remains inadequately explored, extending not only to the judgment of vanilla facts but also encompassing the evaluation of factual errors emerging in complex inferential tasks like multi-hop, and etc. In response, we introduce FactCHD, a fact-conflicting hallucination detection benchmark meticulously designed for LLMs. Functioning as a pivotal tool in evaluating factuality within "Query-Respons" contexts, our benchmark assimilates a large-scale dataset, encapsulating a broad spectrum of factuality patterns, such as vanilla, multi-hops, comparison, and set-operation patterns. A distinctive feature of our benchmark is its incorporation of fact-based chains of evidence, thereby facilitating comprehensive and conducive factual reasoning throughout the assessment process. We evaluate multiple LLMs, demonstrating the effectiveness of the benchmark and current methods fall short of faithfully detecting factual errors. Furthermore, we present TRUTH-TRIANGULATOR that synthesizes reflective considerations by tool-enhanced ChatGPT and LoRA-tuning based on Llama2, aiming to yield more credible detection through the amalgamation of predictive results and evidence. The benchmark dataset and source code will be made available in https://github.com/zjunlp/FactCHD.
翻訳日:2023-10-19 15:47:32 公開日:2023-10-18
# 人間活動認識のための生成基礎モデルの利点について

On the Benefit of Generative Foundation Models for Human Activity Recognition ( http://arxiv.org/abs/2310.12085v1 )

ライセンス: Link先を確認
Zikang Leng, Hyeokhyen Kwon, Thomas Pl\"otz(参考訳) ヒューマンアクティビティ認識(har)では、注釈付きデータの可用性の制限が大きな課題となっている。 大規模言語モデル(LLM)やモーション合成モデルなど、生成AIの最新の進歩からインスピレーションを得て、生成AIはテキスト記述から仮想IMUデータを自律的に生成することで、このデータ不足に対処できると考えている。 この他にも、ベンチマークデータセットの生成、HAR固有の基礎モデルの開発、HAR内の階層構造の調査、複雑なアクティビティの分解、健康検知とアクティビティの要約への応用など、コミュニティのための生成AIの恩恵を受ける有望な研究経路をいくつか紹介する。

In human activity recognition (HAR), the limited availability of annotated data presents a significant challenge. Drawing inspiration from the latest advancements in generative AI, including Large Language Models (LLMs) and motion synthesis models, we believe that generative AI can address this data scarcity by autonomously generating virtual IMU data from text descriptions. Beyond this, we spotlight several promising research pathways that could benefit from generative AI for the community, including the generating benchmark datasets, the development of foundational models specific to HAR, the exploration of hierarchical structures within HAR, breaking down complex activities, and applications in health sensing and activity summarization.
翻訳日:2023-10-19 15:47:04 公開日:2023-10-18
# DHOT-GM: 微分階層型最適輸送フレームワークを用いたロバストグラフマッチング

DHOT-GM: Robust Graph Matching Using A Differentiable Hierarchical Optimal Transport Framework ( http://arxiv.org/abs/2310.12081v1 )

ライセンス: Link先を確認
Haoran Cheng, Dixin Luo, Hongteng Xu(参考訳) グラフマッチングは、グラフ間のノード対応を見つけることを目的として、実際には最も重要なグラフ解析タスクの1つである。 既存のアプローチのほとんどは、グラフに隠されたマルチモーダル情報(ノード属性やサブグラフ構造など)を十分に活用していないため、グラフにマッチする際の隣接行列やノード埋め込みに依存している。 本研究では, DHOT-GMと呼ばれる, 微分可能な階層的最適輸送(HOT)フレームワークに基づく, 新規かつ効果的なグラフマッチング手法を提案する。 基本的に,本手法は各グラフを,異なるモーダル情報に対応する関係行列の集合として表現する。 2つのグラフが与えられた場合、すべての関係行列対を列挙してマッチング結果を求め、その結果の重み付き平均化によるノード対応を推定する。 この方法では、2つのグラフ間のHOT距離を計算することができる -- 各マッチング結果は、2つの関係行列間のGromov-Wasserstein (GW) 距離に関連する最適な輸送計画であり、全てのマッチング結果の重みは行列集合上で定義された上位レベルの最適輸送計画の要素である。 そこで本研究では, 熱間距離を微分可能な方法で計算し, 関係行列を調整可能な2レベル最適化アルゴリズムを提案する。 様々なグラフマッチングタスクにおける実験は、最先端のアプローチと比較して、提案手法の優越性と頑健性を示している。

Graph matching is one of the most significant graph analytic tasks in practice, which aims to find the node correspondence across different graphs. Most existing approaches rely on adjacency matrices or node embeddings when matching graphs, whose performances are often sub-optimal because of not fully leveraging the multi-modal information hidden in graphs, such as node attributes, subgraph structures, etc. In this study, we propose a novel and effective graph matching method based on a differentiable hierarchical optimal transport (HOT) framework, called DHOT-GM. Essentially, our method represents each graph as a set of relational matrices corresponding to the information of different modalities. Given two graphs, we enumerate all relational matrix pairs and obtain their matching results, and accordingly, infer the node correspondence by the weighted averaging of the matching results. This method can be implemented as computing the HOT distance between the two graphs -- each matching result is an optimal transport plan associated with the Gromov-Wasserstein (GW) distance between two relational matrices, and the weights of all matching results are the elements of an upper-level optimal transport plan defined on the matrix sets. We propose a bi-level optimization algorithm to compute the HOT distance in a differentiable way, making the significance of the relational matrices adjustable. Experiments on various graph matching tasks demonstrate the superiority and robustness of our method compared to state-of-the-art approaches.
翻訳日:2023-10-19 15:46:52 公開日:2023-10-18
# 形状・非形状ニューラルネットワークの微分方程式スケーリング限界

Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks ( http://arxiv.org/abs/2310.12079v1 )

ライセンス: Link先を確認
Mufan Bill Li, Mihai Nica(参考訳) 近年のニューラルネットワークのアクティベーション解析(すなわち、ネットワークサイズが大きくなるにつれてアクティベーション関数がスケールされる)は、微分方程式によって記述されるスケーリング限界につながった。 しかし、これらの結果は、ネットワークサイズが大きくなるにつれてアクティベーションが変化しない「通常の」未整形ネットワークについては何も教えてくれない。 本稿では,2種類の非形状ネットワークに対する類似した微分方程式に基づく漸近的特徴付けを求める。 まず、以下の2つのアーキテクチャが初期化時に同じ無限深さおよび幅の極限に収束することを示す。 (i)残枝に$d^{-1/2}$因子を持つ完全連結resnetであり、ここで$d$はネットワーク深さである。 (ii)深さ$d \ll$ width $n$と形成されたReLU活性化率$d^{-1/2}$の多層パーセプトロン(MLP)。 第2に, 初期化時の不形のMLPに対して, 層状相関に対する第1次漸近補正を導出する。 特に、$\rho_\ell$ が層 $\ell$ の相関であれば、$q_t = \ell^2 (1\rho_\ell)$ with $t = \frac{\ell}{n}$ は特異点が $t=0$ の SDE に収束する。 これらの結果は、形状と非形状のネットワークアーキテクチャの接続を提供し、正規化法の効果とそれが活性化関数とどのように結びつくかを研究する可能性を開く。

Recent analyses of neural networks with shaped activations (i.e. the activation function is scaled as the network size grows) have led to scaling limits described by differential equations. However, these results do not a priori tell us anything about "ordinary" unshaped networks, where the activation is unchanged as the network size grows. In this article, we find similar differential equation based asymptotic characterization for two types of unshaped networks. Firstly, we show that the following two architectures converge to the same infinite-depth-and-width limit at initialization: (i) a fully connected ResNet with a $d^{-1/2}$ factor on the residual branch, where $d$ is the network depth. (ii) a multilayer perceptron (MLP) with depth $d \ll$ width $n$ and shaped ReLU activation at rate $d^{-1/2}$. Secondly, for an unshaped MLP at initialization, we derive the first order asymptotic correction to the layerwise correlation. In particular, if $\rho_\ell$ is the correlation at layer $\ell$, then $q_t = \ell^2 (1 - \rho_\ell)$ with $t = \frac{\ell}{n}$ converges to an SDE with a singularity at $t=0$. These results together provide a connection between shaped and unshaped network architectures, and opens up the possibility of studying the effect of normalization methods and how it connects with shaping activation functions.
翻訳日:2023-10-19 15:46:26 公開日:2023-10-18
# ワンショット模倣学習--ポーズ推定視点

One-Shot Imitation Learning: A Pose Estimation Perspective ( http://arxiv.org/abs/2310.12077v1 )

ライセンス: Link先を確認
Pietro Vitiello, Kamil Dreczkowski, Edward Johns(参考訳) 本稿では,(1) 1 つの実演のみ,(2) それ以上のデータ収集は行わない,(3) 事前の課題や対象知識がない,という困難な条件下での模倣学習について検討する。 これらの制約により, 軌道伝達と非知覚物体ポーズ推定の組み合わせとして模倣学習を定式化できることを示す。 このアイデアを探求するために,10個の実世界のタスクに対して,最先端の未確認物体のポーズ推定が1ショットの模倣学習にどのように作用するかを詳細に検討し,カメラキャリブレーション,ポーズ推定誤差,空間一般化がタスクの成功率に与える影響を深く調べる。 ビデオについてはhttps://www.robot-learning.uk/pose-estimation-perspectiveをご覧ください。

In this paper, we study imitation learning under the challenging setting of: (1) only a single demonstration, (2) no further data collection, and (3) no prior task or object knowledge. We show how, with these constraints, imitation learning can be formulated as a combination of trajectory transfer and unseen object pose estimation. To explore this idea, we provide an in-depth study on how state-of-the-art unseen object pose estimators perform for one-shot imitation learning on ten real-world tasks, and we take a deep dive into the effects that camera calibration, pose estimation error, and spatial generalisation have on task success rates. For videos, please visit https://www.robot-learning.uk/pose-estimation-perspective.
翻訳日:2023-10-19 15:45:55 公開日:2023-10-18
# 学習済み視覚変換器を用いた自然・GAN生成画像検出システムにおけるフェアネスの探索とフェアネスにおける画像圧縮の影響

Exploring Fairness in Pre-trained Visual Transformer based Natural and GAN Generated Image Detection Systems and Understanding the Impact of Image Compression in Fairness ( http://arxiv.org/abs/2310.12076v1 )

ライセンス: Link先を確認
Manjary P. Gangan, Anoop Kadan, and Lajish V L(参考訳) カメラから撮影した実際の画像から、偽画像の正確な分類や検出が可能な計算モデルを構築するだけでなく、これらの計算モデルが十分に公平であるか、最終的に特定の社会グループを傷つけたり、深刻なセキュリティ脅威を引き起こす可能性のある偏見のある結果を生成することが重要である。 法医学的アルゴリズムにおける公正さの探索は、これらのバイアスを修正するための最初のステップである。 視覚変換器は近年,高精度画像を生成する能力により,画像分類に基づくタスクの多くで広く利用されているため,自然画像とGAN生成画像の分類を行うトランスフォーマに基づく画像法アルゴリズムのバイアスについて検討する。 本研究では, 偏見評価コーパスの取得により, 性別, 人種, 感情, 交叉領域の偏見を多岐にわたる個人的, ペア的偏見評価尺度を用いて分析する。 画像圧縮に対するアルゴリズムの一般化は、法医学的タスクにおいて考慮すべき重要な要素であるため、モデルバイアスにおける画像圧縮の役割も分析する。 これにより、画像圧縮がモデルバイアスに与える影響を調べるために、2相評価設定を踏襲し、非圧縮評価設定では実験セットが、圧縮評価設定では実験セットが実行される。

It is not only sufficient to construct computational models that can accurately classify or detect fake images from real images taken from a camera, but it is also important to ensure whether these computational models are fair enough or produce biased outcomes that can eventually harm certain social groups or cause serious security threats. Exploring fairness in forensic algorithms is an initial step towards correcting these biases. Since visual transformers are recently being widely used in most image classification based tasks due to their capability to produce high accuracies, this study tries to explore bias in the transformer based image forensic algorithms that classify natural and GAN generated images. By procuring a bias evaluation corpora, this study analyzes bias in gender, racial, affective, and intersectional domains using a wide set of individual and pairwise bias evaluation measures. As the generalizability of the algorithms against image compression is an important factor to be considered in forensic tasks, this study also analyzes the role of image compression on model bias. Hence to study the impact of image compression on model bias, a two phase evaluation setting is followed, where a set of experiments is carried out in the uncompressed evaluation setting and the other in the compressed evaluation setting.
翻訳日:2023-10-19 15:45:37 公開日:2023-10-18
# SHARCS:動的幅サブネットワークによるルーティングによる効率的なトランスフォーマー

SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks ( http://arxiv.org/abs/2310.12126v1 )

ライセンス: Link先を確認
Mohammadreza Salehi, Sachin Mehta, Aditya Kusupati, Ali Farhadi, Hannaneh Hajishirzi(参考訳) 入力サンプルの硬さを考慮した適応推論のためのSHARCSを提案する。 SHARCSは任意のトランスネットワーク上でルータをトレーニングし、異なるサンプルを様々な幅でサブネットワークに転送することができる。 実験により,(1) SHARCSは, 様々な分類タスクにおいて, 精度対FLOPsで既存の適応推論手法より優れ, あるいは補完し, (2) SHARCSは異なるアーキテクチャをまたがって一般化し, 圧縮・効率のよいトランスフォーマーエンコーダにも適用でき, (3) SHARCSは, 精度の低下で2倍の推論速度を提供できることを示した。

We introduce SHARCS for adaptive inference that takes into account the hardness of input samples. SHARCS can train a router on any transformer network, enabling the model to direct different samples to sub-networks with varying widths. Our experiments demonstrate that: (1) SHARCS outperforms or complements existing per-sample adaptive inference methods across various classification tasks in terms of accuracy vs. FLOPs; (2) SHARCS generalizes across different architectures and can be even applied to compressed and efficient transformer encoders to further improve their efficiency; (3) SHARCS can provide a 2 times inference speed up at an insignificant drop in accuracy.
翻訳日:2023-10-19 15:38:46 公開日:2023-10-18
# 電子健康記録を用いた精神疾患患者の死亡自動予測

Automatic prediction of mortality in patients with mental illness using electronic health records ( http://arxiv.org/abs/2310.12121v1 )

ライセンス: Link先を確認
Sean Kim and Samuel Kim(参考訳) メンタル障害は世界中の何百万人もの人々の生活に影響を与え、日々の生活を損なうだけでなく、寿命も著しく減少する。 本稿では,電子健康記録(EHR)を用いた予測機械学習モデルを用いて,精神診断患者の死亡予測の永続的課題について述べる。 統計,処方,手続き情報を用いたMIMIC-IIIデータセットから精神疾患の診断データを抽出した。 4つの機械学習アルゴリズム(ロジスティック回帰、ランダムフォレスト、サポートベクターマシン、K-Nearest Neighbors)を用いて、ランダムフォレストとサポートベクターマシンモデルはAUCスコア0.911で他より優れていた。 特徴量分析により, 薬剤処方薬, 特に硫酸モルヒネは, 予測において重要な役割を担っていることが明らかとなった。 我々は,30日間の死亡率予測に機械学習アルゴリズムを適用し,特徴量分析を行った。 本研究は、リスクの高い患者を特定できる病院職員の死亡率を低下させるのに役立つ。

Mental disorders impact the lives of millions of people globally, not only impeding their day-to-day lives but also markedly reducing life expectancy. This paper addresses the persistent challenge of predicting mortality in patients with mental diagnoses using predictive machine-learning models with electronic health records (EHR). Data from patients with mental disease diagnoses were extracted from the well-known clinical MIMIC-III data set utilizing demographic, prescription, and procedural information. Four machine learning algorithms (Logistic Regression, Random Forest, Support Vector Machine, and K-Nearest Neighbors) were used, with results indicating that Random Forest and Support Vector Machine models outperformed others, with AUC scores of 0.911. Feature importance analysis revealed that drug prescriptions, particularly Morphine Sulfate, play a pivotal role in prediction. We applied a variety of machine learning algorithms to predict 30-day mortality followed by feature importance analysis. This study can be used to assist hospital workers in identifying at-risk patients to reduce excess mortality.
翻訳日:2023-10-19 15:38:28 公開日:2023-10-18
# 変圧器の合成一般化のための高調波データセットカルトグラフィ

Harnessing Dataset Cartography for Improved Compositional Generalization in Transformers ( http://arxiv.org/abs/2310.12118v1 )

ライセンス: Link先を確認
Osman Batur \.Ince, Tanin Zeraati, Semih Yagcioglu, Yadollah Yaghoobzadeh, Erkut Erdem, Aykut Erdem(参考訳) ニューラルネットワークは言語モデリングに革命をもたらし、さまざまな下流タスクに優れています。 しかしながら、これらのモデルが人間の認知能力に匹敵する構成的一般化を達成する程度は議論の的となっている。 この分野の既存のアプローチは、新しいアーキテクチャと代替学習パラダイムに重点を置いているが、データセット地図のパワーを活用した先駆的手法を導入する(Swayamdipta et al., 2020)。 このアプローチを用いて構成一般化データのサブセットを戦略的に同定することにより、モデル精度が大幅に向上し、CFQおよびCOGSデータセット上で最大10%向上する。 特に,データセットの地図化をカリキュラム学習基準として取り入れ,ハイパラメタチューニングの必要性をなくし,一貫して優れたパフォーマンスを実現している。 この結果から,トランスフォーマーモデルにおける合成一般化の全能力の解放における,データセット地図の未完成の可能性が浮き彫りになった。 私たちのコードはhttps://github.com/cyberiada/cartography-for-compositionalityで利用可能です。

Neural networks have revolutionized language modeling and excelled in various downstream tasks. However, the extent to which these models achieve compositional generalization comparable to human cognitive abilities remains a topic of debate. While existing approaches in the field have mainly focused on novel architectures and alternative learning paradigms, we introduce a pioneering method harnessing the power of dataset cartography (Swayamdipta et al., 2020). By strategically identifying a subset of compositional generalization data using this approach, we achieve a remarkable improvement in model accuracy, yielding enhancements of up to 10% on CFQ and COGS datasets. Notably, our technique incorporates dataset cartography as a curriculum learning criterion, eliminating the need for hyperparameter tuning while consistently achieving superior performance. Our findings highlight the untapped potential of dataset cartography in unleashing the full capabilities of compositional generalization within Transformer models. Our code is available at https://github.com/cyberiada/cartography-for-compositionality.
翻訳日:2023-10-19 15:38:08 公開日:2023-10-18
# 分布型ランダム林におけるmmdに基づく変数重要度

MMD-based Variable Importance for Distributional Random Forest ( http://arxiv.org/abs/2310.12115v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard and Jeffrey N\"af and Julie Josse(参考訳) 分布ランダムフォレスト(DRF)は、入力変数の多変量出力の完全な条件分布を推定する柔軟な森林ベースの手法である。 本稿では,drfsに対する可変重要度アルゴリズムについて,定評のあるドロップ・リリーン原理とmmd距離に基づいて述べる。 従来の重要度尺度は出力平均に影響を与える変数のみを検出するが、我々のアルゴリズムは出力分布に影響を与える変数をより一般的に検出する。 導入した重要度尺度は一貫性があり,実データとシミュレーションデータの両方において高い経験的性能を示し,競争相手を上回っている。 特に,本アルゴリズムは再帰的特徴除去による変数の選択に極めて効率的であり,条件付き出力分布の正確な推定を行うために,少数の変数セットを提供できる。

Distributional Random Forest (DRF) is a flexible forest-based method to estimate the full conditional distribution of a multivariate output of interest given input variables. In this article, we introduce a variable importance algorithm for DRFs, based on the well-established drop and relearn principle and MMD distance. While traditional importance measures only detect variables with an influence on the output mean, our algorithm detects variables impacting the output distribution more generally. We show that the introduced importance measure is consistent, exhibits high empirical performance on both real and simulated data, and outperforms competitors. In particular, our algorithm is highly efficient to select variables through recursive feature elimination, and can therefore provide small sets of variables to build accurate estimates of conditional output distributions.
翻訳日:2023-10-19 15:37:49 公開日:2023-10-18
# 注意物語: 実証的プライバシー防衛における参照データの役割について

A Cautionary Tale: On the Role of Reference Data in Empirical Privacy Defenses ( http://arxiv.org/abs/2310.12112v1 )

ライセンス: Link先を確認
Caelin G. Kaplan, Chuan Xu, Othmane Marfoq, Giovanni Neglia, Anderson Santana de Oliveira(参考訳) プライバシ保存機械学習の領域では、モデルユーティリティを損なうことなく、十分なレベルのデータプライバシトレーニングを実現するためのソリューションとして、経験的プライバシ防御が提案されている。 既存のメンバシップ推論攻撃に対する防御は、トレーニングデータと同じ(あるいは同様の)基盤となる分散から来る追加データセットとして定義された参照データへのアクセスを前提としている。 参照データの一般的な使用にもかかわらず、以前の研究は参照データのプライバシの定義と評価に特に関心がある。 モデルユーティリティおよび/またはトレーニングデータのプライバシが参照データのプライバシの犠牲になる可能性があるため、これら3つの側面を十分に検討することが不可欠である。 本稿では,先行研究における参照データの利用状況とプライバシ処理について検討し,その妥当性を検証した。 第2に,トレーニングと参照データの両方に関して,ユーティリティプライバシトレードオフを容易に理解可能なベースラインディフェンスを提案する。 本手法は, 一般化誤差を制約した経験的リスク最小化法として定式化され, 実例ではトレーニングおよび参照データセットよりも重み付けされた経験的リスク最小化法(WERM)として評価できる。 私たちはWERMを単純なベースラインとして考えましたが、驚くべきことに、ほぼすべての相対プライバシーレベルの参照データとトレーニングデータに対して、最もよく研究され、現在最先端の実証的なプライバシ保護よりも優れています。 また,既存の手法では,モデルユーティリティやトレーニングデータプライバシに対して,参照データプライバシを効果的にトレードオフできないことも明らかにした。 全体として、当社の研究は、プライバシ保護の比較において、トリアドモデルユーティリティ/トレーニングデータプライバシ/参照データプライバシの適切な評価の必要性を強調しています。

Within the realm of privacy-preserving machine learning, empirical privacy defenses have been proposed as a solution to achieve satisfactory levels of training data privacy without a significant drop in model utility. Most existing defenses against membership inference attacks assume access to reference data, defined as an additional dataset coming from the same (or a similar) underlying distribution as training data. Despite the common use of reference data, previous works are notably reticent about defining and evaluating reference data privacy. As gains in model utility and/or training data privacy may come at the expense of reference data privacy, it is essential that all three aspects are duly considered. In this paper, we first examine the availability of reference data and its privacy treatment in previous works and demonstrate its necessity for fairly comparing defenses. Second, we propose a baseline defense that enables the utility-privacy tradeoff with respect to both training and reference data to be easily understood. Our method is formulated as an empirical risk minimization with a constraint on the generalization error, which, in practice, can be evaluated as a weighted empirical risk minimization (WERM) over the training and reference datasets. Although we conceived of WERM as a simple baseline, our experiments show that, surprisingly, it outperforms the most well-studied and current state-of-the-art empirical privacy defenses using reference data for nearly all relative privacy levels of reference and training data. Our investigation also reveals that these existing methods are unable to effectively trade off reference data privacy for model utility and/or training data privacy. Overall, our work highlights the need for a proper evaluation of the triad model utility / training data privacy / reference data privacy when comparing privacy defenses.
翻訳日:2023-10-19 15:37:34 公開日:2023-10-18
# 量子コンピュータにおける2次元格子ゲージ理論のシミュレーション

Simulating 2D lattice gauge theories on a qudit quantum computer ( http://arxiv.org/abs/2310.12110v1 )

ライセンス: Link先を確認
Michael Meth, Jan F. Haase, Jinglei Zhang, Claire Edmunds, Lukas Postler, Alex Steiner, Andrew J. Jena, Luca Dellantonio, Rainer Blatt, Peter Zoller, Thomas Monz, Philipp Schindler, Christine Muschik and Martin Ringbauer(参考訳) 粒子物理学は、ゲージ理論を通じて物質と力の相互作用を記述することによって、世界の基本的なレベルでの理解を支えている。 しかし、その未整合性にもかかわらず、ゲージ理論の固有の量子力学的性質は、古典的な計算技術で扱うことが難しい重要な問題クラスを生み出している。 これらの障害を克服する有望な方法は量子コンピュータによって提供され、古典的な計算を難しくするのと同じ法則に基づいている。 ここでは、ゲージ場と物質の両方を含む2次元格子量子電磁力学の基本構成ブロックの性質の量子計算について述べる。 この計算は、量子情報は量子ビットのような2つの状態ではなく、1イオン当たり$d$の異なる状態でエンコードされる、閉じ込められたイオンqudit量子プロセッサを使用することによって可能となる。 quditは、自然に高次元であるゲージ場を記述するのに理想的に適しているため、量子レジスタのサイズと回路の複雑さが劇的に減少する。 変分量子固有解法を用いて、モデルの基底状態を見つけ、仮想対生成と量子化された磁場効果の相互作用を観察する。 qudit のアプローチにより、qudit次元を制御することによって、異なるゲージ場切断の効果をシームレスに観測することができる。 短期量子デバイスにおけるquditを用いたハードウェア効率のよい量子シミュレーションの扉を開く。

Particle physics underpins our understanding of the world at a fundamental level by describing the interplay of matter and forces through gauge theories. Yet, despite their unmatched success, the intrinsic quantum mechanical nature of gauge theories makes important problem classes notoriously difficult to address with classical computational techniques. A promising way to overcome these roadblocks is offered by quantum computers, which are based on the same laws that make the classical computations so difficult. Here, we present a quantum computation of the properties of the basic building block of two-dimensional lattice quantum electrodynamics, involving both gauge fields and matter. This computation is made possible by the use of a trapped-ion qudit quantum processor, where quantum information is encoded in $d$ different states per ion, rather than in two states as in qubits. Qudits are ideally suited for describing gauge fields, which are naturally high-dimensional, leading to a dramatic reduction in the quantum register size and circuit complexity. Using a variational quantum eigensolver, we find the ground state of the model and observe the interplay between virtual pair creation and quantized magnetic field effects. The qudit approach further allows us to seamlessly observe the effect of different gauge field truncations by controlling the qudit dimension. Our results open the door for hardware-efficient quantum simulations with qudits in near-term quantum devices.
翻訳日:2023-10-19 15:37:01 公開日:2023-10-18
# Monarch Mixer: シンプルなサブクアドラティックGEMMベースのアーキテクチャ

Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture ( http://arxiv.org/abs/2310.12109v1 )

ライセンス: Link先を確認
Daniel Y. Fu, Simran Arora, Jessica Grogan, Isys Johnson, Sabri Eyuboglu, Armin W. Thomas, Benjamin Spector, Michael Poli, Atri Rudra, Christopher R\'e(参考訳) 機械学習モデルは、長いコンテキストとより良いパフォーマンスに達するために、シーケンス長とモデルディメンションの両方に拡張されつつある。 しかし、トランスフォーマーのような既存のアーキテクチャは、両方の軸に沿って2次的にスケールする。 シーケンスの長さとモデル次元に準四分法でスケールできるパフォーマンスアーキテクチャはあるか? 順序長とモデル次元の両方で同じサブクアドミックプリミティブを使用する,新しいアーキテクチャである monarch mixer (m2) を紹介する。 表現型構造化行列の単純なクラスで,多くの線形変換をキャプチャし,gpu上で高いハードウェア効率を実現し,サブクアドラルにスケールする。 概念実証として,非因果型BERT型言語モデリング,ViT型画像分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。 非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large の下流 GLUE 品質を最大 27% のパラメータでマッチングし、最大 9.1$\times$ 高スループットのシーケンス長 4K を実現する。 ImageNetでは、M2はViT-bの精度を1%上回り、パラメータは半分に過ぎない。 因果gptスタイルのモデルは技術的な課題を導入する: マスクによる因果関係の強制は二次的ボトルネックをもたらす。 このボトルネックを緩和するため、多変量多項式評価と補間に基づくモナール行列の新たな理論的視点を構築し、M2を2次以下に保ちながら因果的にパラメータ化することができる。 このパラメータ化により、m2は360mパラメータでgptスタイルのトランスフォーマーと一致し、パイルショーイングのプレトレーニングパープレキシティは、初めて、注意やmlpなしでトランスフォーマーの品質をマッチさせることができる。

Machine learning models are increasingly being scaled in both sequence length and model dimension to reach longer contexts and better performance. However, existing architectures such as Transformers scale quadratically along both these axes. We ask: are there performant architectures that can scale sub-quadratically along sequence length and model dimension? We introduce Monarch Mixer (M2), a new architecture that uses the same sub-quadratic primitive along both sequence length and model dimension: Monarch matrices, a simple class of expressive structured matrices that captures many linear transforms, achieves high hardware efficiency on GPUs, and scales sub-quadratically. As a proof of concept, we explore the performance of M2 in three domains: non-causal BERT-style language modeling, ViT-style image classification, and causal GPT-style language modeling. For non-causal BERT-style modeling, M2 matches BERT-base and BERT-large in downstream GLUE quality with up to 27% fewer parameters, and achieves up to 9.1$\times$ higher throughput at sequence length 4K. On ImageNet, M2 outperforms ViT-b by 1% in accuracy, with only half the parameters. Causal GPT-style models introduce a technical challenge: enforcing causality via masking introduces a quadratic bottleneck. To alleviate this bottleneck, we develop a novel theoretical view of Monarch matrices based on multivariate polynomial evaluation and interpolation, which lets us parameterize M2 to be causal while remaining sub-quadratic. Using this parameterization, M2 matches GPT-style Transformers at 360M parameters in pretraining perplexity on The PILE--showing for the first time that it may be possible to match Transformer quality without attention or MLPs.
翻訳日:2023-10-19 15:36:37 公開日:2023-10-18
# ブローカージュのオンライン学習理論

An Online Learning Theory of Brokerage ( http://arxiv.org/abs/2310.12107v1 )

ライセンス: Link先を確認
Nata\v{s}a Boli\'c, Tommaso Cesari, Roberto Colomboni(参考訳) 我々は、トレーダー間のブローカーをオンライン学習の観点から調査する。 任意のラウンドで、2人のトレーダーがプライベートバリュエーションを持って到着し、ブローカーはトレーディング価格を提案する。 オンライン学習文献で既に研究されている他の二国間貿易問題とは違って、指定された買い手や売り手の役割が存在しない場合、それぞれのトレーダーは、商品の現在の価格に応じて売買を試みます。 エージェントのバリュエーションは、固定されたが未知の分布から引き出されると仮定する。 もし分布が一定の$M$で束縛された密度を持つなら、任意の時間的地平線に対して$T$:$\bullet$ エージェントのバリュエーションが各相互作用の後に明らかにされるなら、後悔する$M \log T$ を達成するアルゴリズムを提供し、この速度が定数因子まで最適であることを示す。 $\bullet$ 提案された価格で販売または購入する意思が各インタラクション後に明らかにされる場合、後悔する$\sqrt{M T}$を達成したアルゴリズムを提供し、このレートが最適であることを示す。 最後に、有界密度の仮定を下すと、最適率は第一の場合$\sqrt{T}$に縮退し、第二の場合で問題は解けなくなる。

We investigate brokerage between traders from an online learning perspective. At any round $t$, two traders arrive with their private valuations, and the broker proposes a trading price. Unlike other bilateral trade problems already studied in the online learning literature, we focus on the case where there are no designated buyer and seller roles: each trader will attempt to either buy or sell depending on the current price of the good. We assume the agents' valuations are drawn i.i.d. from a fixed but unknown distribution. If the distribution admits a density bounded by some constant $M$, then, for any time horizon $T$: $\bullet$ If the agents' valuations are revealed after each interaction, we provide an algorithm achieving regret $M \log T$ and show this rate is optimal, up to constant factors. $\bullet$ If only their willingness to sell or buy at the proposed price is revealed after each interaction, we provide an algorithm achieving regret $\sqrt{M T}$ and show this rate is optimal, up to constant factors. Finally, if we drop the bounded density assumption, we show that the optimal rate degrades to $\sqrt{T}$ in the first case, and the problem becomes unlearnable in the second.
翻訳日:2023-10-19 15:35:31 公開日:2023-10-18
# 量子ハードウェアのためのコンパイルの進歩 -- マジック状態蒸留と繰り返しアンティルサクセスプロトコルの実証-

Advances in compilation for quantum hardware -- A demonstration of magic state distillation and repeat-until-success protocols ( http://arxiv.org/abs/2310.12106v1 )

ライセンス: Link先を確認
Natalie C. Brown, John Peter Campora III, Cassandra Granade, Bettina Heim, Stefan Wernli, Ciaran Ryan-Anderson, Dominic Lucchetti, Adam Paetznick, Martin Roetteler, Krysta Svore, Alex Chernoguzov(参考訳) フォールトトレラントプロトコルは大規模かつ正確な量子アルゴリズムを可能にする。 このようなプロトコルの多くは、量子論理と古典論理のハイブリッドによって実現されるデータのフィードフォワード処理に依存している。 このようなプログラムの制御構造を表現することは困難である。 本稿では,2つの耐故障サブルーチンを探索し,その中間表現として量子中間表現(QIR)を用いたサブルーチンの性能解析を行う。 まず、QIR が LLVM コンパイラツールチェーンを利用して、Bravyi と Kitaev [Phys. Rev. A 71, 022316 (2005)] によって導入された$[5,1,3] の量子エラー訂正コードに対して、マジック状態の蒸留を行うのに必要な量子反復論理をアンロールする能力に注目します。 これにより、量子ハードウェア上でのリアルタイムマジック状態蒸留プロトコルの最初の実装を実現するだけでなく、マシン性能を劣化させることなく複雑なプログラム構造を最適化するQIRの能力を示すことができる。 次に,Paetznick と Svore [arXiv:1311.1074 (2013)] が最初に導入した,特定のアルゴリズムに必要な非クリフォードゲートの量を削減したフォールトトレラントプロトコルについて検討する。 プログラム選択の結果としての性能変化を分析するために,この2段階繰り返し実行成功アルゴリズムの4つの異なる実装を検討する。 QIRは、量子アセンブリで直接記述された手動最適化版とほぼ同等の性能を持つ、コンパイルされたハイレベルプログラムに対して実行可能な表現を提供する。 これらの結果は、量子ハードウェア上で今日実現可能なフォールトトレラントプロトコルの複雑さを正確かつ効率的に拡張するQIRの能力を示している。

Fault-tolerant protocols enable large and precise quantum algorithms. Many such protocols rely on a feed-forward processing of data, enabled by a hybrid of quantum and classical logic. Representing the control structure of such programs can be a challenge. Here we explore two such fault-tolerant subroutines and analyze the performance of the subroutines using Quantum Intermediate Representation (QIR) as their underlying intermediate representation. First, we look at QIR's ability to leverage the LLVM compiler toolchain to unroll the quantum iteration logic required to perform magic state distillation on the $[[5,1,3]]$ quantum error-correcting code as originally introduced by Bravyi and Kitaev [Phys. Rev. A 71, 022316 (2005)]. This allows us to not only realize the first implementation of a real-time magic state distillation protocol on quantum hardware, but also demonstrate QIR's ability to optimize complex program structures without degrading machine performance. Next, we investigate a different fault-tolerant protocol that was first introduced by Paetznick and Svore [arXiv:1311.1074 (2013)], that reduces the amount of non-Clifford gates needed for a particular algorithm. We look at four different implementations of this two-stage repeat-until-success algorithm to analyze the performance changes as the results of programming choices. We find the QIR offers a viable representation for a compiled high-level program that performs nearly as well as a hand-optimized version written directly in quantum assembly. Both of these results demonstrate QIR's ability to accurately and efficiently expand the complexity of fault-tolerant protocols that can be realized today on quantum hardware.
翻訳日:2023-10-19 15:34:45 公開日:2023-10-18
# ガウス国家の古典的非古典的極性

Classical-Nonclassical Polarity of Gaussian States ( http://arxiv.org/abs/2310.12104v1 )

ライセンス: Link先を確認
Jiru Liu, Wencha Ge, M. Suhail Zubairy(参考訳) スクイージングや絡み合いのような非古典的性質を持つガウス状態は量子情報処理の重要な資源となる。 多モードガウス状態におけるこれらの性質の正確な定量化はいくつかの課題を提起している。 これに対処するために、統一量子化(unified quantification)を導入する: 'classical-nonclassical polarity' は$\mathcal{p}$ で表される。 単一モードの場合、$\mathcal{p}$の正の値は真空ノイズ以下の最小二次不確かさを捉え、負の値は古典的混合による拡大不確実性を表す。 マルチモードシステムでは、正の$\mathcal{p}$ は二成分量子絡み合いを示す。 古典的非古典的極性の総和は任意の2モードおよび3モードガウス状態に対して任意の線形光変換の下で保存されることを示す。 任意の純多モードガウス状態に対して、全古典非古典的極性は、単モードスクイーズと2モードスクイーズの平均光子数の総和に等しい。 本研究は,非古典的特徴の統一的資源理論に応用できる,単一モード非古典性と絡み合いの定量的関係に関する新しい視点を提供する。

Gaussian states with nonclassical properties such as squeezing and entanglement serve as crucial resources for quantum information processing. Accurately quantifying these properties within multi-mode Gaussian states has posed some challenges. To address this, we introduce a unified quantification: the 'classical-nonclassical polarity', represented by $\mathcal{P}$. For a single mode, a positive value of $\mathcal{P}$ captures the reduced minimum quadrature uncertainty below the vacuum noise, while a negative value represents an enlarged uncertainty due to classical mixtures. For multi-mode systems, a positive $\mathcal{P}$ indicates bipartite quantum entanglement. We show that the sum of the total classical-nonclassical polarity is conserved under arbitrary linear optical transformations for any two-mode and three-mode Gaussian states. For any pure multi-mode Gaussian state, the total classical-nonclassical polarity equals the sum of the mean photon number from single-mode squeezing and two-mode squeezing. Our results provide a new perspective on the quantitative relation between single-mode nonclassicality and entanglement, which may find applications in a unified resource theory of nonclassical features.
翻訳日:2023-10-19 15:34:15 公開日:2023-10-18
# Adiabatic Quantum Computing を用いた平衡K平均の確率サンプリング

Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum Computing ( http://arxiv.org/abs/2310.12153v1 )

ライセンス: Link先を確認
Jan-Nico Zaech, Martin Danelljan, Luc Van Gool(参考訳) AQC(Adiabatic quantum computing)は、NP-hard最適化問題に対する有望な量子コンピューティング手法である。 現在のAQCは研究関心の問題の実装を可能にしており、多くの機械学習やコンピュータビジョンタスクのための量子表現の開発に拍車をかけた。 ノイズの多いAQCから複数の測定を必要とするが、現在のアプローチでは、最も良い測定しか利用せず、残りの測定値に含まれる情報を捨てている。 本研究では,この情報を用いた確率的平衡k平均クラスタリングの可能性を検討する。 最適でない解を捨てる代わりに, 計算コストを少なくして, 校正後部確率を計算することを提案する。 これにより、合成および実データ上でD-Wave AQCで示すような曖昧な解とデータポイントを特定できる。

Adiabatic quantum computing (AQC) is a promising quantum computing approach for discrete and often NP-hard optimization problems. Current AQCs allow to implement problems of research interest, which has sparked the development of quantum representations for many machine learning and computer vision tasks. Despite requiring multiple measurements from the noisy AQC, current approaches only utilize the best measurement, discarding information contained in the remaining ones. In this work, we explore the potential of using this information for probabilistic balanced k-means clustering. Instead of discarding non-optimal solutions, we propose to use them to compute calibrated posterior probabilities with little additional compute cost. This allows us to identify ambiguous solutions and data points, which we demonstrate on a D-Wave AQC on synthetic and real data.
翻訳日:2023-10-19 15:28:45 公開日:2023-10-18
# 長尾物体検出のためのリッチセマンティクスと粗い位置からの学習

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection ( http://arxiv.org/abs/2310.12152v1 )

ライセンス: Link先を確認
Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi-Ling Chen, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang(参考訳) Long-tailed Object Detection (LTOD)は、多くのテールクラスがインスタンスが少ない実世界のデータセットにおける極端なデータ不均衡を処理することを目的としている。 1つの一般的な戦略は、画像レベルのラベルで余分なデータを探索することであるが、(1)意味的曖昧さ(画像レベルのラベルは画像の健全な部分のみをキャプチャし、画像内の残りのリッチなセマンティクスを無視している)、(2)位置感受性(位置感受性) -- ラベルは元のイメージの位置と作物に大きく依存する。 そこで我々はRichSemを提案する。これはシンプルで効果的な手法で、正確な境界ボックスを必要とせずに、粗い場所からリッチなセマンティクスを学習できる。 richsemはイメージからの豊富なセマンティクスを活用し、その後、トレーニングディテクターの追加のソフト監視として機能する。 具体的には、これらのソフトセマンティクスを学習し、ロングテールオブジェクト検出のための特徴表現を強化するために、検出器にセマンティクスブランチを追加します。 semanticブランチはトレーニングにのみ使用され、推論中に削除される。 RichSemは、異なるバックボーンと検出器の下でLVISの全体的なカテゴリと希少カテゴリの両方で一貫した改善を実現している。 本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端のパフォーマンスを実現する。 さらに,本手法を他の長期データセットに適用し,さらなる実験を行った。 コードは \url{https://github.com/menglcool/richsem} で入手できる。

Long-tailed object detection (LTOD) aims to handle the extreme data imbalance in real-world datasets, where many tail classes have scarce instances. One popular strategy is to explore extra data with image-level labels, yet it produces limited results due to (1) semantic ambiguity -- an image-level label only captures a salient part of the image, ignoring the remaining rich semantics within the image; and (2) location sensitivity -- the label highly depends on the locations and crops of the original image, which may change after data transformations like random cropping. To remedy this, we propose RichSem, a simple but effective method, which is robust to learn rich semantics from coarse locations without the need of accurate bounding boxes. RichSem leverages rich semantics from images, which are then served as additional soft supervision for training detectors. Specifically, we add a semantic branch to our detector to learn these soft semantics and enhance feature representations for long-tailed object detection. The semantic branch is only used for training and is removed during inference. RichSem achieves consistent improvements on both overall and rare-category of LVIS under different backbones and detectors. Our method achieves state-of-the-art performance without requiring complex training and testing procedures. Moreover, we show the effectiveness of our method on other long-tailed datasets with additional experiments. Code is available at \url{https://github.com/MengLcool/RichSem}.
翻訳日:2023-10-19 15:28:32 公開日:2023-10-18
# 長期質問応答に対する検索強化の理解

Understanding Retrieval Augmentation for Long-Form Question Answering ( http://arxiv.org/abs/2310.12150v1 )

ライセンス: Link先を確認
Hung-Ting Chen, Fangyuan Xu, Shane A. Arora, Eunsol Choi(参考訳) 本稿では,長文質問応答における検索強化言語モデル(LM)について述べる。 提案手法は,同一のエビデンス文書を用いてモデルから生成された回答を比較し,検索文書の質の違いが同一のLMから生成された回答に与える影響を解析する。 文中の証拠文書に生成した長文回答の帰属性に着目し, 生成した回答の諸属性(例えば, 流布, 長さ, ばらつき)について検討した。 回答属性の人的アノテーションを収集し,属性を自動的に判断する手法を評価する。 本研究は,検索の強化がlmsの長文知識豊かなテキスト生成に与える影響に関する新たな知見を提供する。 さらに,長文生成における帰属パターンを同定し,帰属誤りの主な原因を解析する。 分析により,検索の強化が長い知識に富んだテキスト生成に与える影響を明らかにし,今後の作業の方向性を示す。

We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.
翻訳日:2023-10-19 15:28:03 公開日:2023-10-18
# 画像編集のためのオブジェクト認識インバージョンと再組み立て

Object-aware Inversion and Reassembly for Image Editing ( http://arxiv.org/abs/2310.12149v1 )

ライセンス: Link先を確認
Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua Shen(参考訳) 編集タスクにおけるオリジナルプロンプトとターゲットプロンプトを比較することで、オブジェクトとその対応する編集ターゲットを含む多数の編集ペアを得ることができる。 既存の編集方法は、入力画像に対する忠実性を保ちながら、編集性を確保するため、通常、入力画像全体をノイズの潜在表現に投影する固定数の反転ステップを伴い、続いてターゲットプロンプトによってガイドされる復調処理を行う。 しかし, 理想的な編集結果を得るための最適な反転ステップの数は, 編集困難度の違いにより, 異なる編集ペア間で大きく異なることがわかった。 そのため、現在の文献では、特に複数の編集ペアを自然画像で処理する場合に、一定数の反転ステップに依存するため、準最適生成品質が得られる。 そこで本稿では,オブジェクトレベルのきめ細かな編集を可能にするために,oir(object-aware inversion and reassembly)と呼ばれる新しい画像編集パラダイムを提案する。 具体的には,ターゲットの編集可能性と非編集領域の忠実性を同時に考慮し,編集ペア毎の最適な反転ステップを決定する新しい検索指標を設計する。 画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。 次に、これらの編集ペアを別々に編集し、概念ミスマッチを避ける。 その後、各編集結果と非編集領域をシームレスに統合し、最終的な編集画像を得るための追加の組立ステップを提案する。 提案手法の有効性を体系的に評価するために,単目的および多目的編集をベンチマークするための2つのデータセットを収集した。 実験により, オブジェクト形状, 色, 材料, カテゴリなどの編集において, 特にマルチオブジェクト編集において, 優れた性能が得られた。

By comparing the original and target prompts in editing task, we can obtain numerous editing pairs, each comprising an object and its corresponding editing target. To allow editability while maintaining fidelity to the input image, existing editing methods typically involve a fixed number of inversion steps that project the whole input image to its noisier latent representation, followed by a denoising process guided by the target prompt. However, we find that the optimal number of inversion steps for achieving ideal editing results varies significantly among different editing pairs, owing to varying editing difficulties. Therefore, the current literature, which relies on a fixed number of inversion steps, produces sub-optimal generation quality, especially when handling multiple editing pairs in a natural image. To this end, we propose a new image editing paradigm, dubbed Object-aware Inversion and Reassembly (OIR), to enable object-level fine-grained editing. Specifically, we design a new search metric, which determines the optimal inversion steps for each editing pair, by jointly considering the editability of the target and the fidelity of the non-editing region. We use our search metric to find the optimal inversion step for each editing pair when editing an image. We then edit these editing pairs separately to avoid concept mismatch. Subsequently, we propose an additional reassembly step to seamlessly integrate the respective editing results and the non-editing region to obtain the final edited image. To systematically evaluate the effectiveness of our method, we collect two datasets for benchmarking single- and multi-object editing, respectively. Experiments demonstrate that our method achieves superior performance in editing object shapes, colors, materials, categories, etc., especially in multi-object editing scenarios.
翻訳日:2023-10-19 15:27:47 公開日:2023-10-18
# 相互共鳴相互作用を超えた固定結合、固定周波数トランスモンにおけるネイティブ2量子ゲート

Native two-qubit gates in fixed-coupling, fixed-frequency transmons beyond cross-resonance interaction ( http://arxiv.org/abs/2310.12146v1 )

ライセンス: Link先を確認
Ken Xuan Wei, Isaac Lauer, Emily Pritchett, William Shanks, David C. McKay, Ali Javadi-Abhari(参考訳) 固定周波数超伝導量子ビットは、安定かつスケーラブルな量子コンピューティングのプラットフォームとして素晴らしい成功を収めた。 クロス共振ゲートは固定結合型固定周波数超伝導プロセッサのワークホースであり、隣人の周波数と1キュービットの共振で発生した絡み合いを利用して高忠実で普遍的なCNOTを実現している。 ここでは、オン共振およびオフ共振マイクロ波駆動を用いて、CNOTと等価でないネイティブに興味深い2ビットゲートを実現する。 特に、ネイティブISWAP、SWAP、$\sqrt{\text{ISWAP}}$、BSWAPゲートを実装し、ベンチマークする。 さらに、これらの手法をBゲートの効率的な構成に応用し、任意の2ビットゲートに到達可能な完全エンタングルを2つの応用で実現した。 これらのネイティブな2ビットゲートは、クロス共振ゲートからコンパイルしたゲートよりも優れていることを示す。 各2量子ビットゲートの駆動に必要な共振条件を解明し,これらをqiskitで実装するための新しいフレーム追跡手法を提案する。

Fixed-frequency superconducting qubits demonstrate remarkable success as platforms for stable and scalable quantum computing. Cross-resonance gates have been the workhorse of fixed-coupling, fixed-frequency superconducting processors, leveraging the entanglement generated by driving one qubit resonantly with a neighbor's frequency to achieve high-fidelity, universal CNOTs. Here, we use on-resonant and off-resonant microwave drives to go beyond cross-resonance, realizing natively interesting two-qubit gates that are not equivalent to CNOTs. In particular, we implement and benchmark native ISWAP, SWAP, $\sqrt{\text{ISWAP}}$, and BSWAP gates. Furthermore, we apply these techniques for an efficient construction of the B-gate: a perfect entangler from which any two-qubit gate can be reached in only two applications. We show these native two-qubit gates are better than their counterparts compiled from cross-resonance gates. We elucidate the resonance conditions required to drive each two-qubit gate and provide a novel frame tracking technique to implement them in Qiskit.
翻訳日:2023-10-19 15:27:17 公開日:2023-10-18
# NASによるより公平で正確な語彙モデル

Fairer and More Accurate Tabular Models Through NAS ( http://arxiv.org/abs/2310.12145v1 )

ライセンス: Link先を確認
Richeek Das, Samuel Dooley(参考訳) グラフデータのアルゴリズムによる公平化は長年研究されてきたが、通常は、望ましくない結果でニューラルモデルを取り、データの取り込み方法、モデルの重み付け、出力の処理方法を変えるような修正に向けられている。 我々は、モデルアーキテクチャの更新とハイパーパラメータのトレーニングを考慮し、デバイアス手順の開始からよりよい結果が得られる完全に新しいモデルを見つけるための、創発的で異なる戦略を採用しています。 本研究では,多目的ニューラルアーキテクチャ探索 (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。 アーキテクチャとハイパーパラメータ空間(MLP, ResNet, FT-Transformer)を多種多様なデータセットにわたって広範囲に探索し、ハイパーパラメータの組み合わせに対するモデル予測の精度と公正度指標の依存性を示す。 nasによる精度のみに最適化されたモデルは、本来フェアネスの懸念に対処できないことが多い。 提案手法は,高精度かつ公正な多目的制約の下で,建築パラメータとトレーニングパラメータを協調的に最適化する手法である。 単一目的(精度)最適化の実行によって達成されるハイパーパラメータよりもパレート最適でありながら、公平性、正確性、あるいは両方においてパレートが常に最先端バイアス緩和手法を支配しているアーキテクチャを創出する。 この研究は、ディープラーニングモデルにおける公正性と精度の最適化を自動化するという約束を裏付けるものである。

Making models algorithmically fairer in tabular data has been long studied, with techniques typically oriented towards fixes which usually take a neural model with an undesirable outcome and make changes to how the data are ingested, what the model weights are, or how outputs are processed. We employ an emergent and different strategy where we consider updating the model's architecture and training hyperparameters to find an entirely new model with better outcomes from the beginning of the debiasing procedure. In this work, we propose using multi-objective Neural Architecture Search (NAS) and Hyperparameter Optimization (HPO) in the first application to the very challenging domain of tabular data. We conduct extensive exploration of architectural and hyperparameter spaces (MLP, ResNet, and FT-Transformer) across diverse datasets, demonstrating the dependence of accuracy and fairness metrics of model predictions on hyperparameter combinations. We show that models optimized solely for accuracy with NAS often fail to inherently address fairness concerns. We propose a novel approach that jointly optimizes architectural and training hyperparameters in a multi-objective constraint of both accuracy and fairness. We produce architectures that consistently Pareto dominate state-of-the-art bias mitigation methods either in fairness, accuracy or both, all of this while being Pareto-optimal over hyperparameters achieved through single-objective (accuracy) optimization runs. This research underscores the promise of automating fairness and accuracy optimization in deep learning models.
翻訳日:2023-10-19 15:26:58 公開日:2023-10-18
# 概念の表現、索引付け、操作のための単純なメカニズム

Simple Mechanisms for Representing, Indexing and Manipulating Concepts ( http://arxiv.org/abs/2310.12143v1 )

ライセンス: Link先を確認
Yuanzhi Li, Raghu Meka, Rina Panigrahy, Kulin Shah(参考訳) ディープネットワークは通常、分類器を通じて概念を学習し、モデルの設定と、概念ラベル付きデータに適合するように勾配降下によってそれを訓練する。 その代わりに、その概念の具体的な表現やシグネチャを生成するために、そのモーメント統計行列を見ることで概念を学ぶことができると論じる。 これらのシグネチャは、概念の集合全体の構造の発見に使用することができ、それらのシグネチャからこの構造を学習することで、再帰的に高レベルな概念を生み出すことができる。 概念が 'intersected' である場合、その概念のシグネチャを使用して、関連する複数の 'intersected' 概念の共通テーマを見つけることができる。 このプロセスは、入力を正しく識別し、入力の(相対的な)生成に関連する概念の集合にルーティングできるように、概念の辞書を保持するために使うことができる。

Deep networks typically learn concepts via classifiers, which involves setting up a model and training it via gradient descent to fit the concept-labeled data. We will argue instead that learning a concept could be done by looking at its moment statistics matrix to generate a concrete representation or signature of that concept. These signatures can be used to discover structure across the set of concepts and could recursively produce higher-level concepts by learning this structure from those signatures. When the concepts are `intersected', signatures of the concepts can be used to find a common theme across a number of related `intersected' concepts. This process could be used to keep a dictionary of concepts so that inputs could correctly identify and be routed to the set of concepts involved in the (latent) generation of the input.
翻訳日:2023-10-19 15:26:30 公開日:2023-10-18
# Pseudointelligence: 言語モデル評価のための統一フレームワーク

Pseudointelligence: A Unifying Framework for Language Model Evaluation ( http://arxiv.org/abs/2310.12135v1 )

ライセンス: Link先を確認
Shikhar Murty, Orr Paradise, Pratyusha Sharma(参考訳) 大規模言語モデルが人間のパフォーマンスを上回るベンチマーク数が増えると、モデル能力の評価を目標とする原則的なアプローチをとらなければならない。 疑似ランダム性に触発されて,我々は疑似知性を提案し,「(知覚された)知性はベホルダの眼の中にある」という極意を捉えた。 つまり、インテリジェンスの主張は、評価者が考慮される場合にのみ意味のあるものである。 具体的には,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。 このフレームワークを,言語モデル評価における2つのケーススタディの推論や,既存の評価手法の分析に活用できることを実証する。

With large language models surpassing human performance on an increasing number of benchmarks, we must take a principled approach for targeted evaluation of model capabilities. Inspired by pseudorandomness, we propose pseudointelligence, which captures the maxim that "(perceived) intelligence lies in the eye of the beholder". That is, that claims of intelligence are meaningful only when their evaluator is taken into account. Concretely, we propose a complexity-theoretic framework of model evaluation cast as a dynamic interaction between a model and a learned evaluator. We demonstrate that this framework can be used to reason about two case studies in language model evaluation, as well as analyze existing evaluation methods.
翻訳日:2023-10-19 15:26:15 公開日:2023-10-18
# DiagrammerGPT: LLMプランニングによるオープンドメイン・オープンプラットフォームダイアグラムの生成

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning ( http://arxiv.org/abs/2310.12128v1 )

ライセンス: Link先を確認
Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal(参考訳) text-to-image (t2i) 世代はここ数年で大きな成長を遂げている。 それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。 図は、構造的にリッチで空間的に複雑な視覚化(例えば、関連するオブジェクト、テキストラベル、方向矢印、接続線などの密結合)を使用して情報を説明する記号/スキーム表現である。 既存の最先端のT2Iモデルは、多くのオブジェクトが矢印や線のような複雑な関係によって密結合されているときに、細粒度なオブジェクトレイアウト制御が欠けているため、図生成時に失敗することが多い。 llms(gpt-4など)のレイアウトガイダンス機能を活用し、より正確なopen-domain、open-platformダイアグラムを生成する、新しい2段階のテキスト-ダイアグラム生成フレームワークであるdiagrammergptを提案する。 最初の段階では、LCMを使用して、すべてのエンティティ(オブジェクトやテキストラベル)、それらの関係(矢印や線)、および境界ボックスレイアウトを記述した'ダイアグラムプラン'(プランナーとオーディタのフィードバックループ)を生成し、反復的に洗練します。 第2段階ではダイアグラム生成器,ダイアグラムGLIGEN,およびテキストラベルレンダリングモジュールを使用してダイアグラム計画に従ってダイアグラムを生成する。 テキストからダイアグラムを生成するタスクをベンチマークするために,AI2Dデータセット上に構築された高密度アノテーション付きダイアグラムデータセットであるAI2D-Captionを導入する。 我々は,DiagrammerGPTフレームワークが既存のT2Iモデルよりも精度の高いダイアグラムを生成することを示す。 また、オープンドメイン図生成、異なるプラットフォームでのベクトル図生成、ヒューマン・イン・ザ・ループ図計画編集、マルチモーダルプランナー/オーディタLLM(例えば、GPT-4Vision)などの包括的な分析も提供する。 我々は、T2IモデルとLLMによる図生成に関するさらなる研究を期待する。

Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels, directional arrows, connection lines, etc.). Existing state-of-the-art T2I models often fail at diagram generation because they lack fine-grained object layout control when many objects are densely connected via complex relations such as arrows/lines and also often fail to render comprehensible text labels. To address this gap, we present DiagrammerGPT, a novel two-stage text-to-diagram generation framework that leverages the layout guidance capabilities of LLMs (e.g., GPT-4) to generate more accurate open-domain, open-platform diagrams. In the first stage, we use LLMs to generate and iteratively refine 'diagram plans' (in a planner-auditor feedback loop) which describe all the entities (objects and text labels), their relationships (arrows or lines), and their bounding box layouts. In the second stage, we use a diagram generator, DiagramGLIGEN, and a text label rendering module to generate diagrams following the diagram plans. To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a densely annotated diagram dataset built on top of the AI2D dataset. We show quantitatively and qualitatively that our DiagrammerGPT framework produces more accurate diagrams, outperforming existing T2I models. We also provide comprehensive analysis including open-domain diagram generation, vector graphic diagram generation in different platforms, human-in-the-loop diagram plan editing, and multimodal planner/auditor LLMs (e.g., GPT-4Vision). We hope our work can inspire further research on diagram generation via T2I models and LLMs.
翻訳日:2023-10-19 15:26:02 公開日:2023-10-18
# 代名詞の物語:より公平な命令調整機械翻訳のためのジェンダーバイアス緩和に関する解釈可能性

A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for Fairer Instruction-Tuned Machine Translation ( http://arxiv.org/abs/2310.12127v1 )

ライセンス: Link先を確認
Giuseppe Attanasio, Flor Miriam Plaza-del-Arco, Debora Nozza, Anne Lauscher(参考訳) 最近の命令微調整モデルでは、機械翻訳(MT)が顕著なユースケースであるので、複数のNLPタスクを指示された時に解決できる。 しかしながら、現在の研究は、しばしば標準的なパフォーマンスベンチマークに焦点を当てており、説得力のある公正性と倫理的な考慮を残している。 MTでは、これは誤解された翻訳につながる可能性があり、結果としてステレオタイプや偏見の永続性において、多くの害が生じる。 本研究では,このようなモデルが機械翻訳における性別バイアスの程度と程度について検討し,このギャップに対処する。 具体的には、WinoMTコーパスで確立された性別バイアスのメトリクスを英語からドイツ語、スペイン語まで計算する。 iftモデルは男性による翻訳をデフォルトとし、女性の職業的ステレオタイプを無視することさえある。 次に,解釈可能性法を用いて,誤訳における対象職業の性別を示す代名詞を体系的に見落としていることを明らかにする。 最後に,この知見に基づいて,より公平な翻訳に繋がる数少ない学習に基づく,実装が容易で効果的なバイアス軽減ソリューションを提案する。

Recent instruction fine-tuned models can solve multiple NLP tasks when prompted to do so, with machine translation (MT) being a prominent use case. However, current research often focuses on standard performance benchmarks, leaving compelling fairness and ethical considerations behind. In MT, this might lead to misgendered translations, resulting, among other harms, in the perpetuation of stereotypes and prejudices. In this work, we address this gap by investigating whether and to what extent such models exhibit gender bias in machine translation and how we can mitigate it. Concretely, we compute established gender bias metrics on the WinoMT corpus from English to German and Spanish. We discover that IFT models default to male-inflected translations, even disregarding female occupational stereotypes. Next, using interpretability methods, we unveil that models systematically overlook the pronoun indicating the gender of a target occupation in misgendered translations. Finally, based on this finding, we propose an easy-to-implement and effective bias mitigation solution based on few-shot learning that leads to significantly fairer translations.
翻訳日:2023-10-19 15:25:21 公開日:2023-10-18
# フランクウルフアルゴリズムによる局所モデルの改良とベル不等式

Improved local models and new Bell inequalities via Frank-Wolfe algorithms ( http://arxiv.org/abs/2302.04721v3 )

ライセンス: Link先を確認
S\'ebastien Designolle, Gabriele Iommazzo, Mathieu Besan\c{c}on, Sebastian Knebel, Patrick Gel{\ss}, and Sebastian Pokutta(参考訳) 局所的モデルの構築と超平面の分離、すなわちベルの不等式を導出するという局所的多面体のメンバーシップ問題の2つの側面をアルゴリズム的に検討する。 我々は,いわゆるfrank-wolfeアルゴリズムの最近の発展を利用して,既存の手法の収束率を大幅に向上させる。 そこで本研究では,2量子Werner状態の非局所性に対するしきい値を求める。 ここでは,文献上の上界と下界の両方を改善した。 さらに、位数 3 のグロタンディーク定数の値の洗練された境界を与える: $1.4367\leqslant k_g(3)\leqslant1.4546$。 また,マルチパートのベルシナリオにおけるアプローチの効率を実証し,エンタングルメント閾値よりも視認性が高い全射影計測に対して,最初の局所モデルを提案する。 コード全体を、BellPolytopes.jlというJuliaライブラリとしてアクセス可能にする。

In Bell scenarios with two outcomes per party, we algorithmically consider the two sides of the membership problem for the local polytope: constructing local models and deriving separating hyperplanes, that is, Bell inequalities. We take advantage of the recent developments in so-called Frank-Wolfe algorithms to significantly increase the convergence rate of existing methods. As an application, we study the threshold value for the nonlocality of two-qubit Werner states under projective measurements. Here, we improve on both the upper and lower bounds present in the literature. Importantly, our bounds are entirely analytical; moreover, they yield refined bounds on the value of the Grothendieck constant of order three: $1.4367\leqslant K_G(3)\leqslant1.4546$. We also demonstrate the efficiency of our approach in multipartite Bell scenarios, and present the first local models for all projective measurements with visibilities noticeably higher than the entanglement threshold. We make our entire code accessible as a Julia library called BellPolytopes.jl.
翻訳日:2023-10-19 13:40:13 公開日:2023-10-18
# 駆動型超低温原子の自己組織化による多粒子交絡状態の生成

Generating multiparticle entangled states by self-organization of driven ultracold atoms ( http://arxiv.org/abs/2208.10111v4 )

ライセンス: Link先を確認
Ivor Kre\v{s}i\'c, Gordon R. M. Robb, Gian-Luca Oppo, Thorsten Ackemann(参考訳) 外部駆動下での非線形自己組織化により,超低温原子運動自由度を多粒子交絡状態へ誘導する機構について述べる。 多体モデルの2つの例が研究されている。 最初のモデルでは、外部駆動は時間的に振動する磁場であり、原子間散乱による自己組織化につながる。 第2のモデルでは、ドライブはリングキャビティ内の光子原子散乱によって横方向の自己組織化につながるポンプレーザーである。 原子運動の多粒子絡み合い状態の発生を数値的に示し,モデルの将来的な実験実現について考察する。 空洞の場合、断熱的に除去されたフォトニックサイドバンドによる計算は、「悪い空洞」状態においても大きな運動量絡みの発生を示す。 量子技術応用における原子運動の自己組織化の可能性を強調した。

We describe a mechanism for guiding the dynamical evolution of ultracold atomic motional degrees of freedom toward multiparticle entangled Dicke-squeezed states, via nonlinear self-organization under external driving. Two examples of many-body models are investigated. In the first model, the external drive is a temporally oscillating magnetic field leading to self-organization by interatomic scattering. In the second model, the drive is a pump laser leading to transverse self organization by photon-atom scattering in a ring cavity. We numerically demonstrate the generation of multiparticle entangled states of atomic motion and discuss prospective experimental realizations of the models. For the cavity case, the calculations with adiabatically eliminated photonic sidebands show significant momentum entanglement generation can occur even in the "bad cavity" regime. The results highlight the potential for using self-organization of atomic motion in quantum technological applications.
翻訳日:2023-10-19 13:39:53 公開日:2023-10-18
# 量子コンピューティングによる光線分布振幅の探索

Exploring Light-Cone Distribution Amplitudes from Quantum Computing ( http://arxiv.org/abs/2207.13258v2 )

ライセンス: Link先を確認
Tianyin Li, Xingyu Guo, Wai Kin Lai, Xiaohui Liu, Enke Wang, Hongxi Xing, Dan-Bo Zhang, Shi-Liang Zhu(参考訳) 光円錐分布振幅(LCDA)は量子色力学(QCD)における排他的高エネルギー過程の理論予測に必須な非摂動量である。 従来のハードウェア上での(1+1)次元のNambu-Jona-Lasinio(NJL)モデルにおけるLCDAのシミュレーションに適用し,最近提案された量子アルゴリズムを用いてLCDAを計算する可能性を示す。 量子アルゴリズムの古典的シミュレーションと正確な対角化の結果の一致は、提案された量子アルゴリズムを正当化する。 NJLモデルで得られたLCDAは,QCDから得られたLCDAと共通する特徴を示す。

Light-cone distribution amplitudes (LCDAs) are essential nonperturbative quantities for theoretical predictions of exclusive high-energy processes in quantum chromodynamics (QCD). We demonstrate the prospect of calculating LCDAs on a quantum computer by applying a recently proposed quantum algorithm, with staggered fermions, to the simulation of the LCDA in the (1+1)-dimensional Nambu-Jona-Lasinio (NJL) model on classical hardware. The agreement between the result from the classical simulation of the quantum algorithm and that from exact diagonalization justifies the proposed quantum algorithm. We find that the resulting LCDA in the NJL model exhibits features shared with the LCDAs obtained from QCD.
翻訳日:2023-10-19 13:39:38 公開日:2023-10-18
# パッチストッチ埋め込み法におけるチューニングパラメータの選択について

On the Selection of Tuning Parameters for Patch-Stitching Embedding Methods ( http://arxiv.org/abs/2207.07218v2 )

ライセンス: Link先を確認
Ery Arias-Castro, Phong Alain Chau(参考訳) 古典的なスケーリングは主成分分析と同様にパラメータフリーであるが、多変量データの埋め込みには1つまたは複数のチューニングパラメータを選択する必要がある。 このチューニングは、状況の監督されていない性質のために難しい可能性がある。 本稿では,ストレスの概念を最小化するために,パラメータのチューニングの選択を監督するシンプルな,ほぼ明白なアプローチを提案する。 本稿では,マルチ次元スケーリング(ネットワークローカライゼーション)設定と次元縮小(多様体学習)設定の両方において,プロトタイプなパッチスティッチ埋め込み方式におけるパッチサイズの選択に適用する。 本研究では,新しいバイアス-分散トレードオフ現象を明らかにする。

While classical scaling, just like principal component analysis, is parameter-free, other methods for embedding multivariate data require the selection of one or several tuning parameters. This tuning can be difficult due to the unsupervised nature of the situation. We propose a simple, almost obvious, approach to supervise the choice of tuning parameter(s): minimize a notion of stress. We apply this approach to the selection of the patch size in a prototypical patch-stitching embedding method, both in the multidimensional scaling (aka network localization) setting and in the dimensionality reduction (aka manifold learning) setting. In our study, we uncover a new bias--variance tradeoff phenomenon.
翻訳日:2023-10-19 13:39:26 公開日:2023-10-18
# 分子グラフ埋め込みにおける自己教師付き学習の評価

Evaluating Self-Supervised Learning for Molecular Graph Embeddings ( http://arxiv.org/abs/2206.08005v3 )

ライセンス: Link先を確認
Hanchen Wang, Jean Kaddour, Shengchao Liu, Jian Tang, Joan Lasenby, Qi Liu(参考訳) Graph Self-Supervised Learning (GSSL)は、専門家のラベル付けなしで埋め込みを取得するための堅牢な経路を提供する。 しかし、GSSLメソッドは特定のドメイン内での最適化ではなく、さまざまなダウンストリームタスク間の転送性のために設計されている。 この幅広い適用性は評価を複雑化する。 そこで,本研究では分子グラフ表現評価 (molgrapheval) を提案し,解釈可能で多様な属性を持つ分子グラフ埋め込みの詳細なプロファイルを作成する。 MOLGRAPHEVALは、以下の3つのカテゴリにグループ化された探索タスクスイートを提供する。 (i)総称グラフ (II)分子サブ構造、及び (iii)埋め込み空間特性。 MOLGRAPHEVALを利用して、既存のGSSLメソッドを現在のダウンストリームデータセットと我々の一連のタスクの両方に対してベンチマークすることで、既存のデータセットからのみ引き出された推論と、よりニュアンスな推論から派生した推論との間の重大な矛盾を明らかにする。 これらの結果から,現在の評価手法は景観全体を把握できないことが示唆された。

Graph Self-Supervised Learning (GSSL) provides a robust pathway for acquiring embeddings without expert labelling, a capability that carries profound implications for molecular graphs due to the staggering number of potential molecules and the high cost of obtaining labels. However, GSSL methods are designed not for optimisation within a specific domain but rather for transferability across a variety of downstream tasks. This broad applicability complicates their evaluation. Addressing this challenge, we present "Molecular Graph Representation Evaluation" (MOLGRAPHEVAL), generating detailed profiles of molecular graph embeddings with interpretable and diversified attributes. MOLGRAPHEVAL offers a suite of probing tasks grouped into three categories: (i) generic graph, (ii) molecular substructure, and (iii) embedding space properties. By leveraging MOLGRAPHEVAL to benchmark existing GSSL methods against both current downstream datasets and our suite of tasks, we uncover significant inconsistencies between inferences drawn solely from existing datasets and those derived from more nuanced probing. These findings suggest that current evaluation methodologies fail to capture the entirety of the landscape.
翻訳日:2023-10-19 13:39:15 公開日:2023-10-18
# 超伝導マイクロ波空洞における変分量子固有解法を用いたゲージ理論のシミュレーション

Simulating gauge theories with variational quantum eigensolvers in superconducting microwave cavities ( http://arxiv.org/abs/2108.08248v2 )

ライセンス: Link先を確認
Jinglei Zhang, Ryan Ferguson, Stefan K\"uhn, Jan F. Haase, C.M. Wilson, Karl Jansen, Christine A. Muschik(参考訳) 量子エンハンシングコンピューティング手法は、現在難解な問題を解決する候補として有望である。 本稿では,量子ハードウェアに高コストな状態準備と測定を委譲する変分量子固有解法 (VQE) について考察する。 本研究では、超伝導マイクロ波空洞を用いたボソニックVQEを提案し、VQEが量子ビットベースである場合、小さなヒルベルト空間の典型的な制限を克服する。 検討されたプラットフォームは光子モード間の強い非線形性を可能にし、高度にカスタマイズ可能であり、実験中にその場で調整することができる。 したがって、この提案は広い範囲のボソニックアンサッツ状態の実現を可能にし、従って、無限次元ヒルベルト空間を必要とする成分を含むゲージ理論のような、単純に量子ビットにマッピングできない自由度を含むモデルをシミュレートするのに特に有用である。 そこで我々は,このボソニックVQEをトポロジカル項を含むU(1)ヒッグスモデルに実験的に適用することを提案する。

Quantum-enhanced computing methods are promising candidates to solve currently intractable problems. We consider here a variational quantum eigensolver (VQE), that delegates costly state preparations and measurements to quantum hardware, while classical optimization techniques guide the quantum hardware to create a desired target state. In this work, we propose a bosonic VQE using superconducting microwave cavities, overcoming the typical restriction of a small Hilbert space when the VQE is qubit based. The considered platform allows for strong nonlinearities between photon modes, which are highly customisable and can be tuned in situ, i.e. during running experiments. Our proposal hence allows for the realization of a wide range of bosonic ansatz states, and is therefore especially useful when simulating models involving degrees of freedom that cannot be simply mapped to qubits, such as gauge theories, that include components which require infinite-dimensional Hilbert spaces. We thus propose to experimentally apply this bosonic VQE to the U(1) Higgs model including a topological term, which in general introduces a sign problem in the model, making it intractable with conventional Monte Carlo methods.
翻訳日:2023-10-19 13:38:55 公開日:2023-10-18
# 誤りの少ない等式ランダム化・量子通信複雑性のためのタイト境界

Tight Bounds for the Randomized and Quantum Communication Complexities of Equality with Small Error ( http://arxiv.org/abs/2107.11806v2 )

ライセンス: Link先を確認
Olivier Lalonde, Nikhil S. Mande, Ronald de Wolf(参考訳) 誤差確率$\epsilon$ の十分に研究された等式関数のランダム化と量子コミュニケーションの複雑さを調べ、多くの異なるモデルにおいて先行項において最適な定数係数を得る。 ランダム化モデルでは,(1)小さな乗算誤差を伴って,公開coinプロトコルをプライベートcoinプロトコルに変換する一般的な手法を,添加コストで提供する。 これは、ニューマンの定理 [Inf. Proc. Let.'91] の誤差パラメータへの依存性の改善である。 2) これを用いて$(\log(n/\epsilon^2)+4)$コストのプライベートコイン通信プロトコルを取得し、$n$-bit Equality関数を計算し、$\epsilon$をエラーする。 これは、ニューマンの定理に示唆される$\log(n/\epsilon^3)+o(1)$の上界を改良し、アロン [comb. prob. comput.'09] から$\log\log(1/\epsilon)+o(1)$ まで続く最もよく知られた下界に一致する。 量子モデルでは、1)コスト$\log(n/\epsilon)+4$の一方のプロトコルを示し、純粋な状態のみを使用し、$n$-bit Equality関数を計算してエラー$\epsilon$とする。 この境界はすでに Nayak [PhDthesis'99] によって暗黙的に示されていた。 2) 純状態のみを使用するn$-bit平等のための$\epsilon$-error one-wayプロトコルは、少なくとも$\log(n/\epsilon)-\log\log(1/\epsilon)-o(1)$ qubits と通信する。 3)$\log(\sqrt{n}/\epsilon)+3$の一方通行プロトコルを示し,混合状態を使い,$n$-bit等式関数を計算して$\epsilon$をエラーする。 これは加法 $\log\log(1/\epsilon)+O(1)$ にも強くなり、これはアロンの結果に従う。 4) エンタングルメント支援片道プロトコルで共有するために必要なEPRペアの数について検討した。 我々の上界もまた、等式行列の近似階数と関連する測度について上界を得る。

We investigate the randomized and quantum communication complexities of the well-studied Equality function with small error probability $\epsilon$, getting optimal constant factors in the leading terms in a number of different models. In the randomized model, 1) we give a general technique to convert public-coin protocols to private-coin protocols by incurring a small multiplicative error, at a small additive cost. This is an improvement over Newman's theorem [Inf. Proc. Let.'91] in the dependence on the error parameter. 2) Using this we obtain a $(\log(n/\epsilon^2)+4)$-cost private-coin communication protocol that computes the $n$-bit Equality function, to error $\epsilon$. This improves upon the $\log(n/\epsilon^3)+O(1)$ upper bound implied by Newman's theorem, and matches the best known lower bound, which follows from Alon [Comb. Prob. Comput.'09], up to an additive $\log\log(1/\epsilon)+O(1)$. In the quantum model, 1) we exhibit a one-way protocol of cost $\log(n/\epsilon)+4$, that uses only pure states and computes the $n$-bit Equality function to error $\epsilon$. This bound was implicitly already shown by Nayak [PhD thesis'99]. 2) We show that any $\epsilon$-error one-way protocol for $n$-bit Equality that uses only pure states communicates at least $\log(n/\epsilon)-\log\log(1/\epsilon)-O(1)$ qubits. 3) We exhibit a one-way protocol of cost $\log(\sqrt{n}/\epsilon)+3$, that uses mixed states and computes the $n$-bit Equality function to error $\epsilon$. This is also tight up to an additive $\log\log(1/\epsilon)+O(1)$, which follows from Alon's result. 4) We study the number of EPR pairs required to be shared in an entanglement-assisted one-way protocol. Our upper bounds also yield upper bounds on the approximate rank and related measures of the Identity matrix.
翻訳日:2023-10-19 13:38:34 公開日:2023-10-18
# 量子計算による分極コリニア構造

Partonic collinear structure by quantum computing ( http://arxiv.org/abs/2106.03865v2 )

ライセンス: Link先を確認
Tianyin Li, Xingyu Guo, Wai Kin Lai, Xiaohui Liu, Enke Wang, Hongxi Xing, Dan-Bo Zhang, Shi-Liang Zhu(参考訳) 本稿では,ハドロン状態の生成と実時間光面相関器の評価の両方を統合した体系的量子アルゴリズムを提案し,parton分布関数(pdfs)の研究を行う。 概念実証として,1+1次元のナムブ・ジョナ・ラシニオモデルにおいて,PDFの直接シミュレーションを行った。 古典的ハードウェアを用いた厳密な対角化と量子計算により得られた結果を示す。 これら2つの異なる方法の一致とQCD PDFとの質的整合性は、提案した量子アルゴリズムを検証する。 我々の研究は、現在および短期量子デバイス上でのQCD PDFの計算を奨励する可能性を示している。 提案された量子アルゴリズムは、高エネルギー粒子と核物理学に多くの応用が期待されている。

We present a systematic quantum algorithm, which integrates both the hadronic state preparation and the evaluation of real-time light-front correlators, to study parton distribution functions (PDFs). As a proof of concept, we demonstrate the first direct simulation of the PDFs in the 1+1 dimensional Nambu-Jona-Lasinio model. We show the results obtained by exact diagonalization and by quantum computation using classical hardware. The agreement between these two distinct methods and the qualitative consistency with QCD PDFs validate the proposed quantum algorithm. Our work suggests the encouraging prospects of calculating QCD PDFs on current and near-term quantum devices. The presented quantum algorithm is expected to have many applications in high energy particle and nuclear physics.
翻訳日:2023-10-19 13:37:49 公開日:2023-10-18
# モデルチェッカーはクール:uppaalにおけるチェック投票プロトコルのモデル化方法

Model Checkers Are Cool: How to Model Check Voting Protocols in Uppaal ( http://arxiv.org/abs/2007.12412v3 )

ライセンス: Link先を確認
Wojciech Jamroga, Yan Kim, Damian Kurpiewski, Peter Y. A. Ryan(参考訳) e-votingシステムの設計と実装は難しい課題である。 ここでは形式分析がとても役に立ちます。 特に、投票システムがどのように機能するか、システムのどの要件が関係しているかをよりよく理解することが可能になる。 本稿では,最先端のモデルチェッカーであるuppaalが,投票プロトコルのモデリングと予備検証に適した環境を提供することを提案する。 これを説明するために、いくつかの自然な拡張とともに Pr\^et \`a Voter の Uppaal モデルを示す。 また、モデルチェッカーにおけるプロパティ仕様言語の厳しい制限にもかかわらず、レシートフリーネスの変種を検証する方法を示す。

The design and implementation of an e-voting system is a challenging task. Formal analysis can be of great help here. In particular, it can lead to a better understanding of how the voting system works, and what requirements on the system are relevant. In this paper, we propose that the state-of-art model checker Uppaal provides a good environment for modelling and preliminary verification of voting protocols. To illustrate this, we present an Uppaal model of Pr\^et \`a Voter, together with some natural extensions. We also show how to verify a variant of receipt-freeness, despite the severe limitations of the property specification language in the model checker.
翻訳日:2023-10-19 13:37:38 公開日:2023-10-18
# 超伝導回路における量子安定器のハードウェア実装

Hardware implementation of quantum stabilizers in superconducting circuits ( http://arxiv.org/abs/2303.00625v2 )

ライセンス: Link先を確認
K. Dodge, Y. Liu, A. R. Klots, B. Cole, A. Shearrow, M. Senatore, S. Zhu, L. B. Ioffe, R. McDermott, B. L. T. Plourde(参考訳) 安定化演算は量子誤差補正の中心にあり、一般にソフトウェア制御の絡み合いゲートや量子ビット群の測定に実装されている。 あるいは、量子ビットは、ハミルトニアンが量子情報を保護する安定化器に直接対応するように設計することができる。 我々は,$\pi$- periodic josephson 要素の鎖からなる超伝導回路における安定化器のハードウェア実装を実証する。 局所オンチップフラックス・電荷バイアス法を用いて,フラストレーションプラット要素数に指数関数的となるフラックスに対するエネルギー帯域分散の軟化を数値モデルと密接に一致して観察した。

Stabilizer operations are at the heart of quantum error correction and are typically implemented in software-controlled entangling gates and measurements of groups of qubits. Alternatively, qubits can be designed so that the Hamiltonian corresponds directly to a stabilizer for protecting quantum information. We demonstrate such a hardware implementation of stabilizers in a superconducting circuit composed of chains of $\pi$-periodic Josephson elements. With local on-chip flux- and charge-biasing, we observe a softening of the energy band dispersion with respect to flux that is exponential in the number of frustrated plaquette elements, in close agreement with our numerical modeling.
翻訳日:2023-10-19 13:31:23 公開日:2023-10-18
# 分散機械学習のための新興RISC-Vシステムの実験

Experimenting with Emerging RISC-V Systems for Decentralised Machine Learning ( http://arxiv.org/abs/2302.07946v3 )

ライセンス: Link先を確認
Gianluca Mittone, Nicol\`o Tonci, Robert Birke, Iacopo Colonnelli, Doriana Medi\'c, Andrea Bartolini, Roberto Esposito, Emanuele Parisi, Francesco Beneventi, Mirko Polato, Massimo Torquati, Luca Benini, Marco Aldinucci(参考訳) 分散機械学習(DML)は、集中的な入力データなしで協調的な機械学習を可能にする。 フェデレーション学習(fl)とエッジ推論は、dmlの例である。 DML(特にFL)のツールは繁栄し始めているが、その多くは新しいプロセッサ(例えばRISC-V)、完全に接続されていないネットワークトポロジ、非同期協調スキームを試すには柔軟でポータブルではない。 DMLスキームを基盤となるミドルウェア,すなわちFastFlow並列プログラミングライブラリにマップできるようにするため,ドメイン固有言語によるこれらの制限を克服しています。 我々は x86-64 と ARM プラットフォーム上で動作可能な DML スキームと RISC-V プラットフォームを作成して実験を行った。 提案方式とシステムの性能とエネルギー効率を特徴付ける。 副産物として、我々の知識に初めて公開されているpytorchフレームワークのrisc-vポートを紹介します。

Decentralised Machine Learning (DML) enables collaborative machine learning without centralised input data. Federated Learning (FL) and Edge Inference are examples of DML. While tools for DML (especially FL) are starting to flourish, many are not flexible and portable enough to experiment with novel processors (e.g., RISC-V), non-fully connected network topologies, and asynchronous collaboration schemes. We overcome these limitations via a domain-specific language allowing us to map DML schemes to an underlying middleware, i.e. the FastFlow parallel programming library. We experiment with it by generating different working DML schemes on x86-64 and ARM platforms and an emerging RISC-V one. We characterise the performance and energy efficiency of the presented schemes and systems. As a byproduct, we introduce a RISC-V porting of the PyTorch framework, the first publicly available to our knowledge.
翻訳日:2023-10-19 13:31:11 公開日:2023-10-18
# 薬物・標的相互作用のフェデレーション学習ベンチマーク

A Federated Learning Benchmark for Drug-Target Interaction ( http://arxiv.org/abs/2302.07684v4 )

ライセンス: Link先を確認
Gianluca Mittone, Filip Svoboda, Marco Aldinucci, Nicholas D. Lane, Pietro Lio(参考訳) 薬物・標的相互作用(DTI)ドメインにおける医薬品データの集約は、生命維持のブレークスルーをもたらす可能性がある。 しかし、規制の制約と商業上の利益のために、それは非常に難しい。 本研究は,企業データやその他の高レベルの概要を明らかにする情報を共有する必要がなくなるため,産業の制約と調和できると考えるフェデレートラーニングの適用を提案する。 代表的なGraphDTAモデルとKIBAデータセットで使用すると、最高の非プライバシ保存代替手段と比較して最大15%パフォーマンスが向上する。 広範な実験の結果,dtiデータセット内の非iidデータ分布がfl性能を低下させることはないことがわかった。 さらに、新しいデータを追加するメリットと、より多くのクライアントを追加するコストの間には、実質的なトレードオフがあります。

Aggregating pharmaceutical data in the drug-target interaction (DTI) domain has the potential to deliver life-saving breakthroughs. It is, however, notoriously difficult due to regulatory constraints and commercial interests. This work proposes the application of federated learning, which we argue to be reconcilable with the industry's constraints, as it does not require sharing of any information that would reveal the entities' data or any other high-level summary of it. When used on a representative GraphDTA model and the KIBA dataset it achieves up to 15% improved performance relative to the best available non-privacy preserving alternative. Our extensive battery of experiments shows that, unlike in other domains, the non-IID data distribution in the DTI datasets does not deteriorate FL performance. Additionally, we identify a material trade-off between the benefits of adding new data, and the cost of adding more clients.
翻訳日:2023-10-19 13:30:55 公開日:2023-10-18
# 時変ゲームにおける非回帰学習ダイナミクスの収束について

On the Convergence of No-Regret Learning Dynamics in Time-Varying Games ( http://arxiv.org/abs/2301.11241v3 )

ライセンス: Link先を確認
Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas Sandholm(参考訳) ゲームにおける学習に関する文献の多くは、根底にある繰り返しゲームが時間とともに変化しない制限的な設定に焦点を当てている。 動的マルチエージェント設定における非回帰学習アルゴリズムの収束についてはあまり知られていない。 本稿では,時間変動ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。 本フレームワークは,ゲーム列の自然な変動測度に基づいてパラメータ化されたゼロサムゲームにおけるogdの平衡ギャップに対する鋭い収束限界を与え,静的ゲームにおける既知の結果を推定する。 さらに,各ゲームが複数回繰り返される限り,強い凸凸性の下で改良された2次変動境界を確立する。 また,関係平衡の双線形定式化による時間変化型汎用マルチプレイヤーゲームにも適用し,メタラーニングや改良された変分依存後悔境界の獲得に新たな意味を持つ。 最後に,我々のフレームワークを活用して,静的ゲームにおける動的後悔の保証に関する新たな洞察を提供する。

Most of the literature on learning in games has focused on the restrictive setting where the underlying repeated game does not change over time. Much less is known about the convergence of no-regret learning algorithms in dynamic multiagent settings. In this paper, we characterize the convergence of optimistic gradient descent (OGD) in time-varying games. Our framework yields sharp convergence bounds for the equilibrium gap of OGD in zero-sum games parameterized on natural variation measures of the sequence of games, subsuming known results for static games. Furthermore, we establish improved second-order variation bounds under strong convexity-concavity, as long as each game is repeated multiple times. Our results also apply to time-varying general-sum multi-player games via a bilinear formulation of correlated equilibria, which has novel implications for meta-learning and for obtaining refined variation-dependent regret bounds, addressing questions left open in prior papers. Finally, we leverage our framework to also provide new insights on dynamic regret guarantees in static games.
翻訳日:2023-10-19 13:30:42 公開日:2023-10-18
# なぜ絡み合うの?

Why entanglement? ( http://arxiv.org/abs/2212.06986v4 )

ライセンス: Link先を確認
Huw Price and Ken Wharton(参考訳) 本稿では,一般の聴衆に対して,量子エンタングルメントのメカニズムを提案する。 主成分は衝突型バイアスである。 因果モデルの言語では、衝突型は2つ以上の変数によって因果的に影響を受ける変数である。 衝突型加速器の条件付けは、典型的には原因間の非因果相関を生じる。 この現象はベル相関に類似した関連を適切な選択後のアンサンブルで生成することができる。 このような衝突器アーティファクトは、衝突器が「拘束(constrained)」されている場合(例えば、将来の境界条件によって)、因果性に似た真の接続となる可能性がある。 我々はこれらの点の時間反転アナログをQMの逆因数モデルの文脈で考察する。 レトロカウシリティはeprベル粒子対の源に衝突器を生じさせ、この場合、衝突器の制約は通常の実験方法によって可能である。 因果関係に類似した接続が、実験の1つの分岐点から別の分岐点まで、このような衝突器に出現する可能性がある。 我々の仮説では、この制約付きレトロコーサル衝突型加速器のバイアスが絡み合いの起源である。 この作品はarxiv:2101.05370v4 [quant-ph]で最初に作られた提案に基づいており、現在はaeon magazine[price & wharton 2023a]でオンライン公開されているエッセイの祖先である。 arxiv:2309.10969 [quant-ph] の議論の改訂版で (i)実際のベル実験でその応用を実演し (ii)レトロカウサリティの明示的な仮定なしにできることを示す

In this piece, written for a general audience, we propose a mechanism for quantum entanglement. The key ingredient is collider bias. In the language of causal models, a collider is a variable causally influenced by two or more other variables. Conditioning on a collider typically produces non-causal correlations between its contributing causes. This phenomenon can produce associations analogous to Bell correlations, in suitable post-selected ensembles. Such collider artefacts may become real connections, resembling causality, if a collider is 'constrained' (e.g., by a future boundary condition). We consider the time-reversed analogues of these points in the context of retrocausal models of QM. Retrocausality yields a collider at the source of an EPR-Bell particle pair, and in this case constraint of the collider is possible by normal methods of experimental preparation. It follows that connections resembling causality may emerge across such colliders, from one branch of the experiment to the other. Our hypothesis is that this constrained retrocausal collider bias is the origin of entanglement. This piece is based on a suggestion first made in arXiv:2101.05370v4 [quant-ph], and is an ancestor of an essay now published online in Aeon magazine [Price & Wharton 2023a]. In an updated version of the argument in arXiv:2309.10969 [quant-ph] we (i) demonstrate its application in a real Bell experiment; and (ii) show that we can do without an explicit postulate of retrocausality
翻訳日:2023-10-19 13:30:24 公開日:2023-10-18
# ハミルトン格子定式化におけるwilsonおよびstaggered fermionを用いたシュウィンガー模型の質量再正規化

Mass Renormalization of the Schwinger Model with Wilson and Staggered Fermions in the Hamiltonian Lattice Formulation ( http://arxiv.org/abs/2211.12169v3 )

ライセンス: Link先を確認
Takis Angelides, Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) ハミルトンの定式化における格子計算は、主にスタガードフェルミオンに焦点が当てられている。 本論文では,ハミルトニアン定式化におけるウィルソンフェルミオンについて検討し,結果として生じる質量シフトを決定する新しい方法を提案する。 ベンチマーク研究として、Wilson fermions と Topological $\theta$-term using matrix product state を用いて、1-flavour Schwinger モデルについて検討する。 ウィルソンフェルミオンはキラル対称性を明示的に破るので、格子モデルの素質量は加法的再正規化を受ける。 この質量シフトを直接測定するために、電場密度の真空期待値は、再正規化質量がゼロであるときに消滅するという事実に依存するハミルトニアンの定式化に適した方法を開発した。 本稿では,格子間隔,格子体積,$\theta$-parameter,Wilsonパラメータに対する質量シフトの依存性について検討する。 質量シフトを用いて、電場密度の連続的外挿を行い、質量摂動理論の解析的予測と結果の質量依存性を比較する。 質量シフトを組み込むことで連続体外挿が著しく改善することを示す。 最後に,ウィルソンフェルミオンの代わりにスタッガードフェルミオンを用いて同じモデルに適用し,結果の質量シフトを最近の理論予測と比較する。

Lattice computations in the Hamiltonian formulation have so far mainly focused on staggered fermions. In these proceedings, we study Wilson fermions in the Hamiltonian formulation and propose a new method to determine the resulting mass shift. As a benchmark study, we examine the one-flavour Schwinger model with Wilson fermions and a topological $\theta$-term using matrix product states. Wilson fermions explicitly break chiral symmetry; thus, the bare mass of the lattice model receives an additive renormalization. In order to measure this mass shift directly, we develop a method that is suitable for the Hamiltonian formulation, which relies on the fact that the vacuum expectation value of the electric field density vanishes when the renormalized mass is zero. We examine the dependence of the mass shift on the lattice spacing, the lattice volume, the $\theta$-parameter, and the Wilson parameter. Using the mass shift, we then perform the continuum extrapolation of the electric field density and compare the resulting mass dependence to the analytical predictions of mass perturbation theory. We demonstrate that incorporating the mass shift significantly improves the continuum extrapolation. Finally, we apply our method to the same model using staggered fermions instead of Wilson fermions and compare the resulting mass shift to recent theoretical predictions.
翻訳日:2023-10-19 13:30:03 公開日:2023-10-18
# 遠距離感度オラクル

Deep Distance Sensitivity Oracles ( http://arxiv.org/abs/2211.02681v2 )

ライセンス: Link先を確認
Davin Jeong, Allison Gunby-Mann, Sarel Cohen, Maximilian Katzmann, Chau Pham, Arnav Bhakta, Tobias Friedrich, Sang Chin(参考訳) 最も基本的なグラフ問題の1つは、ソースからターゲットノードへの最短経路を見つけることである。 その基本的な形式では、この問題は広く研究され、効率的なアルゴリズムが知られているが、グラフの一部が失敗に遭うと、かなり難しくなる。 停止毎に一番短い置換パスを再計算できるが、これは時間とストレージの両方でかなり非効率である。 この問題を解決する方法の1つは、クエリからの計算負荷を前処理のステップにシフトさせることで、データ構造が計算され、置換パスの高速なクエリを可能にします(一般的には、DSO(Distance Sensitivity Oracle)と呼ばれる)。 dsosは理論計算機科学のコミュニティで広く研究されてきたが、我々の知る限りでは、深層学習技術を用いてdsosを構築する最初の仕事である。 置換経路の組合せ構造を利用するためにディープラーニングを利用する方法を示す。 具体的には、置換経路の組合せ構造を最短経路の結合として利用し、深層学習を用いて最短経路を置換経路に縫合するピボットノードを求める。

One of the most fundamental graph problems is finding a shortest path from a source to a target node. While in its basic forms the problem has been studied extensively and efficient algorithms are known, it becomes significantly harder as soon as parts of the graph are susceptible to failure. Although one can recompute a shortest replacement path after every outage, this is rather inefficient both in time and/or storage. One way to overcome this problem is to shift computational burden from the queries into a pre-processing step, where a data structure is computed that allows for fast querying of replacement paths, typically referred to as a Distance Sensitivity Oracle (DSO). While DSOs have been extensively studied in the theoretical computer science community, to the best of our knowledge this is the first work to construct DSOs using deep learning techniques. We show how to use deep learning to utilize a combinatorial structure of replacement paths. More specifically, we utilize the combinatorial structure of replacement paths as a concatenation of shortest paths and use deep learning to find the pivot nodes for stitching shortest paths into replacement paths.
翻訳日:2023-10-19 13:29:40 公開日:2023-10-18
# 非マルコフ確率シミュレーションのための量子次元削減の実装

Implementing quantum dimensionality reduction for non-Markovian stochastic simulation ( http://arxiv.org/abs/2208.12744v2 )

ライセンス: Link先を確認
Kang-Da Wu, Chengran Yang, Ren-Dong He, Mile Gu, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, and Thomas J. Elliott(参考訳) 複雑なシステムは日々の経験に埋め込まれています。 確率的モデリングは,このようなシステムの振る舞いを理解し,予測することを可能にし,定量的科学においてその有用性を確固たるものにする。 非マルコフ過程の正確なモデル -- 過去の出来事に依存する将来の振る舞いは、過去の観測に関する膨大な量の情報を追跡し、高次元記憶を必要とする。 量子技術はこのコストを改善することができ、対応する古典的モデルよりも低いメモリ次元の同じプロセスのモデルを可能にする。 ここでは、フォトニックセットアップを用いて、非マルコフ過程の族に対してそのようなメモリ効率の量子モデルを実装する。 1量子ビットのメモリで実装された量子モデルは、同じメモリ次元の任意の古典的モデルで可能以上の精度が得られることを示す。 これは複雑なシステムモデリングに量子技術を適用するための重要な一歩となる。

Complex systems are embedded in our everyday experience. Stochastic modelling enables us to understand and predict the behaviour of such systems, cementing its utility across the quantitative sciences. Accurate models of highly non-Markovian processes -- where the future behaviour depends on events that happened far in the past -- must track copious amounts of information about past observations, requiring high-dimensional memories. Quantum technologies can ameliorate this cost, allowing models of the same processes with lower memory dimension than corresponding classical models. Here we implement such memory-efficient quantum models for a family of non-Markovian processes using a photonic setup. We show that with a single qubit of memory our implemented quantum models can attain higher precision than possible with any classical model of the same memory dimension. This heralds a key step towards applying quantum technologies in complex systems modelling.
翻訳日:2023-10-19 13:29:21 公開日:2023-10-18
# 属性依存型3次元顔生成のための学習・調整型ニューラルラジアンスフィールド

Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation ( http://arxiv.org/abs/2208.12550v2 )

ライセンス: Link先を確認
Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang(参考訳) GNeRF(Generative Neural Radiance Fields)ベースの3次元GANは、強力な3D一貫性を維持しながら高品質な画像を生成する際、顕著な能力を示した。 特に、顔生成領域において顕著な進歩が見られた。 しかし、既存のほとんどのモデルでは、切り離しよりもビューの一貫性を優先しており、生成時のセマンティック/属性制御が制限される。 この制限に対処するために, 特定の属性ラベルを入力として組み込んだ条件付きGNeRFモデルを提案する。 提案手法は,事前学習した3D認識顔モデルに基づいており,条件付き正規化フローモジュールを訓練して顔属性の編集を可能にし,潜在ベクトルを最適化して属性編集精度をさらに向上させる,Training as Init and Optimizing for Tuning (TRIOT) 手法を導入している。 広範囲にわたる実験により,非目標領域を維持しつつ,高品質な編集を実現することを実証した。 コードはhttps://github.com/zhangqianhui/TT-GNeRFで公開されている。

Generative Neural Radiance Fields (GNeRF) based 3D-aware GANs have demonstrated remarkable capabilities in generating high-quality images while maintaining strong 3D consistency. Notably, significant advancements have been made in the domain of face generation. However, most existing models prioritize view consistency over disentanglement, resulting in limited semantic/attribute control during generation. To address this limitation, we propose a conditional GNeRF model incorporating specific attribute labels as input to enhance the controllability and disentanglement abilities of 3D-aware generative models. Our approach builds upon a pre-trained 3D-aware face model, and we introduce a Training as Init and Optimizing for Tuning (TRIOT) method to train a conditional normalized flow module to enable the facial attribute editing, then optimize the latent vector to improve attribute-editing precision further. Our extensive experiments demonstrate that our model produces high-quality edits with superior view consistency while preserving non-target regions. Code is available at https://github.com/zhangqianhui/TT-GNeRF.
翻訳日:2023-10-19 13:29:10 公開日:2023-10-18
# VERITE:一様バイアスに対するマルチモーダル誤情報検出会計のためのロバストベンチマーク

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias ( http://arxiv.org/abs/2304.14133v3 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) マルチメディアコンテンツは、ソーシャルメディアプラットフォーム上で広く普及し、マルチモーダル誤報(MM)の台頭と、その拡散を検知し防止するための効果的な戦略の急激な要求につながっている。 近年、マルチモーダル誤情報検出(mmd)の課題は研究者から大きな注目を集め、主に注釈付き、弱い注釈付き、あるいは合成的に生成されたトレーニングデータセットの作成や、様々なディープラーニングmmdモデルの開発に関わってきた。 しかし、MDDベンチマークの特定のパターンやバイアスは、本質的にはマルチモーダルなタスクにおいて、そのマルチモーダルなモデルよりも偏りやユニモーダルなモデルよりも優れているため、進歩を評価するのが難しくなる。 本研究では,VMU-Twitter や COSMOS など,広く使用されているMDD ベンチマークにおいて,一過性バイアスの存在を系統的に調査し,同定する。 この問題に対処するために,実世界のデータを組み込んだMDDの"Verification of Image-TExt pairs"(VERITE)ベンチマークを導入し,非対称なマルチモーダル誤報を排除し,モダリティバランスを利用する。 我々は,ユニモーダルバイアスに対して verite が効果的に対処できることを示すトランスフォーマティブベースのアーキテクチャとの比較研究を行い,mmd に対する堅牢な評価フレームワークとした。 さらに,正規画像と偽人書き字幕との相互関係を保存したリアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。 トレーニングプロセスでCHASMAを活用することで、VERITEにおける予測性能の一貫性と顕著な改善が観察され、精度は9.2%向上した。 https://github.com/stevejpapad/image-text-verification

Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation (MM) and the urgent need for effective strategies to detect and prevent its spread. In recent years, the challenge of multimodal misinformation detection (MMD) has garnered significant attention by researchers and has mainly involved the creation of annotated, weakly annotated, or synthetically generated training datasets, along with the development of various deep learning MMD models. However, the problem of unimodal bias has been overlooked, where specific patterns and biases in MMD benchmarks can result in biased or unimodal models outperforming their multimodal counterparts on an inherently multimodal task; making it difficult to assess progress. In this study, we systematically investigate and identify the presence of unimodal bias in widely-used MMD benchmarks, namely VMU-Twitter and COSMOS. To address this issue, we introduce the "VERification of Image-TExt pairs" (VERITE) benchmark for MMD which incorporates real-world data, excludes "asymmetric multimodal misinformation" and utilizes "modality balancing". We conduct an extensive comparative study with a Transformer-based architecture that shows the ability of VERITE to effectively address unimodal bias, rendering it a robust evaluation framework for MMD. Furthermore, we introduce a new method -- termed Crossmodal HArd Synthetic MisAlignment (CHASMA) -- for generating realistic synthetic training data that preserve crossmodal relations between legitimate images and false human-written captions. By leveraging CHASMA in the training process, we observe consistent and notable improvements in predictive performance on VERITE; with a 9.2% increase in accuracy. We release our code at: https://github.com/stevejpapad/image-text-verification
翻訳日:2023-10-19 13:21:08 公開日:2023-10-18
# 愚かな契約を利用するための教育

Schooling to Exploit Foolish Contracts ( http://arxiv.org/abs/2304.10737v2 )

ライセンス: Link先を確認
Tamer Abdelaziz and Aquinas Hobor(参考訳) 当社のスマートコントラクト学習(semi-supervised)エンジンであるscoolsを紹介します。 SCooLSは、ニューラルネットワークを使用してEthereumコントラクトバイトコードを分析し、特定の脆弱な機能を特定する。 SCooLSには、セミ教師付き学習とグラフニューラルネットワーク(GNN)という2つの重要な要素が含まれている。 半教師付き学習は教師なし学習よりも正確なモデルを生成するが、教師付き学習に必要な大きなオラクルラベルのトレーニングセットは必要ない。 GNNは、手動の機能エンジニアリング、事前に定義されたパターン、専門家のルールなしで、スマートコントラクトバイトコードを直接分析できる。 SCooLSは、スマートコントラクト脆弱性分析への半教師付き学習の最初の応用であり、特定の脆弱性機能を特定するための、ディープラーニングベースの脆弱性分析器である。 SCooLSのパフォーマンスは既存のツールよりも優れており、精度は98.4%、F1スコアは90.5%、偽陽性率は0.8%と極めて低い。 さらにSCooLSは高速で、典型的な関数を0.05秒で解析する。 我々はSCooLSの特定の脆弱な機能を特定してエクスプロイトジェネレータを構築する能力を活用し、真の正の76.9%からEtherを盗むことに成功した。

We introduce SCooLS, our Smart Contract Learning (Semi-supervised) engine. SCooLS uses neural networks to analyze Ethereum contract bytecode and identifies specific vulnerable functions. SCooLS incorporates two key elements: semi-supervised learning and graph neural networks (GNNs). Semi-supervised learning produces more accurate models than unsupervised learning, while not requiring the large oracle-labeled training set that supervised learning requires. GNNs enable direct analysis of smart contract bytecode without any manual feature engineering, predefined patterns, or expert rules. SCooLS is the first application of semi-supervised learning to smart contract vulnerability analysis, as well as the first deep learning-based vulnerability analyzer to identify specific vulnerable functions. SCooLS's performance is better than existing tools, with an accuracy level of 98.4%, an F1 score of 90.5%, and an exceptionally low false positive rate of only 0.8%. Furthermore, SCooLS is fast, analyzing a typical function in 0.05 seconds. We leverage SCooLS's ability to identify specific vulnerable functions to build an exploit generator, which was successful in stealing Ether from 76.9% of the true positives.
翻訳日:2023-10-19 13:20:31 公開日:2023-10-18
# 世界モデルの幾何学が好奇心に基づく探索に及ぼす影響

Influence of the Geometry of the world model on Curiosity Based Exploration ( http://arxiv.org/abs/2304.00188v2 )

ライセンス: Link先を確認
Gr\'egoire Sergeant-Perthuis, Nils Ruet, David Rudrauf, Dimitri Ognibene and Yvain Tisserand(参考訳) 人間の空間認識において、3次元射影幾何学構造は、内部表現空間内の視点による情報統合と行動計画を行う。 異なる視点が関連し、世界モデルを変換する方法は、特定の知覚と想像のスキームを定義する。 数学において、そのような変換の集まりは「群」に対応し、「作用」は空間の幾何学を特徴づける。 グループ構造を持つ世界モデルの導入は、異なるエージェントの空間認識とアプライアンススキームを捉えうる。 我々は,パースペクティブ依存制御のための特別な分類としてグループアクションを用いた。 このような幾何学的構造がエージェントの行動にどのように影響するかを検討し、ユークリッド群と射影群がアクティブ推論、好奇心の促進、探索行動において認識論的価値にどのように作用するかを比較した。 単純な探索タスクにおいて,グループがどのように異なる振る舞いを誘発するかを形式的に示し,シミュレーションする。 射影群の非線形な情報拡大は、フレームの選択に応じて認識値を変換し、関心対象へのアプローチの振る舞いを発生させる。 エージェントの世界モデル内の射影群構造は、意識の重要な特徴を捉えることが知られている射影的意識モデルを含んでいる。 一方, ユークリッド群は認識値に影響を与えず, 初期アイドル状態よりも優れた作用は認められなかった。 エージェントの内部表現の事前構築において,情報統合や行動計画において,幾何が重要な役割を果たすかを示す。

In human spatial awareness, 3-D projective geometry structures information integration and action planning through perspective taking within an internal representation space. The way different perspectives are related and transform a world model defines a specific perception and imagination scheme. In mathematics, such collection of transformations corresponds to a 'group', whose 'actions' characterize the geometry of a space. Imbuing world models with a group structure may capture different agents' spatial awareness and affordance schemes. We used group action as a special class of policies for perspective-dependent control. We explored how such geometric structure impacts agents' behavior, comparing how the Euclidean versus projective groups act on epistemic value in active inference, drive curiosity, and exploration behaviors. We formally demonstrate and simulate how the groups induce distinct behaviors in a simple search task. The projective group's nonlinear magnification of information transformed epistemic value according to the choice of frame, generating behaviors of approach toward an object of interest. The projective group structure within the agent's world model contains the Projective Consciousness Model, which is know to capture key features of consciousness. On the other hand, the Euclidean group had no effect on epistemic value : no action was better than the initial idle state. In structuring a priori an agent's internal representation, we show how geometry can play a key role in information integration and action planning.
翻訳日:2023-10-19 13:20:14 公開日:2023-10-18
# 機械学習による光電子モーメントからのフェムト秒パルスパラメータ推定

Femtosecond pulse parameter estimation from photoelectron momenta using machine learning ( http://arxiv.org/abs/2303.13940v2 )

ライセンス: Link先を確認
Tomasz Szo{\l}dra, Marcelo F. Ciappina, Nicholas Werby, Philip H. Bucksbaum, Maciej Lewenstein, Jakub Zakrzewski, and Andrew S. Maxwell(参考訳) ディープラーニングモデルは、画像のようなデータに膨大な解釈能力を提供している。 特に、畳み込みニューラルネットワーク(CNN)は、特徴抽出やパラメータ推定といったタスクに対して驚くほどの明度を示した。 ここでは強電離光電子スペクトルのcnnをテストし、理論データ集合をインバート実験データにトレーニングする。 パルスキャラクタリゼーションは「テストグラウンド」として使われ、特に「伝統的な」測定値が通常20%の不確かさをもたらすレーザー強度を取り出す。 本稿では,理論データのトレーニングに成功し,検出器飽和度計算を含む実験から一貫した結果を返すために必要な重要なデータ拡張手法について報告する。 同じ手順を繰り返すことで、強電界イオン化の様々なシナリオにcnnを適用することができる。 予測の不確実性推定を用いて、信頼性のある数パーセントのレーザー強度の不確実性を抽出することができる。 解釈可能性法を用いることで、ホログラフィック干渉と直接関連付けられるレーザー強度に最も敏感な分布の一部を明らかにすることができる。 CNNは、パラメータを抽出する正確で便利な方法を提供し、強磁場電離スペクトルの新しい解釈ツールを表現している。

Deep learning models have provided huge interpretation power for image-like data. Specifically, convolutional neural networks (CNNs) have demonstrated incredible acuity for tasks such as feature extraction or parameter estimation. Here we test CNNs on strong-field ionization photoelectron spectra, training on theoretical data sets to `invert' experimental data. Pulse characterization is used as a `testing ground', specifically we retrieve the laser intensity, where `traditional' measurements typically lead to 20% uncertainty. We report on crucial data augmentation techniques required to successfully train on theoretical data and return consistent results from experiments, including accounting for detector saturation. The same procedure can be repeated to apply CNNs in a range of scenarios for strong-field ionization. Using a predictive uncertainty estimation, reliable laser intensity uncertainties of a few percent can be extracted, which are consistently lower than those given by traditional techniques. Using interpretability methods can reveal parts of the distribution that are most sensitive to laser intensity, which can be directly associated with holographic interferences. The CNNs employed provide an accurate and convenient ways to extract parameters, and represent a novel interpretational tool for strong-field ionization spectra.
翻訳日:2023-10-19 13:19:46 公開日:2023-10-18
# マトリックス生成物状態を持つ格子シュウィンガーモデルにおけるWilsonとSaggered Fermionsの質量シフトの計算

Computing the Mass Shift of Wilson and Staggered Fermions in the Lattice Schwinger Model with Matrix Product States ( http://arxiv.org/abs/2303.11016v2 )

ライセンス: Link先を確認
Takis Angelides, Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) テンソルネットワークと量子コンピューティングを用いた格子ゲージ理論のシミュレーションは、これまで主にスタッガードフェルミオンに焦点を当ててきた。 本稿では、ハミルトニアン定式化におけるウィルソンフェルミオンの研究に行列積状態を用い、加法質量再正規化を決定する新しい方法を提案する。 ベンチマークモデルとしてシングルフレーバーシュウィンガーモデルに着目し,従来のモンテカルロ法では利用できない非有界な位相的$\theta$-term の構成について検討した。 我々は,質量シフトの体積依存性,格子間隔,$\theta$-parameter,Wilsonパラメータを体系的に検討した。 これにより、一定の再正規化質量の線に従うことができ、質量ギャップと電界密度の連続体外挿を大幅に改善することができる。 質量の小さな値の場合、我々の連続体の結果は質量摂動理論からの理論的予測と一致する。 Wilson フェルミオンを超えて、我々の手法は停滞したフェルミオンにも適用でき、我々のアプローチの結果が十分に大量の質量移動の最近の理論的予測と一致することを実証する。

Simulations of lattice gauge theories with tensor networks and quantum computing have so far mainly focused on staggered fermions. In this paper, we use matrix product states to study Wilson fermions in the Hamiltonian formulation and present a novel method to determine the additive mass renormalization. Focusing on the single-flavor Schwinger model as a benchmark model, we investigate the regime of a nonvanishing topological $\theta$-term, which is inaccessible to conventional Monte Carlo methods. We systematically explore the dependence of the mass shift on the volume, the lattice spacing, the $\theta$-parameter, and the Wilson parameter. This allows us to follow lines of constant renormalized mass, and therefore to substantially improve the continuum extrapolation of the mass gap and the electric field density. For small values of the mass, our continuum results agree with the theoretical prediction from mass perturbation theory. Going beyond Wilson fermions, our technique can also be applied to staggered fermions, and we demonstrate that the results of our approach agree with a recent theoretical prediction for the mass shift at sufficiently large volumes.
翻訳日:2023-10-19 13:19:27 公開日:2023-10-18
# 教師付きサラウンドビュー深度推定のための簡易ベースライン

A Simple Baseline for Supervised Surround-view Depth Estimation ( http://arxiv.org/abs/2303.07759v3 )

ライセンス: Link先を確認
Xianda Guo, Wenjie Yuan, Yunpeng Zhang, Tian Yang, Chenming Zhang, Zheng Zhu, Long Chen(参考訳) 深度推定は広く研究され、知的車両の3次元知覚の基本的なステップとなっている。 過去数十年間、単眼深度推定において顕著な進歩があったが、これらの試みは主に、周囲カメラ間の相関を無視する前面カメラのみを用いたKITTIベンチマークで行われている。 本稿では,S3Depthを提案する。S3Depthは,複数の周囲カメラにまたがる深度マップを共同で予測する簡易ベースラインである。 具体的には,CNNとトランスフォーマー層を組み合わせたグローバル-ローカルな特徴抽出モジュールを用いて表現を豊かにする。 さらに、ビュー内およびビュー間特徴伝搬を可能にするために、アジャセントビュー注意機構を提案する。 前者は各ビュー内のセルフアテンションモジュールで達成され、後者はアテンションモジュールで実現され、マルチカメラ間でアテンションを計算し、サラウンドビュー特徴マップでマルチスケール表現を交換する。 本手法はDDADとnuScenesの両方のデータセット上で,既存の最先端手法よりも優れた性能を示す。

Depth estimation has been widely studied and serves as the fundamental step of 3D perception for intelligent vehicles. Though significant progress has been made in monocular depth estimation in the past decades, these attempts are mainly conducted on the KITTI benchmark with only front-view cameras, which ignores the correlations across surround-view cameras. In this paper, we propose S3Depth, a Simple Baseline for Supervised Surround-view Depth Estimation, to jointly predict the depth maps across multiple surrounding cameras. Specifically, we employ a global-to-local feature extraction module which combines CNN with transformer layers for enriched representations. Further, the Adjacent-view Attention mechanism is proposed to enable the intra-view and inter-view feature propagation. The former is achieved by the self-attention module within each view, while the latter is realized by the adjacent attention module, which computes the attention across multi-cameras to exchange the multi-scale representations across surround-view feature maps. Extensive experiments show that our method achieves superior performance over existing state-of-the-art methods on both DDAD and nuScenes datasets.
翻訳日:2023-10-19 13:19:08 公開日:2023-10-18
# タンパク質配列と構造に関する共同表現学習の体系的研究

A Systematic Study of Joint Representation Learning on Protein Sequences and Structures ( http://arxiv.org/abs/2303.06275v2 )

ライセンス: Link先を確認
Zuobai Zhang, Chuanrui Wang, Minghao Xu, Vijil Chenthamarakshan, Aur\'elie Lozano, Payel Das, Jian Tang(参考訳) 効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。 タンパク質言語モデル(plm)に基づく最近のシーケンス表現学習手法は、シーケンスベースのタスクに優れているが、タンパク質構造に関わるタスクへの直接的適応は依然として課題である。 対照的に、構造に基づく手法はグラフニューラルネットワークを用いて3次元構造情報を活用し、幾何学的事前学習法は関数予測タスクのポテンシャルを示すが、利用可能な構造の限られた数に悩まされている。 このギャップを埋めるため,本研究は,最先端plm (esm-2) と異なる構造エンコーダ (gvp, gearnet, cdconv) を統合することで,共同タンパク質表現学習の包括的探索を行っている。 3つの表現融合戦略を導入し、異なる事前学習手法を検討する。 本手法は,既存のシーケンスおよび構造ベースメソッドよりも大幅に改善され,関数アノテーションの新たな最先端設定が可能となる。 本研究は,タンパク質配列と構造情報を融合するための重要な設計選択について述べる。 私たちの実装はhttps://github.com/DeepGraphLearning/ESM-GearNetで公開されています。

Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein functions. Recent sequence representation learning methods based on Protein Language Models (PLMs) excel in sequence-based tasks, but their direct adaptation to tasks involving protein structures remains a challenge. In contrast, structure-based methods leverage 3D structural information with graph neural networks and geometric pre-training methods show potential in function prediction tasks, but still suffers from the limited number of available structures. To bridge this gap, our study undertakes a comprehensive exploration of joint protein representation learning by integrating a state-of-the-art PLM (ESM-2) with distinct structure encoders (GVP, GearNet, CDConv). We introduce three representation fusion strategies and explore different pre-training techniques. Our method achieves significant improvements over existing sequence- and structure-based methods, setting new state-of-the-art for function annotation. This study underscores several important design choices for fusing protein sequence and structure information. Our implementation is available at https://github.com/DeepGraphLearning/ESM-GearNet.
翻訳日:2023-10-19 13:18:46 公開日:2023-10-18
# 機械学習を用いた将来の重力波ミッションによるハッブルパラメータの再構成

Reconstructing the Hubble parameter with future Gravitational Wave missions using Machine Learning ( http://arxiv.org/abs/2303.05169v2 )

ライセンス: Link先を確認
Purba Mukherjee, Rahul Shah, Arko Bhaumik, Supratik Pal(参考訳) 本稿では,Hubbleパラメータである$H(z)$を,進化したレーザー干渉計宇宙アンテナ(eLISA)とアインシュタイン望遠鏡(ET)で再構成する手段として,機械学習(ML)アルゴリズムであるGaussian Process(GP)の展望について検討する。 様々な背景宇宙モデルを想定したハッブルパラメータは、ミッション毎に現実的に生成されたカタログを用いてGPの助けを借りて、非パラメトリックな方法で再構成されている。 h(z)$の再構成とハッブル定数(h_0$)に対する初期および後期の事前値の影響も別々に注目されている。 我々の分析によると、GPは特定のミッションの観測窓の中で宇宙の膨張史を再構築する上で非常に堅牢である。 さらに、eLISAとETの両方が、現在のデータセットから推測されるものと競合する$H(z)$と$H_0$の制約を提供できることを確認します。 特に、$\sim10$のelisa実行と$\sim80$の明るいサイレンイベントは$\sim3$のet実行を制限し、$\sim1000$の明るいサイレンイベント検出を仮定すると、$h_0$となる。 さらなる精度の向上は、$\sim15$-yearのイベントを持つ$\sim120$のような、より長いeLISAミッション期間に期待される。 最後に,これらの将来の重力波ミッションが,それぞれのモデルに対して,ケースバイケースでハッブル・テンションに取り組む上で果たす役割について論じる。

We study the prospects of Gaussian processes (GP), a machine learning (ML) algorithm, as a tool to reconstruct the Hubble parameter $H(z)$ with two upcoming gravitational wave missions, namely the evolved Laser Interferometer Space Antenna (eLISA) and the Einstein Telescope (ET). Assuming various background cosmological models, the Hubble parameter has been reconstructed in a non-parametric manner with the help of GP using realistically generated catalogs for each mission. The effects of early-time and late-time priors on the reconstruction of $H(z)$, and hence on the Hubble constant ($H_0$), have also been focused on separately. Our analysis reveals that GP is quite robust in reconstructing the expansion history of the Universe within the observational window of the specific missions under consideration. We further confirm that both eLISA and ET would be able to provide constraints on $H(z)$ and $H_0$ which would be competitive to those inferred from current datasets. In particular, we observe that an eLISA run of $\sim10$-year duration with $\sim80$ detected bright siren events would be able to constrain $H_0$ as good as a $\sim3$-year ET run assuming $\sim 1000$ bright siren event detections. Further improvement in precision is expected for longer eLISA mission durations such as a $\sim15$-year time-frame having $\sim120$ events. Lastly, we discuss the possible role of these future gravitational wave missions in addressing the Hubble tension, for each model, on a case-by-case basis.
翻訳日:2023-10-19 13:18:23 公開日:2023-10-18
# モデル非依存連合学習

Model-Agnostic Federated Learning ( http://arxiv.org/abs/2303.04906v2 )

ライセンス: Link先を確認
Gianluca Mittone and Walter Riviera and Iacopo Colonnelli and Robert Birke and Marco Aldinucci(参考訳) 2016年のデビュー以来、連合学習(federated learning、fl)はディープニューラルネットワーク(dnn)の内部動作と結びついている。 一方、DNNの普及に伴い、開発と広く使われるようになった。 一方、DNNの使用が不可能または有利なシナリオをすべて無視した。 現在のFLフレームワークでDNNのトレーニングしかできないという事実は、この問題を強化します。 非DNNベースのユースケースに対するFLソリューションの欠如を解決するため,MAFL(Model-Agnostic Federated Learning)を提案する。 MAFLは、モデルに依存しないFLアルゴリズムであるAdaBoost.Fと、オープンな業界グレードのFLフレームワークであるIntel OpenFLを結合する。 MAFLは、特定の種類の機械学習モデルに縛られない最初のFLシステムであり、DNNや木を越えてFLシナリオを探索することができる。 複数の視点からmaflをテストし,その正確性,柔軟性,最大64ノードまでのスケーリング特性を評価した。 標準的なFLシナリオで5.5倍の高速化を実現した。 MAFLはx86-64、ARM-v8、Power、RISC-Vと互換性がある。

Since its debut in 2016, Federated Learning (FL) has been tied to the inner workings of Deep Neural Networks (DNNs). On the one hand, this allowed its development and widespread use as DNNs proliferated. On the other hand, it neglected all those scenarios in which using DNNs is not possible or advantageous. The fact that most current FL frameworks only allow training DNNs reinforces this problem. To address the lack of FL solutions for non-DNN-based use cases, we propose MAFL (Model-Agnostic Federated Learning). MAFL marries a model-agnostic FL algorithm, AdaBoost.F, with an open industry-grade FL framework: Intel OpenFL. MAFL is the first FL system not tied to any specific type of machine learning model, allowing exploration of FL scenarios beyond DNNs and trees. We test MAFL from multiple points of view, assessing its correctness, flexibility and scaling properties up to 64 nodes. We optimised the base software achieving a 5.5x speedup on a standard FL scenario. MAFL is compatible with x86-64, ARM-v8, Power and RISC-V.
翻訳日:2023-10-19 13:17:50 公開日:2023-10-18
# 非エルミート確率行列と開量子系の特異値統計

Singular-Value Statistics of Non-Hermitian Random Matrices and Open Quantum Systems ( http://arxiv.org/abs/2307.08218v2 )

ライセンス: Link先を確認
Kohei Kawabata, Zhenyu Xiao, Tomi Ohtsuki, Ryuichi Shindou(参考訳) 非エルミート確率行列のスペクトル統計は、開量子系におけるカオス的振る舞いの診断ツールとして重要である。 本稿では,非エルミート確率行列における特異値の統計的性質を,散逸的量子カオスを定量化する有効な尺度として検討する。 エルミティゼーションにより、複素固有値統計学と区別する特異値統計学の独特な特徴を明らかにし、非エルミティアン確率行列の38倍対称性クラスに対する特異値統計学の包括的分類を確立する。 また,小乱数行列の特異値統計を解析的に導出し,wigner surmiseと類似の精神を持つ大乱数行列の統計をよく記述する。 さらに、オープン量子多体系の特異値はランダム行列統計に従い、オープン量子系のカオスと非可積分性を同定することを示した。 我々の研究は、特異値統計が対称性の明確な指標となり、開放量子系の統計物理学の基礎となることを解明している。

The spectral statistics of non-Hermitian random matrices are of importance as a diagnostic tool for chaotic behavior in open quantum systems. Here, we investigate the statistical properties of singular values in non-Hermitian random matrices as an effective measure of quantifying dissipative quantum chaos. By means of Hermitization, we reveal the unique characteristics of the singular-value statistics that distinguish them from the complex-eigenvalue statistics, and establish the comprehensive classification of the singular-value statistics for all the 38-fold symmetry classes of non-Hermitian random matrices. We also analytically derive the singular-value statistics of small random matrices, which well describe those of large random matrices in the similar spirit to the Wigner surmise. Furthermore, we demonstrate that singular values of open quantum many-body systems follow the random-matrix statistics, thereby identifying chaos and nonintegrability in open quantum systems. Our work elucidates that the singular-value statistics serve as a clear indicator of symmetry and lay a foundation for statistical physics of open quantum systems.
翻訳日:2023-10-19 13:11:08 公開日:2023-10-18
# リプレイ・トゥ・メモリ:ドイツ音声認識のための連続層特異的微調整

Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition ( http://arxiv.org/abs/2307.07280v2 )

ライセンス: Link先を確認
Theresa Pekarek Rosin, Stefan Wermter(参考訳) 自動音声認識(ASR)モデルは、教師なしまたは教師なしの訓練技術の導入によって大きな進歩を見せているが、これらの改善は言語と話者のサブセクションに限られている。 転送学習により、大規模多言語モデルの低リソース言語だけでなく、より特定の話者グループにも適応することができる。 しかし、新しいドメインからのデータの微調整は通常、元のドメインのパフォーマンスが低下する。 そこで本研究では,大規模asrモデルの性能を,ドイツ上級音声コマンド(svc-de)のデータセットを用いて,より小さな領域で近似し,訓練中にモデルを選択的に凍結することにより,一般音声認識性能がどの程度保持できるかを検証した。 細調整領域外の語彙や話者に対するASRモデルの堅牢性をさらに高めるため,連続学習にエクスペリエンス・リプレイを適用した。 元のドメインからほんのわずかなデータを追加することで、新しいドメインで単語誤り率(wers)が5\%未満になると同時に、許容可能なwerで一般的な音声認識のパフォーマンスを安定させることができる。

While Automatic Speech Recognition (ASR) models have shown significant advances with the introduction of unsupervised or self-supervised training techniques, these improvements are still only limited to a subsection of languages and speakers. Transfer learning enables the adaptation of large-scale multilingual models to not only low-resource languages but also to more specific speaker groups. However, fine-tuning on data from new domains is usually accompanied by a decrease in performance on the original domain. Therefore, in our experiments, we examine how well the performance of large-scale ASR models can be approximated for smaller domains, with our own dataset of German Senior Voice Commands (SVC-de), and how much of the general speech recognition performance can be preserved by selectively freezing parts of the model during training. To further increase the robustness of the ASR model to vocabulary and speakers outside of the fine-tuned domain, we apply Experience Replay for continual learning. By adding only a fraction of data from the original domain, we are able to reach Word-Error-Rates (WERs) below 5\% on the new domain, while stabilizing performance for general speech recognition at acceptable WERs.
翻訳日:2023-10-19 13:10:52 公開日:2023-10-18
# イオン結晶のサイドバンド温度測定

Sideband thermometry of ion crystals ( http://arxiv.org/abs/2306.07880v3 )

ライセンス: Link先を確認
Ivan Vybornyi, Laura S. Dreissen, Dominik Kiesenhofer, Helene Hainzer, Matthias Bock, Tuomas Ollikainen, Daniel Vadlejch, Christian F. Roos, Tanja E. Mehlst\"aubler, Klemens Hammerer(参考訳) コールドトラップイオンのクーロン結晶は、量子プロセッサと量子シミュレーションの実現のための主要なプラットフォームであり、量子メトロロジーでは、光学原子時計の構築と標準モデルの基本的なテストのためのものである。 これらの応用のためには、イオン結晶を全ての自由度で量子基底状態まで冷却するだけでなく、高い精度で温度を決定することが不可欠である。 しかし、大きな基底状態冷却結晶が熱測定のために尋問されると、複雑な多体相互作用が起こり、確立された技術で正確な温度推定が困難になる。 本研究では,イオン結晶に適した新しい温度測定法を提案する。 この方法は、全ての通常の運動モードに適用可能であり、大きなイオン結晶に適用すると計算ボトルネックを負わない。 温度推定を4イオンの1次元線形鎖と19イオンの2次元結晶という2つの実験で検証し、他の方法を用いて可能な限りの結果を検証する。 その結果,新手法はイオン結晶の熱測定の精度と効率が向上した。

Coulomb crystals of cold trapped ions are a leading platform for the realisation of quantum processors and quantum simulations and, in quantum metrology, for the construction of optical atomic clocks and for fundamental tests of the Standard Model. For these applications, it is not only essential to cool the ion crystal in all its degrees of freedom down to the quantum ground state, but also to be able to determine its temperature with a high accuracy. However, when a large ground-state cooled crystal is interrogated for thermometry, complex many-body interactions take place, making it challenging to accurately estimate the temperature with established techniques. In this work we present a new thermometry method tailored for ion crystals. The method is applicable to all normal modes of motion and does not suffer from a computational bottleneck when applied to large ion crystals. We test the temperature estimate with two experiments, namely with a 1D linear chain of 4 ions and a 2D crystal of 19 ions and verify the results, where possible, using other methods. The results show that the new method is an accurate and efficient tool for thermometry of ion crystals.
翻訳日:2023-10-19 13:10:30 公開日:2023-10-18
# 正規電位に基づくプレイヤーレーティング

Ordinal Potential-based Player Rating ( http://arxiv.org/abs/2306.05366v2 )

ライセンス: Link先を確認
Nelson Vadori and Rahul Savani(参考訳) 近年、エロレーティングは戦略間の推移的関係を保つことに失敗し、ゲームの推移的要素を正しく抽出できないことが観測された。 順序ポテンシャルゲームの弱い変種としての推移ゲームの特徴を示し、適切な可逆写像を用いて、正しい空間で計算された場合の移動性が実際に維持されることを示す。 この知見を生かして,ニューラルネットワークアーキテクチャを用いて学習し,戦略間の推移的および循環的関係であるゲームの符号パターンを優先的に捉える,推移的および循環的要素に任意のゲームの新たなゲーム分解を導入する。 我々は,従来のサインランクの概念にアプローチをリンクし,実世界のゲームからの経験的データとおもちゃの例を用いて方法論を評価する。

It was recently observed that Elo ratings fail at preserving transitive relations among strategies and therefore cannot correctly extract the transitive component of a game. We provide a characterization of transitive games as a weak variant of ordinal potential games and show that Elo ratings actually do preserve transitivity when computed in the right space, using suitable invertible mappings. Leveraging this insight, we introduce a new game decomposition of an arbitrary game into transitive and cyclic components that is learnt using a neural network-based architecture and that prioritises capturing the sign pattern of the game, namely transitive and cyclic relations among strategies. We link our approach to the known concept of sign-rank, and evaluate our methodology using both toy examples and empirical data from real-world games.
翻訳日:2023-10-19 13:10:12 公開日:2023-10-18
# 継続的強化学習のためのポリシー最適化

Policy Optimization for Continuous Reinforcement Learning ( http://arxiv.org/abs/2305.18901v4 )

ライセンス: Link先を確認
Hanyang Zhao, Wenpin Tang, David D. Yao(参考訳) 本研究では,連続時間と空間の設定における強化学習(rl)について,確率微分方程式によって駆動される無限大地平線と基礎となる力学について検討する。 RLへの継続的なアプローチの最近の進歩を基盤として、職業時間(具体的には割引対象)の概念を開発し、性能差と局所近似式を効果的に導出する方法を示す。 さらに、これらの結果を拡張し、PG(政治勾配)とTRPO/PPO(信頼地域政策最適化/近位政策最適化)の手法で、離散的なRL設定では馴染み深く、かつ強力なツールであるが、連続的なRLでは未開発であることを示す。 数値実験により,本手法の有効性と利点を実証した。

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.
翻訳日:2023-10-19 13:09:58 公開日:2023-10-18
# 注意を集中する(適応型IIRフィルタで)

Focus Your Attention (with Adaptive IIR Filters) ( http://arxiv.org/abs/2305.14952v2 )

ライセンス: Link先を確認
Shahar Lutati, Itamar Zimerman, Lior Wolf(参考訳) 本稿では,2次インパルス応答(iir)フィルタを用いて,従来の注意を払拭する前に入力シーケンスを処理できる新しい層を提案する。 入力はチャンクに分割され、これらのフィルタの係数は、因果性を維持するために以前のチャンクに基づいて決定される。 比較的低い順序であるにもかかわらず、因果適応フィルタは関連する配列要素に注意を向けるように示される。 新しい層は制御理論に基礎を置き、対角状態空間層を一般化することが示されている。 レイヤは、パラメータのごく一部と、入力サイズとサブクワッドラティックな時間的複雑さで、最先端のネットワークとオンペアで実行される。 得られた層はheyna,gpt2,megaなどの層に好適であり,複数の長距離シーケンス問題に対するパラメータ数と得られた性能レベルの両方について好適である。

We present a new layer in which dynamic (i.e.,input-dependent) Infinite Impulse Response (IIR) filters of order two are used to process the input sequence prior to applying conventional attention. The input is split into chunks, and the coefficients of these filters are determined based on previous chunks to maintain causality. Despite their relatively low order, the causal adaptive filters are shown to focus attention on the relevant sequence elements. The new layer is grounded in control theory, and is shown to generalize diagonal state-space layers. The layer performs on-par with state-of-the-art networks, with a fraction of their parameters and with time complexity that is sub-quadratic with input size. The obtained layer is favorable to layers such as Heyna, GPT2, and Mega, both with respect to the number of parameters and the obtained level of performance on multiple long-range sequence problems.
翻訳日:2023-10-19 13:09:45 公開日:2023-10-18
# 医学文献の多言語化

Multilingual Simplification of Medical Texts ( http://arxiv.org/abs/2305.12532v4 )

ライセンス: Link先を確認
Sebastian Joseph, Kathryn Kazanas, Keziah Reina, Vishnesh J. Ramanathan, Wei Xu, Byron C. Wallace, and Junyi Jessy Li(参考訳) 自動テキスト単純化は、複雑なテキストの単純なバージョンを作成することを目的としている。 このタスクは特に医学領域で有用であり、最新の医学所見は一般的に複雑で技術的な記事を通じて伝達される。 このことは、最新の医学的発見へのアクセスを求める平民にとって障壁となり、その結果、健康リテラシーの進歩を妨げる。 医学的テキストの単純化に関する既存の研究は、モノリンガルな設定に重点を置いており、その結果、そのような証拠はたった一つの言語(多くは英語)でのみ利用可能となる。 この作業は、多言語による単純化、すなわち複雑なテキストを複数の言語で単純化されたテキストへ直接単純化することで、この制限に対処する。 英語、スペイン語、フランス語、ファルシ語という4つの言語で、医学領域で最初の文を並べた多言語テキスト簡易化データセットであるmulticochraneを導入する。 我々はこれらの言語にまたがる微調整およびゼロショットモデルを評価し,広範な評価と分析を行った。 モデルは現在、実行可能な簡易テキストを生成することができるが、このデータセットが対処できる未解決の課題を特定する。

Automated text simplification aims to produce simple versions of complex texts. This task is especially useful in the medical domain, where the latest medical findings are typically communicated via complex and technical articles. This creates barriers for laypeople seeking access to up-to-date medical findings, consequently impeding progress on health literacy. Most existing work on medical text simplification has focused on monolingual settings, with the result that such evidence would be available only in just one language (most often, English). This work addresses this limitation via multilingual simplification, i.e., directly simplifying complex texts into simplified texts in multiple languages. We introduce MultiCochrane, the first sentence-aligned multilingual text simplification dataset for the medical domain in four languages: English, Spanish, French, and Farsi. We evaluate fine-tuned and zero-shot models across these languages, with extensive human assessments and analyses. Although models can now generate viable simplified texts, we identify outstanding challenges that this dataset might be used to address.
翻訳日:2023-10-19 13:09:29 公開日:2023-10-18
# マルコフ決定過程におけるオンライン資源配分

Online Resource Allocation in Episodic Markov Decision Processes ( http://arxiv.org/abs/2305.10744v2 )

ライセンス: Link先を確認
Duksang Lee, Dabeen Lee(参考訳) 本稿では,多段階意思決定プロセスを必要とする複数期間にわたる長期資源配分問題について検討する。 未知の非定常遷移関数と確率的非定常報酬と資源消費関数を持つエピソディック有限ホリゾン制約マルコフ決定過程において、オンライン割り当て問題として問題を定式化する。 そこで,提案手法では,報酬と資源消費関数に関する観察とフィードバックが意思決定者に与えられる方法が異なるが,観察・決定方式を提案し,既存の決定・監視体制を改善する。 両設定のほぼ最適後悔境界を実現するオンライン二重ミラー降下アルゴリズムを開発した。 オブザーバ・then-decide 体制では、動的透視的最適ポリシーに対する期待された後悔が $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ で有界であることが証明され、$\rho\in(0,1)$ は予算パラメータ、$H$ は地平線の長さ、$S$ と $A$ は状態と行動の数、$T$ はエピソード数である。 ここでは, 平均報酬と平均資源消費関数にアクセスできる静的最適政策に対する後悔は, 高確率で$\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$で有界であることを示す。 資源制約のある在庫管理問題の変種に対して,本手法の数値効率を検証した。

This paper studies a long-term resource allocation problem over multiple periods where each period requires a multi-stage decision-making process. We formulate the problem as an online allocation problem in an episodic finite-horizon constrained Markov decision process with an unknown non-stationary transition function and stochastic non-stationary reward and resource consumption functions. We propose the observe-then-decide regime and improve the existing decide-then-observe regime, while the two settings differ in how the observations and feedback about the reward and resource consumption functions are given to the decision-maker. We develop an online dual mirror descent algorithm that achieves near-optimal regret bounds for both settings. For the observe-then-decide regime, we prove that the expected regret against the dynamic clairvoyant optimal policy is bounded by $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ where $\rho\in(0,1)$ is the budget parameter, $H$ is the length of the horizon, $S$ and $A$ are the numbers of states and actions, and $T$ is the number of episodes. For the decide-then-observe regime, we show that the regret against the static optimal policy that has access to the mean reward and mean resource consumption functions is bounded by $\tilde O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ with high probability. We test the numerical efficiency of our method for a variant of the resource-constrained inventory management problem.
翻訳日:2023-10-19 13:09:14 公開日:2023-10-18
# バイナリ化スペクトル圧縮イメージング

Binarized Spectral Compressive Imaging ( http://arxiv.org/abs/2305.10299v3 )

ライセンス: Link先を確認
Yuanhao Cai, Yuxin Zheng, Jing Lin, Xin Yuan, Yulun Zhang, Haoqian Wang(参考訳) ハイパースペクトル画像(hsi)再構成のための既存のディープラーニングモデルは優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。 したがって、これらの方法はリソース制限のあるモバイルデバイスにはほとんどデプロイできない。 本稿では, 圧縮圧縮画像(SCI)システムにおいて, 圧縮計測からHSIを効率よく, 実用的に復元する新しい手法であるBiSRNetを提案する。 まず、小型で展開が容易なベースモデルを再設計し、バイナライズする。 次に、基本単位、二元化スペクトル再分配畳み込み(bisr-conv)を示す。 BiSR-Conv はバイナライズアクティベーション前に HSI 表現を適応的に再分割し、拡張性のある双曲型タンジェント関数を用いてバックプロパゲーションにおいて符号関数を近似する。 BiSR-Convに基づいて、4つの二項化畳み込みモジュールをカスタマイズし、次元ミスマッチに対処し、ネットワーク全体の全精度情報を伝達する。 最後に、bisrnet はベースモデルを二元化するために提案手法を用いて導出する。 包括的定量的および定性的な実験により,提案したBiSRNetは最先端のバイナライゼーション手法より優れ,完全精度のアルゴリズムで同等の性能を発揮することが示された。 コードとモデルはhttps://github.com/caiyuanhao1998/BiSCIとhttps://github.com/caiyuanhao1998/MSTで公開されている。

Existing deep learning models for hyperspectral image (HSI) reconstruction achieve good performance but require powerful hardwares with enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited mobile devices. In this paper, we propose a novel method, Binarized Spectral-Redistribution Network (BiSRNet), for efficient and practical HSI restoration from compressed measurement in snapshot compressive imaging (SCI) systems. Firstly, we redesign a compact and easy-to-deploy base model to be binarized. Then we present the basic unit, Binarized Spectral-Redistribution Convolution (BiSR-Conv). BiSR-Conv can adaptively redistribute the HSI representations before binarizing activation and uses a scalable hyperbolic tangent function to closer approximate the Sign function in backpropagation. Based on our BiSR-Conv, we customize four binarized convolutional modules to address the dimension mismatch and propagate full-precision information throughout the whole network. Finally, our BiSRNet is derived by using the proposed techniques to binarize the base model. Comprehensive quantitative and qualitative experiments manifest that our proposed BiSRNet outperforms state-of-the-art binarization methods and achieves comparable performance with full-precision algorithms. Code and models are publicly available at https://github.com/caiyuanhao1998/BiSCI and https://github.com/caiyuanhao1998/MST
翻訳日:2023-10-19 13:08:40 公開日:2023-10-18
# cobev: 深さと高さの相補性を備えた3次元物体検出

CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity ( http://arxiv.org/abs/2310.02815v2 )

ライセンス: Link先を確認
Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang(参考訳) 道路カメラによる3D物体検出は、視覚中心の車両の限界を超えて認識範囲を広げ、道路安全を高めるインテリジェント輸送システムにおいて重要な課題である。 これまでの研究では、深度や高さの情報のみを使用することに制限があったが、深さと高さの両方が発見され、実際は相補的である。 深さ特徴は正確な幾何学的手がかりを含むが、高さ特徴は主に高さ間隔の様々なカテゴリーを区別することに焦点を当てており、本質的に意味的な文脈を提供する。 この知見は、深度と高さを統合して堅牢なBEV表現を構築する、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEV(CoBEV)の開発を動機付けている。 本質的には、CoBEVは各ピクセルの深さと高さの分布を推定し、新しく提案された2段階補足的特徴選択(CFS)モジュールを用いてカメラ特徴を3次元空間にリフトする。 また、融合モダルCoBEV教師の以前の知識から検出精度を高めるために、BEV特徴蒸留フレームワークをシームレスに統合する。 We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. カメラモデルの車載apスコアが初めてdair-v2x-iで80%に達した。 ソースコードはhttps://github.com/MasterHow/CoBEVで公開されている。

Roadside camera-driven 3D object detection is a crucial task in intelligent transportation systems, which extends the perception range beyond the limitations of vision-centric vehicles and enhances road safety. While previous studies have limitations in using only depth or height information, we find both depth and height matter and they are in fact complementary. The depth feature encompasses precise geometric cues, whereas the height feature is primarily focused on distinguishing between various categories of height intervals, essentially providing semantic context. This insight motivates the development of Complementary-BEV (CoBEV), a novel end-to-end monocular 3D object detection framework that integrates depth and height to construct robust BEV representations. In essence, CoBEV estimates each pixel's depth and height distribution and lifts the camera features into 3D space for lateral fusion using the newly proposed two-stage complementary feature selection (CFS) module. A BEV feature distillation framework is also seamlessly integrated to further enhance the detection accuracy from the prior knowledge of the fusion-modal CoBEV teacher. We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. For the first time, the vehicle AP score of a camera model reaches 80% on DAIR-V2X-I in terms of easy mode. The source code will be made publicly available at https://github.com/MasterHow/CoBEV.
翻訳日:2023-10-19 13:00:33 公開日:2023-10-18
# MAD Max Beyond Single-Node: 分散システム上での大規模機械学習モデル高速化の実現

MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems ( http://arxiv.org/abs/2310.02784v2 )

ライセンス: Link先を確認
Samuel Hsia, Alicia Golden, Bilge Acun, Newsha Ardalani, Zachary DeVito, Gu-Yeon Wei, David Brooks, Carole-Jean Wu(参考訳) 大規模機械学習(ml)モデルのトレーニングとデプロイは時間がかかり、重要な分散コンピューティング基盤を必要とする。 データセンタ規模のインフラストラクチャ上の実世界の大規模モデルトレーニングに基づいて,gpu時間の14~32%がオーバーラップ処理なしで通信に費やされていることを示した。 通信遅延を最小限に抑えるため,並列化とハードウェア・ソフトウェア共同設計戦略をガイドするアジャイルパフォーマンスモデリングフレームワークを開発した。 最先端のGPUトレーニングハードウェア上で,実世界の大規模MLモデルのスイートを用いて,事前トレーニングシナリオと推論シナリオにおいて,それぞれ2.24倍,5.27倍のスループット向上の可能性を示す。

Training and deploying large machine learning (ML) models is time-consuming and requires significant distributed computing infrastructures. Based on real-world large model training on datacenter-scale infrastructures, we show 14~32% of all GPU hours are spent on communication with no overlapping computation. To minimize the outstanding communication latency, in this work, we develop an agile performance modeling framework to guide parallelization and hardware-software co-design strategies. Using the suite of real-world large ML models on state-of-the-art GPU training hardware, we demonstrate 2.24x and 5.27x throughput improvement potential for pre-training and inference scenarios, respectively.
翻訳日:2023-10-19 13:00:04 公開日:2023-10-18
# 時空間注意に基づく生徒の授業行動検出手法

A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors ( http://arxiv.org/abs/2310.02523v3 )

ライセンス: Link先を確認
Fan Yang(参考訳) 教室ビデオから生徒の行動を正確に検出することは,授業状況の分析と指導効率の向上に有用である。 しかし,学生の行動検出の精度が低いことが問題となっている。 この問題に対処するため,学生の授業行動検出のための時空間注意ベース手法(BDSTA)を提案する。 まず、SlowFastネットワークを使用して、動画から動きと環境情報の特徴マップを生成する。 次に、情報集約、圧縮、刺激プロセスを含む特徴マップに時空間注目モジュールを適用する。 その後、時間、チャネル、空間次元におけるアテンションマップを求め、これらのアテンションマップに基づいてマルチラベル動作分類を行う。 学生の授業行動データセットに存在する長期データ問題を解決するため、学習中のテールクラスデータにより重みを割り当てるために焦点損失関数を改良した。 STSCBという自作教室行動データセットを用いて実験を行った。 SlowFast モデルと比較すると,BDSTA を用いた学生行動分類の精度は8.94 %向上した。

Accurately detecting student behavior from classroom videos is beneficial for analyzing their classroom status and improving teaching efficiency. However, low accuracy in student classroom behavior detection is a prevalent issue. To address this issue, we propose a Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors (BDSTA). Firstly, the SlowFast network is used to generate motion and environmental information feature maps from the video. Then, the spatio-temporal attention module is applied to the feature maps, including information aggregation, compression and stimulation processes. Subsequently, attention maps in the time, channel and space dimensions are obtained, and multi-label behavior classification is performed based on these attention maps. To solve the long-tail data problem that exists in student classroom behavior datasets, we use an improved focal loss function to assign more weight to the tail class data during training. Experimental results are conducted on a self-made student classroom behavior dataset named STSCB. Compared with the SlowFast model, the average accuracy of student behavior classification detection improves by 8.94\% using BDSTA.
翻訳日:2023-10-19 12:59:51 公開日:2023-10-18
# 振動場, 創発重力, 粒子トラップ

Oscillating Fields, Emergent Gravity and Particle Traps ( http://arxiv.org/abs/2310.02311v2 )

ライセンス: Link先を確認
Alexander A. Penin and Aneca Su(参考訳) 急速振動場における荷電粒子の大規模ダイナミクスを研究し、その古典的および量子有効理論記述を定式化する。 有効作用に対する高次摂動結果を示す。 驚くべきことに、この作用は非相対論的粒子の運動に対する一般相対性理論の影響を場空間分布と周波数によって決定される創発的曲率と光の速度の値でモデル化する。 本研究は,荷電粒子トラップおよびフロッケ量子材料の高精度解析と設計を含む,幅広い物理問題に適用可能である。

We study the large-scale dynamics of charged particles in a rapidly oscillating field and formulate its classical and quantum effective theory description. The high-order perturbative results for the effective action are presented. Remarkably, the action models the effects of general relativity on the motion of nonrelativistic particles, with the values of the emergent curvature and speed of light determined by the field spatial distribution and frequency. Our results can be applied to a wide range of physical problems including the high-precision analysis and design of the charged particle traps and Floquet quantum materials.
翻訳日:2023-10-19 12:59:35 公開日:2023-10-18
# エンタングルメントエントロピー計算のための再仮定に基づく量子モンテカルロ

Resummation-based Quantum Monte Carlo for Entanglement Entropy Computation ( http://arxiv.org/abs/2310.01490v3 )

ライセンス: Link先を確認
Menghan Song, Ting-Tung Wang, Zi Yang Meng(参考訳) 最近開発されたSU($N$)スピンとループガスモデルに対する量子モンテカルロ法に基づいて, エンタングルメントエントロピー(EE)を計算し, 効率を大幅に向上させるアルゴリズムResumEEを開発した。 我々のResumEEは、$\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$は2次 R\'enyi EE の指数的に小さい値の評価を、一般的な 2D 量子 SU($N$) スピンモデルに対する$S^{(2)}$ のような多項式精度を持つ重要なサンプリングプロセスに変換する。 提案したS^{(2)}$ 1Dおよび2D SU($2$)ハイゼンベルクスピンシステムの推定器を用いてアルゴリズムをベンチマークし、その優れた性能を明らかにするとともに、2D SU($N$)ハイゼンベルクモデル上でのN'eel-to-VBS遷移のエンタングルメントスケーリングデータを検出する。 我々のResumEEアルゴリズムは、多体系の量子エンタングルメントを正確に評価する重要な問題を解き、高いエンタングルド量子物質に対する共形場理論データへの信頼性の高いアクセスに重要な影響を与える。

Based on the recently developed resummation-based quantum Monte Carlo method for the SU($N$) spin and loop-gas models, we develop a new algorithm, dubbed ResumEE, to compute the entanglement entropy (EE) with greatly enhanced efficiency. Our ResumEE converts the evaluation of the exponentially small value of the $\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$ is the 2nd order R\'enyi EE, to an important sampling process with polynomial accuracy such that the $S^{(2)}$ for a generic 2D quantum SU($N$) spin models can be readily computed without facing the exponential explosion of its variance. We benchmark our algorithm with the previously proposed estimators of $S^{(2)}$ on 1D and 2D SU($2$) Heisenberg spin systems to reveal its superior performance and then use it to detect the entanglement scaling data of the N\'eel-to-VBS transition on 2D SU($N$) Heisenberg model with continuously varying $N$. Our ResumEE algorithm solves the critical problem of precisely evaluating the quantum entanglement in many-body systems and will have a significant impact on reliable access to the conformal field theory data for the highly entangled quantum matter.
翻訳日:2023-10-19 12:59:25 公開日:2023-10-18
# 映像品質評価モデルにおける脆弱性 : 敵対的攻撃の挑戦

Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks ( http://arxiv.org/abs/2309.13609v2 )

ライセンス: Link先を確認
Ao-Xiang Zhang, Yu Ran, Weixuan Tang, Yuan-Gen Wang(参考訳) No-Reference Video Quality Assessment (NR-VQA) は、エンドユーザの視聴体験を改善する上で重要な役割を果たす。 ディープラーニングによって駆動される最近のNR-VQAモデルは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーによる優れたパフォーマンスを実現している。 信頼性が高く実用的な評価システムを構築するには,その堅牢性を評価する必要がある。 しかし、この問題は学術界ではほとんど注目されていない。 本稿では,敵攻撃に対するNR-VQAモデルのロバスト性を評価するための最初の試みを行い,ブラックボックス攻撃に対するパッチベースのランダム検索手法を提案する。 具体的には、品質スコアに対する攻撃効果と対向映像の視覚品質の両方を考慮して、ジャスト・ノーティケータブル・差分(jnd)の制約下で推定品質スコアを誤解させるものとして攻撃問題を定式化する。 このような定式化に基づいて、Score-Reversed Boundary Lossと呼ばれる新しい損失関数は、相手ビデオの予測品質スコアを、その接点から特定のバウンダリへ遠ざけるように設計され、JND制約は厳格な$L_2$と$L_\infty$ノルム制約としてモデル化される。 つまり、ホワイトボックスとブラックボックスの攻撃は、効果的で受け入れがたい方法で起動できる。 ソースコードはhttps://github.com/GZHU-DVL/AttackVQAで入手できる。

No-Reference Video Quality Assessment (NR-VQA) plays an essential role in improving the viewing experience of end-users. Driven by deep learning, recent NR-VQA models based on Convolutional Neural Networks (CNNs) and Transformers have achieved outstanding performance. To build a reliable and practical assessment system, it is of great necessity to evaluate their robustness. However, such issue has received little attention in the academic community. In this paper, we make the first attempt to evaluate the robustness of NR-VQA models against adversarial attacks, and propose a patch-based random search method for black-box attack. Specifically, considering both the attack effect on quality score and the visual quality of adversarial video, the attack problem is formulated as misleading the estimated quality score under the constraint of just-noticeable difference (JND). Built upon such formulation, a novel loss function called Score-Reversed Boundary Loss is designed to push the adversarial video's estimated quality score far away from its ground-truth score towards a specific boundary, and the JND constraint is modeled as a strict $L_2$ and $L_\infty$ norm restriction. By this means, both white-box and black-box attacks can be launched in an effective and imperceptible manner. The source code is available at https://github.com/GZHU-DVL/AttackVQA.
翻訳日:2023-10-19 12:58:55 公開日:2023-10-18
# 神経可塑性モデリングのためのベイズ縦型テンソル応答回帰

Bayesian longitudinal tensor response regression for modeling neuroplasticity ( http://arxiv.org/abs/2309.10065v2 )

ライセンス: Link先を確認
Suprateek Kundu, Alec Reinhardt, Serena Song, Joo Han, M. Lawson Meadows, Bruce Crosson, Venkatagiri Krishnamurthy(参考訳) 縦型神経画像研究の主な関心は、訪問中の治療やその他の要因によるボクセルレベルの神経可塑性の研究である。 しかし、伝統的なvoxel-wiseメソッドにはいくつかの落とし穴があり、これらのアプローチの精度を損なう可能性がある。 本研究では,空間分布ボクセル間の情報をプールし,共変量調整中に有意な変化を推定する,縦型画像データに対するベイズテンソル応答回帰法を提案する。 提案手法はマルコフ連鎖モンテカルロ(mcmc)サンプリングを用いて実装され,低ランク分解を利用して次元を低減し,係数推定時にボクセルの空間配置を保存する。 また、より正確な推論のために後部分布の形状を尊重する継手信頼領域による特徴選択を可能にする。 グループレベルの推論に加えて、個々のレベルの神経可塑性を推測し、パーソナライズされた疾患や回復軌道の検査を可能にする。 ボクセルの回帰に対する予測と特徴選択という手法の利点は、広範囲なシミュレーション研究を通して強調される。 本研究は, ベースラインでの制御介入または意図的治療を行った被験者群から得られた, タスク機能的MRI画像からなる縦断的失語症データセットに適用し, その後の訪問で追跡した。 分析の結果,脳活動の長期的増加が認められたが,意図的治療は短期的な変化を主に生み出し,どちらも局所的に集中していた。 対照的に、voxel-wiseの回帰は、多重度調整後の有意な神経可塑性の検出に失敗した。

A major interest in longitudinal neuroimaging studies involves investigating voxel-level neuroplasticity due to treatment and other factors across visits. However, traditional voxel-wise methods are beset with several pitfalls, which can compromise the accuracy of these approaches. We propose a novel Bayesian tensor response regression approach for longitudinal imaging data, which pools information across spatially-distributed voxels to infer significant changes while adjusting for covariates. The proposed method, which is implemented using Markov chain Monte Carlo (MCMC) sampling, utilizes low-rank decomposition to reduce dimensionality and preserve spatial configurations of voxels when estimating coefficients. It also enables feature selection via joint credible regions which respect the shape of the posterior distributions for more accurate inference. In addition to group level inferences, the method is able to infer individual-level neuroplasticity, allowing for examination of personalized disease or recovery trajectories. The advantages of the proposed approach in terms of prediction and feature selection over voxel-wise regression are highlighted via extensive simulation studies. Subsequently, we apply the approach to a longitudinal Aphasia dataset consisting of task functional MRI images from a group of subjects who were administered either a control intervention or intention treatment at baseline and were followed up over subsequent visits. Our analysis revealed that while the control therapy showed long-term increases in brain activity, the intention treatment produced predominantly short-term changes, both of which were concentrated in distinct localized regions. In contrast, the voxel-wise regression failed to detect any significant neuroplasticity after multiplicity adjustments, which is biologically implausible and implies lack of power.
翻訳日:2023-10-19 12:58:27 公開日:2023-10-18
# ジェネレーティブ・リパインティングによる3dアセットへの新生命の吹き込み

Breathing New Life into 3D Assets with Generative Repainting ( http://arxiv.org/abs/2309.08523v2 )

ライセンス: Link先を確認
Tianfu Wang, Menelaos Kanakis, Konrad Schindler, Luc Van Gool, Anton Obukhov(参考訳) 拡散ベースのテキストから画像へのモデルは、視覚コミュニティ、アーティスト、コンテンツクリエーターから多大な注目を集めた。 これらのモデルの広範な採用は、世代の品質が大幅に向上し、テキストだけでなく様々なモダリティの効率的な条件付けが原因である。 しかし、これらの2Dモデルの豊かな生成前のものを3Dにするのは難しい。 近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。 学習済みの2次元拡散モデルと標準3次元神経放射野のパワーを独立して独立したツールとして検討し,非学習的な方法で協調する能力を示す。 このようなモジュール性には、部分的なアップグレードが容易になるという本質的なメリットがある。 私たちのパイプラインは、テクスチャや非テクスチャのメッシュといった、レガシなレンダリング可能なジオメトリを受け入れ、2d生成的リファインメントと3d一貫性実行ツールのインタラクションをオーケストレーションし、塗装された入力ジオメトリを複数のフォーマットで出力します。 本研究では、ShapeNetSemデータセットから広範囲のオブジェクトやカテゴリについて大規模な研究を行い、質的かつ定量的にアプローチの利点を実証する。 プロジェクトページ: https://www.obukhov.ai/repainting_3d_assets

Diffusion-based text-to-image models ignited immense attention from the vision community, artists, and content creators. Broad adoption of these models is due to significant improvement in the quality of generations and efficient conditioning on various modalities, not just text. However, lifting the rich generative priors of these 2D models into 3D is challenging. Recent works have proposed various pipelines powered by the entanglement of diffusion models and neural fields. We explore the power of pretrained 2D diffusion models and standard 3D neural radiance fields as independent, standalone tools and demonstrate their ability to work together in a non-learned fashion. Such modularity has the intrinsic advantage of eased partial upgrades, which became an important property in such a fast-paced domain. Our pipeline accepts any legacy renderable geometry, such as textured or untextured meshes, orchestrates the interaction between 2D generative refinement and 3D consistency enforcement tools, and outputs a painted input geometry in several formats. We conduct a large-scale study on a wide range of objects and categories from the ShapeNetSem dataset and demonstrate the advantages of our approach, both qualitatively and quantitatively. Project page: https://www.obukhov.ai/repainting_3d_assets
翻訳日:2023-10-19 12:57:56 公開日:2023-10-18
# AP$n$P:未知の異方性スケーリングまたは焦点長を用いた詩推定のための低制約P$n$Pソルバー

AP$n$P: A Less-constrained P$n$P Solver for Pose Estimation with Unknown Anisotropic Scaling or Focal Lengths ( http://arxiv.org/abs/2310.09982v2 )

ライセンス: Link先を確認
Jiaxin Wei, Stefan Leutenegger and Laurent Kneip(参考訳) perspective-$n$-point (p$n$p) は様々な応用におけるポーズ推定の基本的なアルゴリズムである。 本稿では,P$n$P問題に対して,制約を緩和し,正確な3次元座標や完全校正データを必要としない新しいアプローチを提案する。 これをAP$n$Pと呼ぶのは、3次元座標の未知の異方性スケーリング因子や、従来の剛性ポーズに加えて2つの異なる焦点長を扱う能力のためである。 代数的操作と新しいパラメトリゼーションにより、どちらのケースも、回転の順序と異方性スケーリング操作によって自身を区別する類似の形式に変換される。 さらにAP$n$Pは、両方のケースを同じ多項式問題に分解し、Gr\"オブナー基底アプローチを用いて解決する。 シミュレーションと実データの両方の実験結果はAP$n$Pの有効性を示し、いくつかのポーズ推定タスクに対してより柔軟で実用的なソリューションを提供する。 コード:https://github.com/goldoak/APnP。

Perspective-$n$-Point (P$n$P) stands as a fundamental algorithm for pose estimation in various applications. In this paper, we present a new approach to the P$n$P problem with relaxed constraints, eliminating the need for precise 3D coordinates or complete calibration data. We refer to it as AP$n$P due to its ability to handle unknown anisotropic scaling factors of 3D coordinates or alternatively two distinct focal lengths in addition to the conventional rigid pose. Through algebraic manipulations and a novel parametrization, both cases are brought into similar forms that distinguish themselves primarily by the order of a rotation and an anisotropic scaling operation. AP$n$P furthermore brings down both cases to an identical polynomial problem, which is solved using the Gr\"obner basis approach. Experimental results on both simulated and real datasets demonstrate the effectiveness of AP$n$P, providing a more flexible and practical solution to several pose estimation tasks. Code: https://github.com/goldoak/APnP.
翻訳日:2023-10-19 12:51:38 公開日:2023-10-18
# 株価予測における最適技術指標の同定のための特徴選択性能の評価

Evaluation of feature selection performance for identification of best effective technical indicators on stock market price prediction ( http://arxiv.org/abs/2310.09903v3 )

ライセンス: Link先を確認
Fatemeh Moodi, Amir Jahangard-Rafsanjani(参考訳) 技術指標を含む多くの要因が株式市場の予測に与える影響から、最適な指標を選択することが特徴選択である。 特徴選択時のモデルの性能を考慮した特徴選択手法の1つは,ラッパー特徴選択法である。 本研究の目的は, 市場価格を最小限の誤差で予測するために, 特徴選択による最高の株式市場指標の組み合わせを特定することである。 株式市場予測におけるラッパーの特徴選択技術の影響を評価するため,Apple社の過去13年間で,10の推定値と123の技術的指標を持つSFSとSBSについて検討した。 また,提案手法により,3日間の時間ウィンドウで作成したデータを回帰法に適した入力に変換した。 1) 各ラッパー特徴選択法は, 異なる機械学習手法で異なる結果が得られ, それぞれの手法は, 株式市場の特定の技術指標とより相関する。 2)リッジとlrの見積もりだけで,ラッパー特徴の選択方法がsfsとsbsの2つで,市場予測のすべての評価基準で最高の結果を得た。 (3) R2, MSE, RMSE, MAE, MAPE のすべてのR2, MSE, MAPEを併用したリッジ・アンド・LR法は, 市場予測に最適である。 また、MLP回帰法はシークエンシャル・フォワード・セレクション(Sequential Forwards Selection)やMSE(MSE)と共に最高のパフォーマンスを示した。 SVRレグレッションは、SFSとMSEとともに、すべての指標でSVRレグレッションよりも大幅に改善されている。 (4) 異なる評価パラメータを持つ異なるML法により異なる特徴が選択されることが観察された。 (5)ほとんどのML手法では、Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze,ichimokuが使用されている。

Due to the influence of many factors, including technical indicators on stock market prediction, feature selection is important to choose the best indicators. One of the feature selection methods that consider the performance of models during feature selection is the wrapper feature selection method. The aim of this research is to identify a combination of the best stock market indicators through feature selection to predict the stock market price with the least error. In order to evaluate the impact of wrapper feature selection techniques on stock market prediction, in this paper SFS and SBS with 10 estimators and 123 technical indicators have been examined on the last 13 years of Apple Company. Also, by the proposed method, the data created by the 3-day time window were converted to the appropriate input for regression methods. Based on the results observed: (1) Each wrapper feature selection method has different results with different machine learning methods, and each method is more correlated with a specific set of technical indicators of the stock market. (2) Ridge and LR estimates alone, and with two methods of the wrapper feature selection, namely SFS and SBS; They had the best results with all assessment criteria for market forecast. (3)The Ridge and LR method with all the R2, MSE, RMSE, MAE and MAPE have the best stock market prediction results. Also, the MLP Regression Method, along with the Sequential Forwards Selection and the MSE, had the best performance. SVR regression, along with the SFS and the MSE, has improved greatly compared to the SVR regression with all indicators. (4) It was also observed that different features are selected by different ML methods with different evaluation parameters. (5) Most ML methods have used the Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze and Ichimoku indicator.
翻訳日:2023-10-19 12:51:06 公開日:2023-10-18
# 対話型検索の強化:大言語モデルを用いたインフォーマティブクエリ書き換え

Enhancing Conversational Search: Large Language Model-Aided Informative Query Rewriting ( http://arxiv.org/abs/2310.09716v2 )

ライセンス: Link先を確認
Fanghua Ye, Meng Fang, Shenghui Li, Emine Yilmaz(参考訳) クエリ書き換えは、コンテキスト依存のユーザクエリをスタンドアロンのフォームに変換することで、会話検索を強化する上で重要な役割を果たす。 既存のアプローチは主に、人間が書き直したクエリをラベルとして利用して、クエリ書き換えモデルをトレーニングしている。 しかし、人間の書き直しは最適な検索性能のための十分な情報に欠ける可能性がある。 この制限を克服するため、我々は、大きな言語モデル(LLM)をクエリ書き換え子として利用し、よく設計された命令による情報的クエリ書き換えを可能にする。 精巧な書き直しのための4つの重要な特性を定義し、それら全てを命令に組み込む。 さらに、初期クエリ書き換えが可能な場合、LCMの書き換えエディターの役割を導入し、"書き直し-then-edit"プロセスを作成する。 さらに,LLMの書き換え性能を小型モデルに蒸留し,書き換え遅延を低減することを提案する。 qreccデータセットを実験的に評価した結果,特にスパースレトリビュータでは,検索性能が検索性能に比較して大幅に向上することが示された。

Query rewriting plays a vital role in enhancing conversational search by transforming context-dependent user queries into standalone forms. Existing approaches primarily leverage human-rewritten queries as labels to train query rewriting models. However, human rewrites may lack sufficient information for optimal retrieval performance. To overcome this limitation, we propose utilizing large language models (LLMs) as query rewriters, enabling the generation of informative query rewrites through well-designed instructions. We define four essential properties for well-formed rewrites and incorporate all of them into the instruction. In addition, we introduce the role of rewrite editors for LLMs when initial query rewrites are available, forming a "rewrite-then-edit" process. Furthermore, we propose distilling the rewriting capabilities of LLMs into smaller models to reduce rewriting latency. Our experimental evaluation on the QReCC dataset demonstrates that informative query rewrites can yield substantially improved retrieval performance compared to human rewrites, especially with sparse retrievers.
翻訳日:2023-10-19 12:50:32 公開日:2023-10-18
# Edge-InversionNet:エッジデバイス上でのInversionNetの効率的な推論を実現する

Edge-InversionNet: Enabling Efficient Inference of InversionNet on Edge Devices ( http://arxiv.org/abs/2310.09667v2 )

ライセンス: Link先を確認
Zhepeng Wang, Isaacshubhanand Putla, Weiwen Jiang, Youzuo Lin(参考訳) フルウェーブフォームインバージョン(FWI)は、地震データから地下構造を推定するための地球物理学において広く用いられている手法である。 そして、InversionNetは、地震波FWIに適用される最も成功したデータ駆動機械学習モデルの1つである。 しかし、InversionNetを実行するための高いコンピューティングコストは、通常リソース制約のあるエッジデバイスに効率的にデプロイすることを困難にしている。 そこで我々は,inversionnetの軽量化に構造化pruningアルゴリズムを応用し,エッジデバイス上で効率的な推論を実現することを提案する。 また、軽量のInversionNetを動かすためにRaspberry Piでプロトタイプを作りました。 実験の結果,pruned inversionnetは,モデル性能の低下を伴う計算資源の98.2 %削減を達成できることがわかった。

Seismic full waveform inversion (FWI) is a widely used technique in geophysics for inferring subsurface structures from seismic data. And InversionNet is one of the most successful data-driven machine learning models that is applied to seismic FWI. However, the high computing costs to run InversionNet have made it challenging to be efficiently deployed on edge devices that are usually resource-constrained. Therefore, we propose to employ the structured pruning algorithm to get a lightweight version of InversionNet, which can make an efficient inference on edge devices. And we also made a prototype with Raspberry Pi to run the lightweight InversionNet. Experimental results show that the pruned InversionNet can achieve up to 98.2 % reduction in computing resources with moderate model performance degradation.
翻訳日:2023-10-19 12:50:14 公開日:2023-10-18
# 数式生成のための表現木デコード戦略

An Expression Tree Decoding Strategy for Mathematical Equation Generation ( http://arxiv.org/abs/2310.09619v3 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Qingpeng Nong, Zeqi Tan, Yanna Ma, Weiming Lu(参考訳) 自然言語から数学的方程式を生成するには、式間の関係を正確に理解する必要がある。 既存のアプローチはトークンレベルと式レベルの生成に大まかに分類できる。 前者は方程式を数学的言語として扱い、連続して数学トークンを生成する。 式レベルメソッドは、各式を1つずつ生成する。 しかしながら、各式は解決ステップを表しており、これらのステップの間に自然に平行あるいは依存的な関係が存在し、これは現在のシーケンシャルな方法によって無視される。 そこで,木構造を表現レベル生成に統合し,表現ツリー復号戦略を提唱する。 各層で複数の独立した式(リーフノード)を並列にデコードし、レイヤ毎に並列デコード層を繰り返して、他の層に依存するこれらの親ノード式を順次生成する。 さらに、複数の予測を各レイヤのアノテーションに合わせるために、二部マッチングアルゴリズムが採用されている。 実験により, 複素構造を持つこれらの方程式に対して, 本手法は他のベースラインよりも優れることが示された。

Generating mathematical equations from natural language requires an accurate understanding of the relations among math expressions. Existing approaches can be broadly categorized into token-level and expression-level generation. The former treats equations as a mathematical language, sequentially generating math tokens. Expression-level methods generate each expression one by one. However, each expression represents a solving step, and there naturally exist parallel or dependent relations between these steps, which are ignored by current sequential methods. Therefore, we integrate tree structure into the expression-level generation and advocate an expression tree decoding strategy. To generate a tree with expression as its node, we employ a layer-wise parallel decoding strategy: we decode multiple independent expressions (leaf nodes) in parallel at each layer and repeat parallel decoding layer by layer to sequentially generate these parent node expressions that depend on others. Besides, a bipartite matching algorithm is adopted to align multiple predictions with annotations for each layer. Experiments show our method outperforms other baselines, especially for these equations with complex structures.
翻訳日:2023-10-19 12:50:01 公開日:2023-10-18
# LLMトレーニングのための tokenizer Choice: 無視可能か、それとも致命的か?

Tokenizer Choice For LLM Training: Negligible or Crucial? ( http://arxiv.org/abs/2310.08754v3 )

ライセンス: Link先を確認
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max L\"ubbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr(参考訳) LLMの最近の成功は、トレーニングデータセット構成のキュレーション、モデルアーキテクチャとデータセットサイズの拡大、事前トレーニング目標の進歩、トークン化ツールの影響を盲点として残すことで、主に推進されている。 この未探索領域に光を当てると,24個の単言語 LLM と多言語 LLM を2.6B のパラメータスケールで訓練し,異なるトークン化アルゴリズムとパラメータ化を非難することにより,トークン化選択が LLM 下流性能に与える影響を包括的に研究する。 我々の研究は、トークン化ツールの選択が、モデルの下流のパフォーマンス、トレーニング、推論コストに大きな影響を与えることを強調している。 特に、共通トークン化子評価メトリクスの成熟度とパリティは、必ずしもモデルダウンストリームのパフォーマンスを予測するものではないことが分かり、これらのメトリクスをモデルのダウンストリームパフォーマンスの疑わしいプロキシにします。 さらに,ヨーロッパで最も頻度の高い5つの言語で訓練された多言語トークン化器では,英語と比較して語彙サイズが3倍に増大することを示す。 英語のみのトークン化器は多言語 LLM のトレーニングに応用されているが,非効率なトークン化語彙のため,本手法はダウンストリーム性能の悪化と最大68%のトレーニングコストをもたらすことがわかった。

The recent success of LLMs has been predominantly driven by curating the training dataset composition, scaling of model architectures and dataset sizes and advancements in pretraining objectives, leaving tokenizer influence as a blind spot. Shedding light on this underexplored area, we conduct a comprehensive study on the influence of tokenizer choice on LLM downstream performance by training 24 mono- and multilingual LLMs at a 2.6B parameter scale, ablating different tokenizer algorithms and parameterizations. Our studies highlight that the tokenizer choice can significantly impact the model's downstream performance, training and inference costs. In particular, we find that the common tokenizer evaluation metrics fertility and parity are not always predictive of model downstream performance, rendering these metrics a questionable proxy for the model's downstream performance. Furthermore, we show that multilingual tokenizers trained on the five most frequent European languages require vocabulary size increases of factor three in comparison to English. While English-only tokenizers have been applied to the training of multi-lingual LLMs, we find that this approach results in a severe downstream performance degradation and additional training costs of up to 68%, due to an inefficient tokenization vocabulary.
翻訳日:2023-10-19 12:49:46 公開日:2023-10-18
# AcTExplore: 未知のオブジェクトに対するアクティブな触覚探索

AcTExplore: Active Tactile Exploration on Unknown Objects ( http://arxiv.org/abs/2310.08745v2 )

ライセンス: Link先を確認
Amir-Hossein Shahidzadeh and Seong Jong Yoo and Pavan Mantripragada and Chahat Deep Singh and Cornelia Ferm\"uller and Yiannis Aloimonos(参考訳) 触覚探索は、把握や操作といった基本的なロボティクスタスクのオブジェクト構造を理解する上で重要な役割を果たす。 しかし, 触覚センサを用いた物体の探索は, 大規模で未知の環境やセンサの検知範囲が限られているため, 極めて困難である。 そこで本研究では,対象物表面を自動的に探索する大規模物体再構成のための強化学習による能動的触覚探索手法であるAcTExploreを提案する。 十分な探索によって,本アルゴリズムは触覚データを段階的に収集し,オブジェクトの3次元形状を再構築する。 本手法は, 未確認のYCBオブジェクトに対して平均95.97%のIoUカバレッジを達成し, 原始形状でのみ訓練する。 プロジェクトWebページ: https://prg.cs.umd$ $edu/AcTExplore

Tactile exploration plays a crucial role in understanding object structures for fundamental robotics tasks such as grasping and manipulation. However, efficiently exploring such objects using tactile sensors is challenging, primarily due to the large-scale unknown environments and limited sensing coverage of these sensors. To this end, we present AcTExplore, an active tactile exploration method driven by reinforcement learning for object reconstruction at scales that automatically explores the object surfaces in a limited number of steps. Through sufficient exploration, our algorithm incrementally collects tactile data and reconstructs 3D shapes of the objects as well, which can serve as a representation for higher-level downstream tasks. Our method achieves an average of 95.97% IoU coverage on unseen YCB objects while just being trained on primitive shapes. Project Webpage: https://prg.cs.umd$.$edu/AcTExplore
翻訳日:2023-10-19 12:49:21 公開日:2023-10-18
# AI-ロボティクスにおけるセキュリティの考察 : 現状の方法,課題,機会の調査

Security Considerations in AI-Robotics: A Survey of Current Methods, Challenges, and Opportunities ( http://arxiv.org/abs/2310.08565v2 )

ライセンス: Link先を確認
Subash Neupane, Shaswata Mitra, Ivan A. Fernandez, Swayamjit Saha, Sudip Mittal, Jingdao Chen, Nisha Pillai, Shahram Rahimi(参考訳) ロボットと人工知能(AI)は、その誕生以来、巧妙に介入してきた。 今日では、ロボット掃除機から半自動走行車まで、AI-ロボティクスシステムは私たちの日常生活の不可欠な部分となっている。 これらのシステムは、知覚、ナビゲーション、計画、制御という3つの基本的なアーキテクチャ要素に基づいて構築されている。 しかし、ai-ロボティクスシステムの統合は私たちの生活の質を高めていますが、深刻な問題も指摘されています。 AIロボットシステムを構成する物理的なコンポーネント、アルゴリズム、データは悪意あるアクターによって悪用され、恐ろしい結果をもたらす可能性がある。 本稿では,AI-ロボティクスシステムにおけるセキュリティ問題への対処の必要性から,アタックサーフェス,倫理的・法的懸念,ヒューマンロボットインタラクション(HRI)セキュリティの3次元にわたる包括的調査と分類について述べる。 私たちの目標は、ユーザや開発者、その他のステークホルダに、これらの領域に関する総合的な理解を提供し、ai-ロボティクスシステム全体のセキュリティを強化することです。 まず、潜在的な攻撃面を調査し、防御戦略を緩和することから始める。 次に、依存関係や心理的影響などの倫理的問題や、これらのシステムに対する説明責任に関する法的懸念を掘り下げる。 さらに、プライバシー、完全性、安全性、信頼性、説明可能性に関する懸念など、HRIのような新たなトレンドも議論されている。 最後に、このダイナミックで有望な分野における今後の研究方向性の展望を示す。

Robotics and Artificial Intelligence (AI) have been inextricably intertwined since their inception. Today, AI-Robotics systems have become an integral part of our daily lives, from robotic vacuum cleaners to semi-autonomous cars. These systems are built upon three fundamental architectural elements: perception, navigation and planning, and control. However, while the integration of AI-Robotics systems has enhanced the quality our lives, it has also presented a serious problem - these systems are vulnerable to security attacks. The physical components, algorithms, and data that make up AI-Robotics systems can be exploited by malicious actors, potentially leading to dire consequences. Motivated by the need to address the security concerns in AI-Robotics systems, this paper presents a comprehensive survey and taxonomy across three dimensions: attack surfaces, ethical and legal concerns, and Human-Robot Interaction (HRI) security. Our goal is to provide users, developers and other stakeholders with a holistic understanding of these areas to enhance the overall AI-Robotics system security. We begin by surveying potential attack surfaces and provide mitigating defensive strategies. We then delve into ethical issues, such as dependency and psychological impact, as well as the legal concerns regarding accountability for these systems. Besides, emerging trends such as HRI are discussed, considering privacy, integrity, safety, trustworthiness, and explainability concerns. Finally, we present our vision for future research directions in this dynamic and promising field.
翻訳日:2023-10-19 12:49:07 公開日:2023-10-18
# 思考の連鎖を持つ変圧器の表現力

The Expressive Power of Transformers with Chain of Thought ( http://arxiv.org/abs/2310.07923v3 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) 最近の理論研究では、グラフ内の2つのノードが接続されているかどうかの確認や有限状態マシンのシミュレートなど、驚くほど単純な推論の問題が特定されている。 しかし、実際には、トランスフォーマーの推論は「思考の連鎖」または「スクラッチパッド」、すなわち答えの前に中間トークン列の生成と条件を使用することによって改善することができる。 このような中間生成はデコーダのみのトランスフォーマーの計算能力を根本的に拡張するのでしょうか? 答えはイエスであるが、増加量は中間世代の量に大きく依存する。 例えば、対数的な数の復号ステップ(w.r.t. 入力長)を持つ復号器デコーダが標準変圧器の限界をわずかに押し上げるのに対して、線形数の復号器デコーダは、すべての正規言語を認識する明確な新しい能力(標準的な複雑性予想の下で)を付加する。 また, 線形ステップは, トランスフォーマーデコーダを文脈に敏感な言語に保持し, 多項式ステップは多項式時間可解問題のクラスを正確に認識する。 本研究の結果は, トランスフォーマーの思考チェーンの長さが, その推論能力に与える影響を理解するための, 微妙な枠組みを提供する。

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers' reasoning can be improved by allowing them to use a "chain of thought" or "scratchpad", i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps make them recognize exactly the class of polynomial-time solvable problems -- the first exact characterization of a type of transformers in terms of standard complexity classes. Together, our results provide a nuanced framework for understanding how the length of a transformer's chain of thought or scratchpad impacts its reasoning power.
翻訳日:2023-10-19 12:48:42 公開日:2023-10-18
# 統計的観点からの裏口攻撃の非合法化

Demystifying Poisoning Backdoor Attacks from a Statistical Perspective ( http://arxiv.org/abs/2310.10780v2 )

ライセンス: Link先を確認
Ganghua Wang, Xun Xian, Jayanth Srinivasa, Ashish Kundu, Xuan Bi, Mingyi Hong, Jie Ding(参考訳) 現実世界のアプリケーションにおける機械学習への依存の増大は、その安全性の理解と保証の重要性を強調している。 バックドア攻撃は、そのステルス性や深刻な影響により、重大なセキュリティリスクを引き起こす。 このような攻撃は、アクティブトリガーが存在するときに悪意のある振る舞いを起こそうとすると同時に、通常の機能を維持しながら学習モデルにトリガーを埋め込むことを含む。 本稿では, クリーンおよびバックドア試験データにおいて, 妥協モデルの性能向上のために, 一定のトリガを組み込んだバックドア攻撃の有効性について検討した。 先進的な理論は,(1)バックドア攻撃の成功の要因は何か,(2)最も効果的なバックドア攻撃の方向性は何か,(3)人間に知覚できないトリガーが成功するのか,といった,基本的な未解明の課題に対処する。 我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。 また,ベンチマークデータセットと最先端バックドア攻撃シナリオを用いて実験を行い,理論を実証する。

The growing dependence on machine learning in real-world applications emphasizes the importance of understanding and ensuring its safety. Backdoor attacks pose a significant security risk due to their stealthy nature and potentially serious consequences. Such attacks involve embedding triggers within a learning model with the intention of causing malicious behavior when an active trigger is present while maintaining regular functionality without it. This paper evaluates the effectiveness of any backdoor attack incorporating a constant trigger, by establishing tight lower and upper boundaries for the performance of the compromised model on both clean and backdoor test data. The developed theory answers a series of fundamental but previously underexplored problems, including (1) what are the determining factors for a backdoor attack's success, (2) what is the direction of the most effective backdoor attack, and (3) when will a human-imperceptible trigger succeed. Our derived understanding applies to both discriminative and generative models. We also demonstrate the theory by conducting experiments using benchmark datasets and state-of-the-art backdoor attack scenarios.
翻訳日:2023-10-19 12:41:21 公開日:2023-10-18
# LLMの力の調和:ニュース見出し生成のレンズによる人間-AIテキストの共クリーションの評価

Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation through the Lens of News Headline Generation ( http://arxiv.org/abs/2310.10706v2 )

ライセンス: Link先を確認
Zijian Ding, Alison Smith-Renner, Wenjuan Zhang, Joel R. Tetreault, Alejandro Jaimes(参考訳) 筆者らは, LLMによるニュース見出し生成の文脈において, LLMを最大限に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを検討するために, 一般的な人間とAIのインタラクションタイプ(例えば, 誘導システム, システムアウトプットからの選択, 編集後アウトプット)を比較した。 LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデル出力を修正するには人間による制御が必要である。 インタラクションメソッドのうち、モデル出力の導出と選択は、(時間と労力において)最低コストで最も利益を上げた。 さらに、AI支援は、フリーフォーム編集に比べて参加者のコントロールに対する認識を損なうことはなかった。

To explore how humans can best leverage LLMs for writing and how interacting with these models affects feelings of ownership and trust in the writing process, we compared common human-AI interaction types (e.g., guiding system, selecting from system outputs, post-editing outputs) in the context of LLM-assisted news headline generation. While LLMs alone can generate satisfactory news headlines, on average, human control is needed to fix undesirable model outputs. Of the interaction methods, guiding and selecting model output added the most benefit with the lowest cost (in time and effort). Further, AI assistance did not harm participants' perception of control compared to freeform editing.
翻訳日:2023-10-19 12:41:02 公開日:2023-10-18
# 畳み込みニューラルネットワークを用いた超小型試料の品質制御

Quality control using convolutional neural networks applied to samples of very small size ( http://arxiv.org/abs/2310.10608v2 )

ライセンス: Link先を確認
Rallou A. Chatzimichail (1) and Aristides T. Hatjimihail (1) ((1) Hellenic Complex Systems Laboratory, Drama, Greece)(参考訳) 品質管理(QC)における人工ニューラルネットワーク(NN)の適用に関する広範な文献があるが、品質仕様へのプロセスの適合性を監視するためには、少なくとも5つのQC測定が必要である。 非常に小さなサイズのqc測定のサンプルへのニューラルネットワークの適用を検討するために、4つの1次元(1次元)畳み込みニューラルネットワーク(cnns)が設計、訓練、テストされ、nドルの標準正規分布qc測定をシミュレートしたデータセットで1 \leq n \leq 4$でテストされた。 設計したニューラルネットワークは、同じ大きさのサンプルに適用された偽拒絶の確率が等しい統計的qc関数と比較された。 0.2 < |\mu| \leq 6.0 $, $ 1.0 < \sigma \leq 7.0 $, $1.0 < \sigma \leq 7.0 $, 設計されたニューラルネットワークは各統計QC関数より優れていた。 そのため, 2-4 品質制御測定のサンプルに適用した 1-D CNN を用いて, プロセスの不整合の検出確率を, 低コストで品質仕様に高めることができる。

Although there is extensive literature on the application of artificial neural networks (NNs) in quality control (QC), to monitor the conformity of a process to quality specifications, at least five QC measurements are required, increasing the related cost. To explore the application of neural networks to samples of QC measurements of very small size, four one-dimensional (1-D) convolutional neural networks (CNNs) were designed, trained, and tested with datasets of $ n $-tuples of simulated standardized normally distributed QC measurements, for $ 1 \leq n \leq 4$. The designed neural networks were compared to statistical QC functions with equal probabilities for false rejection, applied to samples of the same size. When the $ n $-tuples included at least two QC measurements distributed as $ \mathcal{N}(\mu, \sigma^2) $, where $ 0.2 < |\mu| \leq 6.0 $, and $ 1.0 < \sigma \leq 7.0 $, the designed neural networks outperformed the respective statistical QC functions. Therefore, 1-D CNNs applied to samples of 2-4 quality control measurements can be used to increase the probability of detection of the nonconformity of a process to the quality specifications, with lower cost.
翻訳日:2023-10-19 12:40:45 公開日:2023-10-18
# ゼロショット対話状態追跡の複雑な更新戦略のための大規模言語モデルによる意味解析

Semantic Parsing by Large Language Models for Intricate Updating Strategies of Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2310.10520v2 )

ライセンス: Link先を確認
Yuxiang Wu, Guanting Dong, Weiran Xu(参考訳) Zero-shot Dialogue State Tracking (DST)は、タスク指向対話の取得と注釈付けという課題に対処する。 しかし、DSTは単純なスロットフィリングを超えて、会話の進行に伴って対話状態を追跡する効果的な更新戦略を必要とする。 本稿では、ゼロショットDSTにおける複雑な更新戦略を導入するために、新しいインコンテキスト学習(ICL)手法であるParsingDSTを提案する。 提案手法は,強力な大言語モデル(LLM)を活用してDSTタスクを再構築し,セマンティック解析を中間状態として,元の対話文をJSONに変換する。 また、テキストからJSONへのプロセスにおける戦略の更新の有効性を保証するために、より多くのモジュールを含む新しいフレームワークを設計する。 実験の結果,提案手法はマルチウォズにおける既存のゼロショットdst法よりも優れており,既存のicl法に比べてジョイントゴール精度 (jga) とスロット精度が大幅に向上した。

Zero-shot Dialogue State Tracking (DST) addresses the challenge of acquiring and annotating task-oriented dialogues, which can be time consuming and costly. However, DST extends beyond simple slot-filling and requires effective updating strategies for tracking dialogue state as conversations progress. In this paper, we propose ParsingDST, a new In-Context Learning (ICL) method, to introduce additional intricate updating strategies in zero-shot DST. Our approach reformulates the DST task by leveraging powerful Large Language Models (LLMs) and translating the original dialogue text to JSON through semantic parsing as an intermediate state. We also design a novel framework that includes more modules to ensure the effectiveness of updating strategies in the text-to-JSON process. Experimental results demonstrate that our approach outperforms existing zero-shot DST methods on MultiWOZ, exhibiting significant improvements in Joint Goal Accuracy (JGA) and slot accuracy compared to existing ICL methods.
翻訳日:2023-10-19 12:40:09 公開日:2023-10-18
# あらゆる光子数を作る:結合のない低光子レートでの点滅量子エミッタのダイナミクスへの量子多スペクトルアプローチ

Making Every Photon Count: A Quantum Polyspectra Approach to the Dynamics of Blinking Quantum Emitters at Low Photon Rates Without Binning ( http://arxiv.org/abs/2310.10464v2 )

ライセンス: Link先を確認
M. Sifft, A. Kurzmann, J. Kerski, R. Schott, A. Ludwig, A. D. Wieck, A. Lorke, M. Geller, D. H\"agele(参考訳) 量子エミッターとその対応するマルコフモデルの点滅統計は、生体試料の高分解能顕微鏡やナノオプトエレクトロニクス、その他多くの科学・工学の分野で重要な役割を果たしている。 フルカウント統計やビタビアルゴリズムのような点滅統計を分析する現在の方法は、低い光子率で分解する。 本稿では、最小光子フラックスと測定帯域を制限する光子イベントの通常の結合の両方を必要としない評価手法を提案する。 提案手法は, 連続量子計測理論から最近導入された量子多スペクトル法でモデル化した測定記録の高次スペクトルに基づいている。 この手法を用いることで、半導体量子ドットのオン・オフ切替速度を、標準実験の1000倍、全計数統計のスキームで達成した20倍の光レベルで決定することができる。 このように、単一の光子隠れマルコフモデルのパラメータ学習タスクに対する非常に強力な高帯域幅アプローチが、科学の多くの分野に応用されている。

The blinking statistics of quantum emitters and their corresponding Markov models play an important role in high resolution microscopy of biological samples as well as in nano-optoelectronics and many other fields of science and engineering. Current methods for analyzing the blinking statistics like the full counting statistics or the Viterbi algorithm break down for low photon rates. We present an evaluation scheme that eliminates the need for both a minimum photon flux and the usual binning of photon events which limits the measurement bandwidth. Our approach is based on higher order spectra of the measurement record which we model within the recently introduced method of quantum polyspectra from the theory of continuous quantum measurements. By virtue of this approach we can determine on- and off-switching rates of a semiconductor quantum dot at light levels 1000 times lower than in a standard experiment and 20 times lower than achieved with a scheme from full counting statistics. Thus a very powerful high-bandwidth approach to the parameter learning task of single photon hidden Markov models has been established with applications in many fields of science.
翻訳日:2023-10-19 12:39:50 公開日:2023-10-18
# 大規模言語モデルによる微粒なシーングラフの生成

Weakly Supervised Fine-grained Scene Graph Generation via Large Language Model ( http://arxiv.org/abs/2310.10404v2 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park(参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 そこで,WSSGGの研究は,画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)字幕中のきめ細かい述語を好ましくなく粗い述語に変換して長尾述語分布にするキャプションから三重項を抽出する際に意味的な単純化の問題が発生する。 2 低密度シーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスに整列させ、監督が不十分な場合に発生する。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数ショット学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2023-10-19 12:38:37 公開日:2023-10-18
# TransOM: LLM訓練のための高効率耐故障性システム

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs ( http://arxiv.org/abs/2310.10046v3 )

ライセンス: Link先を確認
Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo, Tieyao Xiang, Yuheng Chen, Shigang Li(参考訳) chatgptに代表される数百億ないし数兆のパラメータを持つ大規模言語モデル(llm)は、さまざまな分野に大きな影響を与えている。 しかし、超大規模パラメータでLLMをトレーニングするには、大きな高性能GPUクラスタと長期間のトレーニング期間が必要である。 大規模クラスタで必然的なハードウェアとソフトウェア障害のため、中断のない長期トレーニングを維持することは極めて難しい。 結果として、タスクチェックポイントの保存とロード、タスクの再スケジュールと再起動、タスクマニュアル異常チェックに相当量のトレーニング時間が費やされ、全体的なトレーニング効率に大きく影響する。 これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。 本研究では,TOL(Transom Operator and Launcher)と呼ばれるトレーニングパイプラインの自動耐故障・回復機構,TEE(Transom Eagle Eye)と呼ばれる多次元自動異常検出システム,TCE(Transom Checkpoint Engine)と呼ばれるトレーニングチェックポイント非同期アクセス自動耐故障・回復技術,の3つの重要なサブシステムを設計する。 ここでは、TOLがトレーニングタスクのライフサイクルを管理し、TEEがタスク監視と異常レポートを担当します。 TEEはトレーニング異常を検出してTOLに報告し、障害耐性戦略を入力して異常ノードを排除し、トレーニングタスクを再起動する。 TCEが提供する非同期チェックポイントの保存とロード機能は、フォールトトレランスのオーバーヘッドを大幅に短縮します。 実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。 具体的には, GPT3-175Bの事前学習時間を28%削減し, チェックポイントの保存およびロード性能は20。

Large language models (LLMs) with hundreds of billions or trillions of parameters, represented by chatGPT, have achieved profound impact on various fields. However, training LLMs with super-large-scale parameters requires large high-performance GPU clusters and long training periods lasting for months. Due to the inevitable hardware and software failures in large-scale clusters, maintaining uninterrupted and long-duration training is extremely challenging. As a result, A substantial amount of training time is devoted to task checkpoint saving and loading, task rescheduling and restart, and task manual anomaly checks, which greatly harms the overall training efficiency. To address these issues, we propose TRANSOM, a novel fault-tolerant LLM training system. In this work, we design three key subsystems: the training pipeline automatic fault tolerance and recovery mechanism named Transom Operator and Launcher (TOL), the training task multi-dimensional metric automatic anomaly detection system named Transom Eagle Eye (TEE), and the training checkpoint asynchronous access automatic fault tolerance and recovery technology named Transom Checkpoint Engine (TCE). Here, TOL manages the lifecycle of training tasks, while TEE is responsible for task monitoring and anomaly reporting. TEE detects training anomalies and reports them to TOL, who automatically enters the fault tolerance strategy to eliminate abnormal nodes and restart the training task. And the asynchronous checkpoint saving and loading functionality provided by TCE greatly shorten the fault tolerance overhead. The experimental results indicate that TRANSOM significantly enhances the efficiency of large-scale LLM training on clusters. Specifically, the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint saving and loading performance have improved by a factor of 20.
翻訳日:2023-10-19 12:37:38 公開日:2023-10-18
# EvalCrafter: 大規模なビデオ生成モデルのベンチマークと評価

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models ( http://arxiv.org/abs/2310.11440v2 )

ライセンス: Link先を確認
Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan(参考訳) ビジョンと言語生成モデルは近年、過剰な成長を遂げている。 ビデオ生成では、様々なオープンソースモデルと、高画質ビデオを生成するパブリックサービスが提供される。 しかし、これらの手法は、FVDやISといったいくつかの学術的指標を使って性能を評価することが多い。 これらのモデルはしばしば、多視点能力を持つ非常に大きなデータセットで訓練されているため、単純な指標から大きな条件生成モデルを判断することは困難である。 そこで本研究では,生成したビデオの性能を徹底的に評価する新しいフレームワークとパイプラインを提案する。 これを実現するために,まず,実世界のプロンプトリストを大規模言語モデルを用いて解析し,テキスト対ビデオ生成のための新しいプロンプトリストを作成する。 そこで本研究では,映像品質,コンテンツ品質,モーション品質,テキスト・キャプチャアライメントについて,約18の客観的指標を用いて,注意深く設計したベンチマークを用いて,最先端のビデオ生成モデルを評価する。 モデルの最終的なリーダーボードを得るためには,客観的な指標をユーザの意見に合わせるために,一連の係数を適合させる。 提案手法に基づいて,提案手法の有効性を示した結果,評価値の平均値よりも高い相関性を示した。

The vision and language generative models have been overgrown in recent years. For video generation, various open-sourced models and public-available services are released for generating high-visual quality videos. However, these methods often use a few academic metrics, for example, FVD or IS, to evaluate the performance. We argue that it is hard to judge the large conditional generative models from the simple metrics since these models are often trained on very large datasets with multi-aspect abilities. Thus, we propose a new framework and pipeline to exhaustively evaluate the performance of the generated videos. To achieve this, we first conduct a new prompt list for text-to-video generation by analyzing the real-world prompt list with the help of the large language model. Then, we evaluate the state-of-the-art video generative models on our carefully designed benchmarks, in terms of visual qualities, content qualities, motion qualities, and text-caption alignment with around 18 objective metrics. To obtain the final leaderboard of the models, we also fit a series of coefficients to align the objective metrics to the users' opinions. Based on the proposed opinion alignment method, our final score shows a higher correlation than simply averaging the metrics, showing the effectiveness of the proposed evaluation method.
翻訳日:2023-10-19 12:31:41 公開日:2023-10-18
# 人工・生体神経系における解釈可能な視覚特徴の同定

Identifying Interpretable Visual Features in Artificial and Biological Neural Systems ( http://arxiv.org/abs/2310.11431v2 )

ライセンス: Link先を確認
David Klindt, Sophia Sanborn, Francisco Acosta, Fr\'ed\'eric Poitevin, Nina Miolane(参考訳) ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。 しかし、多くのニューロンは$\textit{mixed selectivity}$、すなわち複数の無関係な特徴を表す。 最近の仮説では、自然データにおける解釈可能な特徴の数は、一般に与えられたネットワーク内のニューロンの数よりも大きいため、深層ネットワークの特徴は、例えば複数のニューロンによって非直交軸上に$\textit{superposition}$で表される可能性がある。 したがって、個々のニューロンと一致しない活性化空間において有意義な方向を見つけることができるべきである。 本稿では,(1) ニューロンの解釈可能性に関するヒトの精神物理学的判断の大規模データベースに対して検証される視覚理解可能性の自動定量化手法と,(2)ネットワーク活性化空間における有意な方向を求める手法を提案する。 我々は、これらの手法を利用して、個々のニューロンよりも直感的に有意な畳み込みニューラルネットワークの方向を探索する。 さらに,脳内の3つの視覚的神経応答のデータセットに同じ手法を適用し,その結論が実際の神経データに大きく移行していることから,重ね合わせが脳によって展開される可能性が示唆された。 これはまた、絡み合いとリンクを提供し、人工神経系と生物学的神経系の両方における堅牢で効率的で分解された表現に関する根本的な疑問を提起する。

Single neurons in neural networks are often interpretable in that they represent individual, intuitively meaningful features. However, many neurons exhibit $\textit{mixed selectivity}$, i.e., they represent multiple unrelated features. A recent hypothesis proposes that features in deep networks may be represented in $\textit{superposition}$, i.e., on non-orthogonal axes by multiple neurons, since the number of possible interpretable features in natural data is generally larger than the number of neurons in a given network. Accordingly, we should be able to find meaningful directions in activation space that are not aligned with individual neurons. Here, we propose (1) an automated method for quantifying visual interpretability that is validated against a large database of human psychophysics judgments of neuron interpretability, and (2) an approach for finding meaningful directions in network activation space. We leverage these methods to discover directions in convolutional neural networks that are more intuitively meaningful than individual neurons, as we confirm and investigate in a series of analyses. Moreover, we apply the same method to three recent datasets of visual neural responses in the brain and find that our conclusions largely transfer to real neural data, suggesting that superposition might be deployed by the brain. This also provides a link with disentanglement and raises fundamental questions about robust, efficient and factorized representations in both artificial and biological neural systems.
翻訳日:2023-10-19 12:31:21 公開日:2023-10-18
# 量子制限進行波パラメトリック増幅器のための高速度インダクタンスNbTiN膜

High kinetic inductance NbTiN films for quantum limited travelling wave parametric amplifiers ( http://arxiv.org/abs/2310.11410v2 )

ライセンス: Link先を確認
Federica Mantegazzini (1 and 2), Felix Ahrens (1 and 2), Matteo Borghesi (3 and 4 and 5), Paolo Falferi (1 and 6 and 2), Luca Fasolo (7), Marco Faverzani (3 and 4 and 5), Elena Ferri (4), Danilo Labranca (3 and 4 and 5), Benno Margesin (1 and 2), Renato Mezzena (8 and 2), Roberto Moretti (3 and 4 and 5), Angelo Nucciotti (3 and 4 and 5), Luca Origo (3 and 4 and 5), Andrea Vinante (1 and 6 and 2), Mario Zannoni (3 and 4 and 5), Andrea Giachero (3 and 4 and 5)(参考訳) マイクロ波領域における広帯域幅かつ低ノイズ増幅鎖は、マイクロ波速度インダクタンス検出器(mkid)、トランジッションエッジセンサ(tess)、磁気マイクロカロリメータ(mmcs)、rfキャビティなどの超伝導検出器に基づく量子システムの効率的な読み出しに不可欠である。 3波混合方式で動作したインダクタンス進行波パラメトリック増幅器 (ki-twpas) は, 量子限界に接近する特異なダイナミックレンジと低ノイズ性能を示した。 これらの増幅器は、高速度インダクタンスフィルムの単層を用いて、分散工学により位相整合帯域を制御できる弱分散人工伝送線路として製造することができる。 本研究では,nb80%t20ターゲットを用いたnbtin薄膜の高周波スパッタ成膜過程の最適化を行い,高転移温度を維持しながら高速度インダクタンスを実現することを目的とした。 KI-TWPAの製造に使用するNbTiN薄膜の微細調整パラメータとして, 圧力, 電力, 窒素流量などの異なるスパッタリング条件に関するパラメータランドスケープが検討され, 膜厚が用いられている。 最終結果として,ki-twpaプロトタイプ装置の試作に用いた動力学的インダクタンス8.5 ph/sqのnbtin膜を作製し,有望な増幅性能を示した。

A wide-bandwidth and low-noise amplification chain in the microwave regime is crucial for the efficient read-out of quantum systems based on superconducting detectors, such as Microwave Kinetic Inductance Detectors (MKIDs), Transition Edge Sensors (TESs), Magnetic Microcalorimeters (MMCs), and RF cavities, as well as qubits. Kinetic Inductance Travelling Wave Parametric Amplifiers (KI-TWPAs) operated in a three-wave mixing fashion have demonstrated exceptional dynamic range and low-noise performance, approaching the quantum limit. These amplifiers can be fabricated using a single layer of a high kinetic inductance film as weakly dispersive artificial transmission lines, with the ability to control the phase-matched bandwidth through dispersion engineering. In this study, we present the optimisation of the rf sputter-deposition process of NbTiN films using a Nb80%T20 target, with the goal of achieving precise control over film characteristics, resulting in high kinetic inductance while maintaining a high transition temperature. The parameter landscape related to the different sputtering conditions, such as pressure, power, and nitrogen flow, has been explored and the film thickness has been used as a fine-tuning parameter to adjust the properties of the final NbTiN films used for the fabrication of KI-TWPAs. As a final result, we have obtained a NbTiN film with a kinetic inductance of 8.5 pH/sq which we have exploited to fabricate KI-TWPA prototype devices, showing promising amplification performance.
翻訳日:2023-10-19 12:30:57 公開日:2023-10-18
# アルゴリズムフェアネスにおけるフェアネスサロゲート関数の理解

Understanding Fairness Surrogate Functions in Algorithmic Fairness ( http://arxiv.org/abs/2310.11211v2 )

ライセンス: Link先を確認
Wei Yao, Zhanke Zhou, Zhicong Li, Bo Han, Yong Liu(参考訳) 機械学習アルゴリズムは特定の集団に対して偏りのある予測を示すことが観察されている。 このようなバイアスを最小限の精度で軽減するために、有望なアプローチは、関係する公正定義の代理関数を導入し、制約付き最適化問題を解くことである。 しかし、以前の研究で興味深い問題は、そのような公正な代理関数が不公平な結果をもたらす可能性があることである。 本研究は、この問題を深く理解するために、広く使われている公平性の定義、人口統計学的パリティを例に挙げ、公正性定義と公正な代理関数の間に代理的公正性ギャップがあることを理論的かつ実証的に示す。 ギャップ」は、代理関数がフェアネス定義の適切な代用であるかどうかを直接決定する。 また、「ギャップ」に関する理論的解析と実験結果から、非有界なサロゲート関数は決定境界から遠く離れた点に影響されることが示唆された。 そこで本研究では,厳密で信頼性の高い公平性保証を備えた一般シグモイドサロゲートを提案する。 興味深いことに、この理論は大きなマージンポイントを扱う2つの重要な問題に対する洞察を提供し、よりバランスの取れたデータセットを取得することは公平性にとって有益である。 さらに,「gap」を反復的に削減し,公平性を改善する「バランスド・サーロゲート」と呼ばれる新しい一般アルゴリズムを考案した。 最後に,本手法が実世界の3つのデータセットの公平性を向上することを示す実証的証拠を提供する。

It has been observed that machine learning algorithms exhibit biased predictions against certain population groups. To mitigate such bias while achieving comparable accuracy, a promising approach is to introduce surrogate functions of the concerned fairness definition and solve a constrained optimization problem. However, an intriguing issue in previous work is that such fairness surrogate functions may yield unfair results. In this work, in order to deeply understand this issue, taking a widely used fairness definition, demographic parity as an example, we both theoretically and empirically show that there is a surrogate-fairness gap between the fairness definition and the fairness surrogate function. The "gap" directly determines whether a surrogate function is an appropriate substitute for a fairness definition. Also, the theoretical analysis and experimental results about the "gap" motivate us that the unbounded surrogate functions will be affected by the points far from the decision boundary, which is the large margin points issue investigated in this paper. To address it, we propose the general sigmoid surrogate with a rigorous and reliable fairness guarantee. Interestingly, the theory also provides insights into two important issues that deal with the large margin points as well as obtaining a more balanced dataset are beneficial to fairness. Furthermore, we elaborate a novel and general algorithm called Balanced Surrogate, which iteratively reduces the "gap" to improve fairness. Finally, we provide empirical evidence showing that our methods achieve better fairness performance in three real-world datasets.
翻訳日:2023-10-19 12:30:26 公開日:2023-10-18
# ニューラルネットワーク強化流体流計測による壁面応力ダイナミクスの解明

Uncovering wall-shear stress dynamics from neural-network enhanced fluid flow measurements ( http://arxiv.org/abs/2310.11147v2 )

ライセンス: Link先を確認
Esther Lagemann, Steven L. Brunton and Christian Lagemann(参考訳) 物体の通過や内部を移動する乱流からの摩擦抵抗は、輸送、公共事業インフラ、エネルギー技術、健康といった分野において重要な役割を担っている。 せん断によって引き起こされる摩擦力の直接の尺度として、壁面応力の正確な予測は、民間航空の持続性、資源の保存、炭素の中立性、および血管疾患や癌に対する治療の強化に寄与する。 現代社会にとってこのような重要性はありますが、壁面のストレスダイナミクスを捉えるための十分な実験方法がまだ欠如しています。 本稿では,物理知識を持つ深部光流量推定器を用いた流れ計測から,空間的および時間的分解能に印象的な速度場と壁面応力場を導出する総合的手法を提案する。 導出した流動量の妥当性と物理的正当性は, 関連する流体を包含する合成および実世界の実験データを用いて実証した。

Friction drag from a turbulent fluid moving past or inside an object plays a crucial role in domains as diverse as transportation, public utility infrastructure, energy technology, and human health. As a direct measure of the shear-induced friction forces, an accurate prediction of the wall-shear stress can contribute to sustainability, conservation of resources, and carbon neutrality in civil aviation as well as enhanced medical treatment of vascular diseases and cancer. Despite such importance for our modern society, we still lack adequate experimental methods to capture the instantaneous wall-shear stress dynamics. In this contribution, we present a holistic approach that derives velocity and wall-shear stress fields with impressive spatial and temporal resolution from flow measurements using a deep optical flow estimator with physical knowledge. The validity and physical correctness of the derived flow quantities is demonstrated with synthetic and real-world experimental data covering a range of relevant fluid flows.
翻訳日:2023-10-19 12:29:57 公開日:2023-10-18
# hgcvae:ヘテロジニアスグラフ学習のための生成的および対比的学習の統合

HGCVAE: Integrating Generative and Contrastive Learning for Heterogeneous Graph Learning ( http://arxiv.org/abs/2310.11102v2 )

ライセンス: Link先を確認
Yulan Hu, Zhirui Yang, Sheng Ouyang, Junchen Wan, Fuzheng Zhang, Zhongyuan Wang, Yong Liu(参考訳) 生成的自己教師型学習(SSL)は大きな可能性を示し、グラフ学習への関心が高まっている。 本研究では,ヘテロジニアスグラフ学習(HGL)におけるSSL生成問題について検討する。 ヘテロジニアスグラフに対する以前のSSLアプローチは主にコントラスト学習に依存しており、ヘテロジニアスを捉えるために複雑なビューの設計を必要とする。 しかし、既存の生成SSLメソッドは、HGLの課題に対処するために生成モデルの能力を十分に活用していない。 本稿では,hglを複雑な異種捕獲の負担から解放する,新しいコントラスト変動グラフ自動エンコーダであるhgcvaeを提案する。 複雑な異種性に焦点を当てる代わりに、HGCVAEは生成性SSLの可能性を最大限活用する。 HGCVAEは、対照的な学習と生成的SSLを革新的に統合し、いくつかの重要なイノベーションを導入している。 まず, 差分推論の力を利用して, 比較学習のための高品質な硬質負のサンプルを生成するための進行的メカニズムを用いる。 さらに,効果的かつ安定した学習を実現するための動的マスク戦略を提案する。 さらに,より優れた属性再構成のための基準として,拡張スケールのコサイン誤りを提案する。 HGCVAEは、生成的かつコントラスト的なSSLを組み合わせる最初のステップとして、様々な最先端のベースラインと比較して顕著な結果をもたらし、その優位性を確認する。

Generative self-supervised learning (SSL) has exhibited significant potential and garnered increasing interest in graph learning. In this study, we aim to explore the problem of generative SSL in the context of heterogeneous graph learning (HGL). The previous SSL approaches for heterogeneous graphs have primarily relied on contrastive learning, necessitating the design of complex views to capture heterogeneity. However, existing generative SSL methods have not fully leveraged the capabilities of generative models to address the challenges of HGL. In this paper, we present HGCVAE, a novel contrastive variational graph auto-encoder that liberates HGL from the burden of intricate heterogeneity capturing. Instead of focusing on complicated heterogeneity, HGCVAE harnesses the full potential of generative SSL. HGCVAE innovatively consolidates contrastive learning with generative SSL, introducing several key innovations. Firstly, we employ a progressive mechanism to generate high-quality hard negative samples for contrastive learning, utilizing the power of variational inference. Additionally, we present a dynamic mask strategy to ensure effective and stable learning. Moreover, we propose an enhanced scaled cosine error as the criterion for better attribute reconstruction. As an initial step in combining generative and contrastive SSL, HGCVAE achieves remarkable results compared to various state-of-the-art baselines, confirming its superiority.
翻訳日:2023-10-19 12:29:42 公開日:2023-10-18
# コアビルディングブロック:次世代地理空間GPTアプリケーション

Core Building Blocks: Next Gen Geo Spatial GPT Application ( http://arxiv.org/abs/2310.11029v2 )

ライセンス: Link先を確認
Ashley Fernandez, Swaraj Dube(参考訳) 本稿では,言語モデル,特に大規模言語モデル(LLM)の機能と空間データ処理技術を統合する新しい手法であるMapGPTを提案する。 本稿では,自然言語理解と空間データ分析のギャップを埋めることを目的としたMapGPTを提案する。 LLMと地理空間解析の長所を組み合わせることで、MapGPTは位置ベースのクエリに対するより正確で文脈的に認識された応答を可能にする。 提案手法は,空間情報に特有のトークン化とベクトル表現を活用し,空間データおよびテキストデータに基づくllmの構築を強調する。 また,空間ベクトル表現の生成に関わる課題についても検討する。 さらに,MapGPTにおける計算能力の可能性について考察し,地理空間計算を行い,可視化された出力を得る。 本研究は,MapGPTの構成要素と手法を概説し,自然言語処理アプリケーションにおける空間的データ理解と生成の促進の可能性を明らかにする。

This paper proposes MapGPT which is a novel approach that integrates the capabilities of language models, specifically large language models (LLMs), with spatial data processing techniques. This paper introduces MapGPT, which aims to bridge the gap between natural language understanding and spatial data analysis by highlighting the relevant core building blocks. By combining the strengths of LLMs and geospatial analysis, MapGPT enables more accurate and contextually aware responses to location-based queries. The proposed methodology highlights building LLMs on spatial and textual data, utilizing tokenization and vector representations specific to spatial information. The paper also explores the challenges associated with generating spatial vector representations. Furthermore, the study discusses the potential of computational capabilities within MapGPT, allowing users to perform geospatial computations and obtain visualized outputs. Overall, this research paper presents the building blocks and methodology of MapGPT, highlighting its potential to enhance spatial data understanding and generation in natural language processing applications.
翻訳日:2023-10-19 12:29:18 公開日:2023-10-18
# 隠れターゲット検出の量子限界

Quantum limits of covert target detection ( http://arxiv.org/abs/2310.11013v2 )

ライセンス: Link先を確認
Guo Yao Tham, Ranjith Nair and Mile Gu(参考訳) 隠れたターゲット検出において、アリスは、熱背景放射に埋め込まれた弱反射ターゲットがターゲット領域に存在するかどうかを光学またはマイクロ波プローブで検出し、ターゲットと同一位置にある敵のウィリーに検出されず、アリスに戻ることのない全ての光を集める。 我々はこの問題を現実的な設定で定式化し、ウィリーによる任意の固定レベルにおける絡み付き目標検出におけるアリスの誤差確率性能の量子力学的制限を導出する。 特に、アリスは、与えられた秘密度を維持するためには、プローブ光の最小エネルギーを消費しなければならないが、完全秘密度を維持しながらゼロ誤差確率指数を達成できることを示す。 2モードの真空プローブとガウス分布コヒーレント状態の性能と性能限界を比較した。 また、任意の2つの熱損失チャネルを識別する量子限界と、非通過信号仮定を伴わない非逆量子照明も得られる。

In covert target detection, Alice attempts to send optical or microwave probes to detect whether or not a weakly-reflecting target embedded in thermal background radiation is present in a target region while remaining undetected herself by an adversary Willie who is co-located with the target and collects all the light that does not return to Alice. We formulate this problem in a realistic setting and derive quantum-mechanical limits on Alice's error probability performance in entanglement-assisted target detection for any fixed level of her detectability by Willie. In particular, we show that Alice must expend a minimum energy in her probe light to maintain a given covertness level, but is also able to achieve a nonzero error probability exponent while remaining perfectly covert. We compare the performance of two-mode squeezed vacuum probes and Gaussian-distributed coherent states to our performance limits. We also obtain quantum limits for discriminating any two thermal loss channels and for non-adversarial quantum illumination without the no-passive-signature assumption.
翻訳日:2023-10-19 12:29:03 公開日:2023-10-18
# 自律レースにおける限界の達成--強化学習と最適制御

Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning ( http://arxiv.org/abs/2310.10943v2 )

ライセンス: Link先を確認
Yunlong Song, Angel Romero, Matthias Mueller, Vladlen Koltun, Davide Scaramuzza(参考訳) ロボット工学における中心的な疑問は、アジャイルな移動ロボットの制御システムを設計する方法である。 本稿では,この課題を体系的に研究し,自律型ドローンレースという課題に焦点をあてる。 本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。 次に, RL の成功に寄与する根本的要因と OC の制限について検討した。 本研究は, OCに対するRLの基本的な利点は, 目的を最適化することではなく, 目的を最適化することにある。 ocは問題を、インターフェースとして機能する軌道のような明示的な中間表現で計画と制御に分解する。 この分解はコントローラが表現できる動作の範囲を制限し、非モデル化効果に直面すると制御性能が低下する。 対照的に、RLはタスクレベルの目的を直接最適化することができ、ドメインのランダム化を利用してモデルの不確実性に対処し、より堅牢な制御応答の発見を可能にする。 その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。 我々の方針は、標準ワークステーションでのトレーニングの数分で超人的制御を実現した。 この研究はアジャイルロボティクスにおけるマイルストーンを示し、ロボット制御におけるRLとOCの役割に光を当てている。

A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with reinforcement learning (RL) outperformed optimal control (OC) methods in this setting. We then investigated which fundamental factors have contributed to the success of RL or have limited OC. Our study indicates that the fundamental advantage of RL over OC is not that it optimizes its objective better but that it optimizes a better objective. OC decomposes the problem into planning and control with an explicit intermediate representation, such as a trajectory, that serves as an interface. This decomposition limits the range of behaviors that can be expressed by the controller, leading to inferior control performance when facing unmodeled effects. In contrast, RL can directly optimize a task-level objective and can leverage domain randomization to cope with model uncertainty, allowing the discovery of more robust control responses. Our findings allowed us to push an agile drone to its maximum performance, achieving a peak acceleration greater than 12 times the gravitational acceleration and a peak velocity of 108 kilometers per hour. Our policy achieved superhuman control within minutes of training on a standard workstation. This work presents a milestone in agile robotics and sheds light on the role of RL and OC in robot control.
翻訳日:2023-10-19 12:28:45 公開日:2023-10-18
# ジャンプ不連続関数に対するサロゲートアクティブ部分空間

Surrogate Active Subspaces for Jump-Discontinuous Functions ( http://arxiv.org/abs/2310.10907v2 )

ライセンス: Link先を確認
Nathan Wycoff(参考訳) サーロゲートモデリングとアクティブ部分空間は、計算科学と工学における強力なパラダイムとして登場してきた。 このような技術を社会科学の計算モデルに移植することは、離散的なアウトプットを持つエージェントベースのモデルのような不連続なシミュレータを扱う際の制限を大幅に緩和する。 それにもかかわらず、以前の応用研究は、そのような推定子に対するアクティブな部分空間の推測が興味深い結果をもたらすことを示した。 しかし、活性部分空間が勾配によって定義されることを考えると、この手法が不連続なシミュレータに適用されたとき、どの量が見積もられているかは明らかではない。 本稿は、そのような分析を行う際に生じるいくつかの病態を示すことから始める。 これにより、活性部分空間が不連続函数へと拡張され、そのような解析で実際に見積もられているものを明確にする。 また,合成テスト関数に関する数値実験を行い,連続関数および不連続関数上の活性部分空間のガウス過程推定を比較する。 最後に,難民行動のエージェントベースモデルであるfleeに方法論を展開し,アフリカと中東の8つの変位危機においてシミュレーションのパラメータが最も重要であることを示す新たな知見を得た。

Surrogate modeling and active subspaces have emerged as powerful paradigms in computational science and engineering. Porting such techniques to computational models in the social sciences brings into sharp relief their limitations in dealing with discontinuous simulators, such as Agent-Based Models, which have discrete outputs. Nevertheless, prior applied work has shown that surrogate estimates of active subspaces for such estimators can yield interesting results. But given that active subspaces are defined by way of gradients, it is not clear what quantity is being estimated when this methodology is applied to a discontinuous simulator. We begin this article by showing some pathologies that can arise when conducting such an analysis. This motivates an extension of active subspaces to discontinuous functions, clarifying what is actually being estimated in such analyses. We also conduct numerical experiments on synthetic test functions to compare Gaussian process estimates of active subspaces on continuous and discontinuous functions. Finally, we deploy our methodology on Flee, an agent-based model of refugee movement, yielding novel insights into which parameters of the simulation are most important across 8 displacement crises in Africa and the Middle East.
翻訳日:2023-10-19 12:28:24 公開日:2023-10-18
# トランスフォーマーを用いたフリーテキストキーストローク認証:アーキテクチャと損失関数の比較検討

Free-text Keystroke Authentication using Transformers: A Comparative Study of Architectures and Loss Functions ( http://arxiv.org/abs/2310.11640v1 )

ライセンス: Link先を確認
Saleh Momeni and Bagher BabaAli(参考訳) key stroke biometricsは、個人のタイピング行動におけるユニークなパターンを活用して、ユーザ識別と検証に有望なアプローチである。 本稿では,従来のニューラルネットワークの性能を上回って,キーストローク列から情報的特徴を抽出するために自己アテンションを用いたトランスフォーマーネットワークを提案する。 両エンコーダとクロスエンコーダという2つの異なるアーキテクチャを探索し、キーストローク認証の有効性を比較する。 さらに,三重項,バッチオール三重項,wdcl損失,ユークリッド距離,マンハッタン距離,コサイン距離などの様々な距離指標について検討した。 これらの実験により、トレーニングプロセスを最適化し、モデルの性能を向上させることができる。 提案モデルの評価にはAaltoデスクトップキーストロークデータセットを用いる。 その結果,全トリプルトロスとコサイン距離を持つバイエンコーダアーキテクチャが最良性能を達成し,誤差率は0.0186%であった。 さらに、類似度スコアを計算するための代替アルゴリズムを検討し、精度を高める。 特に、一級サポートベクトルマシンの利用により、Equal Error Rateは印象的な0.0163%に低下する。 本研究の結果から,我々のモデルは従来のフリーテキストキーストローク認証に勝っていることが示された。 これらの結果はキーストローク認証の分野の進展に寄与し,セキュアなユーザ認証システムに対して実用的な意味を持つ。

Keystroke biometrics is a promising approach for user identification and verification, leveraging the unique patterns in individuals' typing behavior. In this paper, we propose a Transformer-based network that employs self-attention to extract informative features from keystroke sequences, surpassing the performance of traditional Recurrent Neural Networks. We explore two distinct architectures, namely bi-encoder and cross-encoder, and compare their effectiveness in keystroke authentication. Furthermore, we investigate different loss functions, including triplet, batch-all triplet, and WDCL loss, along with various distance metrics such as Euclidean, Manhattan, and cosine distances. These experiments allow us to optimize the training process and enhance the performance of our model. To evaluate our proposed model, we employ the Aalto desktop keystroke dataset. The results demonstrate that the bi-encoder architecture with batch-all triplet loss and cosine distance achieves the best performance, yielding an exceptional Equal Error Rate of 0.0186%. Furthermore, alternative algorithms for calculating similarity scores are explored to enhance accuracy. Notably, the utilization of a one-class Support Vector Machine reduces the Equal Error Rate to an impressive 0.0163%. The outcomes of this study indicate that our model surpasses the previous state-of-the-art in free-text keystroke authentication. These findings contribute to advancing the field of keystroke authentication and offer practical implications for secure user verification systems.
翻訳日:2023-10-19 12:19:51 公開日:2023-10-18
# 4K4D:4K解像度でのリアルタイム4Dビュー合成

4K4D: Real-Time 4D View Synthesis at 4K Resolution ( http://arxiv.org/abs/2310.11448v2 )

ライセンス: Link先を確認
Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに合成することを目的とする。 近年,動的ビュー合成法によっては印象的なレンダリング品質が示されている。 しかし、高解像度画像のレンダリングでは、その速度は限られている。 この問題を解決するため、4k4dは、ハードウェアラスタライズをサポートし、前例のないレンダリング速度を実現する4dポイントクラウド表現である。 我々の表現は、4D機能グリッド上に構築されており、ポイントは自然に正規化され、堅牢に最適化できる。 さらに,効率を保ちつつレンダリング品質を大幅に向上させるハイブリッドな外観モデルを設計した。 さらに,rgbビデオから提案モデルを効果的に学習するための微分可能な奥行き剥離アルゴリズムを開発した。 実験では,rtx 4090 gpuを用いた4k解像度で,dnaレンダリングデータセット上で400fps以上,enerf-outdoorデータセットで80fps以上,rtx 4090 gpuで4k解像度でレンダリングできることを示した。 プロジェクトページはhttps://zju3dv.github.io/4k4d/で閲覧できます。

This paper targets high-fidelity and real-time view synthesis of dynamic 3D scenes at 4K resolution. Recently, some methods on dynamic view synthesis have shown impressive rendering quality. However, their speed is still limited when rendering high-resolution images. To overcome this problem, we propose 4K4D, a 4D point cloud representation that supports hardware rasterization and enables unprecedented rendering speed. Our representation is built on a 4D feature grid so that the points are naturally regularized and can be robustly optimized. In addition, we design a novel hybrid appearance model that significantly boosts the rendering quality while preserving efficiency. Moreover, we develop a differentiable depth peeling algorithm to effectively learn the proposed model from RGB videos. Experiments show that our representation can be rendered at over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x faster than previous methods and achieves the state-of-the-art rendering quality. Our project page is available at https://zju3dv.github.io/4k4d/.
翻訳日:2023-10-19 12:16:43 公開日:2023-10-18
# 雲磁気共鳴イメージングシステム:6g時代と人工知能時代

Cloud-Magnetic Resonance Imaging System: In the Era of 6G and Artificial Intelligence ( http://arxiv.org/abs/2310.11641v1 )

ライセンス: Link先を確認
Yirong Zhou, Yanhuang Wu, Yuhan Su, Jing Li, Jianyun Cai, Yongfu You, Di Guo, Xiaobo Qu(参考訳) 磁気共鳴イメージング(MRI)は医療診断において重要な役割を担い、毎年大病院で1ペタバイトの画像データを生成する。 この輝かしいデータストリームは、ネットワーク帯域幅と広範なストレージインフラを必要とする。 さらに、ローカルデータ処理は、かなりのマンパワーとハードウェア投資を必要とする。 異なる医療機関間でのデータ隔離は、クリニックや研究における機関間協力を妨げる。 本研究では,新興分散クラウドコンピューティング,6G帯域幅,エッジコンピューティング,フェデレーション学習,ブロックチェーン技術を統合する,革新的なMRIシステムとその4世代を期待する。 このシステムはCloud-MRIと呼ばれ、MRIデータストレージセキュリティ、送信速度、AIアルゴリズムのメンテナンス、ハードウェアのアップグレード、協調作業の問題を解決することを目的としている。 ワークフローは、k空間生データから医用生データ(ismrmrd)フォーマットの標準磁気共鳴イメージング協会への変換に始まります。 その後、データはクラウドまたはエッジノードにアップロードされ、高速画像再構成、ニューラルネットワークトレーニング、自動分析が行われる。 そして、その成果を診療所や研究機関にシームレスに送信し、診断その他のサービスを行う。 Cloud-MRIシステムは生画像データを保存し、データ損失のリスクを低減し、施設間医療協力を促進し、最終的に診断精度と作業効率を向上させる。

Magnetic Resonance Imaging (MRI) plays an important role in medical diagnosis, generating petabytes of image data annually in large hospitals. This voluminous data stream requires a significant amount of network bandwidth and extensive storage infrastructure. Additionally, local data processing demands substantial manpower and hardware investments. Data isolation across different healthcare institutions hinders cross-institutional collaboration in clinics and research. In this work, we anticipate an innovative MRI system and its four generations that integrate emerging distributed cloud computing, 6G bandwidth, edge computing, federated learning, and blockchain technology. This system is called Cloud-MRI, aiming at solving the problems of MRI data storage security, transmission speed, AI algorithm maintenance, hardware upgrading, and collaborative work. The workflow commences with the transformation of k-space raw data into the standardized Imaging Society for Magnetic Resonance in Medicine Raw Data (ISMRMRD) format. Then, the data are uploaded to the cloud or edge nodes for fast image reconstruction, neural network training, and automatic analysis. Then, the outcomes are seamlessly transmitted to clinics or research institutes for diagnosis and other services. The Cloud-MRI system will save the raw imaging data, reduce the risk of data loss, facilitate inter-institutional medical collaboration, and finally improve diagnostic accuracy and work efficiency.
翻訳日:2023-10-19 12:11:28 公開日:2023-10-18
# 決定木を解釈するための記号言語

A Symbolic Language for Interpreting Decision Trees ( http://arxiv.org/abs/2310.11636v1 )

ライセンス: Link先を確認
Marcelo Arenas, Pablo Barcelo, Diego Bustamente, Jose Caraball, Bernardo Subercaseaux(参考訳) フォーマルな説明可能なAIの最近の発展は、「決定木は容易に解釈可能なモデルであり、決定木で計算的に難しい異なる解釈可能性クエリを示し、実際にそれらを扱う異なる方法を提案する」という民間伝承の主張に異議を唱えている。 それでも、単一の説明可能性クエリやスコアは、すべてのコンテキストとエンドユーザに適した"銀の弾丸"として機能しない。 このことは、様々なクエリを表現できる「解釈可能性言語」の可能性を示しており、エンドユーザが特定のニーズに合わせてクエリを調整できるようになる。 この文脈では、決定木を解釈するためのシンボル言語であるExplainDTを紹介します。 ExplainDTは、私たちがStratiFOILedと呼ぶ一階述語論理の慎重に構築された断片に根ざしています。 StratiFOILedは評価の表現力と複雑さのバランスを保ち、局所的(例:誘惑的、対照的な説明)と大域的(例:特徴の関連性)の両方を計算できるが、NP上のブール階層に残る。 さらに、StratiFOILedクエリは、NP-problemのブール結合として記述できるので、SATソルバへの一定回数の呼び出しで実際にそれらを評価できる。 理論的には, ストラティフレートの表現性と複雑性を深く分析し, 実用的な手法としてストラティフレートクエリを命題式として符号化する最適化実装と, その効率に関する実験的研究を行った。

The recent development of formal explainable AI has disputed the folklore claim that "decision trees are readily interpretable models", showing different interpretability queries that are computationally hard on decision trees, as well as proposing different methods to deal with them in practice. Nonetheless, no single explainability query or score works as a "silver bullet" that is appropriate for every context and end-user. This naturally suggests the possibility of "interpretability languages" in which a wide variety of queries can be expressed, giving control to the end-user to tailor queries to their particular needs. In this context, our work presents ExplainDT, a symbolic language for interpreting decision trees. ExplainDT is rooted in a carefully constructed fragment of first-ordered logic that we call StratiFOILed. StratiFOILed balances expressiveness and complexity of evaluation, allowing for the computation of many post-hoc explanations--both local (e.g., abductive and contrastive explanations) and global ones (e.g., feature relevancy)--while remaining in the Boolean Hierarchy over NP. Furthermore, StratiFOILed queries can be written as a Boolean combination of NP-problems, thus allowing us to evaluate them in practice with a constant number of calls to a SAT solver. On the theoretical side, our main contribution is an in-depth analysis of the expressiveness and complexity of StratiFOILed, while on the practical side, we provide an optimized implementation for encoding StratiFOILed queries as propositional formulas, together with an experimental study on its efficiency.
翻訳日:2023-10-19 12:11:08 公開日:2023-10-18
# アドホックからシステマティックへ:変分量子アルゴリズムにおける離散化PDEにおける一般境界条件の適用戦略

From Ad-Hoc to Systematic: A Strategy for Imposing General Boundary Conditions in Discretized PDEs in variational quantum algorithm ( http://arxiv.org/abs/2310.11764v1 )

ライセンス: Link先を確認
Dingjie Lu (1), Zhao Wang (1), Jun Liu (1), Yangfan Li (1), Wei-Bin Ewe (1), Zhuangjian Liu (1) ((1) Institute of High Performance Computing, Agency for Science, Technology and Research (A*STAR), Singapore)(参考訳) 偏微分方程式(pde)の解法として,ノイズ中規模量子(nisq)デバイスの指数関数パワーを利用する一般量子計算に基づくアルゴリズムを提案する。 この変分量子固有解法(VQE)にインスパイアされたアプローチは、厳密で単純化された境界条件で制約された以前の理想化されたモデル実証を超越する。 任意の境界条件の付与を可能にし、現実のアプリケーションへの可能性と適応性を著しく拡大し、この「アドホックから体系的」な概念を達成する。 本手法は, 4次PDE(Euler-Bernoulli beam)を例に実装し, 4つの異なる境界条件で実効性を示した。 このフレームワークは、問題のサイズに依存しない期待評価を可能にし、量子コンピューティングに固有の指数関数的に成長する状態空間を活用し、例外的なスケーラビリティをもたらす。 この方法は、量子コンピューティングを実用的な工学的応用に適用する方法を舗装する。

We proposed a general quantum-computing-based algorithm that harnesses the exponential power of noisy intermediate-scale quantum (NISQ) devices in solving partial differential equations (PDE). This variational quantum eigensolver (VQE)-inspired approach transcends previous idealized model demonstrations constrained by strict and simplistic boundary conditions. It enables the imposition of arbitrary boundary conditions, significantly expanding its potential and adaptability for real-world applications, achieving this "from ad-hoc to systematic" concept. We have implemented this method using the fourth-order PDE (the Euler-Bernoulli beam) as example and showcased its effectiveness with four different boundary conditions. This framework enables expectation evaluations independent of problem size, harnessing the exponentially growing state space inherent in quantum computing, resulting in exceptional scalability. This method paves the way for applying quantum computing to practical engineering applications.
翻訳日:2023-10-19 11:58:31 公開日:2023-10-18
# 知覚計測・距離・計測

Perceptual Measurements, Distances and Metrics ( http://arxiv.org/abs/2310.11759v1 )

ライセンス: Link先を確認
Jonathan Vacher, Pascal Mamassian(参考訳) 知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。 このようなプロセスは知覚スケールという関数によってモデル化できる。 知覚尺度は、刺激の相対的な差(すなわち、差分スケーリング実験)を比較した心理物理学的な測定から導かれる。 しかし、このアプローチはしばしばモデリングと実験のコミュニティによって見過ごされる。 本稿では, 知覚の確率論的モデルに組み込むことにより, 古典的(空間周波数, 向き) と非古典的物理的変数(テクスチャ間の補間)の知覚スケールを測定することの価値を示す。 まず, 観測者が空間周波数や方向などの不定パラメータの内部表現を持ち, 刺激が高次元であるという仮定は, 理論的な枠組みに従うと矛盾する予測を生じないことを示す。 第2に,測定された知覚尺度は,この枠組みで仮定された伝達関数に対応することを示す。 特に,知覚の基盤となる生成モデルのフィッシャー情報と関連があることを実証し,異なる刺激の生成モデルが与える予測を,いくつかの異なるスケーリング実験で検証する。 我々の主な結論は、知覚スケールは、主に刺激パワースペクトルによって駆動されるということである。 最後に、この知覚スケールの尺度は、画像の知覚幾何学、すなわち画像間の距離ではなく画像間の経路を推定することにより、知覚距離の概念をさらに推し進める手段であることを示す。

Perception is often viewed as a process that transforms physical variables, external to an observer, into internal psychological variables. Such a process can be modeled by a function coined perceptual scale. The perceptual scale can be deduced from psychophysical measurements that consist in comparing the relative differences between stimuli (i.e. difference scaling experiments). However, this approach is often overlooked by the modeling and experimentation communities. Here, we demonstrate the value of measuring the perceptual scale of classical (spatial frequency, orientation) and less classical physical variables (interpolation between textures) by embedding it in recent probabilistic modeling of perception. First, we show that the assumption that an observer has an internal representation of univariate parameters such as spatial frequency or orientation while stimuli are high-dimensional does not lead to contradictory predictions when following the theoretical framework. Second, we show that the measured perceptual scale corresponds to the transduction function hypothesized in this framework. In particular, we demonstrate that it is related to the Fisher information of the generative model that underlies perception and we test the predictions given by the generative model of different stimuli in a set a of difference scaling experiments. Our main conclusion is that the perceptual scale is mostly driven by the stimulus power spectrum. Finally, we propose that this measure of perceptual scale is a way to push further the notion of perceptual distances by estimating the perceptual geometry of images i.e. the path between images instead of simply the distance between those.
翻訳日:2023-10-19 11:58:16 公開日:2023-10-18
# 大規模ASRモデルにおける意図しない記憶とその緩和法

Unintended Memorization in Large ASR Models, and How to Mitigate It ( http://arxiv.org/abs/2310.11739v1 )

ライセンス: Link先を確認
Lun Wang, Om Thakkar, Rajiv Mathews(参考訳) ニューラルネットワークが意図せずトレーニング例を記憶し、プライバシの懸念を引き起こすことはよく知られている。 しかし, 大規模非回帰自動音声認識(ASR)モデルにおける監査記憶は, 硬度校正などの既存手法の計算コストが高いため, 困難である。 本研究では,大規模ASRモデルのメモリ化を余分な計算オーバーヘッドを伴わずに簡易な監査手法を設計する。 具体的には、ランダムに生成した発話を高速化し、典型的な訓練例から学ぶのが難しい音声情報とテキスト情報のマッピングを作成する。 したがって、スペードアップトレーニング例のみの正確な予測は、記憶の明確な証拠となり、それに対応する正確さは記憶の計測に使用できる。 提案手法を用いて,最先端のASRモデルに暗記を示す。 記憶を緩和するために,トレーニング中の勾配クリッピングを試し,最終モデルに対する個々の例の影響を限定した。 実験では,各サンプルの傾きをクリッピングすることで,最大16回のトレーニングセットで,ピーク時の記憶を緩和できることを示す。 さらに,大規模分散トレーニングでは,各計算コアの平均勾配をクリップすることで,中立なモデル品質と計算コストを維持しつつ,強力なプライバシ保護を提供することを示す。

It is well-known that neural networks can unintentionally memorize their training examples, causing privacy concerns. However, auditing memorization in large non-auto-regressive automatic speech recognition (ASR) models has been challenging due to the high compute cost of existing methods such as hardness calibration. In this work, we design a simple auditing method to measure memorization in large ASR models without the extra compute overhead. Concretely, we speed up randomly-generated utterances to create a mapping between vocal and text information that is difficult to learn from typical training examples. Hence, accurate predictions only for sped-up training examples can serve as clear evidence for memorization, and the corresponding accuracy can be used to measure memorization. Using the proposed method, we showcase memorization in the state-of-the-art ASR models. To mitigate memorization, we tried gradient clipping during training to bound the influence of any individual example on the final model. We empirically show that clipping each example's gradient can mitigate memorization for sped-up training examples with up to 16 repetitions in the training set. Furthermore, we show that in large-scale distributed training, clipping the average gradient on each compute core maintains neutral model quality and compute cost while providing strong privacy protection.
翻訳日:2023-10-19 11:57:51 公開日:2023-10-18
# 尾根回帰におけるカーネル学習 : 低ランク解の「自動」収量

Kernel Learning in Ridge Regression "Automatically" Yields Exact Low Rank Solution ( http://arxiv.org/abs/2310.11736v1 )

ライセンス: Link先を確認
Yunlu Chen, Yang Li, Keli Liu, and Feng Ruan(参考訳) 我々は、$(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$\Sigma$の形の核を考える。 このようなカーネルに対しては、予測関数と再生カーネルヒルベルト空間のパラメータ$\Sigma$を同時に最適化するカーネルリッジ回帰問題の変種について検討する。 このカーネルリッジ回帰問題から学んだ$\sigma$の固有空間は、共変量空間のどの方向が予測に重要であるかを教えてくれる。 共変量体が低次元部分空間(中央平均部分空間)を通してのみ応答の非ゼロ説明力を持つと仮定すると、有限標本カーネル学習目標の大域最小化器も高い確率で低ランクであることが分かる。 より正確には、$\Sigma$ の最小化のランクは、中心平均部分空間の次元によって有界な高い確率を持つ。 この現象は、低ランク性の性質は、例えば核標準ペナリゼーションのような$\sigma$の明示的な正則化を使わずに達成されるので興味深い。 本理論は、観測現象と最適化文献から識別可能な低階集合の概念とを対応づける。 群核学習の目的が中心平均部分空間に垂直な任意の方向の最小化子から離れるときに「シャープに」成長するため、有限サンプル解の低ランク性は存在する。

We consider kernels of the form $(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$ parametrized by $\Sigma$. For such kernels, we study a variant of the kernel ridge regression problem which simultaneously optimizes the prediction function and the parameter $\Sigma$ of the reproducing kernel Hilbert space. The eigenspace of the $\Sigma$ learned from this kernel ridge regression problem can inform us which directions in covariate space are important for prediction. Assuming that the covariates have nonzero explanatory power for the response only through a low dimensional subspace (central mean subspace), we find that the global minimizer of the finite sample kernel learning objective is also low rank with high probability. More precisely, the rank of the minimizing $\Sigma$ is with high probability bounded by the dimension of the central mean subspace. This phenomenon is interesting because the low rankness property is achieved without using any explicit regularization of $\Sigma$, e.g., nuclear norm penalization. Our theory makes correspondence between the observed phenomenon and the notion of low rank set identifiability from the optimization literature. The low rankness property of the finite sample solutions exists because the population kernel learning objective grows "sharply" when moving away from its minimizers in any direction perpendicular to the central mean subspace.
翻訳日:2023-10-19 11:57:29 公開日:2023-10-18
# 厳密な時間畳み込みのないマスター方程式の図式表現と非摂動近似

Diagrammatic representation and nonperturbative approximation of exact time-convolutionless master equation ( http://arxiv.org/abs/2310.11729v1 )

ライセンス: Link先を確認
Bing Gu(参考訳) 時間畳み込みのないマスター方程式は、時間局所生成器で開量子系の非マルコフ力学をモデル化するための一般的な枠組みを提供する。 任意の環境と相互作用するオープン量子系に対する正確な時間局所発生器の摂動的拡張のために図式表現を開発し、証明する。 摂動拡大の切断は摂動時間の畳み込みのない量子マスター方程式に繋がる。 さらに, 時間畳み込み生成器をネスト時間順序指数関数として近似する非摂動的手法も導入する。

The time-convolutionless master equation provides a general framework to model non-Markovian dynamics of an open quantum system with a time-local generator. A diagrammatic representation is developed and proven for the perturbative expansion of the exact time-local generator for an open quantum system interacting with arbitrary environments. A truncation of the perturbation expansion leads to the perturbative time-convolutionless quantum master equations. We further introduce a nonperturbative approach that approximates the time-convolutionless generator as a nested time-ordered exponential function.
翻訳日:2023-10-19 11:57:06 公開日:2023-10-18
# 不可視音の普遍的視聴覚シーンへの分離-認識音の分離

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation ( http://arxiv.org/abs/2310.11713v1 )

ライセンス: Link先を確認
Yiyang Su, Ali Vosoughi, Shijian Deng, Yapeng Tian, Chenliang Xu(参考訳) 音声と視覚の音の分離領域はビデオの可視音源を仮定するが、これはカメラの視界を超えた可視音を除外する。 現在の方法は、目に見える手がかりが欠けているような音に苦しむ。 本稿では,Audio-Visual Scene-Aware Separation (AVSA-Sep) フレームワークを紹介する。 可視・可視音のためのセマンティックパーサーと、シーンインフォームド分離のためのセパレータを含む。 AVSA-Sepは、ジョイントトレーニングとクロスモーダルアライメントにより、両方のサウンドタイプをうまく分離する。

The audio-visual sound separation field assumes visible sources in videos, but this excludes invisible sounds beyond the camera's view. Current methods struggle with such sounds lacking visible cues. This paper introduces a novel "Audio-Visual Scene-Aware Separation" (AVSA-Sep) framework. It includes a semantic parser for visible and invisible sounds and a separator for scene-informed separation. AVSA-Sep successfully separates both sound types, with joint training and cross-modal alignment enhancing effectiveness.
翻訳日:2023-10-19 11:56:57 公開日:2023-10-18
# ベクトルデータベースに関する包括的調査:記憶・検索技術,チャレンジ

A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge ( http://arxiv.org/abs/2310.11703v1 )

ライセンス: Link先を確認
Yikun Han, Chunjiang Liu, Pengfei Wang(参考訳) ベクトルデータベースは、従来のDBMSで特徴づけられない高次元データを格納するために使用される。 既存のベクトルデータベースアーキテクチャや新しいデータベースアーキテクチャについて記述する記事は多くはないが、ベクトルデータベースの裏側にあるほぼ近傍の探索問題は長い間研究されてきた。 本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。 本フレームワークの基盤は,ANNS問題,それぞれハッシュベース,ツリーベース,グラフベース,量子化ベースのアプローチを用いて,これらの研究を分類する。 次に,既存のベクトルデータベースの課題について概説する。 最後に,ベクトルデータベースを大規模言語モデルと組み合わせることで,新たな可能性を提供する。

A vector database is used to store high-dimensional data that cannot be characterized by traditional DBMS. Although there are not many articles describing existing or introducing new vector database architectures, the approximate nearest neighbor search problem behind vector databases has been studied for a long time, and considerable related algorithmic articles can be found in the literature. This article attempts to comprehensively review relevant algorithms to provide a general understanding of this booming research area. The basis of our framework categorises these studies by the approach of solving ANNS problem, respectively hash-based, tree-based, graph-based and quantization-based approaches. Then we present an overview of existing challenges for vector databases. Lastly, we sketch how vector databases can be combined with large language models and provide new possibilities.
翻訳日:2023-10-19 11:56:49 公開日:2023-10-18
# AUC-mixup: Mixupによる深部AUCの最大化

AUC-mixup: Deep AUC Maximization with Mixup ( http://arxiv.org/abs/2310.11693v1 )

ライセンス: Link先を確認
Jianzhi Xv, Gang Li and Tianbao Yang(参考訳) 深部AUC最大化(DAM)は、胸部X線分類や皮膚病変分類などの不均衡な医療タスクにおいて顕著に成功したが、正のデータの予測スコアを負のデータから遠ざけるという攻撃的な性質から、小さなデータセットに適用した場合、過度なオーバーフィッティングに悩まされる可能性がある。 本稿では, クロスエントロピー損失に基づくディープラーニング手法の一般化に広く用いられている, 混合データ拡張によるDAMの一般化方法について検討する。 % 限られたデータから生じる過度に適合する問題に対して,モデルの一般化性能を高めるために混合データ拡張を用いることが一般的である。 しかし、AUCは正と負のペアで定義されており、混合データ拡張をDAMアルゴリズムに組み込むのは難しい。 この課題に対処するために、我々はAUCマージン損失を用いてソフトラベルを定式化し、AUC-mixup損失と呼ばれるミックスアップ拡張によって生成されたデータから効果的に学習する。 実験により,提案手法が標準DAM訓練法と比較して不均衡なベンチマークと医用画像データセットに与える影響を実証した。

While deep AUC maximization (DAM) has shown remarkable success on imbalanced medical tasks, e.g., chest X-rays classification and skin lesions classification, it could suffer from severe overfitting when applied to small datasets due to its aggressive nature of pushing prediction scores of positive data away from that of negative data. This paper studies how to improve generalization of DAM by mixup data augmentation -- an approach that is widely used for improving generalization of the cross-entropy loss based deep learning methods. %For overfitting issues arising from limited data, the common approach is to employ mixup data augmentation to boost the models' generalization performance by enriching the training data. However, AUC is defined over positive and negative pairs, which makes it challenging to incorporate mixup data augmentation into DAM algorithms. To tackle this challenge, we employ the AUC margin loss and incorporate soft labels into the formulation to effectively learn from data generated by mixup augmentation, which is referred to as the AUC-mixup loss. Our experimental results demonstrate the effectiveness of the proposed AUC-mixup methods on imbalanced benchmark and medical image datasets compared to standard DAM training methods.
翻訳日:2023-10-19 11:56:34 公開日:2023-10-18
# クラス不均衡を考慮した電力系統短期電圧安定度評価のための変圧器アーキテクチャに基づくディープラーニング

Deep learning based on Transformer architecture for power system short-term voltage stability assessment with class imbalance ( http://arxiv.org/abs/2310.11690v1 )

ライセンス: Link先を確認
Yang Li, Jiting Cao, Yan Xu, Lipeng Zhu, Zhao Yang Dong(参考訳) 既存のデータ駆動型電力系統の短期電圧安定性評価(STVSA)は、推定クラスの平衡入力データにアプローチする。 しかし、実際の応用では、外乱による短期電圧不安定の発生は最小限であり、重大なクラス不均衡問題と分類器の性能の低下に繋がる。 この課題に対処するために,Transformer ベースの STVSA 手法を提案する。 基本変圧器アーキテクチャを利用して, システムの動作状態と結果の安定性結果との相関を反映する分類モデルとして, 安定性評価トランスフォーマ(staat)を開発した。 不均衡データセットの負の影響に対処するために、この研究は、合成データ生成のための勾配ペナルティ(CWGAN-GP)付き条件付きワッサーシュタイン生成逆数ネットワークを用いて、分類器のためのバランスの取れた代表的トレーニングセットの作成を支援する。 半教師付きクラスタリング学習は、短期電圧安定のための統一的定量的基準の欠如に対処するため、クラスタリング品質を向上させるために実装されている。 IEEE 39-busテストシステムの数値実験により, クラス不均衡条件下では, 100:1, ノイズ環境下での頑健な性能を示し, 再生可能エネルギーの浸透量の増加においても一貫した有効性を維持した。 比較結果から、CWGAN-GPは従来のオーバーサンプリング手法よりもバランスのとれたデータセットを生成し、StaTは他のディープラーニングアルゴリズムよりも優れていることが明らかになった。 本研究では,クラス不均衡やデータノイズ問題に直面した実世界のSTVSAアプリケーションに対して,説得力のあるソリューションを提案する。

Most existing data-driven power system short-term voltage stability assessment (STVSA) approaches presume class-balanced input data. However, in practical applications, the occurrence of short-term voltage instability following a disturbance is minimal, leading to a significant class imbalance problem and a consequent decline in classifier performance. This work proposes a Transformer-based STVSA method to address this challenge. By utilizing the basic Transformer architecture, a stability assessment Transformer (StaaT) is developed {as a classification model to reflect the correlation between the operational states of the system and the resulting stability outcomes}. To combat the negative impact of imbalanced datasets, this work employs a conditional Wasserstein generative adversarial network with gradient penalty (CWGAN-GP) for synthetic data generation, aiding in the creation of a balanced, representative training set for the classifier. Semi-supervised clustering learning is implemented to enhance clustering quality, addressing the lack of a unified quantitative criterion for short-term voltage stability. {Numerical tests on the IEEE 39-bus test system extensively demonstrate that the proposed method exhibits robust performance under class imbalances up to 100:1 and noisy environments, and maintains consistent effectiveness even with an increased penetration of renewable energy}. Comparative results reveal that the CWGAN-GP generates more balanced datasets than traditional oversampling methods and that the StaaT outperforms other deep learning algorithms. This study presents a compelling solution for real-world STVSA applications that often face class imbalance and data noise challenges.
翻訳日:2023-10-19 11:56:11 公開日:2023-10-18
# VKIE:ビデオテキストにおけるキー情報抽出の応用

VKIE: The Application of Key Information Extraction on Video Text ( http://arxiv.org/abs/2310.11650v1 )

ライセンス: Link先を確認
Siyu An, Ye Liu, Haoyuan Peng and Di Yin(参考訳) ビデオから構造化された情報を抽出することは、業界内の多くのダウンストリームアプリケーションにとって重要である。 本稿では,ビデオの視覚テキストから階層的な鍵情報を抽出する重要なタスクを定義する。 これを4つのサブタスクに分割し,PipVKIEとUniVKIEという2つの実装ソリューションを導入する。 PipVKIEは4つのサブタスクを連続的に完了し、UniVKIEはすべてのサブタスクを1つのバックボーンに統合することで改善する。 PipVKIE と UniVKIE は、視覚、テキスト、および特徴表現のための座標からのマルチモーダル情報を利用する。 1つのよく定義されたデータセットに対する大規模な実験は、我々のソリューションが優れた性能と効率的な推論速度を達成することを実証している。 コードとデータセットは公開される予定だ。

Extracting structured information from videos is critical for numerous downstream applications in the industry. In this paper, we define a significant task of extracting hierarchical key information from visual texts on videos. To fulfill this task, we decouples it into four subtasks and introduce two implementation solutions called PipVKIE and UniVKIE. PipVKIE sequentially completes the four subtasks in continuous stages, while UniVKIE is improved by unifying all the subtasks into one backbone. Both PipVKIE and UniVKIE leverage multimodal information from vision, text, and coordinates for feature representation. Extensive experiments on one well-defined dataset demonstrate that our solutions can achieve remarkable performance and efficient inference speed. The code and dataset will be publicly available.
翻訳日:2023-10-19 11:55:41 公開日:2023-10-18
# 単一モード導波路およびビームスプリッターに集積した液滴エッチングgaas量子ドットからの高識別性単一光子

Highly indistinguishable single photons from droplet-etched GaAs quantum dots integrated in single-mode waveguides and beamsplitters ( http://arxiv.org/abs/2310.11899v1 )

ライセンス: Link先を確認
Florian Hornung, Ulrich Pfister, Stephanie Bauer, Dee Rocking Cyrlyson's, Dongze Wang, Ponraj Vijayan, Ailton J. Garcia Jr, Saimon Filipe Covre da Silva, Michael Jetter, Simone L. Portalupi, Armando Rastelli, and Peter Michler(参考訳) オンデマンド量子エミッタのフォトニック集積回路(pics)への統合は、近年、量子情報スキームのスケーラブルな実装を約束するなど、多くの注目を集めている。 いくつかの用途において中心となる性質は、放出された光子の区別不能である。 この点において, 液滴エッチングエピタキシーにより得られたGaAs量子ドット (QD) は, 個人および遠隔エミッタの両方に対して, 可視性に近く優れた性能を示す。 したがって、これらのQDをPICに実現することは、非常に魅力的である。 そこで本研究では,PICにおいて必要となる重要な受動素子,すなわち単一モード導波路(WG)とGaAs-QDを一体化して実現し,コヒーレントに制御できるビームスプリッタについて述べる。 本研究では、複数のqdsの励起子線の波長、線幅、減衰時間の統計分布と、共鳴励起による個々のエミッタの量子光学特性について検討した。 ここでは、単光子純度を1-\text{g}^{(2)}(0)=0.929\pm0.009$と、V$_{\text{TPI}}=0.939\pm0.004$の2光子干渉鮮度を2つ連続放出した光子に対して達成する。

The integration of on-demand quantum emitters into photonic integrated circuits (PICs) has drawn much of attention in recent years, as it promises a scalable implementation of quantum information schemes. A central property for several applications is the indistinguishability of the emitted photons. In this regard, GaAs quantum dots (QDs) obtained by droplet etching epitaxy show excellent performances with visibilities close to one for both individual and remote emitters. Therefore, the realization of these QDs into PICs is highly appealing. Here, we show the first implementation in this direction, realizing the key passive elements needed in PICs, i.e. single-mode waveguides (WGs) with integrated GaAs-QDs, which can be coherently controlled, as well as beamsplitters. We study both the statistical distribution of wavelength, linewidth and decay times of the excitonic line of multiple QDs, as well as the quantum optical properties of individual emitters under resonant excitation. Here, we achieve single-photon purities as high as $1-\text{g}^{(2)}(0)=0.929\pm0.009$ as well as two-photon interference visibilities of up to V$_{\text{TPI}}=0.939\pm0.004$ for two consecutively emitted photons.
翻訳日:2023-10-19 11:50:15 公開日:2023-10-18
# 捕捉されたトラフィックトレースからグラフベースのDeep Learningネットワークモデルを構築する

Building a Graph-based Deep Learning network model from captured traffic traces ( http://arxiv.org/abs/2310.11889v1 )

ライセンス: Link先を確認
Carlos G\"uemes-Palau, Miquel Ferriol Galm\'es, Albert Cabellos-Aparicio, Pere Barlet-Ros(参考訳) 現在、アートネットワークモデルの状態は、DES(Disdisrete Event Simulation)に基づいているか、依存している。 DESは非常に正確であるが、計算コストが高く、並列化も困難であり、高性能ネットワークをシミュレートするには実用的ではない。 さらに、シミュレーションシナリオは、実際のネットワークシナリオに存在する複雑さをすべてキャプチャできない。 これらの問題を最小化するための機械学習(ml)技術に基づくネットワークモデルが存在するが、これらのモデルはシミュレーションデータでトレーニングされるため、同じ落とし穴に弱い。 その結果、Graph Neural Networking Challenge 2023では、これらの制限なしにMLベースのネットワークモデルを構築するために使用できる、キャプチャされたトラフィックトレースのデータセットが導入されている。 本稿では,実ネットワークシナリオの複雑度をより正確に把握するためのグラフニューラルネットワーク(gnn)ベースのソリューションを提案する。 これは、キャプチャされたパケットのシーケンスから情報をキャプチャする新しいエンコーディング方法と、物理的ネットワークに存在する依存関係をよりよく表現するための改良されたメッセージパッシングアルゴリズムによって行われる。 提案手法は,未確認のネットワークシナリオを学習し,一般化することができることを示す。

Currently the state of the art network models are based or depend on Discrete Event Simulation (DES). While DES is highly accurate, it is also computationally costly and cumbersome to parallelize, making it unpractical to simulate high performance networks. Additionally, simulated scenarios fail to capture all of the complexities present in real network scenarios. While there exists network models based on Machine Learning (ML) techniques to minimize these issues, these models are also trained with simulated data and hence vulnerable to the same pitfalls. Consequently, the Graph Neural Networking Challenge 2023 introduces a dataset of captured traffic traces that can be used to build a ML-based network model without these limitations. In this paper we propose a Graph Neural Network (GNN)-based solution specifically designed to better capture the complexities of real network scenarios. This is done through a novel encoding method to capture information from the sequence of captured packets, and an improved message passing algorithm to better represent the dependencies present in physical networks. We show that the proposed solution it is able to learn and generalize to unseen captured network scenarios.
翻訳日:2023-10-19 11:49:36 公開日:2023-10-18
# 価値に敏感な対話型エージェント共同設計フレームワーク

The Value-Sensitive Conversational Agent Co-Design Framework ( http://arxiv.org/abs/2310.11848v1 )

ライセンス: Link先を確認
Malak Sadek, Rafael A. Calvo, Celine Mougenot(参考訳) 会話エージェント(CA)は、特に生成的AIと大規模言語モデルの出現に伴い、産業と学術の両方で注目を集めている。 これらのエージェントは一般市民によって広く使われ、多くの重要なユースケースや社会的役割を担っているため、これらのシステムに埋め込まれた価値を考えることが重要である。 この考察には、「これらのエージェントにどの値が埋め込まれるか」や「これらの値が設計されているエージェントにどのように現れるのか」といった質問に答えることが含まれる。 そこで本論文は,価値に敏感なCAの協調設計(共同設計)を可能にするために,VSCA(Value-Sensitive Conversational Agent)フレームワークを提案する。 まず、先行研究で同定された値感受性CAの共設計要件を要約する。 第2に,設計ツールキットへの運用を含め,実用的なフレームワークを提示し,議論する。 このフレームワークは、利害関係者の価値観を導き、CAチームに対してCA実装をガイドするための技術的ユーティリティを持つ3つのアーティファクトの共同設計を促進する。 最後に, 設計ワークショップでフレームワークとツールキットの効果を考察し, プロセスと結果の両方を評価するためのフレームワーク評価プロトコルを提案する。

Conversational agents (CAs) are gaining traction in both industry and academia, especially with the advent of generative AI and large language models. As these agents are used more broadly by members of the general public and take on a number of critical use cases and social roles, it becomes important to consider the values embedded in these systems. This consideration includes answering questions such as 'whose values get embedded in these agents?' and 'how do those values manifest in the agents being designed?' Accordingly, the aim of this paper is to present the Value-Sensitive Conversational Agent (VSCA) Framework for enabling the collaborative design (co-design) of value-sensitive CAs with relevant stakeholders. Firstly, requirements for co-designing value-sensitive CAs which were identified in previous works are summarised here. Secondly, the practical framework is presented and discussed, including its operationalisation into a design toolkit. The framework facilitates the co-design of three artefacts that elicit stakeholder values and have a technical utility to CA teams to guide CA implementation, enabling the creation of value-embodied CA prototypes. Finally, an evaluation protocol for the framework is proposed where the effects of the framework and toolkit are explored in a design workshop setting to evaluate both the process followed and the outcomes produced.
翻訳日:2023-10-19 11:49:03 公開日:2023-10-18
# unanimityのない分類アグリゲーション

Classification Aggregation without Unanimity ( http://arxiv.org/abs/2310.11841v1 )

ライセンス: Link先を確認
Olivier Cailloux, Matthieu Hervouin, Ali I. Ozkes, M. Remzi Sanver(参考訳) 分類は、オブジェクトの集合からカテゴリの集合への全射写像である。 分類集約関数は、分類のすべてのベクトルを単一のベクトルに集約する。 市民の主権と独立の分類集約関数は基本的に独裁制であることを示す。 この不合理性は、すべての一様かつ独立な分類集約関数が独裁的であることを示すManiquet and Mongin (2016) の初期の結果を示している。 この2つの不合理性の関係は、ウィルソンとアローの選好集約における不合理性の関係を想起させる。 さらに,少なくとも3つのカテゴリが存在することにはマニクト・モンジンの不合理性があるが,対象の数が2である場合を除き,2つのカテゴリのケースをカバーする別の証明手法を提案する。 また、2つのカテゴリと2つのオブジェクトの場合には、独立および一様分類アグリゲーション関数を全て同定する。

A classification is a surjective mapping from a set of objects to a set of categories. A classification aggregation function aggregates every vector of classifications into a single one. We show that every citizen sovereign and independent classification aggregation function is essentially a dictatorship. This impossibility implies an earlier result of Maniquet and Mongin (2016), who show that every unanimous and independent classification aggregation function is a dictatorship. The relationship between the two impossibilities is reminiscent to the relationship between Wilson's and Arrow's impossibilities in preference aggregation. Moreover, while the Maniquet-Mongin impossibility rests on the existence of at least three categories, we propose an alternative proof technique that covers the case of two categories, except when the number of objects is also two. We also identify all independent and unanimous classification aggregation functions for the case of two categories and two objects.
翻訳日:2023-10-19 11:48:14 公開日:2023-10-18
# CLARA:音声表現獲得のための多言語コントラスト学習

CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition ( http://arxiv.org/abs/2310.11830v1 )

ライセンス: Link先を確認
Kari A Noriy, Xiaosong Yang, Marcin Budka and Jian Jun Zhang(参考訳) コントラスト学習を用いた多言語音声と音声表現学習のための新しい枠組みを提案する。 サイズのラベル付きデータセットの欠如は、言語間の音声処理研究を妨げている。 コントラスト学習の最近の進歩は、ラベルなしのデータから学ぶための自己教師あり技術を提供する。 データ依存の低減と多様な言語と条件の一般化に動機づけられ,多言語コントラストフレームワークを開発した。 このフレームワークにより、モデルが言語間で共有表現を取得でき、限られたターゲット言語データによる言語間転送が容易になる。 さらに、主観的知覚評価により、音声中の感情的な手がかりを捉えることは困難である。 本研究の目的は,多言語多言語データから表現表現を自己教師付きで学習することで,感情的次元を符号化する音声表現を開発することである。 本手法は,多言語音声データの大規模コーパス上でエンコーダを訓練する。 データ拡張技術はデータセットの拡張に使用される。 対照的な学習アプローチは、正ペア間の合意を最大化し、負ペア間の合意を最小化するモデルを訓練する。 ゼロショットおよび少数ショット条件下での感情認識,音声分類,検索ベンチマークにおいて,提案モデルの最先端性能が実証された。 これは、潜在感情次元を符号化しながら、言語と音響条件をまたいだ共有および一般化された音声表現を得るための効果的なアプローチを提供する。

This paper proposes a novel framework for multilingual speech and sound representation learning using contrastive learning. The lack of sizeable labelled datasets hinders speech-processing research across languages. Recent advances in contrastive learning provide self-supervised techniques to learn from unlabelled data. Motivated by reducing data dependence and improving generalisation across diverse languages and conditions, we develop a multilingual contrastive framework. This framework enables models to acquire shared representations across languages, facilitating cross-lingual transfer with limited target language data. Additionally, capturing emotional cues within speech is challenging due to subjective perceptual assessments. By learning expressive representations from diverse, multilingual data in a self-supervised manner, our approach aims to develop speech representations that encode emotive dimensions. Our method trains encoders on a large corpus of multi-lingual audio data. Data augmentation techniques are employed to expand the dataset. The contrastive learning approach trains the model to maximise agreement between positive pairs and minimise agreement between negative pairs. Extensive experiments demonstrate state-of-the-art performance of the proposed model on emotion recognition, audio classification, and retrieval benchmarks under zero-shot and few-shot conditions. This provides an effective approach for acquiring shared and generalised speech representations across languages and acoustic conditions while encoding latent emotional dimensions.
翻訳日:2023-10-19 11:48:01 公開日:2023-10-18
# 幾何ベクトル場ネットワークを用いたデノボタンパク質の設計

De novo protein design using geometric vector field networks ( http://arxiv.org/abs/2310.11802v1 )

ライセンス: Link先を確認
Weian Mao, Muzhi Zhu, Zheng Sun, Shuaike Shen, Lin Yuanbo Wu, Hao Chen, Chunhua Shen(参考訳) タンパク質拡散のようなイノベーションは、生命科学において重要なトピックであるde novoタンパク質の設計において重要な進歩をもたらした。 これらの方法は通常、原子が存在しない残基のバックボーンフレームをモデル化するためのタンパク質構造エンコーダに依存する。 ほとんどの先行エンコーダは、この文脈では利用できない原子間の角度や距離など、原子的な特徴に依存している。 これまでのところ、ipaのような単純なエンコーダのみが提案されており、フレームモデリングをボトルネックとして公開している。 本研究では,ベクトル場ネットワーク(Vector Field Network, VFN)を用いて,フレームアンコールされた仮想原子の座標間の学習可能なベクトル計算を実現し,フレームのモデリング能力の向上を実現する。 ベクトル計算は線形層と同様に動作し、各入力チャネルはスカラー値の代わりに3次元仮想原子座標を受信する。 ベクトル計算によって出力される多重特徴ベクトルは、アテンションアグリゲーションを介して残余表現と仮想原子座標を更新するために使用される。 VFNはまた、実際の原子をモデリングのための仮想原子として扱うことができ、VFNを潜在的普遍エンコーダとして位置づけることができるため、フレームと原子の両方のモデリングに優れている。 タンパク質の拡散(フレームモデリング)において、VFNはIPAよりも優れた性能を示し、設計可能性(67.04%対53.58%)と多様性(66.54%対51.98%)の両方において優れている。 逆折り畳み(フレームと原子のモデリング)では、VFNは以前のSoTAモデルであるPiFold(54.7%対51.66%)よりもシーケンス回復率が高い。 また,従来のESMベースのSoTA (62.67% vs. 55.65%) をかなり上回り,VFNをESMモデルに装備する方法を提案する。

Innovations like protein diffusion have enabled significant progress in de novo protein design, which is a vital topic in life science. These methods typically depend on protein structure encoders to model residue backbone frames, where atoms do not exist. Most prior encoders rely on atom-wise features, such as angles and distances between atoms, which are not available in this context. Thus far, only several simple encoders, such as IPA, have been proposed for this scenario, exposing the frame modeling as a bottleneck. In this work, we proffer the Vector Field Network (VFN), which enables network layers to perform learnable vector computations between coordinates of frame-anchored virtual atoms, thus achieving a higher capability for modeling frames. The vector computation operates in a manner similar to a linear layer, with each input channel receiving 3D virtual atom coordinates instead of scalar values. The multiple feature vectors output by the vector computation are then used to update the residue representations and virtual atom coordinates via attention aggregation. Remarkably, VFN also excels in modeling both frames and atoms, as the real atoms can be treated as the virtual atoms for modeling, positioning VFN as a potential universal encoder. In protein diffusion (frame modeling), VFN exhibits an impressive performance advantage over IPA, excelling in terms of both designability (67.04% vs. 53.58%) and diversity (66.54% vs. 51.98%). In inverse folding (frame and atom modeling), VFN outperforms the previous SoTA model, PiFold (54.7% vs. 51.66%), on sequence recovery rate. We also propose a method of equipping VFN with the ESM model, which significantly surpasses the previous ESM-based SoTA (62.67% vs. 55.65%), LM-Design, by a substantial margin.
翻訳日:2023-10-19 11:47:31 公開日:2023-10-18
# 物理インフォームドニューラルネットワークの逆学習

Adversarial Training for Physics-Informed Neural Networks ( http://arxiv.org/abs/2310.11789v1 )

ライセンス: Link先を確認
Yao Li, Shengzhu Shi, Zhichang Guo, Boying Wu(参考訳) 物理インフォームドニューラルネットワークは偏微分方程式の解法において大きな可能性を証明している。 しかしながら、ロバスト性が不十分なため、バニラPINNは複雑なPDE、特に急速または発振特性を持つマルチスケールの動作やソリューションの解決において、しばしば課題に直面している。 これらの問題に対処するために, 予測された勾配降下攻撃に基づいて, ピンの対向訓練戦略を提案した。 AT-PINNは、モデルを敵のサンプルで微調整することで、PINNの堅牢性を高め、モデルの故障箇所を正確に識別し、トレーニング中にモデルをこれらの領域に集中させる。 AT-PINNは、時間的初期値の周りの初期コロケーションポイントを選択することで、時間的因果関係による推論を行うこともできる。 我々は,マルチスケール係数の楕円型方程式,マルチピーク解のポアソン方程式,鋭解のバーガース方程式,アレン・カーンの方程式にAT-PINNを実装した。 その結果,atピンは障害領域を効果的に見つけて削減できることがわかった。 さらに、AT-PINNは、敵攻撃による障害領域の配置が障害領域のサイズや分布の複雑さに依存しないため、複雑なPDEを解決するのに適している。

Physics-informed neural networks have shown great promise in solving partial differential equations. However, due to insufficient robustness, vanilla PINNs often face challenges when solving complex PDEs, especially those involving multi-scale behaviors or solutions with sharp or oscillatory characteristics. To address these issues, based on the projected gradient descent adversarial attack, we proposed an adversarial training strategy for PINNs termed by AT-PINNs. AT-PINNs enhance the robustness of PINNs by fine-tuning the model with adversarial samples, which can accurately identify model failure locations and drive the model to focus on those regions during training. AT-PINNs can also perform inference with temporal causality by selecting the initial collocation points around temporal initial values. We implement AT-PINNs to the elliptic equation with multi-scale coefficients, Poisson equation with multi-peak solutions, Burgers equation with sharp solutions and the Allen-Cahn equation. The results demonstrate that AT-PINNs can effectively locate and reduce failure regions. Moreover, AT-PINNs are suitable for solving complex PDEs, since locating failure regions through adversarial attacks is independent of the size of failure regions or the complexity of the distribution.
翻訳日:2023-10-19 11:46:56 公開日:2023-10-18
# 量子スピングラフにおける一般化ファントムヘリックス状態

Generalized phantom helix states in quantum spin graphs ( http://arxiv.org/abs/2310.11786v1 )

ライセンス: Link先を確認
C. H. Zhang, Y. B. Shi, and Z. Song(参考訳) 一般に、サブハミルトンの集合の和は、量子スピン系におけるファントムヘリックス状態のような無絡積状態である場合に限り、それぞれ共通の固有状態を共有することができない。 ここでは、ファントムヘリックス状態を持つスピン1/2 xxz ハイゼンベルク格子系を構築するためのビルディングブロック法(bbm)と呼ばれる手法を提案する。 非エルミート的パリティ時(pt)場と、同退化固有状態を共有するエルミート的dzyaloshinskii-moriya相互作用(dmi)の2種類のxxzダイマーを基本要素として注目する。 これら2つの構成ブロックに基づいて、エネルギーゼロのヘリックス状態をサポートする様々なハイゼンベルク量子スピン系を構築することができる。 基礎となるメカニズムは、退化固有状態の集合の存在である。 さらに、そのような系はキルヒホフの法則のスピンヘリックス状態の集合に対する類似性に従うため、非エルミート場が互いにキャンセルするときに量子スピングラフとして作用することを示した。 さらに,3種類の摂動に対するヘリックス状態の動的応答についても解析および数値解析を行った。 以上の知見は,bethe ansatzアプローチを超える不規則なジオメトリを持つ量子スピン系を研究する方法を提供する。

In general, the summation of a set of sub-Hamiltonians cannot share a common eigenstate of each one, only if it is an unentangled product state, such as a phantom helix state in quantum spin system. Here we present a method, referred to as the building block method (BBM), for constructing possible spin-1/2 XXZ Heisenberg lattice systems possessing phantom helix states. We focus on two types of XXZ dimers as basic elements, with a non-Hermitian parity-time (PT ) field and Hermitian Dzyaloshinskii-Moriya interaction (DMI), which share the same degenerate eigenstates. Based on these two building blocks, one can construct a variety of Heisenberg quantum spin systems, which support helix states with zero energy. The underlying mechanism is the existence of a set of degenerate eigenstates. Furthermore, we show that such systems act as quantum spin graphs since they obey the analogs of Kirchhoff's laws for sets of spin helix states when the non-Hermitian PT fields cancel each other out. In addition, the dynamic response of the helix states for three types of perturbations is also investigated analytically and numerically. Our findings provide a way to study quantum spin systems with irregular geometries beyond the Bethe ansatz approach.
翻訳日:2023-10-19 11:46:34 公開日:2023-10-18
# スピン-1/2三角格子ハイゼンベルクモデルの120^\circ$オーダーの磁化について:DMRG再検討

On the Magnetization of the $120^\circ$ order of the Spin-1/2 Triangular Lattice Heisenberg Model: a DMRG revisit ( http://arxiv.org/abs/2310.11774v1 )

ライセンス: Link先を確認
Jiale Huang, Xiangjian Qian, Mingpu Qin(参考訳) 密度行列再正規化群 (DMRG) を用いたスピン-1/2三角格子ハイゼンベルクモデル (TLHM) における120^\circ$オーダーの磁化問題を再検討する。 このモデルの磁化の正確な決定は数値計算法では困難であり、その値は様々な方法で大きな差異を示す。 このモデルの大規模dmrg計算は、結合次元を$d = 24000$ とし、システム幅を$l_\mathrm{y} = 12$ とすることで行う。 切断誤差を伴う注意深い外挿と適切な有限サイズのスケーリングにより、磁化の保存的な推定を $m_0 = 0.208(8)$ とする。 サイト当たりの基底状態エネルギーは$e_g = -0.5503(8)$である。 この結果は将来,新しい手法の開発に有用なベンチマーク値を提供する。

We revisit the issue about the magnetization of the $120^\circ$ order in the spin-1/2 triangular lattice Heisenberg model (TLHM) with Density Matrix Renormalization Group (DMRG). The accurate determination of the magnetization of this model is challenging for numerical methods and its value exhibits substantial disparities across various methods. We perform a large-scale DMRG calculation of this model by employing bond dimension as large as $D = 24000$ and by studying the system with width as large as $L_\mathrm{y} = 12$. With careful extrapolation with truncation error and suitable finite size scaling, we give a conservative estimation of the magnetization as $M_0 = 0.208(8)$. The ground state energy per site we obtain is $E_g = -0.5503(8)$. Our results provide valuable benchmark values for the development of new methods in the future.
翻訳日:2023-10-19 11:46:10 公開日:2023-10-18
# 生成ai時代の通信aiネイティブシステム - エンジニアリングの視点から

Telecom AI Native Systems in the Age of Generative AI -- An Engineering Perspective ( http://arxiv.org/abs/2310.11770v1 )

ライセンス: Link先を確認
Ricardo Britto, Timothy Murphy, Massimo Iovene, Leif Jonsson, Melike Erol-Kantarci, Benedek Kov\'acs(参考訳) 人工知能(ai)の急速な進歩、特に生成型aiと基礎モデル(fms)は、様々な産業における変革的変化をもたらした。 fmの一種である large language models (llms) は、自然言語処理タスクやコンテンツ生成においてその能力を実証し、ソフトウェア製品やサービスとのインタラクションに革命をもたらした。 この記事では、通信業界におけるFMの統合について検討し、AIがシームレスに通信製品の織物に織り込まれているAIネイティブ通信の概念に光を当てる。 aiネイティブファーストのアプローチの必要性を強調しながら、fmsをソフトウェアライフサイクルに実装することに関連するエンジニアリング上の考慮事項とユニークな課題に目を向ける。 FMの膨大な可能性にもかかわらず、倫理、規制、運用上の課題は、特にミッションクリティカルな通信状況において慎重に考慮する必要がある。 通信業界はAIの力を活用しようとしているので、これらの課題を包括的に理解することは、激しい競争の激しい市場で成長するのに不可欠だ。

The rapid advancements in Artificial Intelligence (AI), particularly in generative AI and foundational models (FMs), have ushered in transformative changes across various industries. Large language models (LLMs), a type of FM, have demonstrated their prowess in natural language processing tasks and content generation, revolutionizing how we interact with software products and services. This article explores the integration of FMs in the telecommunications industry, shedding light on the concept of AI native telco, where AI is seamlessly woven into the fabric of telecom products. It delves into the engineering considerations and unique challenges associated with implementing FMs into the software life cycle, emphasizing the need for AI native-first approaches. Despite the enormous potential of FMs, ethical, regulatory, and operational challenges require careful consideration, especially in mission-critical telecom contexts. As the telecom industry seeks to harness the power of AI, a comprehensive understanding of these challenges is vital to thrive in a fiercely competitive market.
翻訳日:2023-10-19 11:45:54 公開日:2023-10-18
# 非局所静的・動的真空場相関とカシミール-ポルダー相互作用

Nonlocal Static and Dynamical Vacuum Field Correlations and Casimir-Polder Interactions ( http://arxiv.org/abs/2310.11975v1 )

ライセンス: Link先を確認
Roberto Passante and Lucia Rizzuto(参考訳) 本稿では、静止状態と非定常状態の両方において、無質量スカラー場と電磁場の空間場相関のいくつかの側面と特徴について検討し、2体および多体の静的および動的分散相互作用(van der Waals と Casimir-Polder)でどのように現れるかを示す。 まず,非相互作用場の空間場相関を解析し,その非局所的挙動と2体分散相互作用との関係を明らかにする。 次に、原子や一般に偏光性体のような場源の存在によって、まず定常状態で、次に非定常状態から始まる動的状態において、場の相関がどのように修正されるかを検討する。 まず、静止した場合の電界の空間的相関を、基底状態または励起状態の原子の存在下で評価し、その時間発展を初期非定常状態の場合には考慮する。 静止状態と非定常状態の両方において,それらの非局所的特徴を詳細に議論する。 次に, 電場相関の非局所性がファンデルワールスおよびカシミール-ポルダー相互作用において, 静的および動的状況においてどのように現れるかを明示的に示す。 そこで本研究では, 電磁界の非局所的真空場相関の存在と特性を間接的に探究し, 近年の電気光学サンプリング法を利用した空間場相関の観測結果から考察する。 非局所性と因果関係の微妙で興味深い関係についても論じる。

In this review we investigate several aspects and features of spatial field correlations for the massless scalar field and the electromagnetic field, both in stationary and nonstationary conditions, and show how they manifest in two- and many-body static and dynamic dispersion interactions (van der Waals and Casimir-Polder). We initially analyze the spatial field correlations for noninteracting fields, stressing their nonlocal behavior, and their relation to two-body dispersion interactions. We then consider how field correlations are modified by the presence of a field source, such as an atom or in general a polarizable body, firstly in a stationary condition and then in a dynamical condition, starting from a nonstationary state. We first evaluate the spatial field correlation for the electric field in the stationary case, in the presence of a ground-state or excited-state atom, and then we consider its time evolution in the case of an initially nonstationary state. We discuss in detail their nonlocal features, in both stationary and nonstationary conditions. We then explicitly show how the nonlocality of field correlations can manifest itself in van der Waals and Casimir-Polder interactions between atoms, both in static and dynamic situations. We discuss how this can allow to indirectly probe the existence and the properties of nonlocal vacuum field correlations of the electromagnetic field, a research subject of strong actual interest, also in consequence of recent measurements of spatial field correlations exploiting electro-optical sampling techniques. The subtle and intriguing relation between nonlocality and causality is also discussed.
翻訳日:2023-10-19 11:37:40 公開日:2023-10-18
# aTrainをご覧ください。 インタビューのアクセシブルな書き起こしのためのインタフェースの導入

Take the aTrain. Introducing an Interface for the Accessible Transcription of Interviews ( http://arxiv.org/abs/2310.11967v1 )

ライセンス: Link先を確認
Armin Haberl, J\"urgen Flei{\ss}, Dominik Kowald, Stefan Thalmann(参考訳) aTrainは、CPUとNVIDIA GPUをサポートする複数の言語でオーディオデータを記述するための、オープンソースのオフラインツールである。 研究参加者との様々な音声相互作用から生成される定性的データを用いて、研究者向けに特別に設計されている。 aTrainはプログラミングのスキルを必要とせず、ほとんどのコンピュータ上で動作し、インターネット接続を必要としない。 aTrainは、OpenAIのWhisperモデルと話者認識を組み合わせて、一般的な定性的データ分析ソフトウェアツールMAXQDAとATLAS.tiを統合した出力を提供する。 使いやすいグラフィカルインターフェースを持ち、Microsoft Storeを通じてWindows-Appとして提供されており、研究者による簡単なインストールが可能である。 ソースコードはGitHubから無料で入手できる。 ローカルコンピュータの速度に着目したatrainを開発した結果,現在のモバイルcpuの書き起こし時間は,最高精度の書き起こしモデルを用いてオーディオファイルの約2~3倍であることがわかった。 入力レベルのグラフィックカードが利用可能であれば、書き起こし速度は音声の20%に向上する。

aTrain is an open-source and offline tool for transcribing audio data in multiple languages with CPU and NVIDIA GPU support. It is specifically designed for researchers using qualitative data generated from various forms of speech interactions with research participants. aTrain requires no programming skills, runs on most computers, does not require an internet connection, and was verified not to upload data to any server. aTrain combines OpenAI's Whisper model with speaker recognition to provide output that integrates with the popular qualitative data analysis software tools MAXQDA and ATLAS.ti. It has an easy-to-use graphical interface and is provided as a Windows-App through the Microsoft Store allowing for simple installation by researchers. The source code is freely available on GitHub. Having developed aTrain with a focus on speed on local computers, we show that the transcription time on current mobile CPUs is around 2 to 3 times the duration of the audio file using the highest-accuracy transcription models. If an entry-level graphics card is available, the transcription speed increases to 20% of the audio duration.
翻訳日:2023-10-19 11:37:13 公開日:2023-10-18
# 機械学習を用いた衛星のフレキシブルペイロード構成

Flexible Payload Configuration for Satellites using Machine Learning ( http://arxiv.org/abs/2310.11966v1 )

ライセンス: Link先を確認
Marcele O. K. Mendonca, Flor G. Ortiz-Gomez, Jorge Querol, Eva Lagunas, Juan A. V\'asquez Peralvo, Victor Monzon Baeza, Symeon Chatzinotas and Bjorn Ottersten(参考訳) 現代の接続に不可欠な衛星通信は、地上ネットワークが実現不可能な海洋、航空、遠隔地へのアクセスを拡大する。 現在のGEOシステムは、周波数再利用の少ないマルチビームフットプリントを用いて、ビームに電力と帯域幅を均一に分散している。 しかし、最近の研究では、不均一な交通シナリオにおけるこのアプローチの限界が明らかにされており、非効率性につながっている。 そこで本稿では,無線リソース管理(RRM)に対する機械学習(ML)に基づくアプローチを提案する。 rrmタスクを回帰ml問題として扱い、rrmの目的と制約をmlアルゴリズムの最小化を目的とした損失関数に統合する。 さらに,MLモデルの性能を評価する文脈対応のMLメトリクスを導入するとともに,リソース割り当て決定が通信システム全体の性能に与える影響についても検討する。

Satellite communications, essential for modern connectivity, extend access to maritime, aeronautical, and remote areas where terrestrial networks are unfeasible. Current GEO systems distribute power and bandwidth uniformly across beams using multi-beam footprints with fractional frequency reuse. However, recent research reveals the limitations of this approach in heterogeneous traffic scenarios, leading to inefficiencies. To address this, this paper presents a machine learning (ML)-based approach to Radio Resource Management (RRM). We treat the RRM task as a regression ML problem, integrating RRM objectives and constraints into the loss function that the ML algorithm aims at minimizing. Moreover, we introduce a context-aware ML metric that evaluates the ML model's performance but also considers the impact of its resource allocation decisions on the overall performance of the communication system.
翻訳日:2023-10-19 11:36:55 公開日:2023-10-18
# MusicAgent: 大規模言語モデルによる音楽理解と生成のためのAIエージェント

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models ( http://arxiv.org/abs/2310.11954v1 )

ライセンス: Link先を確認
Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian(参考訳) aiによる音楽処理は、生成タスク(音色合成など)から理解タスク(音楽分類など)まで、数十のタスクを包含するさまざまな分野である。 開発者やアマチュアにとって、音楽データの表現の大きな違いや、さまざまなタスクのプラットフォーム間でのモデル適用性を考慮すると、音楽処理の要件を満たすためにこれらのタスクをすべて把握することは極めて困難である。 したがって、これらのタスクを組織化し、統合するシステムを構築し、実践者が自動的に要求を分析し、要求を満たすためのソリューションとして適切なツールを呼び出すのを助ける必要がある。 タスク自動化における大規模言語モデル(LLM)の成功に触発されて,多数の音楽関連ツールとユーザ要求に対応する自律ワークフローを統合したMusicAgentというシステムを開発した。 より具体的に言えば 1) ハグフェイス,github,web apiなど,さまざまなソースからツールを集めたツールセット。 2) LLM(例えばChatGPT)による自律的なワークフローにより、これらのツールを整理し、ユーザ要求を複数のサブタスクに自動的に分解し、対応する音楽ツールを呼び出す。 このシステムの主な目標は、ai音楽ツールの複雑さからユーザーを解放し、創造的な側面に集中させることである。 ツールをシームレスに組み合わせる自由をユーザーに与えることで、シームレスで豊かな音楽体験を提供する。

AI-empowered music processing is a diverse field that encompasses dozens of tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension tasks (e.g., music classification). For developers and amateurs, it is very difficult to grasp all of these task to satisfy their requirements in music processing, especially considering the huge differences in the representations of music data and the model applicability across platforms among various tasks. Consequently, it is necessary to build a system to organize and integrate these tasks, and thus help practitioners to automatically analyze their demand and call suitable tools as solutions to fulfill their requirements. Inspired by the recent success of large language models (LLMs) in task automation, we develop a system, named MusicAgent, which integrates numerous music-related tools and an autonomous workflow to address user requirements. More specifically, we build 1) toolset that collects tools from diverse sources, including Hugging Face, GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g., ChatGPT) to organize these tools and automatically decompose user requests into multiple sub-tasks and invoke corresponding music tools. The primary goal of this system is to free users from the intricacies of AI-music tools, enabling them to concentrate on the creative aspect. By granting users the freedom to effortlessly combine tools, the system offers a seamless and enriching music experience.
翻訳日:2023-10-19 11:36:43 公開日:2023-10-18
# 量子相転移を探索するシグネチャとしての有限サイズ系における特異な忠実度の零点

Exact zeros of fidelity in finite-size systems as a signature for probing quantum phase transitions ( http://arxiv.org/abs/2310.11951v1 )

ライセンス: Link先を確認
Yumeng Zeng, Bozhen Zhou, Shu Chen(参考訳) この忠実度は、位相駆動パラメータが遷移点を越えているとき熱力学的限界における忠実度の変化や忠実度感受性のばらつきを特徴とする量子相転移の検出に広く用いられている。 本研究は,有限サイズ系における完全忠実度ゼロの発生を量子相転移の検出に適用できることを明らかにする。 一般に、階数 $\mathcal{f}(\gamma,\tilde{\gamma})$ は、アンダーソンの直交的カタストロフィー(英語版)(anderson orthogonality catastrophe)により、熱力学的極限において常に 0 に近づくが、2つの基底状態のパラメータ(\gamma$ と $\tilde{\gamma}$) が同じ位相か異なる相であるかは問わない。 直交性カタストロフィーの影響を克服するために,磁束を印加することによりツイスト境界条件を持つ有限大系について検討し,$\gamma$ と $\tilde{\gamma}$ が異なる位相に属するとき,磁束をチューニングすることで忠実度を常にゼロにすることができることを示す。 一方、$\gamma$ と $\tilde{\gamma}$ が同じ位相であれば、忠実度の正確なゼロは観測できない。 su-schrieffer-heeger モデル, creutz モデル, haldane モデルなどの具体例を考察し, 本理論の適用性を示す。 我々の研究は、有限サイズの系の忠実性の計算によって量子相転移を検出する実践的な方法を提供する。

The fidelity is widely used to detect quantum phase transition, which is characterized by either a sharp change of fidelity or the divergence of fidelity susceptibility in the thermodynamical limit when the phase-driving parameter is across the transition point. In this work, we unveil that the occurrence of exact zero of fidelity in finite-size systems can be applied to detect quantum phase transitions. In general, the fidelity $\mathcal{F}(\gamma,\tilde{\gamma})$ always approaches zero in the thermodynamical limit, due to the Anderson orthogonality catastrophe, no matter whether the parameters of two ground states ($\gamma$ and $\tilde{\gamma}$) are in the same phase or different phases, and this makes it difficult to distinguish whether an exact zero of fidelity exists by finite-size analysis. To overcome the influence of orthogonality catastrophe, we study finite-size systems with twist boundary conditions, which can be introduced by applying a magnetic flux, and demonstrate that exact zero of fidelity can be always accessed by tuning the magnetic flux when $\gamma$ and $\tilde{\gamma}$ belong to different phases. On the other hand, no exact zero of fidelity can be observed if $\gamma$ and $\tilde{\gamma}$ are in the same phase. We demonstrate the applicability of our theoretical scheme by studying concrete examples, including the Su-Schrieffer-Heeger model, Creutz model and Haldane model. Our work provides a practicable way to detect quantum phase transition via the calculation of fidelity of finite-size systems.
翻訳日:2023-10-19 11:36:19 公開日:2023-10-18
# 無限距離相互作用量子系の平均場ダイナミクス:カオス、動的相転移、局所化

Mean-field dynamics of an infinite-range interacting quantum system: chaos, dynamical phase transition, and localisation ( http://arxiv.org/abs/2310.11947v1 )

ライセンス: Link先を確認
Bojan \v{Z}unkovi\v{c} and Antonio Zegarra(参考訳) 無限範囲の逆相互作用を持つxyスピン1/2鎖の力学特性を調べ、カオス動的位相を持つ動的相転移を求める。 後者では, 高速かつ低速なエントロピー成長周期によって, 非消滅的なリャプノフ指数と断続的な挙動が示される。 さらに,xy鎖を局所的自己整合横方向の場で研究し,局在相転移を観察した。 局所化はカオス力学相を安定化させる。

We investigate the dynamical properties of the XY spin 1/2 chain with infinite-range transverse interactions and find a dynamical phase transition with a chaotic dynamical phase. In the latter, we find non-vanishing Lyapunov exponents and intermittent behavior signaled by periods of fast and slow entropy growth. Further, we study the XY chain with a local self-consistent transverse field and observe a localization phase transition. We show that localization stabilizes the chaotic dynamical phase.
翻訳日:2023-10-19 11:35:42 公開日:2023-10-18
# 時間的グーイ位相による時間的エルミート・ガウスモードの干渉的ソート

Interferometric sorting of temporal Hermite-Gauss modes via temporal Gouy phase ( http://arxiv.org/abs/2310.11918v1 )

ライセンス: Link先を確認
Dmitri B. Horoshko, Mikhail I. Kolobov(参考訳) 我々は,m$ mach-zehnder干渉計を用いて,各モードが獲得した累積時間グーイ位相を調整し,光通過の2^m$時間ヘルマイト・ガウスモードのソートを実現する装置を提案する。 このモード順序依存位相シフトは、干渉計の腕の1つの時間レンズによって実現される分数フーリエ変換によって達成される。 自発的パラメトリック・ダウンコンバージョンで生成された光子対のシュミットモードのソートに2つの干渉計を用いたソータの適用を検討し、クロストーク確率5.5%の理論的低結合を求める。

We propose a device consisting of $m$ Mach-Zehnder interferometers and realizing sorting of first $2^m$ temporal Hermite-Gauss modes of light passing though it by adjusting the accumulated temporal Gouy phase acquired by every mode. This mode-order-dependent phase shift is achieved by a fractional Fourier transform realized by a time lens in one of interferometer's arms. We consider application of such a sorter with just two interferometers to sorting the Schmidt modes of a photon pair generated in spontaneous parametric downconversion and find the theoretical lower bond on the cross-talk probability of 5.5%.
翻訳日:2023-10-19 11:35:33 公開日:2023-10-18
# テンパリングとエントロピーミラーの輝きの関連

A connection between Tempering and Entropic Mirror Descent ( http://arxiv.org/abs/2310.11914v1 )

ライセンス: Link先を確認
Nicolas Chopin and Francesca R. Crucinio and Anna Korba(参考訳) 本稿では,非正規化密度が知られている対象確率分布から試料へのテンパリング(Sequential Monte Carlo, SMC)とエントロピックミラー降下の関係について検討する。 テンパリングSMCは、KL(Kulback-Leibler)の発散に適用されるエントロピーミラー降下の数値近似であり、テンパリング繰り返しに対する収束率を得る。 この結果から,KL の発散を最小限に抑えるために,Langevin ベースのアルゴリズムの代替としてテンパリングを使用できることを示す。 テンパリングとミラー降下イテレートの関連を利用して,smcにおける一般的な実践を正当化し,文学におけるアルゴリズムの改良を提案する。

This paper explores the connections between tempering (for Sequential Monte Carlo; SMC) and entropic mirror descent to sample from a target probability distribution whose unnormalized density is known. We establish that tempering SMC is a numerical approximation of entropic mirror descent applied to the Kullback-Leibler (KL) divergence and obtain convergence rates for the tempering iterates. Our result motivates the tempering iterates from an optimization point of view, showing that tempering can be used as an alternative to Langevin-based algorithms to minimize the KL divergence. We exploit the connection between tempering and mirror descent iterates to justify common practices in SMC and propose improvements to algorithms in literature.
翻訳日:2023-10-19 11:35:20 公開日:2023-10-18
# 非平衡相転移における拡散性Nambu-Goldstoneモードの観察

Observation of the diffusive Nambu-Goldstone mode of a non-equilibrium phase transition ( http://arxiv.org/abs/2310.11903v1 )

ライセンス: Link先を確認
Ferdinand Claude and Maxime J. Jacquet and Michiel Wouters and Elisabeth Giacobino and Quentin Glorieux and Iacopo Carusotto and Alberto Bramati(参考訳) 2階相転移は自発的対称性の破れによって制御され、ナムブ・ゴールドストーン(NG)モードと呼ばれるギャップのないスペクトルを持つ集団励起をもたらす。 保守系におけるNGモードは励起を伝播するが、非平衡相転移は拡散NGモードを特徴とすると予測されている。 微小キャビティ分極の非平衡ボース・アインシュタイン凝縮体における拡散NGモードの最初の実験的証拠を示す。 NGモードは、凝縮体の分光応答におけるスペクトル狭めとして観察される。 さらに、対称性を明示的に破るとスペクトルのギャップが開き、NGモードが消失する。 本研究は,非平衡相転移のNGモードの拡散力学を検証し,統計力学の基礎的問題を研究するための有望な枠組みを確立する。

Second-order phase transitions are governed by spontaneous symmetry breaking, which yield collective excitations with a gapless spectrum called Nambu-Goldstone (NG) modes. While NG modes in conservative systems are propagating excitations, non-equilibrium phase transitions have been predicted to feature a diffusive NG mode. We present the first experimental evidence of a diffusive NG mode in a non-equilibrium Bose-Einstein condensate of microcavity polaritons. The NG mode is observed as a spectral narrowing in the spectroscopic response of the condensate. Additionally, explicitly breaking the symmetry causes the opening of a gap in the spectrum and the disappearance of the NG mode. Our observations confirm the diffusive dynamics of the NG mode of non-equilibrium phase transitions and establish a promising framework to investigate fundamental questions in statistical mechanics.
翻訳日:2023-10-19 11:35:04 公開日:2023-10-18
# ルビジウム蒸気中の4波混合による2モード四面体スクイーズ特性

Properties of Two-Mode Quadrature Squeezing from Four-wave Mixing in Rubidium Vapor ( http://arxiv.org/abs/2310.11900v1 )

ライセンス: Link先を確認
Lu\'Is E. E. De Araujo, Zhifan Zhou, Matt Dimario, B. E. Anderson, Jie Zhao, Kevin M. Jones, and Paul D. Lett(参考訳) 本研究では, 温かいルビジウム蒸気中での4波混合により発生する2モード, 真空シード, 二次スケーズ光のホモダイン測定について検討した。 以上の結果から,真空スクイージングは1Hz未満の周波数まで拡張可能であることが明らかとなり,本システムで測定されたシードドインテンシティ差スキュージングと同様の周波数帯域幅が,典型的なポンプパラメータに対して最大20MHzに達することが判明した。 帯域幅を小さな周波数ビンに分割することにより、異なるサイドバンド周波数が2モードのスケジングの独立した源であることを示す。 このような周波数ビンは量子情報処理実験に有用な量子モードを提供する。 また,群速度遅延がシステムの相関に与える影響についても検討した。

We present a study of homodyne measurements of two-mode, vacuum-seeded, quadrature-squeezed light generated by four-wave mixing in warm rubidium vapor. Our results reveal that the vacuum squeezing can extend down to measurement frequencies of less than 1 Hz, and the squeezing bandwidth, similar to the seeded intensity-difference squeezing measured in this system, reaches up to approximately 20 MHz for typical pump parameters. By dividing the squeezing bandwidth into smaller frequency bins, we show that different sideband frequencies represent independent sources of two-mode squeezing. Such frequency bins may provide useful qumodes for quantum information processing experiments. We also investigate the impact of group velocity delays on the correlations in the system.
翻訳日:2023-10-19 11:34:51 公開日:2023-10-18
# InViG:500万の人間-ロボットインタラクションによるインタラクティブなビジュアルグラウンドのベンチマーク

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions ( http://arxiv.org/abs/2310.12147v1 )

ライセンス: Link先を確認
Hanbo Zhang and Jie Xu and Yuchen Mo and Tao Kong(参考訳) あいまいさは人間のコミュニケーションにおいて普遍的である。 HRI(Human-Robot Interaction)の従来のアプローチは、事前に定義されたインタラクションテンプレートに依存しており、現実的でオープンなシナリオのパフォーマンスが低下する。 これらの問題に対処するため,言語あいまいさ下でのインタラクティブな視覚的接地のための大規模データセット \invig を提案する。 我々のデータセットは、何百万ものオブジェクトインスタンスとそれに対応する質問応答ペアを含む、オープンな目標指向の曖昧な対話を伴う520K以上の画像で構成されている。 我々は,\invigデータセットを活用して,エンド・ツー・エンドのインタラクティブな視覚的な曖昧さと接地のためのベースラインソリューションを提案し,検証中に45.6\%の成功率を達成した。 我々の知る限り、 \invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための最初の大規模なデータセットであり、あいまいさを意識したHRIのための実用的かつ非常に難しいベンチマークを提供する。 https://openivg.github.io}{https://openivg.github.io} コードとデータセットは以下のとおりである。

Ambiguity is ubiquitous in human communication. Previous approaches in Human-Robot Interaction (HRI) have often relied on predefined interaction templates, leading to reduced performance in realistic and open-ended scenarios. To address these issues, we present a large-scale dataset, \invig, for interactive visual grounding under language ambiguity. Our dataset comprises over 520K images accompanied by open-ended goal-oriented disambiguation dialogues, encompassing millions of object instances and corresponding question-answer pairs. Leveraging the \invig dataset, we conduct extensive studies and propose a set of baseline solutions for end-to-end interactive visual disambiguation and grounding, achieving a 45.6\% success rate during validation. To the best of our knowledge, the \invig dataset is the first large-scale dataset for resolving open-ended interactive visual grounding, presenting a practical yet highly challenging benchmark for ambiguity-aware HRI. Codes and datasets are available at: \href{https://openivg.github.io}{https://openivg.github.io}.
翻訳日:2023-10-19 11:28:26 公開日:2023-10-18
# スパース回帰型貯水池コンピュータを用いた動的財務プロセスの同定

Dynamic financial processes identification using sparse regressive reservoir computers ( http://arxiv.org/abs/2310.12144v1 )

ライセンス: Link先を確認
Fredy Vides, Idelfonso B. R. Nogueira, Lendy Banegas, Evelyn Flores(参考訳) 本稿では,構造行列近似理論における重要な知見と,動的金融プロセスの回帰表現への応用について述べる。 まず, 金融・経済システムから抽出した時系列データに対して, 一般的な非線形時間遅延埋め込みを含む包括的アプローチを検討する。 次に, スパース最小二乗法と構造化行列近似法を用いて, 出力結合行列の近似表現を識別する。 これらの表現は、ある金融システム固有の再帰的構造に対応する回帰モデルを確立する上で重要な役割を果たす。 この文書はさらに、前述のテクニックを活用するプロトタイプアルゴリズムを紹介している。 これらのアルゴリズムは、動的金融および経済プロセスの近似的同定と予測シミュレーションの応用を通じて実証され、カオス的な振る舞いを示すかもしれないし、しないかもしれないシナリオを含む。

In this document, we present key findings in structured matrix approximation theory, with applications to the regressive representation of dynamic financial processes. Initially, we explore a comprehensive approach involving generic nonlinear time delay embedding for time series data extracted from a financial or economic system under examination. Subsequently, we employ sparse least-squares and structured matrix approximation methods to discern approximate representations of the output coupling matrices. These representations play a pivotal role in establishing the regressive models corresponding to the recursive structures inherent in a given financial system. The document further introduces prototypical algorithms that leverage the aforementioned techniques. These algorithms are demonstrated through applications in approximate identification and predictive simulation of dynamic financial and economic processes, encompassing scenarios that may or may not exhibit chaotic behavior.
翻訳日:2023-10-19 11:28:07 公開日:2023-10-18
# 転がり検証によるオンライン推定:ストリームデータを用いた適応的非パラメトリック推定

Online Estimation with Rolling Validation: Adaptive Nonparametric Estimation with Stream Data ( http://arxiv.org/abs/2310.12140v1 )

ライセンス: Link先を確認
Tianyu Zhang and Jing Lei(参考訳) オンラインの非パラメトリック推定器は、効率的な計算能力と競争的一般化能力によって人気を集めている。 重要な例としては確率勾配勾配の変種がある。 これらのアルゴリズムは、しばしば1回に1つのサンプルポイントを取り、パラメータの利子推定を即座に更新する。 本研究では,オンラインアルゴリズムのモデル選択とハイパーパラメータチューニングについて検討する。 本稿では,多くの典型的な確率勾配降下推定器に対して,最小限の余剰計算を要し,オンライン版Left-outクロスバリデーションである重み付き転がりバリデーション手法を提案する。 バッチクロスバリデーションと同様に、より良く適応的な収束率を達成するためにベース推定器を増やすことができる。 我々の理論解析は単純で、主に一般的な統計安定性の仮定に依存している。 シミュレーション研究は, 転がりバリデーションにおいて, 転がり重みのばらつきが重要であり, 候補推定器間にスリムな差がある場合にも感度を示す。

Online nonparametric estimators are gaining popularity due to their efficient computation and competitive generalization abilities. An important example includes variants of stochastic gradient descent. These algorithms often take one sample point at a time and instantly update the parameter estimate of interest. In this work we consider model selection and hyperparameter tuning for such online algorithms. We propose a weighted rolling-validation procedure, an online variant of leave-one-out cross-validation, that costs minimal extra computation for many typical stochastic gradient descent estimators. Similar to batch cross-validation, it can boost base estimators to achieve a better, adaptive convergence rate. Our theoretical analysis is straightforward, relying mainly on some general statistical stability assumptions. The simulation study underscores the significance of diverging weights in rolling validation in practice and demonstrates its sensitivity even when there is only a slim difference between candidate estimators.
翻訳日:2023-10-19 11:27:54 公開日:2023-10-18
# バグ予測のためのアンサンブルモデルの有効性の理解可能な分析

A comprehensible analysis of the efficacy of Ensemble Models for Bug Prediction ( http://arxiv.org/abs/2310.12133v1 )

ライセンス: Link先を確認
Ingrid Mar\c{c}al and Rog\'erio Eduardo Garcia(参考訳) ソフトウェアシステムの正確性は、その効果的な運用に不可欠である。 ソフトウェアバグの発見と修正が重要な開発タスクになります。 ソフトウェアエンジニアリングにおける人工知能(AI)技術の利用が増加し、ソフトウェア開発者がコード中の潜在的なバグを特定するのを助ける多くの技術の開発につながった。 本稿では,1つのAIモデルとアンサンブルAIモデルという,2つのAIベースのアプローチの有効性を総合的に比較,分析し,バグのあるJavaクラスの確率を予測する。 モデルのトレーニングと評価には、オープンソースのapache commonsプロジェクトのjavaコンポーネントを2つ使用しました。 実験結果から,AIモデルのアンサンブルは,個々のAIモデルの適用結果より優れていることが示された。 また、アンサンブルAIモデルの高性能化に寄与する要因について、洞察を提供する。 提案した結果は、アンサンブルAIモデルを使用してバグ予測結果を向上する可能性を示し、最終的にはより信頼性の高いソフトウェアシステムになる可能性がある。

The correctness of software systems is vital for their effective operation. It makes discovering and fixing software bugs an important development task. The increasing use of Artificial Intelligence (AI) techniques in Software Engineering led to the development of a number of techniques that can assist software developers in identifying potential bugs in code. In this paper, we present a comprehensible comparison and analysis of the efficacy of two AI-based approaches, namely single AI models and ensemble AI models, for predicting the probability of a Java class being buggy. We used two open-source Apache Commons Project's Java components for training and evaluating the models. Our experimental findings indicate that the ensemble of AI models can outperform the results of applying individual AI models. We also offer insight into the factors that contribute to the enhanced performance of the ensemble AI model. The presented results demonstrate the potential of using ensemble AI models to enhance bug prediction results, which could ultimately result in more reliable software systems.
翻訳日:2023-10-19 11:27:39 公開日:2023-10-18
# ニュートリノ振動の時間-エネルギー不確実性関係--歴史的発展, 応用, 将来展望

Time-energy uncertainty relation for neutrino oscillations: historical development, applications and future prospects ( http://arxiv.org/abs/2310.12124v1 )

ライセンス: Link先を確認
Giuseppe Gaetano Luciano and Luca Smaldone(参考訳) 時間エネルギーの不確実性関係(英語版)(teur)は量子力学において基本的な役割を担っており、理論の非常に一般的な原理と対称性に基づいて様々な現象の特異な側面を把握できる。 マンデルシュタム-タム法を用いて、ニュートリノエネルギーの不確かさと振動の時間スケールを結びつけることでニュートリノ振動を導出してきた。 興味深いことに、ニュートリノを不安定な粒子と解釈することは、この文脈で自然に現れることが証明されている。 その後、一般定常時空におけるニュートリノエネルギーの不確かさの補正を計算し、半古典重力においてさらなる側面が議論され、量子場理論では、クロック観測可能が保存されないフレーバー電荷演算子と同一であることが判明した。 本報告では, 上記の成果について概観する。 特に、チュールの影響を分析し、ニュートリノ振動の標準条件に対する重力および非相対論的影響の影響を探究する。 振動の量子情報理論解析と実験結果との相関を定性的に検討した。

Time-energy uncertainty relation (TEUR) plays a fundamental role in quantum mechanics, as it allows to grasp peculiar aspects of a variety of phenomena based on very general principles and symmetries of the theory. Using the Mandelstam-Tamm method, TEUR has been recently derived for neutrino oscillations by connecting the uncertainty on neutrino energy with the characteristic time-scale of oscillations. Interestingly enough, the suggestive interpretation of neutrinos as unstable-like particles has proved to naturally emerge in this context. Further aspects have been later discussed in semiclassical gravity by computing corrections to the neutrino energy uncertainty in a generic stationary curved spacetime, and in quantum field theory, where the clock observable turns out to be identified with the non-conserved flavor charge operator. In the present work, we give an overview on the above achievements. In particular, we analyze the implications of TEUR and explore the impact of gravitational and non-relativistic effects on the standard condition for neutrino oscillations. Correlations with the quantum-information theoretic analysis of oscillations and possible experimental consequences are qualitatively discussed.
翻訳日:2023-10-19 11:27:24 公開日:2023-10-18
# DASA:話者認証のための難易度対応セマンティック拡張

DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification ( http://arxiv.org/abs/2310.12111v1 )

ライセンス: Link先を確認
Yuanyuan Wang, Yang Zhang, Zhiyong Wu, Zhihan Yang, Tao Wei, Kun Zou, Helen Meng(参考訳) データ拡張は、ディープニューラルネットワーク(DNN)モデルの一般化能力と堅牢性に不可欠である。 話者照合のための既存の拡張法は、時間を要する生信号を操作し、拡張されたサンプルは多様性を欠いている。 本稿では,話者検証のための難易度対応セマンティック拡張(DASA)手法を提案する。 まず,話者間の共分散行列から得られる意味的方向に沿って話者埋め込みを摂動することで,学習サンプルを増強する。 次に,学習中のロバストな話者埋め込みから正確な共分散行列を推定し,難易度アダプティブ・マージン・ソフトマックス(daam-softmax)を導入し,最適な話者埋め込みを得る。 最後に、拡張サンプルの数は無限大となり、DASAによる期待損失の閉形式上界が導出され、互換性と効率性が得られると仮定する。 広範な実験により,提案手法が著しい性能向上を達成できることが実証された。 最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。

Data augmentation is vital to the generalization ability and robustness of deep neural networks (DNNs) models. Existing augmentation methods for speaker verification manipulate the raw signal, which are time-consuming and the augmented samples lack diversity. In this paper, we present a novel difficulty-aware semantic augmentation (DASA) approach for speaker verification, which can generate diversified training samples in speaker embedding space with negligible extra computing cost. Firstly, we augment training samples by perturbing speaker embeddings along semantic directions, which are obtained from speaker-wise covariance matrices. Secondly, accurate covariance matrices are estimated from robust speaker embeddings during training, so we introduce difficultyaware additive margin softmax (DAAM-Softmax) to obtain optimal speaker embeddings. Finally, we assume the number of augmented samples goes to infinity and derive a closed-form upper bound of the expected loss with DASA, which achieves compatibility and efficiency. Extensive experiments demonstrate the proposed approach can achieve a remarkable performance improvement. The best result achieves a 14.6% relative reduction in EER metric on CN-Celeb evaluation set.
翻訳日:2023-10-19 11:27:05 公開日:2023-10-18
# ランダム場によるPDEの低次モデリングのためのディープオートエンコーダの潜時次元について

On the latent dimension of deep autoencoders for reduced order modeling of PDEs parametrized by random fields ( http://arxiv.org/abs/2310.12095v1 )

ライセンス: Link先を確認
Nicola Rares Franco, Daniel Fraulin, Andrea Manzoni and Paolo Zunino(参考訳) 深層学習は偏微分方程式(pdes)に対する還元次数モデル(rom)の設計に大きな影響を与えており、古典的手法が失敗するような複雑な問題に取り組むための強力なツールとして利用されている。 この点において、ディープオートエンコーダは、ニューラルネットワークの非線形能力を生かして与えられた問題の次元性を極端に柔軟なツールを提供するため、基本的な役割を果たす。 実際、このパラダイムから、Deep Learning-based ROM(DL-ROM)と呼ばれるいくつかの成功したアプローチがすでに開発されている。 それにもかかわらず、ランダム場によってパラメータ化される確率的問題に関して、DL-ROMの現在の理解は、主に経験的証拠に基づいている:事実、それらの理論解析は、有限個の(決定論的)パラメータに依存するPDEの場合に限られている。 本研究の目的は,確率性の存在下でのdl-romの利用に関する理論的知見を提供することにより,既存の文献を拡張することである。 特に、ディープオートエンコーダの潜在次元を選択する際にドメイン実践者を導く明示的なエラー境界を導出します。 数値実験により本理論の実用性を評価し,解析がDL-ROMの性能にどのように影響するかを示した。

Deep Learning is having a remarkable impact on the design of Reduced Order Models (ROMs) for Partial Differential Equations (PDEs), where it is exploited as a powerful tool for tackling complex problems for which classical methods might fail. In this respect, deep autoencoders play a fundamental role, as they provide an extremely flexible tool for reducing the dimensionality of a given problem by leveraging on the nonlinear capabilities of neural networks. Indeed, starting from this paradigm, several successful approaches have already been developed, which are here referred to as Deep Learning-based ROMs (DL-ROMs). Nevertheless, when it comes to stochastic problems parameterized by random fields, the current understanding of DL-ROMs is mostly based on empirical evidence: in fact, their theoretical analysis is currently limited to the case of PDEs depending on a finite number of (deterministic) parameters. The purpose of this work is to extend the existing literature by providing some theoretical insights about the use of DL-ROMs in the presence of stochasticity generated by random fields. In particular, we derive explicit error bounds that can guide domain practitioners when choosing the latent dimension of deep autoencoders. We evaluate the practical usefulness of our theory by means of numerical experiments, showing how our analysis can significantly impact the performance of DL-ROMs.
翻訳日:2023-10-19 11:26:45 公開日:2023-10-18
# 科学データ変換器--天文学者の教育学的考察

Transformers for scientific data: a pedagogical review for astronomers ( http://arxiv.org/abs/2310.12069v1 )

ライセンス: Link先を確認
Dimitrios Tanoglidis, Bhuvnesh Jain, Helen Qu (University of Pennsylvania)(参考訳) chatgptと関連する生成ai製品に関連するディープラーニングアーキテクチャはtransformersとして知られている。 最初は自然言語処理、トランスフォーマー、そしてそれらが生み出す自己認識機構に応用され、自然科学に広く関心を集めている。 この教育的かつ非公式なレビューの目的は、科学者にトランスフォーマーを導入することである。 我々の教育学的および非公式なレビューには、注意機構の基礎となる数学、オリジナルのトランスフォーマーアーキテクチャの説明、天文学における時系列および画像データへの応用に関するセクションが含まれている。 我々は、生成AIに興味を持ち、研究問題のためにトランスフォーマーを使い始めることに興味がある読者のために、頻繁に質問するセクションを含む。

The deep learning architecture associated with ChatGPT and related generative AI products is known as transformers. Initially applied to Natural Language Processing, transformers and the self-attention mechanism they exploit have gained widespread interest across the natural sciences. The goal of this pedagogical and informal review is to introduce transformers to scientists. Our pedagogical and informal review includes the mathematics underlying the attention mechanism, a description of the original transformer architecture, and a section on applications to time series and imaging data in astronomy. We include with a Frequently Asked Questions section for readers who are curious about generative AI and interested in getting started with transformers for their research problem.
翻訳日:2023-10-19 11:26:25 公開日:2023-10-18
# 逆強化学習における最適輸送理論による後進曖昧さの理解

Understanding Reward Ambiguity Through Optimal Transport Theory in Inverse Reinforcement Learning ( http://arxiv.org/abs/2310.12055v1 )

ライセンス: Link先を確認
Ali Baheri(参考訳) 逆強化学習(irl:inverse reinforcement learning)の中心的な目的は、与えられたデータを説明するだけでなく、目に見えないシナリオにも一般化するように、観察された専門家の行動から報酬関数を推測することである。 これにより、複数の報酬関数が同じ専門家の振る舞いを等しく説明できる、報酬あいまいさに対する堅牢性が保証される。 この問題に対処するために多くの努力がなされているが、現在の手法では高次元の問題に直面することが多く、幾何学的基礎が欠如している。 本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(ot)理論を利用する。 OTからワッサーシュタインの距離を利用して、報酬のあいまいさを定量化し、報酬関数の中心表現やセントロイドを特定できる幾何学的枠組みを確立する。 これらの知見は、幾何学的解釈に固定されたロバストIRL方法論の道を開き、高次元設定における報酬のあいまいさに取り組むための構造化されたアプローチを提供する。

In inverse reinforcement learning (IRL), the central objective is to infer underlying reward functions from observed expert behaviors in a way that not only explains the given data but also generalizes to unseen scenarios. This ensures robustness against reward ambiguity where multiple reward functions can equally explain the same expert behaviors. While significant efforts have been made in addressing this issue, current methods often face challenges with high-dimensional problems and lack a geometric foundation. This paper harnesses the optimal transport (OT) theory to provide a fresh perspective on these challenges. By utilizing the Wasserstein distance from OT, we establish a geometric framework that allows for quantifying reward ambiguity and identifying a central representation or centroid of reward functions. These insights pave the way for robust IRL methodologies anchored in geometric interpretations, offering a structured approach to tackle reward ambiguity in high-dimensional settings.
翻訳日:2023-10-19 11:26:15 公開日:2023-10-18
# 創発的非エルミートモデル

Emergent non-Hermitian models ( http://arxiv.org/abs/2310.11988v1 )

ライセンス: Link先を確認
Lumen Eek, Anouar Moustaj, Malte R\"ontgen, Vincent Pagneux, Vassos Achilleos, Cristiane Morais Smith(参考訳) ハタノ・ネルソンと非エルミート的su-シュリーファー・ヘーガーモデルは、非自明な境界現象を持つ非エルミート系のパラダイム的例である。 本研究では,最近開発されたグラフ理論ツールを用いて,アイソスペクティブ還元(効果的なハミルトニアンに類似)が2つのモデルのいずれかの形式を持つシステムを設計する。 縮小版では、カップリングとオンサイト電位はエネルギー依存になる。 これはエネルギー依存の非エルミート皮膚効果のような興味深い現象をもたらし、固有状態がシステムの両端に同時に局在し、異なる局在長を持つことを示した。 さらに、エネルギーに依存する指数エンベロープの異なる非ゼロエネルギーにピン留めされた様々な位相的エッジ状態の存在を予測する。 全体として、我々の研究は1次元系における位相相の性質と非エルミート皮膚効果に新たな光を当てている。

The Hatano-Nelson and the non-Hermitian Su-Schrieffer-Heeger model are paradigmatic examples of non-Hermitian systems that host non-trivial boundary phenomena. In this work, we use recently developed graph-theoretical tools to design systems whose isospectral reduction -- akin to an effective Hamiltonian -- has the form of either of these two models. In the reduced version, the couplings and on-site potentials become energy-dependent. We show that this leads to interesting phenomena such as an energy-dependent non-Hermitian skin effect, where eigenstates can simultaneously localize on either ends of the systems, with different localization lengths. Moreover, we predict the existence of various topological edge states, pinned at non-zero energies, with different exponential envelopes, depending on their energy. Overall, our work sheds new light on the nature of topological phases and the non-Hermitian skin effect in one-dimensional systems.
翻訳日:2023-10-19 11:25:52 公開日:2023-10-18