このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240718となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 音声認識における数値表現の扱い
Handling Numeric Expressions in Automatic Speech Recognition ( http://arxiv.org/abs/2408.00004v1 ) ライセンス: Link先を確認 | Christian Huber, Alexander Waibel, | (参考訳) 本稿では,自動音声認識(ASR)文字起こしにおいて,数値表現を正しくフォーマットする問題に対処する。
例えば、1945年(年)対19:45年(タイムスタンプ)である。
我々は、年、タイムスタンプ、通貨量、量などの数値表現を認識し、フォーマットするためのカスケードとエンドツーエンドのアプローチを比較した。
エンドツーエンドのアプローチでは,大言語モデル(LLM)とテキスト音声モデル(TTS)を用いて適応データを生成する。
テストデータセットの結果から,LLMに基づくアプローチは形式付き数値表現の認識において良好に機能するのに対し,適応型エンドツーエンドモデルは低レイテンシと推論コストの利点を生かして競合性能を提供することがわかった。
This paper addresses the problem of correctly formatting numeric expressions in automatic speech recognition (ASR) transcripts. This is challenging since the expected transcript format depends on the context, e.g., 1945 (year) vs. 19:45 (timestamp). We compare cascaded and end-to-end approaches to recognize and format numeric expression, such as years, timestamps, currency amounts, and quantities. For the end-to-end approach we employed a data generation strategy using a large language model (LLM) together with a text to speech (TTS) model to generate adaptation data. The results on our test dataset show that while approaches based on LLMs perform well on recognizing formatted numeric expressions, adapted end-to-end models offer competitive performance with the advantage of lower latency and inference cost. | 翻訳日:2024-08-19 05:35:40 公開日:2024-07-18 |
# 音声データセットの計算とASRシステム評価のためのフレームワーク:ポーランドのケーススタディ
Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish ( http://arxiv.org/abs/2408.00005v1 ) ライセンス: Link先を確認 | Michał Junczyk, | (参考訳) パブリックドメインで利用可能な音声データセットは、発見可能性と相互運用性の課題のために、しばしば利用されていない。
利用可能な音声データセットを調査し、カタログ化し、キュレートするための包括的なフレームワークが設計されており、自動音声認識(ASR)システムの複製可能な評価を可能にしている。
ポーランド語に焦点を当てたケーススタディを行い、24以上のデータセットをキュレートし、ASRシステムとモデルを25組み合わせて評価した。
この研究は、ポーランド語における商用および無料のASRシステムの日付と比較して最も広範な比較である。
600のシステムモデル-テストセットの評価から洞察を得ており、スケールと包括性の両方において大きな進歩を示している。
インタラクティブなダッシュボード(https://huggingface.co/spaces/amu-cai/pl-asr- Leaderboard)と、キュレートされたデータセット(https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2, https://huggingface.co/datasets/pelcra/pl-asr-pelcra-for-bigos)、オープンなチャレンジコール(https://poleval.pl/tasks/task3)として提供される。
評価に使用されるツールはオープンソース(https://github.com/goodmike31/pl-asr-bigos-tools)で、他の言語へのレプリケーションと適応を容易にし、新しいデータセットやシステムによる継続的拡張が可能である。
Speech datasets available in the public domain are often underutilized because of challenges in discoverability and interoperability. A comprehensive framework has been designed to survey, catalog, and curate available speech datasets, which allows replicable evaluation of automatic speech recognition (ASR) systems. A case study focused on the Polish language was conducted; the framework was applied to curate more than 24 datasets and evaluate 25 combinations of ASR systems and models. This research constitutes the most extensive comparison to date of both commercial and free ASR systems for the Polish language. It draws insights from 600 system-model-test set evaluations, marking a significant advancement in both scale and comprehensiveness. The results of surveys and performance comparisons are available as interactive dashboards (https://huggingface.co/spaces/amu-cai/pl-asr-leaderboard) along with curated datasets (https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2, https://huggingface.co/datasets/pelcra/pl-asr-pelcra-for-bigos) and the open challenge call (https://poleval.pl/tasks/task3). Tools used for evaluation are open-sourced (https://github.com/goodmike31/pl-asr-bigos-tools), facilitating replication and adaptation for other languages, as well as continuous expansion with new datasets and systems. | 翻訳日:2024-08-19 05:28:21 公開日:2024-07-18 |
# 2015年から2023年まで: 機械学習はいかにして天然物分析を支援するか
From 2015 to 2023: How Machine Learning Aids Natural Product Analysis ( http://arxiv.org/abs/2408.00793v1 ) ライセンス: Link先を確認 | Suwen Shi, Ziwei Huang, Xingxin Gu, Xu Lin, Chaoying Zhong, Junjie Hang, Jianli Lin, Claire Chenwen Zhong, Lin Zhang, Yu Li, Junjie Huang, | (参考訳) 近年、従来の化学技術は、その固有の限界のために重大な課題に直面しており、現代の研究で生成される複雑さや量の増大に対処するのに苦労している。
計算方法論は化学の分野で堅牢なツールであり、強力な機械学習モデルを利用して洞察に富んだ分析結果を得る能力を提供する。
本稿では, 天然物分析に利用可能な計算戦略のスペクトルを考察し, 質的および定量的な化学問題の両方を研究するための研究枠組みを構築した。
我々の目的は、機械学習と化学の共生に関する新しい視点を提示することであり、天然物分析の分野での変革を触媒する可能性がある。
In recent years, conventional chemistry techniques have faced significant challenges due to their inherent limitations, struggling to cope with the increasing complexity and volume of data generated in contemporary research endeavors. Computational methodologies represent robust tools in the field of chemistry, offering the capacity to harness potent machine-learning models to yield insightful analytical outcomes. This review delves into the spectrum of computational strategies available for natural product analysis and constructs a research framework for investigating both qualitative and quantitative chemistry problems. Our objective is to present a novel perspective on the symbiosis of machine learning and chemistry, with the potential to catalyze a transformation in the field of natural product analysis. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-18 |
# CCSRP: 協調的共進化によるスパイクニューラルネットワークのロバストプルーニング
CCSRP: Robust Pruning of Spiking Neural Networks through Cooperative Coevolution ( http://arxiv.org/abs/2408.00794v1 ) ライセンス: Link先を確認 | Zichen Song, Jiakang Li, Songning Lai, Sitan Huang, | (参考訳) スパイキングニューラルネットワーク(SNN)は、様々な動的視覚タスクにおいて有望であることを示しているが、現実的なデプロイメントの準備が整ったものは、リソース制限と安全クリティカルな設定に不可欠なコンパクト性と堅牢性を欠いていることが多い。
従来の研究は、ニューラルネットワークのコンパクト性やロバスト性の向上に主に集中しており、SNNの同様の手法をほとんど探求していない。
SNNのロバストプルーニングは、精度とロバスト性の両方を保ちながら計算オーバーヘッドを削減することを目的としている。
現在の堅牢なプルーニングアプローチは、一般的に、適切なプルーニング基準や補助モジュールを確立するために、専門家の知識と反復的な実験を必要とする。
同時に、進化的アルゴリズム(EA)は、人工知能ニューラルネットワークのプルーニングを自動化するために使われ、ロバストネスの側面を見越した素晴らしい結果をもたらしている。
本研究では,協調進化に支えられたSNNの革新的な頑健な刈り取り法であるCSRPを提案する。
ロバストプルーニングは三目的最適化の課題として具体化され、正確性、堅牢性、コンパクト性を同時にバランスさせ、EAを用いてフィルタを独立に分離する協調的共進化型プルーニングフレームワークによって解決される。
CIFAR-10 および SVHN を用いた実験により,CSRP が最新の手法の性能に適合または超えることを示した。
Spiking neural networks (SNNs) have shown promise in various dynamic visual tasks, yet those ready for practical deployment often lack the compactness and robustness essential in resource-limited and safety-critical settings. Prior research has predominantly concentrated on enhancing the compactness or robustness of artificial neural networks through strategies like network pruning and adversarial training, with little exploration into similar methodologies for SNNs. Robust pruning of SNNs aims to reduce computational overhead while preserving both accuracy and robustness. Current robust pruning approaches generally necessitate expert knowledge and iterative experimentation to establish suitable pruning criteria or auxiliary modules, thus constraining their broader application. Concurrently, evolutionary algorithms (EAs) have been employed to automate the pruning of artificial neural networks, delivering remarkable outcomes yet overlooking the aspect of robustness. In this work, we propose CCSRP, an innovative robust pruning method for SNNs, underpinned by cooperative co-evolution. Robust pruning is articulated as a tri-objective optimization challenge, striving to balance accuracy, robustness, and compactness concurrently, resolved through a cooperative co-evolutionary pruning framework that independently prunes filters across layers using EAs. Our experiments on CIFAR-10 and SVHN demonstrate that CCSRP can match or exceed the performance of the latest methodologies. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-18 |
# プライバシ保護のための移動可能な対面顔画像
Transferable Adversarial Facial Images for Privacy Protection ( http://arxiv.org/abs/2408.01428v1 ) ライセンス: Link先を確認 | Minghui Li, Jiangxiong Wang, Hao Zhang, Ziqi Zhou, Shengshan Hu, Xiaobing Pei, | (参考訳) ディープフェース認識(FR)システムの成功は、デジタル世界でのユーザを不正に追跡する機能によって、深刻なプライバシー上の懸念を引き起こしている。
従来の研究では、顔認識モデルを欺くために、顔画像に知覚不可能な敵対ノイズを導入し、顔のプライバシー保護を強化するという目標を達成することが提案されていた。
それでも、彼らは敵対的ノイズの発生を導くためにユーザ・ちょうせん参照に強く依存しており、ブラックボックスのシナリオで自然かつ高度に伝達可能な顔画像を構築することはできない。
そこで我々は,視覚的品質を維持しつつ,転送性の向上を図った新しい顔プライバシー保護手法を提案する。
化粧情報などの顔の特徴を生かして、対向雑音を統合するのではなく、顔空間全体を直接形成することを提案する。
この目的を達成するために,我々はまず,大域的対向潜時探索を利用して生成モデルの潜時空間をトラバースし,高い転送性を有する自然な対向顔画像を生成する。
次に、視覚的アイデンティティ情報を保存するための重要なランドマーク正規化モジュールを導入する。
最後に、様々な潜在空間の影響を調査し、$\mathcal{F}$潜在空間が視覚的自然性と対向移動性の間のトレードオフに有効であることを示す。
2つのデータセットに対する大規模な実験により、当社のアプローチは、高い視覚的品質を維持しながら攻撃伝達性を著しく向上し、ディープFRモデルの平均25%の改善と、Face++、Aliyun、Tencentを含む商用FR APIの10%の改善により、最先端の手法よりも優れたパフォーマンスを実現していることが示された。
The success of deep face recognition (FR) systems has raised serious privacy concerns due to their ability to enable unauthorized tracking of users in the digital world. Previous studies proposed introducing imperceptible adversarial noises into face images to deceive those face recognition models, thus achieving the goal of enhancing facial privacy protection. Nevertheless, they heavily rely on user-chosen references to guide the generation of adversarial noises, and cannot simultaneously construct natural and highly transferable adversarial face images in black-box scenarios. In light of this, we present a novel face privacy protection scheme with improved transferability while maintain high visual quality. We propose shaping the entire face space directly instead of exploiting one kind of facial characteristic like makeup information to integrate adversarial noises. To achieve this goal, we first exploit global adversarial latent search to traverse the latent space of the generative model, thereby creating natural adversarial face images with high transferability. We then introduce a key landmark regularization module to preserve the visual identity information. Finally, we investigate the impacts of various kinds of latent spaces and find that $\mathcal{F}$ latent space benefits the trade-off between visual naturalness and adversarial transferability. Extensive experiments over two datasets demonstrate that our approach significantly enhances attack transferability while maintaining high visual quality, outperforming state-of-the-art methods by an average 25% improvement in deep FR models and 10% improvement on commercial FR APIs, including Face++, Aliyun, and Tencent. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# マルチモード車両通信ネットワークのためのアジャイル適応手法
An Agile Adaptation Method for Multi-mode Vehicle Communication Networks ( http://arxiv.org/abs/2408.01429v1 ) ライセンス: Link先を確認 | Shiwen He, Kanghong Chen, Shiyue Huang, Wei Huang, Zhenyu An, | (参考訳) 本稿では,車両通信ネットワークにおける通信モード割り当てが通信効率に与える影響を明らかにすることに焦点を当てる。
具体的には、Markovの決定プロセスと強化学習を適用して、駆動シナリオとビジネス要件に応じて、マルチモード通信デバイスのためのアジャイル適応メカニズムを確立する。
次に、Q-learningを使用して、アジャイル適応強化学習モデルをトレーニングし、トレーニングされたモデルを出力します。
累積報酬を最大化するために異なる状態を取る最善の行動を学ぶことにより、不安定な通信シナリオにおける不正確な遅延測定による適応効果の低い問題を回避する。
実験の結果,提案手法は動的車両ネットワーク環境に迅速に適応でき,高い並行性と通信効率を実現することができることがわかった。
This paper focuses on discovering the impact of communication mode allocation on communication efficiency in the vehicle communication networks. To be specific, Markov decision process and reinforcement learning are applied to establish an agile adaptation mechanism for multi-mode communication devices according to the driving scenarios and business requirements. Then, Q-learning is used to train the agile adaptation reinforcement learning model and output the trained model. By learning the best actions to take in different states to maximize the cumulative reward, and avoiding the problem of poor adaptation effect caused by inaccurate delay measurement in unstable communication scenarios. The experiments show that the proposed scheme can quickly adapt to dynamic vehicle networking environment, while achieving high concurrency and communication efficiency. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# SUSTechGAN:自律運転の逆条件における物体認識のための画像生成
SUSTechGAN: Image Generation for Object Recognition in Adverse Conditions of Autonomous Driving ( http://arxiv.org/abs/2408.01430v1 ) ライセンス: Link先を確認 | Gongjin Lan, Yang Peng, Qi Hao, Chengzhong Xu, | (参考訳) 自律運転は、データ駆動のディープニューラルネットワークから大きな恩恵を受ける。
しかし、自律運転のデータは通常、悪条件下での臨界運転データが収集されにくい長い尾の分布に適合する。
自動走行のためのデータ拡張にはGAN(Generative Adversarial Network)が適用されているが、悪条件下での運転画像の生成は依然として困難である。
本研究では,2つの注意モジュールとマルチスケールジェネレータを備えた新しいSUSTechGANを提案する。
我々は、SUSTechGANと既存のよく知られたGANを用いて、雨と夜の悪天候下で駆動画像を生成し、生成した画像をオブジェクト認識ネットワークの再トレーニングに適用する。
具体的には、トレーニングデータセットに生成された画像を加え、よく知られたYOLOv5を再訓練し、悪条件下での物体認識のための再学習YOLOv5の改善を評価する。
SUSTechGANにより生成された運転画像は,降雨条件および夜間条件下でのYOLOv5の再現性能を著しく向上し,GANよりも優れていた。
オープンソースコード、ビデオ記述、データセットは、悪条件下での自律運転における画像生成を容易にするために、ページ1で利用可能である。
Autonomous driving significantly benefits from data-driven deep neural networks. However, the data in autonomous driving typically fits the long-tailed distribution, in which the critical driving data in adverse conditions is hard to collect. Although generative adversarial networks (GANs) have been applied to augment data for autonomous driving, generating driving images in adverse conditions is still challenging. In this work, we propose a novel SUSTechGAN with dual attention modules and multi-scale generators to generate driving images for improving object recognition of autonomous driving in adverse conditions. We test the SUSTechGAN and the existing well-known GANs to generate driving images in adverse conditions of rain and night and apply the generated images to retrain object recognition networks. Specifically, we add generated images into the training datasets to retrain the well-known YOLOv5 and evaluate the improvement of the retrained YOLOv5 for object recognition in adverse conditions. The experimental results show that the generated driving images by our SUSTechGAN significantly improved the performance of retrained YOLOv5 in rain and night conditions, which outperforms the well-known GANs. The open-source code, video description and datasets are available on the page 1 to facilitate image generation development in autonomous driving under adverse conditions. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# VLG-CBM:ビジョンランゲージ誘導を用いた概念ボトルネックモデルの訓練
VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance ( http://arxiv.org/abs/2408.01432v1 ) ライセンス: Link先を確認 | Divyansh Srivastava, Ge Yan, Tsui-Wei Weng, | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念を符号化してモデルの決定を説明する中間概念ボトルネック層 (Concept Bottleneck Layer, CBL) を導入することで、解釈可能な予測を提供する。
近年、LLM(Large Language Models)とVLM(Valge-Language Models)を併用してCBMのトレーニングを自動化し、よりスケーラブルで自動化する研究が提案されている。
第一に、CBLによって予測される概念は、しばしば入力イメージを誤マッチさせ、解釈の忠実さに関する疑念を提起する。
第二に、意図しない情報を符号化する概念値が示されている: ランダムな概念の集合でさえ、最先端のCBMと同等のテスト精度を達成できる。
これらの限界に対処するため,本研究では,高機能化による忠実な解釈性を実現するために,VLG-CBM(Vision-Language-Guided Concept Bottleneck Model)と呼ばれる新しいフレームワークを提案する。
提案手法は,市販のオープンドメイン型物体検出装置を利用して,概念予測の忠実度を高めつつ,モデル性能を向上する視覚的概念アノテーションを提供する。
さらに,情報漏洩を制御し,解釈可能性を高めるため,Number of Effective Concepts (NEC) と呼ばれる新しい指標を提案する。
5つの標準ベンチマークにおいて、我々の手法であるVLG-CBMは、NEC=5の精度で少なくとも4.27%、最大51.09%、異なるNEC全体の平均精度で少なくとも0.45%、最大29.78%を上回り、学習概念の忠実さと解釈可能性の両方を広範囲な実験で示す。
Concept Bottleneck Models (CBMs) provide interpretable prediction by introducing an intermediate Concept Bottleneck Layer (CBL), which encodes human-understandable concepts to explain models' decision. Recent works proposed to utilize Large Language Models (LLMs) and pre-trained Vision-Language Models (VLMs) to automate the training of CBMs, making it more scalable and automated. However, existing approaches still fall short in two aspects: First, the concepts predicted by CBL often mismatch the input image, raising doubts about the faithfulness of interpretation. Second, it has been shown that concept values encode unintended information: even a set of random concepts could achieve comparable test accuracy to state-of-the-art CBMs. To address these critical limitations, in this work, we propose a novel framework called Vision-Language-Guided Concept Bottleneck Model (VLG-CBM) to enable faithful interpretability with the benefits of boosted performance. Our method leverages off-the-shelf open-domain grounded object detectors to provide visually grounded concept annotation, which largely enhances the faithfulness of concept prediction while further improving the model performance. In addition, we propose a new metric called Number of Effective Concepts (NEC) to control the information leakage and provide better interpretability. Extensive evaluations across five standard benchmarks show that our method, VLG-CBM, outperforms existing methods by at least 4.27% and up to 51.09% on accuracy at NEC=5, and by at least 0.45% and up to 29.78% on average accuracy across different NECs, while preserves both faithfulness and interpretability of the learned concepts as demonstrated in extensive experiments. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# 知覚課題におけるLLMの信頼性評価と向上
Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks ( http://arxiv.org/abs/2408.01433v1 ) ライセンス: Link先を確認 | Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger, | (参考訳) 今日の高度な運転支援システム(ADAS)は、適応的なクルーズ制御や後部衝突警告のように、車両クラスで広く採用されている。
このような高度な多モード大言語モデル(LLM)を、テキスト、画像、オーディオ、その他のデータ型を処理することができる車両に組み込むことで、乗客の快適性を大幅に向上させる可能性がある。
しかし、LLMの幻覚は依然として対処すべき大きな課題である。
本稿では,歩行者検出と位置推定の例に基づく視覚データを用いたオブジェクト検出の文脈において,そのようなLLMに対する潜在的幻覚検出戦略を体系的に評価した。
Waymo/US と PrePER CITY/Sweden の2つのデータセットを用いて,最先端の2つの LLM,プロプライエタリな GPT-4V とオープン LLaVA に適用した3つの幻覚検出戦略を評価した。
以上の結果から,これらのLCMは交通状況を細部まで詳細に記述できるが,オブジェクトの局所化などのさらなる分析活動には依然として課題が残されている。
歩行者検出の例において,これらのLCMをビデオシーケンスに適用する際の幻覚検出手法の評価と拡張を行った。
我々の実験は、現在最先端のLLMがオープンなLLMよりもはるかに優れた性能を発揮していることを示している。
さらに、Best-of-Three (BO3)法のような投票に基づく一貫性向上技術は、歩行者検出において高い偽陰性を示す傾向にあるLCMの幻覚を効果的に低減しない。
しかし、過去の情報を含むことによって幻覚検出を拡大することは、その結果を改善するのに役立つ。
Today's advanced driver assistance systems (ADAS), like adaptive cruise control or rear collision warning, are finding broader adoption across vehicle classes. Integrating such advanced, multimodal Large Language Models (LLMs) on board a vehicle, which are capable of processing text, images, audio, and other data types, may have the potential to greatly enhance passenger comfort. Yet, an LLM's hallucinations are still a major challenge to be addressed. In this paper, we systematically assessed potential hallucination detection strategies for such LLMs in the context of object detection in vision-based data on the example of pedestrian detection and localization. We evaluate three hallucination detection strategies applied to two state-of-the-art LLMs, the proprietary GPT-4V and the open LLaVA, on two datasets (Waymo/US and PREPER CITY/Sweden). Our results show that these LLMs can describe a traffic situation to an impressive level of detail but are still challenged for further analysis activities such as object localization. We evaluate and extend hallucination detection approaches when applying these LLMs to video sequences in the example of pedestrian detection. Our experiments show that, at the moment, the state-of-the-art proprietary LLM performs much better than the open LLM. Furthermore, consistency enhancement techniques based on voting, such as the Best-of-Three (BO3) method, do not effectively reduce hallucinations in LLMs that tend to exhibit high false negatives in detecting pedestrians. However, extending the hallucination detection by including information from the past helps to improve results. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# スマイル分析で明らかになった母親と幼児の相互作用の精神健康への影響
Behind the Smile: Mental Health Implications of Mother-Infant Interactions Revealed Through Smile Analysis ( http://arxiv.org/abs/2408.01434v1 ) ライセンス: Link先を確認 | A'di Dust, Pat Levitt, Maja Matarić, | (参考訳) 乳児の母親は、大人と大人の相互作用とは異なるダイナミクス、特に母親の感情的調節の強化を特徴とする、子供との感情的結合を育むための特別な要求を持っている。
本研究では、笑顔に反映された母性感情制御をモデル化し、母性感情状態を分析した。
データセットは、約3分のN=94ビデオからなり、6カ月から12カ月の乳児とその母親の間のフリープレイのインタラクションをキャプチャする。
自己申告された母親のメンタルヘルスの人口統計の詳細は、フリープレイ中に測定された感情と母親の関係を決定する変数を提供する。
本研究では,母性笑顔の時間的進化を探索するために,多様な方法論的アプローチを用いる。
以上の結果から,母親の笑顔の時間動態と感情状態との相関が示唆された。
さらに,母性感情状態と相関する特定の笑顔の特徴を同定し,一般的な笑顔分析に基づく既存文献とのインフォームド推論を可能にする。
本研究は、他者の利益のために自分の感情を管理するものとして定義された感情労働と、母子間相互作用にかかわる感情調節に関する洞察を提供する。
Mothers of infants have specific demands in fostering emotional bonds with their children, characterized by dynamics that are different from adult-adult interactions, notably requiring heightened maternal emotional regulation. In this study, we analyzed maternal emotional state by modeling maternal emotion regulation reflected in smiles. The dataset comprises N=94 videos of approximately 3 plus or minus 1-minutes, capturing free play interactions between 6 and 12-month-old infants and their mothers. Corresponding demographic details of self-reported maternal mental health provide variables for determining mothers' relations to emotions measured during free play. In this work, we employ diverse methodological approaches to explore the temporal evolution of maternal smiles. Our findings reveal a correlation between the temporal dynamics of mothers' smiles and their emotional state. Furthermore, we identify specific smile features that correlate with maternal emotional state, thereby enabling informed inferences with existing literature on general smile analysis. This study offers insights into emotional labor, defined as the management of one's own emotions for the benefit of others, and emotion regulation entailed in mother-infant interactions. | 翻訳日:2024-08-19 05:08:48 公開日:2024-07-18 |
# 発達遅滞児の診断スクリーニングのためのケースベース推論アプローチ
Case-based reasoning approach for diagnostic screening of children with developmental delays ( http://arxiv.org/abs/2408.02073v1 ) ライセンス: Link先を確認 | Zichen Song, Jiakang Li, Songning Lai, Sitan Huang, | (参考訳) 世界保健機関(WHO)によると、発達遅延のある子供の人口は全人口の約6%から9%を占める。
2023年(2023年)の中国安房省羽合兵衛(94,420人)の新生児数は、毎年約7,500件(発生遅延の疑い)と推定されている。
これらの子どもの早期発見と適切な早期介入は、医療資源の浪費と社会的コストを著しく削減することができる。
国際研究は、発達遅滞児の介入に最適な期間は6歳前であり、黄金治療期間は3歳半前であることを示している。
早期介入を受けた発達遅滞児は症状の著しい改善を示すことが研究で示されている。
本研究ではCNN-Transformerモデルとケースベース推論(CBR)を組み合わせたハイブリッドモデルを用いて,発達遅滞児のスクリーニング効率を向上させる。
CNN-Transformer モデルは画像の特徴抽出と認識に優れたモデルであり,骨年齢を決定するために骨年齢画像の特徴を効果的に識別する。
CBRは、経験から学ぶことによって人間が問題を解決する方法と同様、過去の経験に基づいて現在の問題を解決する。
CBRのメモリ能力は、以前記憶されていた古いケースに基づいて新しいケースを判断・比較できるので、潜時特性と可変特性を持つサポートシステムに適用するのに適している。
そこで本研究では,CNN-Transformer-CBRを用いて発達遅延児のスクリーニングシステムを構築し,スクリーニング効率の向上を目指す。
According to the World Health Organization, the population of children with developmental delays constitutes approximately 6% to 9% of the total population. Based on the number of newborns in Huaibei, Anhui Province, China, in 2023 (94,420), it is estimated that there are about 7,500 cases (suspected cases of developmental delays) of suspicious cases annually. Early identification and appropriate early intervention for these children can significantly reduce the wastage of medical resources and societal costs. International research indicates that the optimal period for intervention in children with developmental delays is before the age of six, with the golden treatment period being before three and a half years of age. Studies have shown that children with developmental delays who receive early intervention exhibit significant improvement in symptoms; some may even fully recover. This research adopts a hybrid model combining a CNN-Transformer model with Case-Based Reasoning (CBR) to enhance the screening efficiency for children with developmental delays. The CNN-Transformer model is an excellent model for image feature extraction and recognition, effectively identifying features in bone age images to determine bone age. CBR is a technique for solving problems based on similar cases; it solves current problems based on past experiences, similar to how humans solve problems through learning from experience. Given CBR's memory capability to judge and compare new cases based on previously stored old cases, it is suitable for application in support systems with latent and variable characteristics. Therefore, this study utilizes the CNN-Transformer-CBR to establish a screening system for children with developmental delays, aiming to improve screening efficiency. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-18 |
# 深部強化学習による無人機の自律走行
Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning ( http://arxiv.org/abs/2407.18962v1 ) ライセンス: Link先を確認 | Letian Xu, Jiabei Liu, Haopeng Zhao, Tianyao Zheng, Tongzhou Jiang, Lipeng Liu, | (参考訳) 本稿では,Deep Reinforcement Learning (DRL) を用いて無人車両の自律走行を実現する方法について検討する。
焦点は、高次元連続行動空間における問題に対処するために、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを使用することである。
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。
改良アルゴリズムの実現可能性を検証するため,シミュレーション環境で実験を行った。
その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
This paper explores the method of achieving autonomous navigation of unmanned vehicles through Deep Reinforcement Learning (DRL). The focus is on using the Deep Deterministic Policy Gradient (DDPG) algorithm to address issues in high-dimensional continuous action spaces. The paper details the model of a Ackermann robot and the structure and application of the DDPG algorithm. Experiments were conducted in a simulation environment to verify the feasibility of the improved algorithm. The results demonstrate that the DDPG algorithm outperforms traditional Deep Q-Network (DQN) and Double Deep Q-Network (DDQN) algorithms in path planning tasks. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-18 |
# スパースMRIにおける高次元信頼領域
High-Dimensional Confidence Regions in Sparse MRI ( http://arxiv.org/abs/2407.18964v1 ) ライセンス: Link先を確認 | Frederik Hoppe, Felix Krahmer, Claudio Mayrink Verdun, Marion Menzel, Holger Rauhut, | (参考訳) 高次元統計学における不確実量化の最も有望な解の1つは、非制限の$\ell_1$-minimizationに依存する脱バイアスLASSOである。
最初の研究は、この問題のおもちゃモデルとしてのガウシアンの設計に焦点を当てた。
しかし、MRIの圧縮センシングのような医療画像の応用では、測定システムは(サブサンプリングされた)複素フーリエ行列で表される。
本研究の目的は,MR画像の各画素に対する信頼区間を構築するために,この手法をMRIケースに拡張することである。
十分な量のデータは$n \gtrsim \max\{ s_0\log^2 s_0\log p, s_0 \log^2 p \}$であることを示す。
One of the most promising solutions for uncertainty quantification in high-dimensional statistics is the debiased LASSO that relies on unconstrained $\ell_1$-minimization. The initial works focused on real Gaussian designs as a toy model for this problem. However, in medical imaging applications, such as compressive sensing for MRI, the measurement system is represented by a (subsampled) complex Fourier matrix. The purpose of this work is to extend the method to the MRI case in order to construct confidence intervals for each pixel of an MR image. We show that a sufficient amount of data is $n \gtrsim \max\{ s_0\log^2 s_0\log p, s_0 \log^2 p \}$. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-18 |
# 誘導型形式検証によるAI生成
Generative AI Augmented Induction-based Formal Verification ( http://arxiv.org/abs/2407.18965v1 ) ライセンス: Link先を確認 | Aman Kumar, Deepak Narayan Gadde, | (参考訳) 生成人工知能(GenAI)は、人間の労力を大幅に削減する現在の世界でその能力を実証している。
ディープラーニング技術を利用して、テキスト、画像、コード、音楽、ビデオの観点で、オリジナルでリアルなコンテンツを作成する。
研究者は、ハードウェア開発に役立つGenAIモデルで使用されている最新のLarge Language Models(LLM)の能力も示した。
形式的検証は、設計の正しさを徹底的に検証する数学的手法である。
本稿では,GenAIがインダクションベースの形式検証でどのように使用できるかを示し,検証スループットを向上する。
Generative Artificial Intelligence (GenAI) has demonstrated its capabilities in the present world that reduce human effort significantly. It utilizes deep learning techniques to create original and realistic content in terms of text, images, code, music, and video. Researchers have also shown the capabilities of modern Large Language Models (LLMs) used by GenAI models that can be used to aid hardware development. Formal verification is a mathematical-based proof method used to exhaustively verify the correctness of a design. In this paper, we demonstrate how GenAI can be used in induction-based formal verification to increase the verification throughput. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-18 |
# ニューラルネットワークにおけるロバスト物体認識のための最適化戦略としての構成処理
Configural processing as an optimized strategy for robust object recognition in neural networks ( http://arxiv.org/abs/2407.19072v1 ) ライセンス: Link先を確認 | Hojin Jang, Pawan Sinha, Xavier Boix, | (参考訳) オブジェクトのコンポーネント間の空間的関係の認識である構成処理は、オブジェクト認識に不可欠である。
しかし、このような処理のテレロジーと基礎となる神経計算機構は、何十年もの研究にもかかわらず、いまだ解明されていない。
構成的手がかりによるオブジェクトの処理は、局所的な工芸的手がかりと比較して、より堅牢な認識手段を提供するという仮説を立てた。
我々は,この仮説を,複合文字刺激を用いた識別タスクを考案し,局所的あるいは構成的手法で学習した異なるニューラルネットワークモデルを比較して評価した。
構成的手がかりは回転やスケーリングといった幾何学的変換に対してより堅牢な性能をもたらすことがわかった。
さらに、両方の特徴が同時に利用可能になったとき、構成的手がかりは地元の工芸的手がかりよりも好まれていた。
階層解析により, 局所的な特徴的手がかりに対して構成的手がかりに対する感度が後に出現し, ピクセルレベルの変換に対する堅牢性に寄与する可能性が示唆された。
特に、この構成処理は、再帰的な計算を必要とせず、純粋にフィードフォワード的に発生した。
文字刺激による所見は自然主義的な顔画像に拡張した。
そこで本研究では,タスクの同時性に基づくネットワークにおいて,構成処理が出現する神経計算的証拠を提供するとともに,観察条件の変化による堅牢なオブジェクト処理に有用であることを示す。
Configural processing, the perception of spatial relationships among an object's components, is crucial for object recognition. However, the teleology and underlying neurocomputational mechanisms of such processing are still elusive, notwithstanding decades of research. We hypothesized that processing objects via configural cues provides a more robust means to recognizing them relative to local featural cues. We evaluated this hypothesis by devising identification tasks with composite letter stimuli and comparing different neural network models trained with either only local or configural cues available. We found that configural cues yielded more robust performance to geometric transformations such as rotation or scaling. Furthermore, when both features were simultaneously available, configural cues were favored over local featural cues. Layerwise analysis revealed that the sensitivity to configural cues emerged later relative to local feature cues, possibly contributing to the robustness to pixel-level transformations. Notably, this configural processing occurred in a purely feedforward manner, without the need for recurrent computations. Our findings with letter stimuli were successfully extended to naturalistic face images. Thus, our study provides neurocomputational evidence that configural processing emerges in a na\"ive network based on task contingencies, and is beneficial for robust object processing under varying viewing conditions. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-18 |
# クラスタリング検証指標のA-to-Zレビューから
From A-to-Z Review of Clustering Validation Indices ( http://arxiv.org/abs/2407.20246v1 ) ライセンス: Link先を確認 | Bryar A. Hassan, Noor Bahjat Tayfor, Alla A. Hassan, Aram M. Ahmed, Tarik A. Rashid, Naz N. Abdalla, | (参考訳) データクラスタリングでは、データセット内の遅延類似性を識別し、それらをクラスタやグループに編成する。
様々なクラスタリングアルゴリズムの結果は、ノイズや次元を含む元のデータセットの本質的な特性に影響を受けやすいため、異なる。
このようなクラスタリング手法の有効性はクラスタの均一性に直接影響を与え、アルゴリズム的な結果を評価することの重要性を強調している。
その結果、クラスタリング品質の評価は、重要かつ複雑な取り組みとなる。
クラスタの検証に影響を与える重要な側面は、クラスタの最適な数を決定するのに役立つクラスタの妥当性指標である。
本研究の主な目的は、内部および外部クラスタの妥当性指標の数学的操作を網羅的に検証し、説明し、これらの指標を分類し、クラスタリング検証研究の今後の進歩に向けたブレインストーミング提案を行うことである。
さらに,進化的クラスタリングアルゴリズムスター (ECA*) など,最も一般的なクラスタリングアルゴリズムを用いて,内部および外部クラスタリング検証指標の性能評価を行った。
最後に,入力データに対するユーザフレンドリさ,応答性,各分野における適切性について,内部クラスタリング検証と外部クラスタリング検証の両方の機能を検討するための分類フレームワークを提案する。
この分類は、研究者が特定の要求に合うように適切なクラスタリング検証尺度を選択するのに役立つ。
Data clustering involves identifying latent similarities within a dataset and organizing them into clusters or groups. The outcomes of various clustering algorithms differ as they are susceptible to the intrinsic characteristics of the original dataset, including noise and dimensionality. The effectiveness of such clustering procedures directly impacts the homogeneity of clusters, underscoring the significance of evaluating algorithmic outcomes. Consequently, the assessment of clustering quality presents a significant and complex endeavor. A pivotal aspect affecting clustering validation is the cluster validity metric, which aids in determining the optimal number of clusters. The main goal of this study is to comprehensively review and explain the mathematical operation of internal and external cluster validity indices, but not all, to categorize these indices and to brainstorm suggestions for future advancement of clustering validation research. In addition, we review and evaluate the performance of internal and external clustering validation indices on the most common clustering algorithms, such as the evolutionary clustering algorithm star (ECA*). Finally, we suggest a classification framework for examining the functionality of both internal and external clustering validation measures regarding their ideal values, user-friendliness, responsiveness to input data, and appropriateness across various fields. This classification aids researchers in selecting the appropriate clustering validation measure to suit their specific requirements. | 翻訳日:2024-08-05 00:56:24 公開日:2024-07-18 |
# 大規模言語モデルの符号化ネゴシエーション・トランスクリプトへの応用
An Application of Large Language Models to Coding Negotiation Transcripts ( http://arxiv.org/abs/2407.21037v1 ) ライセンス: Link先を確認 | Ray Friedman, Jaewoo Cho, Jeanne Brett, Xuhui Zhan, Ningyu Han, Sriram Kannan, Yingxiang Ma, Jesse Spencer-Smith, Elisabeth Jäckel, Alfred Zerres, Madison Hooper, Katie Babbit, Manish Acharya, Wendi Adair, Soroush Aslani, Tayfun Aykaç, Chris Bauman, Rebecca Bennett, Garrett Brady, Peggy Briggs, Cheryl Dowie, Chase Eck, Igmar Geiger, Frank Jacob, Molly Kern, Sujin Lee, Leigh Anne Liu, Wu Liu, Jeffrey Loewenstein, Anne Lytle, Li Ma, Michel Mann, Alexandra Mislin, Tyree Mitchell, Hannah Martensen née Nagler, Amit Nandkeolyar, Mara Olekalns, Elena Paliakova, Jennifer Parlamis, Jason Pierce, Nancy Pierce, Robin Pinkley, Nathalie Prime, Jimena Ramirez-Marin, Kevin Rockmann, William Ross, Zhaleh Semnani-Azad, Juliana Schroeder, Philip Smith, Elena Stimmer, Roderick Swaab, Leigh Thompson, Cathy Tinsley, Ece Tuncel, Laurie Weingart, Robert Wilken, JingJing Yao, Zhi-Xue Zhang, | (参考訳) 近年、Large Language Models (LLM) は自然言語処理(NLP)の分野で印象的な能力を発揮している。
本稿では,Vanderbilt AI Negotiation Lab による交渉テキスト解析における LLM の適用について検討する。
2022年9月からは、ゼロショットラーニングから微調整モデル、インコンテキストラーニングまで、LLMを使った複数の戦略を適用した。
私たちが開発した最後の戦略は、モデルへのアクセスと使用方法とともに説明されています。
本研究は, LLMを現実のアプリケーションに適用するための機会と障害を両立させるとともに, LLMを他の分野のコーディングに適用するためのモデルを提供する。
In recent years, Large Language Models (LLM) have demonstrated impressive capabilities in the field of natural language processing (NLP). This paper explores the application of LLMs in negotiation transcript analysis by the Vanderbilt AI Negotiation Lab. Starting in September 2022, we applied multiple strategies using LLMs from zero shot learning to fine tuning models to in-context learning). The final strategy we developed is explained, along with how to access and use the model. This study provides a sense of both the opportunities and roadblocks for the implementation of LLMs in real life applications and offers a model for how LLMs can be applied to coding in other fields. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-18 |
# 交通研究における時空間データの差分プライバシーに関する調査
A Survey on Differential Privacy for SpatioTemporal Data in Transportation Research ( http://arxiv.org/abs/2407.15868v1 ) ライセンス: Link先を確認 | Rahul Bhadani, | (参考訳) 低コストのコンピューティングデバイス、センサー技術の改善、データ駆動アルゴリズムの普及などにより、私たちは何をすべきかより多くのデータを持っています。
交通機関では、時空間データ収集が急増している。
同時に、ユーザのプライバシに関する懸念が、適用された設定における差分プライバシの研究につながっている。
本稿では、時空間データの文脈における微分プライバシーの最近の発展について考察する。
時空間データには、ユーザの特徴だけでなく、頻繁な訪問の地理的位置も含まれている。
したがって、そのようなデータの公開には極端なリスクが伴う。
個人情報を公開することなく、研究や推論におけるこのようなデータの必要性に対処するために、重要な研究が提案されている。
本研究は,これらの取り組みを要約し,差分プライバシー機構と関連するソフトウェアについてレビューすることを目的とする。
また、このようなメカニズムが適用された輸送における関連作業についても論じる。
さらに、下流分析のための交通時空間データにおける差分プライバシーの展開と大量導入の課題に対処する。
With low-cost computing devices, improved sensor technology, and the proliferation of data-driven algorithms, we have more data than we know what to do with. In transportation, we are seeing a surge in spatiotemporal data collection. At the same time, concerns over user privacy have led to research on differential privacy in applied settings. In this paper, we look at some recent developments in differential privacy in the context of spatiotemporal data. Spatiotemporal data contain not only features about users but also the geographical locations of their frequent visits. Hence, the public release of such data carries extreme risks. To address the need for such data in research and inference without exposing private information, significant work has been proposed. This survey paper aims to summarize these efforts and provide a review of differential privacy mechanisms and related software. We also discuss related work in transportation where such mechanisms have been applied. Furthermore, we address the challenges in the deployment and mass adoption of differential privacy in transportation spatiotemporal data for downstream analyses. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-18 |
# 時系列予測のためのLong Input Sequence Network
Long Input Sequence Network for Long Time Series Forecasting ( http://arxiv.org/abs/2407.15869v1 ) ライセンス: Link先を確認 | Chao Ma, Yikai Hou, Xiang Li, Yinggang Sun, Haining Yu, | (参考訳) 短時間の固定長入力は、長い時系列予測タスクにおけるディープラーニング手法の主なボトルネックである。
入力長が長くなると、過度に適合し、急速に精度が低下する。
本研究は,時間列におけるマルチスケールパターン結合と,現行モデルの固定フォーカススケールの組合せであることを示す。
まず,様々なスケールにまたがる時系列で表されるパターンは,各スケールが特定の期間長に対応する多周期的特性を反映していることがわかった。
第二に、トークンのサイズはモデルがフォーカスするスケールとそれに対応するコンテキストサイズを決定するため、主にモデルの振る舞いを規定する。
我々の考えは、時系列のマルチスケール時間パターンを分離し、対応する周期長のパターンをトークンサイズとしてモデル化することである。
我々は,新しいシリーズ分解モジュール (MPSD) とマルチトークンパターン認識ニューラルネットワーク (MTPR) を導入し,最大10\times$long} まで扱えるようにした。
Sufficient contexts enhance performance (\textit{38% maximum precision Improvement}) and the decoupling approach offered \textit{Low complexity($0.22\times$ cost)} and \textit{high interpretability}。
Short fixed-length inputs are the main bottleneck of deep learning methods in long time-series forecasting tasks. Prolonging input length causes overfitting, rapidly deteriorating accuracy. Our research indicates that the overfitting is a combination reaction of the multi-scale pattern coupling in time series and the fixed focusing scale of current models. First, we find that the patterns exhibited by a time series across various scales are reflective of its multi-periodic nature, where each scale corresponds to specific period length. Second, We find that the token size predominantly dictates model behavior, as it determines the scale at which the model focuses and the context size it can accommodate. Our idea is to decouple the multi-scale temporal patterns of time series and to model each pattern with its corresponding period length as token size. We introduced a novel series-decomposition module(MPSD), and a Multi-Token Pattern Recognition neural network(MTPR), enabling the model to handle \textit{inputs up to $10\times$ longer}. Sufficient context enhances performance(\textit{38% maximum precision improvement}), and the decoupling approach offers \textit{Low complexity($0.22\times$ cost)} and \textit{high interpretability}. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-18 |
# CIC: 円状の画像圧縮
CIC: Circular Image Compression ( http://arxiv.org/abs/2407.15870v1 ) ライセンス: Link先を確認 | Honggui Li, Sinan Chen, Nahid Md Lokman Hossain, Maria Trocan, Beata Mikovicova, Muhammad Fahimullah, Dimitri Galayko, Mohamad Sawan, | (参考訳) 学習された画像圧縮(lic)は、現在最先端の手法である。
しかしながら、テストとlicのトレーニングイメージの本質的にの違いは、パフォーマンスの低下をある程度もたらします。
特に、アウト・オブ・サンプル、アウト・オブ・ディストリビューション、ドメイン外のテストイメージでは、licのパフォーマンスが劇的に低下した。
Classical LICは、シリアルエンコーディングとデコードユニットを備えたオープンループアーキテクチャを利用するシリアルイメージ圧縮(SIC)アプローチである。
それでも、自動制御の理論によれば、クローズドループアーキテクチャは、licの動的および静的な性能を改善する可能性を秘めている。
そこで, 閉ループ符号化とデコード要素を用いた円形画像圧縮(CIC)手法を提案し, テストとトレーニング画像間のギャップを最小化し, licの能力を向上する。
提案したCICは非線形ループ方程式を確立し、再構成された画像と元の画像の定常誤差がタラー級数展開によってゼロに近いことを証明した。
提案したCIC法は,既存の先進的なSIC法で構築可能なポストトライニングとプラグアンドプレイの特性を有する。
5つの公開画像圧縮データセットの実験結果から、提案したCICは、復元能力において、最先端のSICアルゴリズムと競合する5つのオープンソースアルゴリズムより優れていることが示された。
さらに実験結果から,提案手法は暗黒背景,シャープエッジ,高コントラスト,格子形状,複雑なパターンを有するサンプル外画像に適していることが示された。
Learned image compression (LIC) is currently the cutting-edge method. However, the inherent difference between testing and training images of LIC results in performance degradation to some extent. Especially for out-of-sample, out-of-distribution, or out-of-domain testing images, the performance of LIC dramatically degraded. Classical LIC is a serial image compression (SIC) approach that utilizes an open-loop architecture with serial encoding and decoding units. Nevertheless, according to the theory of automatic control, a closed-loop architecture holds the potential to improve the dynamic and static performance of LIC. Therefore, a circular image compression (CIC) approach with closed-loop encoding and decoding elements is proposed to minimize the gap between testing and training images and upgrade the capability of LIC. The proposed CIC establishes a nonlinear loop equation and proves that steady-state error between reconstructed and original images is close to zero by Talor series expansion. The proposed CIC method possesses the property of Post-Training and plug-and-play which can be built on any existing advanced SIC methods. Experimental results on five public image compression datasets demonstrate that the proposed CIC outperforms five open-source state-of-the-art competing SIC algorithms in reconstruction capacity. Experimental results further show that the proposed method is suitable for out-of-sample testing images with dark backgrounds, sharp edges, high contrast, grid shapes, or complex patterns. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-18 |
# セマンティックプロトタイプ:ブラックボックスなしで透明性を高める
Semantic Prototypes: Enhancing Transparency Without Black Boxes ( http://arxiv.org/abs/2407.15871v1 ) ライセンス: Link先を確認 | Orfeas Menis-Mastromichalakis, Giorgos Filandrianos, Jason Liartis, Edmund Dervakos, Giorgos Stamou, | (参考訳) 機械学習(ML)モデルとデータセットが複雑化するにつれて、説明可能性と解釈可能性を高める手法の需要が最重要となる。
プロトタイプは、データに不可欠な特徴をカプセル化することによって、戦術的な意思決定を可能にし、透明性を高める洞察を提供する。
伝統的なプロトタイプの手法は、しばしば準記号的な生データと不透明な潜伏空間に依存し、説明可能性の低減と誤解釈のリスクの増大を図っている。
本稿では, 従来の手法の欠点を効果的に解決する上で, 意味記述を用いてプロトタイプを定義し, 明確な説明を提供する新しい枠組みを提案する。
提案手法では,概念に基づく記述をセマンティックレベルでのクラスタデータに活用することにより,プロトタイプが直感的に特性を表現するだけでなく,解釈も容易になる。
本手法は,解釈過程を単純化し,複雑なデータ構造と人間の認知過程のギャップを効果的に橋渡しし,透明性を高め,信頼を育む。
提案手法は,ユーザ調査で検証したように,人間の理解と情報提供を容易にするため,既存の広範に使用されているプロトタイプ手法よりも優れている。
As machine learning (ML) models and datasets increase in complexity, the demand for methods that enhance explainability and interpretability becomes paramount. Prototypes, by encapsulating essential characteristics within data, offer insights that enable tactical decision-making and enhance transparency. Traditional prototype methods often rely on sub-symbolic raw data and opaque latent spaces, reducing explainability and increasing the risk of misinterpretations. This paper presents a novel framework that utilizes semantic descriptions to define prototypes and provide clear explanations, effectively addressing the shortcomings of conventional methods. Our approach leverages concept-based descriptions to cluster data on the semantic level, ensuring that prototypes not only represent underlying properties intuitively but are also straightforward to interpret. Our method simplifies the interpretative process and effectively bridges the gap between complex data structures and human cognitive processes, thereby enhancing transparency and fostering trust. Our approach outperforms existing widely-used prototype methods in facilitating human understanding and informativeness, as validated through a user survey. | 翻訳日:2024-07-24 21:54:39 公開日:2024-07-18 |
# h/p-multigridソルバの自動化と高速化のための強化学習戦略
A reinforcement learning strategy to automate and accelerate h/p-multigrid solvers ( http://arxiv.org/abs/2407.15872v1 ) ライセンス: Link先を確認 | David Huergo, Laura Alonso, Saumitra Joshi, Adrian Juanicoteca, Gonzalo Rubio, Esteban Ferrer, | (参考訳) 高次解法におけるh/p-multigrid法の自動化と高速化を目的とした強化学習戦略を検討する。
マルチグリッド法は非常に効率的であるが、レベルごとのスムーズなスイープ数や修正率(すなわち、粗いグリッドからより細かいグリッドに転送される修正された解の割合)などの数値パラメータを微調整する必要がある。
本研究の目的は,h/p-multigrid 戦略の安定性と効率性を向上させるために,近似ポリシ最適化アルゴリズムを用いてマルチグリッドパラメータを自動的に調整することである。
その結果,一次元の対流拡散と非線形バーガース方程式に対して,高次h/p法を用いて一様格子と非一様格子上の離散化を行う場合,提案手法は定常シミュレーションの頑健さを著しく向上させることがわかった。
We explore a reinforcement learning strategy to automate and accelerate h/p-multigrid methods in high-order solvers. Multigrid methods are very efficient but require fine-tuning of numerical parameters, such as the number of smoothing sweeps per level and the correction fraction (i.e., proportion of the corrected solution that is transferred from a coarser grid to a finer grid). The objective of this paper is to use a proximal policy optimization algorithm to automatically tune the multigrid parameters and, by doing so, improve stability and efficiency of the h/p-multigrid strategy. Our findings reveal that the proposed reinforcement learning h/p-multigrid approach significantly accelerates and improves the robustness of steady-state simulations for one dimensional advection-diffusion and nonlinear Burgers' equations, when discretized using high-order h/p methods, on uniform and nonuniform grids. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-18 |
# SpAtten: カスケードトークンとヘッドプルーニングによる効率的なスパースアテンションアーキテクチャ
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning ( http://arxiv.org/abs/2012.09852v3 ) ライセンス: Link先を確認 | Hanrui Wang, Zhekai Zhang, Song Han, | (参考訳) 自然言語処理(NLP)アプリケーションでは注目のメカニズムがますます普及しており、畳み込みや繰り返しのアーキテクチャよりも優れたパフォーマンスを示している。
しかし、入力長に対する2次計算の複雑さ、複雑なデータ移動、演算強度の低さにより、注意が計算ボトルネックとなる。
さらに、既存のNNアクセラレータは主に畳み込みモデルやリカレントモデルの最適化に重点を置いており、注意を効率的に支援することはできない。
本稿では,トークンのスペーサ性,頭部のスペーサ性,量子化の機会を利用して注意計算やメモリアクセスを低減する,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。
文中の重要でないトークンを抽出するための新しいカスケードトークンプルーニングを提案する。
また,不要な頭部を除去するカスケードヘッドプルーニングを提案する。
カスケードプルーニングは、アテンション機構にトレーニング可能なウェイトが存在しないため、ウェイトプルーニングと根本的に異なり、フライでプルーニングされたトークンとヘッドが選択される。
ハードウェア上でそれらを効率的にサポートするために,トークンと頭部重大スコアを高いスループットでランク付けする新しいトップkエンジンを設計する。
さらに、まずMSBのみをフェッチし、その計算を実行するプログレッシブ量子化を提案し、信頼度が低ければLSBをフェッチし、アテンション出力を再計算し、メモリ削減のためのトレーディング計算を行う。
30ベンチマークの大規模な実験によると、SpAttenは平均してDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと、1,4x, 3.2x, 1193x, 4059xの省エネをA3アクセラレータ、MNNFastアクセラレータ、TITAN Xp GPU、Xeon CPUで達成している。
The attention mechanism is becoming increasingly popular in Natural Language Processing (NLP) applications, showing superior performance than convolutional and recurrent architectures. However, attention becomes the compution bottleneck because of its quadratic computational complexity to input length, complicated data movement and low arithmetic intensity. Moreover, existing NN accelerators mainly focus on optimizing convolutional or recurrent models, and cannot efficiently support attention. In this paper, we present SpAtten, an efficient algorithm-architecture co-design that leverages token sparsity, head sparsity, and quantization opportunities to reduce the attention computation and memory access. Inspired by the high redundancy of human languages, we propose the novel cascade token pruning to prune away unimportant tokens in the sentence. We also propose cascade head pruning to remove unessential heads. Cascade pruning is fundamentally different from weight pruning since there is no trainable weight in the attention mechanism, and the pruned tokens and heads are selected on the fly. To efficiently support them on hardware, we design a novel top-k engine to rank token and head importance scores with high throughput. Furthermore, we propose progressive quantization that first fetches MSBs only and performs the computation; if the confidence is low, it fetches LSBs and recomputes the attention outputs, trading computation for memory reduction. Extensive experiments on 30 benchmarks show that, on average, SpAtten reduces DRAM access by 10.0x with no accuracy loss, and achieves 1.6x, 3.0x, 162x, 347x speedup, and 1,4x, 3.2x, 1193x, 4059x energy savings over A3 accelerator, MNNFast accelerator, TITAN Xp GPU, Xeon CPU, respectively. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-18 |
# 機械的自己複製
Mechanical Self-replication ( http://arxiv.org/abs/2407.14556v1 ) ライセンス: Link先を確認 | Ralph P. Lano, | (参考訳) 本研究では,生体細胞内の生物学的過程にインスパイアされた自己複製機械系の理論的モデルを提案する。
モデルは自己複製をコアコンポーネントに分解し、それぞれが基本ブロック型のセットから構築された単一のマシンによって実行される。
ソート、コピー、ビルディングといった重要な機能を示す。
このモデルは自己複製システムの制約に関する貴重な洞察を提供する。
この議論はまた、システムの空間的およびタイミング的挙動と、その効率性と複雑さについても論じている。
この研究は、自己複製機構とその情報処理アプリケーションに関する将来の研究のための基盤となるフレームワークを提供する。
This study presents a theoretical model for a self-replicating mechanical system inspired by biological processes within living cells and supported by computer simulations. The model decomposes self-replication into core components, each of which is executed by a single machine constructed from a set of basic block types. Key functionalities such as sorting, copying, and building, are demonstrated. The model provides valuable insights into the constraints of self-replicating systems. The discussion also addresses the spatial and timing behavior of the system, as well as its efficiency and complexity. This work provides a foundational framework for future studies on self-replicating mechanisms and their information-processing applications. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-18 |
# サッカーの基礎モデル
A Foundation Model for Soccer ( http://arxiv.org/abs/2407.14558v1 ) ライセンス: Link先を確認 | Ethan Baron, Daniel Hocevar, Zach Salehe, | (参考訳) 提案するサッカーの基盤モデルでは,与えられたアクションの入力シーケンスから,サッカーの試合におけるその後のアクションを予測することができる。
概念実証として,プロサッカーリーグの3シーズンのデータに対して,トランスフォーマーアーキテクチャをトレーニングする。
この変換器アーキテクチャの性能をマルコフモデルと多層パーセプトロンの2つのベースラインモデルと定量的に定量的に比較する。
さらに,本モデルの適用可能性についても論じる。
我々は,我々のメソッドのオープンソース実装をhttps://github.com/danielhocevar/Foundation-Model-for-Soccerで公開しています。
We propose a foundation model for soccer, which is able to predict subsequent actions in a soccer match from a given input sequence of actions. As a proof of concept, we train a transformer architecture on three seasons of data from a professional soccer league. We quantitatively and qualitatively compare the performance of this transformer architecture to two baseline models: a Markov model and a multi-layer perceptron. Additionally, we discuss potential applications of our model. We provide an open-source implementation of our methods at https://github.com/danielhocevar/Foundation-Model-for-Soccer. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# 人工知能の分野におけるスター科学者の予測 - 機械学習のアプローチ
Predicting Star Scientists in the Field of Artificial Intelligence: A Machine Learning Approach ( http://arxiv.org/abs/2407.14559v1 ) ライセンス: Link先を確認 | Koosha Shirouyeh, Andrea Schiffauerova, Ashkan Ebadi, | (参考訳) 恒星科学者は、その分野に多大な貢献をし、広く認知され、しばしばかなりの研究資金を集めてきた、非常に影響力のある研究者である。
彼らは科学とイノベーションの進歩に批判的であり、知識と技術の産業への移転に大きな影響を与えている。
有望な恒星科学者の業績が明らかになる前に特定することは、採用、協力、ネットワーク、研究資金決定に重要である。
本研究は、機械学習技術を用いて、人工知能分野のスター科学者を予測し、その成功に関連する特徴を強調したモデルを提案する。
以上の結果から、昇降する星は、ほとんど全ての早期キャリアの特徴において、自転しない恒星と比べて異なるパターンを辿っていることが確認された。
また, ジェンダーや民族の多様性といった特徴が, 科学的コラボレーションにおいて重要な役割を担い, 著者のキャリア形成と成功に大きな影響を与えることも見出した。
人工知能の分野で星科学者を予測する上で最も重要な特徴は、記事の数、グループの規律の多様性、重み付けされた中心性であった。
提案手法は、有能な研究者を特定し支援することに関心のある研究者、実践者、資金提供機関に貴重な洞察を与える。
Star scientists are highly influential researchers who have made significant contributions to their field, gained widespread recognition, and often attracted substantial research funding. They are critical for the advancement of science and innovation, and they have a significant influence on the transfer of knowledge and technology to industry. Identifying potential star scientists before their performance becomes outstanding is important for recruitment, collaboration, networking, or research funding decisions. Using machine learning techniques, this study proposes a model to predict star scientists in the field of artificial intelligence while highlighting features related to their success. Our results confirm that rising stars follow different patterns compared to their non-rising stars counterparts in almost all the early-career features. We also found that certain features such as gender and ethnic diversity play important roles in scientific collaboration and that they can significantly impact an author's career development and success. The most important features in predicting star scientists in the field of artificial intelligence were the number of articles, group discipline diversity, and weighted degree centrality. The proposed approach offers valuable insights for researchers, practitioners, and funding agencies interested in identifying and supporting talented researchers. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# 画像内インテリジェンスを実現するニューラルネットワークとASICの自動設計
Automated and Holistic Co-design of Neural Networks and ASICs for Enabling In-Pixel Intelligence ( http://arxiv.org/abs/2407.14560v1 ) ライセンス: Link先を確認 | Shubha R. Kharel, Prashansa Mukim, Piotr Maj, Grzegorz W. Deptuch, Shinjae Yoo, Yihui Ren, Soumyajit Mandal, | (参考訳) 放射能検出のための可読ASICのような極端エッジAIシステムは、従来のアーキテクチャよりも明確な精度の利点を提供しながら、ミクロンレベルの次元、サブミリワットのパワー、ナノ秒スケールのスピードといった厳密なハードウェア制約の下で動作しなければならない。
理想的なソリューションを見つけることは、これらのドメインの合併の間に爆発的に拡張された設計空間から最適なAIとASIC設計の選択を識別することであり、制約を締め付けることで小さなソリューションセットに作用する非自明な結合を生み出す。
不可能ではないとしても、小さな問題であっても数十億を超える可能性の理想的な選択を手動で決定するのは現実的ではない。
このギャップを埋める既存の手法は、ハードウェアの理論的理解をfアーキテクチャ探索に活用している。
しかし、そのような理論的なメトリクスを計算する際の仮定は、現実的な実装の困難な探索において十分なガイダンスを提供するには理想的すぎる。
一方、他の多くの重要な指標(遅延など)の理論的推定は存在せず、同様に可変であり、プロセス設計キット(PDK)のパラメータに依存する。
これらの課題に対処するために,多目的ベイズ最適化を用いたインテリジェント検索を用いて,ニューラルネットワーク探索とASIC合成の両方をループに統合する研究を提案する。
このアプローチは、すべてのクロスドメイン設計選択の集合的影響に対する信頼性の高いフィードバックを提供する。
本稿では,本手法の有効性を示すために,読み出しASICの個々の画素内の入力パルスからリアルタイムの特徴抽出を行う,効率的かつ効率的なニューラルネットワークのためのパレート最適設計選択法を提案する。
Extreme edge-AI systems, such as those in readout ASICs for radiation detection, must operate under stringent hardware constraints such as micron-level dimensions, sub-milliwatt power, and nanosecond-scale speed while providing clear accuracy advantages over traditional architectures. Finding ideal solutions means identifying optimal AI and ASIC design choices from a design space that has explosively expanded during the merger of these domains, creating non-trivial couplings which together act upon a small set of solutions as constraints tighten. It is impractical, if not impossible, to manually determine ideal choices among possibilities that easily exceed billions even in small-size problems. Existing methods to bridge this gap have leveraged theoretical understanding of hardware to f architecture search. However, the assumptions made in computing such theoretical metrics are too idealized to provide sufficient guidance during the difficult search for a practical implementation. Meanwhile, theoretical estimates for many other crucial metrics (like delay) do not even exist and are similarly variable, dependent on parameters of the process design kit (PDK). To address these challenges, we present a study that employs intelligent search using multi-objective Bayesian optimization, integrating both neural network search and ASIC synthesis in the loop. This approach provides reliable feedback on the collective impact of all cross-domain design choices. We showcase the effectiveness of our approach by finding several Pareto-optimal design choices for effective and efficient neural networks that perform real-time feature extraction from input pulses within the individual pixels of a readout ASIC. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# NNsightとNDIF:財団モデル内部へのアクセスを民主化
NNsight and NDIF: Democratizing Access to Foundation Model Internals ( http://arxiv.org/abs/2407.14561v1 ) ライセンス: Link先を確認 | Jaden Fiotto-Kaufman, Alexander R Loftus, Eric Todd, Jannik Brinkmann, Caden Juang, Koyena Pal, Can Rager, Aaron Mueller, Samuel Marks, Arnab Sen Sharma, Francesca Lucchetti, Michael Ripa, Adam Belfki, Nikhil Prakash, Sumeet Multani, Carla Brodley, Arjun Guha, Jonathan Bell, Byron Wallace, David Bau, | (参考訳) 大規模なモデルサイズでカスタマイズされた実験には、多くの研究者にとって実用的でない高価なハードウェアと複雑なエンジニアリングが必要であるため、最先端の基礎モデルの膨大な規模は、科学者へのアクセシビリティを制限している。
NNsightは、計算グラフを構築することで、任意のPyTorchモデルの介入を表現できるシンプルなフレキシブルなAPIを備えた、オープンソースのPythonパッケージである。
NDIFは、NNsight APIを通じて基礎的なLLMへのアクセスを提供する共同研究プラットフォームである。
コード、ドキュメンテーション、チュートリアルはhttps://www.nnsight.net.comで公開されている。
The enormous scale of state-of-the-art foundation models has limited their accessibility to scientists, because customized experiments at large model sizes require costly hardware and complex engineering that is impractical for most researchers. To alleviate these problems, we introduce NNsight, an open-source Python package with a simple, flexible API that can express interventions on any PyTorch model by building computation graphs. We also introduce NDIF, a collaborative research platform providing researchers access to foundation-scale LLMs via the NNsight API. Code, documentation, and tutorials are available at https://www.nnsight.net. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# Thought-like-Pro: 自己駆動型Prolog-based Chain-of-Thoughによる大規模言語モデルの推論の強化
Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Though ( http://arxiv.org/abs/2407.14562v1 ) ライセンス: Link先を確認 | Xiaoyu Tan, Yongxin Deng, Xihe Qiu, Weidi Xu, Chao Qu, Wei Chu, Yinghui Xu, Yuan Qi, | (参考訳) 大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示し、様々な推論タスクに優れています。
この成果は、人工知能(AGI)の実現に向けた重要な一歩である。
これらの進歩にもかかわらず、LLMの有効性は、しばしば採用される特定の推進戦略に依存し、多様な推論タスクをまたいだ学習と一般化を促進するための堅牢な枠組みが欠如している。
これらの課題に対処するために,我々は,新しい学習フレームワークであるTHOUGHT-LIKE-PROを導入する。このフレームワークでは,擬似学習を利用して,記号的プロログ論理エンジンによって生成された推論軌道から検証され,翻訳されるChain-of-Thought(CoT)プロセスを模倣する。
このフレームワークは自己駆動的な方法で進行し、LLMは与えられた命令からルールとステートメントを定式化し、シンボルPrologエンジンを利用して結果を導出する。
その後、LLMはProlog由来の逐次推論軌道を、模倣学習のために自然言語のCoTに変換する。
実験の結果,提案手法はLLMの推論能力を大幅に向上させ,分布外推論タスクにまたがる堅牢な一般化を示すことが示唆された。
Large language models (LLMs) have shown exceptional performance as general-purpose assistants, excelling across a variety of reasoning tasks. This achievement represents a significant step toward achieving artificial general intelligence (AGI). Despite these advancements, the effectiveness of LLMs often hinges on the specific prompting strategies employed, and there remains a lack of a robust framework to facilitate learning and generalization across diverse reasoning tasks. To address these challenges, we introduce a novel learning framework, THOUGHT-LIKE-PRO In this framework, we utilize imitation learning to imitate the Chain-of-Thought (CoT) process which is verified and translated from reasoning trajectories generated by a symbolic Prolog logic engine. This framework proceeds in a self-driven manner, that enables LLMs to formulate rules and statements from given instructions and leverage the symbolic Prolog engine to derive results. Subsequently, LLMs convert Prolog-derived successive reasoning trajectories into natural language CoT for imitation learning. Our empirical findings indicate that our proposed approach substantially enhances the reasoning abilities of LLMs and demonstrates robust generalization across out-of-distribution reasoning tasks. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# 生成的視覚と言語モデルによる視覚的接地学習
Learning Visual Grounding from Generative Vision and Language Model ( http://arxiv.org/abs/2407.14563v1 ) ライセンス: Link先を確認 | Shijie Wang, Dahun Kim, Ali Taalimi, Chen Sun, Weicheng Kuo, | (参考訳) ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
本研究では,視覚的接地データのテキストアノテーションをスケールアップするために,画像テキストデータに基づいて主に訓練された生成VLMを活用できるかどうかを考察する。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
したがって、既存のオブジェクト検出データセットからオブジェクト領域をフィードすることで、VLMにオブジェクトレベルの記述を生成するよう促す。
さらに、重要なオブジェクト属性を明示的にキャプチャする属性モデリングと、オブジェクト間の関係をキャプチャする空間関係モデリングも提案する。
構築したデータセット(500K画像,100万オブジェクト,16M参照表現)は,これまでで最大規模の基底データセットの1つである。
このデータの品質を検証するために、表現理解(REC)とセグメント化(RES)の両方のタスクに対して、人気のあるRefCOCOベンチマークに対してゼロショット転送実験を行う。
両タスクにおいて、人間の注釈付き視覚的グラウンドデータを用いることなく、我々のモデルは最先端のアプローチを著しく上回る。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
コードとモデルはリリースされる。
Visual grounding tasks aim to localize image regions based on natural language references. In this work, we explore whether generative VLMs predominantly trained on image-text data could be leveraged to scale up the text annotation of visual grounding data. We find that grounding knowledge already exists in generative VLM and can be elicited by proper prompting. We thus prompt a VLM to generate object-level descriptions by feeding it object regions from existing object detection datasets. We further propose attribute modeling to explicitly capture the important object attributes, and spatial relation modeling to capture inter-object relationship, both of which are common linguistic pattern in referring expression. Our constructed dataset (500K images, 1M objects, 16M referring expressions) is one of the largest grounding datasets to date, and the first grounding dataset with purely model-generated queries and human-annotated objects. To verify the quality of this data, we conduct zero-shot transfer experiments to the popular RefCOCO benchmarks for both referring expression comprehension (REC) and segmentation (RES) tasks. On both tasks, our model significantly outperform the state-of-the-art approaches without using human annotated visual grounding data. Our results demonstrate the promise of generative VLM to scale up visual grounding in the real world. Code and models will be released. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# APS-USCT:AI-Physic Synergyによるスパースデータの超音波CT
APS-USCT: Ultrasound Computed Tomography on Sparse Data via AI-Physic Synergy ( http://arxiv.org/abs/2407.14564v1 ) ライセンス: Link先を確認 | Yi Sheng, Hanchen Wang, Yipei Liu, Junhuan Yang, Weiwen Jiang, Youzuo Lin, Lei Yang, | (参考訳) 超音波CT(Ultrasound Computed Tomography, USCT)は, 波形情報を完全に活用し, より優れた医用画像再構成を実現する技術である。
その利点にもかかわらず、高品質のUSCT再構成は多数のトランスデューサによる広範なデータ取得に依存しており、コストの増大、計算要求、患者のスキャン時間の拡張、製造複雑さにつながっている。
これらの問題を緩和するために,スパースデータによるイメージングを容易にするUSCT法であるAPS-USCTを提案し,高コストな高密度データ取得への依存を著しく低減する。
APS-USCT法は, APS-wave と APS-FWI の2成分からなる。
エンコーダデコーダシステムであるAPS波成分は、波形データを前処理し、スパースデータを密度の高い波形に変換して、復元前にサンプル密度を増大させる。
InversionNetを利用するAPS-FWIコンポーネントは、超音波波形データから音速(SOS)を直接再構成する。
我々は、Squeeze-and-Excitation(SE)ブロックとソース符号化技術を組み込むことで、モデルの性能をさらに向上する。
乳癌データセットを用いて本法を試験した結果,有望な結果が得られた。
平均構造類似度指数(SSIM)は0.8431である。
特に,82%以上のサンプルが0.8以上のSSIMを達成し,約61%が0.85を超えた。
Ultrasound computed tomography (USCT) is a promising technique that achieves superior medical imaging reconstruction resolution by fully leveraging waveform information, outperforming conventional ultrasound methods. Despite its advantages, high-quality USCT reconstruction relies on extensive data acquisition by a large number of transducers, leading to increased costs, computational demands, extended patient scanning times, and manufacturing complexities. To mitigate these issues, we propose a new USCT method called APS-USCT, which facilitates imaging with sparse data, substantially reducing dependence on high-cost dense data acquisition. Our APS-USCT method consists of two primary components: APS-wave and APS-FWI. The APS-wave component, an encoder-decoder system, preprocesses the waveform data, converting sparse data into dense waveforms to augment sample density prior to reconstruction. The APS-FWI component, utilizing the InversionNet, directly reconstructs the speed of sound (SOS) from the ultrasound waveform data. We further improve the model's performance by incorporating Squeeze-and-Excitation (SE) Blocks and source encoding techniques. Testing our method on a breast cancer dataset yielded promising results. It demonstrated outstanding performance with an average Structural Similarity Index (SSIM) of 0.8431. Notably, over 82% of samples achieved an SSIM above 0.8, with nearly 61% exceeding 0.85, highlighting the significant potential of our approach in improving USCT image reconstruction by efficiently utilizing sparse data. | 翻訳日:2024-07-23 21:53:36 公開日:2024-07-18 |
# セマンティックセグメンテーションのための単眼深度事前学習の可能性について
On the Viability of Monocular Depth Pre-training for Semantic Segmentation ( http://arxiv.org/abs/2203.13987v5 ) ライセンス: Link先を確認 | Dong Lao, Fengyu Yang, Daniel Wang, Hyoungseob Park, Samuel Lu, Alex Wong, Stefano Soatto, | (参考訳) 幾何学的タスクの事前学習が意味的タスクへの下流移動に有効かどうかという問題は2つの理由において重要である。
回答が正なら、事前学習のコストと人間のアノテータからのバイアスを大幅に削減できるかもしれません。
もしその答えが否定的であれば、進化史における言語や他の認知機能の出現における実施の役割に光を当てるかもしれない。
現在の手段で検証可能な方法で質問をフレーム化するために、幾何学的タスクでモデルを事前訓練し、シンボル(ラベル)が割り当てられるとすぐに意味論の推論を可能にする「対象」の概念を素付けるのに使えるかどうかをテストする。
本研究では, 単眼深度予測を幾何学的タスクとし, セマンティックセマンティックセマンティックセマンティックセマンティクスを下流セマンティクスタスクとして選択し, 深度事前学習とセマンティクス微調整の両方のための様々な形態の監督, 訓練パイプライン, データソースを探索し, 経験的テストのコレクションを設計する。
単分子深度は意味的セグメンテーションのための事前学習の実行可能な形式であり、共通ベースラインの改善によって検証される。
本研究は,データセットのサイズ,解像度,アーキテクチャ,ドメイン内ソースデータとの関係など,改善の背景にあるいくつかのメカニズムを提案し,幅広いアブレーション研究を通じて検証する。
また,同じ光度再投影誤差を最適化するので,一見すると奥行き予測に相応しいように見える光流も,シーンの潜伏構造を明示的に推測することではなく,時間的に隣接した画像の生の現象を推測することを目的としているため,かなり効果が低いことがわかった。
The question of whether pre-training on geometric tasks is viable for downstream transfer to semantic tasks is important for two reasons, one practical and the other scientific. If the answer is positive, we may be able to reduce pre-training cost and bias from human annotators significantly. If the answer is negative, it may shed light on the role of embodiment in the emergence of language and other cognitive functions in evolutionary history. To frame the question in a way that is testable with current means, we pre-train a model on a geometric task, and test whether that can be used to prime a notion of 'object' that enables inference of semantics as soon as symbols (labels) are assigned. We choose monocular depth prediction as the geometric task, and semantic segmentation as the downstream semantic task, and design a collection of empirical tests by exploring different forms of supervision, training pipelines, and data sources for both depth pre-training and semantic fine-tuning. We find that monocular depth is a viable form of pre-training for semantic segmentation, validated by improvements over common baselines. Based on the findings, we propose several possible mechanisms behind the improvements, including their relation to dataset size, resolution, architecture, in/out-of-domain source data, and validate them through a wide range of ablation studies. We also find that optical flow, which at first glance may seem as good as depth prediction since it optimizes the same photometric reprojection error, is considerably less effective, as it does not explicitly aim to infer the latent structure of the scene, but rather the raw phenomenology of temporally adjacent images. | 翻訳日:2024-07-23 02:31:08 公開日:2024-07-18 |
# 波動流:フェルミオン波動関数に応用した境界条件正規化流
Waveflow: boundary-conditioned normalizing flows applied to fermionic wavefunctions ( http://arxiv.org/abs/2211.14839v3 ) ライセンス: Link先を確認 | Luca Thiede, Chong Sun, Alán Aspuru-Guzik, | (参考訳) 効率的かつ表現力のある波動関数アンサッツは、複雑な多体電子構造に対するスケーラブルな解の鍵となる。
スレーター行列式は、主に反対称電子波動関数 ans\"{a}tze の構築に使用されるが、この構成は標的波動関数が高度に複雑である場合に限定的な表現性をもたらす。
本研究では,境界条件付き正規化フローを用いて多体フェルミオン波動関数を学習するための革新的なフレームワークであるWaveflowを紹介する。
スレーター行列式に頼る代わりに、ウェーブフローは波動関数の基本領域を定義し、必要な境界条件を適用することで反対称性を課す。
この目的のために正規化フローを使用する際の重要な課題は、事前分布と目標分布の間のトポロジ的ミスマッチに対処することである。
このミスマッチに O-spline priors と I-spline bijections を用い,その二乗正規化特性を自動的に維持しつつ,分布のノード数に柔軟性を持たせることを提案する。
一次元多電子系にウェーブフローを適用し、変分量子モンテカルロ(VQMC)を用いて系のエネルギーを変動的に最小化する。
我々の実験は、Waveflowがトポロジ的ミスマッチを効果的に解決し、基底状態の波動関数を忠実に学習できることを実証した。
An efficient and expressive wavefunction ansatz is key to scalable solutions for complex many-body electronic structures. While Slater determinants are predominantly used for constructing antisymmetric electronic wavefunction ans\"{a}tze, this construction can result in limited expressiveness when the targeted wavefunction is highly complex. In this work, we introduce Waveflow, an innovative framework for learning many-body fermionic wavefunctions using boundary-conditioned normalizing flows. Instead of relying on Slater determinants, Waveflow imposes antisymmetry by defining the fundamental domain of the wavefunction and applying necessary boundary conditions. A key challenge in using normalizing flows for this purpose is addressing the topological mismatch between the prior and target distributions. We propose using O-spline priors and I-spline bijections to handle this mismatch, which allows for flexibility in the node number of the distribution while automatically maintaining its square-normalization property. We apply Waveflow to a one-dimensional many-electron system, where we variationally minimize the system's energy using variational quantum Monte Carlo (VQMC). Our experiments demonstrate that Waveflow can effectively resolve topological mismatches and faithfully learn the ground-state wavefunction. | 翻訳日:2024-07-23 02:31:08 公開日:2024-07-18 |
# ニューラルネットワークによる深部モデルの伝達学習の理解と改善
Understanding and Improving Transfer Learning of Deep Models via Neural Collapse ( http://arxiv.org/abs/2212.12206v4 ) ライセンス: Link先を確認 | Xiao Li, Sheng Liu, Jinxin Zhou, Xinyu Lu, Carlos Fernandez-Granda, Zhihui Zhu, Qing Qu, | (参考訳) 大規模事前学習モデルの複雑化と、下流トレーニングのためのラベル付きデータの不足が相まって、トランスファーラーニングは、自然言語処理、コンピュータビジョン、マルチモーダル学習など、多くの分野で主要なアプローチとなっている。
近年の進歩にもかかわらず、視覚における大規模事前訓練モデルの微調整プロセスは、試行錯誤に大きく依存している。
分類問題に対する神経崩壊(NC)と伝達学習の関係について検討する。
NCは興味深いが、最近、トレーニングニューラルネットワークの最終層の特徴と線形分類器の観点から発見された現象である。
特に、トレーニングの最終段階では、NCは各クラス内の特徴のばらつきが0に減少し、クラス間の特徴の手段が最大で等間隔であることを示している。
本研究では,下流データとソースデータの両方における事前学習モデルのNC特性について検討し,特徴の崩壊と下流性能との間に強い相関関係があることを見出した。
特に,下流トレーニングデータに事前学習モデルの線形探索を行うことで,下流トレーニングデータに事前学習モデルの機能崩壊が生じれば,伝達精度が高くなるという系統的パターンが発見された。
また、ソースデータ上でNCと転送精度の関係についても検討した。
さらに,提案手法により,下流データ上における最終層の特徴崩壊を誘発するスキップ接続を用いたパラメータ効率のよいファインチューニング手法の開発が可能となった。
提案手法は, 微調整パラメータを少なくとも90%削減し, 特に下流データが少ない場合の過度な調整を軽減し, 優れた性能を実現する。
With the ever-increasing complexity of large-scale pre-trained models coupled with a shortage of labeled data for downstream training, transfer learning has become the primary approach in many fields, including natural language processing, computer vision, and multi-modal learning. Despite recent progress, the fine-tuning process for large-scale pre-trained models in vision still mostly relies on trial and error. This work investigates the relationship between neural collapse (NC) and transfer learning for classification problems. NC is an intriguing while prevalent phenomenon that has been recently discovered in terms of the final-layer features and linear classifiers of trained neural networks. Specifically, during the terminal phase of training, NC implies that the variability of the features within each class diminishes to zero, while the means of features between classes are maximally and equally distanced. In this work, we examine the NC attributes of pre-trained models on both downstream and source data for transfer learning, and we find strong correlation between feature collapse and downstream performance. In particular, we discovered a systematic pattern that emerges when linear probing pre-trained models on downstream training data: the more feature collapse of pre-trained models on downstream training data, the higher the transfer accuracy. Additionally, we also studied the relationship between NC and transfer accuracy on the source data. Moreover, these findings allow us to develop a principled, parameter-efficient fine-tuning method that employs skip-connection to induce the last-layer feature collapse on downstream data. Our proposed fine-tuning methods deliver good performances while reducing fine-tuning parameters by at least 90% and mitigating overfitting in situations especially when the downstream data is scarce. | 翻訳日:2024-07-23 02:31:08 公開日:2024-07-18 |
# WavCaps:マルチモーダル研究のためのチャットGPT支援弱ラベルオーディオキャプションデータセット
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research ( http://arxiv.org/abs/2303.17395v2 ) ライセンス: Link先を確認 | Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, Mark D. Plumbley, Yuexian Zou, Wenwu Wang, | (参考訳) 近年,音声言語(AL)マルチモーダル学習タスクの進歩が注目されている。
しかし、研究者は、サイズが限られている既存のオーディオ言語データセットのコストと時間を要する収集プロセスのために、課題に直面している。
このデータ不足問題に対処するため,約400kの音声クリップとペア字幕を含む,大規模な音声キャプションデータセットであるWavCapsを紹介した。
我々は、Webソースと音声イベント検出データセットから、音声クリップとその生の記述を抽出した。
しかし、オンライン・ハーヴェスティングされた生の記述は非常にうるさく、自動音声キャプションなどのタスクで直接使うには不向きである。
この問題を解決するために,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成する3段階処理パイプラインを提案する。
We conduct a comprehensive analysis of the characteristics of WavCaps dataset and evaluate it on multiple downstream audio-lang multimodal learning tasks。
WavCapsで訓練されたシステムは、従来型のSOTA(State-of-the-art)モデルを上回った。
私たちが提案したWavCapsデータセットは、音声によるマルチモーダル学習の研究を促進し、ChatGPTを利用した学術研究の促進の可能性を示すものである。
私たちのデータセットとコードはhttps://github.com/XinhaoMei/WavCaps.comで公開されています。
The advancement of audio-language (AL) multimodal learning tasks has been significant in recent years. However, researchers face challenges due to the costly and time-consuming collection process of existing audio-language datasets, which are limited in size. To address this data scarcity issue, we introduce WavCaps, the first large-scale weakly-labelled audio captioning dataset, comprising approximately 400k audio clips with paired captions. We sourced audio clips and their raw descriptions from web sources and a sound event detection dataset. However, the online-harvested raw descriptions are highly noisy and unsuitable for direct use in tasks such as automated audio captioning. To overcome this issue, we propose a three-stage processing pipeline for filtering noisy data and generating high-quality captions, where ChatGPT, a large language model, is leveraged to filter and transform raw descriptions automatically. We conduct a comprehensive analysis of the characteristics of WavCaps dataset and evaluate it on multiple downstream audio-language multimodal learning tasks. The systems trained on WavCaps outperform previous state-of-the-art (SOTA) models by a significant margin. Our aspiration is for the WavCaps dataset we have proposed to facilitate research in audio-language multimodal learning and demonstrate the potential of utilizing ChatGPT to enhance academic research. Our dataset and codes are available at https://github.com/XinhaoMei/WavCaps. | 翻訳日:2024-07-23 00:35:58 公開日:2024-07-18 |
# 深部機能因子モデル:ベイズ非パラメトリック因子化による高次元機能時系列予測
Deep Functional Factor Models: Forecasting High-Dimensional Functional Time Series via Bayesian Nonparametric Factorization ( http://arxiv.org/abs/2305.14543v2 ) ライセンス: Link先を確認 | Yirui Liu, Xinghao Qiao, Yulong Pei, Liying Wang, | (参考訳) 本稿では,高次元関数時系列解析のためのベイズ非パラメトリックモデルであるDeep Functional Factor Model (DF2M)を紹介する。
DF2Mはインド・バフェット・プロセスとマルチタスク・ガウス・プロセスに基づいて構築され、非マルコフ的・非線形時間ダイナミクスを捉えるディープカーネル関数を組み込んでいる。
多くのブラックボックスディープラーニングモデルとは異なり、DF2Mは、ファクタモデルを構築し、カーネル関数にディープニューラルネットワークを統合することによって、ニューラルネットワークを活用するための説明可能なアプローチを提供する。
さらに,DF2Mを推定する計算効率の良い変分推定アルゴリズムを開発した。
4つの実世界のデータセットから得られた実験結果から、DF2Mは高次元関数時系列に対する従来のディープラーニングモデルと比較して、説明可能性と予測精度が優れていることが示された。
This paper introduces the Deep Functional Factor Model (DF2M), a Bayesian nonparametric model designed for analysis of high-dimensional functional time series. DF2M is built upon the Indian Buffet Process and the multi-task Gaussian Process, incorporating a deep kernel function that captures non-Markovian and nonlinear temporal dynamics. Unlike many black-box deep learning models, DF2M offers an explainable approach to utilizing neural networks by constructing a factor model and integrating deep neural networks within the kernel function. Additionally, we develop a computationally efficient variational inference algorithm to infer DF2M. Empirical results from four real-world datasets demonstrate that DF2M provides better explainability and superior predictive accuracy compared to conventional deep learning models for high-dimensional functional time series. | 翻訳日:2024-07-23 00:35:58 公開日:2024-07-18 |
# 20のクエリでブラックボックスの大規模言語モデルを脱獄させる
Jailbreaking Black Box Large Language Models in Twenty Queries ( http://arxiv.org/abs/2310.08419v4 ) ライセンス: Link先を確認 | Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong, | (参考訳) 大きな言語モデル(LLM)が人間の価値と一致することを保証することへの関心が高まっている。
しかし、このようなモデルのアライメントは敵のジェイルブレイクに対して脆弱であり、LLMは彼らの安全ガードレールを覆い隠すようにコックスする。
これらの脆弱性の特定は、固有の弱点を理解し、将来の誤用を防ぐのに役立つ。
そこで本研究では,LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムであるPrompt Automatic Iterative Refinement (PAIR)を提案する。
PAIRは、社会工学的な攻撃にインスパイアされたもので、人間の介入なしに、個別のLLMに対するジェイルブレイクを自動的に生成する。
このようにして、攻撃者 LLM は、ターゲットの LLM を反復的にクエリして、候補のjailbreak を更新および精査する。
経験的に、PAIRは、既存のアルゴリズムよりも桁違いに効率的なジェイルブレイクを生成するために、20未満のクエリを必要とすることが多い。
PAIRは、GPT-3.5/4、Vicuna、Geminiなど、オープンでクローズドなLLM上で、競合するジェイルブレイクの成功率と転送性も達成している。
There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR -- which is inspired by social engineering attacks -- uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and Gemini. | 翻訳日:2024-07-23 00:26:14 公開日:2024-07-18 |
# GDPRの実証的エビデンス(In-)効果のマッピング:システムレビュー
Mapping the Empirical Evidence of the GDPR (In-)Effectiveness: A Systematic Review ( http://arxiv.org/abs/2310.16735v2 ) ライセンス: Link先を確認 | Wenlong Li, Zihao Li, Wenkai Li, Yueming Zhang, Aolan Li, | (参考訳) データ保護の領域では、伝統的な教義的、法律的、理論的、政策に基づく問合せの領域と、壮大な実証的な証拠の体系の間に、顕著な断絶が広まっています。
学術的・規制的な言説の多くは、抽象的な法的原則や規範的な枠組みに根付いており、実証的な景観は、未開または最小限の関与を残している。
EUのデータ保護法が制定されて以来、経験的証拠の控えめな団体が生まれてきたが、広く散在し、検討されていない。
このような証拠は、データ保護対策の知覚、影響、明快さ、そして効果について重要な洞察を与えるが、周辺に迷い、より広い会話に不十分に統合される。
そこで我々は,30年近くにわたる実証研究の総合的なレビューと合成を行い,将来的な実証研究の方法論的基盤を構築しつつ,GDPRの評価とレビューに,より堅牢な実証証拠の統合を提唱した。
In the realm of data protection, a striking disconnect prevails between traditional domains of doctrinal, legal, theoretical, and policy-based inquiries and a burgeoning body of empirical evidence. Much of the scholarly and regulatory discourse remains entrenched in abstract legal principles or normative frameworks, leaving the empirical landscape uncharted or minimally engaged. Since the birth of EU data protection law, a modest body of empirical evidence has been generated but remains widely scattered and unexamined. Such evidence offers vital insights into the perception, impact, clarity, and effects of data protection measures but languishes on the periphery, inadequately integrated into the broader conversation. To make a meaningful connection, we conduct a comprehensive review and synthesis of empirical research spanning nearly three decades (1995- March 2022), advocating for a more robust integration of empirical evidence into the evaluation and review of the GDPR, while laying a methodological foundation for future empirical research. | 翻訳日:2024-07-23 00:26:14 公開日:2024-07-18 |
# 負値を持つ雑音データに対する非負行列分解アルゴリズム
Algorithms for Non-Negative Matrix Factorization on Noisy Data With Negative Values ( http://arxiv.org/abs/2311.04855v3 ) ライセンス: Link先を確認 | Dylan Green, Stephen Bailey, | (参考訳) 非負行列因子化(Non- negative matrix factorization、NMF)は、ノイズデータ、特に天文学的なデータを分析することを約束する次元還元技術である。
これらのデータセットに対して、観測されたデータは、真の物理信号が厳密に正である場合でも、ノイズによる負の値を含むことができる。
NMFの以前の研究は、統計的に一貫した方法では陰性データを扱いておらず、多くの負の値を持つ低信号対雑音データでは問題となる。
本稿では、入力データのノイズと導入された負性の両方を扱えるShift-NMFとNearly-NMFの2つのアルゴリズムを提案する。
これらのアルゴリズムはどちらもクリッピングなしで負のデータ空間を使用し、クリッピング時に発生する正のオフセットを導入せずに非負の信号を正しく復元する。
単純な例とより現実的な例の両方でこれを数値的に示し、両方のアルゴリズムが単調に更新ルールを減らしていることを証明した。
Non-negative matrix factorization (NMF) is a dimensionality reduction technique that has shown promise for analyzing noisy data, especially astronomical data. For these datasets, the observed data may contain negative values due to noise even when the true underlying physical signal is strictly positive. Prior NMF work has not treated negative data in a statistically consistent manner, which becomes problematic for low signal-to-noise data with many negative values. In this paper we present two algorithms, Shift-NMF and Nearly-NMF, that can handle both the noisiness of the input data and also any introduced negativity. Both of these algorithms use the negative data space without clipping, and correctly recover non-negative signals without any introduced positive offset that occurs when clipping negative data. We demonstrate this numerically on both simple and more realistic examples, and prove that both algorithms have monotonically decreasing update rules. | 翻訳日:2024-07-23 00:16:29 公開日:2024-07-18 |
# 階層的複雑性マッチング学習は皮質領域V2の改良モデルをもたらす
Layerwise complexity-matched learning yields an improved model of cortical area V2 ( http://arxiv.org/abs/2312.11436v3 ) ライセンス: Link先を確認 | Nikhil Parthasarathy, Olivier J. Hénaff, Eero P. Simoncelli, | (参考訳) 複雑な視覚パターンを認識する人間の能力は、腹側視覚野の連続した領域によって行われる変換によって生じる。
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドをトレーニングし、階層の後半における神経応答の現在までの最良の説明を提供する。
しかしこれらのネットワークは、従来の手作りのモデルや、コーディングの効率や予測に最適化されたモデルと比べて、初期の段階をうまく説明していない。
さらに、エンド・ツー・エンド・ラーニングで用いられる勾配のバックプロパゲーションは、一般に生物学的に不可能であると考えられている。
ここでは,これら2つの制限を克服し,連続した層に独立して機能するボトムアップ型自己教師型トレーニング方法論を開発する。
具体的には、局所的に変形した自然画像パッチのペア間の特徴的類似性を最大化するとともに、他の画像からサンプリングされたパッチ間の特徴をデコレーションする。
重要なことに、変形振幅は各層の受容磁場サイズに比例して調整され、処理の各段階でのタスク複雑性とキャパシティとが一致する。
先行モデルのアーキテクチャマッチングバージョンと比較して,我々の階層的複雑性マッチング学習(LCL)の定式化が,霊長類領域V2における選択性特性と神経活動に適合した2段階モデル(LCL-V2)を生成することを示した。
複雑に整合した学習パラダイムが、改良された生物学的アライメントの出現の大部分を担っていることを実証する。
最後に、オブジェクト認識を行うために訓練されたディープネットワークの固定フロントエンドとして2段階モデルを使用する場合、結果モデル(LCL-V2Net)は、分布外タスクへの一般化と人間の行動との整合性の観点から、標準のエンドツーエンドの自己監督モデル、教師付きモデル、対角訓練モデルよりも大幅に優れている。
Human ability to recognize complex visual patterns arises through transformations performed by successive areas in the ventral visual cortex. Deep neural networks trained end-to-end for object recognition approach human capabilities, and offer the best descriptions to date of neural responses in the late stages of the hierarchy. But these networks provide a poor account of the early stages, compared to traditional hand-engineered models, or models optimized for coding efficiency or prediction. Moreover, the gradient backpropagation used in end-to-end learning is generally considered to be biologically implausible. Here, we overcome both of these limitations by developing a bottom-up self-supervised training methodology that operates independently on successive layers. Specifically, we maximize feature similarity between pairs of locally-deformed natural image patches, while decorrelating features across patches sampled from other images. Crucially, the deformation amplitudes are adjusted proportionally to receptive field sizes in each layer, thus matching the task complexity to the capacity at each stage of processing. In comparison with architecture-matched versions of previous models, we demonstrate that our layerwise complexity-matched learning (LCL) formulation produces a two-stage model (LCL-V2) that is better aligned with selectivity properties and neural activity in primate area V2. We demonstrate that the complexity-matched learning paradigm is responsible for much of the emergence of the improved biological alignment. Finally, when the two-stage model is used as a fixed front-end for a deep network trained to perform object recognition, the resultant model (LCL-V2Net) is significantly better than standard end-to-end self-supervised, supervised, and adversarially-trained models in terms of generalization to out-of-distribution tasks and alignment with human behavior. | 翻訳日:2024-07-23 00:06:44 公開日:2024-07-18 |
# SE(3)フローマッチングによるモチーフ・スキャフォールディングの改良
Improved motif-scaffolding with SE(3) flow matching ( http://arxiv.org/abs/2401.04082v2 ) ライセンス: Link先を確認 | Jason Yim, Andrew Campbell, Emile Mathieu, Andrew Y. K. Foong, Michael Gastegger, José Jiménez-Luna, Sarah Lewis, Victor Garcia Satorras, Bastiaan S. Veeling, Frank Noé, Regina Barzilay, Tommi S. Jaakkola, | (参考訳) タンパク質の設計は、しばしばモチーフから所望の機能の知識から始まり、モチーフスキャフォールディングは機能タンパク質を周囲に構築することを目的としている。
近年、生成モデルは様々なモチーフのための足場の設計において画期的な成功を収めている。
しかし、生成された足場は構造的な多様性を欠く傾向にあり、ウェットラブ検証の成功を妨げる。
本研究では,タンパク質のバックボーン生成のためのSE(3)フローマッチングモデルであるFrameFlowを拡張し,2つの相補的なアプローチでモチーフ・スキャフォールディングを行う。
1つ目はモチーフ・アモーティゼーション(motif amortization)で、FrameFlowはデータ拡張戦略を使用してモチーフを入力としてトレーニングする。
2つ目はモチーフガイダンスで、追加のトレーニングなしでFrameFlowから条件スコアを推定して足場化を行う。
生物学的に意味のあるモチーフを24のベンチマークで評価した結果,本手法は最先端のモチーフ・スキャフォールドに比べて2.5倍も設計可能で,ユニークなモチーフ・スキャフォールドが得られることがわかった。
コード:https://github.com/microsoft/ protein-frame-flow
Protein design often begins with the knowledge of a desired function from a motif which motif-scaffolding aims to construct a functional protein around. Recently, generative models have achieved breakthrough success in designing scaffolds for a range of motifs. However, generated scaffolds tend to lack structural diversity, which can hinder success in wet-lab validation. In this work, we extend FrameFlow, an SE(3) flow matching model for protein backbone generation, to perform motif-scaffolding with two complementary approaches. The first is motif amortization, in which FrameFlow is trained with the motif as input using a data augmentation strategy. The second is motif guidance, which performs scaffolding using an estimate of the conditional score from FrameFlow without additional training. On a benchmark of 24 biologically meaningful motifs, we show our method achieves 2.5 times more designable and unique motif-scaffolds compared to state-of-the-art. Code: https://github.com/microsoft/protein-frame-flow | 翻訳日:2024-07-23 00:06:44 公開日:2024-07-18 |
# VR顔アニメーションのためのフォトリアリスティックアバターの高速登録
Fast Registration of Photorealistic Avatars for VR Facial Animation ( http://arxiv.org/abs/2401.11002v2 ) ライセンス: Link先を確認 | Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei, | (参考訳) バーチャルリアリティ(VR)は、他のメディアよりも没入感のあるソーシャルインタラクションを約束する。
これの鍵となるのは、パーソナライズされた写真リアリスティックなアバターを正確にアニメーション化できることであり、したがってヘッドセット搭載カメラ(HMC)画像のラベルの取得は、VRヘッドセットを着用しながら効率的かつ正確にする必要がある。
これは、斜めカメラビューと画像のモダリティの違いのため、難しい。
本研究では,まず,アバターとHMC画像の領域ギャップが,変圧器をベースとしたアーキテクチャがドメイン一貫性データに対して高い精度を達成し,ドメインギャップが再導入されると劣化する,主な難点の1つであることを示す。
そこで本研究では,ドメイン内入力を受信する反復リファインメントモジュールと,現在の推定値に条件付アバター誘導画像・画像領域転送モジュールの2つに分割したシステムを提案する。
これらの2つのモジュールは相互に強化される: ドメイン転送は、接頭辞例が示されると容易になり、ドメインギャップの除去が改良される。
本システムでは,オフラインでのオフライン最適化の必要性を排除し,直接回帰法よりも高い品質のオンライン登録を行う。
我々は,コモディティヘッドセットを用いた広範囲な実験を通じて,アプローチの精度と効率性を検証し,これらのベースラインに対する大幅な改善を実証した。
この方向のさらなる研究を促進するために、当社の大規模データセットとコードを公開しています。
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a personalized photorealistic avatar, and hence the acquisition of the labels for headset-mounted camera (HMC) images need to be efficient and accurate, while wearing a VR headset. This is challenging due to oblique camera views and differences in image modality. In this work, we first show that the domain gap between the avatar and HMC images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we propose a system split into two parts: an iterative refinement module that takes in-domain inputs, and a generic avatar-guided image-to-image domain transfer module conditioned on current estimates. These two modules reinforce each other: domain transfer becomes easier when close-to-groundtruth examples are shown, and better domain-gap removal in turn improves the registration. Our system obviates the need for costly offline optimization, and produces online registration of higher quality than direct regression method. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over these baselines. To stimulate further research in this direction, we make our large-scale dataset and code publicly available. | 翻訳日:2024-07-23 00:06:44 公開日:2024-07-18 |
# 事前学習された人間の言語モデルの比較:グループ、個人的傾向、あるいはその両方として人間の文脈より優れているか?
Comparing Pre-trained Human Language Models: Is it Better with Human Context as Groups, Individual Traits, or Both? ( http://arxiv.org/abs/2401.12492v3 ) ライセンス: Link先を確認 | Nikita Soni, Niranjan Balasubramanian, H. Andrew Schwartz, Dirk Hovy, | (参考訳) 事前訓練された言語モデルは、隣接する単語や文書の文脈を考慮するが、人間がテキストを生成するという作者の文脈は欠如している。
しかし、言語は著者の状況、特徴、社会的、状況的、環境的属性に依存し、総称して人間の文脈と呼ばれる(Soni et al , 2024)。
人間中心の自然言語処理には、人間のコンテキストを言語モデルに組み込む必要がある。
現在、事前学習という2つの方法が存在する。
1)集団的属性(例:45歳以上)
2)個々の特徴。
グループ属性は単純だが粗い - すべての45歳の人が同じように書くわけではない - 個々の特性はよりパーソナライズされた表現を可能にするが、より複雑なモデリングとデータを必要とする。
どのようなアプローチがどのタスクに役立つのかは不明だ。
我々は、事前学習モデルと人間の文脈の比較を行う。
1)グループ属性
2)個人使用者,及び
3) ユーザレベルとドキュメントレベルの5つのタスクに対する複合的なアプローチ。
この結果から,人間中心の言語モデリングは様々な手法の道筋を保っていることが示唆された。
Pre-trained language models consider the context of neighboring words and documents but lack any author context of the human generating the text. However, language depends on the author's states, traits, social, situational, and environmental attributes, collectively referred to as human context (Soni et al., 2024). Human-centered natural language processing requires incorporating human context into language models. Currently, two methods exist: pre-training with 1) group-wise attributes (e.g., over-45-year-olds) or 2) individual traits. Group attributes are simple but coarse -- not all 45-year-olds write the same way -- while individual traits allow for more personalized representations, but require more complex modeling and data. It is unclear which approach benefits what tasks. We compare pre-training models with human context via 1) group attributes, 2) individual users, and 3) a combined approach on five user- and document-level tasks. Our results show that there is no best approach, but that human-centered language modeling holds avenues for different methods. | 翻訳日:2024-07-23 00:06:44 公開日:2024-07-18 |
# リニア光学を用いた高次元エンタングル状態解析装置
Efficient High-Dimensional Entangled State Analyzer with Linear Optics ( http://arxiv.org/abs/2401.15066v2 ) ライセンス: Link先を確認 | Niv Bharos, Liubov Markovich, Johannes Borregaard, | (参考訳) 二次元符号化(量子ビット)の代わりに高次元フォトニック符号化(量子ビット)を使用することで、損失耐性を改善し、フォトニックベースの量子情報処理の計算資源を削減することができる。
このポテンシャルを利用するには、線形光学ベル測定の高次元一般化のようなエンタングリング演算の効率的なスキームが必要となる。
線形光干渉計と補助フォトニック状態を用いて, 効率的な高次元交絡状態解析器を実現する方法を示す。
補助状態の絡み合いの度合いは、指数的に小さなシュミットランクによって定量化される以前のプロトコルよりもはるかに小さい。
さらに補助状態は単一の空間モードしか占有せず、小さな量子ビットレジスタに結合された単一の量子エミッタから決定的に生成することができる。
補助状態の複雑さが減少すると不完全化に対する堅牢性が向上し,10%のオーダーでクビット誤差率が存在する場合には,キュディ次元4の忠実度 > 0.9 の補助状態が生成可能であることを示す。
これは、現在のハードウェアで実験的なデモを行う道を開くものだ。
The use of higher-dimensional photonic encodings (qudits) instead of two-dimensional encodings (qubits) can improve the loss tolerance and reduce the computational resources of photonic-based quantum information processing. To harness this potential, efficient schemes for entangling operations such as the high-dimensional generalization of a linear optics Bell measurement will be required. We show how an efficient high-dimensional entangled state analyzer can be implemented with a linear optics interferometer and auxiliary photonic states. The degree of entanglement of the auxiliary state is much less than in previous protocols as quantified by an exponentially smaller Schmidt rank. In addition, the auxiliary state only occupies a single spatial mode, allowing it to be generated deterministically from a single quantum emitter coupled to a small qubit register. The reduced complexity of the auxiliary states results in a high robustness to imperfections and we show that auxiliary states with fidelities > 0.9 for qudit dimensions 4 can be generated in the presence of qubit error rates on the order of 10%. This paves the way for experimental demonstrations with current hardware. | 翻訳日:2024-07-23 00:06:44 公開日:2024-07-18 |
# テンプレートマッチングとCNNを用いた接合と終端検出による磁気ラビリンチン構造のキャラクタリゼーション
Characterization of Magnetic Labyrinthine Structures Through Junctions and Terminals Detection Using Template Matching and CNN ( http://arxiv.org/abs/2401.16688v3 ) ライセンス: Link先を確認 | Vinícius Yu Okubo, Kotaro Shimizu, B. S. Shivaram, Hae Yong Kim, | (参考訳) 欠陥は材料の様々な特性に影響を与え、その構造的、機械的、電子的特性を形成する。
特異な欠陥を示す様々な材料の中で、磁石は様々なナノからマイクロスケールの欠陥を示し、材料科学において集中的に研究されてきた。
具体的には、ジャンクションと終端と呼ばれる磁気ラビリンチンパターンの欠陥はユビキタスであり、関心の点として機能する。
このような欠陥を検出して特徴付けることは磁石を理解するのに不可欠であるが、1000個以上の密集したジャンクションと端子を含む大規模画像を体系的に調査することは、依然として困難な課題である。
本研究ではTM-CNN (Template Matching - Convolutional Neural Network) と呼ばれる新しい手法を提案する。
TM-CNNを用いて, 444枚の実験画像から641,649個の構造を同定し, 磁気材料の理解を深める実験を行った。
これは、初期検出に使用されるテンプレートマッチングと、誤識別を排除するために使用される畳み込みニューラルネットワークを組み合わせた2段階検出アプローチを採用している。
CNN分類器を訓練するには、多数の訓練画像に注釈を付ける必要がある。
この難しさは、多くの実用化においてCNNの使用を妨げている。
TM-CNNは、アノテーションのほとんどを自動で作成し、人間のレビュアーにわずかな修正しか残さず、トレーニング画像を作成するための手作業の負荷を大幅に削減する。
TM-CNNは、従来のテンプレートマッチングやCNNベースのオブジェクト検出アルゴリズムよりもはるかに優れています。
Defects influence diverse properties of materials, shaping their structural, mechanical, and electronic characteristics. Among a variety of materials exhibiting unique defects, magnets exhibit diverse nano- to micro-scale defects and have been intensively studied in materials science. Specifically, defects in magnetic labyrinthine patterns, called junctions and terminals are ubiquitous and serve as points of interest. While detecting and characterizing such defects is crucial for understanding magnets, systematically investigating large-scale images containing over a thousand closely packed junctions and terminals remains a formidable challenge. This study introduces a new technique called TM-CNN (Template Matching - Convolutional Neural Network) designed to detect a multitude of small objects in images, such as the defects in magnetic labyrinthine patterns. TM-CNN was used to identify 641,649 such structures in 444 experimental images, and the results were explored to deepen understanding of magnetic materials. It employs a two-stage detection approach combining template matching, used in initial detection, with a convolutional neural network, used to eliminate incorrect identifications. To train a CNN classifier, it is necessary to annotate a large number of training images. This difficulty prevents the use of CNN in many practical applications. TM-CNN significantly reduces the manual workload for creating training images by automatically making most of the annotations and leaving only a small number of corrections to human reviewers. In testing, TM-CNN achieved an impressive F1 score of 0.991, far outperforming traditional template matching and CNN-based object detection algorithms. | 翻訳日:2024-07-22 23:56:51 公開日:2024-07-18 |
# 過剰リスクを伴う頑健なマルチタスク学習
Robust Multi-Task Learning with Excess Risks ( http://arxiv.org/abs/2402.02009v3 ) ライセンス: Link先を確認 | Yifei He, Shiji Zhou, Guojun Zhang, Hyokun Yun, Yi Xu, Belinda Zeng, Trishul Chilimbi, Han Zhao, | (参考訳) マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
従来の手法では、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けするアダプティブ・ウェイト更新方式を採用している。
しかしながら、ラベルノイズが存在する場合、これらのアルゴリズムは大きな課題に直面する。この場合、過剰な重み付けはベイズ最適誤差が比較的大きいノイズの多いタスクに割り当てられる傾向にあり、それによって他のタスクがオーバーシェードされ、パフォーマンスがボード全体に低下する。
この制限を克服するため,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
直感的には、ExcessMTLは収束からさらに遠い訓練の悪いタスクにより高い重みを割り当てる。
余剰リスクを推定するために,Taylor近似を用いた効率的かつ正確な手法を開発した。
理論的には,提案アルゴリズムは収束保証とパレート定常性を実現する。
実験により,提案アルゴリズムを様々なMTLベンチマークで評価し,ラベルノイズの存在下での既存手法よりも優れた性能を示す。
私たちのコードはhttps://github.com/yifei-he/ExcessMTLで利用可能です。
Multi-task learning (MTL) considers learning a joint model for multiple tasks by optimizing a convex combination of all task losses. To solve the optimization problem, existing methods use an adaptive weight updating scheme, where task weights are dynamically adjusted based on their respective losses to prioritize difficult tasks. However, these algorithms face a great challenge whenever label noise is present, in which case excessive weights tend to be assigned to noisy tasks that have relatively large Bayes optimal errors, thereby overshadowing other tasks and causing performance to drop across the board. To overcome this limitation, we propose Multi-Task Learning with Excess Risks (ExcessMTL), an excess risk-based task balancing method that updates the task weights by their distances to convergence instead. Intuitively, ExcessMTL assigns higher weights to worse-trained tasks that are further from convergence. To estimate the excess risks, we develop an efficient and accurate method with Taylor approximation. Theoretically, we show that our proposed algorithm achieves convergence guarantees and Pareto stationarity. Empirically, we evaluate our algorithm on various MTL benchmarks and demonstrate its superior performance over existing methods in the presence of label noise. Our code is available at https://github.com/yifei-he/ExcessMTL. | 翻訳日:2024-07-22 23:56:51 公開日:2024-07-18 |
# ランダム共変量子チャネル
Random covariant quantum channels ( http://arxiv.org/abs/2403.03667v2 ) ライセンス: Link先を確認 | Ion Nechita, Sang-Jun Park, | (参考訳) 量子チャネルに固有の群対称性は、しばしば量子情報理論の様々な問題に適用できる。
本稿では,共変量子チャネルの自然確率分布について述べる。
具体的には、これはHaar-distributed random isometries を用いた Stinespring 表現から導かれるランダム量子チャネルへの ``twirling Operation'' の適用によって達成される。
我々は、一元的および直交的共分散、超八面体共分散、対角的直交共分散(DOC)など、様々な種類の群対称性を探索し、モデルパラメータに基づいてそれらの性質を解析する。
特に,正部分転位および絡み合い破壊特性のしきい値現象について考察し,無作為な共変チャネルの異なるクラス間のしきい値の比較を行った。
最後に、PPT$^2$予想に寄与し、2つのランダムなDOCチャネル間の合成が一般的な絡み合いであることを示す。
The group symmetries inherent in quantum channels often make them tractable and applicable to various problems in quantum information theory. In this paper, we introduce natural probability distributions for covariant quantum channels. Specifically, this is achieved through the application of ``twirling operations'' on random quantum channels derived from the Stinespring representation that use Haar-distributed random isometries. We explore various types of group symmetries, including unitary and orthogonal covariance, hyperoctahedral covariance, diagonal orthogonal covariance (DOC), and analyze their properties related to quantum entanglement based on the model parameters. In particular, we discuss the threshold phenomenon for positive partial transpose and entanglement breaking properties, comparing thresholds among different classes of random covariant channels. Finally, we contribute to the PPT$^2$ conjecture by showing that the composition between two random DOC channels is generically entanglement breaking. | 翻訳日:2024-07-22 23:47:06 公開日:2024-07-18 |
# LeOCLR: 視覚表現のコントラスト学習のためのオリジナルイメージの活用
LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2403.06813v2 ) ライセンス: Link先を確認 | Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong, | (参考訳) 対照的なインスタンス識別は、イメージ分類やオブジェクト検出といった下流タスクにおける教師あり学習よりも優れています。
しかし、これらの手法は表現学習におけるデータ拡張に大きく依存しており、適切に実装されていない場合、結果が劣る可能性がある。
乱作後の再サイズ化は、対照的な学習で使用されるデータ拡張の一般的な形式であるが、2つのランダムな作物が異なる意味的内容を含む場合、劣化した表現学習につながる可能性がある。
この問題に対処するために,新しいインスタンス識別手法と適応型損失関数を併用したLeOCLR(Leveraging Original Images for Contrastive Learning for Contrastive Learning of Visual Representations)を導入する。
実験結果から,本手法はベースラインモデルと比較して,異なるデータセット間の表現学習を一貫して改善することが示された。
例えば, 線形評価では ImageNet-1K で MoCo-v2 を5.1% 上回っている。
Contrastive instance discrimination approaches outperform supervised learning in downstream tasks like image classification and object detection. However, these approaches heavily rely on data augmentation during representation learning, which may result in inferior results if not properly implemented. Random cropping followed by resizing is a common form of data augmentation used in contrastive learning, but it can lead to degraded representation learning if the two random crops contain distinct semantic content. To address this issue, this paper introduces LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a new instance discrimination approach and an adapted loss function to alleviate discarding semantic features caused by mapping different object parts during representation learning. The experimental results show that our approach consistently improves representation learning across different datasets compared to baseline models. For example, our approach outperforms MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and several other methods on transfer learning tasks. | 翻訳日:2024-07-22 23:47:06 公開日:2024-07-18 |
# 量子基礎への新しいアプローチといくつかの結果
A new approach towards quantum foundation and some consequences ( http://arxiv.org/abs/2403.09224v5 ) ライセンス: Link先を確認 | Inge S. Helland, | (参考訳) 6つの仮定に基づく一般的な理論が紹介される。
基本的な概念は、観測者または通信観測者のグループと関連付けられた理論変数である。
これらの変数はアクセス可能かアクセス不能である。
これらの仮定から、量子論の通常の形式主義が導かれる。
数学の導出はこの記事には書かれていないが、最近の記事[9, 10]を参照しよう。
一般理論の3つの可能な応用が与えられる。
1) 変数は,人又は人の集団の決定に関連する変数を判断することができる。
2) 変数は統計的パラメータや将来のデータかもしれない。
3)変数は、あるコンテキストにおける物理変数である。
この最後の応用は、量子力学の全く新しい基盤を与える。これは私の意見では、通常の形式論よりも理解しやすい基礎であり、他の応用もこのアプローチの興味深い結果をもたらすように思える。
Schr\"odinger's cat"のようないわゆるパラドックスは、この理論の下で解明することができる。
デービッド・ボームのEPR実験の結果とベル実験の結果について解説する。
最後に、相対論と場の量子論へのリンクへの参照が与えられる。
結論はさらなる発展を示唆している。
A general theory based upon 6 postulates is introduced. The basical notions are theoretical variables that are associated with an observer or with a group of communicating observers. These variables may be accessible or inaccessible. From these postulates, the ordinary formalism of quantum theory is derived. The mathematical derivations are not given in this article, but I refer to the recent articles [9, 10]. Three possible applications of the general theory can be given; 1) The variables may decision variables connected to the decisions of a person or of a group of persons. 2) The variables may be statistical parameters or future data, But most importantly here: 3) The variables are physical variables in some context. This last application gives a completely new foundation of quantum mechanics, a foundation which in my opinion is much more easy to understand than the ordinary formalism.The other applications seem also to give interesting consequences of the approach. Socalled paradoxes like that of Schr\"odinger's cat can be clarified under the theory. Explanations of the outcomes of David Bohm's version of the EPR experiment and of the Bell experiment are provided. Finally, references to links towards relativity theory and to quantum field theory are given. The concluding remarks point at further possible developments. | 翻訳日:2024-07-22 23:37:22 公開日:2024-07-18 |
# ディープニューラルクロスオーバー
Deep Neural Crossover ( http://arxiv.org/abs/2403.11159v2 ) ライセンス: Link先を確認 | Eliad Shem-Tov, Achiya Elyasaf, | (参考訳) 本稿では,遺伝的アルゴリズム (GA) における新しい多親交叉演算子である `Deep Neural Crossover' (DNC) について述べる。
親遺伝子をランダムに選別する従来のGAクロスオーバー演算子とは異なり、DNCは深層強化学習(DRL)とエンコーダ・デコーダアーキテクチャ(encoder-decoder architecture)の能力を利用して遺伝子を選択する。
具体的には、DRLを使用して、有望な遺伝子を選択するためのポリシーを学習する。
この方針は、GAの確率的性質を維持するための確率的であり、適合性を改善する確率の高い遺伝子を選択するための分布を表す。
我々のアーキテクチャは、親のゲノムを潜在記憶状態にエンコードするリカレントニューラルネットワーク(RNN)と、注目に基づくポインティング機構を利用して、子孫の次の選択された遺伝子上の分布を生成するデコーダRNNを備えている。
トレーニング時間を改善するために、まずアーキテクチャを特定のドメイン内の1つの問題に対してトレーニングし、次に同じドメインの他の問題を解決するために適用する事前トレーニングアプローチを提案する。
DNCを2つのベンチマークドメイン(bin packing)とグラフカラー化( graph coloring)という、文献上の既知の演算子と比較する。
2対3のクロスオーバーと比較し、すべてのベースラインを上回ります。
DNCはドメイン非依存であり、他の問題領域にも容易に適用できる。
We present a novel multi-parent crossover operator in genetic algorithms (GAs) called ``Deep Neural Crossover'' (DNC). Unlike conventional GA crossover operators that rely on a random selection of parental genes, DNC leverages the capabilities of deep reinforcement learning (DRL) and an encoder-decoder architecture to select the genes. Specifically, we use DRL to learn a policy for selecting promising genes. The policy is stochastic, to maintain the stochastic nature of GAs, representing a distribution for selecting genes with a higher probability of improving fitness. Our architecture features a recurrent neural network (RNN) to encode the parental genomes into latent memory states, and a decoder RNN that utilizes an attention-based pointing mechanism to generate a distribution over the next selected gene in the offspring. To improve the training time, we present a pre-training approach, wherein the architecture is initially trained on a single problem within a specific domain and then applied to solving other problems of the same domain. We compare DNC to known operators from the literature over two benchmark domains -- bin packing and graph coloring. We compare with both two- and three-parent crossover, outperforming all baselines. DNC is domain-independent and can be easily applied to other problem domains. | 翻訳日:2024-07-22 23:37:22 公開日:2024-07-18 |
# VFusion3D:ビデオ拡散モデルからスケーラブルな3D生成モデルを学ぶ
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models ( http://arxiv.org/abs/2403.12034v2 ) ライセンス: Link先を確認 | Junlin Han, Filippos Kokkinos, Philip Torr, | (参考訳) 本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
基礎3D生成モデルの開発における主要な障害は、3Dデータの可用性の制限である。
画像、テキスト、ビデオとは異なり、3Dデータは容易にアクセスできず、入手が困難である。
この結果、他の種類のデータと比較すると、大きな差が生じる。
そこで本研究では,3次元データの知識源として,大量のテキスト,画像,ビデオで訓練されたビデオ拡散モデルを提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案するモデルであるVFusion3Dは,約3Mの合成マルチビューデータに基づいてトレーニングされ,1枚の画像から1秒で3Dアセットを生成し,現在のSOTAフィードフォワード3D生成モデルと比較して優れた性能が得られる。
This paper presents a novel method for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 90% of the time. | 翻訳日:2024-07-22 23:37:22 公開日:2024-07-18 |
# FairEM360: 責任のあるエンティティマッチングのためのスイート
FairEM360: A Suite for Responsible Entity Matching ( http://arxiv.org/abs/2404.07354v2 ) ライセンス: Link先を確認 | Nima Shahbazi, Mahdi Erfanian, Abolfazl Asudeh, Fatemeh Nargesian, Divesh Srivastava, | (参考訳) エンティティマッチングは、ビッグデータパイプラインで発生した最も初期のタスクの1つであり、データの品質に影響を与える意図しないバイアスに警鐘を鳴らしている。
この段階でマーカによって導入されたデータに存在するバイアスを識別し緩和することは、下流タスクの公平性を促進するのに役立ちます。
このデモでは、FairEM360というフレームワークを紹介します。
1) 幅広い公正対策及びパラダイムにおいて、エンティティマーカのアウトプットを監査すること。
2 不公平の根底にある理由について、潜在的な説明をすること。
3) マーチャンダーのアンサンブルを利用して, ループ内フィードバックによる探索プロセスを通じて不公平問題の解決を行う。
EMパイプラインの評価において,FairEM360がフェアネスの優先順位付けに寄与することを期待している。
Entity matching is one the earliest tasks that occur in the big data pipeline and is alarmingly exposed to unintentional biases that affect the quality of data. Identifying and mitigating the biases that exist in the data or are introduced by the matcher at this stage can contribute to promoting fairness in downstream tasks. This demonstration showcases FairEM360, a framework for 1) auditing the output of entity matchers across a wide range of fairness measures and paradigms, 2) providing potential explanations for the underlying reasons for unfairness, and 3) providing resolutions for the unfairness issues through an exploratory process with human-in-the-loop feedback, utilizing an ensemble of matchers. We aspire for FairEM360 to contribute to the prioritization of fairness as a key consideration in the evaluation of EM pipelines. | 翻訳日:2024-07-22 23:27:33 公開日:2024-07-18 |
# オランダ学生の学校と家族ネットワークがCOVID-19感染に与える影響 : 人口レベル登録データを用いた検討
The Impact of School and Family Networks on COVID-19 Infections Among Dutch Students: A Study Using Population-Level Registry Data ( http://arxiv.org/abs/2404.08098v2 ) ライセンス: Link先を確認 | Javier Garcia-Bernardo, Christine Hedde-von Westernhagen, Tom Emery, Albert Jan van Hoek, | (参考訳) 異なる社会的相互作用の影響を理解することが、疫病モデルを改善する鍵となる。
ここでは、PCR検査結果や人口レベルのネットワークを含む広範な登録データを用いて、オランダにおけるSARS-CoV-2送信(2020年6月~2021年10月)に対する学校、家族、その他の社会接触の影響を調査する。
小学校(2020年)と中学校(2021年)と各小学校(2021年)に通学した学生のペアをマッチングし,SARS-CoV-2送信の可能性の異なる文脈を分離・比較した。
そして,14日間に2人の学生が陽性になる確率を,時間的に関連した感染の確率を算出した。
以上の結果から,SARS-CoV-2の普及における家庭と家族の伝達の重要性が学校環境に比較して強調された。
同じ家庭に住む兄弟姉妹と親子ペアの感染確率は22.6-23.2\%、異なる家庭に住む家族の4.7--7.9\%であった。
対照的に、近隣に住みながら同じ小学校・中学校に通っていない2組の生徒は0.52\%、異なる小学校に通っている2組は0.66\%、同じ小学校に通っている2組は1.65\%であった。
最後に,多段階回帰分析を用いて,個人,学校,地理的要因が伝達リスクにどのように寄与するかを検討した。
伝送確率の最大の違いは、観測されていない個人(60 %)と学校レベル(34 %)の要因によるものである。
僅かな割合(3\%)は、生徒の地理的な近さ、学校の大きさ、分業、学区の平均的な収入によるものである。
Understanding the impact of different social interactions is key to improving epidemic models. Here, we use extensive registry data -- including PCR test results and population-level networks -- to investigate the impact of school, family, and other social contacts on SARS-CoV-2 transmission in the Netherlands (June 2020--October 2021). We isolate and compare different contexts of potential SARS-CoV-2 transmission by matching pairs of students based on their attendance at the same or different primary school (in 2020) and secondary school (in 2021) and their geographic proximity. We then calculated the probability of temporally associated infections -- i.e. the probability of both students testing positive within a 14-day period. Our results highlight the relative importance of household and family transmission in the spread of SARS-CoV-2 compared to school settings. The probability of temporally associated infections for siblings and parent-child pairs living in the same household was 22.6--23.2\%, and 4.7--7.9\% for family members living in different household. In contrast, the probability of temporally associated infections was 0.52\% for pairs of students living nearby but not attending the same primary or secondary school, 0.66\% for pairs attending different secondary schools but having attended the same primary school, and 1.65\% for pairs attending the same secondary school. Finally, we used multilevel regression analyses to examine how individual, school, and geographic factors contribute to transmission risk. We found that the largest differences in transmission probabilities were due to unobserved individual (60\%) and school-level (34\%) factors. Only a small proportion (3\%) could be attributed to geographic proximity of students or to school size, denomination, or the median income of the school area. | 翻訳日:2024-07-22 23:27:33 公開日:2024-07-18 |
# ファイルはコンピュータにある:著作権、記憶、生成AIについて
The Files are in the Computer: On Copyright, Memorization, and Generative AI ( http://arxiv.org/abs/2404.12590v3 ) ライセンス: Link先を確認 | A. Feder Cooper, James Grimmelmann, | (参考訳) ニューヨーク・タイムズのOpenAIとマイクロソフトに対する著作権訴訟は、OpenAIのGPTモデルがNYTの記事を「記憶している」と主張している。
他の訴訟も同様の主張をしている。
しかし、当事者、裁判所、学者は、暗記が何であるか、それが起きているかどうか、その著作権の意味について意見が一致しない。
これらの議論は「記憶」の性質に関する曖昧さによって曇っている。
私たちはその会話に明快さを持ち込もうとする。
我々は,(1)モデルから再構築可能な場合,(1)トレーニングデータの実質的な部分である(3)トレーニングデータのほぼ完全なコピーである(2)から復元可能な場合には,モデルがトレーニングデータの1片を「記憶」した,という,正確な記憶の正確な定義を提供するとともに,法的議論の確固たる基盤を提供するための技術文献を描いている。
我々は、記憶を「抽出」(ユーザが意図的にモデルにほぼ正確なコピーを生成させる)と、「修復」(モデルがユーザ意図に関係なくほぼ正確なコピーを生成する)と、「再構成」(モデルからほぼ正確なコピーを任意の方法で得ることができる)と区別する。
いくつかの結果が続く。
1) すべての学習が記憶であるとは限らない。
2) 記憶はモデルが訓練されたときに起こり, リハビリテーションはその原因ではない。
(3) トレーニングデータを記憶したモデルは、そのトレーニングデータのコピーであり、著作権によって使用される。
(4) モデルはVCRや他の汎用コピー技術とは似ていない。
(5) 記憶は「敵対的」ユーザが抽出に屈曲した現象ではなく、モデル自体に潜んでいる。
(6)モデルが記憶するトレーニングデータの量は、トレーニングにおける選択の結果である。
(7) 暗記したモデルが実際に再帰するか否かは、システム設計全体に依存する。
非常に現実的な意味では、記憶されたトレーニングデータはモデルの中にあります。
The New York Times's copyright lawsuit against OpenAI and Microsoft alleges OpenAI's GPT models have "memorized" NYT articles. Other lawsuits make similar claims. But parties, courts, and scholars disagree on what memorization is, whether it is taking place, and what its copyright implications are. These debates are clouded by ambiguities over the nature of "memorization." We attempt to bring clarity to the conversation. We draw on the technical literature to provide a firm foundation for legal discussions, providing a precise definition of memorization: a model has "memorized" a piece of training data when (1) it is possible to reconstruct from the model (2) a near-exact copy of (3) a substantial portion of (4) that piece of training data. We distinguish memorization from "extraction" (user intentionally causes a model to generate a near-exact copy), from "regurgitation" (model generates a near-exact copy, regardless of user intentions), and from "reconstruction" (the near-exact copy can be obtained from the model by any means). Several consequences follow. (1) Not all learning is memorization. (2) Memorization occurs when a model is trained; regurgitation is a symptom not its cause. (3) A model that has memorized training data is a "copy" of that training data in the sense used by copyright. (4) A model is not like a VCR or other general-purpose copying technology; it is better at generating some types of outputs (possibly regurgitated ones) than others. (5) Memorization is not a phenomenon caused by "adversarial" users bent on extraction; it is latent in the model itself. (6) The amount of training data that a model memorizes is a consequence of choices made in training. (7) Whether or not a model that has memorized actually regurgitates depends on overall system design. In a very real sense, memorized training data is in the model--to quote Zoolander, the files are in the computer. | 翻訳日:2024-07-22 23:27:33 公開日:2024-07-18 |
# 私の行動クローン政策はどの程度一般化可能か? 信頼できるパフォーマンス評価への統計的アプローチ
How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation ( http://arxiv.org/abs/2405.05439v2 ) ライセンス: Link先を確認 | Joseph A. Vincent, Haruki Nishimura, Masha Itkina, Paarth Shah, Mac Schwager, Thomas Kollar, | (参考訳) ロボット政策学習における確率的生成モデルの増加に伴い、人間の実演から学ぶことで複雑なタスクを解決するために、エンドツーエンドのビズモータポリシーがますます成功している。
しかし、実際の評価コストは少数のポリシーのロールアウトにしか及ばないため、こうしたポリシーのパフォーマンスを正確に評価することは依然として困難である。
これは、デプロイメント中に予期せぬパフォーマンス変化を引き起こす分散シフトによって悪化する。
動作のクローン化ポリシーを厳格に評価するために,最小限の実験的なロールアウト数を用いて,任意の環境下でロボット性能に厳格な低バウンドを提供するフレームワークを提案する。
特に、ロボットの性能分布に標準確率順序を適用することにより、与えられたタスクに対する(累積分布関数のバウンダリによる)性能分布全体に対する最悪のケースを提供する。
我々は,ユーザ指定の信頼性レベルと厳密性を確保すべく,確立された統計結果を構築し,可能な限り少数のポリシーロールアウトから構築する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
具体的には
一 模擬操作設定における境界の保証を実証的に検証すること。
二 ハードウェアに導入した学習方針が、新たな現実世界環境に一般化する程度を把握し、
三 配当外の設定で試した二つの方針を厳格に比較すること。
実験データ、コード、信頼性境界の実装はオープンソースです。
With the rise of stochastic generative models in robot policy learning, end-to-end visuomotor policies are increasingly successful at solving complex tasks by learning from human demonstrations. Nevertheless, since real-world evaluation costs afford users only a small number of policy rollouts, it remains a challenge to accurately gauge the performance of such policies. This is exacerbated by distribution shifts causing unpredictable changes in performance during deployment. To rigorously evaluate behavior cloning policies, we present a framework that provides a tight lower-bound on robot performance in an arbitrary environment, using a minimal number of experimental policy rollouts. Notably, by applying the standard stochastic ordering to robot performance distributions, we provide a worst-case bound on the entire distribution of performance (via bounds on the cumulative distribution function) for a given task. We build upon established statistical results to ensure that the bounds hold with a user-specified confidence level and tightness, and are constructed from as few policy rollouts as possible. In experiments we evaluate policies for visuomotor manipulation in both simulation and hardware. Specifically, we (i) empirically validate the guarantees of the bounds in simulated manipulation settings, (ii) find the degree to which a learned policy deployed on hardware generalizes to new real-world environments, and (iii) rigorously compare two policies tested in out-of-distribution settings. Our experimental data, code, and implementation of confidence bounds are open-source. | 翻訳日:2024-07-22 23:17:48 公開日:2024-07-18 |
# ニューラル量子状態トモグラフィーのためのブートストラップ古典影
Bootstrapping Classical Shadows for Neural Quantum State Tomography ( http://arxiv.org/abs/2405.06864v2 ) ライセンス: Link先を確認 | Wirawat Kokaew, Bohdan Kulchytskyy, Shunji Matsuura, Pooya Ronagh, | (参考訳) 本研究では, 自己回帰型ニューラル量子状態を用いた古典的影トモグラフィーによる予測能力向上のメリットについて検討する。
本稿では,古典的影を用いたクロスエントロピー損失関数の最適化と,古典的影から収集したスタビライザサンプルを用いてトレーニング中の損失勾配を推定するための新たな重要サンプリング手法を提案する。
この損失関数は、古典的な影の測定に基づいて訓練されたトランスフォーマーベースニューラルネットワークを用いて、GHZ状態の安定な再構成を実現するために利用できることを示す。
この損失関数はまた、混合状態の精製を表す神経量子状態の訓練を可能にする。
以上の結果から, 物理的に明確に定義された密度行列を表す自己回帰モデルの本質的な能力は, 純粋および混合状態の純度などの高次観測値と非線形観測値の両方を予測する上で, パウリをベースとした古典的シャドウトモグラフィーの弱点を克服できることが示唆された。
We investigate the advantages of using autoregressive neural quantum states as ansatze for classical shadow tomography to improve its predictive power. We introduce a novel estimator for optimizing the cross-entropy loss function using classical shadows, and a new importance sampling strategy for estimating the loss gradient during training using stabilizer samples collected from classical shadows. We show that this loss function can be used to achieve stable reconstruction of GHZ states using a transformer-based neural network trained on classical shadow measurements. This loss function also enables the training of neural quantum states representing purifications of mixed states. Our results show that the intrinsic capability of autoregressive models in representing physically well-defined density matrices allows us to overcome the weakness of Pauli-based classical shadow tomography in predicting both high-weight observables and nonlinear observables such as the purity of pure and mixed states. | 翻訳日:2024-07-22 23:17:48 公開日:2024-07-18 |
# E(n)同変トポロジカルニューラルネットワーク
E(n) Equivariant Topological Neural Networks ( http://arxiv.org/abs/2405.15429v2 ) ライセンス: Link先を確認 | Claudio Battiloro, Ege Karaismailoğlu, Mauricio Tec, George Dasoulas, Michelle Audirac, Francesca Dominici, | (参考訳) グラフニューラルネットワークはペアインタラクションのモデリングに優れていますが、高階インタラクションや機能に柔軟に対応できません。
トポロジカルディープラーニング(TDL)がこの問題に対処するための有望なツールとして最近登場した。
TDLはグラフの代わりに単純あるいはセル複体のような組合せトポロジカル空間で操作することで、任意の多方向、階層的な高次相互作用の原理的モデリングを可能にする。
しかし、TDLの位置や速度といった幾何学的特徴をどのように活用するかについては、ほとんど分かっていない。
本稿では,E(n)-Equivariant Topological Neural Networks (ETNN)を紹介し,E(n)-Equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant message-passing network(E)-equivariant graphs, hypergraphs, simplicial, path, cell complex)について述べる。
ETNNは回転と翻訳の等価性を尊重しながら幾何学的ノード特徴を取り入れている。
さらにETNNは、ヘテロジニアスなインタラクションで設定する準備ができている。
幾何グラフのアーキテクチャ上でのETNNの表現性の改善を示す理論的解析を行う。
また、TDLモデルのいくつかのE(n)不変変種が、我々のフレームワークから直接導出可能であることを示す。
ETNNの幅広い適用性は、大きく異なる性質の2つのタスクを通して示される。
一 QM9ベンチマークにおける分子特性予測及び
二 マルチレゾリューション不規則地空間データによる大気汚染の局所的評価のための土地利用回帰
実験の結果,ETNNは多種多様なリッチな構造化データから学習するための有効なツールであり,幾何学的帰納バイアスの利点を浮き彫りにしている。
Graph neural networks excel at modeling pairwise interactions, but they cannot flexibly accommodate higher-order interactions and features. Topological deep learning (TDL) has emerged recently as a promising tool for addressing this issue. TDL enables the principled modeling of arbitrary multi-way, hierarchical higher-order interactions by operating on combinatorial topological spaces, such as simplicial or cell complexes, instead of graphs. However, little is known about how to leverage geometric features such as positions and velocities for TDL. This paper introduces E(n)-Equivariant Topological Neural Networks (ETNNs), which are E(n)-equivariant message-passing networks operating on combinatorial complexes, formal objects unifying graphs, hypergraphs, simplicial, path, and cell complexes. ETNNs incorporate geometric node features while respecting rotation and translation equivariance. Moreover, ETNNs are natively ready for settings with heterogeneous interactions. We provide a theoretical analysis to show the improved expressiveness of ETNNs over architectures for geometric graphs. We also show how several E(n) equivariant variants of TDL models can be directly derived from our framework. The broad applicability of ETNNs is demonstrated through two tasks of vastly different nature: i) molecular property prediction on the QM9 benchmark and ii) land-use regression for hyper-local estimation of air pollution with multi-resolution irregular geospatial data. The experiment results indicate that ETNNs are an effective tool for learning from diverse types of richly structured data, highlighting the benefits of principled geometric inductive bias. | 翻訳日:2024-07-22 23:17:48 公開日:2024-07-18 |
# ROAST:ABSAにおける視差目標関節検出の検討
ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection for ABSA ( http://arxiv.org/abs/2405.20274v2 ) ライセンス: Link先を確認 | Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio, | (参考訳) Aspect-Based Sentiment Analysis (ABSA)は、いくつかの言語や分野にまたがる様々な共有タスクがSemEvalワークショップやGermevalを通じて組織化されているため、大きな拡張と多様性を経験している。
それでも、低リソース言語評価の欠如や文レベルの分析の強調など、いくつかの欠点に対処する必要がある。
完全レビューの文脈でABSAの手法を徹底的に評価するために,新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提案する。
ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。
ROASTを有効にするために利用可能なデータセットを拡張し、低リソース言語や多数の言語、さまざまなトピックを取り入れることで、以前の研究で指摘されていた欠点に対処します。
この取り組みを通じてABSAの研究は、様々な言語や領域(https://github.com/RiTUAL-UH/ROAST-ABSA)において、より多くの基礎をカバーし、タスクとその実践的応用をより深く理解することが可能になる。
Aspect-Based Sentiment Analysis (ABSA) has experienced tremendous expansion and diversity due to various shared tasks spanning several languages and fields and organized via SemEval workshops and Germeval. Nonetheless, a few shortcomings still need to be addressed, such as the lack of low-resource language evaluations and the emphasis on sentence-level analysis. To thoroughly assess ABSA techniques in the context of complete reviews, this research presents a novel task, Review-Level Opinion Aspect Sentiment Target (ROAST). ROAST seeks to close the gap between sentence-level and text-level ABSA by identifying every ABSA constituent at the review level. We extend the available datasets to enable ROAST, addressing the drawbacks noted in previous research by incorporating low-resource languages, numerous languages, and a variety of topics. Through this effort, ABSA research will be able to cover more ground and get a deeper comprehension of the task and its practical application in a variety of languages and domains (https://github.com/RiTUAL-UH/ROAST-ABSA). | 翻訳日:2024-07-22 23:08:01 公開日:2024-07-18 |
# 教育広告配信における人種差別の取組み
Auditing for Racial Discrimination in the Delivery of Education Ads ( http://arxiv.org/abs/2406.00591v2 ) ライセンス: Link先を確認 | Basileal Imana, Aleksandra Korolova, John Heidemann, | (参考訳) ソーシャルメディアプラットフォーム上のデジタル広告は、経済的機会へのアクセスを形作る上で重要な役割を担っている。
本研究は,教育機会のための広告配信における人種的偏見を評価可能な,新たな第三者監査手法の提案と実装である。
サードパーティの監査は、外部の参加者がソーシャルメディアのアルゴリズムに偏見の有無を証明できるため重要である。
教育は差別や人種的ターゲットの懸念に対して法的に保護される領域であるが、広告配信アルゴリズムによって引き起こされる偏見は、これまでこの領域では研究されていない。
以前の監査では、プラットフォームが住宅や雇用広告のためにユーザーに広告を配信する際の差別が示されていた。
これらの監査の結果は、Metaが広告配信アルゴリズムを変更してバイアスを減らすための法的行動を支持したが、それは住宅、雇用、信用の領域に限られていた。
本研究では,教育広告のためのプラットフォーム広告配信アルゴリズムにおいて,差別を計測する新しい手法を提案する。
本稿では,本手法を実校向け広告を用いてMetaに適用し,納品結果を観察する。
メタのアルゴリズムによる教育機会の広告配信における人種差別の証拠を見つけ、法的および倫理的懸念を訴える。
本研究は, アルゴリズムによる差別の証拠を教育領域に拡張し, 現在の偏見緩和メカニズムは範囲が狭く, 非差別の確保が重要である分野において, ソーシャルメディアの第三者監査に幅広い役割を担っていることを示唆した。
Digital ads on social-media platforms play an important role in shaping access to economic opportunities. Our work proposes and implements a new third-party auditing method that can evaluate racial bias in the delivery of ads for education opportunities. Third-party auditing is important because it allows external parties to demonstrate presence or absence of bias in social-media algorithms. Education is a domain with legal protections against discrimination and concerns of racial-targeting, but bias induced by ad delivery algorithms has not been previously explored in this domain. Prior audits demonstrated discrimination in platforms' delivery of ads to users for housing and employment ads. These audit findings supported legal action that prompted Meta to change their ad-delivery algorithms to reduce bias, but only in the domains of housing, employment, and credit. In this work, we propose a new methodology that allows us to measure racial discrimination in a platform's ad delivery algorithms for education ads. We apply our method to Meta using ads for real schools and observe the results of delivery. We find evidence of racial discrimination in Meta's algorithmic delivery of ads for education opportunities, posing legal and ethical concerns. Our results extend evidence of algorithmic discrimination to the education domain, showing that current bias mitigation mechanisms are narrow in scope, and suggesting a broader role for third-party auditing of social media in areas where ensuring non-discrimination is important. | 翻訳日:2024-07-22 23:08:01 公開日:2024-07-18 |
# ラベル優先によるCTC強制アライメントの最小化と高精度化
Less Peaky and More Accurate CTC Forced Alignment by Label Priors ( http://arxiv.org/abs/2406.02560v3 ) ライセンス: Link先を確認 | Ruizhe Huang, Xiaohui Zhang, Zhaoheng Ni, Li Sun, Moto Hira, Jeff Hwang, Vimal Manohar, Vineel Pratap, Matthew Wiesner, Shinji Watanabe, Daniel Povey, Sanjeev Khudanpur, | (参考訳) 接続性時間分類(CTC)モデルはピーク出力分布を持つことが知られている。
このような動作は自動音声認識(ASR)では問題にならないが、特に音素レベルなどの粒度の細かい場合、不正確な強制アライメント(FA)を引き起こす可能性がある。
本稿では, CTCのピーク時挙動を緩和し, ラベル事前を利用して強制アライメント生成の適性を向上させることを目的として, トレーニング中に空白が少ないアライメントパスのスコアを引き上げ, 最大化することを目的とする。
その結果、CTCモデルはピーク後部を小さくし、トークンのオフセットだけでなく、トークンのオフセットをより正確に予測することができる。
これは、BuckeyeとTIMITのデータで測定された音素と単語境界誤差(PBEとWBE)において、標準CTCモデルと、CTCのトークンオフセットタイムスタンプを12-40%向上させるヒューリスティックスに基づくアプローチよりも優れている。
最も広く使われているFAツールキットであるモントリオール強制アリグナー (MFA) と比較すると、Buckeye の PBE/WBE も同様に機能するが、TIMIT では MFA に劣る。
それにもかかわらず、我々の手法はより単純なトレーニングパイプラインとより良い実行効率を持つ。
トレーニングレシピと事前学習モデルはTorchAudioでリリースされています。
Connectionist temporal classification (CTC) models are known to have peaky output distributions. Such behavior is not a problem for automatic speech recognition (ASR), but it can cause inaccurate forced alignments (FA), especially at finer granularity, e.g., phoneme level. This paper aims at alleviating the peaky behavior for CTC and improve its suitability for forced alignment generation, by leveraging label priors, so that the scores of alignment paths containing fewer blanks are boosted and maximized during training. As a result, our CTC model produces less peaky posteriors and is able to more accurately predict the offset of the tokens besides their onset. It outperforms the standard CTC model and a heuristics-based approach for obtaining CTC's token offset timestamps by 12-40% in phoneme and word boundary errors (PBE and WBE) measured on the Buckeye and TIMIT data. Compared with the most widely used FA toolkit Montreal Forced Aligner (MFA), our method performs similarly on PBE/WBE on Buckeye, yet falls behind MFA on TIMIT. Nevertheless, our method has a much simpler training pipeline and better runtime efficiency. Our training recipe and pretrained model are released in TorchAudio. | 翻訳日:2024-07-22 23:08:01 公開日:2024-07-18 |
# ボルツマン影響関数による確率的データ複雑度の測定
Measuring Stochastic Data Complexity with Boltzmann Influence Functions ( http://arxiv.org/abs/2406.02745v2 ) ライセンス: Link先を確認 | Nathan Ng, Roger Grosse, Marzyeh Ghassemi, | (参考訳) テストポイントにおけるモデルの予測の不確かさを推定することは、分散シフトの下で信頼性とキャリブレーションを確保する重要な要素である。
この問題に対する最小記述長アプローチでは、予測正規化極大(pNML)分布を用いて、データポイントのすべてのラベルを考慮し、他のラベルがモデルやトレーニングデータと整合性がある場合の予測の信頼性を低下させる。
本研究では,温度スケールボルツマンの影響関数でモデルを線形化するpNML分布のスケーラブルかつ効率的な近似であるIF-COMPを提案する。
IF-COMPは、テストポイント上のよく校正された予測を生成するだけでなく、ラベル付けされた設定とラベル付けされていない設定の両方の複雑さを測定するために使用できる。
IF-COMPは不確実性の校正、誤ラベル検出、OOD検出のタスクに対して実験により検証され、そこでは強いベースライン法と一貫した一致または打ち負かされる。
Estimating the uncertainty of a model's prediction on a test point is a crucial part of ensuring reliability and calibration under distribution shifts. A minimum description length approach to this problem uses the predictive normalized maximum likelihood (pNML) distribution, which considers every possible label for a data point, and decreases confidence in a prediction if other labels are also consistent with the model and training data. In this work we propose IF-COMP, a scalable and efficient approximation of the pNML distribution that linearizes the model with a temperature-scaled Boltzmann influence function. IF-COMP can be used to produce well-calibrated predictions on test points as well as measure complexity in both labelled and unlabelled settings. We experimentally validate IF-COMP on uncertainty calibration, mislabel detection, and OOD detection tasks, where it consistently matches or beats strong baseline methods. | 翻訳日:2024-07-22 23:08:01 公開日:2024-07-18 |
# プロンプトは本当にプロンプトか? ウィスパーの能力を理解するプロンプトを探る
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper ( http://arxiv.org/abs/2406.05806v3 ) ライセンス: Link先を確認 | Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee, | (参考訳) 本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。
我々は、正しい情報を持つプロンプトと誤った情報を持つプロンプトによるパフォーマンスの比較を行う。
結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。
さらに,テキストのプロンプトでトピック情報に強く依存しても,性能改善は保証されないことがわかった。
また、英語のプロンプトは、トレーニング前のシナリオとミスマッチしているにも関わらず、これらの言語のトレーニングデータ分布が異なるため、両方の言語のデータセットで一般的にマンダリンのプロンプトを上回っていることも指摘されている。
逆に,不正確な言語トークンを無視し,正しい言語トークンに注目することで,Whisperが言語トークンの誤解を招く情報を認識していることが判明した。
要約すると、我々はウィスパーの素早い理解と反直感的行動について洞察に富んだ疑問を提起する。
我々はさらなる研究を奨励する。
This research explores how the information of prompts interacts with the high-performing speech recognition model, Whisper. We compare its performances when prompted by prompts with correct information and those corrupted with incorrect information. Our results unexpectedly show that Whisper may not understand the textual prompts in a human-expected way. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages despite the mismatch with pre-training scenarios. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by ignoring incorrect language tokens and focusing on the correct ones. In sum, We raise insightful questions about Whisper's prompt understanding and reveal its counter-intuitive behaviors. We encourage further studies. | 翻訳日:2024-07-22 23:08:01 公開日:2024-07-18 |
# 通勤者の状態依存規範に基づく不確実性関係
Uncertainty relations based on state-dependent norm of commutator ( http://arxiv.org/abs/2406.12280v2 ) ライセンス: Link先を確認 | Aina Mayumi, Gen Kimura, Hiromichi Ohno, Dariusz Chruściński, | (参考訳) 我々は、B\'ottcher-Wenzel不等式の一般化を利用して、通勤者の状態依存ノルムに基づく2つの不確実性関係を導入する。
第1の関係は数学的に証明され、第2の関係は数値的な証拠によって強く支持される。
両者の関係は、特に量子状態がますます混ざり合うにつれて、従来のロバートソンとシュル・オーディンガーの境界を超えている。
このことは、観測可能量の非可換性から生じる、これまで発見されていなかった量子不確実性の相補性を明らかにする。
また、この結果とLuo-Parkの不確実性関係を比較して、我々の境界が特に相互に偏りのない観測可能量に対して優れていることを示した。
We introduce two uncertainty relations based on the state-dependent norm of commutators, utilizing generalizations of the B\"ottcher-Wenzel inequality. The first relation is mathematically proven, while the second, tighter relation is strongly supported by numerical evidence. Both relations surpass the conventional Robertson and Schr\"odinger bounds, particularly as the quantum state becomes increasingly mixed. This reveals a previously undetected complementarity of quantum uncertainty, stemming from the non-commutativity of observables. We also compare our results with the Luo-Park uncertainty relation, demonstrating that our bounds can outperform especially for mutually unbiased observables. | 翻訳日:2024-07-22 22:58:09 公開日:2024-07-18 |
# 第2回eXplainable AI for the Arts(XAIxArts)国際ワークショップの開催報告
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2406.14485v5 ) ライセンス: Link先を確認 | Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni, | (参考訳) この第2回説明可能なAI for the Arts(XAIxArts)に関する国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアートの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。
第16回 ACM Conference on Creativity and Cognition (C&C 2024) でワークショップを開催した。
This second international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 16th ACM Conference on Creativity and Cognition (C&C 2024), Chicago, USA. | 翻訳日:2024-07-22 22:58:09 公開日:2024-07-18 |
# One Thousand and One Pairs: 長文言語モデルにおける"ノーベル"な挑戦
One Thousand and One Pairs: A "novel" challenge for long-context language models ( http://arxiv.org/abs/2406.16264v2 ) ライセンス: Link先を確認 | Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer, | (参考訳) 合成長文LLMベンチマーク(例えば、"needle-in-the-haystack")は、表面レベルの検索機能のみをテストするが、長文LLMは、ブック長入力を介して情報を検索、合成、理性的にどの程度の精度で取得できるのか?
我々は、最近出版された67冊の英小説に関する1,001組の真実と虚偽の主張のデータセットであるNoChaを作成することで、この問題に対処する。
既存の長期コンテキストベンチマークとは対照的に、私たちのアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
GPT-4oは55.8%と高い精度で達成されているのに対し、オープンウェイトモデルでは(合成ベンチマークでの強い性能にもかかわらず)ランダムな確率以上は実行されない。
さらに分析した結果,(1)文レベルの検索とグローバルな推論のみを必要とするペアにおいて,モデルがより優れていること,(2)正しいラベル付きクレームであっても,モデル生成による判断が不正確であること,(3)広範囲なワールドビルディングを含む推測的フィクションブックにおいて,モデルが著しく悪化すること,などが明らかになった。
NoChaで提案された方法論は、ベンチマークデータセットの進化と将来のモデルの容易な分析を可能にする。
Synthetic long-context LLM benchmarks (e.g., "needle-in-the-haystack") test only surface-level retrieval capabilities, but how well can long-context LLMs retrieve, synthesize, and reason over information across book-length inputs? We address this question by creating NoCha, a dataset of 1,001 minimally different pairs of true and false claims about 67 recently-published English fictional books, written by human readers of those books. In contrast to existing long-context benchmarks, our annotators confirm that the largest share of pairs in NoCha require global reasoning over the entire book to verify. Our experiments show that while human readers easily perform this task, it is enormously challenging for all ten long-context LLMs that we evaluate: no open-weight model performs above random chance (despite their strong performance on synthetic benchmarks), while GPT-4o achieves the highest accuracy at 55.8%. Further analysis reveals that (1) on average, models perform much better on pairs that require only sentence-level retrieval vs. global reasoning; (2) model-generated explanations for their decisions are often inaccurate even for correctly-labeled claims; and (3) models perform substantially worse on speculative fiction books that contain extensive world-building. The methodology proposed in NoCha allows for the evolution of the benchmark dataset and the easy analysis of future models. | 翻訳日:2024-07-22 22:58:09 公開日:2024-07-18 |
# グラフニューラルネットワークにおける等角化リンク予測
Conformalized Link Prediction on Graph Neural Networks ( http://arxiv.org/abs/2406.18763v2 ) ライセンス: Link先を確認 | Tianyi Zhao, Jian Kang, Lu Cheng, | (参考訳) グラフニューラルネットワーク(GNN)は様々なタスクに優れていますが、高い領域でのその応用は信頼性の低い予測によって妨げられます。
この制限に対処するために多くの不確実な定量化法が提案されているが、それらはしばしば 'textit{rigorous} の不確実性推定を欠いている。
この研究は、GNNベースのリンク予測の統計的保証を伴う予測区間を構築するために、分布のない、モデルに依存しない不確実性定量化アプローチを導入する最初の試みである。
我々はそれを \textit{conformalized link prediction と呼ぶ。
これは統計的に堅牢な予測セットや間隔を構築することを約束するフレームワークである。
まず,CP をリンク予測タスクに適用するための置換不変条件と,正確なテスト時間カバレッジを理論的かつ実験的に確立する。
グラフにおける重要な構造情報を活用することで、グラフがパワー法則分布に忠実であることとCPの効率性の間に、新しくて重要な接続が特定される。
この知見は、標準CP手順に先立って、グラフ構造を電力法則分布に整合させる、単純で効果的なサンプリングベース手法の開発に繋がる。
共形リンク予測において,提案手法は提案手法に比べてCPの効率を著しく向上させつつ,所望の限界範囲範囲を達成できることが実証された。
Graph Neural Networks (GNNs) excel in diverse tasks, yet their applications in high-stakes domains are often hampered by unreliable predictions. Although numerous uncertainty quantification methods have been proposed to address this limitation, they often lack \textit{rigorous} uncertainty estimates. This work makes the first attempt to introduce a distribution-free and model-agnostic uncertainty quantification approach to construct a predictive interval with a statistical guarantee for GNN-based link prediction. We term it as \textit{conformalized link prediction.} Our approach builds upon conformal prediction (CP), a framework that promises to construct statistically robust prediction sets or intervals. We first theoretically and empirically establish a permutation invariance condition for the application of CP in link prediction tasks, along with an exact test-time coverage. Leveraging the important structural information in graphs, we then identify a novel and crucial connection between a graph's adherence to the power law distribution and the efficiency of CP. This insight leads to the development of a simple yet effective sampling-based method to align the graph structure with a power law distribution prior to the standard CP procedure. Extensive experiments demonstrate that for conformalized link prediction, our approach achieves the desired marginal coverage while significantly improving the efficiency of CP compared to baseline methods. | 翻訳日:2024-07-22 22:58:09 公開日:2024-07-18 |
# 量子信号処理の複雑化とラミフィケーション
Complexification of Quantum Signal Processing and its Ramifications ( http://arxiv.org/abs/2407.04780v2 ) ライセンス: Link先を確認 | V. M. Bastidas, K. J. Joven, | (参考訳) 近年、時空二重量子回路の理論的および実験的研究への関心が高まっている。
それらはユニークな性質を示し、多様な分野に応用できる。
周期時空双対量子回路は、フロケ作用素によって定義される反復構造のために特に興味深い。
量子信号処理(Quantum Signal Processing, QSP)は、既知の全ての量子アルゴリズムを具現化するフレームワークである。
しかし、これらの2つの明らかに異なる概念の間に深い関係があるかどうかは不明である。
本研究では、単一周期でフロケ作用素を定義する回路とリー代数 sl$(2,\mathbb{C})$ に対する時空双対定義 QSP 列の関係を定め、これは su$(2)$ の複素化である。
まず、複素化QSP系列は密度行列上のローレンツ群の作用の観点から解釈でき、ユニタリと測定を含むハイブリッド回路として解釈できることを示す。
また、このQSP列のユニタリ表現は無限次元であり、ハイゼンベルク図形のボゾン作用素に対して定義される。
最後に、複素化 QSP と sl$(2,\mathbb{C})$ の非線形フーリエ変換の関係を示す。
In recent years there has been an increasing interest on the theoretical and experimental investigation of space-time dual quantum circuits. They exhibit unique properties and have applications to diverse fields. Periodic space-time dual quantum circuits are of special interest, due to their iterative structure defined by the Floquet operator. A very similar iterative structure naturally appears in Quantum Signal processing (QSP), which has emerged as a framework that embodies all the known quantum algorithms. However, it is yet unclear whether there is deeper relation between these two apparently different concepts. In this work, we establish a relation between a circuit defining a Floquet operator in a single period and its space-time dual defining QSP sequences for the Lie algebra sl$(2,\mathbb{C})$, which is the complexification of su$(2)$. First, we show that our complexified QSP sequences can be interpreted in terms of action of the Lorentz group on density matrices and that they can be interpreted as hybrid circuits involving unitaries and measurements. We also show that unitary representations of our QSP sequences exist, although they are infinite-dimensional and are defined for bosonic operators in the Heisenberg picture. Finally, we also show the relation between our complexified QSP and the nonlinear Fourier transform for sl$(2,\mathbb{C})$, which is a generalization of the previous results on su$(2)$ QSP. | 翻訳日:2024-07-22 21:58:59 公開日:2024-07-18 |
# AID-AppEAL:コンテンツ魅力向上とアセスメントラベリングのための自動画像データセットとアルゴリズム
AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling ( http://arxiv.org/abs/2407.05546v2 ) ライセンス: Link先を確認 | Sherry X. Chen, Yaron Vaxman, Elad Ben Baruch, David Asulin, Aviad Moreshet, Misha Sra, Pradeep Sen, | (参考訳) 本稿では、画像中の食品の魅力などの視聴者に対して、画像コンテンツが生成する肯定的な関心度を定量化する新しい指標である画像コンテンツ魅力評価(ICAA)を提案する。
これは、画像の芸術的品質を判断する伝統的な画像美学評価(IAA)と根本的に異なる。
従来の研究は「美学」と「アペアル」の概念を混同することが多いが、我々の研究はICAAを初めて明示的に研究することでこの問題に対処している。
そこで本研究では,データセット作成を自動化する新しいシステムを提案し,コンテンツ魅力を推定・促進するアルゴリズムを実装した。
パイプラインを使用して、さまざまなドメイン(フードとルームインテリアデザイン)で2つの大規模なデータセット(それぞれ70K以上の画像)を生成してモデルをトレーニングしています。
ユーザスタディでは、参加者の76%以上がアピール強調画像を好むが、私たちのアピール評価がユーザの好みを正確に反映していることを確認し、ICAAをユニークな評価基準として確立した。
私たちのコードとデータセットはhttps://github.com/SherryXTChen/AID-Appeal.comで公開されています。
We propose Image Content Appeal Assessment (ICAA), a novel metric that quantifies the level of positive interest an image's content generates for viewers, such as the appeal of food in a photograph. This is fundamentally different from traditional Image-Aesthetics Assessment (IAA), which judges an image's artistic quality. While previous studies often confuse the concepts of ``aesthetics'' and ``appeal,'' our work addresses this by being the first to study ICAA explicitly. To do this, we propose a novel system that automates dataset creation and implements algorithms to estimate and boost content appeal. We use our pipeline to generate two large-scale datasets (70K+ images each) in diverse domains (food and room interior design) to train our models, which revealed little correlation between content appeal and aesthetics. Our user study, with more than 76% of participants preferring the appeal-enhanced images, confirms that our appeal ratings accurately reflect user preferences, establishing ICAA as a unique evaluative criterion. Our code and datasets are available at https://github.com/SherryXTChen/AID-Appeal. | 翻訳日:2024-07-22 21:58:59 公開日:2024-07-18 |
# Occ Flow: 自己監督型3D作業フロー予測
Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction ( http://arxiv.org/abs/2407.07587v2 ) ライセンス: Link先を確認 | Yili Liu, Linzhan Mou, Xuan Yu, Chenrui Han, Sitong Mao, Rong Xiong, Yue Wang, | (参考訳) 動的環境の正確な認識は、自律運転とロボットシステムの基本課題である。
本稿では, カメラ入力のみを用いて, 3Dアノテーションの必要をなくし, 関節の3D占有率と占有率の予測を行う最初の自己教師型作業であるLet Occ Flowを紹介する。
本手法では,統合されたシーン表現のためのTPVと,特徴集約のための変形可能なアテンション層を用いて,動的オブジェクトの依存関係をキャプチャするための後方向きの時間的アテンションモジュールと,詳細なボリューム表現のための3Dリファインメントモジュールを併用する。
さらに, 動的分解と運動最適化のために, ゼロショット2次元セグメンテーションと光学フローキューを活用することで, 3次元フロー場に微分可能レンダリングを拡張した。
nuScenesとKITTIデータセットに関する大規模な実験は、従来の最先端手法に対する我々のアプローチの競争性能を実証している。
Accurate perception of the dynamic environment is a fundamental task for autonomous driving and robot systems. This paper introduces Let Occ Flow, the first self-supervised work for joint 3D occupancy and occupancy flow prediction using only camera inputs, eliminating the need for 3D annotations. Utilizing TPV for unified scene representation and deformable attention layers for feature aggregation, our approach incorporates a backward-forward temporal attention module to capture dynamic object dependencies, followed by a 3D refine module for fine-gained volumetric representation. Besides, our method extends differentiable rendering to 3D volumetric flow fields, leveraging zero-shot 2D segmentation and optical flow cues for dynamic decomposition and motion optimization. Extensive experiments on nuScenes and KITTI datasets demonstrate the competitive performance of our approach over prior state-of-the-art methods. | 翻訳日:2024-07-22 21:58:59 公開日:2024-07-18 |
# FairDomain: 医用画像のクロスドメイン化と分類における公平性の実現
FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification ( http://arxiv.org/abs/2407.08813v2 ) ライセンス: Link先を確認 | Yu Tian, Congcong Wen, Min Shi, Muhammad Muneeb Afzal, Hao Huang, Muhammad Osama Khan, Yan Luo, Yi Fang, Mengyu Wang, | (参考訳) 人工知能(AI)の公平性への対処、特に医療AIは、適切な医療結果の確保に不可欠である。
公平性を高めるための最近の取り組みは、医療AIの新しい方法論とデータセットを導入している。
しかし、ドメイン転送の設定による公平性の問題はほとんど解明されていないが、クリニックが患者診断のために異なる画像技術(例えば、異なる網膜画像モダリティ)に依存していることが一般的である。
本稿では,ドメインシフト下でのアルゴリズムフェアネスの先駆的研究であるFairDomainについて,医学的セグメンテーションと分類タスクの両方に最先端領域適応(DA)アルゴリズムと一般化(DG)アルゴリズムを用いて,異なるドメイン間でバイアスがどのように移行されるかを理解する。
また,多種多様なDAおよびDGアルゴリズムに適応し,自己注意を用いて特徴の重要度を調整することによる公平性向上を目的とした,新たなプラグイン・アンド・プレイ・フェア・パーソナリティ・アテンション(FIA)モジュールについても紹介する。
さらに,医学的セグメンテーションと分類タスクにおける同一患者コホートに対して,2対の画像モダリティを併用した最初のフェアネス中心のデータセットをキュレートし,ドメインシフトシナリオにおけるフェアネスを厳格に評価する。
ソースとターゲットドメイン間の人口分布のばらつきの相違を除くと、ドメイン転送モデルの性能のより明確な定量化が可能になる。
提案したFIAは,各領域のシフト設定(DAとDG)の公平性を考慮したモデル性能を大幅に向上させ,セグメンテーションと分類の両方において既存手法より優れていることを示す。
コードとデータはhttps://ophai.hms.harvard.edu/datasets/harvard-fair domain20kでアクセスできる。
Addressing fairness in artificial intelligence (AI), particularly in medical AI, is crucial for ensuring equitable healthcare outcomes. Recent efforts to enhance fairness have introduced new methodologies and datasets in medical AI. However, the fairness issue under the setting of domain transfer is almost unexplored, while it is common that clinics rely on different imaging technologies (e.g., different retinal imaging modalities) for patient diagnosis. This paper presents FairDomain, a pioneering systemic study into algorithmic fairness under domain shifts, employing state-of-the-art domain adaptation (DA) and generalization (DG) algorithms for both medical segmentation and classification tasks to understand how biases are transferred between different domains. We also introduce a novel plug-and-play fair identity attention (FIA) module that adapts to various DA and DG algorithms to improve fairness by using self-attention to adjust feature importance based on demographic attributes. Additionally, we curate the first fairness-focused dataset with two paired imaging modalities for the same patient cohort on medical segmentation and classification tasks, to rigorously assess fairness in domain-shift scenarios. Excluding the confounding impact of demographic distribution variation between source and target domains will allow clearer quantification of the performance of domain transfer models. Our extensive evaluations reveal that the proposed FIA significantly enhances both model performance accounted for fairness across all domain shift settings (i.e., DA and DG) with respect to different demographics, which outperforms existing methods on both segmentation and classification. The code and data can be accessed at https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k. | 翻訳日:2024-07-22 21:58:59 公開日:2024-07-18 |
# SignSpeak: ASL翻訳のためのオープンソース時系列分類
SignSpeak: Open-Source Time Series Classification for ASL Translation ( http://arxiv.org/abs/2407.12020v2 ) ライセンス: Link先を確認 | Aditya Makkar, Divya Makkar, Aarav Patel, Liam Hebert, | (参考訳) 手話における流布の欠如は、聴覚と言語障害のあるコミュニティにとってシームレスなコミュニケーションの障壁として依然として残っている。
本研究では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
そして、このデータセットをLSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、そこで最高のモデルが92%の精度を達成した。
SignSpeakデータセットは、36のクラス(A-Z, 1-10)を含む7200のサンプルを持ち、5つの低コストなフレキシブルセンサーを使用して36Hzの各時間ステップにおける指の位置を測定することで、現実的な署名パターンをキャプチャすることを目指している。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確で効率的なASLトランスレータを提供し、将来の作業を構築するためのフレームワークを確立しています。
The lack of fluency in sign language remains a barrier to seamless communication for hearing and speech-impaired communities. In this work, we propose a low-cost, real-time ASL-to-speech translation glove and an exhaustive training dataset of sign language patterns. We then benchmarked this dataset with supervised learning models, such as LSTMs, GRUs and Transformers, where our best model achieved 92% accuracy. The SignSpeak dataset has 7200 samples encompassing 36 classes (A-Z, 1-10) and aims to capture realistic signing patterns by using five low-cost flex sensors to measure finger positions at each time step at 36 Hz. Our open-source dataset, models and glove designs, provide an accurate and efficient ASL translator while maintaining cost-effectiveness, establishing a framework for future work to build on. | 翻訳日:2024-07-22 21:49:14 公開日:2024-07-18 |
# AIベースの補助技術研究におけるリスク報告 : システムレビュー
Reporting Risks in AI-based Assistive Technology Research: A Systematic Review ( http://arxiv.org/abs/2407.12035v2 ) ライセンス: Link先を確認 | Zahra Ahmadi, Peter R. Lewis, Mahadeo A. Sukhai, | (参考訳) 人工知能(AI)は、補助技術を強化するためにますます採用されているが、様々な方法で失敗する可能性がある。
視覚障害者のためのAIベースの支援技術に関する研究について,系統的な文献レビューを行った。
本研究は, 実証可能なプロトタイプを用いたほとんどの技術が, 観光コミュニティのメンバーによる人間による研究では評価されていないことを示す。
さらに、多くの研究は、障害事例や潜在的なリスクを考慮または報告しなかった。
これらの知見は、AIベースの補助技術を開発する際に、包括的システム評価の重要性と、障害事例や脅威を提示・分析するための標準化方法の必要性を強調している。
Artificial Intelligence (AI) is increasingly employed to enhance assistive technologies, yet it can fail in various ways. We conducted a systematic literature review of research into AI-based assistive technology for persons with visual impairments. Our study shows that most proposed technologies with a testable prototype have not been evaluated in a human study with members of the sight-loss community. Furthermore, many studies did not consider or report failure cases or possible risks. These findings highlight the importance of inclusive system evaluations and the necessity of standardizing methods for presenting and analyzing failure cases and threats when developing AI-based assistive technologies. | 翻訳日:2024-07-22 21:49:14 公開日:2024-07-18 |
# CP2Kにおける最小追従線形応答ハバードとHund補正密度汎関数理論
Minimum tracking linear response Hubbard and Hund corrected Density Functional Theory in CP2K ( http://arxiv.org/abs/2407.13256v1 ) ライセンス: Link先を確認 | Ziwei Chai, Rutong Si, Gilberto Teobaldi, David D. O'Regan, Li-Min Liu, | (参考訳) 我々は、CP2Kスイートの一部であるQuickstepプログラムにおいて、Hubbard(U$)およびHund(J$)補正密度汎関数理論(DFT+$U$+J$)機能の実装を示す。
テンソル表現とL\'owdin部分空間表現は実装され比較される。
完全な解析的 DFT+$U$+$J$ の力が実装され、テンソル表現と L\"owdin 表現に対してベンチマークされる。
また、最近提案された最小追跡線形応答法の実装について、コーン・シャム固有系に言及せずに、第一原理に基づいて$U$と$J$パラメータを計算できるようにする。
これらの実装は、NiOのDFT+$U$バンドギャップ開口、TiO$_2$の様々なポーラロン分布の相対安定性、演算されたTiO$_2$バンドギャップの+$J$補正への依存性、そして最終的に、一連の六水化遷移金属の計算特性に対する+$U$および+$J$補正の役割など、最近の材料特性に対する比較結果と比較される。
我々の実装は、同等の手法で文献に報告されている結果と一致した結果を提供する。
本研究は,L\"owdin直交正規化が占領状況,計算パラメータ,導出特性に与える影響に関する試験への貢献を結論する。
We present the implementation of the Hubbard ($U$) and Hund ($J$) corrected Density Functional Theory (DFT+$U$+$J$) functionality in the Quickstep program, which is part of the CP2K suite. The tensorial and L\"owdin subspace representations are implemented and compared. Full analytical DFT+$U$+$J$ forces are implemented and benchmarked for the tensorial and L\"owdin representations. We also present the implementation of the recently proposed minimum-tracking linear-response method that enables the $U$ and $J$ parameters to be calculated on first principles basis without reference to the Kohn-Sham eigensystem. These implementations are benchmarked against recent results for different materials properties including DFT+$U$ band gap opening in NiO, the relative stability of various polaron distributions in TiO$_2$, the dependence of the calculated TiO$_2$ band gap on +$J$ corrections, and, finally, the role of the +$U$ and +$J$ corrections for the computed properties of a series of the hexahydrated transition metals. Our implementation provides results consistent with those already reported in the literature from comparable methods. We conclude the contribution with tests on the influence of the L\"owdin orthonormalization on the occupancies, calculated parameters, and derived properties. | 翻訳日:2024-07-22 21:49:14 公開日:2024-07-18 |
# 多変量時系列予測における留意点の再検討
Revisiting Attention for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2407.13806v1 ) ライセンス: Link先を確認 | Haixiang Wu, | (参考訳) MTSF(Multiate Time-Series Forecasting)の現在のトランスフォーマー手法はすべて,従来のアテンション機構に基づいている。
シーケンシャル埋め込みと Q, K, V の線型射影を行い、次にこの潜在空間内で注意を計算する。
このような写像空間がMTSFに最適かどうかを探索するために、注意機構を掘り下げたことは一度もない。
そこで本研究では,周波数領域空間に基づく新しいアテンション機構である周波数スペクトルアテンション(FSatten)を提案する。
FSattenは、シークエンス間の周期的依存関係を正確に把握し、メインストリームアーキテクチャを変更することなく、従来の注目を上回ることができる。
さらに、より一般的な方法であるスケールド直交注意法(SOatten)を設計する。
本稿では, 近接する類似性バイアスに基づく直交埋め込みと頭部結合畳み込み(HCC)を提案し, 包括的依存パターンの学習においてモデルを導出する。
実験の結果, FSatten と SOatten がSOTA を上回り, MTSF の基本的注意機構として優れていることがわかった。
コードとログファイルは、https://github.com/Joeland4/FSatten-SOatten.comでリリースされる。
Current Transformer methods for Multivariate Time-Series Forecasting (MTSF) are all based on the conventional attention mechanism. They involve sequence embedding and performing a linear projection of Q, K, and V, and then computing attention within this latent space. We have never delved into the attention mechanism to explore whether such a mapping space is optimal for MTSF. To investigate this issue, this study first proposes Frequency Spectrum attention (FSatten), a novel attention mechanism based on the frequency domain space. It employs the Fourier transform for embedding and introduces Multi-head Spectrum Scaling (MSS) to replace the conventional linear mapping of Q and K. FSatten can accurately capture the periodic dependencies between sequences and outperform the conventional attention without changing mainstream architectures. We further design a more general method dubbed Scaled Orthogonal attention (SOatten). We propose an orthogonal embedding and a Head-Coupling Convolution (HCC) based on the neighboring similarity bias to guide the model in learning comprehensive dependency patterns. Experiments show that FSatten and SOatten surpass the SOTA which uses conventional attention, making it a good alternative as a basic attention mechanism for MTSF. The codes and log files will be released at: https://github.com/Joeland4/FSatten-SOatten. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# CoAPT: Prompt Tuningのためのコンテキスト属性ワード
CoAPT: Context Attribute words for Prompt Tuning ( http://arxiv.org/abs/2407.13808v1 ) ライセンス: Link先を確認 | Gun Lee, Subin An, Sungyong Baik, Soochahn Lee, | (参考訳) 少数/ゼロショット画像分類のための,CoAPT (Context Attribute words in Prompt Tuning) と呼ばれる新しいプロンプトチューニング手法を提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
そこで本研究では,既存のプロンプトチューニング手法のテキストクエリを充実させ,CLIP埋め込み空間におけるテキストと画像の埋め込みのアライメントを改善することを目的とする。
そのため、CoAPTは属性語を学習可能なプロンプトチューニングに付加的なプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
テキスト埋め込みへの属性の取り込みや画像埋め込みとの整合化を容易にするため、画像-テキスト合成クエリの連結特徴符号化から入力-画像-特徴バイアスを生成する追加のメタネットワークと共にソフトプロンプトを訓練する。
実験により、CoAPTは、ベース・ツー・ノーベルの一般化、クロス・データセットの転送、ドメインの一般化など、いくつかの/ゼロショット画像分類タスクにおいて、既存のベースライン手法を大幅に改善することを示した。
本研究は、ハードプロンプトとソフトプロンプトを組み合わせることの重要性を強調し、事前学習されたモデルにおけるテキストと画像の潜在空間の相互作用について、今後の研究の道を開くものである。
We propose a novel prompt tuning method called CoAPT(Context Attribute words in Prompt Tuning) for few/zero-shot image classification. The core motivation is that attributes are descriptive words with rich information about a given concept. Thus, we aim to enrich text queries of existing prompt tuning methods, improving alignment between text and image embeddings in CLIP embedding space. To do so, CoAPT integrates attribute words as additional prompts within learnable prompt tuning and can be easily incorporated into various existing prompt tuning methods. To facilitate the incorporation of attributes into text embeddings and the alignment with image embeddings, soft prompts are trained together with an additional meta-network that generates input-image-wise feature biases from the concatenated feature encodings of the image-text combined queries. Our experiments demonstrate that CoAPT leads to considerable improvements for existing baseline methods on several few/zero-shot image classification tasks, including base-to-novel generalization, cross-dataset transfer, and domain generalization. Our findings highlight the importance of combining hard and soft prompts and pave the way for future research on the interplay between text and image latent spaces in pre-trained models. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 量子機械学習の強化:非線形光再生カーネルのパワー
Enhancing Quantum Machine Learning: The Power of Non-Linear Optical Reproducing Kernels ( http://arxiv.org/abs/2407.13809v1 ) ライセンス: Link先を確認 | Shahram Dehdashti, Prayag Tiwari, Kareem H. El Safty, Peter Bruza, Janis Notzel, | (参考訳) 量子機械学習アルゴリズムの配列の中で、量子カーネル法は、主にノイズの多い中間スケールの量子デバイスとの互換性と、量子上の優位性を達成するという約束のために焦点として登場した。
この方法は、データを量子状態で構築された特徴空間に非線形に変換することで、分類および回帰処理を可能にする。
本研究では,Su(2),Su(1, 1)コヒーレント状態,圧縮状態を一般化したKerrコヒーレント状態を用いた新しい特徴空間を提案する。
特に、特徴空間は一定の曲率を示し、Kerrパラメータの符号に依存する球面と双曲幾何学の両方を含む。
顕著なことに、コヒーレント状態に関連する物理的パラメータは、特徴空間の曲率の制御を可能にする。
本研究では、Kerrコヒーレント状態の位相と振幅にデータを符号化したKerrカーネルを用いる。
月から乳がん診断まで,さまざまなデータセットを分析した。
以上の結果から,Kerrコヒーレント状態のロバスト性は,異なるハイパーパラメータを収容する際の柔軟性に起因し,ノイズの多いデータセットやハードウェアセットアップに対して優れた性能を提供する。
Amidst the array of quantum machine learning algorithms, the quantum kernel method has emerged as a focal point, primarily owing to its compatibility with noisy intermediate-scale quantum devices and its promise to achieve quantum advantage. This method operates by nonlinearly transforming data into feature space constructed with quantum states, enabling classification and regression tasks. In this study, we present a novel feature space constructed using Kerr coherent states, which generalize su(2), su(1, 1) coherent states, and squeezed states. Notably, the feature space exhibits constant curvature, comprising both spherical and hyperbolic geometries, depending on the sign of the Kerr parameter. Remarkably, the physical parameters associated with the coherent states, enable control over the curvature of the feature space. Our study employs Kerr kernels derived from encoding data into the phase and amplitude of Kerr coherent states. We analyze various datasets ranging from Moon to breast cancer diagnostics. Our findings demonstrate the robustness of Kerr coherent states, attributed to their flexibility in accommodating different hyperparameters, thereby offering superior performance across noisy datasets and hardware setups. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# どの物体が効果的に行動するのに役立ちますか?
Which objects help me to act effectively? Reasoning about physically-grounded affordances ( http://arxiv.org/abs/2407.13811v1 ) ライセンス: Link先を確認 | Anne Kemmeren, Gertjan Burghouts, Michael van Bekkum, Wouter Meijer, Jelle van Mil, | (参考訳) オープンワールドとの効果的な対話のためには、ロボットは既知の新しい物体との相互作用が目的に向かってどのように役立つかを理解する必要がある。
この理解の重要な側面は、様々な方法で物体を操作することによって達成される潜在的な効果を表す、物体の余裕を検出することである。
提案手法は,大規模言語モデル (LLM) と視覚言語モデル (VLM) の対話を利用して,オープンワールドのアベイランス検出を実現する。
意図した行動や効果をオープンな語彙で記述すると、環境における有用なオブジェクトが見つかる。
我々のシステムを物理的世界に接地することで、ロボットの体現と、遭遇する物体の本質的な性質を説明できる。
実験では, 異なる実施形態や意図した効果に基づいて, 適合した出力を生成できることを実証した。
この手法は、注意散らし器のセットから有用な物体を選択することができた。
VLMの物理特性の微調整により、全体的な性能が向上した。
これらの結果は,ロボットの具体化と物体の物理的特性を考慮し,身体界における手当探索の重要性を浮き彫りにしている。
For effective interactions with the open world, robots should understand how interactions with known and novel objects help them towards their goal. A key aspect of this understanding lies in detecting an object's affordances, which represent the potential effects that can be achieved by manipulating the object in various ways. Our approach leverages a dialogue of large language models (LLMs) and vision-language models (VLMs) to achieve open-world affordance detection. Given open-vocabulary descriptions of intended actions and effects, the useful objects in the environment are found. By grounding our system in the physical world, we account for the robot's embodiment and the intrinsic properties of the objects it encounters. In our experiments, we have shown that our method produces tailored outputs based on different embodiments or intended effects. The method was able to select a useful object from a set of distractors. Finetuning the VLM for physical properties improved overall performance. These results underline the importance of grounding the affordance search in the physical world, by taking into account robot embodiment and the physical properties of objects. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 神経疾患における手技と深部放射線治療 : 腫瘍学から臨床神経イメージングへ
A review of handcrafted and deep radiomics in neurological diseases: transitioning from oncology to clinical neuroimaging ( http://arxiv.org/abs/2407.13813v1 ) ライセンス: Link先を確認 | Elizaveta Lavrova, Henry C. Woodruff, Hamza Khan, Eric Salmon, Philippe Lambin, Christophe Phillips, | (参考訳) 医療画像技術は広範囲に開発され、臨床情報の非侵襲的な可視化を可能にしている。
臨床医による伝統的な医療画像のレビューは、主観的、時間的、人的誤りの傾向にある。
近年,医療画像データの入手が進み,定量化がこの分野において重要な目標となっている。
画像データから定量情報を抽出する手法であるRadiomicsは,隠れた生物学的情報を明らかにするための有望なアプローチとして登場し,臨床実践における意思決定を支援する。
本稿では, 臨床神経画像学の観点からの放射線パイプラインの概観を概説し, 各ステップについて概説する。
神経画像診断における手技と深部放射線の応用について論じる。
放射線医学は、診断精度を高め、神経学における治療品質を向上させる大きな可能性を秘めているが、いくつかの制限が臨床実装を妨げている。
これらの課題に対処するには、協力的な取り組み、画像調和法の進歩、透過的な報告を伴う再現性と標準化されたパイプラインの確立が必要である。
これらの障害を克服することで、放射線治療は臨床神経学に大きな影響を与え、患者のケアを高めることができる。
Medical imaging technologies have undergone extensive development, enabling non-invasive visualization of clinical information. The traditional review of medical images by clinicians remains subjective, time-consuming, and prone to human error. With the recent availability of medical imaging data, quantification have become important goals in the field. Radiomics, a methodology aimed at extracting quantitative information from imaging data, has emerged as a promising approach to uncover hidden biological information and support decision-making in clinical practice. This paper presents a review of the radiomic pipeline from the clinical neuroimaging perspective, providing a detailed overview of each step with practical advice. It discusses the application of handcrafted and deep radiomics in neuroimaging, stratified by neurological diagnosis. Although radiomics shows great potential for increasing diagnostic precision and improving treatment quality in neurology, several limitations hinder its clinical implementation. Addressing these challenges requires collaborative efforts, advancements in image harmonization methods, and the establishment of reproducible and standardized pipelines with transparent reporting. By overcoming these obstacles, radiomics can significantly impact clinical neurology and enhance patient care. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 境界駆動型XXZスピン鎖における無秩序および無秩序の弾道伝導
Ballistic conductance with and without disorder in a boundary-driven XXZ spin chain ( http://arxiv.org/abs/2407.13816v1 ) ライセンス: Link先を確認 | Adam J. McRoberts, Roderich Moessner, | (参考訳) 近年の Google の sycamore NISQ プラットフォームにおける XXZ 鎖の非単位周期境界駆動によるスピン輸送に関する実験により,解析的および数値的手段を組み合わせた古典的変種について検討した。
古典的モデルは量子結果を顕著に再現し、スピン輸送の3つの異なる状態、すなわち弾道性(平面)、亜拡散性(等方性)、絶縁性(軸性)の性質と形状を解析的にハンドリングする。
さらに、この現象学は、安定状態に近づく過渡的ダイナミクスが、清潔なケースと乱れたケースの間に質的に異なるにもかかわらず、結合障害の包含に対して著しく堅牢であることを示し、乱れた環境で弾道的輸送のインスタンスを提供する。
Motivated by recent experiments on google's sycamore NISQ platform on the spin transport resulting from a non-unitary periodic boundary drive of an XXZ chain, we study a classical variant thereof by a combination of analytical and numerical means. We find the classical model reproduces the quantum results in remarkable detail, and provides an analytical handle on the nature and shape of the spin transport's three distinct regimes: ballistic (easy-plane), subdiffusive (isotropic) and insulating (easy-axis). Further, we show that this phenomenology is remarkably robust to the inclusion of bond disorder -- albeit that the transient dynamics approaching the steady states differs qualitatively between the clean and disordered cases -- providing an accessible instance of ballistic transport in a disordered setting. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# スカラー量子場理論のための最適化量子シミュレーションアルゴリズム
Optimized Quantum Simulation Algorithms for Scalar Quantum Field Theories ( http://arxiv.org/abs/2407.13819v1 ) ライセンス: Link先を確認 | Andrew Hardy, Priyanka Mukhopadhyay, M. Sohaib Alam, Robert Konik, Layla Hormozi, Eleanor Rieffel, Stuart Hadfield, João Barata, Raju Venugopalan, Dmitri E. Kharzeev, Nathan Wiebe, | (参考訳) 本研究では, 量子コンピュータ上でのスカラー場理論の実用的なシミュレーション手法を提案する。
これらの改善は2つの最適化によって達成する。
まず、S行列の要素を推定する別のアプローチを考える。
このアプローチは一般に1+1Dと高次元のある種の低エネルギー弾性衝突に適している。
第2に,フィールド占有ベースとフィールド振幅ベースの両方で定式化されたハミルトニアンの一連のフォールトトレラントシミュレーションアルゴリズムを用いて,本手法を実装した。
我々のアルゴリズムは2階のトロッタライズまたはキュービットライズに基づいている。
職業ベースでのトロッター化のコストは、$\widetilde{O}(\lambda N^7 |\Omega|^3/(M^{5/2} \epsilon^{3/2})$ ここで、$\lambda$は結合強度、$N$は占有カットオフ$|\Omega|$は空間格子の体積、$M$は粒子の質量、$\epsilon$は$S$-行列決定に使用されるエネルギー計算の不確実性である。
場の量子化は$\widetilde{O}(|\Omega|^2 (k^2 \Lambda +kM^2)/\epsilon)$ ここで$k$はフィールドのカットオフ、$\Lambda$はスケールされたカップリング定数である。
いずれの場合も, 物理的に有意なシミュレーションは, 4 倍の物理量子ビット 10^6$ および 10^{12}$ $T$-gates の順で行うことができ, 表面コードとサイクル時間 100 ns の超伝導量子コンピュータ上では約1日に相当する。
We provide practical simulation methods for scalar field theories on a quantum computer that yield improved asymptotics as well as concrete gate estimates for the simulation and physical qubit estimates using the surface code. We achieve these improvements through two optimizations. First, we consider a different approach for estimating the elements of the S-matrix. This approach is appropriate in general for 1+1D and for certain low-energy elastic collisions in higher dimensions. Second, we implement our approach using a series of different fault-tolerant simulation algorithms for Hamiltonians formulated both in the field occupation basis and field amplitude basis. Our algorithms are based on either second-order Trotterization or qubitization. The cost of Trotterization in occupation basis scales as $\widetilde{O}(\lambda N^7 |\Omega|^3/(M^{5/2} \epsilon^{3/2})$ where $\lambda$ is the coupling strength, $N$ is the occupation cutoff $|\Omega|$ is the volume of the spatial lattice, $M$ is the mass of the particles and $\epsilon$ is the uncertainty in the energy calculation used for the $S$-matrix determination. Qubitization in the field basis scales as $\widetilde{O}(|\Omega|^2 (k^2 \Lambda +kM^2)/\epsilon)$ where $k$ is the cutoff in the field and $\Lambda$ is a scaled coupling constant. We find in both cases that the bounds suggest physically meaningful simulations can be performed using on the order of $4\times 10^6$ physical qubits and $10^{12}$ $T$-gates which corresponds to roughly one day on a superconducting quantum computer with surface code and a cycle time of 100 ns, placing simulation of scalar field theory within striking distance of the gate counts for the best available chemistry simulation results. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 時空拡散による幻の冷たい暗黒物質の創出
Emergence of phantom cold dark matter from spacetime diffusion ( http://arxiv.org/abs/2407.13820v1 ) ライセンス: Link先を確認 | Jonathan Oppenheim, Emanuele Panella, Andrew Pontzen, | (参考訳) 幾何学を定量化せずに一般相対性理論と場の量子論を整合させる方法は、計量を確率的に発展させることである。
本稿では,初期の宇宙論においてそのような提案がもたらす影響について考察する。
その結果,空間的距離が決定論的値から逸脱し,幻の冷暗黒物質(CDM)が生成されることがわかった。
主に宇宙の進化のインフレーション段階の終わりに生成され、初期の宇宙論モデルの特異性に依存する統計的な分布を持つ。
この幻の冷暗黒物質のエネルギー密度は平均的に正であり、CDMの宇宙現象を再現するために必要な条件であるが、その平均密度と空間分布を計算するためにはさらなる研究が必要である。
密度が宇宙論的に重要な場合、ファントムダークマターは従来のCDMと区別できない方法で幾何学に作用する。
そのため、構造形成、レンズ形成、銀河の回転曲線などの現象学を再現する可能性がある。
宇宙マイクロ波背景測定とテーブルトップ実験を組み合わせることで、重力のハイブリッド理論をテストする可能性について論じる。
A way to reconcile general relativity and quantum field theory without quantising the geometry is to demand the metric evolve stochastically. In this article, we explore the consequences of such a proposal at early cosmological times. We find the stochastic evolution results in the spatial metric diffusing away from its deterministic value, generating phantom cold dark matter (CDM). It is produced primarily at the end of the inflationary phase of the Universe's evolution, with a statistical distribution that depends on the specifics of the early-times cosmological model. We find the energy density of this phantom cold dark matter is positive on average, a necessary condition to reproduce the cosmological phenomenology of CDM, although further work is required to calculate its mean density and spatial distribution. If the density is cosmologically significant, phantom dark matter acts on the geometry in a way that is indistinguishable from conventional CDM. As such, it has the potential to reproduce phenomenology such as structure formation, lensing, and galactic rotation curves. We conclude by discussing the possibility of testing hybrid theories of gravity by combining measurements of the Cosmic Microwave Background with tabletop experiments. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 検出誤差モデルを用いた耐故障回路の設計
Designing fault-tolerant circuits using detector error models ( http://arxiv.org/abs/2407.13826v1 ) ライセンス: Link先を確認 | Peter-Jan H. S. Derks, Alex Townsend-Teague, Ansgar G. Burchards, Jens Eisert, | (参考訳) 量子エラー訂正符号(サブスペース、サブシステム、フロッケ符号)は、一般に安定化形式の中に構築されており、実用的な量子コンピューティングアプリケーションに必要なフォールトトレランスの考え方を完全には捉えていない。
本研究では,回路レベルでの耐故障性を完全に把握する検出誤差モデルの極めて強力な定式化について検討する。
本稿では,検出誤差モデル形式を教育的手法で導入し,いくつかの例を示す。
さらに,フォールトトレラント回路設計の工学的サイクルにおいて,ロバストシンドローム抽出回路の発見,効率的な計測スケジュールの同定,フォールトトレラント回路の構築という3つの異なる抽象化レベルにフォーマリズムを適用した。
測定誤差に対する表面符号の耐性を高め、カラー符号の短い測定スケジュールを考案し、論理演算子を測定するためのより効率的なフォールトトレラント法を実装した。
Quantum error-correcting codes, such as subspace, subsystem, and Floquet codes, are typically constructed within the stabilizer formalism, which does not fully capture the idea of fault-tolerance needed for practical quantum computing applications. In this work, we explore the remarkably powerful formalism of detector error models, which fully captures fault-tolerance at the circuit level. We introduce the detector error model formalism in a pedagogical manner and provide several examples. Additionally, we apply the formalism to three different levels of abstraction in the engineering cycle of fault-tolerant circuit designs: finding robust syndrome extraction circuits, identifying efficient measurement schedules, and constructing fault-tolerant procedures. We enhance the surface code's resistance to measurement errors, devise short measurement schedules for color codes, and implement a more efficient fault-tolerant method for measuring logical operators. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 逆二乗相互作用を持つ新しい翻訳的不変な超対称鎖:分配関数、熱力学、臨界性
A novel translationally invariant supersymmetric chain with inverse-square interactions: partition function, thermodynamics and criticality ( http://arxiv.org/abs/2407.13827v1 ) ライセンス: Link先を確認 | Federico Finkel, Artemio González-López, | (参考訳) 我々は、ルート系に直接関連しない長距離相互作用を持つ翻訳不変su$(m|n)$超対称スピン鎖の新しい族を導入する。
我々はこれらのモデルの対称性について研究し、特にこの種のシステムのボソン-フェルミオン双対性(boson-fermion duality)特性の存在を確立した。
新しい鎖とそれに付随する多体超対称スピン力学モデルの関係を利用して、m$と$n$のすべての値と任意の数のスピンに対して、それらの分割関数を閉形式で計算することができる。
m$ と $n$ の両方が偶数であるとき、分配函数は2つの超対称ハルダン-シャストリースピン鎖の分配函数の積として分解され、したがって適切な転移行列のペロン固有値の観点からスピン毎の熱力学自由エネルギーの簡単な式が導かれる。
この式を用いて、これらの鎖の大規模な熱力学を解析し、特に、特定の熱が1つのショットキーピークを、適切な$k$レベルのモデルとほぼ同じ温度で表すことを示す。
また,新しい鎖の臨界挙動,特に基底状態の縮退と線形エネルギー-分子分散関係による低エネルギー励起の存在を解析した。
このようにして、可能な唯一の臨界鎖は$m=0,1,2$であることを示すことができる。
さらに、分割函数の明示的な公式を用いて、$n$ の Su$(0|n)$ および su$(2|n)$ の鎖の臨界性を確立し、関連する共形体理論の中心電荷を評価することができる。
We introduce a novel family of translationally-invariant su$(m|n)$ supersymmetric spin chains with long-range interaction not directly associated to a root system. We study the symmetries of these models, establishing in particular the existence of a boson-fermion duality characteristic of this type of systems. Taking advantage of the relation of the new chains with an associated many-body supersymmetric spin dynamical model, we are able to compute their partition function in closed form for all values of $m$ and $n$ and for an arbitrary number of spins. When both $m$ and $n$ are even, we show that the partition function factorizes as the product of the partition functions of two supersymmetric Haldane-Shastry spin chains, which in turn leads to a simple expression for the thermodynamic free energy per spin in terms of the Perron eigenvalue of a suitable transfer matrix. We use this expression to study the thermodynamics of a large class of these chains, showing in particular that the specific heat presents a single Schottky peak at approximately the same temperature as a suitable $k$-level model. We also analyze the critical behavior of the new chains, and in particular the ground state degeneracy and the existence of low energy excitations with a linear energy-momentum dispersion relation. In this way we are able to show that the only possible critical chains are the ones with $m=0,1,2$. In addition, using the explicit formula for the partition function we are able to establish the criticality of the su$(0|n)$ and su$(2|n)$ chains with even $n$, and to evaluate the central charge of their associated conformal field theory. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# 逆自己エンコーダを用いた非ネイティブ量子生成最適化
Non-native Quantum Generative Optimization with Adversarial Autoencoders ( http://arxiv.org/abs/2407.13830v1 ) ライセンス: Link先を確認 | Blake A. Wilson, Jonathan Wurtz, Vahagn Mkhitaryan, Michael Bezick, Sheng-Tao Wang, Sabre Kais, Vladimir M. Shalaev, Alexandra Boltasseva, | (参考訳) 大規模な最適化問題は、工学、金融、物流など、いくつかの分野で広く用いられている。
しかし、既存の量子サンプリング器には量子ビットが多すぎるため、ほとんどの最適化問題は物理系に効率的に符号化できない。
もう一つの典型的な制限要因は、最適化の制約がネイティブコストのハミルトニアンと互換性がないことである。
この研究は、これらの課題に対処するための新しいアプローチを提示します。
本稿では,大規模最適化問題を既存の量子サンプリングにマッピングし,遅延量子拡張ボルツマンサンプリングにより問題を最適化する逆量子オートエンコーダモデル(AQAM)を提案する。
我々は、中性原子サンプリング装置上でAQAMを実証し、中性原子装置のコヒーレンス向上に適用可能な広角フィルタを表わす64pxの単位セルによる64pxの最適化モデルを示す。
12原子シミュレーションを用いて、AQAMは古典的マルコフ・チェイン・モンテカルロ検体と比較して、より低いレニイ発散と大きなスペクトルギャップを達成できることを示した。
我々の研究は、従来の最適化問題を既存の量子サンプリング器により効率的にマッピングする方法を開拓する。
Large-scale optimization problems are prevalent in several fields, including engineering, finance, and logistics. However, most optimization problems cannot be efficiently encoded onto a physical system because the existing quantum samplers have too few qubits. Another typical limiting factor is that the optimization constraints are not compatible with the native cost Hamiltonian. This work presents a new approach to address these challenges. We introduce the adversarial quantum autoencoder model (AQAM) that can be used to map large-scale optimization problems onto existing quantum samplers while simultaneously optimizing the problem through latent quantum-enhanced Boltzmann sampling. We demonstrate the AQAM on a neutral atom sampler, and showcase the model by optimizing 64px by 64px unit cells that represent a broad-angle filter metasurface applicable to improving the coherence of neutral atom devices. Using 12-atom simulations, we demonstrate that the AQAM achieves a lower Renyi divergence and a larger spectral gap when compared to classical Markov Chain Monte Carlo samplers. Our work paves the way to more efficient mapping of conventional optimization problems into existing quantum samplers. | 翻訳日:2024-07-22 21:39:27 公開日:2024-07-18 |
# Phi-3 トレーニング後の安全性: "Break-Fix" サイクルによる言語モデルの調整
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle ( http://arxiv.org/abs/2407.13833v1 ) ライセンス: Link先を確認 | Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler, | (参考訳) 近年の言語モデルトレーニングの革新により,スマートフォン上で動作可能な小型の高性能モデルを作成することが可能になった。
これらのモデルは、ますます多くのドメインに展開されるため、人間の好みや安全性に適合していることを保証することが重要である。
本稿では,Phi-3シリーズの言語モデルの安全性向上のための手法を提案する。
私たちは"ブレークフィックス"サイクルを利用して、データセットのキュレーション、トレーニング後の安全性、ベンチマーク、レッドチーム、脆弱性の識別を複数回実施して、シングルターンシナリオとマルチターンシナリオの両方でさまざまな障害領域をカバーしました。
提案手法は,幅広いAIベンチマークにおいて,Phi-3モデルの性能を反復的に向上させることが示唆された。
Recent innovations in language model training have demonstrated that it is possible to create highly performant models that are small enough to run on a smartphone. As these models are deployed in an increasing number of domains, it is critical to ensure that they are aligned with human preferences and safety considerations. In this report, we present our methodology for safety aligning the Phi-3 series of language models. We utilized a "break-fix" cycle, performing multiple rounds of dataset curation, safety post-training, benchmarking, red teaming, and vulnerability identification to cover a variety of harm areas in both single and multi-turn scenarios. Our results indicate that this approach iteratively improved the performance of the Phi-3 models across a wide range of responsible AI benchmarks. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 量子シミュレーションにおける断熱的状態形成と時間進化のためのシークエンス階層トランケーション(SeqHT)
Sequency Hierarchy Truncation (SeqHT) for Adiabatic State Preparation and Time Evolution in Quantum Simulations ( http://arxiv.org/abs/2407.13835v1 ) ライセンス: Link先を確認 | Zhiyao Li, Dorota M. Grabowska, Martin J. Savage, | (参考訳) 本稿では,量子シミュレーションにおける状態準備と時間発展に必要な資源を減らし,逐次的乱れに基づくシークエンス階層トラニケーション(SeqHT)方式を提案する。
スカラー場理論における$\lambda\phi^4$相互作用や多項式展開との相互作用について、与えられた順序の作用素の寄与に関する上限が導出される。
そこで,本研究では, 量子相関を魔法で測定し, カットオフ周波数を増大させて, 正確な値に段階的に収束することが確認された。
SeqHT の効用は、IBM の量子コンピュータ ${\textit ibm\_sherbrooke}$ を用いて、$\lambda\phi^4$ 無調波発振器基底状態の断熱状態の準備で実証される。
SeqHTを用いることで、必要な量子回路の深さを$\sim 30\%$に減らし、量子シミュレーションにおける可観測物の決定を著しく改善する。
より一般的には、SeqHTは長さスケールの階層を持つシステムの量子シミュレーションに必要なリソースを減らすことが期待されている。
We introduce the Sequency Hierarchy Truncation (SeqHT) scheme for reducing the resources required for state preparation and time evolution in quantum simulations, based upon a truncation in sequency. For the $\lambda\phi^4$ interaction in scalar field theory, or any interaction with a polynomial expansion, upper bounds on the contributions of operators of a given sequency are derived. For the systems we have examined, observables computed in sequency-truncated wavefunctions, including quantum correlations as measured by magic, are found to step-wise converge to their exact values with increasing cutoff sequency. The utility of SeqHT is demonstrated in the adiabatic state preparation of the $\lambda\phi^4$ anharmonic oscillator ground state using IBM's quantum computer ${\textit ibm\_sherbrooke}$. Using SeqHT, the depth of the required quantum circuits is reduced by $\sim 30\%$, leading to significantly improved determinations of observables in the quantum simulations. More generally, SeqHT is expected to lead to a reduction in required resources for quantum simulations of systems with a hierarchy of length scales. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 情報損失下における測定誘起相転移の破壊
Breakdown of Measurement-Induced Phase Transitions Under Information Loss ( http://arxiv.org/abs/2407.13837v1 ) ライセンス: Link先を確認 | Alessio Paviglianiti, Giovanni Di Fresco, Alessandro Silva, Bernardo Spagnolo, Davide Valenti, Angelo Carollo, | (参考訳) 測定対象となる量子量系の力学は、測定誘起相転移(MIPT)を特徴とする量子軌道のアンサンブルによって自然に記述される。
この現象は、平均的な観測器を通しては明らかではないが、それぞれの軌道を別々に識別する能力が必要であり、実験的な観察は極めて困難である。
観測者の各測定結果の識別能力の低下の下でMIPTの運命を探究する。
これは系の状態の不確実性を導入し、観測者が1つではなく、トラジェクトリの制限された部分集合を探索する原因となる。
正確に解けるリウビリアンモデルを導入することにより, 軌道平均化の経時的相関が, 時間的空間相関に与える影響について検討する。
相関行列, リウヴィリアギャップ, エンタングルメント負性度を正確に計算し, 複数の実現に対する平均化が有効有限長スケールを導入し, 長距離相関が抑制されることを示した。
このことは、軌道上の部分的平均化が個々の実現の重要な特徴を隠蔽し、異なる測定誘起相の符号をぼかすことを示唆している。
The dynamics of a quantum-many body system subject to measurements is naturally described by an ensemble of quantum trajectories, which can feature measurement-induced phase transitions (MIPTs). This phenomenon cannot be revealed through ensemble-averaged observables, but it requires the ability to discriminate each trajectory separately, making its experimental observation extremely challenging. We explore the fate of MIPTs under an observer's reduced ability to discriminate each measurement outcome. This introduces uncertainty in the state of the system, causing observables to probe a restricted subset of trajectories rather than a single one. By introducing an exactly-solvable Liouvillian model, we examine how long-time spatial correlations are influenced by varying degrees of trajectory averaging. We compute exactly the correlation matrix, Liouvillian gap, and entanglement negativity to demonstrate that averaging over multiple realizations introduces an effective finite lengthscale, beyond which long-range correlations are suppressed. This suggests that partial averaging over trajectories conceals the critical features of individual realizations, thereby blurring away the signatures of distinct measurement-induced phases. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 遷移型およびスケーラブルなグラフニューラルネットワークを用いたレーザー粉体層核融合の温度分布予測
Temperature Distribution Prediction in Laser Powder Bed Fusion using Transferable and Scalable Graph Neural Networks ( http://arxiv.org/abs/2407.13838v1 ) ライセンス: Link先を確認 | Riddhiman Raut, Amit Kumar Ball, Amrita Basak, | (参考訳) 本研究では,レーザー粉体融合(L-PBF)プロセスにおける熱力学のシミュレーションにグラフニューラルネットワーク(GNN)を用いた新しい予測モデルを提案する。
シングルレーザーGNN (SL-GNN) とマルチレーザーGNN (ML-GNN) のサロゲートを開発し検証することにより、小規模有限要素解析 (FEA) シミュレーションから基礎物理学を学習し、それらをより大きな領域に適用するスケーラブルなデータ駆動アプローチを導入する。
ベースラインSL-GNNモデルにより平均絶対誤差(MAPE)が3.77%に達すると、GNNは高分解能シミュレーションから効果的に学習し、より大きなジオメトリにわたってうまく一般化する。
提案モデルでは,L-PBFにおける熱伝達過程の複雑さを計算コストを大幅に削減する。
例えば、2mm x 2mm領域の熱力学シミュレーションは通常約4時間を要するが、SL-GNNモデルはほぼ瞬時に熱分布を予測することができる。
モデルをより大きな領域にキャリブレーションすることで予測性能が向上し、3 mm x 3 mm と 4 mm x 4 mm の MAPE が大幅に低下し、このアプローチのスケーラビリティと効率性が強調される。
さらに、ルート平均角誤差(RMSE)は、より大きな領域に合わせると減少傾向を示し、幾何学に依存しない可能性が示唆されている。
複数のレーザーの相互作用は熱伝達を複雑にし、より大きなモデルアーキテクチャと高度な特徴工学を必要とする。
ガウス過程に基づくベイズ最適化のハイパーパラメータを用いて、最良のML-GNNモデルは、ベースラインのML-GNNモデルよりも46.4%改善されたMAPEを示す。
要約すると、この手法はL-PBF添加物製造においてより効率的で柔軟な予測モデルを可能にする。
This study presents novel predictive models using Graph Neural Networks (GNNs) for simulating thermal dynamics in Laser Powder Bed Fusion (L-PBF) processes. By developing and validating Single-Laser GNN (SL-GNN) and Multi-Laser GNN (ML-GNN) surrogates, the research introduces a scalable data-driven approach that learns fundamental physics from small-scale Finite Element Analysis (FEA) simulations and applies them to larger domains. Achieving a Mean Absolute Percentage Error (MAPE) of 3.77% with the baseline SL-GNN model, GNNs effectively learn from high-resolution simulations and generalize well across larger geometries. The proposed models capture the complexity of the heat transfer process in L-PBF while significantly reducing computational costs. For example, a thermomechanical simulation for a 2 mm x 2 mm domain typically requires about 4 hours, whereas the SL-GNN model can predict thermal distributions almost instantly. Calibrating models to larger domains enhances predictive performance, with significant drops in MAPE for 3 mm x 3 mm and 4 mm x 4 mm domains, highlighting the scalability and efficiency of this approach. Additionally, models show a decreasing trend in Root Mean Square Error (RMSE) when tuned to larger domains, suggesting potential for becoming geometry-agnostic. The interaction of multiple lasers complicates heat transfer, necessitating larger model architectures and advanced feature engineering. Using hyperparameters from Gaussian process-based Bayesian optimization, the best ML-GNN model demonstrates a 46.4% improvement in MAPE over the baseline ML-GNN model. In summary, this approach enables more efficient and flexible predictive modeling in L-PBF additive manufacturing. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# AROhI: データ分析のROIを推定するインタラクティブツール
AROhI: An Interactive Tool for Estimating ROI of Data Analytics ( http://arxiv.org/abs/2407.13839v1 ) ライセンス: Link先を確認 | Noopur Zambar, Jacob Idoko, Jagrit Acharya, Gouri Ginde, | (参考訳) 新しい技術を採用するコストは滅多に分析され議論されませんが、世界中の多くのソフトウェア企業にとって不可欠です。
したがって、データ分析を行う場合、ROI(Return On Investment)を考慮することが重要です。
どの程度の分析が必要か?
答えが難しいのです
ROIは、何について意思決定を支援するか?
いかがですか。
いくら?
特定の問題に対する分析。
この作業では、要求依存抽出とROI分析をユースケースとして使用するための、従来および先進的なMLアプローチを提供する包括的なツールについて詳述する。
BERT(Bidirectional Encoder Representations from Transformers)は、依存関係抽出を自動化するさまざまなコンポーネントとして、アクティブラーニング(Active Learning)やトランスファーラーニング(Transfer Learning)、プリミティブな大規模言語モデルなど、高度なML技術を活用して、MLアルゴリズムのROIを計算し、技術投資のコストと利益の間のトレードオフを明確化するメカニズムを実証する。
The cost of adopting new technology is rarely analyzed and discussed, while it is vital for many software companies worldwide. Thus, it is crucial to consider Return On Investment (ROI) when performing data analytics. Decisions on "How much analytics is needed"? are hard to answer. ROI could guide decision support on the What?, How?, and How Much? Analytics for a given problem. This work details a comprehensive tool that provides conventional and advanced ML approaches for demonstration using requirements dependency extraction and their ROI analysis as use case. Utilizing advanced ML techniques such as Active Learning, Transfer Learning and primitive Large language model: BERT (Bidirectional Encoder Representations from Transformers) as its various components for automating dependency extraction, the tool outcomes demonstrate a mechanism to compute the ROI of ML algorithms to present a clear picture of trade-offs between the cost and benefits of a technology investment. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 多くの知覚タスクは入力データの高冗長関数である
Many Perception Tasks are Highly Redundant Functions of their Input Data ( http://arxiv.org/abs/2407.13841v1 ) ライセンス: Link先を確認 | Rahul Ramesh, Anthony Bisulco, Ronald W. DiTullio, Linran Wei, Vijay Balasubramanian, Kostas Daniilidis, Pratik Chaudhari, | (参考訳) 視覚認識,セマンティックセグメンテーション,光流,深度推定,発声識別など,多くの知覚タスクが,入力データの極めて冗長な機能であることを示す。
画像またはスペクトログラムは、ピクセル、フーリエ、ウェーブレットドメインの直交基底によって形成された異なる部分空間に投影され、データが最も変化するトップ部分空間であるかどうかにかかわらず、これらのタスクを著しくうまく解決することができる。
この現象は、異なる部分空間がタスクに関連する大量の冗長な情報を持っているために起こる。
We show that many perception tasks, from visual recognition, semantic segmentation, optical flow, depth estimation to vocalization discrimination, are highly redundant functions of their input data. Images or spectrograms, projected into different subspaces, formed by orthogonal bases in pixel, Fourier or wavelet domains, can be used to solve these tasks remarkably well regardless of whether it is the top subspace where data varies the most, some intermediate subspace with moderate variability--or the bottom subspace where data varies the least. This phenomenon occurs because different subspaces have a large degree of redundant information relevant to the task. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 負のプロンプト誘導を用いた言語駆動型6-DoFグラフ検出
Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance ( http://arxiv.org/abs/2407.13842v1 ) ライセンス: Link先を確認 | Toan Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Quan Vuong, Ngan Le, Thieu Vo, Anh Nguyen, | (参考訳) 6-DoFグリップ検出はロボットビジョンの基本的かつ困難な問題である。
従来の研究は安定性の把握に重点を置いていたが、人間の意図が自然言語を通して伝達されることを考慮せず、複雑な3D環境でロボットとユーザの効果的なコラボレーションを妨げることが多かった。
本稿では,乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
最初にGrasp-Anything-6Dを紹介した。これは1Mポイントクラウドシーンと2億以上の言語関連3Dグリップポーズを備えた言語駆動型6-DoFグリップ検出タスクのための大規模データセットである。
さらに,新たなネガティブな指導指導戦略を取り入れた新しい拡散モデルを導入する。
提案した負のプロンプト戦略は、言語入力を与えられた不要なオブジェクトから切り離したまま、所望のオブジェクトに対して検出プロセスを指示する。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
ベンチマーク実験と実世界のシナリオの両方において,本手法が他のベースラインを上回る効果を示した。
さらに,実世界のロボット応用におけるアプローチの実践性を実証する。
私たちのプロジェクトはhttps://airvlab.github.io/grasp-anything.comで利用可能です。
6-DoF grasp detection has been a fundamental and challenging problem in robotic vision. While previous works have focused on ensuring grasp stability, they often do not consider human intention conveyed through natural language, hindering effective collaboration between robots and users in complex 3D environments. In this paper, we present a new approach for language-driven 6-DoF grasp detection in cluttered point clouds. We first introduce Grasp-Anything-6D, a large-scale dataset for the language-driven 6-DoF grasp detection task with 1M point cloud scenes and more than 200M language-associated 3D grasp poses. We further introduce a novel diffusion model that incorporates a new negative prompt guidance learning strategy. The proposed negative prompt strategy directs the detection process toward the desired object while steering away from unwanted ones given the language input. Our method enables an end-to-end framework where humans can command the robot to grasp desired objects in a cluttered scene using natural language. Intensive experimental results show the effectiveness of our method in both benchmarking experiments and real-world scenarios, surpassing other baselines. In addition, we demonstrate the practicality of our approach in real-world robotic applications. Our project is available at https://airvlab.github.io/grasp-anything. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# CoxSE: 生存分析のためのコックス確率モデルによる自己説明型ニューラルネットワークの可能性を探る
CoxSE: Exploring the Potential of Self-Explaining Neural Networks with Cox Proportional Hazards Model for Survival Analysis ( http://arxiv.org/abs/2407.13849v1 ) ライセンス: Link先を確認 | Abdallah Alabdallah, Omar Hamed, Mattias Ohlsson, Thorsteinn Rögnvaldsson, Sepideh Pashami, | (参考訳) Cox Proportional Hazards(CPH)モデルは、その説明可能性のために長い間、生存モデルとして好まれてきた。
しかし、線形ログリスクを超えて予測能力を高めるために、その説明性を犠牲にするディープニューラルネットワークを活用するように拡張された。
本研究では、生存分析のための自己説明型ニューラルネットワーク(SENN)の可能性について検討する。
我々は,SENNを用いて局所線形ログハザード関数を推定することにより,局所的に説明可能なCox比例ハザードモデルであるCoxSEを提案する。
また,生成した説明の安定性と一貫性を制御できるSENN(CoxSENAM)を併用したニューラル加算モデル(NAM)の修正も提案する。
合成および実データを用いたいくつかの実験は、NAMモデル、DeepSurvモデル、SHAPで説明された線形CPHモデルと比較されている。
その結果,NAMモデルとは異なり,SENNモデルはブラックボックスモデルと同じ表現力を維持しつつ,より安定かつ一貫した説明を提供することができた。
また,NAMモデルの構造設計により,非表現的特徴に対する堅牢性も向上した。
これらのモデルの中で、ハイブリッドモデルは最高の堅牢性を示した。
The Cox Proportional Hazards (CPH) model has long been the preferred survival model for its explainability. However, to increase its predictive power beyond its linear log-risk, it was extended to utilize deep neural networks sacrificing its explainability. In this work, we explore the potential of self-explaining neural networks (SENN) for survival analysis. we propose a new locally explainable Cox proportional hazards model, named CoxSE, by estimating a locally-linear log-hazard function using the SENN. We also propose a modification to the Neural additive (NAM) models hybrid with SENN, named CoxSENAM, which enables the control of the stability and consistency of the generated explanations. Several experiments using synthetic and real datasets have been performed comparing with a NAM-based model, DeepSurv model explained with SHAP, and a linear CPH model. The results show that, unlike the NAM-based model, the SENN-based model can provide more stable and consistent explanations while maintaining the same expressiveness power of the black-box model. The results also show that, due to their structural design, NAM-based models demonstrated better robustness to non-informative features. Among these models, the hybrid model exhibited the best robustness. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# X-Former:MLLMにおけるコントラスト学習と再構成学習の統合
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs ( http://arxiv.org/abs/2407.13851v1 ) ライセンス: Link先を確認 | Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah, | (参考訳) 近年のMLLM(Multimodal Large Language Models)の進歩は、視覚認識機能をLLM(Large Language Models)に統合することで、視覚言語理解の分野に革命をもたらした。
この分野で一般的なトレンドは、視覚言語コントラスト学習(CL)から派生した視覚エンコーダの利用であり、詳細な局所パターンを捉えるのに困難に直面しながら、全体表現をキャプチャする専門知識を示している。
本研究では,マスク付き画像モデリング(MIM)により得られた高頻度・高精細な視覚表現と,CLが取得した意味的にリッチな低周波表現を組み合わせることで,MLLMの視覚表現の向上に焦点をあてる。
この目的を達成するために,CLとMIMの相補的な強度を利用する軽量トランスフォーマーモジュールであるX-Formerを導入する。
具体的には、X-Formerは2つの凍結視覚エンコーダ、すなわちCLIP-ViT(CLベース)とMAE-ViT(MIMベース)から視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
提案手法の有効性を示すため,詳細な視覚的理解を必要とするタスクにおいて,その性能を評価する。
広範囲な評価から、X-FormerはGQAデータセットの構造的カテゴリと意味的カテゴリの両方を含む視覚的推論タスクに優れていることが示唆された。
きめ細かい視覚知覚ベンチマークによる評価は、視覚理解におけるその優れた能力をさらに確認する。
Recent advancements in Multimodal Large Language Models (MLLMs) have revolutionized the field of vision-language understanding by integrating visual perception capabilities into Large Language Models (LLMs). The prevailing trend in this field involves the utilization of a vision encoder derived from vision-language contrastive learning (CL), showing expertise in capturing overall representations while facing difficulties in capturing detailed local patterns. In this work, we focus on enhancing the visual representations for MLLMs by combining high-frequency and detailed visual representations, obtained through masked image modeling (MIM), with semantically-enriched low-frequency representations captured by CL. To achieve this goal, we introduce X-Former which is a lightweight transformer module designed to exploit the complementary strengths of CL and MIM through an innovative interaction mechanism. Specifically, X-Former first bootstraps vision-language representation learning and multimodal-to-multimodal generative learning from two frozen vision encoders, i.e., CLIP-ViT (CL-based) and MAE-ViT (MIM-based). It further bootstraps vision-to-language generative learning from a frozen LLM to ensure visual features from X-Former can be interpreted by the LLM. To demonstrate the effectiveness of our approach, we assess its performance on tasks demanding detailed visual understanding. Extensive evaluations indicate that X-Former excels in visual reasoning tasks involving both structural and semantic categories in the GQA dataset. Assessment on fine-grained visual perception benchmark further confirms its superior capabilities in visual understanding. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# SecureVAX: ブロックチェーンで利用可能なセキュアなワクチンパスポートシステム
SecureVAX: A Blockchain-Enabled Secure Vaccine Passport System ( http://arxiv.org/abs/2407.13852v1 ) ライセンス: Link先を確認 | Debendranath Das, Sushmita Ruj, Subhamoy Maitra, | (参考訳) ワクチンのパスポートは、パンデミックの間歩き回っている間、パスポート保有者により大きな自由を提供するドキュメンタリーの証拠として機能する。
新型コロナウイルス、エボラ、インフルエンザなどの特定の感染症に対するワクチン接種を確認している。
デジタルワクチンパスポートシステムで直面する主な課題は、パスポート偽造、不正なデータアクセス、ワクチンセンターが入力した不正確な情報である。
ユーザの個人識別情報(PII)が侵害されないように、プライバシの懸念にも対処する必要がある。
さらに、ワクチンの真正性を確認し、不正使用や違法販売を防止し、ワクチンの違法な流通を制限するために、ワクチンのバイアルや用量を追跡する必要がある。
これらの課題に対処するために、スマートコントラクトのパワーを活用するBlockchain-Enabled Secure Vaccine Passport Systemを提案する。
我々のソリューションは、オフチェーンとオンチェーンの暗号計算を統合し、さまざまなエンティティ間のセキュアな通信を容易にする。
我々は、IPFS(InterPlanetary File System)を利用して、市民の暗号化されたワクチンパスポートを安全に保存している。
当社のプロトタイプはEthereumプラットフォーム上に構築されており、セポリアテストネットワークにスマートコントラクトをデプロイすることで、パフォーマンス評価とシステムの有効性の検証を可能にしています。
IPFSを分散データストレージプラットフォームとして、Ethereumをブロックチェーンプラットフォームとして組み合わせることで、当社のソリューションは、セキュアで効率的で、グローバルに相互運用可能なワクチンパスポート管理の道を開き、世界中で包括的なワクチン接種活動を支援します。
A vaccine passport serves as documentary proof, providing passport holders with greater freedom while roaming around during pandemics. It confirms vaccination against certain infectious diseases like COVID-19, Ebola, and flu. The key challenges faced by the digital vaccine passport system include passport forgery, unauthorized data access, and inaccurate information input by vaccination centers. Privacy concerns also need to be addressed to ensure that the user's personal identification information (PII) is not compromised. Additionally, it is necessary to track vaccine vials or doses to verify their authenticity, prevent misuse and illegal sales, as well as to restrict the illicit distribution of vaccines. To address these challenges, we propose a Blockchain-Enabled Secure Vaccine Passport System, leveraging the power of smart contracts. Our solution integrates off-chain and on-chain cryptographic computations, facilitating secure communication among various entities. We have utilized the InterPlanetary File System (IPFS) to store encrypted vaccine passports of citizens securely. Our prototype is built on the Ethereum platform, with smart contracts deployed on the Sepolia Test network, allowing for performance evaluation and validation of the system's effectiveness. By combining IPFS as a distributed data storage platform and Ethereum as a blockchain platform, our solution paves the way for secure, efficient, and globally interoperable vaccine passport management, supporting comprehensive vaccination initiatives worldwide. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# データ駆動型GPUによるディープラーニング性能予測
Data-driven Forecasting of Deep Learning Performance on GPUs ( http://arxiv.org/abs/2407.13853v1 ) ライセンス: Link先を確認 | Seonho Lee, Amar Phanishayee, Divya Mahajan, | (参考訳) ディープラーニングカーネルは予測可能なメモリアクセスと計算パターンを示し、GPUの並列アーキテクチャがその実行に適している。
GPU用のソフトウェアとランタイムシステムは、ストリームマルチプロセッサ、オンチップキャッシュ、オフチップの高帯域メモリをよりよく活用するように最適化されている。
ディープラーニングモデルとGPUが進化するにつれて、新しいGPUへのアクセスは制限され、既存のGPU上の新しいモデルアーキテクチャのパフォーマンス、新しいGPU上の既存のモデル、新しいGPU上の新しいモデルアーキテクチャに関する疑問が提起される。
これらの問題に対処するために、我々は、実際の実行を必要とせずに、未確認のGPU上で、トレーニングと推論の両方のために、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークであるNeuSightを紹介した。
このフレームワークはGPUハードウェアの動作とソフトウェアライブラリの最適化の両方を活用して、エンドツーエンドのパフォーマンスを推定する。
これまでの作業では、線形トレンドや多層パーセプトロンをキャプチャする回帰モデルを使用して、GPU上のディープラーニングカーネルの全体的なレイテンシを予測する。
これらのアプローチは、目に見えないモデルと新しいGPUのパフォーマンスを予測する際に、より高いエラー率に悩まされる。
代わりに、NeuSightは予測問題をより小さな問題に分解し、基本的な性能法則を通じて予測を束縛する。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
タイルの粒度予測は機械学習アプローチを用いて決定され、エンドツーエンドのレイテンシを推定するために集約される。
NeuSightは、さまざまなディープラーニングワークロードや最新のGPUで、これまでの作業よりも優れています。
これは、GPT3とH100の両方がフレームワークのトレーニングに使用されていない最先端の以前の作業と比較して、H100のトレーニングと推論のためのGPT3モデルの遅延を予測する場合に、198%と19.7%から3.8%に誤差を減少させる。
Deep learning kernels exhibit predictable memory accesses and compute patterns, making GPUs' parallel architecture well-suited for their execution. Software and runtime systems for GPUs are optimized to better utilize the stream multiprocessors, on-chip cache, and off-chip high-bandwidth memory. As deep learning models and GPUs evolve, access to newer GPUs is often limited, raising questions about the performance of new model architectures on existing GPUs, existing models on new GPUs, and new model architectures on new GPUs. To address these questions, we introduce NeuSight, a framework to predict the performance of various deep learning models, for both training and inference, on unseen GPUs without requiring actual execution. The framework leverages both GPU hardware behavior and software library optimizations to estimate end-to-end performance. Previous work uses regression models that capture linear trends or multilayer perceptrons to predict the overall latency of deep learning kernels on GPUs. These approaches suffer from higher error percentages when forecasting performance on unseen models and new GPUs. Instead, NeuSight decomposes the prediction problem into smaller problems, bounding the prediction through fundamental performance laws. NeuSight decomposes a single deep learning kernel prediction into smaller working sets called tiles, which are executed independently on the GPU. Tile-granularity predictions are determined using a machine learning approach and aggregated to estimate end-to-end latency. NeuSight outperforms prior work across various deep learning workloads and the latest GPUs. It reduces the percentage error from 198% and 19.7% to 3.8% in predicting the latency of GPT3 model for training and inference on H100, compared to state-of-the-art prior works, where both GPT3 and H100 were not used to train the framework. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# エゴセントリックビデオにおけるタスクの同時局所化とアフォーダンス予測
Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video ( http://arxiv.org/abs/2407.13856v1 ) ライセンス: Link先を確認 | Zachary Chavis, Hyun Soo Park, Stephen J. Guy, | (参考訳) VLM(Vision-Language Models)は、様々な領域における下流視覚と自然言語アプリケーションの基礎モデルとして大きな成功を収めている。
しかし、これらのモデルにはロボット工学の応用に必要な空間的理解が欠如しており、エージェントは周囲の3D世界が提供する余裕について考える必要がある。
本研究では,視覚的インプットとタスク記述を接続してタスクの空間的余裕を予測するために,空間的局所化された自我中心の動画をトレーニングするシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
学習ベースのアプローチでは、タスクの実施場所の予測と、現在の場所でのタスクの発生率の予測の両方において、エラーが少なくなっています。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
Vision-Language Models (VLMs) have shown great success as foundational models for downstream vision and natural language applications in a variety of domains. However, these models lack the spatial understanding necessary for robotics applications where the agent must reason about the affordances provided by the 3D world around them. We present a system which trains on spatially-localized egocentric videos in order to connect visual input and task descriptions to predict a task's spatial affordance, that is the location where a person would go to accomplish the task. We show our approach outperforms the baseline of using a VLM to map similarity of a task's description over a set of location-tagged images. Our learning-based approach has less error both on predicting where a task may take place and on predicting what tasks are likely to happen at the current location. The resulting system enables robots to use egocentric sensing to navigate to physical locations of novel tasks specified in natural language. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 医療機器のネットワークトラフィック解析
Network Traffic Analysis of Medical Devices ( http://arxiv.org/abs/2407.13857v1 ) ライセンス: Link先を確認 | Nowfel Mashnoor, Batyr Charyyev, | (参考訳) 血糖値や血圧測定装置などの医療機器の利用は、継続的に増加している。
これらのデバイスは使いやすく、ユーザの関心を集めている。
しかし、医療機器は、多数の、異質で、サイバー攻撃に弱いことにより、ネットワークに余分な複雑さをもたらす。
ネットワーク管理の改善とネットワークセキュリティのためには,デバイスのネットワークトラフィック特性を理解することが重要である。
そこで本稿では,デバイスレベルでの医療機器の交通特性を,各デバイスの個々の機能レベルにおいて詳細に分析する。
ネットワークとBluetoothの両方のトラフィックを合計51の機能から収集し、共有しています。
分析には、プロトコル、入出力トラフィックの量、DNSクエリ、トラフィック宛先の分析など、さまざまなメトリクスが含まれている。
医療機器用のネットワークツールの開発に有用な,ユニークなネットワーク特性とBluetoothトラヒック特性が得られた。
The availability of medical devices such as glucose levels and blood pressure measuring devices is continuously increasing. These devices have gained user interest as they are easy to use. However, medical devices introduce extra complexity to the network by being numerous, heterogeneous, and more vulnerable to cyber-attacks. For better network management and overall network security, it is important to understand the network traffic characteristics of the devices. Thus, in this paper, we analyze in detail the traffic characteristics of 8 medical devices both at the device level and at the level of individual functionality of each device. We collect and share both network and Bluetooth traffic from a total of 51 functionalities of the devices. Our analysis includes different metrics such as protocols, amount of incoming/outgoing traffic, DNS queries, and analysis of traffic destinations. We observed that devices have unique network and Bluetooth traffic characteristics, that might be useful in developing networking tools for medical devices. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 量子自然な確率的ペアワイド配位
Quantum Natural Stochastic Pairwise Coordinate Descent ( http://arxiv.org/abs/2407.13858v1 ) ライセンス: Link先を確認 | Mohammad Aamir Sohail, Mohsen Heidari Khoozani, S. Sandeep Pradhan, | (参考訳) 近年,変分量子アルゴリズム(VQA)による量子機械学習が注目されている。
VQAsはパラメタライズド量子回路を採用しており、通常は勾配に基づく手法で最適化されている。
しかしながら、これらの手法はユークリッド幾何学に依存しているため、しばしば準最適収束性能を示す。
量子情報(リーマン的)計量テンソルによる量子状態空間の幾何学を考慮に入れた量子自然勾配降下(QNGD)最適化法は、より効果的な最適化戦略を提供する。
その利点にもかかわらず、QNGDは、量子データの複製を禁止し、状態崩壊を禁止し、確率的損失関数につながる測定仮説を含む、量子データから学ぶための顕著な課題に直面している。
本稿では,2-QNSCD最適化法を提案する。
この方法は、新しいアンサンブルベースの量子情報計量テンソルを通じて、量子状態空間の曲面幾何学を活用し、量子データから学習するためのより物理的に実現可能な最適化戦略を提供する。
計算効率の向上とサンプルの複雑さの低減を目的として,パラメータ化量子回路と単発量子計測の2倍の量子回路を用いた,新しい計量テンソルの疎い非バイアス推定器を開発した。
提案手法は,量子データの複数コピーの必要性を回避し,非閉鎖原理に固執する。
我々は、指数収束解析とともに、最適化手法の詳細な理論的基礎を提供する。
さらに,本手法の有効性を数値実験により検証した。
Quantum machine learning through variational quantum algorithms (VQAs) has gained substantial attention in recent years. VQAs employ parameterized quantum circuits, which are typically optimized using gradient-based methods. However, these methods often exhibit sub-optimal convergence performance due to their dependence on Euclidean geometry. The quantum natural gradient descent (QNGD) optimization method, which considers the geometry of the quantum state space via a quantum information (Riemannian) metric tensor, provides a more effective optimization strategy. Despite its advantages, QNGD encounters notable challenges for learning from quantum data, including the no-cloning principle, which prohibits the replication of quantum data, state collapse, and the measurement postulate, which leads to the stochastic loss function. This paper introduces the quantum natural stochastic pairwise coordinate descent (2-QNSCD) optimization method. This method leverages the curved geometry of the quantum state space through a novel ensemble-based quantum information metric tensor, offering a more physically realizable optimization strategy for learning from quantum data. To improve computational efficiency and reduce sample complexity, we develop a highly sparse unbiased estimator of the novel metric tensor using a quantum circuit with gate complexity $\Theta(1)$ times that of the parameterized quantum circuit and single-shot quantum measurements. Our approach avoids the need for multiple copies of quantum data, thus adhering to the no-cloning principle. We provide a detailed theoretical foundation for our optimization method, along with an exponential convergence analysis. Additionally, we validate the utility of our method through a series of numerical experiments. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# 衛星をベースとした地層属性予測による世界規模の画像ジオロケーションの強化
Enhancing Worldwide Image Geolocation by Ensembling Satellite-Based Ground-Level Attribute Predictors ( http://arxiv.org/abs/2407.13862v1 ) ライセンス: Link先を確認 | Michael J. Bianco, David Eigen, Michael Gormish, | (参考訳) 地上のシーンの画像のジオロケーションは、GPSやその他の位置情報のメタデータがなければ、写真が撮影された地球上の位置を推定する。
典型的には、予測された位置と地上の真実の間の大円距離(GCD)を測定することによって評価される。
しかし、この測定は、領域の推定やヒートマップのスコアではなく、単一の点のみを評価するため、制限されている。
これは、正確な位置の発見が不可能な農村、荒野、アンダーサンプの地域への応用において特に重要であり、また、徐々に場所を狭める集約システムで使用される際にも重要である。
本稿では,推定位置分布の精度を計測する新しい指標であるリコール対エリア(Recall vs Area, RvA)を提案する。
RvAは、文書検索と同様の画像位置情報を処理し、リコールを領域の関数として測定する。
この曲線は「精度」を平方キロメートルの面積に置き換え、下流の検索エリアの予算が異なる場合の性能評価を可能にする精度・リコール曲線と類似した曲線を生成する。
この問題を直接見れば、複数のソースからの情報を組み込んでドメインシフトに対処し、複数のモデルや属性予測器、データソースを容易に組み込むことができる。
位置情報モデルGeoEstimationと現在のSOTA GeoCLIPをORNL LandScanとESA-CCI Land Coverに基づく属性予測器と組み合わせて有効性を検討した。
Im2GPS3k画像とStreet View画像の両方において、トレーニングセット、特に非都市領域で表現されていない領域に対する画像位置情報の大幅な改善が見られた。
Geolocating images of a ground-level scene entails estimating the location on Earth where the picture was taken, in absence of GPS or other location metadata. Typically, methods are evaluated by measuring the Great Circle Distance (GCD) between a predicted location and ground truth. However, this measurement is limited because it only evaluates a single point, not estimates of regions or score heatmaps. This is especially important in applications to rural, wilderness and under-sampled areas, where finding the exact location may not be possible, and when used in aggregate systems that progressively narrow down locations. In this paper, we introduce a novel metric, Recall vs Area (RvA), which measures the accuracy of estimated distributions of locations. RvA treats image geolocation results similarly to document retrieval, measuring recall as a function of area: For a ranked list of (possibly non-contiguous) predicted regions, we measure the accumulated area required for the region to contain the ground truth coordinate. This produces a curve similar to a precision-recall curve, where "precision" is replaced by square kilometers area, allowing evaluation of performance for different downstream search area budgets. Following directly from this view of the problem, we then examine a simple ensembling approach to global-scale image geolocation, which incorporates information from multiple sources to help address domain shift, and can readily incorporate multiple models, attribute predictors, and data sources. We study its effectiveness by combining the geolocation models GeoEstimation and the current SOTA GeoCLIP, with attribute predictors based on ORNL LandScan and ESA-CCI Land Cover. We find significant improvements in image geolocation for areas that are under-represented in the training set, particularly non-urban areas, on both Im2GPS3k and Street View images. | 翻訳日:2024-07-22 21:29:41 公開日:2024-07-18 |
# GANプライオリティのクローズアップ - モデル反転攻撃に対する中間機能の爆発的展開
A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks ( http://arxiv.org/abs/2407.13863v1 ) ライセンス: Link先を確認 | Yixiang Qiu, Hao Fang, Hongyao Yu, Bin Chen, MeiKang Qiu, Shu-Tao Xia, | (参考訳) Model Inversion(MI)攻撃は、出力情報を利用することで、リリースされたモデルからプライバシーに敏感なトレーニングデータを再構築することを目的としており、Deep Neural Networks(DNN)のセキュリティに対する広範な懸念を提起している。
近年のGAN(Generative Adversarial Network)の進歩は,MI攻撃の性能向上に大きく寄与している。
しかし、以前のMI攻撃は、GANプリエントスペースの秘密情報のみを開示し、複数のターゲットモデルとデータセット間のセマンティック抽出と転送可能性を制限する。
この課題に対処するため、中間ブロック間の特徴を分解し、GAN構造を分解する中間特徴拡張生成モデル変換(IF-GMI)という新しい手法を提案する。
これにより、ラテントコードから表現能力を拡張した中間機能まで最適化スペースを拡張できます。
GAN先行画像が非現実的な画像を生成するのを防止するため、最適化プロセスにL1ボール制約を適用する。
複数のベンチマーク実験により,提案手法は従来の手法よりも大幅に優れており,特にアウト・オブ・ディストリビューション(OOD)のシナリオにおいて,様々な条件下での最先端の結果が得られることが示された。
私たちのコードは、https://github.com/final-solution/IF-GMIで利用可能です。
Model Inversion (MI) attacks aim to reconstruct privacy-sensitive training data from released models by utilizing output information, raising extensive concerns about the security of Deep Neural Networks (DNNs). Recent advances in generative adversarial networks (GANs) have contributed significantly to the improved performance of MI attacks due to their powerful ability to generate realistic images with high fidelity and appropriate semantics. However, previous MI attacks have solely disclosed private information in the latent space of GAN priors, limiting their semantic extraction and transferability across multiple target models and datasets. To address this challenge, we propose a novel method, Intermediate Features enhanced Generative Model Inversion (IF-GMI), which disassembles the GAN structure and exploits features between intermediate blocks. This allows us to extend the optimization space from latent code to intermediate features with enhanced expressive capabilities. To prevent GAN priors from generating unrealistic images, we apply a L1 ball constraint to the optimization process. Experiments on multiple benchmarks demonstrate that our method significantly outperforms previous approaches and achieves state-of-the-art results under various settings, especially in the out-of-distribution (OOD) scenario. Our code is available at: https://github.com/final-solution/IF-GMI | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# キーポイント認識型マスク画像モデリング
Keypoint Aware Masked Image Modelling ( http://arxiv.org/abs/2407.13873v1 ) ライセンス: Link先を確認 | Madhava Krishna, A V Subramanyam, | (参考訳) SimMIMはマスク画像モデリングを用いたビジョントランスフォーマーの事前訓練手法として広く用いられている。
しかし、微調整性能は成功したものの、線形探索に使用する場合、準最適に動作することが示されている。
そこで本研究では,鍵点特徴から得られた効率の良いパッチワイド重み付けを提案し,SimMIMの再構成フェーズにおいて,局所的な情報をキャプチャし,より良好なコンテキストを提供する。
我々の手法であるKAMIMは、画像Net-1Kデータセットで同じ数のエポックでトレーニングされた時に、トップ1の線形探査精度を16.12%から33.97%に改善し、微調整精度を76.78%から77.3%に改善した。
異なるデータセット、キーポイント抽出器、モデルアーキテクチャを広範囲にテストし、パッチワイド重み付けがより大きな事前学習データセットに対する線形探索性能を向上させることを観察する。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
私たちのコードはhttps://github.com/madhava20217/KAMIM.comで公開されています。
SimMIM is a widely used method for pretraining vision transformers using masked image modeling. However, despite its success in fine-tuning performance, it has been shown to perform sub-optimally when used for linear probing. We propose an efficient patch-wise weighting derived from keypoint features which captures the local information and provides better context during SimMIM's reconstruction phase. Our method, KAMIM, improves the top-1 linear probing accuracy from 16.12% to 33.97%, and finetuning accuracy from 76.78% to 77.3% when tested on the ImageNet-1K dataset with a ViT-B when trained for the same number of epochs. We conduct extensive testing on different datasets, keypoint extractors, and model architectures and observe that patch-wise weighting augments linear probing performance for larger pretraining datasets. We also analyze the learned representations of a ViT-B trained using KAMIM and observe that they behave similar to contrastive learning with regard to its behavior, with longer attention distances and homogenous self-attention across layers. Our code is publicly available at https://github.com/madhava20217/KAMIM. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 最適高精度影推定
Optimal high-precision shadow estimation ( http://arxiv.org/abs/2407.13874v1 ) ライセンス: Link先を確認 | Sitan Chen, Jerry Li, Allen Liu, | (参考訳) ヒルベルト空間の次元において、ターゲット誤差が十分小さい逆多項式以下である状態において、シャドウトモグラフィと古典的影に対する最初の厳密なサンプル複雑性境界を与える。
正式には、$m\in\mathbb{N}$と$\epsilon \le O(d^{-12})$が与えられたとき、未知の混合状態$\rho\in\mathbb{C}^{d\times d}$のコピーを$O(\log(m)/\epsilon^2)$に測定し、$\rho$の古典的な記述を出力し、$m$の可観測物のコレクションを加算精度$\epsilon$内で見積もることができる。
以前は、より単純なシャドウトモグラフィーのタスク --$m$オブザーバブルが事前に知られている -- に対して、最もよく知られたレートは、$m, d, \epsilon$のすべてで、直にスケールするか、あるいは$\epsilon, m$で最適にスケールするか、あるいは一般的なオブザーバブルに対して$d$で追加の多項式係数を持つかのいずれかであった。
興味深いことに、次元還元によっても、$\epsilon$と$d$を再スケールして、$\epsilon \le O(d^{-1/2})$の政権に還元できることが示される。
提案アルゴリズムは,最近,フルステートトモグラフィの文脈で開発された表現理論ツールに基づく。
We give the first tight sample complexity bounds for shadow tomography and classical shadows in the regime where the target error is below some sufficiently small inverse polynomial in the dimension of the Hilbert space. Formally we give a protocol that, given any $m\in\mathbb{N}$ and $\epsilon \le O(d^{-12})$, measures $O(\log(m)/\epsilon^2)$ copies of an unknown mixed state $\rho\in\mathbb{C}^{d\times d}$ and outputs a classical description of $\rho$ which can then be used to estimate any collection of $m$ observables to within additive accuracy $\epsilon$. Previously, even for the simpler task of shadow tomography -- where the $m$ observables are known in advance -- the best known rates either scaled benignly but suboptimally in all of $m, d, \epsilon$, or scaled optimally in $\epsilon, m$ but had additional polynomial factors in $d$ for general observables. Intriguingly, we also show via dimensionality reduction, that we can rescale $\epsilon$ and $d$ to reduce to the regime where $\epsilon \le O(d^{-1/2})$. Our algorithm draws upon representation-theoretic tools recently developed in the context of full state tomography. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 相関ハイパースペクトルイメージング
Correlation Hyperspectral Imaging ( http://arxiv.org/abs/2407.13879v1 ) ライセンス: Link先を確認 | Gianlorenzo Massaro, Francesco V. Pepe, Milena D'Angelo, | (参考訳) ハイパースペクトルイメージングは、高解像度で光の空間分布とスペクトル分布の両方に関する情報を提供することを目的としている。
しかし、最先端のプロトコルは、解像度または画像取得速度を犠牲にする固有のトレードオフによって特徴付けられる。
この制限は、走査とスナップショットの両方において従来のハイパースペクトルイメージング技術の典型的な欠点を克服できることが示される光強度相関を利用して解決される。
提案手法はまた、よりシャープな撮像や、それ以外は関心のスペクトルを隠蔽するブロードバンドスペクトル成分の自然なフィルタリングなど、達成不可能な可能性を開く。
空間・スペクトルの高分解能化,高速化,望ましくないスペクトル特性に対する感度の両立は,ハイパースペクトルイメージング装置のパラダイム変更と新たな応用シナリオの開放につながる。
Hyperspectral imaging aims at providing information on both the spatial and the spectral distribution of light, with high resolution. However, state-of-the-art protocols are characterized by an intrinsic trade-off imposing to sacrifice either resolution or image acquisition speed. We address this limitation by exploiting light intensity correlations, which are shown to enable overcoming the typical downsides of traditional hyperspectral imaging techniques, both scanning and snapshot. The proposed approach also opens possibilities that are not otherwise achievable, such as sharper imaging and natural filtering of broadband spectral components that would otherwise hide the spectrum of interest. The enabled combination of high spatial and spectral resolution, high speed, and insensitivity to undesired spectral features shall lead to a paradigm change in hyperspectral imaging devices and open-up new application scenarios. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# プライバシー保護グラデーションに基づくフェアフェデレーション学習
Privacy-preserving gradient-based fair federated learning ( http://arxiv.org/abs/2407.13881v1 ) ライセンス: Link先を確認 | Janis Adamek, Moritz Schulze Darup, | (参考訳) フェデレートラーニング(FL)スキームでは、複数の参加者が、基盤となるデータを直接共有することなく、複数の参加者が協力的にニューラルネットワークを訓練することができる。
さらに、アグリゲーションは典型的には第三者によって実行され、結合した勾配や重みが得られ、モデルを明らかにする可能性がある。
これらの欠点は、公正かつプライバシー保護のFLスキームの需要を浮き彫りにしている。
ここで、コラボレーティブフェアネスは、個々のデータコントリビューションに応じて、個々のモデルの品質を求めます。
プライバシーは、サードパーティにアウトソースされたあらゆる種類のデータに対して要求される。
現在、フェアあるいはプライバシ保護のFLを目指すアプローチがすでに存在しており、両方の機能に対処する作業もいくつかある。
本稿では,これらの基礎研究に基づいて,新しい,公正かつプライバシ保護のFLスキームを提案する。
提案手法は, 主に同相暗号に依存しており, 局所勾配のみを用いることが特徴である。
これにより、最先端のアプローチと比較してユーザビリティが向上し、制御対象のアプリケーションへの扉が開きます。
Federated learning (FL) schemes allow multiple participants to collaboratively train neural networks without the need to directly share the underlying data.However, in early schemes, all participants eventually obtain the same model. Moreover, the aggregation is typically carried out by a third party, who obtains combined gradients or weights, which may reveal the model. These downsides underscore the demand for fair and privacy-preserving FL schemes. Here, collaborative fairness asks for individual model quality depending on the individual data contribution. Privacy is demanded with respect to any kind of data outsourced to the third party. Now, there already exist some approaches aiming for either fair or privacy-preserving FL and a few works even address both features. In our paper, we build upon these seminal works and present a novel, fair and privacy-preserving FL scheme. Our approach, which mainly relies on homomorphic encryption, stands out for exclusively using local gradients. This increases the usability in comparison to state-of-the-art approaches and thereby opens the door to applications in control. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# テンストトレントグレースコールにおけるSRAMの注意
Attention in SRAM on Tenstorrent Grayskull ( http://arxiv.org/abs/2407.13885v1 ) ライセンス: Link先を確認 | Moritz Thüning, | (参考訳) トランスフォーマーの自己保持層の実装では、DRAMの代わりにSRAMを使用すると、大幅な高速化が達成される。
Tenstorrent Grayskullアーキテクチャは、コアグリッドに分散された大きなSRAMを提供する。
本研究は,行列乗算,アテンションスコアスケーリング,ソフトマックス演算を組み合わせた大規模SRAMを専ら利用したGrayskull用の融合カーネルを提案する。
また、SRAMを利用した専用Softmaxカーネルと、ベースラインとして機能するCPU実装を提示する。
Softmax操作は、Grayskullのクエリとキーからの注意重みの計算において、ランタイムの大部分を消費する。
CPU実装と比較して、専用のSoftmaxカーネルの高速化は最大10 \times$であり、融合カーネル内のSoftmax実装は、専用のSoftmaxカーネルよりも約1.8 \times$高速である。
すべての実装の時間とメモリの複雑さは、シーケンス長で2次である。
現在、Grayskull e150はNvidia H100 PCIe(最先端のGPU)より30ドルほど安く、SRAMは1.5ドルほどある。
When implementations of the Transformer's self-attention layer utilize SRAM instead of DRAM, they can achieve significant speedups. The Tenstorrent Grayskull architecture provides a large SRAM, distributed across a grid of cores. This work presents a fused kernel for Grayskull, that exclusively utilizes its large SRAM by combining matrix multiplication, attention score scaling and Softmax operations. Additionally, a dedicated Softmax kernel utilizing the SRAM and a CPU implementation serving as a baseline are presented. The Softmax operation consumes most of the runtime in the computation of attention weights from queries and keys on Grayskull. The speedup of the dedicated Softmax kernel compared to the CPU implementation is up to $10 \times$, and the Softmax implementation inside the fused kernel is approximately $1.8 \times$ faster than the dedicated Softmax kernel. The time and memory complexity of all implementations is quadratic in sequence length. Currently, the Grayskull e150 is approximately $30 \times$ cheaper for the general public than an Nvidia H100 PCIe (a state-of-the-art GPU) and offers approximately $1.5 \times$ more SRAM. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 言語リワードモデルのための目標条件付き表現の学習
Learning Goal-Conditioned Representations for Language Reward Models ( http://arxiv.org/abs/2407.13887v1 ) ライセンス: Link先を確認 | Vaskar Nath, Dylan Slack, Jeff Da, Yuntao Ma, Hugh Zhang, Spencer Whitehead, Sean Hendryx, | (参考訳) 従来の強化学習(RL)では,オフラインデータや自己教師対象による表現の改善を学習する技術が目覚ましい成果を上げている。
それでも、表現学習の改善が、言語モデル(LM)における人間からのフィードバック(RLHF)からの強化学習にどのような効果があるかは明らかでない。
本研究は、サンプル化された好ましくない軌道に沿った将来の状態の表現類似度を高め、ランダムにサンプリングされた非推奨軌道に沿った類似度を減少させることにより、対照的に$\textit{goal-conditioned}$ファッションのトレーニング報酬モデル(RM)を提案する。
この目的により、MATHやGSM8kといった挑戦的なベンチマークにおいて、RM性能は最大0.09 AUROCまで大幅に向上した。
これらの結果は、Helpful-Harmlessデータセット上の一般的なアライメントにも及んでいる。
報酬モデルのパフォーマンスの改善以外にも、このRM表現のトレーニング方法により、$\textit{steerability}$の改善が可能となる。
この洞察を活用すれば、過半数投票中に生成したトークンの最大5,5\%をフィルタして、トラジェクトリを破棄して、結果として“誤った”状態に陥り、コストを大幅に削減できることが分かります。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
例えば、Llama 3モデルを有用な世代に向けて操ることで、教師付き微調整トレーニングベースラインよりも9.6\%の利便性が向上することを示す。
同様に、複雑な世代に向けてモデルをステアリングすることで、ベースラインよりも21.6\%の複雑さが向上する。
全体として、この対照的な目標条件の方法でのRMのトレーニングは、性能を大幅に改善し、モデルステアビリティを実現している。
Techniques that learn improved representations via offline data or self-supervised objectives have shown impressive results in traditional reinforcement learning (RL). Nevertheless, it is unclear how improved representation learning can benefit reinforcement learning from human feedback (RLHF) on language models (LMs). In this work, we propose training reward models (RMs) in a contrastive, $\textit{goal-conditioned}$ fashion by increasing the representation similarity of future states along sampled preferred trajectories and decreasing the similarity along randomly sampled dispreferred trajectories. This objective significantly improves RM performance by up to 0.09 AUROC across challenging benchmarks, such as MATH and GSM8k. These findings extend to general alignment as well -- on the Helpful-Harmless dataset, we observe $2.3\%$ increase in accuracy. Beyond improving reward model performance, we show this way of training RM representations enables improved $\textit{steerability}$ because it allows us to evaluate the likelihood of an action achieving a particular goal-state (e.g., whether a solution is correct or helpful). Leveraging this insight, we find that we can filter up to $55\%$ of generated tokens during majority voting by discarding trajectories likely to end up in an "incorrect" state, which leads to significant cost savings. We additionally find that these representations can perform fine-grained control by conditioning on desired future goal-states. For example, we show that steering a Llama 3 model towards helpful generations with our approach improves helpfulness by $9.6\%$ over a supervised-fine-tuning trained baseline. Similarly, steering the model towards complex generations improves complexity by $21.6\%$ over the baseline. Overall, we find that training RMs in this contrastive, goal-conditioned fashion significantly improves performance and enables model steerability. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 感情推論モデルにおける政治的バイアスの解明:社会科学研究における感情分析の意義
Uncovering Political Bias in Emotion Inference Models: Implications for sentiment analysis in social science research ( http://arxiv.org/abs/2407.13891v1 ) ライセンス: Link先を確認 | Hubert Plisiecki, Paweł Lenartowicz, Maria Flakus, Artur Pokropek, | (参考訳) 本稿では、社会科学研究における感情分析(SA)に使用される感情推論モデルにおける政治的バイアスの存在について検討する。
機械学習モデルは、しばしばトレーニングデータのバイアスを反映し、結果の有効性に影響を与える。
これまでの研究では、性別や人種の偏見が強調されていたが、今回の研究は政治的偏見に焦点を当てている。
ポーランドの感情分析モデルを用いた偏見調査を行った。
ポーランドの政治家を巻き込んだ名前と文の有能な予測を分析した結果、政治関係に影響を及ぼす体系的な差異が明らかになった。
以上の結果から, 人間のラテンダーによるアノテーションは, モデルの予測に政治的偏見を伝播させることが示唆された。
これを軽減するため、これらの政治家に言及するテキストのトレーニングデータセットを抽出し、バイアスの低減を観察したが、完全に排除されたわけではない。
SAにおける政治的偏見の重大な影響を考えると,これらのモデルを用いた社会科学研究への注意が必要である。
我々は,よりイデオロギー的に中立な代替手段として,レキシコン系システムを用いることを推奨する。
本稿では、学術的・応用的な文脈における機械学習の利用の信頼性と公平性を確保するため、継続的な精査と方法論的な調整の必要性を明らかにする。
This paper investigates the presence of political bias in emotion inference models used for sentiment analysis (SA) in social science research. Machine learning models often reflect biases in their training data, impacting the validity of their outcomes. While previous research has highlighted gender and race biases, our study focuses on political bias - an underexplored yet pervasive issue that can skew the interpretation of text data across a wide array of studies. We conducted a bias audit on a Polish sentiment analysis model developed in our lab. By analyzing valence predictions for names and sentences involving Polish politicians, we uncovered systematic differences influenced by political affiliations. Our findings indicate that annotations by human raters propagate political biases into the model's predictions. To mitigate this, we pruned the training dataset of texts mentioning these politicians and observed a reduction in bias, though not its complete elimination. Given the significant implications of political bias in SA, our study emphasizes caution in employing these models for social science research. We recommend a critical examination of SA results and propose using lexicon-based systems as a more ideologically neutral alternative. This paper underscores the necessity for ongoing scrutiny and methodological adjustments to ensure the reliability and impartiality of the use of machine learning in academic and applied contexts. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 皮膚病変データセットに基づく公正ニューラルネットワークのためのデータ-アルゴリズム-アーキテクチャ共最適化
Data-Algorithm-Architecture Co-Optimization for Fair Neural Networks on Skin Lesion Dataset ( http://arxiv.org/abs/2407.13896v1 ) ライセンス: Link先を確認 | Yi Sheng, Junhuan Yang, Jinyang Li, James Alaina, Xiaowei Xu, Yiyu Shi, Jingtong Hu, Weiwen Jiang, Lei Yang, | (参考訳) 人工知能(AI)が私たちの日常生活にますます統合されるにつれて、フェアネスは特に医療AIにおいて重要な関心事として現れてきた。
これらのバイアスを緩和する従来のアプローチは、データ拡張と公正な学習アルゴリズムの開発に重点を置いてきた。
しかし,機械学習(ML)のコアコンポーネントであるニューラルネットワークのアーキテクチャは,公平性を確保する上で重要な役割を担っている。
公平に対処するためには,データ,アルゴリズム,アーキテクチャを同時に考慮する全体論的アプローチが効果的に必要であることを示す。
自動ML(Automated ML)技術,特にニューラルアーキテクチャサーチ(NAS)を活用して,皮膚病変データセットの解析において公正な結果を得るために設計された,新しいフレームワークであるBiaslessNASを導入する。
BiaslessNASはNASプロセスのすべての段階で公平性を考慮し、より正確であるだけでなく、より公平であるニューラルネットワークを識別する。
我々の実験は、BiaslessNASが従来のNAS手法と比較して2.55%の精度向上と65.50%の公正性向上を実現し、医療AIアプリケーションにおいてより良い結果を得るために、ニューラルネットワークアーキテクチャに公正性を統合することの重要性を強調している。
As Artificial Intelligence (AI) increasingly integrates into our daily lives, fairness has emerged as a critical concern, particularly in medical AI, where datasets often reflect inherent biases due to social factors like the underrepresentation of marginalized communities and socioeconomic barriers to data collection. Traditional approaches to mitigating these biases have focused on data augmentation and the development of fairness-aware training algorithms. However, this paper argues that the architecture of neural networks, a core component of Machine Learning (ML), plays a crucial role in ensuring fairness. We demonstrate that addressing fairness effectively requires a holistic approach that simultaneously considers data, algorithms, and architecture. Utilizing Automated ML (AutoML) technology, specifically Neural Architecture Search (NAS), we introduce a novel framework, BiaslessNAS, designed to achieve fair outcomes in analyzing skin lesion datasets. BiaslessNAS incorporates fairness considerations at every stage of the NAS process, leading to the identification of neural networks that are not only more accurate but also significantly fairer. Our experiments show that BiaslessNAS achieves a 2.55% increase in accuracy and a 65.50% improvement in fairness compared to traditional NAS methods, underscoring the importance of integrating fairness into neural network architecture for better outcomes in medical AI applications. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# ブロックフェーディング存在下におけるカバート通信の基本スケーリング法則
Fundamental Scaling Laws of Covert Communication in the Presence of Block Fading ( http://arxiv.org/abs/2407.13898v1 ) ライセンス: Link先を確認 | Amir Reza Ramtin, Dennis Goeckel, Don Towsley, | (参考訳) カバー通信(英: Covert Communication)とは、通信チャネル上の機密情報の未検出送信である。
無線通信システムにおいて,信号フェードのようなチャネル障害は,隠蔽通信システムの効果的な実装と解析において課題となる。
本稿では,ブロックフェーディングチャネルで使用した$n$チャネルで秘密に送信可能なビット数に対する漸近的な結果を考慮することにより,隠蔽通信分野における初期処理を一般化する。
調査に欠かせないのは、敵の最適な検出器の性能を特徴づけることである。
達成可能な結果と逆の結果が一致します。
Covert communication is the undetected transmission of sensitive information over a communication channel. In wireless communication systems, channel impairments such as signal fading present challenges in the effective implementation and analysis of covert communication systems. This paper generalizes early work in the covert communication field by considering asymptotic results for the number of bits that can be covertly transmitted in $n$ channel uses on a block fading channel. Critical to the investigation is characterizing the performance of optimal detectors at the adversary. Matching achievable and converse results are presented. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# LLMに基づくプログラミングアシスタントのエビデンスに基づく信念と行動の探索
Exploring the Evidence-Based Beliefs and Behaviors of LLM-Based Programming Assistants ( http://arxiv.org/abs/2407.13900v1 ) ライセンス: Link先を確認 | Chris Brown, Jason Cusati, | (参考訳) 人工知能(AI)の最近のイノベーションは、主に大規模言語モデル(LLM)をベースとして、プログラマがソフトウェアを開発し、保守する方法を変革し、ソフトウェアエンジニアリング(SE)における新たなフロンティアへと繋がった。
ソフトウェア開発タスクをサポートするLLMベースのプログラミングアシスタントの高度な能力により、SEにおけるLLMの採用が増加した。
しかし、AIプログラミングアシスタントがサポートし、採用している研究結果によって検証された実証済みのプラクティス、ツール、プロセスについてはほとんど知られていない。
この目的のために,本研究は,ソフトウェア開発タスクを支援するLLMの信念と行動について予備評価を行う。
LLMをベースとした5つのプログラミングアシスタントを対象とした実証SEによる17のエビデンスに基づくクレームについて検討する。
以上の結果から,LCMをベースとしたプログラミングアシスタントは,研究のクレームに関する曖昧な信念を持ち,回答を裏付ける信頼性のある証拠が欠如しており,実証的なSE研究による開発作業支援の実践は不可能であることが示唆された。
本研究は,LCMをベースとしたプログラミングアシスタントを開発環境に導入する実践者に対して,LCMの信頼性と信頼性を高めるための今後の研究の方向性に光を当てることを目的としている。
Recent innovations in artificial intelligence (AI), primarily powered by large language models (LLMs), have transformed how programmers develop and maintain software -- leading to new frontiers in software engineering (SE). The advanced capabilities of LLM-based programming assistants to support software development tasks have led to a rise in the adoption of LLMs in SE. However, little is known about the evidenced-based practices, tools and processes verified by research findings, supported and adopted by AI programming assistants. To this end, our work conducts a preliminary evaluation exploring the beliefs and behaviors of LLM used to support software development tasks. We investigate 17 evidence-based claims posited by empirical SE research across five LLM-based programming assistants. Our findings show that LLM-based programming assistants have ambiguous beliefs regarding research claims, lack credible evidence to support responses, and are incapable of adopting practices demonstrated by empirical SE research to support development tasks. Based on our results, we provide implications for practitioners adopting LLM-based programming assistants in development contexts and shed light on future research directions to enhance the reliability and trustworthiness of LLMs -- aiming to increase awareness and adoption of evidence-based SE research findings in practice. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# EvaluateXAI: ソフトウェア分析タスクのためのルールベースのXAIテクニックの信頼性と一貫性を評価するフレームワーク
EvaluateXAI: A Framework to Evaluate the Reliability and Consistency of Rule-based XAI Techniques for Software Analytics Tasks ( http://arxiv.org/abs/2407.13902v1 ) ライセンス: Link先を確認 | Md Abdul Awal, Chanchal K. Roy, | (参考訳) 機械学習(ML)モデルの進歩は、ソフトウェア保守と進化における多数のソフトウェアエンジニアリングタスクを改善するためのMLベースのアプローチの開発につながった。
それでも研究は、潜在的な成功にもかかわらず、MLモデルは実践者にとってブラックボックスのままであり、推論に説明責任が欠如しているため、現実のシナリオでは採用されない可能性があることを示唆している。
近年、ソフトウェア分析タスクにおけるMLモデルの予測を説明するために、PyExplainerやLIMEなど、ルールベースのモデルに依存しないXAI技術が採用されている。
本稿では、Just-in-Time(JIT)欠陥予測、クローン検出、有用なコードレビューコメントの分類など、さまざまなソフトウェア分析タスクにおけるMLモデルの信頼性と一貫性のある説明を生成するための、これらのテクニック(例えば、PyExplainerとLIME)の能力を評価する。
筆者らの手作業による調査では,これらの手法が生み出した説明に矛盾や異常がみられた。
そこで我々は、ソフトウェア分析タスクにおけるMLモデルの信頼性と一貫性のある説明を生成する上で、ルールベースのXAI技術の有効性を自動的に評価するために、説明可能なAI(EvaluateXAI)の評価と粒度評価指標を併用して、新しいフレームワークを設計する。
5つのデータセットと6つの評価指標に基づいてトレーニングされた7つの最先端MLモデルを含む詳細な実験を行った結果、評価指標のいずれも100\%に達しず、XAI技術による説明の信頼性の欠如が示唆された。
加えて、PyExplainerとLIMEは、それぞれ86.11%と77.78%という一貫した説明を提供しられなかった。
そこで本研究では,ソフトウェア解析タスクにおけるMLモデルの信頼性と一貫した説明を生成するために,XAIにおけるさらなる研究の必要性を強調した。
The advancement of machine learning (ML) models has led to the development of ML-based approaches to improve numerous software engineering tasks in software maintenance and evolution. Nevertheless, research indicates that despite their potential successes, ML models may not be employed in real-world scenarios because they often remain a black box to practitioners, lacking explainability in their reasoning. Recently, various rule-based model-agnostic Explainable AI (XAI) techniques, such as PyExplainer and LIME, have been employed to explain the predictions of ML models in software analytics tasks. This paper assesses the ability of these techniques (e.g., PyExplainer and LIME) to generate reliable and consistent explanations for ML models across various software analytics tasks, including Just-in-Time (JIT) defect prediction, clone detection, and the classification of useful code review comments. Our manual investigations find inconsistencies and anomalies in the explanations generated by these techniques. Therefore, we design a novel framework: Evaluation of Explainable AI (EvaluateXAI), along with granular-level evaluation metrics, to automatically assess the effectiveness of rule-based XAI techniques in generating reliable and consistent explanations for ML models in software analytics tasks. After conducting in-depth experiments involving seven state-of-the-art ML models trained on five datasets and six evaluation metrics, we find that none of the evaluation metrics reached 100\%, indicating the unreliability of the explanations generated by XAI techniques. Additionally, PyExplainer and LIME failed to provide consistent explanations for 86.11% and 77.78% of the experimental combinations, respectively. Therefore, our experimental findings emphasize the necessity for further research in XAI to produce reliable and consistent explanations for ML models in software analytics tasks. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 一粒子密度における量子統計的効果:散乱と対生成
Quantum statistical effects in one-particle densities: scattering and pair production ( http://arxiv.org/abs/2407.13905v1 ) ライセンス: Link先を確認 | X. Gutiérrez de la Cal, M. Alkhateeb, M. Pons, A. Matzkin, D. Sokolovski, | (参考訳) 非相互作用非相対論的粒子に作用する外部時間依存場によって生成される粒子-ホール対の時空間分解密度について検討した。
少なくともいくつかのケースでは、密度はフェルミ・ディラックやボース・アインシュタイン統計の影響を受けず、多粒子系の初期状態によってのみ決定されることが示されている。
第2の量子化法はディラック電子に拡張され、いくつかの修正を加えてクライン=ゴードンボソンに拡張される。
これら2つの相対論的ケースにおけるペア生産の違いは、いくつかの詳細で分析されている。
We study space-time resolved densities of particle-hole pairs produced by an external time-dependent field acting on non-interacting non-relativistic particles. It is shown that, at least in some cases, the densities are not affected by Fermi-Dirac or Bose- Einstein statistics, and are determined only by the initial state of the multi-particle system. The second quantisation technique is extended to Dirac electrons and, with some modifications, to Klein-Gordon bosons. The difference in pair production in these two relativistic cases is analysed in some detail. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 大規模言語モデルのためのファインチューニング手法の開発
Crafting Efficient Fine-Tuning Strategies for Large Language Models ( http://arxiv.org/abs/2407.13906v1 ) ライセンス: Link先を確認 | Michael Oliver, Guan Wang, | (参考訳) 本稿では,データ効率とハイパーパラメータ最適化を探索することで,大規模言語モデル(LLM)を効率的に微調整することの課題に対処する。
実効的な微調整に必要な最小データについて検討し、初期モデルの性能を生かした新しいハイパーパラメータ最適化法を提案する。
実験の結果,200サンプル程度の微調整により,製品属性抽出作業において,モデル精度を70~88倍に向上させることができることがわかった。
約6,500個のサンプルの飽和点を同定し、その上にデータを加えればリターンは減少する。
提案手法は,学習時間全体の20倍のモデル評価を行うベイジアンハイパーパラメータ最適化法であり,最終モデルの性能と強く相関し,完成時点で上位5段階のモデルのうち4つが最上位5段階に留まっている。
このアプローチは、独立したテストセットで評価した場合、ベースラインモデルよりも精度が2倍向上した。
これらの発見は実践者に対して実用的な洞察を与え、計算負荷と広範囲なデータセットへの依存を低減し、微調整LDMの全体的なパフォーマンスを向上させる。
This paper addresses the challenges of efficiently fine-tuning large language models (LLMs) by exploring data efficiency and hyperparameter optimization. We investigate the minimum data required for effective fine-tuning and propose a novel hyperparameter optimization method that leverages early-stage model performance. Our experiments demonstrate that fine-tuning with as few as 200 samples can improve model accuracy from 70\% to 88\% in a product attribute extraction task. We identify a saturation point of approximately 6,500 samples, beyond which additional data yields diminishing returns. Our proposed bayesian hyperparameter optimization method, which evaluates models at 20\% of total training time, correlates strongly with final model performance, with 4 out of 5 top early-stage models remaining in the top 5 at completion. This approach led to a 2\% improvement in accuracy over baseline models when evaluated on an independent test set. These findings offer actionable insights for practitioners, potentially reducing computational load and dependency on extensive datasets while enhancing overall performance of fine-tuned LLMs. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# Googleのコンピュータサイエンスサマーインスティテュート(CSSI)学生の社会資本とコンピュータサイエンスの持続性
Social Capital and Persistence in Computer Science of Google's Computer Science Summer Institute (CSSI) Students ( http://arxiv.org/abs/2407.13910v1 ) ライセンス: Link先を確認 | Marjan Naghshbandi, Sharon Ferguson, Alison Olechowski, | (参考訳) 有益で成長する分野である一方、CSの性別や人種の多様性は依然として低い。
CSにおける不足した学生の持続性を促進することを目的とした教育と労働支援プログラムが存在し、スキルを教え、キャリアオプションを通知し、CSにおける学生のネットワークを成長させる。
これらのプログラムの有効性は、CSスキルに対する参加者の自信やCSジョブに対する態度など、感情的な結果の変化に関連している。
しかし、CSにおける参加者の社会資本形成に対するプログラムの長期的影響や、CSにおける社会資本の持続性に対する影響は未解明のままである。
本研究は,人口統計識別子と社会資本へのアクセス,CSにおける発達的関係とキャリア資源(社会資本)へのアクセスとを関連づけた文献に動機付けられ,CS支援プログラムが資本建設を通しての持続性に与える影響を考察する。
私たちはGoogleのCSSIに注目し、大学院生にCSの3週間の紹介を提供しました。
プログラムから2~5年経過した参加者へのインタビューを用いて、CSSIが社会資本と長期CS持続性に与える影響を研究する。
テーマ分析では,学生のソーシャルキャピタル形成に影響を及ぼす3つのプログラム要素を明らかにし,学生のインターンシップへの進歩とCSにおける支払い目標を通じて,その持続性を実現した。
これらの結果は,今後の支援プログラムと教育環境が,社会情緒的支援,コラボレーションの機会,楽しい社会活動の時間を中心としたメンターシップを意識していることを示唆している。
CS支援プログラムに社会志向の個人を参加させることに重点を置いている。
これらの知見は,CS における不足した学生の持続性を促進するデザイン選択について,CS 教育者に通知する。
While a lucrative and growing field, low levels of gender and racial diversity in CS remain prevalent. Education and workforce support programs with the intention to promote underrepresented students' persistence in CS exist, which teach skills, inform of career options, and grow students' network in CS. Studies demonstrate these programs' effectiveness as it relates to changes in affective outcomes, such as participants' confidence in CS skills and attitudes towards CS jobs. However, programs' longitudinal impact on participants' build-up of social capital in CS, and the resulting social capital's influence on their persistence in CS, remain unexplored. Motivated by the literature that associates demographic identifiers with access to social capital, and students' access to developmental relationships and career resources (social capital) in CS with their persistence, this study explores a CS support program's impact on persistence through capital building. We focus on Google's CSSI, which provided graduating high school students with a 3-week-long introduction to CS. We use interviews with participants who are now 2-5 years out of the program to study CSSI's impact on their social capital and long-term CS persistence. Thematic analysis reveals three program elements that influenced students' build-up of social capital, and that the resulting persistence was realized through students' progress towards internships and goals for paying-it-forward in CS. These findings inform our recommendations that future support programs and educational settings consider mentorship centered on socioemotional support, opportunities for collaboration, and time for fun social activities. Additional suggestions center on engaging socially-oriented individuals with CS support programs. These insights inform CS educators on design choices that can encourage the persistence of underrepresented students in CS. | 翻訳日:2024-07-22 19:32:58 公開日:2024-07-18 |
# 連続蒸留学習
Continual Distillation Learning ( http://arxiv.org/abs/2407.13911v1 ) ライセンス: Link先を確認 | Qifan Zhang, Yunhui Guo, Yu Xiang, | (参考訳) 継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題について検討する。
教師モデルと学生モデルは一連の課題を学習し、生徒モデルを改善するために教師モデルに関する知識を学生に蒸留する。
CDL-Prompt という新しい手法を導入し,教師-学生モデルの構築にアクセプティブベースの連続学習モデルを用いた。
本研究では,学生の知識蒸留モデルにおける教師モデルのプロンプトの活用方法について検討し,教師のプロンプトを学生に活用するための注意に基づくプロンプトマッピング手法を提案する。
提案手法は,L2P,DualPrompt,CODA-Promptなど,様々なプロンプトベースの連続学習モデルに適用して,強力な教師モデルを用いてその性能を向上させることができることを示す。
近年のCL法は即時学習に重点を置いているが,本手法は高速なCLモデルの構築に有効であることを示す。
We study the problem of Continual Distillation Learning (CDL) that considers Knowledge Distillation (KD) in the Continual Learning (CL) setup. A teacher model and a student model need to learn a sequence of tasks, and the knowledge of the teacher model will be distilled to the student to improve the student model. We introduce a novel method named CDL-Prompt that utilizes prompt-based continual learning models to build the teacher-student model. We investigate how to utilize the prompts of the teacher model in the student model for knowledge distillation, and propose an attention-based prompt mapping scheme to use the teacher prompts for the student. We demonstrate that our method can be applied to different prompt-based continual learning models such as L2P, DualPrompt and CODA-Prompt to improve their performance using powerful teacher models. Although recent CL methods focus on prompt learning, we show that our method can be utilized to build efficient CL models using prompt-based knowledge distillation. | 翻訳日:2024-07-22 19:23:12 公開日:2024-07-18 |
# 能率・デバイス非依存能動量子状態認証
Efficient and Device-Independent Active Quantum State Certification ( http://arxiv.org/abs/2407.13913v1 ) ライセンス: Link先を確認 | Michael Antesberger, Mariana M. E. Schmid, Huan Cao, Borivoje Dakić, Lee A. Rozema, Philip Walther, | (参考訳) 絡み合った量子状態は多くの量子技術にとって必須の要素であるが、それらを使用する前に検証する必要がある。
最近の研究は、リソース集約化が禁止されているため、いくつかの興味のあるパラメータを効率的に抽出する手法の開発に重点を置いている。
既存のほとんどのアプローチは、名目上は同一かつ独立な(IID)量子状態のアンサンブルを作成し、その後、アンサンブルの各コピーを測定することに基づいている。
しかし、これは意図した量子タスクに残される状態を残しておらず、IID仮定は常に実験的に成り立つわけではない。
これらの課題を克服するために、我々は、残りの状態の忠実さを証明し、アンサンブルのサブセットのみを測定する量子状態認証(QSC)を実験的に実装した。
能動光スイッチを用いて、2光子ベル状態と3光子GHZ状態の源からランダムにサンプリングし、全アンサンブルを破壊せずに統計的に音質をリアルタイムで報告する。
さらに、当社のQSCプロトコルは、状態が同一であり、デバイス非依存であり、N^{-1}$スケールに近い状態を、測定された$N$の数で達成できるという仮定を取り除いている。
これらの利点により、我々のQSCプロトコルは、大規模量子コンピューティングデバイスのベンチマークに適しており、標準状況と対向状況の両方における絡み合いに依存して、量子通信をデプロイする。
Entangled quantum states are essential ingredients for many quantum technologies, but they must be validated before they are used. As a full characterization is prohibitively resource-intensive, recent work has focused on developing methods to efficiently extract a few parameters of interest, in a so-called verification framework. Most existing approaches are based on preparing an ensemble of nominally identical and independent (IID) quantum states, and then measuring each copy of the ensemble. However, this leaves no states left for the intended quantum tasks and the IID assumptions do not always hold experimentally. To overcome these challenges, we experimentally implement quantum state certification (QSC), which measures only a subset of the ensemble, certifying the fidelity of the remaining states. We use active optical switches to randomly sample from sources of two-photon Bell states and three-photon GHZ states, reporting statistically-sound fidelities in real time without destroying the entire ensemble. Additionally, our QSC protocol removes the assumption that the states are identical, is device-independent, and can achieve close $N^{-1}$ scaling, in the number of states measured $N$. Altogether, these benefits make our QSC protocol suitable for benchmarking large-scale quantum computing devices and deployed quantum communication setups relying on entanglement in both standard and adversarial situations. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 三成分系ニュートリノ振動の量子回路と量子回路
Qutrit and Qubit Circuits for Three-Flavor Collective Neutrino Oscillations ( http://arxiv.org/abs/2407.13914v1 ) ライセンス: Link先を確認 | Francesco Turro, Ivan A. Chernyshev, Ramya Bhaskar, Marc Illa, | (参考訳) 我々は、高密度ニュートリノ系のフレーバーダイナミクスをシミュレートするためのクォートとキュービットの有用性を探求する。
このような系の進化は、核崩壊超新星や重核の核合成など、いくつかの重要な天体物理学過程に影響を与える。
多くのボディシミュレーションは、物理的に関連するシステムサイズに対して、現在の計算能力を超える古典的なリソースを必要とする。
したがって、量子コンピュータは集合ニュートリノ振動の多体ダイナミクスを効率的にシミュレートする有望な候補である。
従来の量子シミュレーションの取り組みは、量子ビットへの直接マッピングのため、主に2つのフレア近似の性質に焦点を当ててきた。
ここでは,量子コンピュータ上での2,4,8個のニュートリノ系のシミュレーションにより,量子ビット型および量子ビット型プラットフォーム上での3つのフレアニュートリノ系をシミュレートする新しい量子回路を提案する。
We explore the utility of qutrits and qubits for simulating the flavor dynamics of dense neutrino systems. The evolution of such systems impacts some important astrophysical processes, such as core-collapse supernovae and the nucleosynthesis of heavy nuclei. Many-body simulations require classical resources beyond current computing capabilities for physically relevant system sizes. Quantum computers are therefore a promising candidate to efficiently simulate the many-body dynamics of collective neutrino oscillations. Previous quantum simulation efforts have primarily focused on properties of the two-flavor approximation due to their direct mapping to qubits. Here, we present new quantum circuits for simulating three-flavor neutrino systems on qutrit- and qubit-based platforms, and demonstrate their feasibility by simulating systems of two, four and eight neutrinos on IBM and Quantinuum quantum computers. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# マイクロサービスベースのソフトウェアシステム再設計 - 現状と今後の方向性
Microservices-based Software Systems Reengineering: State-of-the-Art and Future Directions ( http://arxiv.org/abs/2407.13915v1 ) ライセンス: Link先を確認 | Thakshila Imiya Mohottige, Artem Polyvyanyy, Rajkumar Buyya, Colin Fidge, Alistair Barros, | (参考訳) クラウドベースのマイクロサービスアーキテクチャ(MSA)と互換性のあるソフトウェア設計は、パフォーマンス、スケーラビリティ、可用性の制限のために不可欠である。
システムの複雑さが増大するにつれて、非推奨化やアップデートの難しさ、変更を行う際の欠陥導入のリスクが発生します。
マイクロサービスは小さく、疎結合で、システム機能の提供と相互作用する非常に凝集度の高いユニットです。
私たちは、マイクロサービスとして再デプロイ可能なシステム内のサービスを特定する方法に関する、現在の調査を包括的に調査しています。
静的、動的、ハイブリッドなアプローチが研究されている。
コード分析技術がこの分野を支配している一方で、動的およびハイブリッドなアプローチはオープンな研究トピックのままである。
Designing software compatible with cloud-based Microservice Architectures (MSAs) is vital due to the performance, scalability, and availability limitations. As the complexity of a system increases, it is subject to deprecation, difficulties in making updates, and risks in introducing defects when making changes. Microservices are small, loosely coupled, highly cohesive units that interact to provide system functionalities. We provide a comprehensive survey of current research into ways of identifying services in systems that can be redeployed as microservices. Static, dynamic, and hybrid approaches have been explored. While code analysis techniques dominate the area, dynamic and hybrid approaches remain open research topics. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# LinSATNet: 正の線形満足度ニューラルネットワーク
LinSATNet: The Positive Linear Satisfiability Neural Networks ( http://arxiv.org/abs/2407.13917v1 ) ライセンス: Link先を確認 | Runzhong Wang, Yunhao Zhang, Ziao Guo, Tianyi Chen, Xiaokang Yang, Junchi Yan, | (参考訳) 制約をニューラルネットワークにエンコードすることは魅力的だ。
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。
本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
さらに、複数の辺数に対するシンクホーンアルゴリズムの収束特性を理論的に特徴づける。
逐次的決定 e g \ 強化学習に基づく解法とは対照的に、単発ニューラルネットワークによる制約付き(特に満足度)問題の解法について紹介する。
一 最適解の監督なしに学習した神経経路解法
二 両面に取り外し不能なグラフを扱う部分グラフ
三 継続的な制約のある金融ポートフォリオの予測ネットワーク
我々の知る限り、これらのシナリオが満足度問題として定式化されるとき、一発のニューラルソルバは存在しない。
ソースコードはhttps://github.com/Thinklab-SJTU/LinSATNetで入手できる。
Encoding constraints into neural networks is attractive. This paper studies how to introduce the popular positive linear satisfiability to neural networks. We propose the first differentiable satisfiability layer based on an extension of the classic Sinkhorn algorithm for jointly encoding multiple sets of marginal distributions. We further theoretically characterize the convergence property of the Sinkhorn algorithm for multiple marginals. In contrast to the sequential decision e.g.\ reinforcement learning-based solvers, we showcase our technique in solving constrained (specifically satisfiability) problems by one-shot neural networks, including i) a neural routing solver learned without supervision of optimal solutions; ii) a partial graph matching network handling graphs with unmatchable outliers on both sides; iii) a predictive network for financial portfolios with continuous constraints. To our knowledge, there exists no one-shot neural solver for these scenarios when they are formulated as satisfiability problems. Source code is available at https://github.com/Thinklab-SJTU/LinSATNet | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 逆領域適応と制御フローグラフによるマルウェア検出の改善
Improving Malware Detection with Adversarial Domain Adaptation and Control Flow Graphs ( http://arxiv.org/abs/2407.13918v1 ) ライセンス: Link先を確認 | Adrian Shuai Li, Arun Iyengar, Ashish Kundu, Elisa Bertino, | (参考訳) マルウェア分類へのディープラーニングの適用においては、学習された分類器がドリフトしたマルウェアで失敗する可能性があるマルウェア進化の頻度を考慮することが重要である。
彼らはアナリストがラベルを付けるための新しいサンプルを選択し、新しいラベルで分類器を再訓練する。
我々の重要な発見は、現在のリトレーニング技術は最適な結果が得られていないことである。
これらのモデルは、ドリフトしたサンプルが不足しているモデルのアップデートには、ドリフト前とドリフト後のデータ間で一貫性のある学習機能が必要であることを見落としている。
さらに, このモデルでは, プレドリフトデータの分類に有用であるが, 後ドリフトデータには欠落している特定の特徴を無視でき, 予測劣化を防止できる。
本稿では,グラフニューラルネットワークと対向領域適応を利用して,マルウェア制御後のフローグラフの保持情報を学習する手法を提案する。
本手法では,アセンブリ命令とコード実行フローのドリフト不変性を考察する。
さらに,統計的に離れたマルウェアクラスタを計算し,より堅牢なドリフト適応手法の評価のためのビルディングブロックを提案する。
本手法は,アクティブラーニングシステムにおける事前学習手法と,他の領域適応手法との比較を行った。
提案手法は,バイナリ分類タスクにおける未知のマルウェアファミリーの予測と,マルチクラス環境でのドリフトされたマルウェアファミリーの予測において,大幅な向上を示すものである。
さらに,代替マルウェアの表現も評価する。
グラフ表現に適応法を適用すると,最もよい結果が得られる。
In the application of deep learning for malware classification, it is crucial to account for the prevalence of malware evolution, which can cause trained classifiers to fail on drifted malware. Existing solutions to combat concept drift use active learning: they select new samples for analysts to label, and then retrain the classifier with the new labels. Our key finding is, the current retraining techniques do not achieve optimal results. These models overlook that updating the model with scarce drifted samples requires learning features that remain consistent across pre-drift and post-drift data. Furthermore, the model should be capable of disregarding specific features that, while beneficial for classification of pre-drift data, are absent in post-drift data, thereby preventing prediction degradation. In this paper, we propose a method that learns retained information in malware control flow graphs post-drift by leveraging graph neural network with adversarial domain adaptation. Our approach considers drift-invariant features within assembly instructions and flow of code execution. We further propose building blocks for more robust evaluation of drift adaptation techniques that computes statistically distant malware clusters. Our approach is compared with the previously published training methods in active learning systems, and the other domain adaptation technique. Our approach demonstrates a significant enhancement in predicting unseen malware family in a binary classification task and predicting drifted malware families in a multi-class setting. In addition, we assess alternative malware representations. The best results are obtained when our adaptation method is applied to our graph representations. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 地球磁気センサネットワークを用いたエキゾチック電界放射のマルチメッセンジャー探索
A Multi-Messenger Search for Exotic Field Emission with a Global Magnetometer Network ( http://arxiv.org/abs/2407.13919v1 ) ライセンス: Link先を確認 | Sami S. Khamis, Ibrahim A. Sulai, Paul Hamilton, S. Afach, B. C. Buchler, D. Budker, N. L. Figueroa, R. Folman, D. Gavilán-Martín, M. Givon, Z. D. Grujić, H. Guo, M. P. Hedges, D. F. Jackson Kimball, D. Kim, E. Klinger, T. Kornack, A. Kryemadhi, N. Kukowski, G. Lukasiewicz, H. Masia-Roig, M. Padniuk, C. A. Palm, S. Y. Park, X. Peng, M. Pospelov, S. Pustelny, Y. Rosenzweig, O. M. Ruimi, P. C. Segura, T. Scholtes, Y. K. Semertzidis, Y. C. Shin, J. E. Stalnaker, D. Tandon, A. Weis, A. Wickenbrock, T. Wilson, T. Wu, J. Zhang, Y. Zhao, | (参考訳) 我々は,超新星,二元ブラックホール,二元中性子星の融合などの大エネルギー天体物理現象で発生するエキゾチック低質量場(ELF)バーストを探索するための解析法と,エキゾチック物理探索のための光磁気センサのGNOME(Global Network of Optical magnetometers)を用いた高速電波バーストについて述べる。
我々のモデルでは、関連する重力波や電磁波は、磁気センサ内のフェルミオンのスピンとの結合を介して相互作用するELFバーストの到来を告げる。
これにより、GNOMEはマルチメーカ天文学の道具として機能する。
このアルゴリズムはモデルに依存しない過剰電力法を用いて、モデル依存の一般化確率比テストの対象となるネットワーク全体の候補イベントを特定し、それらの統計的意義を決定する。
我々は、2020年3月11日にLIGO/Virgoによって検出された二元ブラックホール融合S200311bgと一致するGNOMEデータを用いて、この手法による最初の探索を行い、重要な事象は見つからなかった。
ELF生成と結合パラメータの組み合わせに、最初のラボベースの制限を設けます。
We present an analysis method to search for exotic low-mass field (ELF) bursts generated during large energy astrophysical events such as supernovae, binary black hole or binary neutron star mergers, and fast radio bursts using the Global Network of Optical Magnetometers for Exotic physics searches (GNOME). In our model, the associated gravitational waves or electromagnetic signals herald the arrival of the ELF burst that interacts via coupling to the spin of fermions in the magnetometers. This enables GNOME to serve as a tool for multi-messenger astronomy. The algorithm employs a model-agnostic excess-power method to identify network-wide candidate events to be subjected to a model-dependent generalized likelihood-ratio test to determine their statistical significance. We perform the first search with this technique on GNOME data coincident with the binary black hole merger S200311bg detected by LIGO/Virgo on the 11th of March 2020 and find no significant events. We place the first lab-based limits on combinations of ELF production and coupling parameters. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# DuoFormer: ローカルおよびグローバルアテンションによる階層的視覚表現の活用
DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention ( http://arxiv.org/abs/2407.13920v1 ) ライセンス: Link先を確認 | Xiaoya Tang, Bodong Zhang, Beatrice S. Knudsen, Tolga Tasdizen, | (参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)の機能抽出機能と、視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
また,空間的理解を高め,グローバルな認識を維持するために,パッチアテンションを補完する「スケールアテンション」機構を導入する。
提案手法は,小・中規模の医療データセットのベースラインモデルよりも優れ,その効率性と一般化性を示す。
これらのコンポーネントは異なるCNNアーキテクチャのプラグイン・アンド・プレイとして設計されており、複数のアプリケーションに適応できる。
コードはhttps://github.com/xiaoyatang/DuoFormer.gitで公開されている。
We here propose a novel hierarchical transformer model that adeptly integrates the feature extraction capabilities of Convolutional Neural Networks (CNNs) with the advanced representational potential of Vision Transformers (ViTs). Addressing the lack of inductive biases and dependence on extensive training datasets in ViTs, our model employs a CNN backbone to generate hierarchical visual representations. These representations are then adapted for transformer input through an innovative patch tokenization. We also introduce a 'scale attention' mechanism that captures cross-scale dependencies, complementing patch attention to enhance spatial understanding and preserve global perception. Our approach significantly outperforms baseline models on small and medium-sized medical datasets, demonstrating its efficiency and generalizability. The components are designed as plug-and-play for different CNN architectures and can be adapted for multiple applications. The code is available at https://github.com/xiaoyatang/DuoFormer.git. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 合成対物顔
Synthetic Counterfactual Faces ( http://arxiv.org/abs/2407.13922v1 ) ライセンス: Link先を確認 | Guruprasad V Ramesh, Harrison Rosenberg, Ashish Hooda, Kassem Fawaz, | (参考訳) コンピュータビジョンシステムは、人間の顔のようなバイオメトリックスを含む様々なアプリケーションにデプロイされている。
これらのシステムは、ソーシャルメディアのユーザーを特定し、行方不明者を検索し、個人のアイデンティティを検証できる。
コンピュータビジョンモデルは、利用可能なベンチマークの精度で評価されることが多いが、特に顔データにおいて、入力データのセマンティックな分布シフトに対して、その堅牢性と公平性について学ぶには、より注釈付きデータが必要である。
注釈付きデータの中で、反実例は強い説明可能性特性を与える。
自然の顔データ収集は違法にコストがかかるため、ターゲットとした、対実的で高品質な合成顔データを構築するために、生成可能なAIベースのフレームワークを配置する。
我々の合成データパイプラインには、顔認識システム感度評価や画像理解システムプローブなど、多くのユースケースがあります。
パイプラインは複数のユーザスタディで検証されている。
商用ビジョンモデルにおける顔生成パイプラインの有効性を示す。
視覚系が故障する原因となる顔の特徴を同定する。
Computer vision systems have been deployed in various applications involving biometrics like human faces. These systems can identify social media users, search for missing persons, and verify identity of individuals. While computer vision models are often evaluated for accuracy on available benchmarks, more annotated data is necessary to learn about their robustness and fairness against semantic distributional shifts in input data, especially in face data. Among annotated data, counterfactual examples grant strong explainability characteristics. Because collecting natural face data is prohibitively expensive, we put forth a generative AI-based framework to construct targeted, counterfactual, high-quality synthetic face data. Our synthetic data pipeline has many use cases, including face recognition systems sensitivity evaluations and image understanding system probes. The pipeline is validated with multiple user studies. We showcase the efficacy of our face generation pipeline on a leading commercial vision model. We identify facial attributes that cause vision systems to fail. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# EggNet: パーティクルトラック再構築のためのグラフベースのグラフアテンションネットワーク
EggNet: An Evolving Graph-based Graph Attention Network for Particle Track Reconstruction ( http://arxiv.org/abs/2407.13925v1 ) ライセンス: Link先を確認 | Paolo Calafiura, Jay Chan, Loic Delabrouille, Brandon Wang, | (参考訳) トラック再構成は粒子実験において重要な課題であり、伝統的にその組み合わせの性質から計算コストが非常に高い。
近年,グラフニューラルネットワーク(GNN)が,スケーラビリティ向上のための有望なアプローチとして登場している。
エッジ分類(EC)やオブジェクト凝縮(OC)アプローチを含むこれらのGNNベースの手法の多くは、事前に構築する必要がある入力グラフを必要とする。
本研究では,グラフ構造を進化させたグラフアテンションネットワークを再帰的に適用することにより,一組のヒット(ポイントクラウド)から粒子トラックを直接再構成するワンショットOC手法を提案する。
このアプローチは、グラフを反復的に更新し、各グラフを横断するメッセージをより容易にする。
TrackMLデータセットに関する予備研究は、固定された入力グラフを必要とする方法と比較して、トラック性能が向上したことを示している。
Track reconstruction is a crucial task in particle experiments and is traditionally very computationally expensive due to its combinatorial nature. Recently, graph neural networks (GNNs) have emerged as a promising approach that can improve scalability. Most of these GNN-based methods, including the edge classification (EC) and the object condensation (OC) approach, require an input graph that needs to be constructed beforehand. In this work, we consider a one-shot OC approach that reconstructs particle tracks directly from a set of hits (point cloud) by recursively applying graph attention networks with an evolving graph structure. This approach iteratively updates the graphs and can better facilitate the message passing across each graph. Preliminary studies on the TrackML dataset show better track performance compared to the methods that require a fixed input graph. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 全国AI研究所における倫理・責任設計会議報告:課題の概要
Report on the Conference on Ethical and Responsible Design in the National AI Institutes: A Summary of Challenges ( http://arxiv.org/abs/2407.13926v1 ) ライセンス: Link先を確認 | Sherri Lynn Conklin, Sue Bae, Gaurav Sett, Michael Hoffmann, Justin B. Biddle, | (参考訳) 2023年5月、ジョージア工科大学倫理・技術・ヒューマンインタラクションセンターは、国家AI研究所における倫理的・責任あるデザインに関する会議を組織した。
2023年1月に設立された国立AI研究所の代表が招待され、14の研究所の代表者が参加して参加した。
カンファレンスは3つの質問に焦点を当てた。 国家AI研究所がAIシステムの責任ある設計に関して直面している主な課題は何ですか?
これらの課題に対処するための有望な調査線は何か?
コラボレーションの可能なポイントは何ですか?
倫理的かつ責任ある設計プラクティスを特定し、AI開発プロセスでそれらを実装する上で、研究所が直面する課題は何ですか?
この文書は、出席中の研究所の代表者が強調した課題をまとめたものである。
In May 2023, the Georgia Tech Ethics, Technology, and Human Interaction Center organized the Conference on Ethical and Responsible Design in the National AI Institutes. Representatives from the National AI Research Institutes that had been established as of January 2023 were invited to attend; researchers representing 14 Institutes attended and participated. The conference focused on three questions: What are the main challenges that the National AI Institutes are facing with regard to the responsible design of AI systems? What are promising lines of inquiry to address these challenges? What are possible points of collaboration? Over the course of the conference, a revised version of the first question became a focal point: What are the challenges that the Institutes face in identifying ethical and responsible design practices and in implementing them in the AI development process? This document summarizes the challenges that representatives from the Institutes in attendance highlighted. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# 『我々はすべて建設労働者ではない』:TikTokにおけるラテンダッドのアルゴリズム圧縮
"We're not all construction workers": Algorithmic Compression of Latinidad on TikTok ( http://arxiv.org/abs/2407.13927v1 ) ライセンス: Link先を確認 | Nina Lutz, Cecilia Aragon, | (参考訳) アメリカ合衆国におけるラテックス・ディアスポラは急速に成長し複雑な人口層であり、社会技術システムにおける交点の害や限界化に直面しており、現在はCSCW研究に携わっている。
この分野は、アルゴリズムとデジタルコンテンツが人口の限界によって異なる経験を受けていることを理解しているが、ラテックスの人々がソーシャルメディア、特にビジュアルメディアをどう経験するかについて、さらなる調査が必要である。
本稿では,ビデオ共有プラットフォームTikTokのアルゴリズムシステムをラテックス人がどう経験するかに焦点を当てる。
The bilingual interview and visual elicitation study of 19 Latinx TikTok users and 59 survey participants, we explore how Latinx individuals experience TikTok and its Latinx content。
ラテン文字のTikTokユーザーは、肯定的かつ肯定的なアイデンティティコンテンツフィードを作成するためにプラットフォームアプライアンスを積極的に利用しているが、これらのフィードは、ラテン文字のディアスポラユーザーにとってユニークな結果をもたらすプラットフォームアプライアンスによって、負のコンテンツ(暴力、ステレオタイプ、言語的仮定)によって中断される。
本稿では,これらがラテックス・アイデンティティと表現に与える影響を論じ,社会工学的なシステムを単純化し,平らにし,交叉のアイデンティティを折り畳むという「textit{algorithmic identity compression}」の概念を導入し,これらのシステムや設計者が不要とみなす重要な文化的データの喪失を通じて圧縮する。
この研究は、ラテン系個人が、特にTikTokに限らず、社会工学的なシステムにおいて、これに対して脆弱であることを示す。
The Latinx diaspora in the United States is a rapidly growing and complex demographic who face intersectional harms and marginalizations in sociotechnical systems and are currently underserved in CSCW research. While the field understands that algorithms and digital content are experienced differently by marginalized populations, more investigation is needed about how Latinx people experience social media and, in particular, visual media. In this paper, we focus on how Latinx people experience the algorithmic system of the video-sharing platform TikTok. Through a bilingual interview and visual elicitation study of 19 Latinx TikTok users and 59 survey participants, we explore how Latinx individuals experience TikTok and its Latinx content. We find Latinx TikTok users actively use platform affordances to create positive and affirming identity content feeds, but these feeds are interrupted by negative content (i.e. violence, stereotypes, linguistic assumptions) due to platform affordances that have unique consequences for Latinx diaspora users. We discuss these implications on Latinx identity and representation, introduce the concept of \textit{algorithmic identity compression}, where sociotechncial systems simplify, flatten, and conflate intersection identities, resulting in compression via the loss of critical cultural data deemed unnecessary by these systems and designers of them. This study explores how Latinx individuals are particularly vulnerable to this in sociotechnical systems, such as, but not limited to, TikTok. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# BiasDPO: 直接参照最適化による言語モデルにおけるバイアスの緩和
BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization ( http://arxiv.org/abs/2407.13928v1 ) ライセンス: Link先を確認 | Ahmed Allam, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では, LLM 生成英語テキストにおける性別, 人種, 宗教的バイアスを軽減するために, DPO (Direct Preference Optimization) を用いた新しい枠組みを提案する。
バイアス付き完了よりもバイアスの少ない損失関数を開発することで、LLMにおける敬意と非差別的な言語を育むことができる。
また,LLMをトレーニングしてバイアスを認識し,修正するための,手動で設計したデータセットも提供します。
このデータセットは、バイアスとバイアスのない完了の両方と組み合わせた多様なプロンプトを含んでいる。
このアプローチをMicrosoft Phi-2モデルに実装し、ほぼ全てのバイアスベンチマークにおいてベースラインモデルよりも優れた性能を示すため、バイアス出力の大幅な削減を実証する。
また,ほとんどのベンチマークでは,他のオープンソースモデルと比較して性能が向上している。
モデルが生成する言語のバイアスを減らすことで、我々の研究はより倫理的で社会的に責任のあるLLMを開発するための重要なステップとなる。
私たちはHuggingFaceでBiasDPOデータセットを公開しています。
Large Language Models (LLMs) have become pivotal in advancing natural language processing, yet their potential to perpetuate biases poses significant concerns. This paper introduces a new framework employing Direct Preference Optimization (DPO) to mitigate gender, racial, and religious biases in LLM-generated English text. By developing a loss function that favors less biased over biased completions, our approach cultivates a preference for respectful and non-discriminatory language in LLMs. We also contribute a manually designed dataset for training LLMs to recognize and correct biases. This dataset encompasses a diverse range of prompts paired with both biased and unbiased completions. Implementing this approach on the Microsoft Phi-2 model, we demonstrate substantial reductions in biased outputs as our model outperforms the baseline model on almost all bias benchmarks. Our model also achieves better performance compared to other open-source models on most benchmarks. By reducing biases in the language generated by the model, our study marks a significant step towards developing more ethical and socially responsible LLMs. We publicly release BiasDPO dataset on HuggingFace. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# ソーシャルボットを解き放つ:我々をどう信じているか?
Unmasking Social Bots: How Confident Are We? ( http://arxiv.org/abs/2407.13929v1 ) ライセンス: Link先を確認 | James Giroux, Ariyarathne Gangani, Alexander C. Nwala, Cristiano Fanelli, | (参考訳) ソーシャルボットは、ソーシャルメディアに偽情報を広める主要な手段であり、大衆に脅威を与えている。
複数の高度なソーシャルボット検出アルゴリズムやツールの開発における進歩にもかかわらず、ボット検出は、ボットの振る舞い、トレーニングデータ、そして検出アルゴリズムの不均一性によって不確実性に直面している、困難な未解決の問題であり続けている。
検出モデルは、ボットと同一のアカウントにラベルを付けるか、人間によって制御されるかについて、しばしば意見が一致しない。
しかし、結果がどれだけ信頼されるべきかを示すための不確実性の指標は提供されていない。
本稿では,ボット検出と会計レベルでの不確実性の定量化の両方に対処することを提案する。
この2つの焦点は、各予測の定量化の不確実性に関連する追加情報を活用することによって、意思決定の強化とボット分類の信頼性の向上を可能にするため、極めて重要である。
具体的には,予測を高い信頼性で行う場合のボットに対する標的的介入を促進するとともに,予測が不確実な場合の警告(例えば,より多くのデータ収集)を提案する。
Social bots remain a major vector for spreading disinformation on social media and a menace to the public. Despite the progress made in developing multiple sophisticated social bot detection algorithms and tools, bot detection remains a challenging, unsolved problem that is fraught with uncertainty due to the heterogeneity of bot behaviors, training data, and detection algorithms. Detection models often disagree on whether to label the same account as bot or human-controlled. However, they do not provide any measure of uncertainty to indicate how much we should trust their results. We propose to address both bot detection and the quantification of uncertainty at the account level - a novel feature of this research. This dual focus is crucial as it allows us to leverage additional information related to the quantified uncertainty of each prediction, thereby enhancing decision-making and improving the reliability of bot classifications. Specifically, our approach facilitates targeted interventions for bots when predictions are made with high confidence and suggests caution (e.g., gathering more data) when predictions are uncertain. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# RT-Pose: 4次元レーダーテンソルを用いた3次元人物位置推定と位置推定ベンチマーク
RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark ( http://arxiv.org/abs/2407.13930v1 ) ライセンス: Link先を確認 | Yuan-Hao Ho, Jen-Hao Cheng, Sheng Yao Kuan, Zhongyu Jiang, Wenhao Chai, Hsiang-Wei Huang, Chih-Lung Lin, Jenq-Neng Hwang, | (参考訳) 人間の位置決めとポーズ推定(HPE)の従来の手法は、主にRGB画像を入力モダリティとして依存しており、プライバシー上の懸念から現実のアプリケーションにおいてかなりの制限に直面している。
対照的に、レーダーベースのHPEメソッドは、スルーウォール認識やプライバシ保存といった特徴的な特性によって特徴付けられる、有望な代替手段として出現する。
本稿では,Radar Tensorベースのヒューマンポーズ(RT-Pose)データセットとオープンソースのベンチマークフレームワークを提案する。
RT-Poseデータセットは、4Dレーダテンソル、LiDARポイントクラウド、RGBイメージで構成されており、6つの複雑さレベルアクションを持つ240のシーケンスにわたる合計72kフレームに対して収集される。
4Dレーダテンソルは生の時空間情報を提供し、他のレーダポイントクラウドベースのデータセットと区別する。
RGB画像とLiDAR点雲を用いて3次元人間の骨格を正確にラベル付けするアノテーションプロセスを開発する。
さらに,3次元空間における4次元レーダーテンソルの高分解能表現を抽出し,人間のキーポイント推定を支援する最初の単一ステージアーキテクチャであるHRRadarPoseを提案する。
HRRadarPoseは、RT-Poseベンチマークで以前のレーダーベースのHPEよりも優れている。
RT-PoseデータセットにおけるHRRadarPoseの全体的なパフォーマンスは、9.91cmの関節位置誤差(MPJPE)の平均に反映されているように、複雑な実世界のシナリオにおいて正確なHPEを達成する上での永続的な課題を示している。
RT-Poseはhttps://huggingface.co/datasets/uwipl/RT-Poseで入手できる。
Traditional methods for human localization and pose estimation (HPE), which mainly rely on RGB images as an input modality, confront substantial limitations in real-world applications due to privacy concerns. In contrast, radar-based HPE methods emerge as a promising alternative, characterized by distinctive attributes such as through-wall recognition and privacy-preserving, rendering the method more conducive to practical deployments. This paper presents a Radar Tensor-based human pose (RT-Pose) dataset and an open-source benchmarking framework. The RT-Pose dataset comprises 4D radar tensors, LiDAR point clouds, and RGB images, and is collected for a total of 72k frames across 240 sequences with six different complexity-level actions. The 4D radar tensor provides raw spatio-temporal information, differentiating it from other radar point cloud-based datasets. We develop an annotation process using RGB images and LiDAR point clouds to accurately label 3D human skeletons. In addition, we propose HRRadarPose, the first single-stage architecture that extracts the high-resolution representation of 4D radar tensors in 3D space to aid human keypoint estimation. HRRadarPose outperforms previous radar-based HPE work on the RT-Pose benchmark. The overall HRRadarPose performance on the RT-Pose dataset, as reflected in a mean per joint position error (MPJPE) of 9.91cm, indicates the persistent challenges in achieving accurate HPE in complex real-world scenarios. RT-Pose is available at https://huggingface.co/datasets/uwipl/RT-Pose. | 翻訳日:2024-07-22 19:23:11 公開日:2024-07-18 |
# Ethereumブロックのオークションに勝つのは誰か?
Who Wins Ethereum Block Building Auctions and Why? ( http://arxiv.org/abs/2407.13931v1 ) ライセンス: Link先を確認 | Burak Öz, Danning Sui, Thomas Thiery, Florian Matthes, | (参考訳) MEV-Boostブロックオークションは、Ethereumブロックの約90%に貢献する。
2023年10月から2024年3月までの間に、3人の建設業者だけが80%を生産し、ブロック・ビルダー市場における電力の集中を強調した。
Ethereumの分散された倫理と検閲耐性特性の維持と競争の促進のためには、支配的なプレイヤーの競争力の限界を理解することが不可欠である。
本稿では,6ヶ月にわたるMEV-Boostオークションを包括的に実施することにより,ブロック獲得と利益獲得に重要な役割を担っている特徴を明らかにする。
ブロックマーケットのシェアは注文フローの多様性と正に相関し,収益性は排他的検索エンジンや排他的取引を行う外部プロバイダなどの排他的プロバイダからの注文フローへのアクセスと相関することが明らかとなった。
さらに,トップ10ビルダーの市場シェアと利益率との間には,排他的信号,非原子的仲裁,テレグラムボットフローといった特徴が強く関連している。
これは、ビルダーが利益を得るために注文フローを区別する必要があるが、市場シェアが大きい場合にのみそのようなフローを受け取るという「チキン・アンド・エッグ」の問題を強調している。
全体として、この研究は、ビルダー市場を中央集権化へと導く重要な機能を詳細に分析し、Ethereumブロックオークションのさらなるイテレーションを設計するための貴重な洞察を提供し、Ethereumの検閲耐性特性を保存する。
The MEV-Boost block auction contributes approximately 90% of all Ethereum blocks. Between October 2023 and March 2024, only three builders produced 80% of them, highlighting the concentration of power within the block builder market. To foster competition and preserve Ethereum's decentralized ethos and censorship-resistance properties, understanding the dominant players' competitive edges is essential. In this paper, we identify features that play a significant role in builders' ability to win blocks and earn profits by conducting a comprehensive empirical analysis of MEV-Boost auctions over a six-month period. We reveal that block market share positively correlates with order flow diversity, while profitability correlates with access to order flow from Exclusive Providers, such as integrated searchers and external providers with exclusivity deals. Additionally, we show a positive correlation between market share and profit margin among the top ten builders, with features such as exclusive signal, non-atomic arbitrages, and Telegram bot flow strongly correlating with both metrics. This highlights a "chicken-and-egg" problem where builders need differentiated order flow to profit, but only receive such flow if they have a significant market share. Overall, this work provides an in-depth analysis of the key features driving the builder market towards centralization and offers valuable insights for designing further iterations of Ethereum block auctions, preserving Ethereum's censorship resistance properties. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# 音声と視覚からの学習による教師なし映像のハイライト検出
Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence ( http://arxiv.org/abs/2407.13933v1 ) ライセンス: Link先を確認 | Zahidul Islam, Sujoy Paul, Mrigank Rochan, | (参考訳) ビデオコンテンツの指数的増加に伴い、キーモーメントや長大なビデオからハイライトを抽出する自動ビデオハイライト検出の必要性が高まっている。
この技術は、多様なドメインにまたがる関連コンテンツへの迅速なアクセスを可能にすることによって、ユーザエクスペリエンスを著しく向上させる可能性がある。
既存の手法は通常、高価な手作業でラベル付けされたフレームレベルのアノテーションや、カテゴリ情報を通じて監督の弱いビデオの大規模な外部データセットに頼っている。
これを解決するために、手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に焦点を当てた。
音声と視覚の両方において、類似のカテゴリの複数のビデオに有意なモーメントが再帰する傾向があることを前提として、革新的な教師なしのアプローチを提案する。
意外なことに、音声は、特に教師なしのアルゴリズムでは、重要な瞬間を検知する可能性にもかかわらず、未発見のままだ。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、擬似カテゴリ内の全ビデオの音声クリップ間のオーディオ特徴の類似度を測定して、各ビデオの擬似ハイライトスコアを計算する。
同様に、視覚的特徴を用いた各ビデオの視覚的擬似ハイライトスコアも計算する。
その後、音声と視覚的擬似ハイライトを組み合わせることで、音声視覚強調検出ネットワークをトレーニングするために、各ビデオの音声視覚擬似地味ハイライトを作成する。
3つのハイライト検出ベンチマークの大規模な実験とアブレーション研究により,本手法の先行研究よりも優れた性能を示した。
With the exponential growth of video content, the need for automated video highlight detection to extract key moments or highlights from lengthy videos has become increasingly pressing. This technology has the potential to significantly enhance user experiences by allowing quick access to relevant content across diverse domains. Existing methods typically rely either on expensive manually labeled frame-level annotations, or on a large external dataset of videos for weak supervision through category information. To overcome this, we focus on unsupervised video highlight detection, eliminating the need for manual annotations. We propose an innovative unsupervised approach which capitalizes on the premise that significant moments tend to recur across multiple videos of the similar category in both audio and visual modalities. Surprisingly, audio remains under-explored, especially in unsupervised algorithms, despite its potential to detect key moments. Through a clustering technique, we identify pseudo-categories of videos and compute audio pseudo-highlight scores for each video by measuring the similarities of audio features among audio clips of all the videos within each pseudo-category. Similarly, we also compute visual pseudo-highlight scores for each video using visual features. Subsequently, we combine audio and visual pseudo-highlights to create the audio-visual pseudo ground-truth highlight of each video for training an audio-visual highlight detection network. Extensive experiments and ablation studies on three highlight detection benchmarks showcase the superior performance of our method over prior work. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# カメラとレーダーのクロスチェックによるオンライン3Dマルチオブジェクト追跡の強化
Boosting Online 3D Multi-Object Tracking through Camera-Radar Cross Check ( http://arxiv.org/abs/2407.13937v1 ) ライセンス: Link先を確認 | Sheng-Yao Kuan, Jen-Hao Cheng, Hsiang-Wei Huang, Wenhao Chai, Cheng-Yen Yang, Hugo Latapie, Gaowen Liu, Bing-Fei Wu, Jenq-Neng Hwang, | (参考訳) 自律運転の分野では、多様なセンサのデータに基づくマルチモーダル認識技術の統合が大きな進歩を見せている。
センサー融合による最先端の単一モダリティ検出器の能力を効果的に超えることは、現在も活発な課題である。
この研究は、バードアイビュー(Bird's Eye View, BEV)における視界ビューとレーダーにおけるカメラのそれぞれの利点を活用し、全体的な検出と追跡性能を大幅に向上させる。
我々のアプローチであるCamera-Radar Associated Fusion Tracking Booster (CRAFTBooster)は、追跡段階におけるレーダーカメラ融合を強化する先駆的な取り組みであり、3D MOT精度の向上に寄与する。
IDF1追跡性能向上の5-6%を示すK-Radaarデータセットの優れた実験結果は、自律走行における効果的なセンサ融合の可能性を検証する。
In the domain of autonomous driving, the integration of multi-modal perception techniques based on data from diverse sensors has demonstrated substantial progress. Effectively surpassing the capabilities of state-of-the-art single-modality detectors through sensor fusion remains an active challenge. This work leverages the respective advantages of cameras in perspective view and radars in Bird's Eye View (BEV) to greatly enhance overall detection and tracking performance. Our approach, Camera-Radar Associated Fusion Tracking Booster (CRAFTBooster), represents a pioneering effort to enhance radar-camera fusion in the tracking stage, contributing to improved 3D MOT accuracy. The superior experimental results on the K-Radaar dataset, which exhibit 5-6% on IDF1 tracking performance gain, validate the potential of effective sensor fusion in advancing autonomous driving. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# Werewolf Arena:社会的推論によるLCM評価の事例研究
Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction ( http://arxiv.org/abs/2407.13943v1 ) ライセンス: Link先を確認 | Suma Bailis, Jane Friedhoff, Feiyang Chen, | (参考訳) 本稿では,古典的ソーシャル推論ゲームWerewolfのレンズを通して,大規模言語モデル(LLM)を評価するための新しいフレームワークであるWerewolf Arenaを紹介する。
ウェアウルフ・アリーナでは、LSMは互いに競い合っており、ゲームにおける詐欺、妄想、説得の複雑なダイナミクスをナビゲートしている。
このフレームワークは入札に基づく動的なターンテイクシステムを導入し、個人がいつ話すべきかを戦略的に選択する現実世界の議論を反映している。
GeminiとGPTモデルを備えたアリーナスタイルトーナメントを通じて,フレームワークの実用性を実証する。
我々の結果は、モデルの戦略的推論とコミュニケーションにおいて、明らかな長所と短所を明らかにします。
これらの結果は、Werewolf Arenaが挑戦的でスケーラブルなLLMベンチマークとしての可能性を示している。
This paper introduces Werewolf Arena, a novel framework for evaluating large language models (LLMs) through the lens of the classic social deduction game, Werewolf. In Werewolf Arena, LLMs compete against each other, navigating the game's complex dynamics of deception, deduction, and persuasion. The framework introduces a dynamic turn-taking system based on bidding, mirroring real-world discussions where individuals strategically choose when to speak. We demonstrate the framework's utility through an arena-style tournament featuring Gemini and GPT models. Our results reveal distinct strengths and weaknesses in the models' strategic reasoning and communication. These findings highlight Werewolf Arena's potential as a challenging and scalable LLM benchmark. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# FANTAstic Sequences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decode and Re rank
FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking ( http://arxiv.org/abs/2407.13945v1 ) ライセンス: Link先を確認 | Zhuoer Wang, Leonardo F. R. Ribeiro, Alexandros Papangelis, Rohan Mukherjee, Tzu-Yen Wang, Xinyan Zhao, Arijit Biswas, James Caverlee, Angeliki Metallinou, | (参考訳) APIコール生成は、より大きな世界へのアクセスを提供する、大規模言語モデルのツール使用能力の基盤である。
しかし、既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、データ効率の低さ、APIドキュメントやユーザの要求に反する生成APIコールに悩まされている。
これらの制約に対処するため、FANTASEと呼ばれる出力側最適化手法を提案する。
FANTASEのユニークなコントリビューションの2つは、State-Tracked Constrained Decoding (SCD)とRe rankコンポーネントである。
SCDは、適切なAPI制約をToken Search Trieの形式で動的に組み込んで、APIドキュメントに関して、効率的で保証された世代忠実さを保証します。
判別器として軽量モデルを活用して、大規模言語モデルのビーム探索候補世代を再現することにより、教師付き信号を効率的に導入する。
DSTC8およびAPI Bankデータセットを用いたAPIコール生成精度,推論効率,コンテキスト効率において,FANTASEの優れた性能を示す。
API call generation is the cornerstone of large language models' tool-using ability that provides access to the larger world. However, existing supervised and in-context learning approaches suffer from high training costs, poor data efficiency, and generated API calls that can be unfaithful to the API documentation and the user's request. To address these limitations, we propose an output-side optimization approach called FANTASE. Two of the unique contributions of FANTASE are its State-Tracked Constrained Decoding (SCD) and Reranking components. SCD dynamically incorporates appropriate API constraints in the form of Token Search Trie for efficient and guaranteed generation faithfulness with respect to the API documentation. The Reranking component efficiently brings in the supervised signal by leveraging a lightweight model as the discriminator to rerank the beam-searched candidate generations of the large language model. We demonstrate the superior performance of FANTASE in API call generation accuracy, inference efficiency, and context efficiency with DSTC8 and API Bank datasets. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# 超信頼性低レイテンシV2X通信のためのイベントトリガー強化学習に基づく共同資源配分
Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications ( http://arxiv.org/abs/2407.13947v1 ) ライセンス: Link先を確認 | Nasir Khan, Sinem Coleri, | (参考訳) 将来の6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するために、超信頼性の低い低遅延通信(URLLC)を保証するという課題に直面している。
既存のV2X通信システムのためのリソース割り当てスキームは、主に従来の最適化に基づくアルゴリズムに依存している。
しかし、これらの手法は、ソリューション方法論の複雑さと通信オーバーヘッドが高いため、動的車両環境におけるURLLCアプリケーションの厳格な信頼性と遅延要求を保証できないことが多い。
本稿では,URLLCを用いたダウンリンクV2X通信システムにおいて,有限ブロック長(FBL)方式における最悪のデコードエラー確率を最小限に抑えるために,結合電力とブロック長割り当てのための新しい深部強化学習(DRL)ベースのフレームワークを提案する。
この問題は、非凸混合整数非線形プログラミング問題(MINLP)として定式化される。
当初、最適化理論に基づくアルゴリズムは、ブロック長における復号誤差確率の連接凸性を導出し、関心領域内の電力変数を伝達する。
その後,共同最適化問題の解法として,効率的なイベントトリガー型DRLアルゴリズムを提案する。
DRLフレームワークにイベントトリガー学習を組み込むことで、DRLプロセスを開始するかどうかを評価することができ、合理的な信頼性性能を維持しつつ、DRLプロセスの実行回数を減らすことができる。
シミュレーションの結果,提案したイベントトリガーDRL方式は,ネットワーク設定の異なるDRLの実行を最大24%削減しつつ,共同最適化方式の性能の95%を達成可能であることが示された。
Future 6G-enabled vehicular networks face the challenge of ensuring ultra-reliable low-latency communication (URLLC) for delivering safety-critical information in a timely manner. Existing resource allocation schemes for vehicle-to-everything (V2X) communication systems primarily rely on traditional optimization-based algorithms. However, these methods often fail to guarantee the strict reliability and latency requirements of URLLC applications in dynamic vehicular environments due to the high complexity and communication overhead of the solution methodologies. This paper proposes a novel deep reinforcement learning (DRL) based framework for the joint power and block length allocation to minimize the worst-case decoding-error probability in the finite block length (FBL) regime for a URLLC-based downlink V2X communication system. The problem is formulated as a non-convex mixed-integer nonlinear programming problem (MINLP). Initially, an algorithm grounded in optimization theory is developed based on deriving the joint convexity of the decoding error probability in the block length and transmit power variables within the region of interest. Subsequently, an efficient event-triggered DRL-based algorithm is proposed to solve the joint optimization problem. Incorporating event-triggered learning into the DRL framework enables assessing whether to initiate the DRL process, thereby reducing the number of DRL process executions while maintaining reasonable reliability performance. Simulation results demonstrate that the proposed event-triggered DRL scheme can achieve 95% of the performance of the joint optimization scheme while reducing the DRL executions by up to 24% for different network settings. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# 依存関係の観点からのAIシステムの保証
Assurance of AI Systems From a Dependability Perspective ( http://arxiv.org/abs/2407.13948v1 ) ライセンス: Link先を確認 | Robin Bloomfield, John Rushby, | (参考訳) リスクの高いコンピュータベースのシステムに対する古典的保証の原則を概説する。
次に、人工知能(AI)と機械学習(ML)を採用したシステムにこれらの原則を適用することを検討する。
この"依存性"の観点からの鍵となる要素は、重要なコンポーネントの振る舞いをほぼ完全に理解することであり、これはAIやMLでは実現不可能であると考えられている。
したがって、信頼性の観点からは、AIとML要素の信頼性を最小化するために、より複雑なシステムの階層による"深みの防御"を使用することを目的としている。
これは、AIとML要素自体に保証を適用しようとする"信頼できる"視点とは対照的である。
サイバー物理や他の多くのシステムでは、環境を知覚するためにAIやMLに依存しないガード(例えば、自動運転車と道路を共有している他の車両)を提供するのは難しいため、どちらの視点も必要であり、それらの間に連続性やスペクトルが存在する。
コンティニュムの信頼性の終わりに向けたアーキテクチャに注目し、他の人たちにスペクトルに沿って追加のポイントを検討するように呼びかけます。
AIとMLを用いた認識を必要とするガードには、多様性、深さの防御、説明、マイクロODDを含む、これらの要素に置かれる信頼を最小限にする方法を検討する。
また、世界のモデルを考えると、許容可能な行動を実施する方法についても検討する。
これには、古典的なサイバー物理計算と封筒、そして原則、憲法、倫理、または評判に基づく規範的な規則が含まれる。
我々は、自律システム、特定の機能のためのAIシステム、大規模言語モデルのような汎用AI、人工知能(AGI)に私たちの視点を適用し、現在のベストプラクティスと研究の課題を提案する。
We outline the principles of classical assurance for computer-based systems that pose significant risks. We then consider application of these principles to systems that employ Artificial Intelligence (AI) and Machine Learning (ML). A key element in this "dependability" perspective is a requirement to have near-complete understanding of the behavior of critical components, and this is considered infeasible for AI and ML. Hence the dependability perspective aims to minimize trust in AI and ML elements by using "defense in depth" with a hierarchy of less complex systems, some of which may be highly assured conventionally engineered components, to "guard" them. This may be contrasted with the "trustworthy" perspective that seeks to apply assurance to the AI and ML elements themselves. In cyber-physical and many other systems, it is difficult to provide guards that do not depend on AI and ML to perceive their environment (e.g., other vehicles sharing the road with a self-driving car), so both perspectives are needed and there is a continuum or spectrum between them. We focus on architectures toward the dependability end of the continuum and invite others to consider additional points along the spectrum. For guards that require perception using AI and ML, we examine ways to minimize the trust placed in these elements; they include diversity, defense in depth, explanations, and micro-ODDs. We also examine methods to enforce acceptable behavior, given a model of the world. These include classical cyber-physical calculations and envelopes, and normative rules based on overarching principles, constitutions, ethics, or reputation. We apply our perspective to autonomous systems, AI systems for specific functions, generic AI such as Large Language Models, and to Artificial General Intelligence (AGI), and we propose current best practice and an agenda for research. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# BRSR-OpGAN:オペレーショナルジェネレーティブ・ディバイサル・ネットワークを用いたブラインドレーダ信号復元
BRSR-OpGAN: Blind Radar Signal Restoration using Operational Generative Adversarial Network ( http://arxiv.org/abs/2407.13949v1 ) ライセンス: Link先を確認 | Muhammad Uzair Zahid, Serkan Kiranyaz, Alper Yildirim, Moncef Gabbouj, | (参考訳) 目的: 文献におけるレーダー信号の復元に関する多くの研究は、特定の種類のノイズを遮蔽したり、他の種類の人工物を無視したりするなど、孤立した復元問題に焦点を当てている。
さらに、これらの手法は通常、固定信号対雑音比(SNR)の限られたセットを持つノイズの多い環境を仮定する。
しかし、現実のレーダー信号は、望ましくないエコー、センサーノイズ、意図的な妨害、干渉に制限されないものの、種類、重大さ、持続時間などによって破壊されることが多い。
本研究では,時間領域とスペクトル領域の二重領域損失を用いたBRSR-OpGAN (Operational Generative Adversarial Network) を用いたブラインドレーダ信号復元手法を提案する。
このアプローチは、破壊の多様性や強度に関わらず、レーダ信号の品質を向上させるように設計されている。
方法:BRSR-OpGANは1Dオペレーショナルガン(英語版)を使用しており、これは破損したレーダー信号のブラインド復元に特別に最適化された生成ニューロンモデルを使用する。
このアプローチは、GANの柔軟性を活用して、幅広いアーティファクト特性に動的に適応する。
結果: 提案手法は,Blind Radar Signal Restoration (BRSR) データセットと呼ばれる,確立されたベースラインと新たに修正された拡張データセットを用いて,広範囲に評価されている。
このデータセットは現実世界の条件をシミュレートするために設計され、さまざまなアーティファクトを含んでいる。
この評価は、ベースラインデータセットとBRSRデータセットの平均SNRがそれぞれ15.1dBと14.3dBを上回っていることを示している。
最後に、リソース制約のあるプラットフォームでも、提案手法をリアルタイムで適用することができる。
Objective: Many studies on radar signal restoration in the literature focus on isolated restoration problems, such as denoising over a certain type of noise, while ignoring other types of artifacts. Additionally, these approaches usually assume a noisy environment with a limited set of fixed signal-to-noise ratio (SNR) levels. However, real-world radar signals are often corrupted by a blend of artifacts, including but not limited to unwanted echo, sensor noise, intentional jamming, and interference, each of which can vary in type, severity, and duration. This study introduces Blind Radar Signal Restoration using an Operational Generative Adversarial Network (BRSR-OpGAN), which uses a dual domain loss in the temporal and spectral domains. This approach is designed to improve the quality of radar signals, regardless of the diversity and intensity of the corruption. Methods: The BRSR-OpGAN utilizes 1D Operational GANs, which use a generative neuron model specifically optimized for blind restoration of corrupted radar signals. This approach leverages GANs' flexibility to adapt dynamically to a wide range of artifact characteristics. Results: The proposed approach has been extensively evaluated using a well-established baseline and a newly curated extended dataset called the Blind Radar Signal Restoration (BRSR) dataset. This dataset was designed to simulate real-world conditions and includes a variety of artifacts, each varying in severity. The evaluation shows an average SNR improvement over 15.1 dB and 14.3 dB for the baseline and BRSR datasets, respectively. Finally, even on resource-constrained platforms, the proposed approach can be applied in real-time. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# 大規模量子最適制御のための時間並列多重撮影法
A time-parallel multiple-shooting method for large-scale quantum optimal control ( http://arxiv.org/abs/2407.13950v1 ) ライセンス: Link先を確認 | N. Anders Petersson, Stefanie Günther, Seung Whan Chung, | (参考訳) 量子最適制御は、制御パルスを用いて量子システムを操り、量子アルゴリズムに不可欠な論理ゲート変換を実現することにより、量子コンピューティングにおいて重要な役割を果たす。
しかし、この最適化タスクは、システムの次元性による計算複雑性の指数関数的な増加や、マルチキュービットシステムにおける最適化収束の低下といった問題により、計算的に要求されている。
勾配法や勾配のない縮小空間法、フルスペースコロケーション法など、様々な手法が開発されている。
本稿では,従来の手法の解の精度と計算効率のバランスをとることを目的とした,多重撮影に基づく中間的手法を提案する。
従来の縮小空間法とは異なり、マルチシューティングは時間領域をウィンドウに分割し、各ウィンドウの初期状態に対する最適化変数を導入する。
これにより、ウィンドウ間の状態進化の並列計算が可能となり、目的関数と勾配評価が大幅に加速される。
各ウィンドウの初期状態行列は最適化アルゴリズムの収束時にのみユニタリであることが保証される。
このため、従来のゲートトレースの不完全性は、非単項状態行列に対して凸である一般化された不完全性に置き換えられる。
ウィンドウ境界を越えた状態の連続性は、等式制約によって強制される。
制約された最適制御問題を解くために2次ペナルティ最適化法を用い、各イテレーションの勾配を計算するために効率的な随伴手法を用いる。
本研究では,2,3,4量子ビット系における量子フーリエ変換ゲートの数値実験により提案手法の有効性を実証する。
並列スケーラビリティと最適化性能を評価し、マルチキュービット量子システムにおける制御パルスを最適化する手法の可能性を強調した。
Quantum optimal control plays a crucial role in quantum computing by employing control pulses to steer quantum systems and realize logical gate transformations, essential for quantum algorithms. However, this optimization task is computationally demanding due to challenges such as the exponential growth in computational complexity with the system's dimensionality and the deterioration of optimization convergence for multi-qubit systems. Various methods have been developed, including gradient-based and gradient-free reduced-space methods and full-space collocation methods. This paper introduces an intermediate approach based on multiple-shooting, aiming to balance solution accuracy and computational efficiency of previous approaches. Unlike conventional reduced-space methods, multiple-shooting divides the time domain into windows and introduces optimization variables for the initial state in each window. This enables parallel computation of state evolution across windows, significantly accelerating objective function and gradient evaluations. The initial state matrix in each window is only guaranteed to be unitary upon convergence of the optimization algorithm. For this reason the conventional gate trace infidelity is replaced by a generalized infidelity that is convex for non-unitary state matrices. Continuity of the state across window boundaries is enforced by equality constraints. A quadratic penalty optimization method is used to solve the constrained optimal control problem, and an efficient adjoint technique is employed to calculate the gradients in each iteration. We demonstrate the effectiveness of the proposed method through numerical experiments on quantum Fourier transform gates in systems with 2, 3, and 4 qubits. Parallel scalability and optimization performance are evaluated, highlighting the method's potential for optimizing control pulses in multi-qubit quantum systems. | 翻訳日:2024-07-22 19:13:08 公開日:2024-07-18 |
# ViLLa: 大規模言語モデルによるビデオ推論セグメンテーション
ViLLa: Video Reasoning Segmentation with Large Language Model ( http://arxiv.org/abs/2407.14500v1 ) ライセンス: Link先を確認 | Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao, | (参考訳) 映像認識モデルは近年顕著な進歩を遂げているが、ビデオ認識タスクを実行する前にターゲットインスタンスを特定するために、明示的なテキスト記述や定義済みのカテゴリに大きく依存している。
しかし、これらのモデルは、テキスト入力によってユーザの意図を積極的に理解し、推論することができない。
以前の研究は、画像分割による推論を取り入れるための解決策を研究しようとしたが、ビデオのオブジェクトの動きの複雑さのために、ビデオの推論に失敗した。
本研究は,映像と映像のギャップを埋めるために,新しい映像分割タスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
さらに、この未調査領域の研究を促進するために、推論ビデオセグメンテーションベンチマークを構築します。
最後に、マルチモーダルなLarge Language Model(LLM)の言語生成機能と、複数のインスタンスの検出、セグメンテーション、追跡機能を備えたLarge Language Modelによるビデオ推論セグメンテーションを提案する。
我々は、時間的コンテキストアグリゲーションモジュールを使用して、コンテキストビジュアルキューをテキスト埋め込みに組み込むとともに、セグメンテーショントークン間の時間的相関を構築するためのビデオフレームデコーダを提案する。
注目すべきは、Villaは複雑な推論とビデオセグメンテーションの参照を処理できることを示しています。
また、このモデルでは時間的理解の異なるベンチマークで印象的な能力を示す。
定量的および定性的な実験は,マルチモーダルLLMのための新しいビデオ推論セグメンテーション機能を効果的に解き放つことを示す。
コードとデータセットはhttps://github.com/rkzheng99/ViLLa.comから入手できる。
Although video perception models have made remarkable advancements in recent years, they still heavily rely on explicit text descriptions or pre-defined categories to identify target instances before executing video perception tasks. These models, however, fail to proactively comprehend and reason the user's intentions via textual input. Even though previous works attempt to investigate solutions to incorporate reasoning with image segmentation, they fail to reason with videos due to the video's complexity in object motion. To bridge the gap between image and video, in this work, we propose a new video segmentation task - video reasoning segmentation. The task is designed to output tracklets of segmentation masks given a complex input text query. What's more, to promote research in this unexplored area, we construct a reasoning video segmentation benchmark. Finally, we present ViLLa: Video reasoning segmentation with a Large Language Model, which incorporates the language generation capabilities of multimodal Large Language Models (LLMs) while retaining the capabilities of detecting, segmenting, and tracking multiple instances. We use a temporal-aware context aggregation module to incorporate contextual visual cues to text embeddings and propose a video-frame decoder to build temporal correlations across segmentation tokens. Remarkably, our ViLLa demonstrates capability in handling complex reasoning and referring video segmentation. Also, our model shows impressive ability in different temporal understanding benchmarks. Both quantitative and qualitative experiments show our method effectively unlocks new video reasoning segmentation capabilities for multimodal LLMs. The code and dataset will be available at https://github.com/rkzheng99/ViLLa. | 翻訳日:2024-07-22 16:35:50 公開日:2024-07-18 |
# 強いレーザー場における原子の非逐次二重イオン化の周波数依存性
Frequency dependence of nonsequential double ionization of atoms in strong laser fields ( http://arxiv.org/abs/2407.11944v2 ) ライセンス: Link先を確認 | Jan H. Thiede, Jakub S. Prauzner-Bechcicki, | (参考訳) 非逐次二重イオン化の周波数依存性は、(1+1)次元モデル原子を用いた完全量子力学計算において研究される。
また,フィールドサイクル数の影響などの時間依存性の影響についても検討した。
イオン化収率と運動量分布を示す。
結果は、文献で利用可能な実験データや半古典データと一致し、量子力学的記述でそれらを補完する。
The frequency dependence of (nonsequential) double ionization is studied in fully quantum mechanical calculations using a (1+1)-dimensional model atom. Other time-dependent effects such as the influence of the number of field cycles are also investigated. We present ionization yields and momentum distributions. The results are consistent with experimental and semi-classical data available in the literature, thus complementing them with a quantum mechanical description. | 翻訳日:2024-07-22 12:00:08 公開日:2024-07-18 |
# SignSpeak: ASL翻訳のためのオープンソース時系列分類
SignSpeak: Open-Source Time Series Classification for ASL Translation ( http://arxiv.org/abs/2407.12020v1 ) ライセンス: Link先を確認 | Aditya Makkar, Divya Makkar, Aarav Patel, Liam Hebert, | (参考訳) 手話における流布の欠如は、聴覚と言語障害のあるコミュニティにとってシームレスなコミュニケーションの障壁として依然として残っている。
本研究では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
そして、このデータセットをLSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、そこで最高のモデルが92%の精度を達成した。
SignSpeakデータセットは、36のクラス(A-Z, 1-10)を含む7200のサンプルを持ち、5つの低コストなフレキシブルセンサーを使用して36Hzの各時間ステップにおける指の位置を測定することで、現実的な署名パターンをキャプチャすることを目指している。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確で効率的なASLトランスレータを提供し、将来の作業を構築するためのフレームワークを確立しています。
The lack of fluency in sign language remains a barrier to seamless communication for hearing and speech-impaired communities. In this work, we propose a low-cost, real-time ASL-to-speech translation glove and an exhaustive training dataset of sign language patterns. We then benchmarked this dataset with supervised learning models, such as LSTMs, GRUs and Transformers, where our best model achieved 92% accuracy. The SignSpeak dataset has 7200 samples encompassing 36 classes (A-Z, 1-10) and aims to capture realistic signing patterns by using five low-cost flex sensors to measure finger positions at each time step at 36 Hz. Our open-source dataset, models and glove designs, provide an accurate and efficient ASL translator while maintaining cost-effectiveness, establishing a framework for future work to build on. | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-18 |
# AIベースの補助技術研究におけるリスク報告 : システムレビュー
Reporting Risks in AI-based Assistive Technology Research: A Systematic Review ( http://arxiv.org/abs/2407.12035v1 ) ライセンス: Link先を確認 | Zahra Ahmadi, Peter R. Lewis, Mahadeo A. Sukhai, | (参考訳) 人工知能(AI)は、補助技術を強化するためにますます採用されているが、様々な方法で失敗する可能性がある。
視覚障害者のためのAIベースの支援技術に関する研究について,系統的な文献レビューを行った。
本研究は, 実証可能なプロトタイプを用いたほとんどの技術が, 観光コミュニティのメンバーによる人間による研究では評価されていないことを示す。
さらに、多くの研究は、障害事例や潜在的なリスクを考慮または報告しなかった。
これらの知見は、AIベースの補助技術を開発する際に、包括的システム評価の重要性と、障害事例や脅威を提示・分析するための標準化方法の必要性を強調している。
Artificial Intelligence (AI) is increasingly employed to enhance assistive technologies, yet it can fail in various ways. We conducted a systematic literature review of research into AI-based assistive technology for persons with visual impairments. Our study shows that most proposed technologies with a testable prototype have not been evaluated in a human study with members of the sight-loss community. Furthermore, many studies did not consider or report failure cases or possible risks. These findings highlight the importance of inclusive system evaluations and the necessity of standardizing methods for presenting and analyzing failure cases and threats when developing AI-based assistive technologies. | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-18 |
# 有効器用変数の選択のための集約的階層クラスタリング
Agglomerative Hierarchical Clustering for Selecting Valid Instrumental Variables ( http://arxiv.org/abs/2101.05774v4 ) ライセンス: Link先を確認 | Nicolas Apfel, Xiaoran Liang, | (参考訳) 本稿では,階層的なクラスタリングと,大規模なIV群から有効な機器変数(IV)を選択するための過剰な制約の検証を組み合わせる手法を提案する。
これらの IV のいくつかは、排他的制限に失敗するため、無効である可能性がある。
ここでは,IVs の最大群が有効であれば,本手法はオラクル特性を達成できることを示す。
既存の技術とは異なり、我々の仕事は複数の内因性回帰器を扱う。
シミュレーションの結果,様々な環境下での手法の有効性が示唆された。
この方法は、移民が賃金に与える影響を推定するために適用される。
We propose a procedure which combines hierarchical clustering with a test of overidentifying restrictions for selecting valid instrumental variables (IV) from a large set of IVs. Some of these IVs may be invalid in that they fail the exclusion restriction. We show that if the largest group of IVs is valid, our method achieves oracle properties. Unlike existing techniques, our work deals with multiple endogenous regressors. Simulation results suggest an advantageous performance of the method in various settings. The method is applied to estimating the effect of immigration on wages. | 翻訳日:2024-07-20 00:38:23 公開日:2024-07-18 |
# 単一量子ビット解離による量子位相の学習
Learning quantum phases via single-qubit disentanglement ( http://arxiv.org/abs/2107.03542v4 ) ライセンス: Link先を確認 | Zheng An, Chenfeng Cao, Cheng-Qian Xu, D. L. Zhou, | (参考訳) 物質の相を同定することは、特に量子論の領域において、基底状態の複雑さがシステムサイズとともに指数関数的に増加するという大きな課題を示す。
量子多体系は、異なる位相にまたがる複雑な絡み合い構造を示す。
量子相転移と量子エンタングルメントの関係について広範な研究が行われてきたが、それらの間の直接的かつ実践的な接続を確立することは重要な課題である。
本研究では,拡張学習最適化変分量子回路による解離を利用した,新しい,効率的な量子位相遷移分類器を提案する。
本稿では,この手法が横場イジングモデル(TFIM)とXXZモデルにおける量子相転移に与える影響を実証する。
さらに,TFIMの絡み合い構造に関連するKramers-Wannier双対性を学習するアルゴリズムの能力を観察する。
提案手法は, 分離回路の性能に基づく位相遷移を同定するだけでなく, 拡張性にも優れ, より大規模で複雑な量子システムへの応用が促進される。
この研究は、量子多体系に固有の絡み合い構造を通して、量子相のキャラクタリゼーションに光を当てる。
Identifying phases of matter presents considerable challenges, particularly within the domain of quantum theory, where the complexity of ground states appears to increase exponentially with system size. Quantum many-body systems exhibit an array of complex entanglement structures spanning distinct phases. Although extensive research has explored the relationship between quantum phase transitions and quantum entanglement, establishing a direct, pragmatic connection between them remains a critical challenge. In this work, we present a novel and efficient quantum phase transition classifier, utilizing disentanglement with reinforcement learning-optimized variational quantum circuits. We demonstrate the effectiveness of this method on quantum phase transitions in the transverse field Ising model (TFIM) and the XXZ model. Moreover, we observe the algorithm's ability to learn the Kramers-Wannier duality pertaining to entanglement structures in the TFIM. Our approach not only identifies phase transitions based on the performance of the disentangling circuits but also exhibits impressive scalability, facilitating its application in larger and more complex quantum systems. This study sheds light on the characterization of quantum phases through the entanglement structures inherent in quantum many-body systems. | 翻訳日:2024-07-20 00:38:23 公開日:2024-07-18 |
# コンピュータビジョンにおける連続学習の最近の進歩 : 概観
Recent Advances of Continual Learning in Computer Vision: An Overview ( http://arxiv.org/abs/2109.11369v4 ) ライセンス: Link先を確認 | Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu, | (参考訳) すべてのトレーニングデータが一度に利用できるバッチ学習とは対照的に、連続学習は知識を蓄積し、逐次的に利用可能なデータで継続的に学習する手法のファミリーを表す。
学習能力、融合能力、新たな知識の蓄積能力を持つ人間の学習プロセスと同様に、継続学習は実践的重要性が高いと考えられる。
したがって、継続学習は様々な人工知能タスクで研究されている。
本稿では,コンピュータビジョンにおける連続学習の最近の進歩を概観する。
特に、それらの代表的な技法は、正規化、知識蒸留、記憶、生成的再生、パラメータ分離、および上記の技法の組み合わせである。
これらの技術の各カテゴリについて,その特性とコンピュータビジョンへの応用について述べる。
この概要の最後には、連続的な学習が十分に研究されていない間、連続的な知識蓄積が潜在的に有用であるいくつかの亜領域について論じる。
In contrast to batch learning where all training data is available at once, continual learning represents a family of methods that accumulate knowledge and learn continuously with data available in sequential order. Similar to the human learning process with the ability of learning, fusing, and accumulating new knowledge coming at different time steps, continual learning is considered to have high practical significance. Hence, continual learning has been studied in various artificial intelligence tasks. In this paper, we present a comprehensive review of the recent progress of continual learning in computer vision. In particular, the works are grouped by their representative techniques, including regularization, knowledge distillation, memory, generative replay, parameter isolation, and a combination of the above techniques. For each category of these techniques, both its characteristics and applications in computer vision are presented. At the end of this overview, several subareas, where continuous knowledge accumulation is potentially helpful while continual learning has not been well studied, are discussed. | 翻訳日:2024-07-20 00:38:23 公開日:2024-07-18 |
# 機械学習モデルに対する相関推論攻撃
Correlation inference attacks against machine learning models ( http://arxiv.org/abs/2112.08806v4 ) ライセンス: Link先を確認 | Ana-Maria Creţu, Florent Guépin, Yves-Alexandre de Montjoye, | (参考訳) 今日では機械学習モデルが広く使われているが、モデルとトレーニングデータセットの関係はよく理解されていない。
我々は,モデルが学習データセットの入力変数間の相関関係に関する情報を漏らすかどうか,相関推論攻撃について検討する。
まずモデルレス攻撃を提案し、敵は相関行列の球面パラメトリゼーションを単独で利用し、情報的推測を行う。
次に,敵がブラックボックスモデルアクセスを利用して,最小限の仮定と現実的な仮定を用いて相関関係を推定するモデルベース攻撃を提案する。
第3に,3つの表付きデータセット上で,ロジスティック回帰モデルと多層パーセプトロンモデルに対する攻撃を評価し,相関関係をリークするモデルを示す。
最後に、属性推論攻撃のビルディングブロックとして、抽出された相関がどのように使われるかを示し、より弱い敵の攻撃を可能にする。
私たちの結果は、モデルが何をし、トレーニングセットから覚えるべきかについて、根本的な疑問を投げかけます。
Despite machine learning models being widely used today, the relationship between a model and its training dataset is not well understood. We explore correlation inference attacks, whether and when a model leaks information about the correlations between the input variables of its training dataset. We first propose a model-less attack, where an adversary exploits the spherical parametrization of correlation matrices alone to make an informed guess. Second, we propose a model-based attack, where an adversary exploits black-box model access to infer the correlations using minimal and realistic assumptions. Third, we evaluate our attacks against logistic regression and multilayer perceptron models on three tabular datasets and show the models to leak correlations. We finally show how extracted correlations can be used as building blocks for attribute inference attacks and enable weaker adversaries. Our results raise fundamental questions on what a model does and should remember from its training set. | 翻訳日:2024-07-20 00:38:23 公開日:2024-07-18 |
# 量子量子チェシャー猫は検出可能か?
Is the dynamical quantum Cheshire cat detectable? ( http://arxiv.org/abs/2204.03374v3 ) ライセンス: Link先を確認 | Jonte R. Hance, James Ladyman, John Rarity, | (参考訳) 我々は、Aharonovらによって提案された動的量子チェシャー・キャットをどうやって検出するかを考察し、実際には、非自明な性質とともに進行する直交状態の小さな確率振幅 (`field') を加算して、その効果を検出できるようにする必要がある(つまり、初期状態が$|\uparrow_z\rangle$であるなら、これを小さな量の$|\downarrow_z\rangle$でバイアスする)。
このバイアスは、直接あるいはポインタで状態を密接にすることで行うことができ、状態の進化を計測できる位相参照を効果的に提供します。
この結果は、相互に偏りのない基底における検出の小さな確率差として測定され、この偏りの$\delta$に比例する。
これは、送信者Bobと受信者Aliceの間を移動する際に、明らかにプローブフィールドを必要としない反ファクト通信とは異なることを示す。
さらに、実験室でこれらの現象を実証する光学偏光実験を提案する。
We explore how one might detect the dynamical quantum Cheshire cat proposed by Aharonov et al. We show that, in practice, we need to bias the initial state by adding/subtracting a small probability amplitude (`field') of the orthogonal state, which travels with the disembodied property, to make the effect detectable (i.e. if our initial state is $|\uparrow_z\rangle$, we need to bias this with some small amount $\delta$ of state $|\downarrow_z\rangle$). This biasing, which can be done either directly or via weakly entangling the state with a pointer, effectively provides a phase reference with which we can measure the evolution of the state. The outcome can then be measured as a small probability difference in detections in a mutually unbiased basis, proportional to this biasing $\delta$. We show this is different from counterfactual communication, which provably does not require any probe field to travel between sender Bob and receiver Alice for communication. We further suggest an optical polarisation experiment where these phenomena might be demonstrated in a laboratory. | 翻訳日:2024-07-20 00:38:23 公開日:2024-07-18 |
# Frank-Wolfe法による凸混合整数最適化
Convex mixed-integer optimization with Frank-Wolfe methods ( http://arxiv.org/abs/2208.11010v6 ) ライセンス: Link先を確認 | Deborah Hendrych, Hannah Troppens, Mathieu Besançon, Sebastian Pokutta, | (参考訳) 混合整数非線形最適化は、理論的および計算的課題の両方を示す幅広い種類の問題を含む。
本稿では,凸ノード緩和を用いた分岐結合アルゴリズムに基づいて,これらの問題の解法を提案する。
これらの緩和は、混合整数線型解法を線形最小化オラクルとして呼び出すことで連続的な緩和ではなく、混合整数可能点の凸殻上のフランク・ウルフアルゴリズムによって解決される。
提案手法は多面体制約の1つの表現に取り組みながら実現可能な解を計算し、外部近似スキームを使わずに混合整数線形解法の全範囲を活用でき、ノードサブプロブレムの不正確な解を活用できる。
Mixed-integer nonlinear optimization encompasses a broad class of problems that present both theoretical and computational challenges. We propose a new type of method to solve these problems based on a branch-and-bound algorithm with convex node relaxations. These relaxations are solved with a Frank-Wolfe algorithm over the convex hull of mixed-integer feasible points instead of the continuous relaxation via calls to a mixed-integer linear solver as the linear minimization oracle. The proposed method computes feasible solutions while working on a single representation of the polyhedral constraints, leveraging the full extent of mixed-integer linear solvers without an outer approximation scheme and can exploit inexact solutions of node subproblems. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 測地学の文法行列の低域特異ベクトル近似による効率的な画像デノジング
Efficient Image Denoising by Low-Rank Singular Vector Approximations of Geodesics' Gramian Matrix ( http://arxiv.org/abs/2209.13094v4 ) ライセンス: Link先を確認 | Kelum Gajamannage, Yonggi Park, S. M. Mallikarjunaiah, Sunil Mathur, | (参考訳) 高度なカメラが登場し、高品質な画像を撮りたいという願望が膨大になった。
しかし, 画像のノイズ汚染は, 人々の間でのサブスタンダードな期待をもたらすため, 画像のデノイングは, 必要不可欠な前処理ステップである。
代数的画像処理フレームワークは、元の画像の順序のある程度のパワーに相当する順序の行列の処理を必要とするため、この非効率なタスクには非効率である場合もあるが、ニューラルネットワーク画像処理フレームワークは、多くの類似したトレーニングサンプルを必要とするため、しばしば堅牢ではない。
そこで本研究では,測地学のグラミアン行列の特異ベクトルを主に利用した多様体に基づく雑音フィルタリング法を提案する。
特に、このフレームワークはイメージを分割し、例えば$n \times n$は、既知のサイズのパッチが1つのパッチが各ピクセルに集中するように、$n^2$に重複するパッチに分割する。
次に、パッチ空間上で計算された測地線距離の$n^2 \times n^2$のグラム行列の顕著な特異ベクトルを用いて、画像のノイズ化を行う。
ここでは、顕著な特異ベクトルは、$\mathcal{O}(n^6)$演算に遭遇するSingular Value Decomposition (SVD)のようなフレームワークを用いて明示的に計算するのではなく、効率的だが多様な近似手法によって明らかにされる。
最後に,提案アルゴリズムの計算時間とノイズフィルタ性能を,特異ベクトル近似法および非特異ベクトル近似法と比較した。
With the advent of sophisticated cameras, the urge to capture high-quality images has grown enormous. However, the noise contamination of the images results in substandard expectations among the people; thus, image denoising is an essential pre-processing step. While the algebraic image processing frameworks are sometimes inefficient for this denoising task as they may require processing of matrices of order equivalent to some power of the order of the original image, the neural network image processing frameworks are sometimes not robust as they require a lot of similar training samples. Thus, here we present a manifold-based noise filtering method that mainly exploits a few prominent singular vectors of the geodesics' Gramian matrix. Especially, the framework partitions an image, say that of size $n \times n$, into $n^2$ overlapping patches of known size such that one patch is centered at each pixel. Then, the prominent singular vectors, of the Gramian matrix of size $n^2 \times n^2$ of the geodesic distances computed over the patch space, are utilized to denoise the image. Here, the prominent singular vectors are revealed by efficient, but diverse, approximation techniques, rather than explicitly computing them using frameworks like Singular Value Decomposition (SVD) which encounters $\mathcal{O}(n^6)$ operations. Finally, we compare both computational time and the noise filtration performance of the proposed denoising algorithm with and without singular vector approximation techniques. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 量子カルダーバンク・Shor-Steane符号の古典的積コード構成
Classical product code constructions for quantum Calderbank-Shor-Steane codes ( http://arxiv.org/abs/2209.13474v2 ) ライセンス: Link先を確認 | Dimiter Ostrev, Davide Orsucci, Francisco Lázaro, Balazs Matuz, | (参考訳) コード生成物のいくつかの概念は、超グラフ生成物、ホモロジー生成物、持ち上げ生成物、平衡生成物など、量子エラー補正で知られている。
本稿では,古典的製品コードから量子コードへの自然な一般化である新しい製品コード構築について紹介する:一組のコンポーネントであるCalderbank-Shor-Steane (CSS)コードから始め,古典的製品コードに$X$パリティチェックと$Z$パリティチェックが関連付けられた大きなCSSコードを得る。
コード距離のバウンダリを含むコンポーネントコードの性質から製品CSSコードのいくつかの特性を推定し,パリティチェックに組み込まれた冗長性によってメタチェックが生じることを示す。
次に、古典的なドメインでは、製品コードを構築するのに共通の選択肢であるSPC(Single-parity-check)製品コードに特化する。
SPCの3ドル折り製品CSSコードの論理誤差率シミュレーションは、消去チャネルの最大極大デコーダと、ノイズの偏極化のための信条伝搬デコーダの両方で示される。
結果は、漸近的に優れたTanner符号のファミリーのコードを含む、長さと寸法に匹敵する他のコードと比較する。
当社のリファレンス製品CSSコードは、他の検査済みコードよりも優れています。
Several notions of code products are known in quantum error correction, such as hyper-graph products, homological products, lifted products, balanced products, to name a few. In this paper we introduce a new product code construction which is a natural generalisation of classical product codes to quantum codes: starting from a set of component Calderbank-Shor-Steane (CSS) codes, a larger CSS code is obtained where both $X$ parity checks and $Z$ parity checks are associated to classical product codes. We deduce several properties of product CSS codes from the properties of the component codes, including bounds to the code distance, and show that built-in redundancies in the parity checks result in so-called meta-checks which can be exploited to correct syndrome read-out errors. We then specialise to the case of single-parity-check (SPC) product codes which in the classical domain are a common choice for constructing product codes. Logical error rate simulations of a SPC $3$-fold product CSS code having parameters $[[512,174,8]]$ are shown under both a maximum likelihood decoder for the erasure channel and belief propagation decoding for depolarising noise. We compare the results with other codes of comparable length and dimension, including a code from the family of asymptotically good Tanner codes. We observe that our reference product CSS code outperforms all the other examined codes. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 審判員としてのAIによるメカニズム:チェスにおける結びつきを破る
AI-powered mechanisms as judges: Breaking ties in chess ( http://arxiv.org/abs/2210.08289v3 ) ライセンス: Link先を確認 | Nejat Anbarci, Mehmet S. Ismail, | (参考訳) 近年、人工知能(AI)技術の使用がスポーツで増加し、様々な複雑さの意思決定に到達している。
例えば、大規模なテニストーナメントは、新型コロナウイルス(COVID-19)のパンデミックでスタッフを減らすために、人間のラインの審査員をホークアイライブ技術に置き換えた。
しかし今、AIはこのような日常的なタスクを超越する準備が整っている。
ポイントのケースと完璧なアプリケーショングラウンドはチェスです。
結びつきの増大を抑えるため、多くのエリートトーナメントは速いチェスのタイブレーカーに頼ってきた。
しかし、これらのタイブレーカーはゲームの品質を著しく低下させる。
この問題に対処するために,客観的なタイブレッシング機構のための新しいAI駆動手法を提案する。
本手法は,強力なチェスエンジンによって提案される最適動作と比較することにより,選手の動きの質を評価する。
タイがなければ、より高い品質の選手がタイブレークに勝つ。
このアプローチは、競争の公平性と完全性を高めるだけでなく、ゲームの高水準を維持している。
本手法の有効性を示すため,1910年から2018年にかけて行われた世界チェス選手権大会から約25,000人のグランドマスターが参加し,主要なチェスAIであるストックフィッシュ16を用いて分析を行った。
Recently, Artificial Intelligence (AI) technology use has been rising in sports to reach decisions of various complexity. At a relatively low complexity level, for example, major tennis tournaments replaced human line judges with Hawk-Eye Live technology to reduce staff during the COVID-19 pandemic. AI is now ready to move beyond such mundane tasks, however. A case in point and a perfect application ground is chess. To reduce the growing incidence of ties, many elite tournaments have resorted to fast chess tiebreakers. However, these tiebreakers significantly reduce the quality of games. To address this issue, we propose a novel AI-driven method for an objective tiebreaking mechanism. This method evaluates the quality of players' moves by comparing them to the optimal moves suggested by powerful chess engines. If there is a tie, the player with the higher quality measure wins the tiebreak. This approach not only enhances the fairness and integrity of the competition but also maintains the game's high standards. To show the effectiveness of our method, we apply it to a dataset comprising approximately 25,000 grandmaster moves from World Chess Championship matches spanning from 1910 to 2018, using Stockfish 16, a leading chess AI, for analysis. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 自明かつトポロジカルな励起を持つ系に対するプログラマブルアダバティック・デマグネティゼーション
Programmable adiabatic demagnetization for systems with trivial and topological excitations ( http://arxiv.org/abs/2210.17256v4 ) ライセンス: Link先を確認 | Anne Matthies, Mark Rudner, Achim Rosch, Erez Berg, | (参考訳) 量子コンピュータやプログラム可能な量子シミュレータ上で任意のハミルトニアンの低エネルギー状態を作成するための、単純で堅牢なプロトコルを提案する。
このプロトコルは、固体システムを極低温に冷却するために使用される断熱脱磁性技術にインスパイアされている。
クビット(またはスピン)のごく一部は、システムに結合したスピン浴をモデル化するために使用される。
浴室スピンに作用するゼエマン場の断熱的傾斜により, システムからエネルギーとエントロピーを抽出する。
その後、浴室スピンを計測して偏光状態にリセットし、低エネルギー定常状態に収束するまで繰り返す。
量子イジングモデルへの応用によるプロトコルの実証を行う。
本研究は, ノイズの存在下でのプロトコルの性能について検討し, 冷却過程の監視に浴槽スピンの測定から得られる情報をどのように利用できるかを示す。
アルゴリズムの性能はシステムの励起の性質に依存するが、非局所的な(位相的)励起を持つ系は局所的な励起を持つ系よりも冷却が難しい。
トポロジカルな励起をトラップすることでこの問題の緩和の可能性を探る。
We propose a simple, robust protocol to prepare a low-energy state of an arbitrary Hamiltonian on a quantum computer or programmable quantum simulator. The protocol is inspired by the adiabatic demagnetization technique, used to cool solid-state systems to extremely low temperatures. A fraction of the qubits (or spins) is used to model a spin bath that is coupled to the system. By an adiabatic ramp down of a simulated Zeeman field acting on the bath spins, energy and entropy are extracted from the system. The bath spins are then measured and reset to the polarized state, and the process is repeated until convergence to a low-energy steady state is achieved. We demonstrate the protocol via application to the quantum Ising model. We study the protocol's performance in the presence of noise and show how the information from the measurement of the bath spins can be used to monitor the cooling process. The performance of the algorithm depends on the nature of the excitations of the system; systems with non-local (topological) excitations are more difficult to cool than those with local excitations. We explore the possible mitigation of this problem by trapping topological excitations. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 量子集合反転のための計算機実験のベイズ的逐次設計
Bayesian sequential design of computer experiments for quantile set inversion ( http://arxiv.org/abs/2211.01008v5 ) ライセンス: Link先を確認 | Romain Ait Abdelmalek-Lomenech, Julien Bect, Vincent Chabridon, Emmanuel Vazquez, | (参考訳) 本稿では,システムを表す未知の多変量関数について考察する。
我々の目的は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値未満である出力につながる決定論的入力の集合を推定することである。
この問題はQuantile Set Inversion (QSI)と呼ばれ、例えば十分に大きな確率で制約を満たす解の集合を探す際に、堅牢な(信頼性に基づく)最適化問題の文脈で発生する。
QSI問題を解決するために,ガウス過程モデリングとステップワイド不確実性低減(SUR)原理に基づくベイズ戦略を提案する。
本稿では,いくつかの数値実験を通じて提案したSUR戦略の性能と関心について述べる。
We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) of belonging to a given set is less than a given threshold. This problem, which we call Quantile Set Inversion (QSI), occurs for instance in the context of robust (reliability-based) optimization problems, when looking for the set of solutions that satisfy the constraints with sufficiently large probability. To solve the QSI problem we propose a Bayesian strategy, based on Gaussian process modeling and the Stepwise Uncertainty Reduction (SUR) principle, to sequentially choose the points at which the function should be evaluated to efficiently approximate the set of interest. We illustrate the performance and interest of the proposed SUR strategy through several numerical experiments. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 非互換性を超えた: 機械学習と法における相互排他的公正基準のトレードオフ
Beyond Incompatibility: Trade-offs between Mutually Exclusive Fairness Criteria in Machine Learning and Law ( http://arxiv.org/abs/2212.00469v5 ) ライセンス: Link先を確認 | Meike Zehlike, Alex Loosley, Håkan Jonsson, Emil Wiedemann, Philipp Hacker, | (参考訳) 公正で信頼できるAIは、マシンラーニングと法的なドメインの両方において、ますます重要になっている。
重要な結果の1つは、意思決定者は「公正」すなわち非差別的、アルゴリズム的な決定手順を保証する必要があることである。
しかし、現実的な事実的仮定の下で相互に相容れないことが示されているアルゴリズム的公正性のいくつかの競合する概念がある。
この懸念は、例えば「グループ内の校正」と「正・負のクラスに対する均衡」の広く使われている公平度尺度である。
本稿では,これら3つのフェアネス基準を補間する新しいアルゴリズム(FAir Interpolation Method: FAIM)を提案する。
したがって、初期不公平な予測は、少なくとも部分的には、各公正条件の所望の重み付けされた組み合わせを満たすように修正することができる。
我々は,合成データ,CompASデータセット,電子商取引部門による新たな実世界のデータセットに適用した場合のアルゴリズムの有効性を実証する。
最後に、FAIMが相反する法的義務を満たすためにどの程度活用できるかについて議論する。
この分析は、信用スコアリングや刑事司法手続といった従来の法分野における業務を運用するだけでなく、デジタル市場法や最近制定されたAI法など、EUで実施された最新のAI規制についても運用する可能性があることを示唆している。
Fair and trustworthy AI is becoming ever more important in both machine learning and legal domains. One important consequence is that decision makers must seek to guarantee a 'fair', i.e., non-discriminatory, algorithmic decision procedure. However, there are several competing notions of algorithmic fairness that have been shown to be mutually incompatible under realistic factual assumptions. This concerns, for example, the widely used fairness measures of 'calibration within groups' and 'balance for the positive/negative class'. In this paper, we present a novel algorithm (FAir Interpolation Method: FAIM) for continuously interpolating between these three fairness criteria. Thus, an initially unfair prediction can be remedied to, at least partially, meet a desired, weighted combination of the respective fairness conditions. We demonstrate the effectiveness of our algorithm when applied to synthetic data, the COMPAS data set, and a new, real-world data set from the e-commerce sector. Finally, we discuss to what extent FAIM can be harnessed to comply with conflicting legal obligations. The analysis suggests that it may operationalize duties in traditional legal fields, such as credit scoring and criminal justice proceedings, but also for the latest AI regulations put forth in the EU, like the Digital Markets Act and the recently enacted AI Act. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 空間空域統合ネットワーク上でのフェデレーション強化学習に基づく交通負荷の微分化
Differentiated Federated Reinforcement Learning Based Traffic Offloading on Space-Air-Ground Integrated Networks ( http://arxiv.org/abs/2212.02075v4 ) ライセンス: Link先を確認 | Yeguang Qin, Yilin Yang, Fengxiao Tang, Xin Yao, Ming Zhao, Nei Kato, | (参考訳) Space-Air-Ground Integrated Network (SAGIN) は、高度に効率的なグローバルデータ伝送の機会を提供する包括的基盤となるネットワーク通信基盤として重要な役割を担っている。
しかしながら、SAGINの動的異種ネットワークとしてのユニークな特徴を考えると、従来のネットワーク最適化手法は、このネットワーク環境におけるデータ伝送に固有のネットワーク遅延と安定性の厳密な要件を満たすことの難しさに直面する。
そこで本論文では,SAGINにおけるトラヒックオフローディング問題,すなわち,複数のエージェントを用いてトラヒックオフローディングポリシーを生成するために,差分型フェデレーション強化学習(DFRL)を用いることを提案する。
DFRLは、SAGINの各領域の異なる特性を考慮して、分散化された部分観測可能マルコフ決定プロセス(DEC-POMDP)問題を解決するプロセスとして、トラフィックオフロードポリシー最適化プロセスをモデル化する。
本稿では,この問題を解決するために,新たな微分型フェデレート・ソフト・アクター・クリティカル (DFSAC) アルゴリズムを提案する。
DFSACアルゴリズムは、ネットワークパケット遅延を共同報酬値とし、各エージェントの目標アクション値関数としてグローバルトレンドモデルを導入し、各エージェントのポリシーの更新をガイドする。
シミュレーションの結果,DFSACアルゴリズムに基づくトラヒックオフロードポリシは,従来のフェデレーション強化学習手法やベースラインアプローチと比較して,ネットワークスループット,パケット損失率,パケット遅延の面で優れた性能を実現することが示された。
The Space-Air-Ground Integrated Network (SAGIN) plays a pivotal role as a comprehensive foundational network communication infrastructure, presenting opportunities for highly efficient global data transmission. Nonetheless, given SAGIN's unique characteristics as a dynamically heterogeneous network, conventional network optimization methodologies encounter challenges in satisfying the stringent requirements for network latency and stability inherent to data transmission within this network environment. Therefore, this paper proposes the use of differentiated federated reinforcement learning (DFRL) to solve the traffic offloading problem in SAGIN, i.e., using multiple agents to generate differentiated traffic offloading policies. Considering the differentiated characteristics of each region of SAGIN, DFRL models the traffic offloading policy optimization process as the process of solving the Decentralized Partially Observable Markov Decision Process (DEC-POMDP) problem. The paper proposes a novel Differentiated Federated Soft Actor-Critic (DFSAC) algorithm to solve the problem. The DFSAC algorithm takes the network packet delay as the joint reward value and introduces the global trend model as the joint target action-value function of each agent to guide the update of each agent's policy. The simulation results demonstrate that the traffic offloading policy based on the DFSAC algorithm achieves better performance in terms of network throughput, packet loss rate, and packet delay compared to the traditional federated reinforcement learning approach and other baseline approaches. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 計算双対性と目的超知能
Computational Dualism and Objective Superintelligence ( http://arxiv.org/abs/2302.00843v6 ) ライセンス: Link先を確認 | Michael Timothy Bennett, | (参考訳) インテリジェントソフトウェアの概念には欠陥がある。
ソフトウェアの振る舞いは、それを"解釈"するハードウェアによって決定されます。
これは、理論化されたソフトウェア超知能の振る舞いに関する主張を損なう。
ここでは、この問題を「計算双対主義(computational dualism)」と呼び、心的・物理的物質の代わりに、ソフトウェアとハードウェアがある。
性能に関する客観的な主張を行うためには、計算双対性を避ける必要がある。
環境のあらゆる側面が既約状態間の関係であるパンコンピュテーションの代替案を提案する。
我々は、システムを行動(インプットとアウトプット)として形式化し、認識を具体化、組込み、拡張、活動的とします。
結果は、インタプリタを介して環境と相互作用する非身体的政策としてではなく、環境の一部として形式化されている。
これによって私たちは、インテリジェンスに関する客観的な主張を行うことができ、それは"一般化"し、原因を特定し、適応する能力である、と我々は主張する。
そして、知的行動の客観的な上限を確立する。
これは、AGIは理論よりも安全だが、より限定的であることを示唆している。
The concept of intelligent software is flawed. The behaviour of software is determined by the hardware that "interprets" it. This undermines claims regarding the behaviour of theorised, software superintelligence. Here we characterise this problem as "computational dualism", where instead of mental and physical substance, we have software and hardware. We argue that to make objective claims regarding performance we must avoid computational dualism. We propose a pancomputational alternative wherein every aspect of the environment is a relation between irreducible states. We formalise systems as behaviour (inputs and outputs), and cognition as embodied, embedded, extended and enactive. The result is cognition formalised as a part of the environment, rather than as a disembodied policy interacting with the environment through an interpreter. This allows us to make objective claims regarding intelligence, which we argue is the ability to "generalise", identify causes and adapt. We then establish objective upper bounds for intelligent behaviour. This suggests AGI will be safer, but more limited, than theorised. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 協調的に持続するレジリエント・コンセンサス
Resilient Consensus Sustained Collaboratively ( http://arxiv.org/abs/2302.02325v4 ) ライセンス: Link先を確認 | Junchao Chen, Suyash Gupta, Alberto Sonnino, Lefteris Kokoris-Kogias, Mohammad Sadoghi, | (参考訳) ブロックチェーン技術の最近の成長は、分散プラットフォームの研究を加速している。
初期のブロックチェーンプラットフォームは、Proof-of-Work(PoW)コンセンサスプロトコルに基づいて、台帳に追加すべきものを決定する。
PoWは参加者に大規模な計算を行い、大量のエネルギーを浪費させるよう要求する。
最近のブロックチェーンは、Proof-of-Stake(PoS)とMalicious Fault-Tolerant(MFT)コンセンサスプロトコルを通じてPoWを置き換えることを目指している。
しかし、これらのプロトコルによって作成された台帳の安全性は、参加者の秘密鍵の長期的な安全維持の助けになる。
その結果、これらのブロックチェーンは長距離攻撃に直面している。
このような状況を改善するため、我々は、既存のPoSおよびMFTブロックチェーンを長距離攻撃から保護する新しいPoC(Power-of-Collaboration)プロトコルの設計を提案する。
PoCは既存のブロックチェーンに簡単に追加でき、スループットをわずかに低下させるだけである。
The recent growth of blockchain technology has accelerated research on decentralized platforms. Initial blockchain platforms decide on what should be added to the ledger based on Proof-of-Work (PoW) consensus protocol. PoW requires its participants to perform large computations and leads to massive energy wastage. Recent blockchains aim to replace PoW through Proof-of-Stake (PoS) and Malicious Fault-Tolerant (MFT) consensus protocols. However, the safety of the ledger created by these protocols is at the mercy of the long-term safe-keeping of the private keys of participants. As a result, these blockchains face long-range attacks. To ameliorate this situation, we present the design of our novel Power-of-Collaboration (PoC) protocol, which guards existing PoS and MFT blockchains against long-range attacks. We show that PoC can be easily appended to existing blockchains and only marginally degrades their throughputs. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# 共同識別クラスタリングと特徴選択のための相互情報のスパースと幾何学的認識による一般化
Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection ( http://arxiv.org/abs/2302.03391v2 ) ライセンス: Link先を確認 | Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Mickaël Leclercq, Arnaud Droit, Frédéric Precioso, | (参考訳) クラスタリングにおける特徴の選択は、関連するクラスタと関連する変数を同時に発見する、という難しいタスクである。
特徴選択アルゴリズムは、最適化されたモデル選択やデータ分布の強い仮定を通じてモデルベースとなることが多いが、我々は、GEMINIと呼ばれる相互情報の幾何学的一般化を、単純なl1ペナルティであるSparse GEMINIで最大化しようとする差別的クラスタリングモデルを導入する。
このアルゴリズムは、組合せ特徴部分集合探索の負担を回避し、識別クラスタリングモデルのみを設計しながら、高次元データや大量のサンプルに対して容易にスケーラブルである。
合成データセットと大規模データセットにおけるSparse GEMINIの性能を示す。
この結果から,Sparse GEMINIは競合アルゴリズムであり,関連性基準や事前仮説を使わずに,クラスタリングに関して変数の関連する部分集合を選択することができることがわかった。
Feature selection in clustering is a hard task which involves simultaneously the discovery of relevant clusters as well as relevant variables with respect to these clusters. While feature selection algorithms are often model-based through optimised model selection or strong assumptions on the data distribution, we introduce a discriminative clustering model trying to maximise a geometry-aware generalisation of the mutual information called GEMINI with a simple l1 penalty: the Sparse GEMINI. This algorithm avoids the burden of combinatorial feature subset exploration and is easily scalable to high-dimensional data and large amounts of samples while only designing a discriminative clustering model. We demonstrate the performances of Sparse GEMINI on synthetic datasets and large-scale datasets. Our results show that Sparse GEMINI is a competitive algorithm and has the ability to select relevant subsets of variables with respect to the clustering without using relevance criteria or prior hypotheses. | 翻訳日:2024-07-20 00:32:05 公開日:2024-07-18 |
# ペイントブラシからピクセルへ:AI生成アートにおけるディープニューラルネットワークのレビュー
From paintbrush to pixel: A review of deep neural networks in AI-generated art ( http://arxiv.org/abs/2302.10913v2 ) ライセンス: Link先を確認 | Anne-Sofie Maerten, Derya Soydaner, | (参考訳) 本稿では、AI生成芸術の魅力的な分野を掘り下げ、それを作成するために利用された様々なディープニューラルネットワークアーキテクチャとモデルについて考察する。
古典的畳み込みネットワークから最先端拡散モデルまで、この分野のキープレーヤーについて検討する。
これらのニューラルネットワークの一般的な構造と動作原理を説明します。
次に、DeepDreamの夢のような風景から始まり、Stable DiffusionやDALL-E 3といった最新の開発へと移行したマイルストーンの例を紹介します。
これらのモデルを詳細に比較し、その強みと限界を強調し、深層ニューラルネットワークが短時間で達成した顕著な進歩を検証します。
この論文は、AI生成技術の現状に関する技術的な説明と洞察の独特なブレンドによって、アートとコンピュータ科学の相互作用を実証する。
This paper delves into the fascinating field of AI-generated art and explores the various deep neural network architectures and models that have been utilized to create it. From the classic convolutional networks to the cutting-edge diffusion models, we examine the key players in the field. We explain the general structures and working principles of these neural networks. Then, we showcase examples of milestones, starting with the dreamy landscapes of DeepDream and moving on to the most recent developments, including Stable Diffusion and DALL-E 3, which produce mesmerizing images. We provide a detailed comparison of these models, highlighting their strengths and limitations, and examining the remarkable progress that deep neural networks have made so far in a short period of time. With a unique blend of technical explanations and insights into the current state of AI-generated art, this paper exemplifies how art and computer science interact. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 注意誘導記述子とオーバーラップ推定を用いた粗大な位置認識手法
A Coarse-to-Fine Place Recognition Approach using Attention-guided Descriptors and Overlap Estimation ( http://arxiv.org/abs/2303.06881v2 ) ライセンス: Link先を確認 | Chencan Fu, Lin Li, Linpeng Peng, Yukai Ma, Xiangrui Zhao, Yong Liu, | (参考訳) 位置認識はロボット工学では難しいが重要な課題だ。
現在の記述に基づく手法は表現能力によって制限されるが、ペアの類似性に基づく手法は時間を要する徹底的な探索を必要とする。
本稿では,BEV(Bird's Eye View)特徴抽出,粗粒度マッチング,きめ細かな検証を組み合わせ,これらの問題に対処する新しい粗粒度アプローチを提案する。
粗い段階では、注意誘導ネットワークを用いて注意誘導記述子を生成する。
次に、素早い親和性に基づく候補選択プロセスを用いて、Top-Kの最も類似した候補を特定する。
細かな段階では、狭められた場所候補同士のペアの重複を推定し、最終一致を決定する。
KITTIとKITTI-360データセットの実験結果から,本手法が最先端手法より優れていることが示された。
コードはまもなく公開される予定だ。
Place recognition is a challenging but crucial task in robotics. Current description-based methods may be limited by representation capabilities, while pairwise similarity-based methods require exhaustive searches, which is time-consuming. In this paper, we present a novel coarse-to-fine approach to address these problems, which combines BEV (Bird's Eye View) feature extraction, coarse-grained matching and fine-grained verification. In the coarse stage, our approach utilizes an attention-guided network to generate attention-guided descriptors. We then employ a fast affinity-based candidate selection process to identify the Top-K most similar candidates. In the fine stage, we estimate pairwise overlap among the narrowed-down place candidates to determine the final match. Experimental results on the KITTI and KITTI-360 datasets demonstrate that our approach outperforms state-of-the-art methods. The code will be released publicly soon. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 行動保健における個人化介入の政策最適化
Policy Optimization for Personalized Interventions in Behavioral Health ( http://arxiv.org/abs/2303.12206v3 ) ライセンス: Link先を確認 | Jackie Baek, Justin J. Boutilier, Vivek F. Farias, Jonas Oddur Jonasson, Erez Yoeli, | (参考訳) デジタルプラットフォームを通じて提供される行動的健康介入は、教育、モチベーション、リマインダー、アウトリーチを通じて、健康結果を大幅に改善する可能性がある。
本研究では,患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討する。
初期のパイロット研究から収集された過去のデータセットにアクセスできると仮定する。
そこで我々は,患者システムの状態空間を個別に分解し,政策イテレーションの一段階を近似するDecompPIを提案する。
DecompPIの実装は、単にデータセットを使用した予測タスクで構成され、オンライン実験の必要性を軽減する。
DecompPIは、基礎となる患者行動モデルに関係なく使用できる汎用的なモデルフリーアルゴリズムである。
問題設定を表すモデルの単純で特別な場合に関する理論的保証を導出する。
データ収集に使用される初期ポリシーがランダム化されると、介入を割り当てないnullポリシーを超えた改善に関して、DecompPIの近似保証を確立する。
この保証は推定誤差に対して堅牢であることを示す。
そこで我々は, 実世界データを用いた厳密な事例研究を行い, 結核治療の順応性を改善することを目的とした。
検証されたシミュレーションモデルを用いて、DecompPIは、約半分の介入能力でステータスクオアプローチと同じ効果を提供できることを示した。
DecompPIは,対象とする介入を通じて長期的行動を改善することを目的とした組織に対して,シンプルかつ簡単な実装であり,特に資源制限設定において,理論的にも経験的にもその強い性能を示す。
Behavioral health interventions, delivered through digital platforms, have the potential to significantly improve health outcomes, through education, motivation, reminders, and outreach. We study the problem of optimizing personalized interventions for patients to maximize a long-term outcome, where interventions are costly and capacity-constrained. We assume we have access to a historical dataset collected from an initial pilot study. We present a new approach for this problem that we dub DecompPI, which decomposes the state space for a system of patients to the individual level and then approximates one step of policy iteration. Implementing DecompPI simply consists of a prediction task using the dataset, alleviating the need for online experimentation. DecompPI is a generic model-free algorithm that can be used irrespective of the underlying patient behavior model. We derive theoretical guarantees on a simple, special case of the model that is representative of our problem setting. When the initial policy used to collect the data is randomized, we establish an approximation guarantee for DecompPI with respect to the improvement beyond a null policy that does not allocate interventions. We show that this guarantee is robust to estimation errors. We then conduct a rigorous empirical case study using real-world data from a mobile health platform for improving treatment adherence for tuberculosis. Using a validated simulation model, we demonstrate that DecompPI can provide the same efficacy as the status quo approach with approximately half the capacity of interventions. DecompPI is simple and easy to implement for an organization aiming to improve long-term behavior through targeted interventions, and this paper demonstrates its strong performance both theoretically and empirically, particularly in resource-limited settings. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 等尺テンソルネットワーク状態のエネルギー最適化におけるバレンプレートの存在と勾配のスケーリング
Absence of barren plateaus and scaling of gradients in the energy optimization of isometric tensor network states ( http://arxiv.org/abs/2304.00161v3 ) ライセンス: Link先を確認 | Thomas Barthel, Qiang Miao, | (参考訳) 減衰勾配は高次元最適化問題にかなりの障害を生じさせることがある。
ここでは、ハミルトンと有限範囲の相互作用を持つ量子多体系のエネルギー最小化問題を、古典的コンピュータや量子コンピュータ上の変分量子固有解器の形で研究することができる。
バレン高原は、エネルギー勾配の平均振幅が、システムサイズの増加とともに指数関数的に減少するシナリオに対応する。
これは例えば、量子ニューラルネットワークやブロックウォール量子回路において、深さがシステムサイズで多項式的に増加するときに発生する。
ここでは,行列積状態,木テンソルネットワーク,マルチスケールエンタングルメント再正規化アンサッツに対する変分最適化の問題は不規則なプラトーを伴わないことを示す。
勾配分散の導出したスケーリング特性は、ランダム初期化テンソルネットワーク状態(TNS)のトレーニング可能性に関する解析的保証を提供し、特定の初期化スキームを動機付ける。
適切な表現では、TNSをパラメトリケートするユニタリテンソルは、均一なハール測度に従ってサンプリングされる。
我々は、解析的評価を単純化する勾配に基づく最適化のリーマン的定式化を用いる。
Vanishing gradients can pose substantial obstacles for high-dimensional optimization problems. Here we consider energy minimization problems for quantum many-body systems with extensive Hamiltonians and finite-range interactions, which can be studied on classical computers or in the form of variational quantum eigensolvers on quantum computers. Barren plateaus correspond to scenarios where the average amplitude of the energy gradient decreases exponentially with increasing system size. This occurs, for example, for quantum neural networks and for brickwall quantum circuits when the depth increases polynomially in the system size. Here we prove that the variational optimization problems for matrix product states, tree tensor networks, and the multiscale entanglement renormalization ansatz are free of barren plateaus. The derived scaling properties for the gradient variance provide an analytical guarantee for the trainability of randomly initialized tensor network states (TNS) and motivate certain initialization schemes. In a suitable representation, unitary tensors that parametrize the TNS are sampled according to the uniform Haar measure. We employ a Riemannian formulation of the gradient based optimizations which simplifies the analytical evaluation. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# AI-Architecture Libertyを目指す - ディープラーニングによる仮想アーキテクチャの設計と生成に関する総合的な調査
Towards AI-Architecture Liberty: A Comprehensive Survey on Design and Generation of Virtual Architecture by Deep Learning ( http://arxiv.org/abs/2305.00510v4 ) ライセンス: Link先を確認 | Anqi Wang, Jiahua Dong, Lik-Hang Lee, Jiachuan Shen, Pan Hui, | (参考訳) ディープラーニングを活用した3D形状生成技術は、コンピュータビジョンとアーキテクチャデザインコミュニティの両方から大きな関心を集めており、仮想環境におけるコンテンツの充実を約束している。
しかし、バーチャルアーキテクチャ設計の研究は、特にデザイナとAIのコラボレーションとディープラーニング支援設計について限られている。
調査では,建築設計,3D形状技術,仮想環境に関する149件の関連記事(2019年から2023年にかけて発行された記事の81.2%)をレビューした。
文献を精査することで、まず仮想アーキテクチャの原則を特定し、データセット、マルチモーダリティ、デザイン直観、生成フレームワークなど、現在の生産課題を解明する。
次に,3次元形状生成を利用した仮想建物の設計と生成に関する最新のアプローチを紹介し,仮想建築への様々なアプローチの4つの特徴を要約する。
分析の結果,エージェンシー,コミュニケーション,ユーザ配慮,統合ツールなど,4つの研究課題について概説した。
さらに、深層学習支援アーキテクチャ生成における没入型システムとのユビキタスインタラクションの4つの重要な実現点を強調した。
私たちの研究は、デザイナとディープラーニング技術間の理解を促進することに貢献し、デザイナとAIのコラボレーションへのアクセスを広げます。
我々は、このタイムリーな研究トピックに対処するための学際的な取り組みを提唱し、仮想環境におけるコンテンツ設計と生成を促進する。
3D shape generation techniques leveraging deep learning have garnered significant interest from both the computer vision and architectural design communities, promising to enrich the content in the virtual environment. However, research on virtual architectural design remains limited, particularly regarding designer-AI collaboration and deep learning-assisted design. In our survey, we reviewed 149 related articles (81.2% of articles published between 2019 and 2023) covering architectural design, 3D shape techniques, and virtual environments. Through scrutinizing the literature, we first identify the principles of virtual architecture and illuminate its current production challenges, including datasets, multimodality, design intuition, and generative frameworks. We then introduce the latest approaches to designing and generating virtual buildings leveraging 3D shape generation and summarize four characteristics of various approaches to virtual architecture. Based on our analysis, we expound on four research agendas, including agency, communication, user consideration, and integrating tools. Additionally, we highlight four important enablers of ubiquitous interaction with immersive systems in deep learning-assisted architectural generation. Our work contributes to fostering understanding between designers and deep learning techniques, broadening access to designer-AI collaboration. We advocate for interdisciplinary efforts to address this timely research topic, facilitating content designing and generation in the virtual environment. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 長期視覚認識のためのガウス形式のロジット調整
Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2305.10648v2 ) ライセンス: Link先を確認 | Mengke Li, Yiu-ming Cheung, Yang Lu, Zhikai Hu, Weichao Lan, Hui Huang, | (参考訳) 現実世界のデータが長い尾で分散されることは珍しくない。
このようなデータでは、テールクラスを正しく分類することが難しいため、ディープニューラルネットワークの学習が困難になる。
文献では、長い尾を持つデータから得られる特徴が十分に代表的であることを前提として、分類器バイアスを減らし、この問題に対処している方法がいくつかある。
しかし、長い尾を持つデータを直接トレーニングすることで、不均一な埋め込みスペースが生まれる。
すなわち、ヘッドクラスの埋め込み空間は、後続の分類器学習とは無関係な尾クラスの埋め込み空間を強く圧縮する。
そこで本稿では,機能レベルの観点から,長い目視認識の問題について検討する。
埋め込み分布のバランスをとるために,機能拡張を導入する。
異なるクラスの特徴はガウス形式の様々な振幅で摂動される。
これらの摂動特性に基づいて, 計算オーバーヘッドの緩やかなモデル性能を改善するために, 2つの新しいロジット調整法を提案する。
その後、すべてのクラスの歪んだ埋め込み空間を校正することができる。
このようなバランスの取れた埋め込み空間では、偏りのある分類器は、単純にクラスバランスのサンプリングデータで分類器を再訓練することで排除することができる。
ベンチマークデータセットを用いた大規模な実験により,提案手法の最先端手法よりも優れた性能を示した。
ソースコードはhttps://github.com/Keke921/GCLLossで入手できる。
It is not uncommon that real-world data are distributed with a long tail. For such data, the learning of deep neural networks becomes challenging because it is hard to classify tail classes correctly. In the literature, several existing methods have addressed this problem by reducing classifier bias, provided that the features obtained with long-tailed data are representative enough. However, we find that training directly on long-tailed data leads to uneven embedding space. That is, the embedding space of head classes severely compresses that of tail classes, which is not conducive to subsequent classifier learning. This paper therefore studies the problem of long-tailed visual recognition from the perspective of feature level. We introduce feature augmentation to balance the embedding distribution. The features of different classes are perturbed with varying amplitudes in Gaussian form. Based on these perturbed features, two novel logit adjustment methods are proposed to improve model performance at a modest computational overhead. Subsequently, the distorted embedding spaces of all classes can be calibrated. In such balanced-distributed embedding spaces, the biased classifier can be eliminated by simply retraining the classifier with class-balanced sampling data. Extensive experiments conducted on benchmark datasets demonstrate the superior performance of the proposed method over the state-of-the-art ones. Source code is available at https://github.com/Keke921/GCLLoss. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 参照として大規模言語モデルで要約する学習について
On Learning to Summarize with Large Language Models as References ( http://arxiv.org/abs/2305.14239v3 ) ライセンス: Link先を確認 | Yixin Liu, Kejian Shi, Katherine S He, Longtian Ye, Alexander R. Fabbri, Pengfei Liu, Dragomir Radev, Arman Cohan, | (参考訳) 近年の研究では、大言語モデル(LLM)が生成する要約が、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれていることが判明している。
そこで本研究では,LLM-as-reference Learning set for small text summarization modelについて検討し,その性能が大幅に向上するかどうかを検討する。
この目的のために, LLM を標準教師付き微調整用と, LLM の監視信号を利用した効率的なコントラスト学習用の両方のオラクル要約生成器として使用する。
我々は,(1)LLM-as-reference設定下で訓練された要約モデルが,LLMと人的評価の両方において顕著な性能向上を実現していること,(2)低リソースと高リソースの両方で標準教師付き微調整よりも優れたこと,などを,ソースニュース記事を用いた総合的な実験により明らかにした。
また,LLMの要約評価能力のメタ分析により,LLMがヒト評価装置と整合性がないことを示す。
特に,人間評価の専門家は,LLMとLLMが捕捉できない微調整モデルとの間には,相変わらずの微調整性能の差が残っていることを明らかにした。
そこで我々は,LLMを要約モデル開発に活用する可能性と課題について,さらなる研究を求める。
Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we study an LLM-as-reference learning setting for smaller text summarization models to investigate whether their performance can be substantially improved. To this end, we use LLMs as both oracle summary generators for standard supervised fine-tuning and oracle summary evaluators for efficient contrastive learning that leverages the LLMs' supervision signals. We conduct comprehensive experiments with source news articles and find that (1) summarization models trained under the LLM-as-reference setting achieve significant performance improvement in both LLM and human evaluations; (2) contrastive learning outperforms standard supervised fine-tuning under both low and high resource settings. Our experimental results also enable a meta-analysis of LLMs' summary evaluation capacities under a challenging setting, showing that LLMs are not well-aligned with human evaluators. Particularly, our expert human evaluation reveals remaining nuanced performance gaps between LLMs and our fine-tuned models, which LLMs fail to capture. Thus, we call for further studies into both the potential and challenges of using LLMs in summarization model development. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# AWQ: LLM圧縮・高速化のためのアクティベーション対応ウェイト量子化
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration ( http://arxiv.org/abs/2306.00978v5 ) ライセンス: Link先を確認 | Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, | (参考訳) 大規模言語モデル(LLM)は多くのAIアプリケーションを変換している。
エッジデバイス上でLLMをローカルに実行することで、クラウドコンピューティングのコストを低減し、ユーザのプライバシを保護することができる。
しかし、天文学的なモデルのサイズと限られたハードウェアリソースは、大きな展開課題を引き起こしている。
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は LLM の全ての重みが等しく重要であるとは限らないことに気付く。
1%の残留重量しか保護できないため、量子化誤差は大幅に減少する。
重量チャネルを同定するためには,重量分布ではなく,活性化分布を参照する必要がある。
ハードウェア非効率な混合精度量子化を避けるために,正規チャネルのスケールアップにより量子化誤差を低減できることを数学的に導出した。
AWQはそれを保護するために塩量チャネルを拡大するために等価な変換を用いる。
このスケールは、アクティベーション統計をオフラインで収集することで決定される。
AWQはバックプロパゲーションや再構成に依存せず、キャリブレーションセットをオーバーフィットすることなく異なる領域やモダリティに一般化する。
AWQは、様々な言語モデリングやドメイン固有のベンチマーク(コーディングと数学)において、既存の作業よりも優れています。
より優れた一般化により、命令調整されたLMに対して優れた量子化性能を達成し、初めてマルチモーダルなLMを実現する。
AWQ と並行して,4ビットオンデバイス LLM/VLM に適した,効率的なフレキシブルな推論フレームワーク TinyChat を実装した。
カーネルの融合とプラットフォーム対応の重み付けにより、TinyChatはデスクトップとモバイルの両方のGPU上でHuggingface FP16の実装よりも3倍以上のスピードアップを提供する。
また、モバイルGPU上の70B Llama-2モデルのデプロイを民主化している。
Large language models (LLMs) have transformed numerous AI applications. On-device LLM is becoming increasingly important: running LLMs locally on edge devices can reduce the cloud computing cost and protect users' privacy. However, the astronomical model size and the limited hardware resource pose significant deployment challenges. We propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. AWQ finds that not all weights in an LLM are equally important. Protecting only 1% salient weights can greatly reduce quantization error. To identify salient weight channels, we should refer to the activation distribution, not weights. To avoid the hardware-inefficient mix-precision quantization, we mathematically derive that scaling up the salient channels can reduce the quantization error. AWQ employs an equivalent transformation to scale the salient weight channels to protect them. The scale is determined by collecting the activation statistics offline. AWQ does not rely on any backpropagation or reconstruction, so it generalizes to different domains and modalities without overfitting the calibration set. AWQ outperforms existing work on various language modeling and domain-specific benchmarks (coding and math). Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. Alongside AWQ, we implement TinyChat, an efficient and flexible inference framework tailored for 4-bit on-device LLM/VLMs. With kernel fusion and platform-aware weight packing, TinyChat offers more than 3x speedup over the Huggingface FP16 implementation on both desktop and mobile GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile GPUs. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# マスク付きオートエンコーダは連続的フェデレーション学習者である
Masked Autoencoders are Efficient Continual Federated Learners ( http://arxiv.org/abs/2306.03542v2 ) ライセンス: Link先を確認 | Subarnaduti Paul, Lars-Joel Frey, Roshni Kamath, Kristian Kersting, Martin Mundt, | (参考訳) 機械学習は通常、i.d.の観点からフレーム化され、さらに重要なのは、孤立したデータである。
部分的には、フェデレートされた学習は、クライアントに分散したデータから共有モデルを協調的に学習するという現実世界の課題を解決するために、この仮定を浮き彫りにする。
しかし、主にプライバシーと計算上の制約によって動機付けられ、データが変化したり、分散がドリフトしたり、あるいはクライアント上で個別に進行するタスクさえも考慮されないという事実は、ほとんど考慮されない。
継続的学習の分野は、この2つの課題に対処し、最近は分散教師付き設定におけるシナジーを活用するための第一歩が取られている。
これらの先行研究に触発されて、このような連帯型連続学習は、クライアント間で共有される表現の教師なし学習に基礎を置くべきであると仮定する。
この目的のために、分布推定のためのマスク付きオートエンコーダがこの設定に特に適していることを示す。
具体的には、そのマスキング戦略をタスクアテンション機構とシームレスに統合し、クライアント間の選択的な知識伝達を可能にする。
画像とバイナリの両方のデータセット上で,いくつかの連続的なフェデレーションシナリオを通じて,後者のステートメントを実証的に相関付けする。
Machine learning is typically framed from a perspective of i.i.d., and more importantly, isolated data. In parts, federated learning lifts this assumption, as it sets out to solve the real-world challenge of collaboratively learning a shared model from data distributed across clients. However, motivated primarily by privacy and computational constraints, the fact that data may change, distributions drift, or even tasks advance individually on clients, is seldom taken into account. The field of continual learning addresses this separate challenge and first steps have recently been taken to leverage synergies in distributed supervised settings, in which several clients learn to solve changing classification tasks over time without forgetting previously seen ones. Motivated by these prior works, we posit that such federated continual learning should be grounded in unsupervised learning of representations that are shared across clients; in the loose spirit of how humans can indirectly leverage others' experience without exposure to a specific task. For this purpose, we demonstrate that masked autoencoders for distribution estimation are particularly amenable to this setup. Specifically, their masking strategy can be seamlessly integrated with task attention mechanisms to enable selective knowledge transfer between clients. We empirically corroborate the latter statement through several continual federated scenarios on both image and binary datasets. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 雑音変動量子アルゴリズムのシミュレーション:多項式的アプローチ
Simulating Noisy Variational Quantum Algorithms: A Polynomial Approach ( http://arxiv.org/abs/2306.05804v3 ) ライセンス: Link先を確認 | Yuguo Shao, Fuchuan Wei, Song Cheng, Zhengwei Liu, | (参考訳) 大規模変動量子アルゴリズムは、実用的な量子優位性を達成するための潜在的な経路として広く認識されている。
しかし、量子ノイズの存在はこれらの利点を抑え、弱め、古典的なシミュラビリティの境界を曖昧にする可能性がある。
この問題をより明確にするために,観測可能なパウリパス(OBPPP)のバックプロパゲーションの経路積分に基づく新しい多項式スケール法を提案する。
この手法は, 1量子ビットパウリ雑音の存在下での有界乱数誤差を持つ変分量子アルゴリズムにおける演算子の期待値を効率的に近似する。
理論的には、私たちは厳格に証明します。
1) 最小零ノイズ率$\gamma$の場合, OBPPPの時間と空間の複雑さは, 量子ビット数$n$, 回路深さ$L$と多項式関係を示す。
2つの非ゼロノイズ因子が存在する場合、$\gamma$は$/\log{L}$を超えると$\mathrm{Poly}\left(n,L\right)$となるが、$\gamma$が$/L$未満の場合には$L$で指数関数的に増加する。
数値解析により,IBM の 127-qubit Eagle プロセッサ [Nature \textbf{618}, 500 (2023)] におけるゼロノイズ外挿実験結果の古典的シミュレーションを行った。
提案手法は, 量子デバイスと比較して精度が高く, 実行速度も速い。
さらに,本手法では,生の観察と直接対応するIBMの未処理結果の正確な再現を可能にするため,ノイズをシミュレートすることができる。
本研究は,古典シミュレーションにおけるノイズの重要な役割を明らかにし,導出法は,幅広い量子回路の期待値を計算し,量子コンピュータの検証に応用できる。
Large-scale variational quantum algorithms are widely recognized as a potential pathway to achieve practical quantum advantages. However, the presence of quantum noise might suppress and undermine these advantages, which blurs the boundaries of classical simulability. To gain further clarity on this matter, we present a novel polynomial-scale method based on the path integral of observable's back-propagation on Pauli paths (OBPPP). This method efficiently approximates expectation values of operators in variational quantum algorithms with bounded truncation error in the presence of single-qubit Pauli noise. Theoretically, we rigorously prove: 1) For a constant minimal non-zero noise rate $\gamma$, OBPPP's time and space complexity exhibit a polynomial relationship with the number of qubits $n$, the circuit depth $L$. 2) For variable $\gamma$, in scenarios where more than two non-zero noise factors exist, the complexity remains $\mathrm{Poly}\left(n,L\right)$ if $\gamma$ exceeds $1/\log{L}$, but grows exponential with $L$ when $\gamma$ falls below $1/L$. Numerically, we conduct classical simulations of IBM's zero-noise extrapolated experimental results on the 127-qubit Eagle processor [Nature \textbf{618}, 500 (2023)]. Our method attains higher accuracy and faster runtime compared to the quantum device. Furthermore, our approach allows us to simulate noisy outcomes, enabling accurate reproduction of IBM's unmitigated results that directly correspond to raw experimental observations. Our research reveals the vital role of noise in classical simulations and the derived method is general in computing the expected value for a broad class of quantum circuits and can be applied in the verification of quantum computers. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 補助ロボットアームのためのAIによる共有制御の探索
Exploring AI-enhanced Shared Control for an Assistive Robotic Arm ( http://arxiv.org/abs/2306.13509v3 ) ライセンス: Link先を確認 | Max Pascher, Kirill Kronhardt, Jan Freienstein, Jens Gerken, | (参考訳) 補助技術、特に補助ロボットアームは、運動障害のある人が自己決定的な生活を送ることができる可能性がある。
近年、Kinova Jacoロボットアームなど、エンドユーザーが利用できるシステムが増えてきている。
しかし、それらは主に複雑な手動コントロールを必要とし、ユーザを圧倒する可能性がある。
その結果、研究者たちはそのようなロボットを自律的に動作させる方法を模索した。
しかし、少なくともこの特定のユーザーグループにとって、そのようなアプローチは無駄であることが示されている。
ここでは、自律ロボットが対向する高いレベルの自律性を達成するために、ユーザーはコントロールを保ちたい。
本研究では,アートインテリジェンス(AI)を共有制御パラダイムに統合する方法について検討する。
特に、人間とロボットのインターフェイスの連続的な要件と、人間のループを保ちながら、精神的な負担と運動能力を大幅に低下させる方法に焦点をあてる。
Assistive technologies and in particular assistive robotic arms have the potential to enable people with motor impairments to live a self-determined life. More and more of these systems have become available for end users in recent years, such as the Kinova Jaco robotic arm. However, they mostly require complex manual control, which can overwhelm users. As a result, researchers have explored ways to let such robots act autonomously. However, at least for this specific group of users, such an approach has shown to be futile. Here, users want to stay in control to achieve a higher level of personal autonomy, to which an autonomous robot runs counter. In our research, we explore how Artifical Intelligence (AI) can be integrated into a shared control paradigm. In particular, we focus on the consequential requirements for the interface between human and robot and how we can keep humans in the loop while still significantly reducing the mental load and required motor skills. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 部分的・完全協調型階層型無線フェデレーション学習におけるプライベートアグリゲーション
Private Aggregation in Hierarchical Wireless Federated Learning with Partial and Full Collusion ( http://arxiv.org/abs/2306.14088v2 ) ライセンス: Link先を確認 | Maximilian Egger, Christoph Hofmeister, Antonia Wachter-Zeh, Rawad Bitar, | (参考訳) 連合学習では、フェデレーターは、複数の参加するクライアントが保持するプライベートなデータに基づいて、モデル、例えばニューラルネットワークのトレーニングをコーディネートする。
勾配降下アルゴリズムはよく知られ、よく知られた反復最適化手法であり、モデルを訓練するために実行される。
各クライアントはローカルデータに基づいて部分的な勾配を計算し、フェデレーターに送信し、結果を収集してモデルを更新する。
クライアントデータのプライバシは大きな懸念事項です。
実際、部分的な勾配を観察することは、クライアントのデータを明らかにするのに十分であることが示された。
既存の文献は、すべてのユーザが相互に接続し、フェデレーターに接続する環境で、フェデレーション学習におけるプライバシー問題に対処するプライベートアグリゲーションスキームに焦点を当てている。
本稿では,クライアントを基地局に接続する階層的無線システムアーキテクチャについて考察する。
我々は,リレーと非リレーの設定を検証し,情報理論的プライバシの下での通信コストに基本的な制約を導出する。
通信コストが乗算因子であるこれらの設定に適したプライベートアグリゲーションスキームを導出境界から遠ざかる。
In federated learning, a federator coordinates the training of a model, e.g., a neural network, on privately owned data held by several participating clients. The gradient descent algorithm, a well-known and popular iterative optimization procedure, is run to train the model. Every client computes partial gradients based on their local data and sends them to the federator, which aggregates the results and updates the model. Privacy of the clients' data is a major concern. In fact, it is shown that observing the partial gradients can be enough to reveal the clients' data. Existing literature focuses on private aggregation schemes that tackle the privacy problem in federated learning in settings where all users are connected to each other and to the federator. In this paper, we consider a hierarchical wireless system architecture in which the clients are connected to base stations; the base stations are connected to the federator either directly or through relays. We examine settings with and without relays, and derive fundamental limits on the communication cost under information-theoretic privacy with different collusion assumptions. We introduce suitable private aggregation schemes tailored for these settings whose communication costs are multiplicative factors away from the derived bounds. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# NCL++: 長期にわたる視覚認識のためのNested Collaborative Learning
NCL++: Nested Collaborative Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.16709v3 ) ライセンス: Link先を確認 | Zichang Tan, Jun Li, Jinhao Du, Jun Wan, Zhen Lei, Guodong Guo, | (参考訳) 近年、長い尾の視覚認識が注目されている。
長期学習において極めて不均衡なデータ分布のため、学習プロセスは極めて不確実性を示す。
例えば、同じイメージ上の異なる専門家の予測は、同じトレーニング設定にもかかわらず、著しく異なる。
この不確実性を軽減するために,Nested Collaborative Learning (NCL++)を提案する。
具体的に言うと、協調学習は、専門家間協調学習(InterCL)と専門家間協調学習(IntraCL)の2つの折り返しからなる。
In-terCLは複数の専門家を協調的に同時に学習し、異なる専門家間で知識を伝達することを目的としている。
イントラCLはInterCLと似ているが、単一の専門家内で同じイメージの複数の拡張コピーを共同で学習することを目的としている。
長期学習における協調学習を実現するために,異なる専門家と増補されたコピーの間で一貫した予測を強制するために,バランスの取れたオンライン蒸留を提案し,学習の不確実性を低減した。
さらに,難解なカテゴリの細かな識別能力を向上させるために,高い予測スコアを持つ負のカテゴリをハードカテゴリとして選択するハードカテゴリマイニング(HCM)を提案する。
そして、協調学習はネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかの難しいカテゴリに対して行われる。
実験結果から, 一つのモデルやアンサンブルを用いても, 最先端の手法よりも優れた手法が得られた。
コードは公開されます。
Long-tailed visual recognition has received increasing attention in recent years. Due to the extremely imbalanced data distribution in long-tailed learning, the learning process shows great uncertainties. For example, the predictions of different experts on the same image vary remarkably despite the same training settings. To alleviate the uncertainty, we propose a Nested Collaborative Learning (NCL++) which tackles the long-tailed learning problem by a collaborative learning. To be specific, the collaborative learning consists of two folds, namely inter-expert collaborative learning (InterCL) and intra-expert collaborative learning (IntraCL). In-terCL learns multiple experts collaboratively and concurrently, aiming to transfer the knowledge among different experts. IntraCL is similar to InterCL, but it aims to conduct the collaborative learning on multiple augmented copies of the same image within the single expert. To achieve the collaborative learning in long-tailed learning, the balanced online distillation is proposed to force the consistent predictions among different experts and augmented copies, which reduces the learning uncertainties. Moreover, in order to improve the meticulous distinguishing ability on the confusing categories, we further propose a Hard Category Mining (HCM), which selects the negative categories with high predicted scores as the hard categories. Then, the collaborative learning is formulated in a nested way, in which the learning is conducted on not just all categories from a full perspective but some hard categories from a partial perspective. Extensive experiments manifest the superiority of our method with outperforming the state-of-the-art whether with using a single model or an ensemble. The code will be publicly released. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# ネットワーク量子ステアリングは、シードランダム性のないランダム性証明を可能にする
Network quantum steering enables randomness certification without seed randomness ( http://arxiv.org/abs/2307.08797v4 ) ライセンス: Link先を確認 | Shubhayan Sarkar, | (参考訳) 複数のソースを持つ量子ネットワークは、入力なしで量子非局所性の観測を可能にする。
したがって、複数の量子源にアクセスする場合、測定の不整合性は量子非局所性の観測には必要ではない。
ここでは、任意の形の量子非局所性を観測できる入力のない最小シナリオについて検討する。
古典的に相関する可能性のある2つのソースを持つ2つのパーティでさえ、あるパーティが信頼されている場合、すなわち、固定された既知の測定を行う場合、入力のないネットワークにおいて量子非局所性(特に量子ステアリング)の形式を見ることができることを示す。
この効果をスワップステアリングと呼ぶ。
この研究で示されたシナリオは、そのような効果を観測するには最小限である。
したがって、量子ステアリングは観測できるがベル非局所性は観測できないシナリオが存在する。
さらに,スワップステアリングを観察する線形証人を構築した。
興味深いことに、この証人は、ソースによって生成された量子状態の自己検査と、信頼できないパーティの局所的な測定を可能にしている。
これにより、信頼できないデバイスの測定結果から得る2ビットのランダム性を、最初にランダムなデバイスに供給する必要なく証明することができる。
Quantum networks with multiple sources allow the observation of quantum nonlocality without inputs. Consequently, the incompatibility of measurements is not a necessity for observing quantum nonlocality when one has access to multiple quantum sources. Here we investigate the minimal scenario without inputs where one can observe any form of quantum nonlocality. We show that even two parties with two sources that might be classically correlated can witness a form of quantum nonlocality, in particular quantum steering, in networks without inputs if one of the parties is trusted, that is, performs a fixed known measurement. We term this effect as swap-steering. The scenario presented in this work is minimal to observe such an effect. Consequently, a scenario exists where one can observe quantum steering but not Bell non-locality. We further construct a linear witness to observe swap-steering. Interestingly, this witness enables self-testing of the quantum states generated by the sources and the local measurement of the untrusted party. This in turn allows certifying two bits of randomness that can be obtained from the measurement outcomes of the untrusted device without the requirement of initially feeding the device with randomness. | 翻訳日:2024-07-20 00:22:15 公開日:2024-07-18 |
# 同期損失を安定化した音声駆動型発話顔生成
Audio-driven Talking Face Generation with Stabilized Synchronization Loss ( http://arxiv.org/abs/2307.09368v3 ) ライセンス: Link先を確認 | Dogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Hazim Kemal Ekenel, Alexander Waibel, | (参考訳) トーキング・フェイスジェネレーションは、身元と視覚特性を保ちながら、与えられたオーディオと参照ビデオを使用して、正確な唇同期と高画質のリアルなビデオを作成することを目的としている。
本稿では,既存の同期学習手法におけるいくつかの問題を特定することから始める。
これらは不安定なトレーニング、リップ同期、リップ同期損失、SyncNet、およびID参照からのリップリークによる視覚的品質の問題を含む。
これらの問題に対処するため,我々はまずサイレントリップ発生器を導入し,その唇のずれを緩和する。
次に、リップ同期損失とSyncNetに起因する問題を克服するために、安定化同期損失とAVSyncNetを導入する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
包括的アブレーション研究は、我々の個人の貢献とその結束効果をさらに検証する。
Talking face generation aims to create realistic videos with accurate lip synchronization and high visual quality, using given audio and reference video while preserving identity and visual characteristics. In this paper, we start by identifying several issues with existing synchronization learning methods. These involve unstable training, lip synchronization, and visual quality issues caused by lip-sync loss, SyncNet, and lip leaking from the identity reference. To address these issues, we first tackle the lip leaking problem by introducing a silent-lip generator, which changes the lips of the identity reference to alleviate leakage. We then introduce stabilized synchronization loss and AVSyncNet to overcome problems caused by lip-sync loss and SyncNet. Experiments show that our model outperforms state-of-the-art methods in both visual quality and lip synchronization. Comprehensive ablation studies further validate our individual contributions and their cohesive effects. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 画像超解像ネットワークにおける配電ミスマッチの克服
Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks ( http://arxiv.org/abs/2307.13337v2 ) ライセンス: Link先を確認 | Cheeun Hong, Kyoung Mu Lee, | (参考訳) 量子化は、様々なハイレベルな視覚タスクにおける計算複雑性を減らすための有望なアプローチとして現れてきたが、必然的に画像超解像(SR)ネットワークの精度の低下につながっている。
これは、異なるチャネルにまたがる特徴分布と、固定量子化範囲の選択を複雑にするSRネットワークの入力画像が著しく異なるためである。
既存の研究は、テスト時間中に様々な分布に量子化範囲を動的に適応させることによって、この分布ミスマッチ問題に対処している。
しかし、このような動的適応は推論中にさらなる計算コストを発生させる。
対照的に、SRネットワークにおける分散ミスマッチ問題を動的適応を必要とせずに効果的に克服する新しい量子化対応トレーニング手法を提案する。
直感的には、このミスマッチは、特徴と固定量子化範囲の間の距離を規則化することで緩和することができる。
しかし、そのような正規化は訓練中の再建損失と矛盾し、SR精度に悪影響を及ぼす。
したがって,正規化の勾配が復元損失の勾配と一致している場合にのみ,ミスマッチを正則化する。
さらに,重み付け補正手法を導入し,重み付けのためのより適切な定量化範囲を決定する。
実験により,本フレームワークは分散ミスマッチを効果的に低減し,計算オーバーヘッドを最小限に抑えながら最先端の性能を実現することを示した。
Although quantization has emerged as a promising approach to reducing computational complexity across various high-level vision tasks, it inevitably leads to accuracy loss in image super-resolution (SR) networks. This is due to the significantly divergent feature distributions across different channels and input images of the SR networks, which complicates the selection of a fixed quantization range. Existing works address this distribution mismatch problem by dynamically adapting quantization ranges to the varying distributions during test time. However, such a dynamic adaptation incurs additional computational costs during inference. In contrast, we propose a new quantization-aware training scheme that effectively Overcomes the Distribution Mismatch problem in SR networks without the need for dynamic adaptation. Intuitively, this mismatch can be mitigated by regularizing the distance between the feature and a fixed quantization range. However, we observe that such regularization can conflict with the reconstruction loss during training, negatively impacting SR accuracy. Therefore, we opt to regularize the mismatch only when the gradients of the regularization are aligned with those of the reconstruction loss. Additionally, we introduce a layer-wise weight clipping correction scheme to determine a more suitable quantization range for layer-wise weights. Experimental results demonstrate that our framework effectively reduces the distribution mismatch and achieves state-of-the-art performance with minimal computational overhead. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# オフライン手書き署名検証のためのコタップレット損失を用いたマルチスケール特徴学習
Multiscale Feature Learning Using Co-Tuplet Loss for Offline Handwritten Signature Verification ( http://arxiv.org/abs/2308.00428v3 ) ライセンス: Link先を確認 | Fu-Hsien Huang, Hsin-Min Lu, | (参考訳) 法的および金融機関にとって重要な手書き署名検証は、文字間の類似性、文字内変異、限られた署名サンプルを含む課題に直面している。
このような問題に対処するために,マルチスケール署名機能学習ネットワーク (MS-SigNet) を導入する。
MS-SigNetは、複数の空間スケールからグローバルと地域両方の署名機能を学び、特徴の識別を強化する。
このアプローチは、全体的なストロークと詳細な局所的差異をキャプチャすることで、熟練した偽造と真の署名を効果的に区別する。
複数のポジティブな例とネガティブな例に焦点をあてたコタップレットの損失は、文字間類似性や文字内変動に対処し、情報的例を強調することによって、典型的なメートル法学習損失の限界を克服する。
また、堅牢なシステム開発をサポートするために、大規模な中国の署名データセットであるHanSig(https://github.com/hsinmin/HanSig)も紹介します。
異なる言語における4つのベンチマークデータセットの実験結果は、最先端の手法と比較して、提案手法の有望な性能を示す。
Handwritten signature verification, crucial for legal and financial institutions, faces challenges including inter-writer similarity, intra-writer variations, and limited signature samples. To address these, we introduce a MultiScale Signature feature learning Network (MS-SigNet) with a novel metric learning loss called the co-tuplet loss, designed for offline handwritten signature verification. MS-SigNet learns both global and regional signature features from multiple spatial scales, enhancing feature discrimination. This approach effectively distinguishes genuine signatures from skilled forgeries by capturing overall strokes and detailed local differences. The co-tuplet loss, focusing on multiple positive and negative examples, overcomes the limitations of typical metric learning losses by addressing inter-writer similarity and intra-writer variations and emphasizing informative examples. We also present HanSig, a large-scale Chinese signature dataset (available at https://github.com/hsinmin/HanSig) to support robust system development. Experimental results on four benchmark datasets in different languages demonstrate the promising performance of our method in comparison to state-of-the-art approaches. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# モデルDNAによるモデル存在
Model Provenance via Model DNA ( http://arxiv.org/abs/2308.02121v3 ) ライセンス: Link先を確認 | Xin Mu, Yu Wang, Yehong Zhang, Jiaqi Zhang, Hui Wang, Yang Xiang, Yue Yu, | (参考訳) 機械学習(ML)モデルのライフサイクルを理解することは、興味深い研究分野である(例えば、モデルがどこから来たのか、どのようにトレーニングされ、どのように使用されるのかを理解する)。
本稿では,対象モデルと事前学習モデルとの関係を考慮し,対象モデルが対象モデルの証明となるかどうかを判断することを目的とした,この領域における新しい問題,すなわち,MP(Model Provenance)に焦点を当てる。
これは、機械学習モデルのセキュリティと知的財産権の確保に重要な意味を持つ重要な問題であるが、文献にはあまり注目されていない。
このギャップを埋めるために、機械学習モデルのユニークな特徴を表すモデルDNAという新しい概念を導入する。
データ駆動型およびモデル駆動型表現学習法を用いて、モデルのトレーニングデータと入力出力情報を、コンパクトで包括的な表現(つまり、DNA)として符号化する。
このモデルDNAを用いて、ターゲットモデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。
我々は,様々なモデル,データセット,シナリオを用いて,コンピュータビジョンと自然言語処理の両方のタスクの評価を行い,モデル前駆体を正確に同定する手法の有効性を実証する。
Understanding the life cycle of the machine learning (ML) model is an intriguing area of research (e.g., understanding where the model comes from, how it is trained, and how it is used). This paper focuses on a novel problem within this field, namely Model Provenance (MP), which concerns the relationship between a target model and its pre-training model and aims to determine whether a source model serves as the provenance for a target model. This is an important problem that has significant implications for ensuring the security and intellectual property of machine learning models but has not received much attention in the literature. To fill in this gap, we introduce a novel concept of Model DNA which represents the unique characteristics of a machine learning model. We utilize a data-driven and model-driven representation learning method to encode the model's training data and input-output information as a compact and comprehensive representation (i.e., DNA) of the model. Using this model DNA, we develop an efficient framework for model provenance identification, which enables us to identify whether a source model is a pre-training model of a target model. We conduct evaluations on both computer vision and natural language processing tasks using various models, datasets, and scenarios to demonstrate the effectiveness of our approach in accurately identifying model provenance. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 摂動に基づく非摂動法
Perturbation-based Non-perturbative Method ( http://arxiv.org/abs/2308.10996v2 ) ライセンス: Link先を確認 | Chang Liu, Wen-Du Li, Wu-Sheng Dai, | (参考訳) 本稿では固有確率を解くための非摂動的手法を提案する。
この方法は、ほとんど全てのポテンシャルに適用され、あらゆるエネルギーレベルに対して非摂動近似を与える。
この方法は固有プロブレムを摂動問題に変換し、標準摂動理論を通じて摂動解を取得し、解析的に摂動解を非摂動解へと継続する。
具体的には、(1)正確に解ける補助電位を導入し、この補助系の摂動として解けるポテンシャルを扱います。
2)摂動理論を用いて固有プロブレムの近似多項式を得る。
(3) 有理近似を用いて、この近似多項式を非摂動領域へ解析的に拡張する。
This paper presents a nonperturbative method for solving eigenproblems. This method applies to almost all potentials and provides nonperturbative approximations for any energy level. The method converts an eigenproblem into a perturbation problem, obtains perturbation solutions through standard perturbation theory, and then analytically continues the perturbative solution into a nonperturbative solution. Concretely, we follow three main steps: (1) Introduce an auxiliary potential that can be solved exactly and treat the potential to be solved as a perturbation on this auxiliary system. (2) Use perturbation theory to obtain an approximate polynomial of the eigenproblem. (3) Use a rational approximation to analytically continue this approximate polynomial into the nonperturbative region. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 量子マジックによるゼロ温度および有限温度量子シミュレーション
Zero and Finite Temperature Quantum Simulations Powered by Quantum Magic ( http://arxiv.org/abs/2308.11616v2 ) ライセンス: Link先を確認 | Andi Gu, Hong-Ye Hu, Di Luo, Taylor L. Patti, Nicholas C. Rubin, Susanne F. Yelin, | (参考訳) 短期量子デバイス上での多体ハミルトニアンのキャラクタリゼーションを改善するために,量子情報理論に着想を得た手法を提案する。
我々は、前処理ステップとして適用された新しい類似性変換のクラスを設計し、量子ハードウェアのその後の解析のためにハミルトン変換を著しく単純化する。
設計により、これらの変換は純粋に古典的な資源を用いて同定し、効率的に適用することができる。
実際には、これらの変換により、不完全な短期ハードウェアによる制約を克服し、必要な物理回路深度を短縮することができる。
重要なことに、変換の質は調整可能であり、より古典的な計算を犠牲にして、より単純なハミルトニアンを生み出す変換の「ラダー」を定義する。
量子化学をベンチマーク・アプリケーションとして使用することにより,デジタル・アナログ両方の量子ハードウェア上でのゼロ・有限温度自由エネルギー計算の性能が大幅に向上することが実証された。
具体的には、我々のエネルギー推定は従来のハートリー・フォック解よりも優れているだけでなく、変換の質を調整しながら、この性能ギャップも一貫して拡大する。
簡単に言えば、我々の量子情報に基づくアプローチは、短期的ハードウェア上で有用で実現可能な量子化学アルゴリズムを実現するための、有望な新しい経路を開く。
We introduce a quantum information theory-inspired method to improve the characterization of many-body Hamiltonians on near-term quantum devices. We design a new class of similarity transformations that, when applied as a preprocessing step, can substantially simplify a Hamiltonian for subsequent analysis on quantum hardware. By design, these transformations can be identified and applied efficiently using purely classical resources. In practice, these transformations allow us to shorten requisite physical circuit-depths, overcoming constraints imposed by imperfect near-term hardware. Importantly, the quality of our transformations is tunable: we define a 'ladder' of transformations that yields increasingly simple Hamiltonians at the cost of more classical computation. Using quantum chemistry as a benchmark application, we demonstrate that our protocol leads to significant performance improvements for zero and finite temperature free energy calculations on both digital and analog quantum hardware. Specifically, our energy estimates not only outperform traditional Hartree-Fock solutions, but this performance gap also consistently widens as we tune up the quality of our transformations. In short, our quantum information-based approach opens promising new pathways to realizing useful and feasible quantum chemistry algorithms on near-term hardware. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# SkipcrossNets: 道路検出のための適応的スキップクロスフュージョン
SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection ( http://arxiv.org/abs/2308.12863v2 ) ライセンス: Link先を確認 | Yan Gong, Xinyu Zhang, Hao Liu, Xinmin Jiang, Zhiwei Li, Xin Gao, Lei Lin, Dafeng Jin, Jun Li, Huaping Liu, | (参考訳) 様々なモダリティが特徴抽出にユニークな情報を提供するため、自律運転タスクにはマルチモーダル融合がますます使われている。
しかし、既存の2ストリームネットワークは特定のネットワーク層でのみ融合しており、セットアップには多くの手動の試行が必要になる。
CNNが深まるにつれて、2つのモーダル機能はより高度で抽象的になり、融合は大きなギャップを持つ特徴レベルで発生し、パフォーマンスを損なう可能性がある。
点雲を2次元空間に投影する過程における高度・深度情報の損失を低減するために,キャリブレーションパラメータを用いて点雲をAltitude Difference Images (ADIs) に投影し,より異なる道路特性を示す。
本研究では,特定の融合エポックに縛られることなく,適応的なADIとカメラ画像を組み合わせる,Skip-cross Networks (SkipcrossNets) と呼ばれる新しい融合アーキテクチャを提案する。
具体的には、スキップクロス融合戦略は各層をフィードフォワード方式で各層に接続し、各層に対して、前層の特徴マップを入力として、それに続くすべての特徴マップを他のモダリティに対する入力として使用し、特徴伝播とマルチモーダル特徴融合を増強する。
この戦略は、2つのモードから最も類似した機能レイヤの選択を促進し、機能の再利用を強化し、スパースポイントクラウド機能に補完効果を提供する。
スキップクロス融合戦略の利点は、KITTIとA2D2データセットに適用することで、KITTIで96.85%のMaxFスコア、A2D2で84.84%のF1スコアを達成できる。
モデルパラメータは、68.24 FPSの速度で2.33MBのメモリしか必要とせず、モバイル端末や組み込みデバイスで実行可能である。
Multi-modal fusion is increasingly being used for autonomous driving tasks, as different modalities provide unique information for feature extraction. However, the existing two-stream networks are only fused at a specific network layer, which requires a lot of manual attempts to set up. As the CNN goes deeper, the two modal features become more and more advanced and abstract, and the fusion occurs at the feature level with a large gap, which can easily hurt the performance. To reduce the loss of height and depth information during the process of projecting point clouds into 2D space, we utilize calibration parameters to project the point cloud into Altitude Difference Images (ADIs), which exhibit more distinct road features. In this study, we propose a novel fusion architecture called Skip-cross Networks (SkipcrossNets), which combine adaptively ADIs and camera images without being bound to a certain fusion epoch. Specifically, skip-cross fusion strategy connects each layer to each layer in a feed-forward manner, and for each layer, the feature maps of all previous layers are used as input and its own feature maps are used as input to all subsequent layers for the other modality, enhancing feature propagation and multi-modal features fusion. This strategy facilitates selection of the most similar feature layers from two modalities, enhancing feature reuse and providing complementary effects for sparse point cloud features. The advantages of skip-cross fusion strategy is demonstrated through application to the KITTI and A2D2 datasets, achieving a MaxF score of 96.85% on KITTI and an F1 score of 84.84% on A2D2. The model parameters require only 2.33 MB of memory at a speed of 68.24 FPS, which can be viable for mobile terminals and embedded devices. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# ユニバーサルエントロピー最適化を用いた非教師なしCLIPファインタニング
Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization ( http://arxiv.org/abs/2308.12919v2 ) ライセンス: Link先を確認 | Jian Liang, Lijun Sheng, Zhengbo Wang, Ran He, Tieniu Tan, | (参考訳) CLIPのような視覚言語モデルの出現は、下流の教師あり学習タスクへの応用に向けた大きな研究を刺激している。
これまでのいくつかの研究では、CLIPの教師なし微調整を研究しているが、それらはしばしば、基底真理ラベルに関連付けられたクラス名という形で、事前の知識に依存している。
本稿では,未ラベルデータ中の未知のクラスからの配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて検討する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
この問題に対処するため,Universal Entropy Optimization (UEO) と呼ばれるシンプルで効率的かつ効果的な手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーをほぼ最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
テキストプロンプトの最適化とは別に、UEOはCLIPのビジュアルブランチにチャネルワイドアフィン変換の最適化を取り入れている。
15のドメインと4種類の事前知識にまたがる広範囲な実験は、ベースライン法と比較してUEOの有効性を検証した。
コードは \url{https://github.com/tim-learn/UEO} で公開されている。
The emergence of vision-language models, such as CLIP, has spurred a significant research effort towards their application for downstream supervised learning tasks. Although some previous studies have explored the unsupervised fine-tuning of CLIP, they often rely on prior knowledge in the form of class names associated with ground truth labels. This paper explores a realistic unsupervised fine-tuning scenario, considering the presence of out-of-distribution samples from unknown classes within the unlabeled data. In particular, we focus on simultaneously enhancing out-of-distribution detection and the recognition of instances associated with known classes. To tackle this problem, we present a simple, efficient, and effective approach called Universal Entropy Optimization (UEO). UEO leverages sample-level confidence to approximately minimize the conditional entropy of confident instances and maximize the marginal entropy of less confident instances. Apart from optimizing the textual prompt, UEO incorporates optimization of channel-wise affine transformations within the visual branch of CLIP. Extensive experiments across 15 domains and 4 different types of prior knowledge validate the effectiveness of UEO compared to baseline methods. The code is publicly available at \url{https://github.com/tim-learn/UEO}. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み
Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v5 ) ライセンス: Link先を確認 | Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra, | (参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを実現するための一般的なデノゲーションアルゴリズムを提案する。
このアルゴリズムにより、任意の量子系に存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。
本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。
ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。
一般の場合、このゲージ自由度は避けられないが、この縮退性は、状態やノイズ特性に関する事前の知識を用いて、一般に破壊されうるので、雑音強度に関する仮定なしに、いくつかの種類の状態-雑音の組み合わせに対してゲージを固定することができる。
このような組み合わせには、任意に相関したエラーを持つ純粋量子状態と、独立なエラーをブロックする任意の状態が含まれる。
このフレームワークは、設定に関する事前情報をさらに活用して、状態検出やノイズ検出に必要な観測と測定の数を体系的に削減することができる。
本手法は,問題に対する既存のアプローチを効果的に一般化し,非相関的あるいは可逆的なノイズ行列,あるいは特定のプローブ状態を必要とする文献で考慮される一般的な設定を含む。
We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# EthereumにおけるトランザクションベースのPonzi検出の精度向上
Improving the Accuracy of Transaction-Based Ponzi Detection on Ethereum ( http://arxiv.org/abs/2308.16391v2 ) ライセンス: Link先を確認 | Phuong Duy Huynh, Son Hoang Dau, Xiaodong Li, Phuc Luong, Emanuele Viterbo, | (参考訳) 昔ながらの詐欺であるPonziスキームがEthereumブロックチェーンで人気を博し、多くの暗号投資家にかなりの損失をもたらした。
文献ではいくつかのPonzi検出法が提案されており、そのほとんどはスマートコントラクトのソースコードに基づいてPonziスキームを検出するものである。
契約コードに基づくこのアプローチは、非常に高い精度を達成するが、Ponzi開発者は、検出できないオペコードや新しい利益分配ロジックを発明することで、検出モデルを騙すことができるため、堅牢ではない。
対照的に、トランザクションベースのアプローチは、スマートコントラクトとは異なり、トランザクションの操作が難しいため、検出の堅牢性を改善する可能性がある。
しかし、現在のトランザクションベースの検出モデルは、かなり精度が低い。
本稿では,Ponziアプリケーションにおけるライフタイム・ビヘイビアを捉える上で極めて重要であるが,過去の研究で完全に見落とされた時系列機能を用いて,トランザクションベースモデルの精度を向上させることを目的とする。
我々は、既製の機械学習アルゴリズムが既存の作業に比べて最大30%高いF1スコアを達成することができる85の新機能(22のアカウントベース、63の新しい時系列機能)を提案する。
The Ponzi scheme, an old-fashioned fraud, is now popular on the Ethereum blockchain, causing considerable financial losses to many crypto investors. A few Ponzi detection methods have been proposed in the literature, most of which detect a Ponzi scheme based on its smart contract source code. This contract-code-based approach, while achieving very high accuracy, is not robust because a Ponzi developer can fool a detection model by obfuscating the opcode or inventing a new profit distribution logic that cannot be detected. On the contrary, a transaction-based approach could improve the robustness of detection because transactions, unlike smart contracts, are harder to be manipulated. However, the current transaction-based detection models achieve fairly low accuracy. In this paper, we aim to improve the accuracy of the transaction-based models by employing time-series features, which turn out to be crucial in capturing the life-time behaviour a Ponzi application but were completely overlooked in previous works. We propose a new set of 85 features (22 known account-based and 63 new time-series features), which allows off-the-shelf machine learning algorithms to achieve up to 30% higher F1-scores compared to existing works. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# Tsirelsonの不等式:単一のフレームワークにおける不正性と量子性の検出
Tsirelson inequalities: Detecting cheating and quantumness in a single framework ( http://arxiv.org/abs/2309.00021v2 ) ライセンス: Link先を確認 | Martin Plávala, Teiko Heinosaari, Stefan Nimmrichter, Otfried Gühne, | (参考訳) 量子性 (quantumness) とは、量子系によって示される特異性と反直観的な特性のことである。
ティレルソンの不等式は、調和振動子の量子性や絡み合いを検出する量子理論において強力な道具として現れており、スピンは一様沈着、無調和系である。
本稿では,古典的なシェルゲームにおける不正検出と空間的に分離されたシステムにおける量子性の探索と調和振動子との2つの異なる問題に対処するために,Tsirelsonの不等式の有効性を利用する。
ブラックボックスアプローチと条件付き確率空間の幾何的特徴を用いることで、Tsirelsonの不等式が両方のシナリオで利用でき、量子シグネチャを発見でき、単一の統一フレームワークで不正を識別できることを示した。
この接続は、機械系の量子性について直感的に異なる視点を提供する。
Quantumness refers to the peculiar and counterintuitive characteristics exhibited by quantum systems. Tsirelson inequalities have emerged as a powerful tool in quantum theory to detect quantumness and entanglement of harmonic oscillators, spins undergoing uniform precession, and anharmonic systems. In this paper we harness the versatility of Tsirelson inequalities to address two distinct problems: detecting cheating in classic shell games and probing quantumness in spatially separated systems and harmonic oscillators. By adopting a black-box approach and a geometric characterization of the space of conditional probabilities, we demonstrate that Tsirelson inequalities can be used in both scenarios, enabling us to uncover quantum signatures and identify cheaters in a single unified framework. This connection provides an intuitive different perspective on quantumness of mechanical systems. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# オーバーパラメトリゼーションにおける2層ニューラルネットワークの大域的最小値の幾何と局所的回復
Geometry and Local Recovery of Global Minima of Two-layer Neural Networks at Overparameterization ( http://arxiv.org/abs/2309.00508v3 ) ライセンス: Link先を確認 | Leyang Zhang, Yaoyu Zhang, Tao Luo, | (参考訳) 軽微な仮定により,大域ミニマ付近の2層ニューラルネットワークにおける損失景観の幾何について検討する。
斬新な技法を駆使して、以下のことを実証する。
i) 一般化誤差ゼロの大域的ミニマが、サンプルサイズが大きくなるにつれて、他の大域的ミニマと幾何的に分離されるか。
(ii) 局所収束特性と勾配流の速度。
以上の結果から,2層ニューラルネットワークは過パラメータ化の過程において局所的に回復可能であることが示唆された。
Under mild assumptions, we investigate the geometry of the loss landscape for two-layer neural networks in the vicinity of global minima. Utilizing novel techniques, we demonstrate: (i) how global minima with zero generalization error become geometrically separated from other global minima as the sample size grows; and (ii) the local convergence properties and rate of gradient flow dynamics. Our results indicate that two-layer neural networks can be locally recovered in the regime of overparameterization. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 大規模暗号マルチグラフにおける効率的な不正アカウント検出
Effective Illicit Account Detection on Large Cryptocurrency MultiGraphs ( http://arxiv.org/abs/2309.02460v3 ) ライセンス: Link先を確認 | Zhihao Ding, Jieming Shi, Qing Li, Jiannong Cao, | (参考訳) 仮想通貨は急速に拡大し、デジタル金融市場において欠かせない存在になりつつある。
しかし、暗号通貨関連の不正行為の増加は、ユーザーにとって大きな損失をもたらしている。
これらのプラットフォームのセキュリティを保護するためには、不正なアカウントを効果的に識別することが重要である。
現在の検出方法は、主に機能工学に依存しているか、あるいは暗号トランザクションネットワーク内の複雑な情報を活用するのに不十分である。
本稿では,有意なエッジを持つ有向多重グラフによってモデル化された暗号取引ネットワークにおける不正なアカウントを検出する効果的な方法であるDIAMを提案する。
DIAMは、エッジ属性とその有向シーケンスを考慮して、並列エッジから固有のトランザクションパターンをキャプチャして、効率的なノード表現を生成するEdge2Seqモジュールを最初に備えている。
そこで,DIAMでは,マルチグラフトポロジ上での正常ノードと不正ノード間の不一致特徴をキャプチャし,アテンション機構によって支援するメッセージパッシング機構を備えた多重グラフ離散性(MGD)モジュールを設計する。
DIAMはこれらのテクニックをエンドツーエンドのトレーニングに統合し、不正なアカウントを正規のアカウントから検出する。
大規模な実験では、ビットコインとイーサリアムの4つの暗号通貨データセット上の15の既存ソリューションと比較して、DIAMが不正なアカウントを正確に識別する上で、他よりも一貫して優れていることを示した。
例えば、2000万のノードと203万のエッジを持つBitcoinデータセットでは、DIAMはF1スコアが96.55%に達し、ランナーのスコアが83.92%を超えている。
コードはhttps://github.com/TommyDzh/DIAMで公開されている。
Cryptocurrencies are rapidly expanding and becoming vital in digital financial markets. However, the rise in cryptocurrency-related illicit activities has led to significant losses for users. To protect the security of these platforms, it is critical to identify illicit accounts effectively. Current detection methods mainly depend on feature engineering or are inadequate to leverage the complex information within cryptocurrency transaction networks, resulting in suboptimal performance. In this paper, we present DIAM, an effective method for detecting illicit accounts in cryptocurrency transaction networks modeled by directed multi-graphs with attributed edges. DIAM first features an Edge2Seq module that captures intrinsic transaction patterns from parallel edges by considering edge attributes and their directed sequences, to generate effective node representations. Then in DIAM, we design a multigraph Discrepancy (MGD) module with a tailored message passing mechanism to capture the discrepant features between normal and illicit nodes over the multigraph topology, assisted by an attention mechanism. DIAM integrates these techniques for end-to-end training to detect illicit accounts from legitimate ones. Extensive experiments, comparing against 15 existing solutions on 4 large cryptocurrency datasets of Bitcoin and Ethereum, demonstrate that DIAM consistently outperforms others in accurately identifying illicit accounts. For example, on a Bitcoin dataset with 20 million nodes and 203 million edges, DIAM attains an F1 score of 96.55%, markedly surpassing the runner-up's score of 83.92%. The code is available at https://github.com/TommyDzh/DIAM. | 翻訳日:2024-07-20 00:12:03 公開日:2024-07-18 |
# 機械学習システムにおけるプライバシサイドチャネル
Privacy Side Channels in Machine Learning Systems ( http://arxiv.org/abs/2309.05610v2 ) ライセンス: Link先を確認 | Edoardo Debenedetti, Giorgio Severi, Nicholas Carlini, Christopher A. Choquette-Choo, Matthew Jagielski, Milad Nasr, Eric Wallace, Florian Tramèr, | (参考訳) 機械学習(ML)におけるプライバシ保護の現在のアプローチのほとんどは、モデルが真空状態にあることを前提としている。
しかし実際には、これらのモデルは、データフィルタリングや出力監視などのトレーニングのためのコンポーネントを含む、大規模なシステムの一部です。
本研究では,これらのシステムレベルのコンポーネントを利用して,スタンドアロンモデルよりもはるかに高いレートでプライベート情報を抽出する攻撃について述べる。
機械学習のライフサイクル全体(データフィルタリング、入力前処理、出力後処理、クエリフィルタリング)にまたがるサイドチャネルの4つのカテゴリを提案する。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに、学習データ再生から言語モデルをブロックするシステムは、トレーニングセットに含まれる秘密鍵を抽出するために利用することができる。
この結果から,機械学習システムの総合的エンドツーエンドのプライバシ分析の必要性が示された。
Most current approaches for protecting privacy in machine learning (ML) assume that models exist in a vacuum. Yet, in reality, these models are part of larger systems that include components for training data filtering, output monitoring, and more. In this work, we introduce privacy side channels: attacks that exploit these system-level components to extract private information at far higher rates than is otherwise possible for standalone models. We propose four categories of side channels that span the entire ML lifecycle (training data filtering, input preprocessing, output post-processing, and query filtering) and allow for enhanced membership inference, data extraction, and even novel threats such as extraction of users' test queries. For example, we show that deduplicating training data before applying differentially-private training creates a side-channel that completely invalidates any provable privacy guarantees. We further show that systems which block language models from regenerating training data can be exploited to exfiltrate private keys contained in the training set--even if the model did not memorize these keys. Taken together, our results demonstrate the need for a holistic, end-to-end privacy analysis of machine learning systems. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# ハイパースペクトル画像分類のためのアテンションゲート調整によるブリジングセンサギャップ
Bridging Sensor Gaps via Attention Gated Tuning for Hyperspectral Image Classification ( http://arxiv.org/abs/2309.12865v2 ) ライセンス: Link先を確認 | Xizhe Xue, Haokui Zhang, Rong Xiao, Ying Li, Zongwen Bai, Mike Zheng Shou, | (参考訳) データハングリーなHSI分類法は高品質なラベル付きHSIを必要とするが、しばしば入手するのにコストがかかる。
この特徴は、限られたアノテーション付きサンプルを扱う際に、データ駆動メソッドのパフォーマンス可能性を制限する。
異なるセンサーから取得したデータ間の領域ギャップを埋めることで、センサー間でのラベル付きデータの豊富な利用によって、このボトルネックを突破することができる。
本稿では,この問題を解決するために,新しいAttention-Gated Tuning(AGT)戦略と三重構造トランスモデルTri-Formerを提案する。
AGT戦略はブリッジとして機能し、既存のラベル付きHSIデータセット、さらにはRGBデータセットを利用して、限られたサンプルを持つ新しいHSIデータセットのパフォーマンスを向上させることができます。
基本モデルに追加パラメータを追加する代わりに、中間機能を基本モデルからの入力として取り出し、予測を行う軽量補助ブランチを訓練する。
提案したAGTは、乱れ情報を抑制し、ソフトゲートを介して有用な情報を強化することにより、異種データとクロスモーダルデータの衝突を解消する。
さらに、パラメータ利用率と計算効率を向上させるスペクトル空間分離設計のトリプルト構造変換器であるTri-Formerを導入し、より簡単かつ柔軟な微調整を可能にした。
異なるセンサによってキャプチャされた3つの代表的HSIデータセットの比較実験により、提案したTri-Formerは、いくつかの最先端手法よりも優れた性能を示す。
ホモロジー,異種およびクロスモーダルなチューニング実験により提案したAGTの有効性が検証された。
コードは以下の通りである。 \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}。
Data-hungry HSI classification methods require high-quality labeled HSIs, which are often costly to obtain. This characteristic limits the performance potential of data-driven methods when dealing with limited annotated samples. Bridging the domain gap between data acquired from different sensors allows us to utilize abundant labeled data across sensors to break this bottleneck. In this paper, we propose a novel Attention-Gated Tuning (AGT) strategy and a triplet-structured transformer model, Tri-Former, to address this issue. The AGT strategy serves as a bridge, allowing us to leverage existing labeled HSI datasets, even RGB datasets to enhance the performance on new HSI datasets with limited samples. Instead of inserting additional parameters inside the basic model, we train a lightweight auxiliary branch that takes intermediate features as input from the basic model and makes predictions. The proposed AGT resolves conflicts between heterogeneous and even cross-modal data by suppressing the disturbing information and enhances the useful information through a soft gate. Additionally, we introduce Tri-Former, a triplet-structured transformer with a spectral-spatial separation design that enhances parameter utilization and computational efficiency, enabling easier and flexible fine-tuning. Comparison experiments conducted on three representative HSI datasets captured by different sensors demonstrate the proposed Tri-Former achieves better performance compared to several state-of-the-art methods. Homologous, heterologous and cross-modal tuning experiments verified the effectiveness of the proposed AGT. Code has been released at: \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# MCU-Wideタイミング側チャネルとその検出
MCU-Wide Timing Side Channels and Their Detection ( http://arxiv.org/abs/2309.12925v2 ) ライセンス: Link先を確認 | Johannes Müller, Anna Lena Duque Antón, Lucas Deutschmann, Dino Mehmedagić, Cristiano Rodrigues, Daniel Oliveira, Keerthikumara Devarajegowda, Mohammad Rahmani Fadiheh, Sandro Pinto, Dominik Stoffel, Wolfgang Kunz, | (参考訳) マイクロアーキテクチャのタイミング側チャネルは、共有バッファ(例えばキャッシュ)を特徴とするハードウェア設計におけるセキュリティ上の脅威として、攻撃者と被害者のタスク実行間の並列性として、徹底的に調査されている。
しかし、一般的な直観とは対照的に、最近の活動は、このような特徴を持たないマイクロコントローラSoCでも、この脅威は本物であることを示している。
本稿では,セキュリティ解析によってこれまで無視されていたSoC全体のタイミング側チャネルについて述べるとともに,このギャップを埋めるための新しい形式的手法を提案する。
RISC-V Pulpissimo SoCのケーススタディにおいて,攻撃者が被害者のメモリアクセス行動に関する情報を入手できるように,従来知らなかった攻撃の脆弱性を検出した。
保守的な修正を行った後、我々はSoCが現在検討されたタイミング側チャネルのクラスに対して安全であることを確認した。
Microarchitectural timing side channels have been thoroughly investigated as a security threat in hardware designs featuring shared buffers (e.g., caches) or parallelism between attacker and victim task execution. However, contradicting common intuitions, recent activities demonstrate that this threat is real even in microcontroller SoCs without such features. In this paper, we describe SoC-wide timing side channels previously neglected by security analysis and present a new formal method to close this gap. In a case study on the RISC-V Pulpissimo SoC, our method detected a vulnerability to a previously unknown attack variant that allows an attacker to obtain information about a victim's memory access behavior. After implementing a conservative fix, we were able to verify that the SoC is now secure w.r.t. the considered class of timing side channels. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# TP2O: バランススワップサンプリングを用いたテキストペアツーオブジェクト生成
TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling ( http://arxiv.org/abs/2310.01819v4 ) ライセンス: Link先を確認 | Jun Li, Zedong Zhang, Jian Yang, | (参考訳) 2つの一見無関係なオブジェクトテキストから創造的な組合せオブジェクトを生成することは、テキストと画像の合成において難しい課題であり、しばしば既存のデータ分散をエミュレートすることに集中することを妨げる。
本稿では, 単純かつ高効率な方法であるtextbf{ Balance swap-sampling} を提案する。
まず,最先端拡散モデルを用いて2つのテキスト埋め込みの固有要素をランダムに交換することにより,新しい合成対象画像を生成するスワッピング機構を提案する。
第2に、新しい画像と元の世代間のCLIP距離のバランスをとることによって、新たに生成した画像から小さなサブセットを効率的にサンプリングするバランススワップ領域を導入し、高品質な組み合わせを受け入れる可能性を高めた。
最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクトを選択する。
本手法は最近のSOTA T2I法より優れていることを示す。
驚くべきことに、私たちの結果はカエルブロッコリーのような人間のアーティストとさえ競合しています。
Generating creative combinatorial objects from two seemingly unrelated object texts is a challenging task in text-to-image synthesis, often hindered by a focus on emulating existing data distributions. In this paper, we develop a straightforward yet highly effective method, called \textbf{balance swap-sampling}. First, we propose a swapping mechanism that generates a novel combinatorial object image set by randomly exchanging intrinsic elements of two text embeddings through a cutting-edge diffusion model. Second, we introduce a balance swapping region to efficiently sample a small subset from the newly generated image set by balancing CLIP distances between the new images and their original generations, increasing the likelihood of accepting the high-quality combinations. Last, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object from the sampled subset. Extensive experiments demonstrate that our approach outperforms recent SOTA T2I methods. Surprisingly, our results even rival those of human artists, such as frog-broccoli. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# 測定誘起量子力学の非選択学習
Postselection-free learning of measurement-induced quantum dynamics ( http://arxiv.org/abs/2310.04156v2 ) ライセンス: Link先を確認 | Max McGinley, | (参考訳) 我々は、測定を含む力学によって生成される量子状態の性質を経験的に推測する方法に対処する。
我々の焦点は、測定回数が広い多体設定であり、指数的なサンプルの複雑さのため、ポストセレクションに基づくブルートフォースアプローチが難解である。
実験的な繰り返しのスケーラブルな回数を用いて、状態の計測後のアンサンブル(例えば、平均エンタングルエントロピーやフレームポテンシャル)の任意の特性を推測するために、汎用的なスキームを導入する。
まず実験データから直接抽出できる推定可能特性の一般クラスを同定する。
そして、そのような量の経験的観測に基づいて、古典的なポストプロセッシングによって、与えられた特定の推定不可能な量の情報を間接的に推測する方法を示す。
私たちのアプローチは最適化タスクに基づいており、望ましい量の最小値と最大値とを問うと同時に、観測との整合性を確保する。
この量の真の値は、これらの極限の間の可能な範囲内にある必要があり、結果として両側の境界となる。
デバイスを古典的にシミュレーションして、どの推定可能な特性を計測するかを決定することで、狭い実現可能な範囲を得ることができる。
このシミュレーションが不正確である場合でも、量子デバイス上で実現された所定の量の真価に関する曖昧な情報を学ぶことができる。
即時的な応用として,実験における量子状態設計の出現を検証するために本手法が有用であることを示す。
我々は、与えられた量の鋭い知識が推測されるのを防ぎ、古典的なシミュレーションが計算的に要求されすぎる場合に何が学べるかを議論する、いくつかの基本的な障害を特定する。
We address how one can empirically infer properties of quantum states generated by dynamics involving measurements. Our focus is on many-body settings where the number of measurements is extensive, making brute-force approaches based on postselection intractable due to their exponential sample complexity. We introduce a general-purpose scheme that can be used to infer any property of the post-measurement ensemble of states (e.g. the average entanglement entropy, or frame potential) using a scalable number of experimental repetitions. We first identify a general class of estimable properties that can be directly extracted from experimental data. Then, based on empirical observations of such quantities, we show how one can indirectly infer information about any particular given non-estimable quantity of interest through classical post-processing. Our approach is based on an optimization task, where one asks what are the minimum and maximum values that the desired quantity could possibly take, while ensuring consistency with observations. The true value of this quantity must then lie within a feasible range between these extrema, resulting in two-sided bounds. Narrow feasible ranges can be obtained by using a classical simulation of the device to determine which estimable properties one should measure. Even in cases where this simulation is inaccurate, unambiguous information about the true value of a given quantity realised on the quantum device can be learned. As an immediate application, we show that our method can be used to verify the emergence of quantum state designs in experiments. We identify some fundamental obstructions that in some cases prevent sharp knowledge of a given quantity from being inferred, and discuss what can be learned in cases where classical simulation is too computationally demanding to be feasible. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# 量子多体系の基底状態特性の証明
Certifying ground-state properties of quantum many-body systems ( http://arxiv.org/abs/2310.05844v5 ) ライセンス: Link先を確認 | Jie Wang, Jacopo Surace, Irénée Frérot, Benoît Legat, Marc-Olivier Renou, Victor Magron, Antonio Acín, | (参考訳) 量子物理学におけるユビキタス問題は、多体系の基底状態の性質を理解することである。
システムサイズを増大させると、正確な対角化がすぐに不可能になるという事実と相まって、変分アプローチは通常、スケーラブルな代替手段として使用される:エネルギーはすべての可能な状態のサブセットで最小化され、その後、異なる物理量が解状態上で計算される。
顕著な成功にもかかわらず、厳密に言えば、変分法が提供するものは全て基底状態エネルギーの上限である。
一方、半有限計画法に基づく基底状態問題の緩和は相補的なアプローチであり、基底状態エネルギーの低い境界を与える。
しかし、現在の実装では、変分法も緩和法もエネルギー以外の基底状態にある他の可観測物に証明可能な束縛を与えない。
本研究では, 任意の順序の相関関数, 構造因子, 順序パラメータなど, 基底状態における観測可能な任意の値の証明可能な境界を導出するために, 2種類の手法の組み合わせが利用できることを示す。
このアプローチのパワーを1次元と2次元のスピン・ワン・ハーフ・ハイゼンベルク模型のパラダイム的な例で説明する。
提案手法のスケーラビリティを向上させるため, 従来よりもはるかに高精度に数百個の粒子の粒度に到達するため, 検討されたシステムの対称性と疎性を利用する。
そこで本研究では,多体基底状態特性の証明可能なバウンダリを,スケーラブルな方法で得られることを示す。
A ubiquitous problem in quantum physics is to understand the ground-state properties of many-body systems. Confronted with the fact that exact diagonalisation quickly becomes impossible when increasing the system size, variational approaches are typically employed as a scalable alternative: energy is minimised over a subset of all possible states and then different physical quantities are computed over the solution state. Despite remarkable success, rigorously speaking, all what variational methods offer are upper bounds on the ground-state energy. On the other hand, so-called relaxations of the ground-state problem based on semidefinite programming represent a complementary approach, providing lower bounds to the ground-state energy. However, in their current implementation, neither variational nor relaxation methods offer provable bound on other observables in the ground state beyond the energy. In this work, we show that the combination of the two classes of approaches can be used to derive certifiable bounds on the value of any observable in the ground state, such as correlation functions of arbitrary order, structure factors, or order parameters. We illustrate the power of this approach in paradigmatic examples of 1D and 2D spin-one-half Heisenberg models. To improve the scalability of the method, we exploit the symmetries and sparsity of the considered systems to reach sizes of hundreds of particles at much higher precision than previous works. Our analysis therefore shows how to obtain certifiable bounds on many-body ground-state properties beyond energy in a scalable way. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# 言語分類モデルに対するメンバーシップ推論攻撃の改善
Improved Membership Inference Attacks Against Language Classification Models ( http://arxiv.org/abs/2310.07219v2 ) ライセンス: Link先を確認 | Shlomit Shachor, Natalia Razinkov, Abigail Goldsteen, | (参考訳) 人工知能システムは、小売、製造、健康、その他多くの分野のユースケースで日常的に普及している。
AIの採用の増加に伴い、モデルのトレーニングにデータが使用された人々に対するプライバシー上のリスクを含む、関連するリスクが特定されている。
マシンラーニングモデルのプライバシリスクを評価することは、モデルの使用、デプロイ、あるいは共有に関する知識のある決定を可能にする上で、極めて重要です。
プライバシーリスク評価の一般的なアプローチは、モデルに対する1つ以上の既知の攻撃を実行し、その成功率を測定することである。
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
我々のフレームワークは、アンサンブル法を利用して、データの異なるサブセットに対して多くの特殊なアタックモデルを生成する。
本手法は,古典的・言語的分類タスクにおいて,単一攻撃モデルやクラスラベルごとの攻撃モデルよりも高い精度が得られることを示す。
Artificial intelligence systems are prevalent in everyday life, with use cases in retail, manufacturing, health, and many other fields. With the rise in AI adoption, associated risks have been identified, including privacy risks to the people whose data was used to train models. Assessing the privacy risks of machine learning models is crucial to enabling knowledgeable decisions on whether to use, deploy, or share a model. A common approach to privacy risk assessment is to run one or more known attacks against the model and measure their success rate. We present a novel framework for running membership inference attacks against classification models. Our framework takes advantage of the ensemble method, generating many specialized attack models for different subsets of the data. We show that this approach achieves higher accuracy than either a single attack model or an attack model per class label, both on classical and language classification tasks. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# スピンチェーンワーク抽出のための変分量子固有解法による最適化
Variational-quantum-eigensolver-inspired optimization for spin-chain work extraction ( http://arxiv.org/abs/2310.07617v2 ) ライセンス: Link先を確認 | Ivan Medina, Alexandre Drinko, Guilherme I. Correr, Pedro C. Azado, Diogo O. Soares-Pinto, | (参考訳) 量子源からのエネルギー抽出は、量子電池(QB)のような新しい量子デバイスを開発するための重要なタスクである。
エルゴトロピー(エルゴトロピー、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy、英: ergotropy)は、量子源から抽出できる最大エネルギー量(仕事として)を単位演算によって測定する現象である。
量子源からエネルギーを完全に抽出する主な問題は、任意のユニタリ演算をシステム上で行うことができるという仮定である。
この仮定は一般に、実行可能な操作が制限され、利用可能な量子ハードウェア(実験プラットフォーム)に依存するため、実際には失敗する。
本研究では,変分量子固有解法(VQE)アルゴリズムに着想を得た抽出可能エネルギーの最適化手法を提案する。
提案手法では,パラメータ化量子回路のハードウェア効率的なアサッツ(HEA)クラスを用いて,限られたユニタリの集合を明示的に考慮する。
QB では、$XXX$,$XXZ$, $XYZ$, $XX$, $XY$, and transverse Ising model のようなパラダイム的ファースト・ハミルトンの族によって記述される一次元スピンチェインを用いる。
量子ハードウェアによって異なる種類の接続が可能であることを前提として、パラメータ化量子回路を構築することにより、各モデルに対する作業抽出の効率を数値的に比較する。
以上の結果から, 隣接スピン間の接続性を有する量子回路では, 最も効率のよい回路が得られることが示唆された。
The energy extraction from quantum sources is a key task to develop new quantum devices such as quantum batteries (QB). In this context, one of the main figures of merit is the ergotropy, which measures the maximal amount of energy (as work) that can be extracted from the quantum source by means of unitary operations. One of the main issues to fully extract energy from the quantum source is the assumption that any unitary operation can be done on the system. This assumption, in general, fails in practice since the operations that can be done are limited and depend on the quantum hardware (experimental platform) one has available. In this work, we propose an approach to optimize the extractable energy inspired by the variational quantum eigensolver (VQE) algorithm. In this approach, we explicitly take into account a limited set of unitaries by using the hardware efficient asatz (HEA) class of parameterized quantum circuits. As a QB we use an one-dimensional spin chain described by a family of paradigmatic first neighbor Hamiltonians such as the $XXX$,$XXZ$, $XYZ$, $XX$, $XY$ and transverse Ising models. By building our parameterized quantum circuits assuming that different types of connectivity may be available depending on the quantum hardware, we numerically compare the efficiency of work extraction for each model. Our results show that the best efficiency is generally obtained with quantum circuits that have connectivity between first neighbor spins. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# SGOOD: サブストラクチャ強化グラフレベルアウトオブディストリビューション検出
SGOOD: Substructure-enhanced Graph-Level Out-of-Distribution Detection ( http://arxiv.org/abs/2310.10237v2 ) ライセンス: Link先を確認 | Zhihao Ding, Jieming Shi, Shiqi Shen, Xuequn Shang, Jiannong Cao, Zhipeng Wang, Zhi Gong, | (参考訳) グラフレベルの表現学習は幅広いアプリケーションにおいて重要である。
既存のグラフレベルのモデルは通常、トレーニングとテストの両方のグラフの仮定に基づいて構築される。
しかし、オープンな世界では、モデルはトレーニング中に未知の異なる分布から得られる、アウト・オブ・ディストリビューション(OOD)テストグラフに遭遇する可能性がある。
信頼できるモデルでは、信頼できない予測を避けるためにOODグラフを検出できると同時に、正確なID(In-distriion)予測を生成する必要がある。
そこで我々は,新しいグラフレベルのOOD検出フレームワークであるSGOODを提案する。
我々は,IDグラフとOODグラフのサブ構造差が一般的であること,および,OOD検出に有効なタスク非依存のサブ構造を符号化する一連の手法を用いてSGOODを設計することを発見した。
具体的には、各グラフのサブストラクチャのスーパーグラフを構築し、元のグラフとスーパーグラフの両方で動作する2レベルグラフ符号化パイプラインを開発し、サブストラクチャ強化グラフ表現を得る。
そこで我々は,IDグラフのサブ構造セマンティクスをさらに捉えるために,サブ構造保存グラフ拡張手法を考案した。
多数のグラフデータセット上の11の競合相手に対する大規模な実験は、SGOODの優位性を実証している。
コードはhttps://github.com/TommyDzh/SGOODで公開されている。
Graph-level representation learning is important in a wide range of applications. Existing graph-level models are generally built on i.i.d. assumption for both training and testing graphs. However, in an open world, models can encounter out-of-distribution (OOD) testing graphs that are from different distributions unknown during training. A trustworthy model should be able to detect OOD graphs to avoid unreliable predictions, while producing accurate in-distribution (ID) predictions. To achieve this, we present SGOOD, a novel graph-level OOD detection framework. We find that substructure differences commonly exist between ID and OOD graphs, and design SGOOD with a series of techniques to encode task-agnostic substructures for effective OOD detection. Specifically, we build a super graph of substructures for every graph, and develop a two-level graph encoding pipeline that works on both original graphs and super graphs to obtain substructure-enhanced graph representations. We then devise substructure-preserving graph augmentation techniques to further capture more substructure semantics of ID graphs. Extensive experiments against 11 competitors on numerous graph datasets demonstrate the superiority of SGOOD, often surpassing existing methods by a significant margin. The code is available at https://github.com/TommyDzh/SGOOD. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# スパイキングモードに基づくニューラルネットワーク
Spiking mode-based neural networks ( http://arxiv.org/abs/2310.14621v3 ) ライセンス: Link先を確認 | Zhanghan Lin, Haiping Huang, | (参考訳) スパイキングニューラルネットワークは、脳のようなニューロモルフィック計算や神経回路の動作機構の研究において重要な役割を果たす。
大規模なスパイクニューラルネットワークのトレーニングの欠点のひとつは、すべての重みを更新することは非常に高価であることだ。
さらに、トレーニング後、計算タスクに関連するすべての情報が重み行列に隠され、回路機構の透明な理解が禁止される。
そこで本研究では, 繰り返し重み行列を, 入力, 出力モード, スコア行列という3つの行列のホップフィールド的乗法として説明する, スパイキングモードに基づくトレーニングプロトコルを提案する。
第一の利点は、重みが入力モードと出力モードと関連するスコアによって解釈され、各分解項の重要性が特徴づけられることである。
したがって、モードの数は調整可能であり、実験データのモデリングにより多くの自由度を与えることができる。
これにより、学習のスペースの複雑さが大幅に削減されるため、トレーニングコストが大幅に削減される。
これにより、モードスコア空間でスパイクネットワークを訓練する。
第二の利点は、状態空間内の高次元の神経活動(フィルタースパイクトレイン)を、通常低次元のモード空間に投影できることである。
我々は,2つの計算タスク – 桁分類と選択的感覚統合タスク – に,我々のフレームワークをうまく適用した。
本手法は,ホップフィールド型分解によるスパイクニューラルネットワークのトレーニングを加速させるとともに,このトレーニングにより高次元神経力学の低次元アトラクタ構造がもたらされる。
Spiking neural networks play an important role in brain-like neuromorphic computations and in studying working mechanisms of neural circuits. One drawback of training a large scale spiking neural network is that updating all weights is quite expensive. Furthermore, after training, all information related to the computational task is hidden into the weight matrix, prohibiting us from a transparent understanding of circuit mechanisms. Therefore, in this work, we address these challenges by proposing a spiking mode-based training protocol, where the recurrent weight matrix is explained as a Hopfield-like multiplication of three matrices: input, output modes and a score matrix. The first advantage is that the weight is interpreted by input and output modes and their associated scores characterizing the importance of each decomposition term. The number of modes is thus adjustable, allowing more degrees of freedom for modeling the experimental data. This significantly reduces the training cost because of significantly reduced space complexity for learning. Training spiking networks is thus carried out in the mode-score space. The second advantage is that one can project the high dimensional neural activity (filtered spike train) in the state space onto the mode space which is typically of a low dimension, e.g., a few modes are sufficient to capture the shape of the underlying neural manifolds. We successfully apply our framework in two computational tasks -- digit classification and selective sensory integration tasks. Our method accelerate the training of spiking neural networks by a Hopfield-like decomposition, and moreover this training leads to low-dimensional attractor structures of high-dimensional neural dynamics. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# オンラインテストタイム適応の損失の検索:サーベイ
In Search of Lost Online Test-time Adaptation: A Survey ( http://arxiv.org/abs/2310.20199v3 ) ライセンス: Link先を確認 | Zixin Wang, Yadan Luo, Liang Zheng, Zhuoxiao Chen, Sen Wang, Zi Huang, | (参考訳) 本稿では,オンラインテスト時間適応(OTTA)に関する総合的な調査を行い,バッチ到着時のターゲットデータに機械学習モデルを効果的に適応させることに着目した。
近年のOTTA法の普及にもかかわらず、従来の研究の結論は曖昧な設定、時代遅れのバックボーン、および不整合性ハイパーパラメータチューニングにより矛盾しており、これは未解決のコア課題と再現性を妨げている。
明瞭度を高め、厳密な比較を可能にするため、OTTA手法を3つの主要なカテゴリに分類し、モダンなバックボーンであるビジョントランスフォーマー(ViT)を用いてベンチマークする。
CIFAR-10.1、OfficeHome、CIFAR-10-Warehouseで表される実世界のシフトだけでなく、CIFAR-10/100-CやImageNet-Cといった従来の崩壊データセットについてもベンチマークを行った。
CIFAR-10-Warehouseデータセットには、異なる検索エンジンと拡散モデルによって生成された合成データから様々なバリエーションが含まれている。
オンラインシナリオの効率性を評価するために,GFLOP,壁時計時間,GPUメモリ使用量などの新たな評価指標を導入し,適応精度と計算オーバーヘッドのトレードオフを明確化する。
その結果,(1) 変圧器は多様な領域シフトに対するレジリエンスを高めること,(2) 多くのOTTA法の有効性は大きなバッチサイズに依存していること,(3) 適応時,特にバッチサイズが1。
これらの知見に基づき,今後の研究に向けての有望な方向性を強調した。
ベンチマークツールキットとソースコードはhttps://github.com/Jo-wang/OTTA_ViT_survey.comで公開されています。
This article presents a comprehensive survey of online test-time adaptation (OTTA), focusing on effectively adapting machine learning models to distributionally different target data upon batch arrival. Despite the recent proliferation of OTTA methods, conclusions from previous studies are inconsistent due to ambiguous settings, outdated backbones, and inconsistent hyperparameter tuning, which obscure core challenges and hinder reproducibility. To enhance clarity and enable rigorous comparison, we classify OTTA techniques into three primary categories and benchmark them using a modern backbone, the Vision Transformer (ViT). Our benchmarks cover conventional corrupted datasets such as CIFAR-10/100-C and ImageNet-C, as well as real-world shifts represented by CIFAR-10.1, OfficeHome, and CIFAR-10-Warehouse. The CIFAR-10-Warehouse dataset includes a variety of variations from different search engines and synthesized data generated through diffusion models. To measure efficiency in online scenarios, we introduce novel evaluation metrics, including GFLOPs, wall clock time, and GPU memory usage, providing a clearer picture of the trade-offs between adaptation accuracy and computational overhead. Our findings diverge from existing literature, revealing that (1) transformers demonstrate heightened resilience to diverse domain shifts, (2) the efficacy of many OTTA methods relies on large batch sizes, and (3) stability in optimization and resistance to perturbations are crucial during adaptation, particularly when the batch size is 1. Based on these insights, we highlight promising directions for future research. Our benchmarking toolkit and source code are available at https://github.com/Jo-wang/OTTA_ViT_survey. | 翻訳日:2024-07-20 00:02:04 公開日:2024-07-18 |
# 試験時間自由ランチを用いたエネルギーキャリブレーション型VAE
Energy-Calibrated VAE with Test Time Free Lunch ( http://arxiv.org/abs/2311.04071v5 ) ライセンス: Link先を確認 | Yihong Luo, Siya Qiu, Xingjian Tao, Yujun Cai, Jing Tang, | (参考訳) 本稿では,Energy-Calibrated VAE(EC-VAE)と呼ばれる可変オートエンコーダ(VAE)の強化に,条件付きエネルギーベースモデル(EBM)を利用する新しい生成モデルを提案する。
特に、VAEは、生成方向に生成されたサンプルの調整されたトレーニングが欠如しているため、ぼやけたサンプルに悩まされることが多い。
一方、ESMは高品質なサンプルを生成することができるが、高価なマルコフ・チェイン・モンテカルロ(MCMC)サンプリングが必要である。
これらの課題に対処するために,テスト時の生成に必要とせず,トレーニング中のVAE生成方向を調整するための条件付きEMMを導入する。
特に,入力データと校正標本の両方を適応重量でトレーニングし,MCMCサンプリングを回避しながら有効性を高める。
さらに、EC-VAEのキャリブレーションの考え方を変分学習や正規化フローに拡張し、ニューラルトランスポートとレンジヌル理論によるゼロショット画像復元のさらなる応用にEC-VAEを適用した。
提案手法を画像生成とゼロショット画像復元を含む2つのアプリケーションを用いて評価し, 実験結果から, 単段階の非逆生成よりも競合性能が高いことを示す。
私たちのコードはhttps://github.com/DJ-LYH/EC-VAE.comで公開されています。
In this paper, we propose a novel generative model that utilizes a conditional Energy-Based Model (EBM) for enhancing Variational Autoencoder (VAE), termed Energy-Calibrated VAE (EC-VAE). Specifically, VAEs often suffer from blurry generated samples due to the lack of a tailored training on the samples generated in the generative direction. On the other hand, EBMs can generate high-quality samples but require expensive Markov Chain Monte Carlo (MCMC) sampling. To address these issues, we introduce a conditional EBM for calibrating the generative direction of VAE during training, without requiring it for the generation at test time. In particular, we train EC-VAE upon both the input data and the calibrated samples with adaptive weight to enhance efficacy while avoiding MCMC sampling at test time. Furthermore, we extend the calibration idea of EC-VAE to variational learning and normalizing flows, and apply EC-VAE to an additional application of zero-shot image restoration via neural transport prior and range-null theory. We evaluate the proposed method with two applications, including image generation and zero-shot image restoration, and the experimental results show that our method achieves competitive performance over single-step non-adversarial generation. Our code is available at https://github.com/DJ-LYH/EC-VAE. | 翻訳日:2024-07-19 22:00:55 公開日:2024-07-18 |
# 重みと活性化量子化による大規模言語モデルの計算効率向上
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization ( http://arxiv.org/abs/2311.05161v2 ) ライセンス: Link先を確認 | Janghwan Lee, Minsoo Kim, Seungcheol Baek, Seok Joong Hwang, Wonyong Sung, Jungwook Choi, | (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに熟練しているが、その展開は広いパラメータサイズと計算要求によって制限されることが多い。
本稿では, LLMにおける後学習量子化(PTQ), 特に4ビット重みと8ビットアクティベーション(W4A8)量子化に着目し, 計算効率の向上を図る。
本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)という2つの革新的な手法を提案する。
さらに、整数と非正規表現を組み合わせたハイブリッドデータ形式であるdINTを導入し、小値がゼロになるW4A8量子化のアンダーフロー問題に対処する。
OPT や LLaMA など LLM の厳密な評価を通じて,本手法はタスクの精度を大幅に向上させ,完全精度モデルに匹敵するレベルまで向上させることを示した。
さらに、dINTと互換性のある算術単位を開発することにより、我々の手法が8ビット整数MACユニットと比較して2$\times$ハードウェア効率の改善をもたらすことを確認する。
Large Language Models (LLMs) are proficient in natural language processing tasks, but their deployment is often restricted by extensive parameter sizes and computational demands. This paper focuses on post-training quantization (PTQ) in LLMs, specifically 4-bit weight and 8-bit activation (W4A8) quantization, to enhance computational efficiency -- a topic less explored compared to weight-only quantization. We present two innovative techniques: activation-quantization-aware scaling (AQAS) and sequence-length-aware calibration (SLAC) to enhance PTQ by considering the combined effects on weights and activations and aligning calibration sequence lengths to target tasks. Moreover, we introduce dINT, a hybrid data format combining integer and denormal representations, to address the underflow issue in W4A8 quantization, where small values are rounded to zero. Through rigorous evaluations of LLMs, including OPT and LLaMA, we demonstrate that our techniques significantly boost task accuracies to levels comparable with full-precision models. By developing arithmetic units compatible with dINT, we further confirm that our methods yield a 2$\times$ hardware efficiency improvement compared to 8-bit integer MAC unit. | 翻訳日:2024-07-19 22:00:55 公開日:2024-07-18 |
# 微粒な3次元シーン生成のためのピラミッド拡散
Pyramid Diffusion for Fine 3D Large Scene Generation ( http://arxiv.org/abs/2311.12085v2 ) ライセンス: Link先を確認 | Yuheng Liu, Xinke Li, Xueting Li, Lu Qi, Chongshou Li, Ming-Hsuan Yang, | (参考訳) 拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
しかし、大規模な3Dシーンの合成への応用はめったに研究されていない。
これは主に、3Dシーンデータ、特に屋外シーンの複雑さと大まかなサイズ、および包括的な実世界のデータセットの可用性の制限によって、安定したシーン拡散モデルのトレーニングが困難になるためである。
本研究では,粗大なパラダイムを用いて大規模3次元シーンを効果的に生成する方法を検討する。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
PDD実験の結果,無条件および条件条件の両方で3Dシーンの生成に成功した。
1つのデータセットでトレーニングされたPDDモデルは、別のデータセットで簡単に微調整できる。
コードはhttps://github.com/yuhengliu02/pyramid-discrete-diffusionで入手できる。
Diffusion models have shown remarkable results in generating 2D images and small-scale 3D objects. However, their application to the synthesis of large-scale 3D scenes has been rarely explored. This is mainly due to the inherent complexity and bulky size of 3D scenery data, particularly outdoor scenes, and the limited availability of comprehensive real-world datasets, which makes training a stable scene diffusion model challenging. In this work, we explore how to effectively generate large-scale 3D scenes using the coarse-to-fine paradigm. We introduce a framework, the Pyramid Discrete Diffusion model (PDD), which employs scale-varied diffusion models to progressively generate high-quality outdoor scenes. Experimental results of PDD demonstrate our successful exploration in generating 3D scenes both unconditionally and conditionally. We further showcase the data compatibility of the PDD model, due to its multi-scale architecture: a PDD model trained on one dataset can be easily fine-tuned with another dataset. Code is available at https://github.com/yuhengliu02/pyramid-discrete-diffusion. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# 変圧器に基づく言語モデルのトポロジ的特徴を用いたアウト・オブ・ディストリビューションテキストの検出
Detecting out-of-distribution text using topological features of transformer-based language models ( http://arxiv.org/abs/2311.13102v2 ) ライセンス: Link先を確認 | Andres Pollano, Anupam Chaudhuri, Anj Simmons, | (参考訳) 予測不可能な振る舞いを引き起こす可能性のあるアウト・オブ・ディストリビューション(OOD)入力に対してテキストデータを操作する機械学習システムを保護するため,トランスフォーマーベース言語モデルからの自己注意マップのトポロジ的特徴を用いて,入力テキストが配布外であることを検出した。
自己アテンションはトランスフォーマーベースの言語モデルの中核を形成し、文脈に基づく単語にベクトルを動的に割り当てるので、理論上、我々の方法論はマルチヘッド自己アテンションを持つトランスフォーマーベースの言語モデルに適用できる。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
To safeguard machine learning systems that operate on textual data against out-of-distribution (OOD) inputs that could cause unpredictable behaviour, we explore the use of topological features of self-attention maps from transformer-based language models to detect when input text is out of distribution. Self-attention forms the core of transformer-based language models, dynamically assigning vectors to words based on context, thus in theory our methodology is applicable to any transformer-based language model with multihead self-attention. We evaluate our approach on BERT and compare it to a traditional OOD approach using CLS embeddings. Our results show that our approach outperforms CLS embeddings in distinguishing in-distribution samples from far-out-of-domain samples, but struggles with near or same-domain datasets. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# 可逆系の非干渉解析:分岐二相性に基づくアプローチ
Noninterference Analysis of Reversible Systems: An Approach Based on Branching Bisimilarity ( http://arxiv.org/abs/2311.15670v2 ) ライセンス: Link先を確認 | Andrea Esposito, Alessandro Aldini, Marco Bernardo, Sabina Rossi, | (参考訳) 非干渉理論は、情報漏洩の分析とマルチレベルセキュリティシステムにおけるセキュアな計算の実行を支援する。
非干渉に対する古典的同値性に基づくアプローチは、主に弱いバイシミュレーションのセマンティクスに依存している。
本手法は,可逆計算の存在下での隠蔽チャネルの同定に十分でないことを示す。
データベース管理システムの例で説明されているように、後ろ向きの計算の活性化は、標準の前方方向に進むと観測不可能な情報の流れを引き起こす可能性がある。
バック・アンド・フォース計算の効果を捉えるためには、De Nicola, Montanari, Vaandrager の以前の研究で二相性に分岐していることが証明された、より表現力のある意味論に切り替える必要がある。
本稿では,分岐二相性に基づく非干渉特性の分類と,その保存と構成性の特徴を考察し,弱い二相性に基づくFocardiとGorrieriの分類と比較する。
The theory of noninterference supports the analysis of information leakage and the execution of secure computations in multi-level security systems. Classical equivalence-based approaches to noninterference mainly rely on weak bisimulation semantics. We show that this approach is not sufficient to identify potential covert channels in the presence of reversible computations. As illustrated via a database management system example, the activation of backward computations may trigger information flows that are not observable when proceeding in the standard forward direction. To capture the effects of back-and-forth computations, it is necessary to switch to a more expressive semantics, which has been proven to be branching bisimilarity in a previous work by De Nicola, Montanari, and Vaandrager. In this paper we investigate a taxonomy of noninterference properties based on branching bisimilarity along with their preservation and compositionality features, then we compare it with the taxonomy of Focardi and Gorrieri based on weak bisimilarity. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# MADに進むべきか? LLMのためのマルチエージェント議論戦略
Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs ( http://arxiv.org/abs/2311.17371v3 ) ライセンス: Link先を確認 | Andries Smit, Paul Duckworth, Nathan Grinsztajn, Thomas D. Barrett, Arnu Pretorius, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域の問い合わせに応答する可能性を示している。
しかし、生成エージェントが正確で信頼性の高い回答を提供することは、現在も進行中の課題である。
この文脈において、マルチエージェント討論(MAD)はLLMの真正性を高めるための有望な戦略として現れている。
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
重要なことに、マルチエージェントの議論システムは、現在の形式では、複数の推論経路を用いた自己整合性やアンサンブルといった他の提案された促進戦略を確実に上回っているわけではない。
しかし、ハイパーパラメータチューニングを行う場合、Multi-PersonaのようないくつかのMADシステムはより優れた性能を発揮する。
これはMADプロトコルが本質的に他のアプローチよりも悪いのではなく、異なるハイパーパラメータ設定に敏感であり、最適化が難しいことを示唆している。
これらの結果に基づいて、エージェント合意レベルの調整などの議論戦略の改善に関する洞察を提供し、パフォーマンスを著しく向上させ、評価した他のすべての非議論プロトコルを超えます。
コミュニティには、いくつかの最先端プロトコルと、人気のある研究データセットをベンチマークする評価スクリプトを、オープンソースリポジトリとして提供しています。
Recent advancements in large language models (LLMs) underscore their potential for responding to inquiries in various domains. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a promising strategy for enhancing the truthfulness of LLMs. We benchmark a range of debating and prompting strategies to explore the trade-offs between cost, time, and accuracy. Importantly, we find that multi-agent debating systems, in their current form, do not reliably outperform other proposed prompting strategies, such as self-consistency and ensembling using multiple reasoning paths. However, when performing hyperparameter tuning, several MAD systems, such as Multi-Persona, perform better. This suggests that MAD protocols might not be inherently worse than other approaches, but that they are more sensitive to different hyperparameter settings and difficult to optimize. We build on these results to offer insights into improving debating strategies, such as adjusting agent agreement levels, which can significantly enhance performance and even surpass all other non-debate protocols we evaluated. We provide an open-source repository to the community with several state-of-the-art protocols together with evaluation scripts to benchmark across popular research datasets. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# Receler: テキストと画像の拡散モデルの軽量エフェサーによる信頼性の高い概念消去
Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers ( http://arxiv.org/abs/2311.17717v3 ) ライセンス: Link先を確認 | Chi-Pin Huang, Kai-Po Chang, Chung-Ting Tsai, Yung-Hsuan Lai, Fu-En Yang, Yu-Chiang Frank Wang, | (参考訳) テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
信頼性の高い概念消去を実現するためには、ロバスト性や局所性が望ましい。
前者は、パラフレーズまたは学習プロンプトに対してターゲット概念に関連する画像を生成するのを控え、後者はターゲットでない概念で画像を生成する能力を保っている。
本稿では,軽量エライザー (Receler) を用いた信頼性概念消去手法を提案する。
提案したコンセプトローカライズされた正規化と対向的素早い学習方式により、上記の望ましい特性を満足しつつ、概念消去を行うための軽量な消去器を学習する。
様々な概念による実験は、以前の方法よりもRecelerの優位性を検証する。
Concept erasure in text-to-image diffusion models aims to disable pre-trained diffusion models from generating images related to a target concept. To perform reliable concept erasure, the properties of robustness and locality are desirable. The former refrains the model from producing images associated with the target concept for any paraphrased or learned prompts, while the latter preserves its ability in generating images with non-target concepts. In this paper, we propose Reliable Concept Erasing via Lightweight Erasers (Receler). It learns a lightweight Eraser to perform concept erasing while satisfying the above desirable properties through the proposed concept-localized regularization and adversarial prompt learning scheme. Experiments with various concepts verify the superiority of Receler over previous methods. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# PALM: 言語モデルによる行動予測
PALM: Predicting Actions through Language Models ( http://arxiv.org/abs/2311.17944v2 ) ライセンス: Link先を確認 | Sanghwan Kim, Daoji Huang, Yongqin Xian, Otmar Hilliges, Luc Van Gool, Xi Wang, | (参考訳) 人間の活動を理解することは、カメラ装着者の視点から視覚的な視点を捉えることに焦点を当てた、自我中心の視覚において、不可欠だが複雑な作業である。
従来の手法は、大量のビデオデータに基づいて訓練された表現学習に大きく依存している。
しかし、効果的な映像表現を得ることの難しさから大きな課題が生じる。
この困難さは、データの可用性が制限されているのとは対照的な、人間の活動の複雑で変動的な性質に起因する。
本研究では,長期的行動予測の課題に対処するアプローチであるPALMを紹介する。
提案手法では,従来の行動系列を追跡する行動認識モデルと,関連する環境情報を記述するための視覚言語モデルが組み込まれている。
過去の出来事のコンテキストを活用することで,大規模言語モデル(LLM)を用いた行動予測の促進戦略を考案する。
さらに、LLMのテキスト内学習を容易にするために、例えば選択などの最大限界関連性を実装する。
実験の結果, PALMはEgo4Dベンチマークの長期動作予測作業において, 最先端の手法を超越していることがわかった。
さらに、PALMを2つの追加ベンチマークで検証し、分類学の異なる複雑な活動にまたがる一般化の能力を確認した。
Understanding human activity is a crucial yet intricate task in egocentric vision, a field that focuses on capturing visual perspectives from the camera wearer's viewpoint. Traditional methods heavily rely on representation learning that is trained on a large amount of video data. However, a major challenge arises from the difficulty of obtaining effective video representation. This difficulty stems from the complex and variable nature of human activities, which contrasts with the limited availability of data. In this study, we introduce PALM, an approach that tackles the task of long-term action anticipation, which aims to forecast forthcoming sequences of actions over an extended period. Our method PALM incorporates an action recognition model to track previous action sequences and a vision-language model to articulate relevant environmental details. By leveraging the context provided by these past events, we devise a prompting strategy for action anticipation using large language models (LLMs). Moreover, we implement maximal marginal relevance for example selection to facilitate in-context learning of the LLMs. Our experimental results demonstrate that PALM surpasses the state-of-the-art methods in the task of long-term action anticipation on the Ego4D benchmark. We further validate PALM on two additional benchmarks, affirming its capacity for generalization across intricate activities with different sets of taxonomies. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# LLMはセキュリティ問題に対処できるか?
Can LLMs Patch Security Issues? ( http://arxiv.org/abs/2312.00024v4 ) ライセンス: Link先を確認 | Kamel Alrashedy, Abdullah Aljasser, Pradyumna Tambwekar, Matthew Gombolay, | (参考訳) LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
残念なことに、これらのモデルは人間と弱点を共有している。
これらの脆弱性により、無許可の攻撃者が機密データやシステムにアクセスできるようになる。
本研究では、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
当社のアプローチでは,脆弱性に対処する潜在的なソリューションの生成と実装を行うために,自動静的コード解析を活用している。
大規模なデータセットであるPythonSecurityEvalを導入して,データベースやWebサイト,オペレーティングシステムなど,現実世界のアプリケーションの多様性をカバーすることで,安全なコード生成の必要性に対処する。
我々は、FDSPが、目標とする外部フィードバックを注入する手順を通じて、LLMからの自己フィードバックを最大17.6%向上させる前の作業よりも優れていることを実証的に検証した。
コードとデータは \url{https://github.com/Kamel773/LLM-code-refine} で公開されている。
Large Language Models (LLMs) have shown impressive proficiency in code generation. Unfortunately, these models share a weakness with their human counterparts: producing code that inadvertently has security vulnerabilities. These vulnerabilities could allow unauthorized attackers to access sensitive data or systems, which is unacceptable for safety-critical applications. In this work, we propose Feedback-Driven Security Patching (FDSP), where LLMs automatically refine generated, vulnerable code. Our approach leverages automatic static code analysis to empower the LLM to generate and implement potential solutions to address vulnerabilities. We address the research communitys needs for safe code generation by introducing a large-scale dataset, PythonSecurityEval, covering the diversity of real-world applications, including databases, websites and operating systems. We empirically validate that FDSP outperforms prior work that uses self-feedback from LLMs by up to 17.6% through our procedure that injects targeted, external feedback. Code and data are available at \url{https://github.com/Kamel773/LLM-code-refine} | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# FBChain: 効率性とセキュア通信を備えたブロックチェーンベースのフェデレーション学習モデル
FBChain: A Blockchain-based Federated Learning Model with Efficiency and Secure Communication ( http://arxiv.org/abs/2312.00035v2 ) ライセンス: Link先を確認 | Yang Li, Chunhe Xia, Wei Liu, Chen Chen, Tianbo Wang, | (参考訳) 連合学習のパラメータ伝達プロセスにおけるプライバシとセキュリティは、現在最も顕著な懸念事項である。
しかし、保護されていない通信方法によって引き起こされる悪質な問題は、"parameter-leakage" と "in efficient-communication" の2つある。
本稿では、上記の2つの問題を克服するために、フェデレートラーニングパラメーター通信のためのブロックチェーンベースのフェデレーションラーニング(FBChain)モデルを提案する。
まず、ブロックチェーンの不変性を利用して、通信プロセス中の改ざん時にローカルモデルパラメータのグローバルモデルとハッシュ値を格納し、パラメータを暗号化することでデータのプライバシを保護し、ローカルパラメータのハッシュ値を比較してデータの一貫性を検証する。
第二に、Proof of Weighted Link Speed (PoWLS)コンセンサスアルゴリズムは、より高重み付きリンク速度のノードを包括的に選択し、グローバルモデルとパッケージブロックを集約し、「非効率通信」問題を解く。
実験により,FBChainモデルの有効性と,フェデレート学習におけるモデル通信効率を向上させる能力を示す。
Privacy and security in the parameter transmission process of federated learning are currently among the most prominent concerns. However, there are two thorny problems caused by unprotected communication methods: "parameter-leakage" and "inefficient-communication". This article proposes Blockchain-based Federated Learning (FBChain) model for federated learning parameter communication to overcome the above two problems. First, we utilize the immutability of blockchain to store the global model and hash value of local model parameters in case of tampering during the communication process, protect data privacy by encrypting parameters, and verify data consistency by comparing the hash values of local parameters, thus addressing the "parameter-leakage" problem. Second, the Proof of Weighted Link Speed (PoWLS) consensus algorithm comprehensively selects nodes with the higher weighted link speed to aggregate global model and package blocks, thereby solving the "inefficient-communication" problem. Experimental results demonstrate the effectiveness of our proposed FBChain model and its ability to improve model communication efficiency in federated learning. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# BAM-DETR:ビデオにおける時間的接地のための境界配向モーメント検出変換器
BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2312.00083v2 ) ライセンス: Link先を確認 | Pilhyeon Lee, Hyeran Byun, | (参考訳) 時間文グラウンドディングは、言語記述に関連するモーメントをローカライズすることを目的としている。
近年、DETRのようなアプローチは目標モーメントの中心と長さを予測することで顕著な進歩を遂げた。
しかし、それらは、モーメントセンターの本質的な曖昧さによって引き起こされる中心的不整合の問題に悩まされ、不正確な予測につながった。
この問題を解決するために,我々は境界指向モーメントの新たな定式化を提案する。
我々のパラダイムでは、モデルはもはや正確な中心を見つける必要はなく、その代わりに、境界が直接推定される間隔内のアンカーポイントを予測するのに十分である。
このアイデアに基づいて、デュアルパスの復号処理を備えた境界整列モーメント検出変換器を設計する。
具体的には、グローバルとバウンダリに焦点をあてて、並列経路内のアンカーとバウンダリをそれぞれ洗練する。
この分離された設計により、モデルは望ましい領域に集中することができ、モーメント予測を正確に洗練することができる。
さらに、不完全なものよりも、高い位置化特性を持つ提案が優先されるように、品質ベースのランキング手法を提案する。
提案手法の有効性を3つのベンチマークで検証した。
コードはhttps://github.com/Pilhyeon/BAM-DETRで公開されている。
Temporal sentence grounding aims to localize moments relevant to a language description. Recently, DETR-like approaches achieved notable progress by predicting the center and length of a target moment. However, they suffer from the issue of center misalignment raised by the inherent ambiguity of moment centers, leading to inaccurate predictions. To remedy this problem, we propose a novel boundary-oriented moment formulation. In our paradigm, the model no longer needs to find the precise center but instead suffices to predict any anchor point within the interval, from which the boundaries are directly estimated. Based on this idea, we design a boundary-aligned moment detection transformer, equipped with a dual-pathway decoding process. Specifically, it refines the anchor and boundaries within parallel pathways using global and boundary-focused attention, respectively. This separate design allows the model to focus on desirable regions, enabling precise refinement of moment predictions. Further, we propose a quality-based ranking method, ensuring that proposals with high localization qualities are prioritized over incomplete ones. Experiments on three benchmarks validate the effectiveness of the proposed methods. The code is available at https://github.com/Pilhyeon/BAM-DETR. | 翻訳日:2024-07-19 22:00:54 公開日:2024-07-18 |
# 教師なし登録のための不確実性評価フレームワーク
Heteroscedastic Uncertainty Estimation Framework for Unsupervised Registration ( http://arxiv.org/abs/2312.00836v2 ) ライセンス: Link先を確認 | Xiaoran Zhang, Daniel H. Pak, Shawn S. Ahn, Xiaoxiao Li, Chenyu You, Lawrence H. Staib, Albert J. Sinusas, Alex Wong, James S. Duncan, | (参考訳) 教師なし登録のためのディープラーニング手法は、空間領域全体にわたる均一なノイズレベル(例えば平均二乗誤差損失)を仮定する目的に依存することが多いが、現実の医療画像では、ノイズ分布はヘテロシダスティックで入力依存であることが多い。
したがって、この仮定は、主にノイズ誘発外周波の望ましくない影響により、しばしば登録性能の低下につながる。
そこで本稿では,非教師あり登録時の不確実性の高い領域の影響を適応的に低減できる不確定画像不確実性推定のためのフレームワークを提案する。
このフレームワークは、変位・分散推定器の協調的なトレーニング戦略と、信号-雑音比を利用した新しい画像の忠実度重み付け方式で構成されている。
提案手法は, 単純化された相補的仮定によって引き起こされる急激な勾配により, モデルが逸脱することを防止し, より正確な変位推定を行う。
その汎用性と有効性を説明するため、我々は3つの医用画像データセットにまたがる2つの代表的な登録アーキテクチャ上でフレームワークをテストした。
提案手法は, ベースラインを常に上回り, 有意な不確実性推定を導出する。
コードは \url{https://voldemort108x.github.io/hetero_uncertainty/} で公開されている。
Deep learning methods for unsupervised registration often rely on objectives that assume a uniform noise level across the spatial domain (e.g. mean-squared error loss), but noise distributions are often heteroscedastic and input-dependent in real-world medical images. Thus, this assumption often leads to degradation in registration performance, mainly due to the undesired influence of noise-induced outliers. To mitigate this, we propose a framework for heteroscedastic image uncertainty estimation that can adaptively reduce the influence of regions with high uncertainty during unsupervised registration. The framework consists of a collaborative training strategy for the displacement and variance estimators, and a novel image fidelity weighting scheme utilizing signal-to-noise ratios. Our approach prevents the model from being driven away by spurious gradients caused by the simplified homoscedastic assumption, leading to more accurate displacement estimation. To illustrate its versatility and effectiveness, we tested our framework on two representative registration architectures across three medical image datasets. Our method consistently outperforms baselines and produces sensible uncertainty estimates. The code is publicly available at \url{https://voldemort108x.github.io/hetero_uncertainty/}. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# 無監督医用画像登録のための適応対応対応符号化法
Adaptive Correspondence Scoring for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2312.00837v2 ) ライセンス: Link先を確認 | Xiaoran Zhang, John C. Stendahl, Lawrence Staib, Albert J. Sinusas, Alex Wong, James S. Duncan, | (参考訳) 医用画像の教師なし登録のための適応的トレーニング手法を提案する。
既存の手法では、画像再構成を主要な監視信号として用いている。
しかし、ニュアンス変数(例えばノイズや可視性)、物理的波動(例えば超音波)におけるランベルティアン仮定の違反、不整合画像取得は、すべて医療画像間の対応を損なう可能性がある。
教師なし学習方式は、再構成のための対応を確立するために画像間の強度の一致に依存するため、典型的な訓練目的によってモデル化されていない急激なエラー残差を導入する。
これを軽減するために,学習中の対応スコアマップで誤差残差を再重み付けする適応フレームワークを提案し,ノイズ勾配によるパラメトリック変位推定器の脱落を防止し,性能劣化を引き起こす。
提案手法の汎用性と有効性を説明するため,我々は3つの医用画像データセットにまたがる3つの代表的な登録アーキテクチャについて,他のベースラインとともにフレームワークを検証した。
我々の適応的フレームワークは、定量的にも定性的にも、他の手法よりも一貫して優れています。
Paired t-testsは、我々の改善が統計的に有意であることを示している。
コードは: \url{https://voldemort108x.github.io/AdaCS/}で公開されている。
We propose an adaptive training scheme for unsupervised medical image registration. Existing methods rely on image reconstruction as the primary supervision signal. However, nuisance variables (e.g. noise and covisibility), violation of the Lambertian assumption in physical waves (e.g. ultrasound), and inconsistent image acquisition can all cause a loss of correspondence between medical images. As the unsupervised learning scheme relies on intensity constancy between images to establish correspondence for reconstruction, this introduces spurious error residuals that are not modeled by the typical training objective. To mitigate this, we propose an adaptive framework that re-weights the error residuals with a correspondence scoring map during training, preventing the parametric displacement estimator from drifting away due to noisy gradients, which leads to performance degradation. To illustrate the versatility and effectiveness of our method, we tested our framework on three representative registration architectures across three medical image datasets along with other baselines. Our adaptive framework consistently outperforms other methods both quantitatively and qualitatively. Paired t-tests show that our improvements are statistically significant. Code available at: \url{https://voldemort108x.github.io/AdaCS/}. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# Sparse Beats Dense:Radar-Cameraのディープス・コンプリートにおけるスーパービジョンの再考
Sparse Beats Dense: Rethinking Supervision in Radar-Camera Depth Completion ( http://arxiv.org/abs/2312.00844v3 ) ライセンス: Link先を確認 | Huadong Li, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji, | (参考訳) 深度調整の分野では、疎密な監督は密集した監督よりも悪いと広く信じられているが、その根底にある理由を論じることは稀である。
この目的のために,レーダカメラ深度補正の課題を再考し,従来の高密度LiDAR監督法を精度と速度の両方で上回るような疎LiDAR監督法を提案する。
特に、疎密なLiDARの監督によって訓練された場合、深度補完モデルは通常、重要なストライプのようなアーティファクトを含む深度マップを出力する。
この現象は,LiDAR分布漏洩(LDL)と呼ばれる疎いLiDAR監視から暗黙的に学習された位置分布パターンによって引き起こされる。
このような理解に基づき、この問題に対処する新しいディファイション補償レーダーカメラ深度補正フレームワークを提案する。
ディスラプション部は、LiDAR分布の学習をスパース監視から意図的に破壊することを目的としており、補償部は、以前のディスラプションの情報損失を補うために、3D空間および2Dセマンティック情報を活用することを目的としている。
その結果, LDLの影響を小さくすることで, 最先端の高密度監視手法よりも, 平均絶対誤差(MAE)が11.6%, フレームパー秒(FPS)が1.6倍向上した。
コードはhttps://github.com/megvii-research/Sparse-Beats-Denseで公開されている。
It is widely believed that sparse supervision is worse than dense supervision in the field of depth completion, but the underlying reasons for this are rarely discussed. To this end, we revisit the task of radar-camera depth completion and present a new method with sparse LiDAR supervision to outperform previous dense LiDAR supervision methods in both accuracy and speed. Specifically, when trained by sparse LiDAR supervision, depth completion models usually output depth maps containing significant stripe-like artifacts. We find that such a phenomenon is caused by the implicitly learned positional distribution pattern from sparse LiDAR supervision, termed as LiDAR Distribution Leakage (LDL) in this paper. Based on such understanding, we present a novel Disruption-Compensation radar-camera depth completion framework to address this issue. The Disruption part aims to deliberately disrupt the learning of LiDAR distribution from sparse supervision, while the Compensation part aims to leverage 3D spatial and 2D semantic information to compensate for the information loss of previous disruptions. Extensive experimental results demonstrate that by reducing the impact of LDL, our framework with sparse supervision outperforms the state-of-the-art dense supervision methods with 11.6% improvement in Mean Absolute Error (MAE)} and 1.6x speedup in Frame Per Second (FPS)}. The code is available at https://github.com/megvii-research/Sparse-Beats-Dense. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# PixelLM: 大規模マルチモーダルモデルによるピクセル推論
PixelLM: Pixel Reasoning with Large Multimodal Model ( http://arxiv.org/abs/2312.02228v3 ) ライセンス: Link先を確認 | Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu, Jiashi Feng, Xiaojie Jin, | (参考訳) 大規模マルチモーダルモデル(LMM)は目覚ましい進歩を遂げているが、複数のオープンワールドターゲットを含む画像推論タスクのためのピクセルレベルのマスクを生成することは依然として課題である。
このギャップを埋めるために、ピクセルレベルの推論と理解のための効率的かつ効率的なLMMであるPixelLMを導入する。
Central to PixelLMは、新しくて軽量なピクセルデコーダであり、包括的セグメンテーションコードブックである。
デコーダは、詳細な目標関連情報を符号化するコードブックトークンの隠れ埋め込みからマスクを効率よく生成する。
この設計により、PixelLMは一般的なLMMの構造と調和し、さらにコストのかかるセグメンテーションモデルを必要としない。
さらに,モデルが複数のターゲットを区別する能力を高め,マスク品質を大幅に向上させる目標改良損失を提案する。
この分野での研究を進めるために、我々は高品質なマルチターゲット推論セグメンテーションベンチマークであるMUSEを構築した。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、MUSEやシングル参照セグメンテーション、マルチ参照セグメンテーションなど、複数のベンチマークで確立されたメソッドよりも優れている。
包括的検証により, 提案した各成分の有効性が確認された。
すべてのコード、モデル、データセットが公開される。
While large multimodal models (LMMs) have achieved remarkable progress, generating pixel-level masks for image reasoning tasks involving multiple open-world targets remains a challenge. To bridge this gap, we introduce PixelLM, an effective and efficient LMM for pixel-level reasoning and understanding. Central to PixelLM is a novel, lightweight pixel decoder and a comprehensive segmentation codebook. The decoder efficiently produces masks from the hidden embeddings of the codebook tokens, which encode detailed target-relevant information. With this design, PixelLM harmonizes with the structure of popular LMMs and avoids the need for additional costly segmentation models. Furthermore, we propose a target refinement loss to enhance the model's ability to differentiate between multiple targets, leading to substantially improved mask quality. To advance research in this area, we construct MUSE, a high-quality multi-target reasoning segmentation benchmark. PixelLM excels across various pixel-level image reasoning and understanding tasks, outperforming well-established methods in multiple benchmarks, including MUSE, single- and multi-referring segmentation. Comprehensive ablations confirm the efficacy of each proposed component. All code, models, and datasets will be publicly available. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# 非線形量子軌道平均による異なる解離を区別する
Telling different unravelings apart via nonlinear quantum-trajectory averages ( http://arxiv.org/abs/2312.03452v3 ) ライセンス: Link先を確認 | Eloy Piñol, Th. K. Mavrogordatos, Dustin Keys, Romain Veyron, Piotr Sierant, Miguel Angel García-March, Samuele Grandi, Morgan W. Mitchell, Jan Wehr, Maciej Lewenstein, | (参考訳) ゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式 (ME) は開量子系(OQS)の密度行列を支配している。
OQSが弱い連続測定を受けると、その状態は確率的量子軌道として発展し、その統計平均はMEを解く。
そのような軌道のアンサンブルは、MEのアンサンブル(unraveling)と呼ばれる。
軌道上の可観測物の非線形平均を用いて,同一のMEが生成する未発見物を異なる測定シナリオで操作的に識別する手法を提案する。
本手法を2レベル原子における共鳴蛍光のパラダイム的量子非線形系に適用する。
本研究では,2レベルエミッタから散乱した光子の直接検出によって引き起こされるポアソン型アンラベリングと,放射された磁場の位相感度検出によって引き起こされるウィーナー型アンラベリングを比較した。
量子軌道平均分散は,これらの測定シナリオを識別できることを示す。
我々は,より複雑なOQSに容易に拡張できる手法の性能を,現実的な実験条件下で評価する。
The Gorini-Kossakowski-Sudarshan-Lindblad master equation (ME) governs the density matrix of open quantum systems (OQSs). When an OQS is subjected to weak continuous measurement, its state evolves as a stochastic quantum trajectory, whose statistical average solves the ME. The ensemble of such trajectories is termed an unraveling of the ME. We propose a method to operationally distinguish unravelings produced by the same ME in different measurement scenarios, using nonlinear averages of observables over trajectories. We apply the method to the paradigmatic quantum nonlinear system of resonance fluorescence in a two-level atom. We compare the Poisson-type unraveling, induced by direct detection of photons scattered from the two-level emitter, and the Wiener-type unraveling, induced by phase-sensitive detection of the emitted field. We show that a quantum-trajectory-averaged variance is able to distinguish these measurement scenarios. We evaluate the performance of the method, which can be readily extended to more complex OQSs, under a range of realistic experimental conditions. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# カオスおよび積分可能なユニタリ回路力学におけるヘイデン・プレスキル回復
Hayden-Preskill recovery in chaotic and integrable unitary circuit dynamics ( http://arxiv.org/abs/2312.03838v3 ) ライセンス: Link先を確認 | Michael A. Rampp, Pieter W. Claeys, | (参考訳) Hayden-Preskillプロトコルは、ユニタリダイナミクス後のローカルサブシステムからの情報回復能力を探索する。
そのため、量子多体系は量子誤り訂正符号を動的に実装できる。
符号化の挙動への遷移は、エンタングルメント膜理論のような効果的なアプローチを用いて論じられている。
本稿では,局所量子多体系におけるスクランブルの動的プローブとしてHayden-Preskillリカバリを用いた正確な結果を示す。
本研究では,Floquet(Dual-unitary)とHaar-random(Haar-random)の2種類の回路モデルについて検討する。
本稿では,情報伝達やスクランブルに対応する様々な動的シグネチャについて論じる。
驚くべきことに、ある種のカオス回路は完全な忠実さで情報を伝達する。
積分可能な二重単位回路では、情報伝達と準粒子の伝播と散乱を関連付ける。
数値的および解析的な洞察を用いて、情報回復の質的特徴はこれらの解点から遠ざかっていると論じる。
以上の結果から,情報回復プロトコルはカオス的・可積分的行動の識別に有効であり,長寿命準粒子や二重ユニタリ性などの特性的特徴に敏感であることが示唆された。
The Hayden-Preskill protocol probes the capability of information recovery from local subsystems after unitary dynamics. As such it resolves the capability of quantum many-body systems to dynamically implement a quantum error-correcting code. The transition to coding behavior has been mostly discussed using effective approaches, such as entanglement membrane theory. Here, we present exact results on the use of Hayden-Preskill recovery as a dynamical probe of scrambling in local quantum many-body systems. We investigate certain classes of unitary circuit models, both structured Floquet (dual-unitary) and Haar-random circuits. We discuss different dynamical signatures corresponding to information transport or scrambling, respectively, that go beyond effective approaches. Surprisingly, certain chaotic circuits transport information with perfect fidelity. In integrable dual-unitary circuits, we relate the information transmission to the propagation and scattering of quasiparticles. Using numerical and analytical insights, we argue that the qualitative features of information recovery extend away from these solvable points. Our results suggest that information recovery protocols can serve to distinguish chaotic and integrable behavior, and that they are sensitive to characteristic dynamical features, such as long-lived quasiparticles or dual-unitarity. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# MinD-3D:人間の脳における高品質な3Dオブジェクトの再構築
MinD-3D: Reconstruct High-quality 3D objects in Human Brain ( http://arxiv.org/abs/2312.07485v3 ) ライセンス: Link先を確認 | Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu, | (参考訳) 本稿では,fMRI(Function Magnetic Resonance Imaging)信号から3次元視覚を再構築するための革新的な課題であるRecon3DMindを紹介する。
この先駆的なタスクを支援するために、14人の参加者からのデータを含むfMRI-Shapeデータセットを提示し、3Dオブジェクトの360度映像を特徴とし、様々な設定で総合的なfMRI信号のキャプチャを可能にし、将来の研究の基礎を築いた。
さらに,脳の3次元視覚情報をfMRI信号から復号化するための新しい3段階フレームワークMinD-3Dを提案する。
このフレームワークは、fMRIフレームからニューロフュージョンエンコーダを介して特徴を抽出して集約し、続いて特徴橋拡散モデルを用いて視覚的特徴を生成し、最終的に生成トランスフォーマーデコーダを介して3Dオブジェクトを復元する。
意味的および構造的指標を用いたMinD-3Dの性能評価を行い,fMRI信号における特徴量と関心領域(ROI)の関係を解析した。
以上の結果から,MinD-3Dは意味的関連性と空間的類似性が高い3Dオブジェクトを再構成するだけでなく,人間の脳の3D視覚情報処理能力の理解を著しく向上させることが示唆された。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。
In this paper, we introduce Recon3DMind, an innovative task aimed at reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI) signals, marking a significant advancement in the fields of cognitive neuroscience and computer vision. To support this pioneering task, we present the fMRI-Shape dataset, which includes data from 14 participants and features 360-degree videos of 3D objects to enable comprehensive fMRI signal capture across various settings, thereby laying a foundation for future research. Furthermore, we propose MinD-3D, a novel and effective three-stage framework specifically designed to decode the brain's 3D visual information from fMRI signals, demonstrating the feasibility of this challenging task. The framework begins by extracting and aggregating features from fMRI frames through a neuro-fusion encoder, subsequently employs a feature bridge diffusion model to generate visual features, and ultimately recovers the 3D object via a generative transformer decoder. We assess the performance of MinD-3D using a suite of semantic and structural metrics and analyze the correlation between the features extracted by our model and the visual regions of interest (ROIs) in fMRI signals. Our findings indicate that MinD-3D not only reconstructs 3D objects with high semantic relevance and spatial similarity but also significantly enhances our understanding of the human brain's capabilities in processing 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# SkyMask: きめ細かい学習可能なマスクによるアタック非依存のロバスト学習
SkyMask: Attack-agnostic Robust Federated Learning with Fine-grained Learnable Masks ( http://arxiv.org/abs/2312.12484v2 ) ライセンス: Link先を確認 | Peishen Yan, Hao Wang, Tao Song, Yang Hua, Ruhui Ma, Ningxin Hu, Mohammad R. Haghighat, Haibing Guan, | (参考訳) フェデレートラーニング(FL)は、分散データを活用し、データのプライバシを保存するための一般的なパラダイムになりつつある。
しかし、この分散特性のため、FLシステムは悪意のあるモデル更新をアップロードすることでクライアントを侵害したビザンティン攻撃に対して脆弱である。
層レベルおよびパラメータレベルのきめ細かい攻撃の開発により、攻撃のステルスネスと有効性が大幅に改善された。
既存の防御メカニズムは、クライアントがアップロードした個々のモデル更新のモデルレベル統計のみを分析して、ビザンツ攻撃を緩和する。
この問題に対処するため,SkyMaskは,パラメータレベルでの悪意あるモデル更新を識別するために,まず,きめ細かな学習可能なマスクを活用する,攻撃非依存の堅牢なFLシステムである。
具体的には、FLサーバは、クライアントがアップロードしたモデル更新をパラメータレベルのマスクで凍結および乗算し、マスクを小さなクリーンデータセット(ルートデータセット)上でトレーニングし、良質なモデル更新と悪意のあるモデル更新の微妙な違いを高次元空間で学習する。
その結果、SkyMaskは攻撃対象のSOTA防衛戦略と比較して最大14%高いテスト精度を達成でき、高い攻撃率の悪意のあるクライアントによる攻撃に対する防御に成功しています。
コードはhttps://github.com/KoalaYan/SkyMask.comで入手できる。
Federated Learning (FL) is becoming a popular paradigm for leveraging distributed data and preserving data privacy. However, due to the distributed characteristic, FL systems are vulnerable to Byzantine attacks that compromised clients attack the global model by uploading malicious model updates. With the development of layer-level and parameter-level fine-grained attacks, the attacks' stealthiness and effectiveness have been significantly improved. The existing defense mechanisms solely analyze the model-level statistics of individual model updates uploaded by clients to mitigate Byzantine attacks, which are ineffective against fine-grained attacks due to unawareness or overreaction. To address this problem, we propose SkyMask, a new attack-agnostic robust FL system that firstly leverages fine-grained learnable masks to identify malicious model updates at the parameter level. Specifically, the FL server freezes and multiplies the model updates uploaded by clients with the parameter-level masks, and trains the masks over a small clean dataset (i.e., root dataset) to learn the subtle difference between benign and malicious model updates in a high-dimension space. Our extensive experiments involve different models on three public datasets under state-of-the-art (SOTA) attacks, where the results show that SkyMask achieves up to 14% higher testing accuracy compared with SOTA defense strategies under the same attacks and successfully defends against attacks with malicious clients of a high fraction up to 80%. Code is available at https://github.com/KoalaYan/SkyMask. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# SWinGS: Windowsをスライディングしてダイナミックな3Dガウス撮影
SWinGS: Sliding Windows for Dynamic 3D Gaussian Splatting ( http://arxiv.org/abs/2312.13308v2 ) ライセンス: Link先を確認 | Richard Shaw, Michal Nazarczuk, Jifei Song, Arthur Moreau, Sibi Catley-Chandar, Helisa Dhamo, Eduardo Perez-Pellitero, | (参考訳) 新たなビュー合成は、近年急速に進歩し、ますますフォトリアリスティックな結果を生み出す方法が示されている。
3D Gaussian Splattingは、シーンの高品質なレンダリングを作成し、リアルタイムのフレームレートでインタラクティブな視聴を可能にする、有望な方法として登場した。
ただし、静的な場面に限られている。
本研究では,動的シーンを再構築するために3次元ガウス散乱を拡張した。
動的MLPを用いてシーンのダイナミクスをモデル化し、時間的に局所的な標準表現からフレームごとの3Dガウスへの変形を学習する。
静的領域と動的領域をアンタングルするために、調整可能なパラメータはそれぞれのガウスの MLP パラメータを重み付け、不均衡シーンの動的モデリングを改善する。
本稿では,より小さな管理可能なウィンドウに分割して任意の長さのシーンを処理し,高いレンダリング品質を維持しながらスライディングウィンドウトレーニング戦略を提案する。
シーンの動きに基づいて適切なウィンドウサイズハイパーパラメータを決定するための適応型サンプリング手法を提案し,トレーニングのオーバーヘッドと視覚的品質のバランスをとる。
スライドウインドウ毎に動的3次元ガウスモデルを個別に訓練することで、標準表現の変更を可能にし、重要な幾何学的変化を伴うシーンの再構築を可能にする。
時間的整合性は、ランダムにサンプリングされた新しいビューに対して、自己監督的な整合性損失を伴う微調整ステップを用いて実施される。
その結果,本手法は,ダイナミックなインタラクティブなビューアでリアルタイムに見ることのできる,競争力のある定量的性能を備えた,一般的な動的シーンの高品質なレンダリングを実現する。
Novel view synthesis has shown rapid progress recently, with methods capable of producing increasingly photorealistic results. 3D Gaussian Splatting has emerged as a promising method, producing high-quality renderings of scenes and enabling interactive viewing at real-time frame rates. However, it is limited to static scenes. In this work, we extend 3D Gaussian Splatting to reconstruct dynamic scenes. We model a scene's dynamics using dynamic MLPs, learning deformations from temporally-local canonical representations to per-frame 3D Gaussians. To disentangle static and dynamic regions, tuneable parameters weigh each Gaussian's respective MLP parameters, improving the dynamics modelling of imbalanced scenes. We introduce a sliding window training strategy that partitions the sequence into smaller manageable windows to handle arbitrary length scenes while maintaining high rendering quality. We propose an adaptive sampling strategy to determine appropriate window size hyperparameters based on the scene's motion, balancing training overhead with visual quality. Training a separate dynamic 3D Gaussian model for each sliding window allows the canonical representation to change, enabling the reconstruction of scenes with significant geometric changes. Temporal consistency is enforced using a fine-tuning step with self-supervising consistency loss on randomly sampled novel views. As a result, our method produces high-quality renderings of general dynamic scenes with competitive quantitative performance, which can be viewed in real-time in our dynamic interactive viewer. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# LLMファクトスコープ:内部状態解析によるLLMのFactual Discernmentの発見
LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis ( http://arxiv.org/abs/2312.16374v3 ) ライセンス: Link先を確認 | Jinwen He, Yujia Gong, Kai Chen, Zijin Lin, Chengan Wei, Yue Zhao, | (参考訳) 大規模言語モデル(LLM)は、幅広い知識と創造性を持った様々なドメインに革命をもたらした。
しかし、LLMにおける重要な問題は、現実と異なるアウトプットを生成する傾向にある。
この現象は、特に、正確性が最重要である医療相談や法的な助言などのセンシティブな応用に関係している。
本稿では,LCMの内部状態を実測に活用した,新しいシームズネットワークベースモデルであるLCMファクトスコープを提案する。
本研究は,LLMの内的状態における実内容と非実内容の区別可能なパターンを明らかにする。
我々は,LLMファクトスコープの有効性を様々なアーキテクチャで実証し,事実検出において96%以上の精度を達成した。
本研究は, LLMの内部状態を事実検出に活用するための新たな道を開き, 信頼性と透明性を高めるため, LLMの内部動作のさらなる探索を奨励する。
Large Language Models (LLMs) have revolutionized various domains with extensive knowledge and creative capabilities. However, a critical issue with LLMs is their tendency to produce outputs that diverge from factual reality. This phenomenon is particularly concerning in sensitive applications such as medical consultation and legal advice, where accuracy is paramount. In this paper, we introduce the LLM factoscope, a novel Siamese network-based model that leverages the inner states of LLMs for factual detection. Our investigation reveals distinguishable patterns in LLMs' inner states when generating factual versus non-factual content. We demonstrate the LLM factoscope's effectiveness across various architectures, achieving over 96% accuracy in factual detection. Our work opens a new avenue for utilizing LLMs' inner states for factual detection and encourages further exploration into LLMs' inner workings for enhanced reliability and transparency. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# GNNに基づくセッションベース推薦アルゴリズムの性能比較
Performance Comparison of Session-based Recommendation Algorithms based on GNNs ( http://arxiv.org/abs/2312.16695v2 ) ライセンス: Link先を確認 | Faisal Shehzad, Dietmar Jannach, | (参考訳) セッションベースのレコメンデーション設定では、リコメンダシステムは長期的なユーザプロファイルにアクセスできないため、進行中のセッションで観察されるユーザインタラクションに基づいて提案を行う必要がある。
このようなセッションはごく少数のインタラクションでのみ構成できるため,グラフニューラルネットワーク(GNN)に基づく様々なアプローチが提案されている。
残念ながら、さまざまな評価設定が、例えば、プロトコル、メトリクス、ベースラインの観点からの文献で使われており、最先端を表すものを評価することは困難である。
本研究は, 高品質メディアで最近発表された8つのGNNベースのアプローチの評価結果である。
公正な比較のために、すべてのモデルは3つの共通のデータセットを使用して、同じ条件下で体系的に調整され、テストされる。
さらに、k-nearest-neighborとシーケンシャルなルールベースモデルもベースラインとして含みます。
意外なことに、この評価は、最適化基準として使用した平均相互ランクにおいて、最近のGNNモデル全てより優れており、ヒットレートでは3つのケースでのみ優れていた。
さらに、論文で深く議論されていないいくつかの要因、例えばランダムシードは、GNNベースのモデルの性能に顕著に影響を及ぼす可能性があることを明らかにした。
したがって、我々の結果
(a)研究方法論と地域社会における課題の継続
b)セッションベースのレコメンデーションの改善の余地が十分にあることを示す。
In session-based recommendation settings, a recommender system has no access to long-term user profiles and thus has to base its suggestions on the user interactions that are observed in an ongoing session. Since such sessions can consist of only a small set of interactions, various approaches based on Graph Neural Networks (GNN) were recently proposed, as they allow us to integrate various types of side information about the items in a natural way. Unfortunately, a variety of evaluation settings are used in the literature, e.g., in terms of protocols, metrics and baselines, making it difficult to assess what represents the state of the art. In this work, we present the results of an evaluation of eight recent GNN-based approaches that were published in high-quality outlets. For a fair comparison, all models are systematically tuned and tested under identical conditions using three common datasets. We furthermore include k-nearest-neighbor and sequential rules-based models as baselines, as such models have previously exhibited competitive performance results for similar settings. To our surprise, the evaluation showed that the simple models outperform all recent GNN models in terms of the Mean Reciprocal Rank, which we used as an optimization criterion, and were only outperformed in three cases in terms of the Hit Rate. Additional analyses furthermore reveal that several other factors that are often not deeply discussed in papers, e.g., random seeds, can markedly impact the performance of GNN-based models. Our results therefore (a) point to continuing issues in the community in terms of research methodology and (b) indicate that there is ample room for improvement in session-based recommendation. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# 完全スパース3次元活動予測
Fully Sparse 3D Occupancy Prediction ( http://arxiv.org/abs/2312.17118v4 ) ライセンス: Link先を確認 | Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, Limin Wang, | (参考訳) 運転予測は自動運転において重要な役割を果たす。
従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。
ギャップを埋めるため,SparseOccと呼ばれる,スパルス占有ネットワークを導入した。
SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。
マスク誘導スパースサンプリングは、スパースクエリが完全にスパースな方法で2次元特徴と対話できるように設計されており、それによってコストのかかる高密度特徴やグローバルな注意を回避できる。
さらに、従来のボクセルレベルのmIoU基準で提起された深さ軸に沿った不整合ペナルティを解決するために、レイIoUという思考に基づく評価尺度を設計する。
SparseOccは、34.0のRayIoUを実現し、リアルタイムの推論速度は17.3 FPSで、7つの履歴フレームが入力される。
より先行したフレームを15に組み込むことで、SparseOccは連続的に性能を35.1 RayIoUに改善した。
Occupancy prediction plays a pivotal role in autonomous driving. Previous methods typically construct dense 3D volumes, neglecting the inherent sparsity of the scene and suffering from high computational costs. To bridge the gap, we introduce a novel fully sparse occupancy network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D representation from camera-only inputs and subsequently predicts semantic/instance occupancy from the 3D sparse representation by sparse queries. A mask-guided sparse sampling is designed to enable sparse queries to interact with 2D features in a fully sparse manner, thereby circumventing costly dense features or global attention. Additionally, we design a thoughtful ray-based evaluation metric, namely RayIoU, to solve the inconsistency penalty along the depth axis raised in traditional voxel-level mIoU criteria. SparseOcc demonstrates its effectiveness by achieving a RayIoU of 34.0, while maintaining a real-time inference speed of 17.3 FPS, with 7 history frames inputs. By incorporating more preceding frames to 15, SparseOcc continuously improves its performance to 35.1 RayIoU without bells and whistles. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# Chinchilla-Optimalを超えて: 言語モデルスケーリング法における推論の会計
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws ( http://arxiv.org/abs/2401.00448v2 ) ライセンス: Link先を確認 | Nikhil Sardana, Jacob Portes, Sasha Doubov, Jonathan Frankle, | (参考訳) 大規模言語モデル(LLM)スケーリング法則は、パラメータ数の増加とトレーニングデータの結果、モデル品質の変化を推定する経験則である。
しかし、一般的なDeepmind Chinchillaスケーリング法を含むこれらの公式は、推論のコストを含めることを無視している。
我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。
計算予算と実世界のコストの両面から分析を行い、LLM研究者は、合理的に大きな推論要求(~1B要求)がチチラ最適よりも小さく、より長くモデルを訓練すべきであると期待している。
さらに,パラメータ単位のトークンを極端の範囲(最大1万個)までスケールすることで,モデルの品質が向上し続けることを確認するため,さまざまなサイズとパラメータ数の47モデルをトレーニングする。
最後に,Chinchillaスケーリング法則係数に適合する手順を整理し,通常のトークン/パラメータ比で収集されたデータからのみ,スケーリング法則の開発が,これらの極端な範囲における追加トークンの影響を過大評価することを発見した。
Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular Deepmind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal. Furthermore, we train 47 models of varying sizes and parameter counts to validate our formula and find that model quality continues to improve as we scale tokens per parameter to extreme ranges (up to 10,000). Finally, we ablate the procedure used to fit the Chinchilla scaling law coefficients and find that developing scaling laws only from data collected at typical token/parameter ratios overestimates the impact of additional tokens at these extreme ranges. | 翻訳日:2024-07-19 21:51:10 公開日:2024-07-18 |
# ScatterFormer: Scattered Linear Attention 付き効率的なVoxel Transformer
ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention ( http://arxiv.org/abs/2401.00912v2 ) ライセンス: Link先を確認 | Chenhang He, Ruihuang Li, Guowen Zhang, Lei Zhang, | (参考訳) ウィンドウベースのトランスフォーマーは、より局所的な方法で、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
しかし、点雲のスパースの性質は、窓当たりのボクセルの数に大きなばらつきをもたらす。
既存の方法では、ウィンドウ内のボクセルを広範囲のソートとパディング操作によって固定長のシーケンスに分類し、計算とメモリのオーバーヘッドは無視できない。
本稿では,ScatterFormerについて紹介する。ScatterFormerは,複数のウィンドウにまたがるボクセルに直接,単一のシーケンスとして注意を向ける最初の方法である。
ScatterFormer の鍵は Scattered Linear Attention (SLA) モジュールであり、これは線形注意におけるキーと値のペアの事前計算を利用して、ウィンドウで分割された可変長のボクセル列の並列計算を可能にする。
本稿では,GPUの階層構造と共有メモリを活用することで,SLAモジュールのレイテンシを適度なGPU上で1ミリ秒未満に削減するチャンクワイズアルゴリズムを提案する。
さらに,異なるウィンドウにまたがるボクセル機能の局所性と接続性を向上し,広範囲なウィンドウシフトを不要とするクロスウィンドウインタラクションモジュールを開発した。
提案したScatterFormerは、Waymo Open Dataset上で73.8 mAP (L2)、NuScenesデータセット上で72.4 NDSを、23 FPSの優れた検出速度で実行し、コードは現在、 \href{https://github.com/skyhehe123/ScatterFormer}{https://github.com/skyhehe123/ScatterFormer}で公開されている。
Window-based transformers excel in large-scale point cloud understanding by capturing context-aware representations with affordable attention computation in a more localized manner. However, the sparse nature of point clouds leads to a significant variance in the number of voxels per window. Existing methods group the voxels in each window into fixed-length sequences through extensive sorting and padding operations, resulting in a non-negligible computational and memory overhead. In this paper, we introduce ScatterFormer, which to the best of our knowledge, is the first to directly apply attention to voxels across different windows as a single sequence. The key of ScatterFormer is a Scattered Linear Attention (SLA) module, which leverages the pre-computation of key-value pairs in linear attention to enable parallel computation on the variable-length voxel sequences divided by windows. Leveraging the hierarchical structure of GPUs and shared memory, we propose a chunk-wise algorithm that reduces the SLA module's latency to less than 1 millisecond on moderate GPUs. Furthermore, we develop a cross-window interaction module that improves the locality and connectivity of voxel features across different windows, eliminating the need for extensive window shifting. Our proposed ScatterFormer demonstrates 73.8 mAP (L2) on the Waymo Open Dataset and 72.4 NDS on the NuScenes dataset, running at an outstanding detection rate of 23 FPS.The code is available at \href{https://github.com/skyhehe123/ScatterFormer}{https://github.com/skyhehe123/ScatterFormer}. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# マルチモーダル視覚言語モデルによる総括診断と診断
Multi-modal vision-language model for generalizable annotation-free pathology localization and clinical diagnosis ( http://arxiv.org/abs/2401.02044v4 ) ライセンス: Link先を確認 | Hao Yang, Hong-Yu Zhou, Zhihuan Li, Yuanxu Gao, Cheng Li, Weijian Huang, Jiarun Liu, Hairong Zheng, Kang Zhang, Shanshan Wang, | (参考訳) 医用画像から病理を自動的に定義することは、疾患の発生と進展の理解に役立ち、臨床診断においてそのような能力は不可欠である。
しかし、既存のディープラーニングモデルは専門家のアノテーションに大きく依存しており、オープンな臨床環境での一般化機能が欠如している。
本研究では,AFLOC ( Annotation-Free pathology Localization) のための一般化可能な視覚言語モデルを提案する。
AFLocのコアとなる強みは、多段階のセマンティックな構造に基づくコントラスト学習であり、多彩な画像特徴を持つレポートから多彩な医療概念を包括的に整合させ、専門家のイメージアノテーションに頼らずに、多彩な病理と見えない病理の表現に適応する。
胸部X線画像における概念の証明を実証し、6つの異なる外部データセットにまたがる広範囲な実験的検証を行い、13種類の胸部病理を網羅した。
以上の結果から,AFLOCは病因の局所化や分類において最先端の手法を超越し,また5つの病因の特定においてヒトのベンチマークよりも優れていたことが示唆された。
さらに、網膜基底画像に適用することで、その一般化能力をさらに検証する。
本研究は, AFLOC の多様性を実証し, 複雑な臨床環境における臨床診断への適合性を裏付けるものである。
Defining pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability is crucial in clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language model for Annotation-Free pathology Localization (AFLoc). The core strength of AFLoc lies in its extensive multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of pathologies and unseen pathologies without the reliance on image annotations from experts. We demonstrate the proof of concept on Chest X-ray images, with extensive experimental validation across 6 distinct external datasets, encompassing 13 types of chest pathologies. The results demonstrate that AFLoc surpasses state-of-the-art methods in pathology localization and classification, and even outperforms the human benchmark in locating 5 different pathologies. Additionally, we further verify its generalization ability by applying it to retinal fundus images. Our approach showcases AFLoc's versatilities and underscores its suitability for clinical diagnosis in complex clinical environments. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# 量子拡散モデルのためのメモリ効率の良い微調整
Memory-Efficient Fine-Tuning for Quantized Diffusion Model ( http://arxiv.org/abs/2401.04339v2 ) ライセンス: Link先を確認 | Hyogon Ryu, Seohyun Lim, Hyunjung Shim, | (参考訳) 安定拡散XL、Imagen、DALL-E 3のような数十億パラメータ拡散モデルの出現は、生成AIの領域を著しく推進している。
しかし、彼らの大規模アーキテクチャは、リソースの要求が高く、推論速度が遅いため、微調整とデプロイメントの課題を呈している。
本稿では、微調整量子化拡散モデルの比較的未解明かつ有望な領域について考察する。
解析の結果,拡散モデルの微調整において,モデル重みの異なるパターンと時間段階の異なる役割を無視することが判明した。
これらの制約に対処するために,TuneQDMと呼ばれる量子化拡散モデルに特化して設計された,メモリ効率の高いファインチューニング手法を提案する。
本稿では,チャネル間重みパターンを考慮した分別関数として量子化スケールを導入する。
そして、これらのスケールをタイムステップ固有の方法で最適化し、各タイムステップの役割を効果的に反映します。
TuneQDMは、その完全精度に匹敵するパフォーマンスを実現し、同時にメモリ効率も大幅に向上した。
実験結果から,本手法は単目的/多目的の両世代におけるベースラインを一貫して上回り,高い主観的忠実度を示し,完全精度のモデルに匹敵する即時的忠実度を示すことがわかった。
The emergence of billion-parameter diffusion models such as Stable Diffusion XL, Imagen, and DALL-E 3 has significantly propelled the domain of generative AI. However, their large-scale architecture presents challenges in fine-tuning and deployment due to high resource demands and slow inference speed. This paper explores the relatively unexplored yet promising realm of fine-tuning quantized diffusion models. Our analysis revealed that the baseline neglects the distinct patterns in model weights and the different roles throughout time steps when finetuning the diffusion model. To address these limitations, we introduce a novel memory-efficient fine-tuning method specifically designed for quantized diffusion models, dubbed TuneQDM. Our approach introduces quantization scales as separable functions to consider inter-channel weight patterns. Then, it optimizes these scales in a timestep-specific manner for effective reflection of the role of each time step. TuneQDM achieves performance on par with its full-precision counterpart while simultaneously offering significant memory efficiency. Experimental results demonstrate that our method consistently outperforms the baseline in both single-/multi-subject generations, exhibiting high subject fidelity and prompt fidelity comparable to the full precision model. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# 擬似位相減衰による安定化符号のコヒーレント誤差
Coherent errors in stabilizer codes caused by quasistatic phase damping ( http://arxiv.org/abs/2401.04530v3 ) ライセンス: Link先を確認 | Dávid Pataki, Áron Márton, János K. Asbóth, András Pályi, | (参考訳) 量子誤り訂正は、近年大きな実験的進歩を遂げている現実的な量子コンピュータの開発において重要な課題である。
固体量子ビットでは、主要な情報損失機構の一つが強調され、通常位相フリップエラーによってモデル化される。
本稿では,1/f雑音によるラーモア周波数変動の影響を記述した,より微妙な誤差モデルである擬似位相減衰を導入する。
多サイクル誤差補正の観点から、このモデルが単純な位相反転誤差モデルとどのように異なるかを示す。
表面符号を考慮すると、擬似位相減衰と読み出し誤差の存在下で、誤差閾値の数値的証拠を提供する。
スピン量子ビットおよび超伝導量子ビットに対する結果の影響について論じる。
Quantum error correction is a key challenge for the development of practical quantum computers, a direction in which significant experimental progress has been made in recent years. In solid-state qubits, one of the leading information loss mechanisms is dephasing, usually modelled by phase flip errors. Here, we introduce quasistatic phase damping, a more subtle error model which describes the effect of Larmor frequency fluctuations due to 1/f noise. We show how this model is different from a simple phase flip error model, in terms of multi-cycle error correction. Considering the surface code, we provide numerical evidence for an error threshold, in the presence of quasistatic phase damping and readout errors. We discuss the implications of our results for spin qubits and superconducting qubits. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# リポジトリレベルコード生成におけるオートコンプリートツールの活用
Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation ( http://arxiv.org/abs/2401.06391v3 ) ライセンス: Link先を確認 | Chong Wang, Jian Zhang, Yebo Feng, Tianlin Li, Weisong Sun, Yang Liu, Xin Peng, | (参考訳) コード大言語モデル(LLM)は、リポジトリレベルの依存性(例えば、ユーザ定義属性)に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面します。
本稿では、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するToolGenを紹介する。
ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とTool-Integated Code Generation(Online)の2つの主要なフェーズで構成されている。
オフラインフェーズでは、ToolGenは特定のコードコーパス内の機能を特別なマークトークンで拡張し、自動補完ツールを起動する位置を示す。
これらの拡張関数は、対応するドクストリングとともに、選択されたコードLLMを微調整するために使用される。
オンラインフェーズでは、ToolGenは、微調整LDMを使用してトークンを段階的に予測することで、関数を反復的に生成する。
マークトークンに遭遇するたびに、ToolGenは自動補完ツールを呼び出して、コード補完を提案し、最も適切なものを選択する。
リポジトリレベルのコード生成におけるToolGenの有効性を評価するために、包括的な実験を行う。
この評価を容易にするために、671の現実世界のコードリポジトリからなるベンチマークを作成し、依存性カバレッジと静的妥当性率という2つの新しい依存性ベースのメトリクスを導入しました。
その結果、ツールGenは依存性カバレッジを31.4%から39.1%、静的妥当性率を44.9%から57.7%改善し、BLEU-4、CodeBLEU、Edit similarity、Exact Matchといった広く認識されている類似性メトリクスの競合性や改善性能を維持した。
CoderEvalデータセットでは、CodeT5とCodeLlamaでそれぞれPass@1で40.0%と25.0%の改善を実現している。
Code large language models (LLMs) face limitations in repository-level code generation due to their lack of awareness of repository-level dependencies (e.g., user-defined attributes), resulting in dependency errors such as undefined-variable and no-member errors. In this work, we introduce ToolGen, an approach that integrates autocompletion tools into the code LLM generation process to address these dependencies. ToolGen comprises two main phases: Trigger Insertion and Model Fine-tuning (Offline), and Tool-integrated Code Generation (Online). During the offline phase, ToolGen augments functions within a given code corpus with a special mark token, indicating positions to trigger autocompletion tools. These augmented functions, along with their corresponding docstrings, are then used to fine-tune a selected code LLM. In the online phase, ToolGen iteratively generates functions by predicting tokens step-by-step using the fine-tuned LLM. Whenever a mark token is encountered, ToolGen invokes the autocompletion tool to suggest code completions and selects the most appropriate one. We conduct comprehensive experiments to evaluate ToolGen's effectiveness in repository-level code generation. To facilitate this evaluation, we create a benchmark comprising 671 real-world code repositories and introduce two new dependency-based metrics: Dependency Coverage and Static Validity Rate. The results demonstrate that ToolGen significantly improves Dependency Coverage by 31.4% to 39.1% and Static Validity Rate by 44.9% to 57.7% across the three LLMs, while maintaining competitive or improved performance in widely recognized similarity metrics such as BLEU-4, CodeBLEU, Edit Similarity, and Exact Match. On the CoderEval dataset, ToolGen achieves improvements of 40.0% and 25.0% in Pass@1 for CodeT5 and CodeLlama, respectively. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# 非凸正規化問題の厳密なサドル点を回避する
Avoiding strict saddle points of nonconvex regularized problems ( http://arxiv.org/abs/2401.09274v3 ) ライセンス: Link先を確認 | Luwei Bai, Yaohua Hu, Hao Wang, Xiaoqi Yang, | (参考訳) 本稿では,非凸・非滑らかなスパース最適化問題のクラスについて考察する。
2階最適条件は定常点の零点にのみ依存することを示す。
本稿では,反復再重み付き$\ell_1$アルゴリズム(DIRL$_1$)と反復再重み付き$\ell_2$(DIRL$_2$)アルゴリズム(DIRL$)の2つの繰り返し重み付き再重み付きアルゴリズムを提案する。
DIRL$_1$の場合、再重み付き$\ell_1$ subproblemは、DIRL$_1$が定常点付近の勾配降下アルゴリズムに局所的に復帰するように、サポート識別特性を持つことを示す。
DIRL$_2$ に対し、reweighted $\ell_2$ subproblem is differentiable and Lipschitz continuous everywhere の解写像を示す。
したがって、DIRL$_1$とDIRL$_2$とそれらの逆写像はリプシッツ連続であり、厳密なサドル点は不安定な不動点である。
安定多様体の定理を適用することにより、これらのアルゴリズムは厳密なサドル点の性質が仮定されるとき、ランダムに初期化される局所最小化にのみ収束することが示される。
In this paper, we consider a class of non-convex and non-smooth sparse optimization problems, which encompass most existing nonconvex sparsity-inducing terms. We show the second-order optimality conditions only depend on the nonzeros of the stationary points. We propose two damped iterative reweighted algorithms including the iteratively reweighted $\ell_1$ algorithm (DIRL$_1$) and the iteratively reweighted $\ell_2$ (DIRL$_2$) algorithm, to solve these problems. For DIRL$_1$, we show the reweighted $\ell_1$ subproblem has support identification property so that DIRL$_1$ locally reverts to a gradient descent algorithm around a stationary point. For DIRL$_2$, we show the solution map of the reweighted $\ell_2$ subproblem is differentiable and Lipschitz continuous everywhere. Therefore, the map of DIRL$_1$ and DIRL$_2$ and their inverse are Lipschitz continuous, and the strict saddle points are their unstable fixed points. By applying the stable manifold theorem, these algorithms are shown to converge only to local minimizers with randomly initialization when the strictly saddle point property is assumed. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# 多言語視覚音声認識のための効率的な訓練:離散化音声表現による事前学習
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation ( http://arxiv.org/abs/2401.09802v2 ) ライセンス: Link先を確認 | Minsu Kim, Jeong Hun Yeo, Se Jin Park, Hyeongseop Rha, Yong Man Ro, | (参考訳) 本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚データの多言語多言語モデリングには膨大な計算コストを必要とするため,視覚音声単位を用いた新しい学習手法を提案する。
近年の音声音声ユニットの成功に触発されて,自己教師型視覚音声モデルから抽出した視覚音声特徴を識別して得られる視覚音声ユニットを提案する。
分析により,非言語的情報を抑えつつ,視覚単位が主にビセム情報を含むことを確認した。
本システムでは,視覚音声単位を入力として,複数のVSRデータベースをマージして構築した多言語データに対して,対応するテキスト出力を予測するために,VSRモデルを事前学習することを提案する。
入力(視覚音声単位)と出力(テキスト)の両方が離散的であるため、標準のVSR訓練と比較してトレーニング効率を大幅に向上させることができる。
具体的には、入力データサイズを元のビデオ入力の0.016%に削減する。
音声認識における視覚情報の不足を補うために,音声・視覚音声単位からシステム入力が始まり,徐々に視覚音声単位に変化するカリキュラム学習を適用する。
事前トレーニング後、モデルは連続した機能に基づいて微調整される。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
This paper explores sentence-level multilingual Visual Speech Recognition (VSR) that can recognize different languages with a single trained model. As the massive multilingual modeling of visual data requires huge computational costs, we propose a novel training strategy, processing with visual speech units. Motivated by the recent success of the audio speech unit, we propose to use a visual speech unit that can be obtained by discretizing the visual speech features extracted from the self-supervised visual speech model. Through analysis, we verify that the visual speech units mainly contain viseme information while suppressing non-linguistic information. By using the visual speech units as the inputs of our system, we propose to pre-train a VSR model to predict corresponding text outputs on multilingual data constructed by merging several VSR databases. As both the inputs (i.e., visual speech units) and outputs (i.e., text) are discrete, we can greatly improve the training efficiency compared to the standard VSR training. Specifically, the input data size is reduced to 0.016% of the original video inputs. In order to complement the insufficient visual information in speech recognition, we apply curriculum learning where the inputs of the system begin with audio-visual speech units and gradually change to visual speech units. After pre-training, the model is finetuned on continuous features. We set new state-of-the-art multilingual VSR performances by achieving comparable performances to the previous language-specific VSR models, with a single trained model. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# 明示的連鎖と視覚的質問生成による大規模マルチモーダルモデルの改善
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation ( http://arxiv.org/abs/2401.10005v2 ) ライセンス: Link先を確認 | Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada, | (参考訳) 視覚的内容の解釈と推論が可能なインテリジェントシステムへの需要が高まっているため、視覚・言語モデル(VLM)は、正確であるだけでなく、明確な推論能力も備えている。
本稿では,視覚的内容とテキストによる指示に基づく明示的推論機能を備えたVLMの開発手法を提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
そこで我々はLarge Language Model(LLM)によって生成された新しいデータセットを開発した。
データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
さらに、作成したデータセットを使用して、既存のVLMを微調整しました。
このトレーニングにより、モデルが質問を生成し、推論中に反復推論を実行できるようになった。
その結果、より堅牢で正確で解釈可能なVLMへの一歩が示され、曖昧な視覚的入力に直面すると、情報を明確に推論し、積極的に情報を求めることが可能となった。
The increasing demand for intelligent systems capable of interpreting and reasoning about visual content requires the development of large Vision-and-Language Models (VLMs) that are not only accurate but also have explicit reasoning capabilities. This paper presents a novel approach to develop a VLM with the ability to conduct explicit reasoning based on visual content and textual instructions. We introduce a system that can ask a question to acquire necessary knowledge, thereby enhancing the robustness and explicability of the reasoning process. To this end, we developed a novel dataset generated by a Large Language Model (LLM), designed to promote chain-of-thought reasoning combined with a question-asking mechanism. The dataset covers a range of tasks, from common ones like caption generation to specialized VQA tasks that require expert knowledge. Furthermore, using the dataset we created, we fine-tuned an existing VLM. This training enabled the models to generate questions and perform iterative reasoning during inference. The results demonstrated a stride toward a more robust, accurate, and interpretable VLM, capable of reasoning explicitly and seeking information proactively when confronted with ambiguous visual input. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# ToDA:リコメンデーションシステムに対するターゲット指向拡散攻撃装置
ToDA: Target-oriented Diffusion Attacker against Recommendation System ( http://arxiv.org/abs/2401.12578v3 ) ライセンス: Link先を確認 | Xiaohao Liu, Zhulin Tao, Ting Jiang, He Chang, Yunshan Ma, Yinwei Wei, Xiang Wang, | (参考訳) レコメンデーションシステム(RS)は、Webサービスが情報過負荷に対処するために必要なツールとなり、ユーザーエクスペリエンスを高め、プラットフォームの売上を伸ばす。
しかし、そのユビキタス化に伴い、セキュリティ上の懸念も浮かび上がっている。
RSのパブリックアクセシビリティとして、敵がユーザープロファイルを操作できる特定の悪意のある攻撃を受けやすいため、バイアスのあるレコメンデーションにつながる。
最近の研究は、しばしばジェネレーティブモデルを用いて、これらの偽りのユーザープロファイルを構築するために追加のモジュールを統合し、意図した害を発生させながら、それらが認識できないことを保証している。
その有効性にもかかわらず、これらのモデルは不安定な訓練と探索・探索ジレンマの難題に直面しており、これは準最適結果をもたらす可能性がある。
本稿では,拡散モデル (DM) によるシリング攻撃の可能性について検討する。
具体的には,ターゲット指向拡散攻撃モデル(ToDA)を提案する。
ユーザープロファイルを高次元空間に変換し、ToDAのコアコンポーネントであるLatent Diffusion Attacker (LDA)と組み合わせる、事前訓練されたオートエンコーダが組み込まれている。
LDAは、この潜伏空間内のプロファイルにノイズを導入し、クロスアテンション機構を通じてターゲットアイテムに対する近似を順応的に制御する。
2部グラフによって実装されたグローバルな水平線は、LDAに関与しており、符号化されたユーザプロファイル機能から導出されている。
これにより、LDAは、オンプロセッシングユーザ機能自体の外部へ生成を拡張し、拡散されたユーザ機能とターゲットアイテム機能の間のギャップを埋めることが可能になる。
いくつかのSOTAベースラインと比較して大規模な実験は、ToDAの有効性を示している。
特定の研究は、ToDAのエラボレーティブデザインを活用し、このような文脈における先進的な生成モデルの有効性を強調している。
Recommendation systems (RS) have become indispensable tools for web services to address information overload, thus enhancing user experiences and bolstering platforms' revenues. However, with their increasing ubiquity, security concerns have also emerged. As the public accessibility of RS, they are susceptible to specific malicious attacks where adversaries can manipulate user profiles, leading to biased recommendations. Recent research often integrates additional modules using generative models to craft these deceptive user profiles, ensuring them are imperceptible while causing the intended harm. Albeit their efficacy, these models face challenges of unstable training and the exploration-exploitation dilemma, which can lead to suboptimal results. In this paper, we pioneer to investigate the potential of diffusion models (DMs), for shilling attacks. Specifically, we propose a novel Target-oriented Diffusion Attack model (ToDA). It incorporates a pre-trained autoencoder that transforms user profiles into a high dimensional space, paired with a Latent Diffusion Attacker (LDA)-the core component of ToDA. LDA introduces noise into the profiles within this latent space, adeptly steering the approximation towards targeted items through cross-attention mechanisms. The global horizon, implemented by a bipartite graph, is involved in LDA and derived from the encoded user profile feature. This makes LDA possible to extend the generation outwards the on-processing user feature itself, and bridges the gap between diffused user features and target item features. Extensive experiments compared to several SOTA baselines demonstrate ToDA's effectiveness. Specific studies exploit the elaborative design of ToDA and underscore the potency of advanced generative models in such contexts. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# プラケット鎖上の(\mathbf{2+1}$)次元SU(2)格子ゲージ理論の絡み合いエントロピー
Entanglement Entropy of ($\mathbf{2+1}$)-Dimensional SU(2) Lattice Gauge Theory on Plaquette Chains ( http://arxiv.org/abs/2401.15184v3 ) ライセンス: Link先を確認 | Lukas Ebner, Andreas Schäfer, Clemens Seidl, Berndt Müller, Xiaojun Yao, | (参考訳) 線形ラケット鎖上のハミルトンSU(2)格子ゲージ理論のエンタングルエントロピーを2+1$次元で研究し、基底および励起状態のエンタングルエントロピーがページ曲線に従うことを示す。
基底状態の領域法則から高励起状態の体積法則への絡み合いエントロピーのサブシステムサイズ依存性の遷移は、普遍的クロスオーバー関数によって説明できる。
スペクトルの中央にある量子多体傷は、ゲージ理論がイジングモデルに写像できるヒルベルト空間に存在し、高次の電場表現がヒルベルト空間基底に含まれると消滅する。
これは連続体 $(2+1)$-次元 SU(2) ゲージ理論がそのような不足状態を持たないことを示唆している。
We study the entanglement entropy of Hamiltonian SU(2) lattice gauge theory in $2+1$ dimensions on linear plaquette chains and show that the entanglement entropies of both ground and excited states follow Page curves. The transition of the subsystem size dependence of the entanglement entropy from the area law for the ground state to the volume law for highly excited states is found to be described by a universal crossover function. Quantum many-body scars in the middle of the spectrum, which are present in the electric flux truncated Hilbert space, where the gauge theory can be mapped onto an Ising model, disappear when higher electric field representations are included in the Hilbert space basis. This suggests the continuum $(2+1)$-dimensional SU(2) gauge theory does not have such scarred states. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# FreeStyle:拡散モデルを用いたテキストガイド型転送のためのフリーランチ
FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models ( http://arxiv.org/abs/2401.15636v2 ) ライセンス: Link先を確認 | Feihong He, Gang Li, Mengyuan Zhang, Leilei Yan, Lingyu Si, Fanzhang Li, Li Shen, | (参考訳) 生成拡散モデルの急速な発展は、スタイル伝達の分野を著しく進歩させた。
しかし、拡散モデルに基づく現在のスタイル転送手法の多くは、例えば、モデルファインチューニングやスタイル概念のテキスト反転といった、遅い反復最適化プロセスを含むことが多い。
本稿では,事前学習した大規模拡散モデル上に構築された革新的なスタイル伝達手法であるFreeStyleについて述べる。
また,本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
具体的には、拡散モデルにおける従来のU-Netの代わりに、デュアルストリームエンコーダとシングルストリームデコーダアーキテクチャを提案する。
デュアルストリームエンコーダでは、コンテンツイメージとスタイルテキストプロンプトを入力として、コンテンツとスタイルの疎結合を実現する。
復号器では、与えられたコンテンツ画像と対応するスタイルテキストプロンプトに基づいて、2重ストリームからの特徴を調整し、正確なスタイル転送を行う。
実験の結果,様々なコンテンツ画像とスタイルのテキストプロンプトにまたがって,提案手法の高品質な合成と忠実さを実証した。
トレーニングを必要とする最先端のメソッドと比較して、FreeStyleのアプローチは、CLIP Aesthetic Score、CLIP Score、Preferenceなど、複数の評価指標で同等あるいは優れたパフォーマンスを実現しつつ、計算負荷を数千イテレーション削減します。
私たちは匿名でコードをリリースした。 \href{https://anonymous.4open.science/r/FreeStyleAnonymous-0F9B}
The rapid development of generative diffusion models has significantly advanced the field of style transfer. However, most current style transfer methods based on diffusion models typically involve a slow iterative optimization process, e.g., model fine-tuning and textual inversion of style concept. In this paper, we introduce FreeStyle, an innovative style transfer method built upon a pre-trained large diffusion model, requiring no further optimization. Besides, our method enables style transfer only through a text description of the desired style, eliminating the necessity of style images. Specifically, we propose a dual-stream encoder and single-stream decoder architecture, replacing the conventional U-Net in diffusion models. In the dual-stream encoder, two distinct branches take the content image and style text prompt as inputs, achieving content and style decoupling. In the decoder, we further modulate features from the dual streams based on a given content image and the corresponding style text prompt for precise style transfer. Our experimental results demonstrate high-quality synthesis and fidelity of our method across various content images and style text prompts. Compared with state-of-the-art methods that require training, our FreeStyle approach notably reduces the computational burden by thousands of iterations, while achieving comparable or superior performance across multiple evaluation metrics including CLIP Aesthetic Score, CLIP Score, and Preference. We have released the code anonymously at: \href{https://anonymous.4open.science/r/FreeStyleAnonymous-0F9B} | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# LADDER: 深層学習アプローチによる宇宙距離ラダーの再検討と応用
LADDER: Revisiting the Cosmic Distance Ladder with Deep Learning Approaches and Exploring its Applications ( http://arxiv.org/abs/2401.17029v2 ) ライセンス: Link先を確認 | Rahul Shah, Soumadeep Saha, Purba Mukherjee, Utpal Garain, Supratik Pal, | (参考訳) LADDER(Learning Algorithm for Deep Distance Estimation and Reconstruction)と呼ばれる新しいディープラーニングフレームワークを用いて、宇宙の「宇宙距離はしご」を再構築する可能性を検討する。
LADDERは、パンテオン型Ia超新星コンパイルの見かけの大きさデータに基づいて訓練され、データポイント間の完全な共分散情報を組み込んで、対応するエラーと共に予測を生成する。
多数のディープラーニングモデルを用いた検証テストを数回実施した後、最高のパフォーマンスとしてLADDERを選択します。
次に,宇宙論的な文脈における本手法の適用例を示し,バリオン音響振動などの他のデータセットの整合性チェックのためのモデル非依存ツール,ガンマ線バーストなどの高赤方偏移データセットの校正,将来のプローブのためのモデル非依存のモックカタログ生成器としての利用等について述べる。
この分析は、宇宙論の文脈に適用された機械学習技術について慎重に検討することを提唱する。
We investigate the prospect of reconstructing the ''cosmic distance ladder'' of the Universe using a novel deep learning framework called LADDER - Learning Algorithm for Deep Distance Estimation and Reconstruction. LADDER is trained on the apparent magnitude data from the Pantheon Type Ia supernovae compilation, incorporating the full covariance information among data points, to produce predictions along with corresponding errors. After employing several validation tests with a number of deep learning models, we pick LADDER as the best performing one. We then demonstrate applications of our method in the cosmological context, including serving as a model-independent tool for consistency checks for other datasets like baryon acoustic oscillations, calibration of high-redshift datasets such as gamma ray bursts, and use as a model-independent mock catalog generator for future probes. Our analysis advocates for careful consideration of machine learning techniques applied to cosmological contexts. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# ディープフェイク検出のための常識推論
Common Sense Reasoning for Deepfake Detection ( http://arxiv.org/abs/2402.00126v2 ) ライセンス: Link先を確認 | Yue Zhang, Ben Colman, Xiao Guo, Ali Shahriyari, Gaurav Bharaj, | (参考訳) 最先端のディープフェイク検出アプローチは、ニューラルネットワークを介して抽出された画像ベースの機能に依存している。
監督された方法で訓練されたこれらのアプローチは、おそらく偽の特徴を抽出するが、不自然な「非物理的な」意味的な顔の特徴、ぼやけた毛髪、双眼、堅い瞳孔、または不自然な皮膚の陰を表現できない可能性がある。
しかし、このような顔の特徴は人間によって容易に認識され、人間の常識に基づいて画像の正当性を識別するために用いられる。
さらに,視覚的説明を提供する画像に基づく特徴抽出手法は,人に対する解釈が困難である。
これらの課題に対処するため,ディープフェイク検出をDeepfake Detection VQA(DD-VQA)タスクとして用い,画像のラベル付けに関する常識的理由を記述したテキストによる説明を提供することで人間の直感をモデル化する。
我々は、新しい注釈付きデータセットを導入し、DD-VQAタスクのためのビジョン・アンド・ランゲージ・トランスフォーマーベースのフレームワークを提案する。
また、マルチモーダル表現学習を強化するために、テキストと画像認識機能アライメントの定式化も取り入れた。
その結果、DD-VQAタスクからの常識的知識を前提とした学習された視覚表現を統合することにより、既存のディープフェイク検出モデルを改善した。
提案手法は,ディープフェイク検出タスクにおける検出性能,一般化能力,言語に基づく解釈性を向上させることを示す。
State-of-the-art deepfake detection approaches rely on image-based features extracted via neural networks. While these approaches trained in a supervised manner extract likely fake features, they may fall short in representing unnatural `non-physical' semantic facial attributes -- blurry hairlines, double eyebrows, rigid eye pupils, or unnatural skin shading. However, such facial attributes are easily perceived by humans and used to discern the authenticity of an image based on human common sense. Furthermore, image-based feature extraction methods that provide visual explanations via saliency maps can be hard to interpret for humans. To address these challenges, we frame deepfake detection as a Deepfake Detection VQA (DD-VQA) task and model human intuition by providing textual explanations that describe common sense reasons for labeling an image as real or fake. We introduce a new annotated dataset and propose a Vision and Language Transformer-based framework for the DD-VQA task. We also incorporate text and image-aware feature alignment formulation to enhance multi-modal representation learning. As a result, we improve upon existing deepfake detection models by integrating our learned vision representations, which reason over common sense knowledge from the DD-VQA task. We provide extensive empirical results demonstrating that our method enhances detection performance, generalization ability, and language-based interpretability in the deepfake detection task. | 翻訳日:2024-07-19 21:41:25 公開日:2024-07-18 |
# SynthCLIP: 完全合成CLIPトレーニングの準備はできているか?
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? ( http://arxiv.org/abs/2402.01832v2 ) ライセンス: Link先を確認 | Hasan Abed Al Kader Hammoud, Hani Itani, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, | (参考訳) 完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
近年のテキスト・ツー・イメージ(TTI)ネットワークと大規模言語モデル(LLM)を活用して,画像と対応するキャプションの合成データセットを大規模に生成する。
本研究では,合成データに基づいて学習したCLIPモデルの解析を行う。
データ生成戦略、必要なサンプル数、スケーリングトレンド、結果の特性に関する洞察を提供する。
また,3000万枚のキャプション画像からなる純合成データセットであるSynthCI-30Mも導入した。
私たちのコード、トレーニングされたモデル、データはhttps://github.com/hammoudhasan/SynthCLIPでオープンソースとして公開されています。
We present SynthCLIP, a CLIP model trained on entirely synthetic text-image pairs. Leveraging recent text-to-image (TTI) networks and large language models (LLM), we generate synthetic datasets of images and corresponding captions at scale, with no human intervention. In this work, we provide an analysis on CLIP models trained on synthetic data. We provide insights on the data generation strategy, number of samples required, scaling trends, and resulting properties. We also introduce SynthCI-30M, a purely synthetic dataset comprising 30 million captioned images. Our code, trained models, and data, are released as open source at https://github.com/hammoudhasan/SynthCLIP | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# V-IRL: 現実のバーチャルインテリジェンス
V-IRL: Grounding Virtual Intelligence in Real Life ( http://arxiv.org/abs/2402.03310v3 ) ライセンス: Link先を確認 | Jihan Yang, Runyu Ding, Ellis Brown, Xiaojuan Qi, Saining Xie, | (参考訳) 人類が住む地球と、現代のAIエージェントが作られるデジタル世界との間には、感覚的な湾がある。
現実の環境で人間のように柔軟に感じ、思考し、行動できるAIエージェントを開発するためには、デジタルと物理の世界の間の現実主義のギャップを埋めることが不可欠である。
実際のハードウェアとコントロールが課す制約なしに、どのようにしてエージェントを、私たちが住んでいるものと同じくらい豊かで多様な環境に具体化できますか?
この目的に向けて,エージェントが仮想的かつ現実的な環境で現実の世界と肩を並べることのできるプラットフォームであるV-IRLを紹介した。
私たちのプラットフォームは、さまざまな実践的なタスクを達成できるエージェントを開発するための遊び場として機能し、世界全体での知覚、意思決定、実世界のデータとの相互作用を含む能力の進歩を測定するための広大なテストベッドとして役立ちます。
There is a sensory gulf between the Earth that humans inhabit and the digital realms in which modern AI agents are created. To develop AI agents that can sense, think, and act as flexibly as humans in real-world settings, it is imperative to bridge the realism gap between the digital and physical worlds. How can we embody agents in an environment as rich and diverse as the one we inhabit, without the constraints imposed by real hardware and control? Towards this end, we introduce V-IRL: a platform that enables agents to scalably interact with the real world in a virtual yet realistic environment. Our platform serves as a playground for developing agents that can accomplish various practical tasks and as a vast testbed for measuring progress in capabilities spanning perception, decision-making, and interaction with real-world data across the entire globe. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# インボディードAIへの呼びかけ
A call for embodied AI ( http://arxiv.org/abs/2402.03824v3 ) ライセンス: Link先を確認 | Giuseppe Paolo, Jonas Gonzalez-Billandon, Balázs Kégl, | (参考訳) 我々は、人工知能の追求における次の基本的なステップとして、Embodied AIを提案する。
我々は、哲学、心理学、神経科学、ロボティクスといった様々な分野にまたがるエンボディメントの概念の進化を横切り、EAIが静的学習の古典的パラダイムとどのように区別するかを強調する。
Embodied AIの範囲を広げることで、認知アーキテクチャに基づいた理論的枠組みを導入し、認知、行動、記憶、学習をエンボディエージェントの本質的な構成要素として強調する。
このフレームワークはFristonのアクティブな推論原則と一致しており、EAI開発に対する包括的なアプローチを提供する。
AIの分野での進歩にもかかわらず、新しいAI学習理論の定式化や高度なハードウェアの革新といった大きな課題が続いている。
私たちの議論は、将来のEmbodied AI研究の基礎となるガイドラインを概説している。
現実の環境における人間や他の知的なエンティティとのシームレスなコミュニケーション、コラボレーション、共存が可能なエンボダイドAIエージェントを作成することの重要性を強調し、我々はAIコミュニティを、多面的な課題に対処し、AGIの探求に先立つ機会をつかむことを目指しています。
We propose Embodied AI as the next fundamental step in the pursuit of Artificial General Intelligence, juxtaposing it against current AI advancements, particularly Large Language Models. We traverse the evolution of the embodiment concept across diverse fields - philosophy, psychology, neuroscience, and robotics - to highlight how EAI distinguishes itself from the classical paradigm of static learning. By broadening the scope of Embodied AI, we introduce a theoretical framework based on cognitive architectures, emphasizing perception, action, memory, and learning as essential components of an embodied agent. This framework is aligned with Friston's active inference principle, offering a comprehensive approach to EAI development. Despite the progress made in the field of AI, substantial challenges, such as the formulation of a novel AI learning theory and the innovation of advanced hardware, persist. Our discussion lays down a foundational guideline for future Embodied AI research. Highlighting the importance of creating Embodied AI agents capable of seamless communication, collaboration, and coexistence with humans and other intelligent entities within real-world environments, we aim to steer the AI community towards addressing the multifaceted challenges and seizing the opportunities that lie ahead in the quest for AGI. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# ニューラル密度演算子を用いたオープン量子系としてのシュウィンガーモデルのリアルタイムダイナミクス
Real-time Dynamics of the Schwinger Model as an Open Quantum System with Neural Density Operators ( http://arxiv.org/abs/2402.06607v2 ) ライセンス: Link先を確認 | Joshua Lin, Di Luo, Xiaojun Yao, Phiala E. Shanahan, | (参考訳) クォーク・グルーオンプラズマ中に伝播する重クォークの非初期シミュレーションは密度行列の空間の大きな次元のために計算的に困難である。
この研究は、ニューラルネットワークパラメトリクス、特にニューラル密度演算子で正確な量子状態を近似することで、この難しさを克服する機械学習アルゴリズムを開発する。
QCDのような理論における原理実証の証明として、1+1d格子シュウィンガーモデルにおけるリンドブラッド・マスター方程式を開量子系として解く方法が応用される。
ニューラルネットワーク演算子は、多弦相互作用とその弦破れおよび組換え現象に対する影響を研究することができる、大きな格子体積上のナトリウム内ダイナミクスの研究を可能にする。
平衡系の熱的性質は、リンドブラッド・マスター方程式の定常状態を変動的に構成することによって、これらの方法でも探索することができる。
システムサイズによるこのアプローチのスケーリングについて検討し、最大32の空間格子サイトと最大3つの相互作用文字列の数値的な実演を行う。
Ab-initio simulations of multiple heavy quarks propagating in a Quark-Gluon Plasma are computationally difficult to perform due to the large dimension of the space of density matrices. This work develops machine learning algorithms to overcome this difficulty by approximating exact quantum states with neural network parametrisations, specifically Neural Density Operators. As a proof of principle demonstration in a QCD-like theory, the approach is applied to solve the Lindblad master equation in the 1+1d lattice Schwinger Model as an open quantum system. Neural Density Operators enable the study of in-medium dynamics on large lattice volumes, where multiple-string interactions and their effects on string-breaking and recombination phenomena can be studied. Thermal properties of the system at equilibrium can also be probed with these methods by variationally constructing the steady state of the Lindblad master equation. Scaling of this approach with system size is studied, and numerical demonstrations on up to 32 spatial lattice sites and with up to 3 interacting strings are performed. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 確率凸最適化の情報複雑性:一般化と記憶への応用
Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization ( http://arxiv.org/abs/2402.09327v2 ) ライセンス: Link先を確認 | Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy, | (参考訳) 本研究では, 記憶と学習の相互作用を, \emph{stochastic convex Optimization} (SCO) の文脈で検討する。
学習アルゴリズムが学習データポイントについて示す情報を介して記憶を定義する。
そこで我々は,Steinke と Zakynthinou (2020) が提唱した条件付き相互情報(CMI)の枠組みを用いて,この情報を定量化する。
我々の主な成果は、Livni (2023) が提示したオープンな質問に答え、学習アルゴリズムの精度と CMI とのトレードオフを正確に評価することである。
L^2$ Lipschitz-bounded set and under strong convexity, with a excess error $\varepsilon$ has CMI bounded by $\Omega(1/\varepsilon^2)$ and $\Omega(1/\varepsilon)$。
さらに,特定のSCO問題におけるトレーニングサンプルのかなりの割合を正確に識別できる敵を設計することで,SCOにおける学習問題における記憶機能の重要性を実証する。
最後に、CMIに基づく一般化境界の制限やSCO問題におけるサンプルの非圧縮など、結果のいくつかの意味を列挙する。
In this work, we investigate the interplay between memorization and learning in the context of \emph{stochastic convex optimization} (SCO). We define memorization via the information a learning algorithm reveals about its training data points. We then quantify this information using the framework of conditional mutual information (CMI) proposed by Steinke and Zakynthinou (2020). Our main result is a precise characterization of the tradeoff between the accuracy of a learning algorithm and its CMI, answering an open question posed by Livni (2023). We show that, in the $L^2$ Lipschitz--bounded setting and under strong convexity, every learner with an excess error $\varepsilon$ has CMI bounded below by $\Omega(1/\varepsilon^2)$ and $\Omega(1/\varepsilon)$, respectively. We further demonstrate the essential role of memorization in learning problems in SCO by designing an adversary capable of accurately identifying a significant fraction of the training samples in specific SCO problems. Finally, we enumerate several implications of our results, such as a limitation of generalization bounds based on CMI and the incompressibility of samples in SCO problems. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 多体系における量子絡み合い入門
Introduction to quantum entanglement in many-body systems ( http://arxiv.org/abs/2402.09523v2 ) ライセンス: Link先を確認 | Anubhav Kumar Srivastava, Guillem Müller-Rigat, Maciej Lewenstein, Grzegorz Rajchel-Mieldzioć, | (参考訳) 量子力学の形式主義は、私たちの日々の認識に挑戦する新しい革命的概念をもたらした。
おそらく、古典的に再現できない相関を説明する量子絡み合いが最も顕著である。
その基本的な側面の他に、絡み合いはリソースであり、量子シミュレータやコンピュータのような創発的技術を駆使している。
本章の目的は、多部構成のシナリオ、すなわち多くの自由度に分散した絡み合いを特に重視して、この話題を教育的に紹介することである。
この設定の組合せの複雑さのため、粒子は相互作用し、複数の方法で絡み合うことができる。
まず、絡み合い理論から必要な数学的ツールと基本的な概念を提供することから始める。
この章の一部は、絡み合った国家の分類と秩序化に費やされる。
次に、テンソル・ネットワーク状態や対称状態のような凝縮マター理論に有用な様々な絡み合い構造に着目する。
最後に,実験中の相関関係を検出し,証明するための最先端手法について,いくつかの実例で論じる。
The quantum mechanics formalism introduced new revolutionary concepts challenging our everyday perceptions. Arguably, quantum entanglement, which explains correlations that cannot be reproduced classically, is the most notable of them. Besides its fundamental aspect, entanglement is also a resource, fueling emergent technologies such as quantum simulators and computers. The purpose of this chapter is to give a pedagogical introduction to the topic with a special emphasis on the multipartite scenario, i.e., entanglement distributed among many degrees of freedom. Due to the combinatorial complexity of this setting, particles can interact and become entangled in a plethora of ways, which we characterize here. We start by providing the necessary mathematical tools and elementary concepts from entanglement theory. A part of this chapter will be devoted to classifying and ordering entangled states. Then, we focus on various entanglement structures useful in condensed-matter theory such as tensor-network states or symmetric states useful for quantum-enhanced sensing. Finally, we discuss state-of-the-art methods to detect and certify such correlations in experiments, with some relevant illustrative examples. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 推論を重要視する:連鎖推論の忠実度の測定と改善
Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2402.13950v3 ) ライセンス: Link先を確認 | Debjit Paul, Robert West, Antoine Bosselut, Boi Faltings, | (参考訳) 大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
しかし、モデルの最終回答がどの程度、記述された推論ステップに忠実であるかは定かではない。
本稿では,12個のLCMの因果媒介分析を行い,LLMが生成する中間推論ステップが最終結果にどのように影響するかを検証し,回答を生成する際に,その中間推論ステップを確実に利用しないことを確かめる。
この問題に対処するため、我々はFRODOを紹介します。FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークです。
FRODOは、暗黙の因果報酬関数を用いて正しい推論ステップを生成することを学習する推論モジュールと、反事実的および因果選好目的を用いてこれらの中間推論を忠実に推論することを学ぶ推論モジュールから構成される。
実験の結果,FRODOは4つの競争基準線を著しく上回っていることがわかった。
さらに、FRODOは、推理LMの堅牢性と一般化能力を向上し、アウト・オブ・ディストリビューション・テスト・セットの性能を向上させる。
最後に、FRODOの理性は、標準的な教師付き微調整よりも最終的な答え予測に忠実であることが分かる。
Large language models (LLMs) have been shown to perform better when asked to reason step-by-step before answering a question. However, it is unclear to what degree the model's final answer is faithful to the stated reasoning steps. In this paper, we perform a causal mediation analysis on twelve LLMs to examine how intermediate reasoning steps generated by the LLM influence the final outcome and find that LLMs do not reliably use their intermediate reasoning steps when generating an answer. To address this issue, we introduce FRODO, a framework to tailor small-sized LMs to generate correct reasoning steps and robustly reason over these steps. FRODO consists of an inference module that learns to generate correct reasoning steps using an implicit causal reward function and a reasoning module that learns to faithfully reason over these intermediate inferences using a counterfactual and causal preference objective. Our experiments show that FRODO significantly outperforms four competitive baselines. Furthermore, FRODO improves the robustness and generalization ability of the reasoning LM, yielding higher performance on out-of-distribution test sets. Finally, we find that FRODO's rationales are more faithful to its final answer predictions than standard supervised fine-tuning. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 単一画像からのリアルタイム3次元画像編集
Real-time 3D-aware Portrait Editing from a Single Image ( http://arxiv.org/abs/2402.14000v3 ) ライセンス: Link先を確認 | Qingyan Bai, Zifan Shi, Yinghao Xu, Hao Ouyang, Qiuyu Wang, Ceyuan Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen, | (参考訳) 本研究は,参照画像やテキスト記述など,与えられたプロンプトに従って顔画像を効率よく3D対応で編集する3DPEを提案する。
この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識と優れた編集能力を提供する。
このような設計は、既存のアプローチに対して2つの強力なアドバンテージをもたらします。
まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。
第二に、強力な先行技術のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー指定のカスタマイズされた編集タイプ(例えば、スタイルごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に焦点を合わせることができました。
This work presents 3DPE, a practical method that can efficiently edit a face image following given prompts, like reference images or text descriptions, in a 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and superior editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our method achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified customized types of editing during inference (e.g., with ~5min fine-tuning per style). | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# MSPipe: 静的認識パイプラインによる効率的な時間的GNNトレーニング
MSPipe: Efficient Temporal GNN Training via Staleness-Aware Pipeline ( http://arxiv.org/abs/2402.15113v2 ) ライセンス: Link先を確認 | Guangming Sheng, Junwei Su, Chao Huang, Chuan Wu, | (参考訳) メモリベースの時間グラフニューラルネットワーク(MTGNN)は、ノードメモリモジュールを使用して長期の時間依存を捕捉し保持する時間グラフニューラルネットワークのクラスである。
しかし、MTGNNにおけるメモリモジュールの反復読み込みと更新プロセスにより、最新の情報を得るには、時間的依存関係に従う必要がある。
これにより、オーバーヘッドが大きくなり、トレーニングのスループットが制限される。
トレーニングパラダイム、モデルアーキテクチャ、メモリモジュールの欠如などにより、既存の静的GNNの最適化はMTGNNに直接適用できない。
さらに、時間的依存による課題に効果的に対応せず、MTGNNのトレーニングには効果がない。
本稿では,モデル精度を維持しながらトレーニングのスループットを最大化するMTGNNの汎用的で効率的なフレームワークであるMSPipeを提案する。
本設計では, MTGNNにおけるノードメモリ状態のフェッチと更新に, メモリモジュールに安定化を組み込むことで, ユニークな課題に対処する。
しかし、時間的依存を断ち切るためにメモリモジュールに事前に定義された静的性を導入するだけで、最適なパフォーマンスと異なるモデルやデータセット間の一般化性の欠如につながる可能性がある。
これを解決するために,MSPipe にオンラインパイプラインスケジューリングアルゴリズムを導入し,時間依存性を最小限の安定化で戦略的に破壊し,メモリフェッチを遅らせて新たなメモリ状態を得る方法を提案する。
さらに,トレーニングの収束とモデルの精度を高めるため,定常緩和機構を設計する。
収束解析を行い,MSPipeがバニラサンプルベースGNNトレーニングと同じ収束率を維持していることを示す。
実験の結果,MSPipeは精度を犠牲にすることなく最大2.45倍のスピードアップを実現し,MTGNNの効率的なトレーニングに有効であることがわかった。
Memory-based Temporal Graph Neural Networks (MTGNNs) are a class of temporal graph neural networks that utilize a node memory module to capture and retain long-term temporal dependencies, leading to superior performance compared to memory-less counterparts. However, the iterative reading and updating process of the memory module in MTGNNs to obtain up-to-date information needs to follow the temporal dependencies. This introduces significant overhead and limits training throughput. Existing optimizations for static GNNs are not directly applicable to MTGNNs due to differences in training paradigm, model architecture, and the absence of a memory module. Moreover, they do not effectively address the challenges posed by temporal dependencies, making them ineffective for MTGNN training. In this paper, we propose MSPipe, a general and efficient framework for MTGNNs that maximizes training throughput while maintaining model accuracy. Our design addresses the unique challenges associated with fetching and updating node memory states in MTGNNs by integrating staleness into the memory module. However, simply introducing a predefined staleness bound in the memory module to break temporal dependencies may lead to suboptimal performance and lack of generalizability across different models and datasets. To solve this, we introduce an online pipeline scheduling algorithm in MSPipe that strategically breaks temporal dependencies with minimal staleness and delays memory fetching to obtain fresher memory states. Moreover, we design a staleness mitigation mechanism to enhance training convergence and model accuracy. We provide convergence analysis and prove that MSPipe maintains the same convergence rate as vanilla sample-based GNN training. Experimental results show that MSPipe achieves up to 2.45x speed-up without sacrificing accuracy, making it a promising solution for efficient MTGNN training. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 機械インフォームドオートエンコーダは、予期せぬ構造損傷の自動検出と位置決めを可能にする
Mechanics-Informed Autoencoder Enables Automated Detection and Localization of Unforeseen Structural Damage ( http://arxiv.org/abs/2402.15492v2 ) ライセンス: Link先を確認 | Xuyang Li, Hamed Bolandi, Mahdi Masmoudi, Talal Salem, Nizar Lajnef, Vishnu Naresh Boddeti, | (参考訳) 構造的健康モニタリング(SHM)は、建物や橋などの構造物の安全性と長寿を保証する。
構造物の体積と規模が拡大し、その失敗の影響が拡大するにつれて、スケーラブルで安価で、人間の介入なしに受動的に動作し、複雑なベースラインモデルを必要とせずに各機械構造にカスタマイズできるSHM技術が求められている。
構造物の損傷の自動検出と局所化のための新しい"deploy-and-forget"アプローチであるMIDASを提案する。
これは、安価なセンサー、データ圧縮、およびメカニックインフォームドオートエンコーダから完全に受動的に計測される相乗的な統合である。
一度デプロイされると、MIDASは各構造に対して、損傷のない状態の応答特性から学習し、常に学習し、適応する。
わずか3時間のデータから学習すると、さまざまな種類の予期せぬ損傷を自律的に検出し、ローカライズすることができる。
数値シミュレーションおよび実験の結果、機械的特性をオートエンコーダに組み込むことで、標準的なオートエンコーダよりも小さな損傷の検出と局所化を最大35%改善できることが示された。
本手法は, 人的介入や検査コストの削減と, 予防的かつ予防的な維持戦略の実現を約束するものである。
これにより、民間インフラの寿命、信頼性、持続可能性が拡張される。
Structural health monitoring (SHM) ensures the safety and longevity of structures like buildings and bridges. As the volume and scale of structures and the impact of their failure continue to grow, there is a dire need for SHM techniques that are scalable, inexpensive, can operate passively without human intervention, and are customized for each mechanical structure without the need for complex baseline models. We present MIDAS, a novel "deploy-and-forget" approach for automated detection and localization of damage in structures. It is a synergistic integration of entirely passive measurements from inexpensive sensors, data compression, and a mechanics-informed autoencoder. Once deployed, MIDAS continuously learns and adapts a bespoke baseline model for each structure, learning from its undamaged state's response characteristics. After learning from just 3 hours of data, it can autonomously detect and localize different types of unforeseen damage. Results from numerical simulations and experiments indicate that incorporating the mechanical characteristics into the autoencoder allows for up to a 35% improvement in the detection and localization of minor damage over a standard autoencoder. Our approach holds significant promise for reducing human intervention and inspection costs while enabling proactive and preventive maintenance strategies. This will extend the lifespan, reliability, and sustainability of civil infrastructures. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 臨界量子センシングの最適性と雑音耐性
Optimality and Noise-Resilience of Critical Quantum Sensing ( http://arxiv.org/abs/2402.15559v3 ) ライセンス: Link先を確認 | Uesli Alushi, Wojciech Górecki, Simone Felicetti, Roberto Di Candia, | (参考訳) 臨界量子センシングと受動量子戦略を比較して周波数推定を行う。
ユニタリの場合、どちらの戦略も光子数と精度2次スケーリングを達成するが、散逸の存在下では、これは批判的戦略にのみ当てはまる。
また、例外的なポイントやしきい値を超えて作業することで、サブ最適パフォーマンスが得られます。
この臨界拡大は、開臨界力学における過渡的状態の出現によるものであり、温度変化に不変である。
時間とシステムのサイズの両方を資源として考えると、どちらの戦略においても、精度は基本的境界に従って、総時間と光子の個数の積と線形にスケールする。
しかし,準備時間と測定時間が無視できない場合,クリティカルプロトコルは最適受動的戦略よりも優れていることを示す。
この結果は、有限成分および完全連結モデルで記述されたシステムを含む、現象学を1モードの二次ハミルトニアンに還元できる幅広い臨界センサーに適用できる。
We compare critical quantum sensing to passive quantum strategies to perform frequency estimation, in the case of single-mode quadratic Hamiltonians. We show that, while in the unitary case both strategies achieve precision scaling quadratic with the number of photons, in the presence of dissipation this is true only for critical strategies. We also establish that working at the exceptional point or beyond threshold provides sub-optimal performance. This critical enhancement is due to the emergence of a transient regime in the open critical dynamics, and is invariant to temperature changes. When considering both time and system size as resources, for both strategies the precision scales linearly with the product of the total time and the number of photons, in accordance with fundamental bounds. However, we show that critical protocols outperform optimal passive strategies if preparation and measurement times are not negligible. Our results are applicable to a broad variety of critical sensors whose phenomenology can be reduced to that of a single-mode quadratic Hamiltonian, including systems described by finite-component and fully-connected models. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 拡散モデルのフィードバック効率の良いオンライン微調整
Feedback Efficient Online Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2402.16359v3 ) ライセンス: Link先を確認 | Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Sergey Levine, Tommaso Biancalani, | (参考訳) 拡散モデルは、画像、タンパク質、および小さな分子を含む複雑なデータ分布のモデリングにおいて優れている。
しかし、多くの場合、我々のゴールは特定の特性を最大化する分布の一部をモデル化することであり、例えば、高い美的品質の画像を生成したい場合や、高い生物活性の分子を生成したい場合があります。
これを強化学習(RL)問題とみなすことは自然であり、ある性質に対応する報酬関数を最大化するために拡散モデルを微調整することが目的である。
彼らは初期分布の確率が低く、十分に定義された報酬すら持たない多くの不可能なサンプル(例えば、不自然な画像や物理的に不可能な分子)があるかもしれない。
そこで本研究では,本研究で実現可能なサンプルの多様体を効率的に探索する,新しい強化学習手法を提案する。
本稿では, 画像, 生物学的配列, 分子の3領域にわたる実証的検証とともに, 後悔の保証を提供する理論的解析について述べる。
Diffusion models excel at modeling complex data distributions, including those of images, proteins, and small molecules. However, in many cases, our goal is to model parts of the distribution that maximize certain properties: for example, we may want to generate images with high aesthetic quality, or molecules with high bioactivity. It is natural to frame this as a reinforcement learning (RL) problem, in which the objective is to fine-tune a diffusion model to maximize a reward function that corresponds to some property. Even with access to online queries of the ground-truth reward function, efficiently discovering high-reward samples can be challenging: they might have a low probability in the initial distribution, and there might be many infeasible samples that do not even have a well-defined reward (e.g., unnatural images or physically impossible molecules). In this work, we propose a novel reinforcement learning procedure that efficiently explores on the manifold of feasible samples. We present a theoretical analysis providing a regret guarantee, as well as empirical validation across three domains: images, biological sequences, and molecules. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 時間的危険下における粒子検出器
Particle detectors under chronological hazard ( http://arxiv.org/abs/2402.17825v2 ) ライセンス: Link先を確認 | Ana Alonso-Serrano, Erickson Tjoa, Luis J. Garay, Eduardo Martín-Martínez, | (参考訳) 我々は,CTCから因果的に切り離された時空領域に局所粒子検出器を設置することにより,時間マシンを特徴付ける閉時間曲線(CTC)の存在をいかに認識できるかを分析する。
我々の研究は、検出器がCTCが存在するかどうかを判断できるだけでなく、幾何学的情報から位相的情報を分離し、CTC(アインシュタインシリンダーなど)や曲率、時間機械を許容する位相的識別を伴う時空を欠く周期的時空を識別できることを示している。
We analyze how the presence of closed timelike curves (CTCs) characterizing a time machine can be discerned by placing a local particle detector in a region of spacetime which is causally disconnected from the CTCs. Our study shows that not only can the detector tell if there are CTCs, but also that the detector can separate topological from geometrical information and distinguish periodic spacetimes without CTCs (like the Einstein cylinder), curvature, and spacetimes with topological identifications that enable time-machines. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 電子顕微鏡のための生成対向ネットワークによる自己教師付き学習
Self-Supervised Learning with Generative Adversarial Networks for Electron Microscopy ( http://arxiv.org/abs/2402.18286v2 ) ライセンス: Link先を確認 | Bashir Kazimi, Karina Ruzaeva, Stefan Sandfeld, | (参考訳) 本研究では,電子顕微鏡データに対するGAN(Generative Adversarial Networks)を用いた自己教師型学習の可能性について検討する。
本稿では,自己教師付き事前学習が,セマンティックセグメンテーション,デノナイジング,ノイズと背景の除去,超解像といった下流タスクのスペクトルを効率的に微調整する方法について述べる。
様々なモデル複雑さと受容場の大きさの実験は、より低い複雑さの微調整されたモデルが、ランダムな重み初期化を伴うより複雑なモデルより一貫して優れているという驚くべき現象を明らかにしている。
我々は、電子顕微鏡の文脈において、様々な下流タスクにまたがる自己教師付き事前学習の汎用性を実証し、より高速な収束とより良い性能を実現する。
我々は、自己教師付き事前学習が強力な触媒であり、限られた注釈付きデータが利用可能であり、計算コストの効率的なスケーリングが重要である場合に特に有利である、と結論付けた。
In this work, we explore the potential of self-supervised learning with Generative Adversarial Networks (GANs) for electron microscopy datasets. We show how self-supervised pretraining facilitates efficient fine-tuning for a spectrum of downstream tasks, including semantic segmentation, denoising, noise \& background removal, and super-resolution. Experimentation with varying model complexities and receptive field sizes reveals the remarkable phenomenon that fine-tuned models of lower complexity consistently outperform more complex models with random weight initialization. We demonstrate the versatility of self-supervised pretraining across various downstream tasks in the context of electron microscopy, allowing faster convergence and better performance. We conclude that self-supervised pretraining serves as a powerful catalyst, being especially advantageous when limited annotated data are available and efficient scaling of computational cost is important. | 翻訳日:2024-07-19 21:31:34 公開日:2024-07-18 |
# 大域フェルミオン対称性を持つれんが壁量子回路
Brick Wall Quantum Circuits with Global Fermionic Symmetry ( http://arxiv.org/abs/2402.18440v3 ) ライセンス: Link先を確認 | Pietro Richelli, Kareljan Schoutens, Alberto Zorzato, | (参考訳) 大域フェルミオン対称性を享受するレンガ壁量子回路について検討する。
構成2量子ゲートとそのフェルミオン対称性は、1+1次元の可積分超対称性量子場理論における2粒子散乱行列に由来する。
我々の2量子ゲートは3つの自由パラメータの関数として、いわゆるフリーフェルミオンあるいはマッチゲート形式であり、レンガの壁のユニタリ$U_F$とその非自明なハミルトニアン極限$H_{\gamma}$のスペクトル構造を閉形式で導出することができる。
フェルミオン対称性は臨界点の曲面に$H_{\gamma}$をピンするのに対して、対称性を破ると非自明な位相となる。
本稿では,この回路のクエンチダイナミクスについて概説する。
We study brick wall quantum circuits enjoying a global fermionic symmetry. The constituent 2-qubit gate, and its fermionic symmetry, derive from a 2-particle scattering matrix in integrable, supersymmetric quantum field theory in 1+1 dimensions. Our 2-qubit gate, as a function of three free parameters, is of so-called free fermionic or matchgate form, allowing us to derive the spectral structure of both the brick wall unitary $U_F$ and its, non-trivial, hamiltonian limit $H_{\gamma}$ in closed form. We find that the fermionic symmetry pins $H_{\gamma}$ to a surface of critical points, whereas breaking that symmetry leads to non-trivial topological phases. We briefly explore quench dynamics for this class of circuits. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# 意味的変化のキャラクタリゼーションに関する調査
Survey in Characterization of Semantic Change ( http://arxiv.org/abs/2402.19088v3 ) ライセンス: Link先を確認 | Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski, | (参考訳) 人間の社会の文化的変化を統合するために、生きた言語は継続的に進化していく。
この進化は、新語(新語)または単語の「textbf{semantic change}」を通じて現れる。
言葉の意味を理解することは、異なる文化(地域主義やスラング)、ドメイン(技術的用語など)、あるいは時代から来る文章を解釈するのに不可欠である。
計算機科学において、これらの単語は翻訳、情報検索、質問応答などの計算言語学アルゴリズムに関係している。
意味的な変化は、これらのアルゴリズムの結果の品質に影響を与える可能性がある。
したがって、これらの変化を形式的に理解し、特徴づけることが重要である。
この影響の研究は最近の問題であり、計算言語学コミュニティの注目を集めている。
いくつかの手法では意味変化を精度良く検出する方法が提案されているが、単語の意味がどう変化するか、意味変化の影響を抑える方法についての推論により多くの努力が必要である。
単語の意味がより一般的あるいは狭くなり(次元の変化)、単語がより悲観的または肯定的/改善的な意味(向きの変化)で使用される場合、そして、例えば比喩的またはメトニム的文脈(関係の変化)で単語を使用する傾向がある場合である。
選択された出版物の主な側面を表にまとめて,意味的変化のキャラクタリゼーションに関する研究活動におけるニーズと動向について考察した。
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# GraphRCG: 自己完結型グラフ生成
GraphRCG: Self-Conditioned Graph Generation ( http://arxiv.org/abs/2403.01071v2 ) ライセンス: Link先を確認 | Song Wang, Zhen Tan, Xinyu Zhao, Tianlong Chen, Huan Liu, Jundong Li, | (参考訳) グラフ生成は一般的に、特定のグラフ分布と密接に一致した新しいグラフを作成することを目的としています。
既存の研究はしばしば、この分布を発電機の最適化を通じて暗黙的に捉え、分布自体の複雑さを見落としている可能性がある。
さらに、これらのアプローチは一般に、グラフ生成のための学習分布によって提供される洞察を無視する。
対照的に,本研究では,グラフ分布を明示的にモデル化し,これらの分布を用いて生成過程を導出する,新たな自己条件グラフ生成フレームワークを提案する。
まず、各グラフサンプルを低次元表現に変換し、表現生成器を最適化することにより、学習した分布を反映した新しい表現を生成する。
その後、これらの自己記述表現を生成プロセスの自己条件付きガイダンスとして活用し、学習された分布をより正確に反映したグラフの生成を容易にする。
我々は、様々な分野にわたるジェネリックグラフと分子グラフのデータセットについて広範な実験を行った。
本フレームワークは, 既存のグラフ生成手法に比べて, 学習データに対するグラフ品質と忠実度において優れた性能を示す。
Graph generation generally aims to create new graphs that closely align with a specific graph distribution. Existing works often implicitly capture this distribution through the optimization of generators, potentially overlooking the intricacies of the distribution itself. Furthermore, these approaches generally neglect the insights offered by the learned distribution for graph generation. In contrast, in this work, we propose a novel self-conditioned graph generation framework designed to explicitly model graph distributions and employ these distributions to guide the generation process. We first perform self-conditioned modeling to capture the graph distributions by transforming each graph sample into a low-dimensional representation and optimizing a representation generator to create new representations reflective of the learned distribution. Subsequently, we leverage these bootstrapped representations as self-conditioned guidance for the generation process, thereby facilitating the generation of graphs that more accurately reflect the learned distributions. We conduct extensive experiments on generic and molecular graph datasets across various fields. Our framework demonstrates superior performance over existing state-of-the-art graph generation methods in terms of graph quality and fidelity to training data. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# MultiQを用いた大規模言語モデルの初等多言語機能評価
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ ( http://arxiv.org/abs/2403.03814v2 ) ライセンス: Link先を確認 | Carolin Holtermann, Paul Röttger, Timm Dill, Anne Lauscher, | (参考訳) 大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
しかし、今日のほとんどのLLM、特にオープンなLLMは、英語(eg Llama2, Mistral)または少数の高リソース言語(eg Mixtral, Qwen)での使用を意図していることが多い。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
そこで,本稿では,最先端のオープン LLM の多言語的機能について検討する。
そこで本研究では,MultiQについて紹介する。MultiQは,137言語に対して27.4kの質問に回答する,基本的なオープンエンド質問のための銀標準ベンチマークである。
また,MultiQでは,モデルが入力された言語に応答するかどうか,質問応答精度を評価する。
私たちがテストするすべてのLLMは、意図した使用以上の、少なくともいくつかの言語に対して忠実かつ正確に応答します。
ほとんどのモデルは、忠実に応答するとより正確になります。
しかし、モデル間の差異は大きいため、モデルが正確でも忠実でもない言語には長い尾がある。
トークン化の違いを我々の発見の潜在的な説明として検討し、さらなる調査を保証できる可能性のある相関関係を同定する。
Large language models (LLMs) need to serve everyone, including a global majority of non-English speakers. However, most LLMs today, and open LLMs in particular, are often intended for use in just English (e.g. Llama2, Mistral) or a small handful of high-resource languages (e.g. Mixtral, Qwen). Recent research shows that, despite limits in their intended use, people prompt LLMs in many different languages. Therefore, in this paper, we investigate the basic multilingual capabilities of state-of-the-art open LLMs beyond their intended use. For this purpose, we introduce MultiQ, a new silver standard benchmark for basic open-ended question answering with 27.4k test questions across a typologically diverse set of 137 languages. With MultiQ, we evaluate language fidelity, i.e. whether models respond in the prompted language, and question answering accuracy. All LLMs we test respond faithfully and/or accurately for at least some languages beyond their intended use. Most models are more accurate when they respond faithfully. However, differences across models are large, and there is a long tail of languages where models are neither accurate nor faithful. We explore differences in tokenization as a potential explanation for our findings, identifying possible correlations that warrant further investigation. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# I can't Believe It's Not Scene Flow!
I Can't Believe It's Not Scene Flow! ( http://arxiv.org/abs/2403.04739v2 ) ライセンス: Link先を確認 | Ishan Khatri, Kyle Vedder, Neehar Peri, Deva Ramanan, James Hays, | (参考訳) 現在のシーンフロー評価手法は、小さなオブジェクトの動作を記述するのに失敗し、現在のシーンフロー評価プロトコルは、多くのポイントを平均して、ほとんどの大きなオブジェクトを描画することで、この失敗を隠蔽する。
この評価失敗を解決するために,クラス認識と速度正規化が可能な新しい評価プロトコルであるBucket Normalized EPEを提案する。
提案手法の問題点を明らかにするため,提案手法では,高品質な事前学習型検出器(多くのクラスリバランス技術を用いて訓練)を簡易トラッカーにボルトで固定し,現行の標準評価における最先端性能と先行技術に対する大幅な改善を図った,フラストレーションに富んだ簡易なシーンフローベースラインであるTrackFlowを提案する。
この結果から,すべてのシーンフロー評価がクラスとスピードを意識する必要があり,教師付きシーンフロー手法はポイントクラスの不均衡に対処する必要があることが明らかとなった。
評価コードはhttps://github.com/kylevedder/BucketedSceneFlowEval.comで公開しています。
Current scene flow methods broadly fail to describe motion on small objects, and current scene flow evaluation protocols hide this failure by averaging over many points, with most drawn larger objects. To fix this evaluation failure, we propose a new evaluation protocol, Bucket Normalized EPE, which is class-aware and speed-normalized, enabling contextualized error comparisons between object types that move at vastly different speeds. To highlight current method failures, we propose a frustratingly simple supervised scene flow baseline, TrackFlow, built by bolting a high-quality pretrained detector (trained using many class rebalancing techniques) onto a simple tracker, that produces state-of-the-art performance on current standard evaluations and large improvements over prior art on our new evaluation. Our results make it clear that all scene flow evaluations must be class and speed aware, and supervised scene flow methods must address point class imbalances. We release the evaluation code publicly at https://github.com/kylevedder/BucketedSceneFlowEval. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# 非可逆な置換をもつ単線スポンジの量子一方向性
Quantum One-Wayness of the Single-Round Sponge with Invertible Permutations ( http://arxiv.org/abs/2403.04740v2 ) ライセンス: Link先を確認 | Joseph Carolan, Alexander Poremba, | (参考訳) スポンジハッシュ(Spnge hashing)は、現在の国際ハッシュ関数標準SHA-3の基盤となる暗号ハッシュアルゴリズムのクラスである。
簡単に言えば、スポンジ関数は任意の長さのビットストリームとして入力を受け取り、単純な反復手順で処理し、入力の各ブロックをいわゆるブロック関数に繰り返し供給し、最後に出力されたビットでブロック関数を繰り返すことでダイジェストを生成する。
ブロック関数がランダム関数あるいは片方向の置換としてモデル化された場合、スポンジ構造のクォータム後セキュリティについては、多くのことが知られているが、SHA-3の基盤となる構造をより正確にモデル化した可逆置換の場合、今のところ根本的なオープンな問題のままである。
本研究では,この障壁を克服するための新たな進展と,いくつかの結果を示す。
まず、Unruh (eprint' 2021) が提唱した「二重側ゼロ探索」予想を証明し、ランダムな2n$-ビットの置換でゼロペアを見つけるには、少なくとも$\Omega(2^{n/2})$ 多くのクエリが必要であることを示す。
我々の証明の核には、ヤング部分群の理論からの洞察を利用する新しい「対称性論」がある。
第二に、両面探索問題のより一般的な変種を考察し、類似したクエリの下位境界を示す。
応用として、単一ラウンドスポンジの量子一方向性を量子ランダムオラクルモデルにおける可逆置換で証明する。
Sponge hashing is a widely used class of cryptographic hash algorithms which underlies the current international hash function standard SHA-3. In a nutshell, a sponge function takes as input a bit-stream of any length and processes it via a simple iterative procedure: it repeatedly feeds each block of the input into a so-called block function, and then produces a digest by once again iterating the block function on the final output bits. While much is known about the post-quantum security of the sponge construction when the block function is modeled as a random function or one-way permutation, the case of invertible permutations, which more accurately models the construction underlying SHA-3, has so far remained a fundamental open problem. In this work, we make new progress towards overcoming this barrier and show several results. First, we prove the "double-sided zero-search" conjecture proposed by Unruh (eprint' 2021) and show that finding zero-pairs in a random $2n$-bit permutation requires at least $\Omega(2^{n/2})$ many queries -- and this is tight due to Grover's algorithm. At the core of our proof lies a novel "symmetrization argument" which uses insights from the theory of Young subgroups. Second, we consider more general variants of the double-sided search problem and show similar query lower bounds for them. As an application, we prove the quantum one-wayness of the single-round sponge with invertible permutations in the quantum random oracle model. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# 視覚モダリティ間のエッジデバイスへの自己適応型大規模ビジュアルランゲージモデル
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities ( http://arxiv.org/abs/2403.04908v2 ) ライセンス: Link先を確認 | Kaiwen Cai, Zhekai Duan, Gaowen Liu, Charles Fleming, Chris Xiaoxuan Lu, | (参考訳) 近年のVision-Language(VL)モデルの進歩はエッジデバイスへの展開への関心を喚起しているが、様々な視覚的モダリティ、手動アノテーション、計算制約を扱う上での課題は残されている。
We introduced EdgeVL, a novel framework that bridgeing this gap by seamlessly integration of dual-modality knowledge distillation and Quantization-aware contrastive learning。
このアプローチにより、手動のアノテーションを必要とせずに、リソース制限されたデバイス上でRGBおよび非RGBイメージの両方を効率的に使用するために、CLIPのような大規模なVLモデルの適応が可能になる。
EdgeVLは、視覚言語アライメント機能をコンパクトモデルに転送するだけでなく、特徴品質のポスト量子化も維持し、様々な視覚的モダリティのオープン語彙分類性能を大幅に向上させる。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
Recent advancements in Vision-Language (VL) models have sparked interest in their deployment on edge devices, yet challenges in handling diverse visual modalities, manual annotation, and computational constraints remain. We introduce EdgeVL, a novel framework that bridges this gap by seamlessly integrating dual-modality knowledge distillation and quantization-aware contrastive learning. This approach enables the adaptation of large VL models, like CLIP, for efficient use with both RGB and non-RGB images on resource-limited devices without the need for manual annotations. EdgeVL not only transfers visual language alignment capabilities to compact models but also maintains feature quality post-quantization, significantly enhancing open-vocabulary classification performance across various visual modalities. Our work represents the first systematic effort to adapt large VL models for edge deployment, showcasing up to 15.4% accuracy improvements on multiple datasets and up to 93-fold reduction in model size. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# リモートセンシングによる確率的画像駆動交通モデリング
Probabilistic Image-Driven Traffic Modeling via Remote Sensing ( http://arxiv.org/abs/2403.05521v2 ) ライセンス: Link先を確認 | Scott Workman, Armin Hadzic, | (参考訳) 本稿では,画像から時空間の交通パターンを直接モデル化する作業について述べる。
都市交通モデルの構築に使用可能なマルチモーダル・マルチタスクトランスフォーマーベースのセグメンテーションアーキテクチャを導入する。
提案手法は、時空間コンテキストを統合する時空間位置符号化モジュールと、時空間変動を自然にモデル化する交通速度を推定する確率的目的関数を含む。
提案手法は,DTS(Dynamic Traffic Speeds)ベンチマークデータセットを用いて広範に評価し,現状を著しく改善する。
最後に、移動性に関連する位置適応実験をサポートするために、DTS++データセットを導入する。
This work addresses the task of modeling spatiotemporal traffic patterns directly from overhead imagery, which we refer to as image-driven traffic modeling. We extend this line of work and introduce a multi-modal, multi-task transformer-based segmentation architecture that can be used to create dense city-scale traffic models. Our approach includes a geo-temporal positional encoding module for integrating geo-temporal context and a probabilistic objective function for estimating traffic speeds that naturally models temporal variations. We evaluate our method extensively using the Dynamic Traffic Speeds (DTS) benchmark dataset and significantly improve the state-of-the-art. Finally, we introduce the DTS++ dataset to support mobility-related location adaptation experiments. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# AMUSE: データセットウォーターマーキングのための適応型マルチセグメントエンコーディング
AMUSE: Adaptive Multi-Segment Encoding for Dataset Watermarking ( http://arxiv.org/abs/2403.05628v2 ) ライセンス: Link先を確認 | Saeed Ranjbar Alvar, Mohammad Akbari, David Ming Xuan Yue, Yong Zhang, | (参考訳) 新しいAIアプリケーションの出現に重要な役割を果たしている高品質なデータセットのキュレーションには、かなりの時間、お金、計算リソースが必要です。
そのため、データセットの効果的なオーナシップ保護が重要になっています。
近年、画像データセットの所有権を保護するために、個々の画像サンプルに所有権情報(すなわち透かし)を保存するために、知覚不能な透かし技術が用いられている。
すべてのサンプルに透かし全体を埋め込むことは、透かしのデータセットの品質と抽出精度を損なう埋め込み情報にかなりの冗長性をもたらす。
本稿では,データセット透かし(AMUSE)のためのマルチセグメント符号化復号法を提案し,元の透かしを短いサブメッセージの集合に適応的にマッピングし,その逆も提案する。
我々のメッセージエンコーダは、ターゲットデータセットの保護要件に応じてサブメッセージの長さを調整する適応的手法である。
既存の画像透かし手法を使用して、データセット内の元の画像にサブメッセージを埋め込むとともに、透かし画像からそれらを抽出する。
次に、デコーダを使用して、抽出したサブメッセージから元のメッセージを再構築する。
提案するエンコーダとデコーダは,任意のウォーターマーキングメソッドに簡単に追加可能なプラグイン・アンド・プレイモジュールである。
この目的のために、AMUSEを適用することで、同じデータセットの品質に対して、全体のメッセージ抽出精度が最大28%向上することを示す複数の透かしソリューションで、広範な実験がプリフォームされている。
さらに、画像データセットの品質は、テストされた画像透かし法の1つの抽出精度を改善しつつ、平均$\approx$2 dBのPSNRで向上する。
Curating high quality datasets that play a key role in the emergence of new AI applications requires considerable time, money, and computational resources. So, effective ownership protection of datasets is becoming critical. Recently, to protect the ownership of an image dataset, imperceptible watermarking techniques are used to store ownership information (i.e., watermark) into the individual image samples. Embedding the entire watermark into all samples leads to significant redundancy in the embedded information which damages the watermarked dataset quality and extraction accuracy. In this paper, a multi-segment encoding-decoding method for dataset watermarking (called AMUSE) is proposed to adaptively map the original watermark into a set of shorter sub-messages and vice versa. Our message encoder is an adaptive method that adjusts the length of the sub-messages according to the protection requirements for the target dataset. Existing image watermarking methods are then employed to embed the sub-messages into the original images in the dataset and also to extract them from the watermarked images. Our decoder is then used to reconstruct the original message from the extracted sub-messages. The proposed encoder and decoder are plug-and-play modules that can easily be added to any watermarking method. To this end, extensive experiments are preformed with multiple watermarking solutions which show that applying AMUSE improves the overall message extraction accuracy upto 28% for the same given dataset quality. Furthermore, the image dataset quality is enhanced by a PSNR of $\approx$2 dB on average, while improving the extraction accuracy for one of the tested image watermarking methods. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# 畳み込みニューラルネットワークにおける単語認識のためのニューラルネットワークの解読
Cracking the neural code for word recognition in convolutional neural networks ( http://arxiv.org/abs/2403.06159v2 ) ライセンス: Link先を確認 | Aakash Agrawal, Stanislas Dehaene, | (参考訳) 読むことを学ぶことは、視覚システムに強い挑戦をする。
長年の専門知識は、非常に類似した文字を分離し、それらの相対的な位置を符号化し、様々な大きさと絶対的な位置で、formやfromのような単語を区別する、顕著な能力に繋がる。
ニューラルネットワークがいかに不変な単語認識を実現するかは、まだ不明である。
ここでは、深層ニューラルネットワークモデルをトレーニングして、書き言葉を認識し、読み出し専用ユニットがどのように出現し、ネットワークの異なる層にまたがって機能するかを分析することで、この問題に対処する。
リテラシーによって、少数の単位が、人間の脳の「視覚的語形領域」に似た、学習されたスクリプトにおける単語認識のために特殊化される。
これらの単位は、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示し、「スペースビッグラム」として機能する。
これらのユニットは特定の順序位置を符号化し、ネットワークの初期の層から低周波検出器ユニットと高周波検出器ユニットをプールすることで動作する。
提案したニューラルネットワークは、文字の同一性や位置に関する情報を抽出し、不変な単語認識を可能にし、読み出し行動、エラーパターン、読み出しの神経生理学の予測につながるメカニズム的な知見を提供する。
Learning to read places a strong challenge on the visual system. Years of expertise lead to a remarkable capacity to separate highly similar letters and encode their relative positions, thus distinguishing words such as FORM and FROM, invariantly over a large range of sizes and absolute positions. How neural circuits achieve invariant word recognition remains unknown. Here, we address this issue by training deep neural network models to recognize written words and then analyzing how reading-specialized units emerge and operate across different layers of the network. With literacy, a small subset of units becomes specialized for word recognition in the learned script, similar to the "visual word form area" of the human brain. We show that these units are sensitive to specific letter identities and their distance from the blank space at the left or right of a word, thus acting as "space bigrams". These units specifically encode ordinal positions and operate by pooling across low and high-frequency detector units from early layers of the network. The proposed neural code provides a mechanistic insight into how information on letter identity and position is extracted and allow for invariant word recognition, and leads to predictions for reading behavior, error patterns, and the neurophysiology of reading. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# PointSeg: 基礎モデルによる3次元シーンセグメンテーションのためのトレーニングフリーパラダイム
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models ( http://arxiv.org/abs/2403.06403v3 ) ライセンス: Link先を確認 | Qingdong He, Jinlong Peng, Zhengkai Jiang, Xiaobin Hu, Jiangning Zhang, Qiang Nie, Yabiao Wang, Chengjie Wang, | (参考訳) 視覚基礎モデルの最近の成功は、2次元知覚タスクに有望な性能を示した。
しかし、データセットが限られているため、直接3Dファウンデーションネットワークをトレーニングすることは困難であり、既存のファウンデーションモデルをシームレスに3D空間に持ち上げることができるかどうかはまだ検討されていない。
本稿では,市販の視覚基礎モデルを利用して3次元シーン認識タスクに対処する,新たな学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
具体的には、3Dポイントボックスプロンプトペアを構築するための2分岐プロンプト構造を設計し、正確なポイントとプロンプトの生成のための双方向マッチング戦略と組み合わせる。
そして,異なる視覚基盤モデルと協調して反復的ポストリファインメントを適応的に行う。
さらに,最終的なアンサンブルマスクを改善するために親和性を考慮したマージアルゴリズムを設計する。
PointSegは、トレーニングなしで、さまざまなデータセット間で印象的なセグメンテーションパフォーマンスを示す。
具体的には、ScanNet、ScanNet++、KITTI-360データセット上の14.1$\%$、12.3$\%$、12.6$\%$mAPといった最先端のトレーニングフリーモデルを大きく上回っている。
それに加えて、PointSegは様々な基礎モデルに組み込むことができ、訓練ベースの専門的手法を3.4$\%$-5.4$\%$mAPで上回り、効果的なジェネラリストモデルとして機能する。
Recent success of vision foundation models have shown promising performance for the 2D perception tasks. However, it is difficult to train a 3D foundation network directly due to the limited dataset and it remains under explored whether existing foundation models can be lifted to 3D space seamlessly. In this paper, we present PointSeg, a novel training-free paradigm that leverages off-the-shelf vision foundation models to address 3D scene perception tasks. PointSeg can segment anything in 3D scene by acquiring accurate 3D prompts to align their corresponding pixels across frames. Concretely, we design a two-branch prompts learning structure to construct the 3D point-box prompts pairs, combining with the bidirectional matching strategy for accurate point and proposal prompts generation. Then, we perform the iterative post-refinement adaptively when cooperated with different vision foundation models. Moreover, we design a affinity-aware merging algorithm to improve the final ensemble masks. PointSeg demonstrates impressive segmentation performance across various datasets, all without training. Specifically, our approach significantly surpasses the state-of-the-art specialist training-free model by 14.1$\%$, 12.3$\%$, and 12.6$\%$ mAP on ScanNet, ScanNet++, and KITTI-360 datasets, respectively. On top of that, PointSeg can incorporate with various foundation models and even surpasses the specialist training-based methods by 3.4$\%$-5.4$\%$ mAP across various datasets, serving as an effective generalist model. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# 連続学習のための意味的残差プロンプト
Semantic Residual Prompts for Continual Learning ( http://arxiv.org/abs/2403.06870v3 ) ライセンス: Link先を確認 | Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, | (参考訳) Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるいくつかのパラメータベクトルを訓練する。
これらの手法の多くは、これらのベクトルをキーと値のペアのプールに整理し、入力イメージをクエリとして使用してプロンプト(値)を検索する。
しかし、タスクの進行中にキーが学習されるため、選択の促進戦略自体が破滅的な忘れ込みの対象となるため、既存のアプローチでは見過ごされがちである。
例えば、新しいタスクに対応するために導入されたプロンプトは、以前学習されたプロンプトと干渉する可能性がある。
選択戦略をより安定させるために,基礎モデル(CLIP)を活用して2段階適応機構内のプロンプトを選択する。
具体的には、第1レベルはCLIPテキストエンコーダの標準テキストプロンプトプールを利用しており、安定したクラスのプロトタイプにつながっている。
第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。
抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。
そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。
確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
特に、衛星画像と医療データセットの実験で示されたように、バックボーンモデルの事前学習知識に相当な領域ギャップがあるデータセットにおいても、我々の発見は真実である。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and train a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we leverage a foundation model (CLIP) to select our prompts within a two-level adaptation mechanism. Specifically, the first level leverages a standard textual prompt pool for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets. The codebase is available at https://github.com/aimagelab/mammoth. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# ベイズ型ニューラル場を用いたスケーラブル時空間予測
Scalable Spatiotemporal Prediction with Bayesian Neural Fields ( http://arxiv.org/abs/2403.07657v2 ) ライセンス: Link先を確認 | Feras Saad, Jacob Burnim, Colin Carroll, Brian Patton, Urs Köster, Rif A. Saurous, Matthew Hoffman, | (参考訳) 空間的に参照された時系列からなる時空間データセットは、大気汚染モニタリング、病気の追跡、クラウド要求予測など、多くの科学的およびビジネス知性アプリケーションにおいてユビキタスである。
現代のデータセットはサイズと複雑さを増し続けており、複雑な時空間力学を捉えるのに十分なフレキシブルで、大きな予測問題を扱うのに十分なスケーラブルな新しい統計手法の必要性が高まっている。
ベイズニューラルフィールド(ベイズニューラルフィールド、BayesNF)は、時空間領域上のリッチな確率分布を推定するための一般統計モデルであり、予測、補間、およびバリアグラフィーなどのデータ解析に使用できる。
BayesNFは、高容量関数推定のための新しいディープニューラルネットワークアーキテクチャと、堅牢な不確実性定量化のための階層的ベイズ推論を統合する。
滑らかな微分可能変換の列を通じて事前を定義することにより,確率勾配降下法を用いて訓練した変動学習サロゲートを用いて,大規模データに対して後部推論を行う。
我々はBayesNFを統計的および機械学習のベースラインに対して評価し、数十から数十万の計測値を含む気候および公衆衛生データセットからの多様な予測問題に対する大幅な改善を示す。
この論文にはオープンソースソフトウェアパッケージ(https://github.com/google/bayesnf)が添付されている。
Spatiotemporal datasets, which consist of spatially-referenced time series, are ubiquitous in many scientific and business-intelligence applications, such as air pollution monitoring, disease tracking, and cloud-demand forecasting. As modern datasets continue to increase in size and complexity, there is a growing need for new statistical methods that are flexible enough to capture complex spatiotemporal dynamics and scalable enough to handle large prediction problems. This work presents the Bayesian Neural Field (BayesNF), a domain-general statistical model for inferring rich probability distributions over a spatiotemporal domain, which can be used for data-analysis tasks including forecasting, interpolation, and variography. BayesNF integrates a novel deep neural network architecture for high-capacity function estimation with hierarchical Bayesian inference for robust uncertainty quantification. By defining the prior through a sequence of smooth differentiable transforms, posterior inference is conducted on large-scale data using variationally learned surrogates trained via stochastic gradient descent. We evaluate BayesNF against prominent statistical and machine-learning baselines, showing considerable improvements on diverse prediction problems from climate and public health datasets that contain tens to hundreds of thousands of measurements. The paper is accompanied with an open-source software package (https://github.com/google/bayesnf) that is easy-to-use and compatible with modern GPU and TPU accelerators on the JAX machine learning platform. | 翻訳日:2024-07-19 21:21:41 公開日:2024-07-18 |
# ManiGaussian:マルチタスクロボットマニピュレーションのための動的ガウススプレイティング
ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation ( http://arxiv.org/abs/2403.08321v2 ) ライセンス: Link先を確認 | Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang, | (参考訳) 言語条件付きロボット操作タスクを非構造化環境で実行することは、汎用知能ロボットには非常に要求される。
従来のロボット操作法は、通常、人間の目標達成のためのシーンレベルの時空間力学を無視したアクション予測のための観察の意味表現を学習する。
本稿では,マルチタスクロボット操作のための動的ガウススティング手法であるManiGaussianを提案する。
具体的には,まず,ガウス埋め込み空間のセマンティックス伝播を推論する動的ガウススティングフレームワークを定式化し,そのセマンティック表現を利用して最適なロボット動作を予測する。
そこで我々は,動的ガウス平滑化フレームワークにおける分布をパラメータ化するためのガウス世界モデルを構築し,将来のシーン再構築を通じて対話環境における情報監督を行う。
166変数のRLBenchタスクに対して,ManiGaussianを評価した結果,平均成功率を13.1倍に向上させることができた。
プロジェクトページ: https://guanxinglu.github.io/ManiGaussian/
Performing language-conditioned robotic manipulation tasks in unstructured environments is highly demanded for general intelligent robots. Conventional robotic manipulation methods usually learn semantic representation of the observation for action prediction, which ignores the scene-level spatiotemporal dynamics for human goal completion. In this paper, we propose a dynamic Gaussian Splatting method named ManiGaussian for multi-task robotic manipulation, which mines scene dynamics via future scene reconstruction. Specifically, we first formulate the dynamic Gaussian Splatting framework that infers the semantics propagation in the Gaussian embedding space, where the semantic representation is leveraged to predict the optimal robot action. Then, we build a Gaussian world model to parameterize the distribution in our dynamic Gaussian Splatting framework, which provides informative supervision in the interactive environment via future scene reconstruction. We evaluate our ManiGaussian on 10 RLBench tasks with 166 variations, and the results demonstrate our framework can outperform the state-of-the-art methods by 13.1\% in average success rate. Project page: https://guanxinglu.github.io/ManiGaussian/. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# PYRA: トレーニング推論効率の良いタスク適応のための並列収量再活性化
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation ( http://arxiv.org/abs/2403.09192v4 ) ライセンス: Link先を確認 | Yizhe Xiong, Hui Chen, Tianxiang Hao, Zijia Lin, Jungong Han, Yuesong Zhang, Guoxin Wang, Yongjun Bao, Guiguang Ding, | (参考訳) 近年, 変圧器の規模が急速に拡大し, タスク適応の分野において, トレーニングオーバーヘッドや推論効率の面で大きな課題がもたらされている。
既存の研究、すなわちパラメータ効率のよいファインチューニング(PEFT)とモデル圧縮は、これらの課題を別々に検討している。
しかしPEFTは、特に大規模モデルでは、元のバックボーンの推論効率を保証できない。
モデル圧縮は構造探索と再訓練にかなりの訓練コストを必要とする。
したがって、これらの単純な組み合わせは、最小のコストでトレーニング効率と推論効率の両方を達成することを保証できない。
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは、まず並列出力適応重みを利用して、下流タスクのデータ分布を包括的に知覚する。
その後、トークン変調のための再活性化戦略がマージされるトークンに適用され、キャリブレーションされたトークン特徴が導かれる。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れており、大規模基礎モデルのトレーニング効率と推論効率の両面において、PYRAの有効性と優位性を示している。
私たちのコードはhttps://github.com/THU-MIG/PYRA.comで公開されています。
Recently, the scale of transformers has grown rapidly, which introduces considerable challenges in terms of training overhead and inference efficiency in the scope of task adaptation. Existing works, namely Parameter-Efficient Fine-Tuning (PEFT) and model compression, have separately investigated the challenges. However, PEFT cannot guarantee the inference efficiency of the original backbone, especially for large-scale models. Model compression requires significant training costs for structure searching and re-training. Consequently, a simple combination of them cannot guarantee accomplishing both training efficiency and inference efficiency with minimal costs. In this paper, we propose a novel Parallel Yielding Re-Activation (PYRA) method for such a challenge of training-inference efficient task adaptation. PYRA first utilizes parallel yielding adaptive weights to comprehensively perceive the data distribution in downstream tasks. A re-activation strategy for token modulation is then applied for tokens to be merged, leading to calibrated token features. Extensive experiments demonstrate that PYRA outperforms all competing methods under both low compression rate and high compression rate, demonstrating its effectiveness and superiority in maintaining both training efficiency and inference efficiency for large-scale foundation models. Our code is available at https://github.com/THU-MIG/PYRA. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# トランスフォーマーが安定する: 言語モデルのためのエンドツーエンド信号伝搬理論
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models ( http://arxiv.org/abs/2403.09635v2 ) ライセンス: Link先を確認 | Akhil Kedia, Mohd Abbas Zaidi, Sushil Khyalia, Jungho Jung, Harshith Goka, Haejun Lee, | (参考訳) 彼らの大きな成功にもかかわらず、トランスフォーマーモデルは深さのスケールが難しいままである。
本研究では,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論と公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
また、1000層からなる非常に深いモデルのトレーニングを可能にする、ユニット出力/段階的なモーメントをモデル全体に保存する初期化およびスケーリングスキームであるDeepScaleLMを提案する。
パラメータが少なく、言語モデリング、音声翻訳、画像分類において、複数のデータセットやモデルサイズに対して、エンコーダのみ、デコーダのみ、エンコーダのみ、およびエンコーダ-デコーダ間の浅いモデルよりも優れています。
これらの改善は、ダウンストリーム質問回答タスクのパフォーマンスの改善や、画像分類の堅牢性の改善にも寄与する。
In spite of their huge success, transformer models remain difficult to scale in depth. In this work, we develop a unified signal propagation theory and provide formulae that govern the moments of the forward and backward signal through the transformer model. Our framework can be used to understand and mitigate vanishing/exploding gradients, rank collapse, and instability associated with high attention scores. We also propose DeepScaleLM, an initialization and scaling scheme that conserves unit output/gradient moments throughout the model, enabling the training of very deep models with 1000 layers. We find that transformer models could be much deeper - our deep models with fewer parameters outperform shallow models in Language Modeling, Speech Translation, and Image Classification, across encoder-only, decoder-only and encoder-decoder variants, for both Pre-LN and Post-LN transformers, for multiple datasets and model sizes. These improvements also translate into improved performance on downstream Question Answering tasks and improved robustness for Image Classification. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# オブジェクト検出器のマルチソース領域適応のためのアテンションに基づくクラス定義アライメント
Attention-based Class-Conditioned Alignment for Multi-Source Domain Adaptation of Object Detectors ( http://arxiv.org/abs/2403.09918v2 ) ライセンス: Link先を確認 | Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger, | (参考訳) オブジェクト検出(OD)のドメイン適応手法は、ソースドメインとターゲットドメイン間の特徴調整を促進することによって、分散シフトの影響を軽減する。
マルチソースドメイン適応(MSDA)は、複数のアノテーション付きソースデータセットとラベルなしターゲットデータを活用することで、検出モデルの正確性と堅牢性を向上させる。
ODのための最先端MSDA手法の多くは、クラスに依存しない方法で特徴アライメントを実行する。
オブジェクトはドメイン間のオブジェクトの外観の変化のため、ユニークなモーダル情報を持っているため、これは難しい。
最近のプロトタイプベースのアプローチでは、クラスワイドアライメントが提案されているが、ノイズの多い擬似ラベルが不均衡なデータへの適応に悪影響を及ぼすため、エラーの蓄積に悩まされている。
これらの制約を克服するために、各オブジェクトカテゴリのインスタンスをドメイン間でアライメントするMSDAのアライメント手法を提案する。
特に、敵対的ドメイン分類器と結合されたアテンションモジュールは、ドメイン不変およびクラス固有のインスタンス表現を学習することができる。
複数のベンチマークMSDAデータセットに対する実験結果から,本手法は最先端の手法よりも優れ,概念的に単純なクラス条件付き手法によるクラス不均衡に頑健であることが示唆された。
私たちのコードはhttps://github.com/imatif17/ACIA.comで公開されています。
Domain adaptation methods for object detection (OD) strive to mitigate the impact of distribution shifts by promoting feature alignment across source and target domains. Multi-source domain adaptation (MSDA) allows leveraging multiple annotated source datasets and unlabeled target data to improve the accuracy and robustness of the detection model. Most state-of-the-art MSDA methods for OD perform feature alignment in a class-agnostic manner. This is challenging since the objects have unique modal information due to variations in object appearance across domains. A recent prototype-based approach proposed a class-wise alignment, yet it suffers from error accumulation due to noisy pseudo-labels that can negatively affect adaptation with imbalanced data. To overcome these limitations, we propose an attention-based class-conditioned alignment method for MSDA that aligns instances of each object category across domains. In particular, an attention module coupled with an adversarial domain classifier allows learning domain-invariant and class-specific instance representations. Experimental results on multiple benchmarking MSDA datasets indicate that our method outperforms the state-of-the-art methods and is robust to class imbalance using a conceptually simple class-conditioning method. Our code is available at https://github.com/imatif17/ACIA. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# ラベルを変えるだけでなく、特徴を学ぶ:マルチビューデータによるディープニューラルネットワークの透かし
Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data ( http://arxiv.org/abs/2403.10663v2 ) ライセンス: Link先を確認 | Yuxuan Li, Sarthak Kumar Maharana, Yunhui Guo, | (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームの普及に伴い、ディープニューラルネットワーク(DNN)ウォーターマーキング技術への注目が高まっている。
これらの手法は、知的財産を保護するために、ターゲットDNNモデルの所有権の検証を容易にするために使用される。
最も広く使われている透かし技法の1つは、ソースモデルにトリガーセットを埋め込むことである。
残念ながら、トリガーセットに基づく既存の方法論は、まだ機能ステアリング攻撃の影響を受けやすいため、敵は、オーナシップを信頼できる方法で検証することなく、ソースモデルの機能を盗むことができる可能性がある。
本稿では,まず,特徴学習の観点から,トリガーセットに基づく透かし手法の新たな視点を紹介する。
具体的には、複数の特徴を示すデータを選択して、"emph{multi-view data}"と呼ぶことで、攻撃を盗む機能を効果的に防御できることを示す。
この観点から,DNN内に効率的に透かしを埋め込むため,Multi-view dATa(MAT)に基づく新しい透かし技術を導入する。
このアプローチは、マルチビューデータによるトリガセットの構築と、ソースモデルをトレーニングするためのシンプルな特徴ベースの正規化手法の導入を含む。
提案手法を様々なベンチマークで検証し,モデル抽出攻撃に対する防御効果を示す。
コードは以下の通りである。 \href{https://github.com/liyuxuan-github/MAT}{https://github.com/liyuxuan-github/MAT}。
With the increasing prevalence of Machine Learning as a Service (MLaaS) platforms, there is a growing focus on deep neural network (DNN) watermarking techniques. These methods are used to facilitate the verification of ownership for a target DNN model to protect intellectual property. One of the most widely employed watermarking techniques involves embedding a trigger set into the source model. Unfortunately, existing methodologies based on trigger sets are still susceptible to functionality-stealing attacks, potentially enabling adversaries to steal the functionality of the source model without a reliable means of verifying ownership. In this paper, we first introduce a novel perspective on trigger set-based watermarking methods from a feature learning perspective. Specifically, we demonstrate that by selecting data exhibiting multiple features, also referred to as \emph{multi-view data}, it becomes feasible to effectively defend functionality stealing attacks. Based on this perspective, we introduce a novel watermarking technique based on Multi-view dATa, called MAT, for efficiently embedding watermarks within DNNs. This approach involves constructing a trigger set with multi-view data and incorporating a simple feature-based regularization method for training the source model. We validate our method across various benchmarks and demonstrate its efficacy in defending against model extraction attacks, surpassing relevant baselines by a significant margin. The code is available at: \href{https://github.com/liyuxuan-github/MAT}{https://github.com/liyuxuan-github/MAT}. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# Omni-Recon: 汎用神経放射場のための高調波画像ベースレンダリング
Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields ( http://arxiv.org/abs/2403.11131v2 ) ライセンス: Link先を確認 | Yonggan Fu, Huaizhi Qu, Zhifan Ye, Chaojian Li, Kevin Zhao, Yingyan Lin, | (参考訳) 最近のNeural Radiance Fields(NeRF)のブレークスルーは、現実世界の3Dアプリケーションへの統合に対する大きな需要を引き起こしている。
しかし、異なる3Dアプリケーションで要求される様々な機能はしばしば様々なパイプラインで様々なNeRFモデルを必要とするため、それぞれのタスクに対する面倒なNeRFトレーニングや、面倒な試行錯誤実験に繋がる。
本研究は,新たな基礎モデルの一般化能力と適応性からインスピレーションを得て,多種多様な3次元タスクを扱うための1つの汎用NeRFを開発することを目的とする。
我々は,(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解が可能なOmni-Reconというフレームワークを提案し,(2)リアルタイムレンダリングやシーン編集などの下流3Dアプリケーションへの適応性を実現する。
我々の重要な洞察は、画像ベースのレンダリングパイプラインが、正確な幾何学的および外観的推定によって、2D画像の特徴を3D空間に持ち上げ、広範に検討された2Dタスクを一般化可能な方法で3D世界へと拡張できるということである。
具体的には、Omni-Reconは、2つの分離された枝を持つ画像ベースレンダリングを用いた汎用のNeRFモデルを特徴付けている: 幾何推定のために幾何と外観特徴を段階的に融合する複雑なトランスフォーマーベースの分岐と、ソースビューのブレンド重量を予測する軽量ブランチである。
この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。
さらに、複雑なジオメトリブランチをメッシュに焼き込み、SOTAの一般化可能な3D理解性能を実現するための迅速な適応、テキスト誘導3D編集のための2D拡散モデルとのシームレスな統合など、リアルタイムなレンダリングを可能にする。
Recent breakthroughs in Neural Radiance Fields (NeRFs) have sparked significant demand for their integration into real-world 3D applications. However, the varied functionalities required by different 3D applications often necessitate diverse NeRF models with various pipelines, leading to tedious NeRF training for each target task and cumbersome trial-and-error experiments. Drawing inspiration from the generalization capability and adaptability of emerging foundation models, our work aims to develop one general-purpose NeRF for handling diverse 3D tasks. We achieve this by proposing a framework called Omni-Recon, which is capable of (1) generalizable 3D reconstruction and zero-shot multitask scene understanding, and (2) adaptability to diverse downstream 3D applications such as real-time rendering and scene editing. Our key insight is that an image-based rendering pipeline, with accurate geometry and appearance estimation, can lift 2D image features into their 3D counterparts, thus extending widely explored 2D tasks to the 3D world in a generalizable manner. Specifically, our Omni-Recon features a general-purpose NeRF model using image-based rendering with two decoupled branches: one complex transformer-based branch that progressively fuses geometry and appearance features for accurate geometry estimation, and one lightweight branch for predicting blending weights of source views. This design achieves state-of-the-art (SOTA) generalizable 3D surface reconstruction quality with blending weights reusable across diverse tasks for zero-shot multitask scene understanding. In addition, it can enable real-time rendering after baking the complex geometry branch into meshes, swift adaptation to achieve SOTA generalizable 3D understanding performance, and seamless integration with 2D diffusion models for text-guided 3D editing. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# 事前学習型視覚モデルのための連続的鍛造法
Continual Forgetting for Pre-trained Vision Models ( http://arxiv.org/abs/2403.11530v2 ) ライセンス: Link先を確認 | Hongbo Zhao, Bolin Ni, Haochen Wang, Junsong Fan, Fei Zhu, Yuxi Wang, Yuntao Chen, Gaofeng Meng, Zhaoxiang Zhang, | (参考訳) プライバシーとセキュリティの懸念から、事前訓練された視覚モデルから不要な情報を消去する必要があることが近年明らかになっている。
現実のシナリオでは、消去要求はユーザーとモデル所有者の両方からいつでも発生します。
これらの要求は通常、シーケンスを形成します。
そのため、この設定では、残りを維持しつつ、事前訓練されたモデルから選択情報を連続的に除去することが期待される。
我々はこの問題を連続的な忘れ物として定義し、2つの重要な課題を識別する。
一 望ましくない知識のためには、効率的かつ効果的な削除が不可欠である。
(二)残りの知識については、忘れる手続きによる影響は最小限とする。
そこで我々は,GS-LoRA (Group Sparse LoRA) を提案する。
具体的には
i) 個別にタスクを忘れるたびに,Transformerブロック内のFFN層を微調整するためにLoRAモジュールを使用します。
(ii) 単純群スパース正規化を採用し、特定の LoRA 群の自動選択を可能とし、他の群をゼロにすることができる。
GS-LoRAは効率的、パラメータ効率、データ効率、実装が容易である。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
コードは \url{https://github.com/bjzhb666/GS-LoRA} でリリースされる。
For privacy and security concerns, the need to erase unwanted information from pre-trained vision models is becoming evident nowadays. In real-world scenarios, erasure requests originate at any time from both users and model owners. These requests usually form a sequence. Therefore, under such a setting, selective information is expected to be continuously removed from a pre-trained model while maintaining the rest. We define this problem as continual forgetting and identify two key challenges. (i) For unwanted knowledge, efficient and effective deleting is crucial. (ii) For remaining knowledge, the impact brought by the forgetting procedure should be minimal. To address them, we propose Group Sparse LoRA (GS-LoRA). Specifically, towards (i), we use LoRA modules to fine-tune the FFN layers in Transformer blocks for each forgetting task independently, and towards (ii), a simple group sparse regularization is adopted, enabling automatic selection of specific LoRA groups and zeroing out the others. GS-LoRA is effective, parameter-efficient, data-efficient, and easy to implement. We conduct extensive experiments on face recognition, object detection and image classification and demonstrate that GS-LoRA manages to forget specific classes with minimal impact on other classes. Codes will be released on \url{https://github.com/bjzhb666/GS-LoRA}. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# PARMESAN:Dense Prediction Taskのためのパラメータフリーメモリ検索とトランスダクション
PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks ( http://arxiv.org/abs/2403.11743v2 ) ライセンス: Link先を確認 | Philip Matthias Winter, Maria Wimmer, David Major, Dimitrios Lenis, Astrid Berg, Theresa Neubauer, Gaia Romana De Paolis, Johannes Novotny, Sophia Ulonska, Katja Bühler, | (参考訳) この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。
新しいデータやタスクに適応するために、例えば連続的な学習では、既存のメソッドは通常、学習可能なパラメータをチューニングしたり、スクラッチから完全に再トレーニングする。
計算をメモリからトランスダクション(transduction)で分離するという概念は,これらの問題を解決するためのステップストーンとして機能する,と我々は主張する。
そこで我々は,高密度予測タスクを解くためにメモリモジュールを利用するスケーラブルなPARMESAN(パラメータフリーメモリ探索・トランスダクション)を提案する。
推論では、メモリ内に隠された表現が検索され、対応するパターンが見つかる。
学習可能なパラメータの継続的なトレーニングに依存する他の方法とは対照的に、PARMESANは記憶内容を変更するだけでメモリ統合を通じて学習する。
提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
継続的学習の複雑なタスクにおいて,本手法の有効性を実証する。
PARMESANは、予測性能、ハードウェア効率、知識保持の点で同等でありながら、既存のベースラインよりも3~4桁高速に学習する。
This work addresses flexibility in deep learning by means of transductive reasoning. For adaptation to new data and tasks, e.g., in continual learning, existing methods typically involve tuning learnable parameters or complete re-training from scratch, rendering such approaches unflexible in practice. We argue that the notion of separating computation from memory by the means of transduction can act as a stepping stone for solving these issues. We therefore propose PARMESAN (parameter-free memory search and transduction), a scalable method which leverages a memory module for solving dense prediction tasks. At inference, hidden representations in memory are being searched to find corresponding patterns. In contrast to other methods that rely on continuous training of learnable parameters, PARMESAN learns via memory consolidation simply by modifying stored contents. Our method is compatible with commonly used architectures and canonically transfers to 1D, 2D, and 3D grid-based data. The capabilities of our approach are demonstrated at the complex task of continual learning. PARMESAN learns by 3-4 orders of magnitude faster than established baselines while being on par in terms of predictive performance, hardware-efficiency, and knowledge retention. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# より大型のビジョンモデルはいつ必要か?
When Do We Not Need Larger Vision Models? ( http://arxiv.org/abs/2403.13043v2 ) ライセンス: Link先を確認 | Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell, | (参考訳) 視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
本稿では,より大きな視覚モデルが不要な点について論じる。
まず、トレーニング済みで凍結された小さな視覚モデル(例えば、ViT-BまたはViT-L)を複数の画像スケールで実行することで、分類、セグメンテーション、深さ推定、マルチモーダルLLM(MLLM)ベンチマーク、ロボット操作において、より大きなモデル(例えば、ViT-HまたはViT-G)よりも優れた性能を発揮できる(S$^2$)。
特に、S$^2$は、GPT-4Vのようなモデルを上回る、V*ベンチマーク上でのMLLMの詳細な理解において、最先端のパフォーマンスを達成する。
S$^2$がモデルサイズでのスケーリングよりも好ましいスケーリング手法である条件について検討する。
より大型のモデルでは、ハードな例でのより優れた一般化の利点があるが、より大型の視覚モデルの特徴は、マルチスケールの小型モデルによってよく近似できることを示す。
これは、全てではないとしても、現在の大きな事前訓練されたモデルによって学習された表現のほとんどが、マルチスケールのより小さなモデルから得ることができることを示唆している。
以上の結果から,S$^2$の事前学習モデルでは,より大規模なモデルに匹敵する学習能力を有し,より大規模なモデルに匹敵するか,あるいはその優位性を超えうることが示された。
我々は、任意のビジョンモデルに1行のコードでS$^2$を適用することができるPythonパッケージをリリースした。
Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger vision models are not necessary. First, we demonstrate the power of Scaling on Scales (S$^2$), whereby a pre-trained and frozen smaller vision model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation. Notably, S$^2$ achieves state-of-the-art performance in detailed understanding of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the conditions under which S$^2$ is a preferred scaling approach compared to scaling on model size. While larger models have the advantage of better generalization on hard examples, we show that features of larger vision models can be well approximated by those of multi-scale smaller models. This suggests most, if not all, of the representations learned by current large pre-trained models can also be obtained from multi-scale smaller models. Our results show that a multi-scale smaller model has comparable learning capacity to a larger model, and pre-training smaller models with S$^2$ can match or even exceed the advantage of larger models. We release a Python package that can apply S$^2$ on any vision model with one line of code: https://github.com/bfshi/scaling_on_scales. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# カゴメ格子$\mathbb{Z}_2$スピン液体中のバイソン凝縮とスピノン凝縮:量子二量体モデルの数値的研究
Vison condensation and spinon confinement in a kagome-lattice $\mathbb{Z}_2$ spin liquid: A numerical study of a quantum dimer model ( http://arxiv.org/abs/2403.13154v3 ) ライセンス: Link先を確認 | Kyusung Hwang, | (参考訳) 量子スピン液体(quantum spin liquids)は、長距離の絡み合いと分数的な正準粒子を特徴とする、エキゾチックな多体状態である。
スピン液体の量子相転移は、特にエノン凝縮とエノン凝縮の新しい現象に関連する興味深い問題である。
本稿では,カゴメ格子上のスピン液体(\mathbb{Z}_2$SL)と価結合固体(VBS)の遷移を実装する量子二量体モデルについて検討する。
この遷移は、$\mathbb{Z}_2$ スピン液体のビソン励起の凝縮によって引き起こされ、特にスピノン励起の閉じ込めにつながる他のエノン励起に影響を及ぼす。
ダイマーモデルの数値的対角化により、バイソン弦演算子を用いてビソン凝縮を直接測定し、VBS状態のスピノン励起に作用する精細ポテンシャルを明示的にチェックする。
スピン液体状態のトポロジカル縮退は、ビソン凝縮と相まって持ち上げられることが観察された。
VBS状態の二量体秩序パターンを、二量体構造因子を調べることにより同定する。
さらに、スピン液体とVBSの特徴を同時に示す興味深い状態が見つかる。
本稿では,混合挙動の起源と熱力学的限界で期待されるシナリオについて論じる。
この研究は、ダイマーモデル(Phys. B 87, 104408 (2013)とPhys. B 92, 205131 (2015))に関する以前の分析研究を補完し、$\mathbb{Z}_2$SL-to-VBS遷移におけるバイソン凝縮とスピノン凝縮に関する数値的な証拠を提供する。
Quantum spin liquids are exotic many-body states featured with long-range entanglement and fractional anyon quasiparticles. Quantum phase transitions of spin liquids are particularly interesting problems related with novel phenomena of anyon condensation and anyon confinement. Here we study a quantum dimer model which implements a transition between a $\mathbb{Z}_2$ spin liquid ($\mathbb{Z}_2$SL) and a valence bond solid (VBS) on the kagome lattice. The transition is driven by the condensation of vison excitation of the $\mathbb{Z}_2$ spin liquid, which impacts on other anyon excitations especially leading to the confinement of spinon excitations. By numerical exact diagonalization of the dimer model, we directly measure the vison condensation using vison string operators, and explicitly check a confining potential acting on spinon excitations in the VBS state. It is observed that topological degeneracy of the spin-liquid state is lifted concomitantly with the vison condensation. The dimer ordering pattern of the VBS state is identified by investigating dimer structure factor. Furthermore, we find an interesting state that exhibits features of spin liquid and VBS simultaneously. We discuss the origin of the mixed behaviors and possible scenarios expected in thermodynamic limit. This work complements the previous analytical studies on the dimer model [Phys. Rev. B 87, 104408 (2013) and Phys. Rev. B 92, 205131 (2015)] by providing numerical evidences on the vison condensation and the spinon confinement in the $\mathbb{Z}_2$SL-to-VBS transition. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# 自己指導型学習のためのデータ多様性の事前学習について
On Pretraining Data Diversity for Self-Supervised Learning ( http://arxiv.org/abs/2403.13808v3 ) ライセンス: Link先を確認 | Hasan Abed Al Kader Hammoud, Tuhin Das, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, | (参考訳) 我々は,より多様なデータセットを用いたトレーニングが,固定された計算予算下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSLの性能を向上させるが,下流データへの分布距離が最小である場合に限る。
特に、Webクローリングや拡散生成データといった手法によって達成された、非常に大きな事前学習データ多様性であっても、分散シフトは依然として課題である。
実験では,ImageNetやYFCC100Mといった大規模データセットを用いた7つのSSL手法を総合的に検討した。
コードとトレーニングされたモデルはhttps://github.com/hammoudhasan/DiversitySSLで入手できる。
We explore the impact of training with more diverse datasets, characterized by the number of unique samples, on the performance of self-supervised learning (SSL) under a fixed computational budget. Our findings consistently demonstrate that increasing pretraining data diversity enhances SSL performance, albeit only when the distribution distance to the downstream data is minimal. Notably, even with an exceptionally large pretraining data diversity achieved through methods like web crawling or diffusion-generated data, among other ways, the distribution shift remains a challenge. Our experiments are comprehensive with seven SSL methods using large-scale datasets such as ImageNet and YFCC100M amounting to over 200 GPU days. Code and trained models are available at https://github.com/hammoudhasan/DiversitySSL | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# MVSplat: まばらなマルチビュー画像から高効率な3Dガウス撮影
MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images ( http://arxiv.org/abs/2403.14627v2 ) ライセンス: Link先を確認 | Yuedong Chen, Haofei Xu, Chuanxia Zheng, Bohan Zhuang, Marc Pollefeys, Andreas Geiger, Tat-Jen Cham, Jianfei Cai, | (参考訳) 入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
ガウス中心を正確にローカライズするために、平面スイーピングによるコストボリューム表現を構築し、コストボリュームに格納されたクロスビュー特徴類似性は、深さの推定に有用な幾何学的手がかりを提供する。
また、他のガウス原始体のパラメータをガウス中心と共同で学習し、光度監督にのみ依存する。
本研究では,学習用フィードフォワードガウシアンにおけるコスト容積表現の重要性を実験的に検証した。
大規模なRealEstate10KとACIDベンチマークでは、MVSplatは高速なフィードフォワード推論速度(22〜fps)で最先端のパフォーマンスを達成する。
より印象的なことに、最新の最先端のメソッドであるPixelSplatと比較して、MVSplatは10ドル(約10万円)のパラメータを減らし、より高速な2ドル(約2万2000円)以上の推論を行う。
We introduce MVSplat, an efficient model that, given sparse multi-view images as input, predicts clean feed-forward 3D Gaussians. To accurately localize the Gaussian centers, we build a cost volume representation via plane sweeping, where the cross-view feature similarities stored in the cost volume can provide valuable geometry cues to the estimation of depth. We also learn other Gaussian primitives' parameters jointly with the Gaussian centers while only relying on photometric supervision. We demonstrate the importance of the cost volume representation in learning feed-forward Gaussians via extensive experimental evaluations. On the large-scale RealEstate10K and ACID benchmarks, MVSplat achieves state-of-the-art performance with the fastest feed-forward inference speed (22~fps). More impressively, compared to the latest state-of-the-art method pixelSplat, MVSplat uses $10\times$ fewer parameters and infers more than $2\times$ faster while providing higher appearance and geometry quality as well as better cross-dataset generalization. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# 簡単なグラフ凝縮
Simple Graph Condensation ( http://arxiv.org/abs/2403.14951v2 ) ライセンス: Link先を確認 | Zhenbang Xiao, Yu Wang, Shunyu Liu, Huiqiong Wang, Mingli Song, Tongya Zheng, | (参考訳) 大規模グラフに対する負担のかかるトレーニングコストは,グラフ凝縮に対する大きな関心を喚起し,グラフニューラルネットワーク(GNN)を大規模オリジナルグラフで使用する小さな凝縮グラフにチューニングする。
既存の手法は主に、勾配、出力分布、GNNの軌跡といった、凝縮したグラフと元のグラフの間のキーメトリックの整合に重点を置いており、下流のタスクで十分なパフォーマンスが得られる。
しかし、これらの複雑なメトリクスは複雑な外部パラメータを必要とし、凝縮グラフの最適化プロセスを妨害し、凝縮過程を非常に要求され不安定にする可能性がある。
近年, 様々な領域にまたがる簡易モデルの成功により, グラフ凝縮における計量アライメントの簡易化が提案され, 複雑なメトリクスから引き継がれた不要な複雑性の低減が図られている。
本稿では,SimGC(Simple Graph Condensation)フレームワークについて紹介する。このフレームワークは,SimGC(Simple Graph Convolution)モデルを用いて,入力層から予測層まで,凝縮グラフを元のグラフに整列させる。
重要なことに、SimGCは外部パラメータを排除し、凝縮プロセス中にターゲットの凝縮グラフを排他的に保持する。
この単純で効果的な戦略は、最先端のベースラインに匹敵する性能を保ちながら、既存のグラフ凝縮法と比較して最大10倍のスピードアップを達成する。
7つのベンチマークデータセットで実施された総合的な実験は、予測精度、凝縮時間、一般化能力におけるSimGCの有効性を示す。
私たちのコードはhttps://github.com/BangHonor/SimGCで利用可能です。
The burdensome training costs on large-scale graphs have aroused significant interest in graph condensation, which involves tuning Graph Neural Networks (GNNs) on a small condensed graph for use on the large-scale original graph. Existing methods primarily focus on aligning key metrics between the condensed and original graphs, such as gradients, output distribution and trajectories of GNNs, yielding satisfactory performance on downstream tasks. However, these complex metrics necessitate intricate external parameters and can potentially disrupt the optimization process of the condensation graph, making the condensation process highly demanding and unstable. Motivated by the recent success of simplified models across various domains, we propose a simplified approach to metric alignment in graph condensation, aiming to reduce unnecessary complexity inherited from intricate metrics. We introduce the Simple Graph Condensation (SimGC) framework, which aligns the condensed graph with the original graph from the input layer to the prediction layer, guided by a pre-trained Simple Graph Convolution (SGC) model on the original graph. Importantly, SimGC eliminates external parameters and exclusively retains the target condensed graph during the condensation process. This straightforward yet effective strategy achieves a significant speedup of up to 10 times compared to existing graph condensation methods while performing on par with state-of-the-art baselines. Comprehensive experiments conducted on seven benchmark datasets demonstrate the effectiveness of SimGC in prediction accuracy, condensation time, and generalization capability. Our code is available at https://github.com/BangHonor/SimGC. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# BIMCV-R:3次元CTテキスト検索のためのランドマークデータセット
BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval ( http://arxiv.org/abs/2403.15992v2 ) ライセンス: Link先を確認 | Yinda Chen, Che Liu, Xiaoyu Liu, Rossella Arcucci, Zhiwei Xiong, | (参考訳) 医療分野への3D医療画像の統合は、医療専門家の労働負荷を大幅に増加させた。
臨床医が診断過程を補助し、作業負荷を軽減するために、同様のケーススタディを検索する堅牢なシステムの開発が実現可能なソリューションである。
この概念は大きな可能性を秘めているが、現在、3D医療用テキスト画像検索の分野は、堅牢な評価ベンチマークとキュレートされたデータセットの欠如によって制限されている。
そこで本研究では,8,069個の3次元CTデータを収集し,200万枚以上のスライスを,それぞれの放射線学的報告と組み合わせた,画期的なデータセットであるBIMCV-Rを提示する。
データセットの基礎的な作業を拡張することで、検索戦略であるMedFinderを構築します。
このアプローチでは、デュアルストリームネットワークアーキテクチャを採用し、大規模言語モデルの可能性を活用して、既存のテキスト画像検索ソリューションを超えて医療画像検索の分野を前進させる。
これは、テキスト・トゥ・イメージ、画像・トゥ・テキスト、キーワードベースの検索タスクを容易に行えるシステムを開発するための予備的なステップである。
我々のプロジェクトは \url{https://huggingface.co/datasets/cyd0806/BIMCV-R} で利用可能です。
The burgeoning integration of 3D medical imaging into healthcare has led to a substantial increase in the workload of medical professionals. To assist clinicians in their diagnostic processes and alleviate their workload, the development of a robust system for retrieving similar case studies presents a viable solution. While the concept holds great promise, the field of 3D medical text-image retrieval is currently limited by the absence of robust evaluation benchmarks and curated datasets. To remedy this, our study presents a groundbreaking dataset, {BIMCV-R}, which includes an extensive collection of 8,069 3D CT volumes, encompassing over 2 million slices, paired with their respective radiological reports. Expanding upon the foundational work of our dataset, we craft a retrieval strategy, MedFinder. This approach employs a dual-stream network architecture, harnessing the potential of large language models to advance the field of medical image retrieval beyond existing text-image retrieval solutions. It marks our preliminary step towards developing a system capable of facilitating text-to-image, image-to-text, and keyword-based retrieval tasks. Our project is available at \url{https://huggingface.co/datasets/cyd0806/BIMCV-R}. | 翻訳日:2024-07-19 21:11:56 公開日:2024-07-18 |
# GLAD:単純な量子化による遅延グラフ生成モデルの改善
GLAD: Improving Latent Graph Generative Modeling with Simple Quantization ( http://arxiv.org/abs/2403.16883v4 ) ライセンス: Link先を確認 | Van Khoa Nguyen, Yoann Boget, Frantzeska Lavda, Alexandros Kalousis, | (参考訳) グラフ潜在構造を探索することは、グラフ生成研究分野ではあまり注目を集めていない。
しかし、潜在空間を活用することは、グラフのような離散データのためのデータ空間に取り組むのと同じくらい重要である。
しかし、従来の手法ではグラフの置換対称性の保存に失敗したり、潜在空間内で適切にモデル化するための効果的なアプローチが欠如していた。
これらの問題を緩和するために、単純で効果的な離散潜在グラフ拡散生成モデルを提案する。
我々のモデル、すなわちGLADは、既存の潜伏アプローチの欠点を克服するだけでなく、グラフ空間に適用される拡散法に固有の問題を緩和する。
分子ベンチマークデータセット上で生成モデルを検証し、最先端のベースラインと比較して競合性能を示す。
Exploring the graph latent structures has not garnered much attention in the graph generative research field. Yet, exploiting the latent space is as crucial as working on the data space for discrete data such as graphs. However, previous methods either failed to preserve the permutation symmetry of graphs or lacked an effective approaches to model appropriately within the latent space. To mitigate those issues, we propose a simple, yet effective discrete latent graph diffusion generative model. Our model, namely GLAD, not only overcomes the drawbacks of existing latent approaches, but also alleviates inherent issues present in diffusion methods applied on the graph space. We validate our generative model on the molecular benchmark datasets, on which it demonstrates competitive performance compared with the state-of-the-art baselines. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# Siamese Cropped Masked Autoencoders を用いた効率的な画像事前学習
Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders ( http://arxiv.org/abs/2403.17823v2 ) ライセンス: Link先を確認 | Alexandre Eymaël, Renaud Vandeghen, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, | (参考訳) 画像エンコーダの自己教師付き事前訓練は、特にMasked Autoencoder (MAE) の導入後、文学において一様である。
現在の試みは、動画のモーションからオブジェクト中心の表現を学習しようとする試みである。
特に最近、SiamMAEはSiameseネットワークを導入し、高い非対称マスキング比(95%)の動画の2フレームから共有重み付きエンコーダをトレーニングした。
そこで本研究では,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法は, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出することにより, 特別に異なる。
CropMAEは、競争力のあるパフォーマンスを維持しながら、事前トレーニングや学習時間を劇的に短縮しながら、ビデオデータセットの必要性を軽減します。
さらに、CropMAEは明示的な動きを伴わずに類似したオブジェクト中心の表現を学習し、現在の自己教師付き学習手法は、その表現を明示的な物体の動きから学ばず、むしろ2つの視点の間に生じる暗黙的な画像変換によって学習していることを示す。
最終的に、CropMAEは、これまでで最も高いマスキング比(98.5%)を達成した。
私たちのコードはhttps://github.com/alexandre-eymael/CropMAE.comで公開されています。
Self-supervised pre-training of image encoders is omnipresent in the literature, particularly following the introduction of Masked autoencoders (MAE). Current efforts attempt to learn object-centric representations from motion in videos. In particular, SiamMAE recently introduced a Siamese network, training a shared-weight encoder from two frames of a video with a high asymmetric masking ratio (95%). In this work, we propose CropMAE, an alternative approach to the Siamese pre-training introduced by SiamMAE. Our method specifically differs by exclusively considering pairs of cropped images sourced from the same image but cropped differently, deviating from the conventional pairs of frames extracted from a video. CropMAE therefore alleviates the need for video datasets, while maintaining competitive performances and drastically reducing pre-training and learning time. Furthermore, we demonstrate that CropMAE learns similar object-centric representations without explicit motion, showing that current self-supervised learning methods do not learn such representations from explicit object motion, but rather thanks to the implicit image transformations that occur between the two views. Finally, CropMAE achieves the highest masking ratio to date (98.5%), enabling the reconstruction of images using only two visible patches. Our code is available at https://github.com/alexandre-eymael/CropMAE. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# 内視鏡映像からの単眼深度推定のための近接場照明の活用
Leveraging Near-Field Lighting for Monocular Depth Estimation from Endoscopy Videos ( http://arxiv.org/abs/2403.17915v3 ) ライセンス: Link先を確認 | Akshay Paruchuri, Samuel Ehrenstein, Shuxian Wang, Inbar Fried, Stephen M. Pizer, Marc Niethammer, Roni Sengupta, | (参考訳) 内視鏡ビデオにおける単眼深度推定は、補助手術やロボット手術によって臓器のより良いカバレッジと様々な健康問題の検出を可能にする。
主流である自然画像深度推定の進歩は期待できるが、強力な幾何学的特徴の欠如と難解な照明効果のため、内視鏡画像では技術が不十分である。
本稿では, 内視鏡から放射される光を表面から反射する光学的手がかりを用いて, 単分子深度推定を改善する。
まず、画素ごとのシェーディング表現を利用した教師付きおよび自己監督型の2つの新しい損失関数を作成する。
次に、同じピクセルごとのシェーディング表現を利用する新しい深度改善ネットワーク(PPSNet)を提案する。
最後に,教師学生の移動学習を導入し,自己監督型と臨床データを用いた合成データから,より深い深度マップを作成する。
我々は,臨床データから高品質な深度マップを推定しながら,C3VDデータセットの最先端結果を得る。
私たちのコード、事前訓練されたモデル、補足的な資料は、プロジェクトのページで確認できます。
Monocular depth estimation in endoscopy videos can enable assistive and robotic surgery to obtain better coverage of the organ and detection of various health issues. Despite promising progress on mainstream, natural image depth estimation, techniques perform poorly on endoscopy images due to a lack of strong geometric features and challenging illumination effects. In this paper, we utilize the photometric cues, i.e., the light emitted from an endoscope and reflected by the surface, to improve monocular depth estimation. We first create two novel loss functions with supervised and self-supervised variants that utilize a per-pixel shading representation. We then propose a novel depth refinement network (PPSNet) that leverages the same per-pixel shading representation. Finally, we introduce teacher-student transfer learning to produce better depth maps from both synthetic data with supervision and clinical data with self-supervision. We achieve state-of-the-art results on the C3VD dataset while estimating high-quality depth maps from clinical data. Our code, pre-trained models, and supplementary materials can be found on our project page: https://ppsnet.github.io/ | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# NeuroPictor:マルチ個別事前トレーニングとマルチレベル変調によるfMRI画像再構成
NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation ( http://arxiv.org/abs/2403.18211v2 ) ライセンス: Link先を確認 | Jingyang Huo, Yikai Wang, Xuelin Qian, Yun Wang, Chong Li, Jianfeng Feng, Yanwei Fu, | (参考訳) 最近のfMRI-to-imageアプローチは、主に、訓練済み拡散モデルの特定の条件とfMRI信号を関連付けることに焦点を当てている。
これらのアプローチは、高品質な画像を生成する一方で、fMRI信号の複雑な情報の限られた側面のみを捉え、画像生成の詳細な制御はほとんど提供しない。
一方,本研究では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
われわれのアプローチであるNeuroPictorは、fMRI-to-imageプロセスを3段階に分けている。
一 個人差を最小限に抑え、かつ、その後の多目的訓練を可能にするために、共有潜在空間の多種個別事前訓練に取り組むためのfMRI校正符号化
二 fMRI-to-image Multi-ject pre-training, perceptually learning to guide diffusion model with high-level conditions across different individuals。
三 fMRI-to-image single-subject refining ステップ ii と同様、特定の個人に適応することに焦点を当てる。
NeuroPictorは、視覚刺激を特徴付けるfMRI信号から高レベルの意味的特徴を抽出し、低レベルの操作ネットワークで拡散モデルをインクリメンタルに微調整し、正確な構造指示を提供する。
様々な個人から約67,000 fMRI-imageペアをトレーニングすることにより、ベンチマークデータセットに示されているような、特にオブジェクト内設定において、より優れたfMRI-image decoding能力が得られる。
私たちのコードとモデルはhttps://jingyanghuo.github.io/neuropictor/で公開されています。
Recent fMRI-to-image approaches mainly focused on associating fMRI signals with specific conditions of pre-trained diffusion models. These approaches, while producing high-quality images, capture only a limited aspect of the complex information in fMRI signals and offer little detailed control over image creation. In contrast, this paper proposes to directly modulate the generation process of diffusion models using fMRI signals. Our approach, NeuroPictor, divides the fMRI-to-image process into three steps: i) fMRI calibrated-encoding, to tackle multi-individual pre-training for a shared latent space to minimize individual difference and enable the subsequent multi-subject training; ii) fMRI-to-image multi-subject pre-training, perceptually learning to guide diffusion model with high- and low-level conditions across different individuals; iii) fMRI-to-image single-subject refining, similar with step ii but focus on adapting to particular individual. NeuroPictor extracts high-level semantic features from fMRI signals that characterizing the visual stimulus and incrementally fine-tunes the diffusion model with a low-level manipulation network to provide precise structural instructions. By training with about 67,000 fMRI-image pairs from various individuals, our model enjoys superior fMRI-to-image decoding capacity, particularly in the within-subject setting, as evidenced in benchmark datasets. Our code and model are available at https://jingyanghuo.github.io/neuropictor/. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# プロンプトなしの正確性から学ぶと、LLM効率の良い共振器になる
Learning From Correctness Without Prompting Makes LLM Efficient Reasoner ( http://arxiv.org/abs/2403.19094v2 ) ライセンス: Link先を確認 | Yuxuan Yao, Han Wu, Zhijiang Guo, Biyan Zhou, Jiahui Gao, Sichun Luo, Hanxu Hou, Xiaojin Fu, Linqi Song, | (参考訳) 大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
これらの問題を緩和するための潜在的アプローチの1つは、人間または外部からのフィードバック(例えばツール)から学ぶことである。
本稿では,人間のフィードバックや外部ツール,手工芸のプロンプトを不要にするための,本質的な自己修正推論フレームワークについて紹介する。
提案フレームワークは,多段階推論パラダイムである \textbf{Co}rrectness (\textsc{LeCo}) をベースとして,誤りから学ぶことなく推論性能を向上させる。
このパラダイムは、正しい推論ステップからの学習を優先し、生成ロジットに基づいて各推論ステップに対する信頼度を測定するユニークな方法である。
各種多段階推論タスクに対する実験結果から,トークン使用量削減による推論性能向上におけるフレームワークの有効性が示された。
Large language models (LLMs) have demonstrated outstanding performance across various tasks, yet they still exhibit limitations such as hallucination, unfaithful reasoning, and toxic content. One potential approach to mitigate these issues is learning from human or external feedback (e.g. tools). In this paper, we introduce an intrinsic self-correct reasoning framework for LLMs that eliminates the need for human feedback, external tools, and handcraft prompts. The proposed framework, based on a multi-step reasoning paradigm \textbf{Le}arning from \textbf{Co}rrectness (\textsc{LeCo}), improves reasoning performance without needing to learn from errors. This paradigm prioritizes learning from correct reasoning steps, and a unique method to measure confidence for each reasoning step based on generation logits. Experimental results across various multi-step reasoning tasks demonstrate the effectiveness of the framework in improving reasoning performance with reduced token consumption. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# QestOptPOVM: 量子パラメータ推定のための最適測度を求める反復アルゴリズム
QestOptPOVM: An iterative algorithm to find optimal measurements for quantum parameter estimation ( http://arxiv.org/abs/2403.20131v2 ) ライセンス: Link先を確認 | Jianchao Zhang, Jun Suzuki, | (参考訳) 量子パラメータ推定は、最も情報性の高い測定値を利用することで高精度を達成するための重要な約束を持っている。
推定値の最良の精度を評価するために、様々な下界が開発されたが、それらは厳密ではないし、一般に最適な測定値の構成を提供していない。
したがって、非自明な最適化のため、最適測定の明示的な形式を決定することは困難である。
本研究では,最急降下法を用いて最適正の演算子値(POVM)を直接同定するアルゴリズム,QestOptPOVMを提案する。
量子状態の複数コピー(最大6コピー)の厳密な試行を通じて,提案アルゴリズムの有効性と精度を実証した。
さらに, 数値計算結果と確立された下界の比較分析により, 有限サンプル量子メートル法における長岡-早石境界の厳密性の検証に有効である。
同時に,我々のアルゴリズムは最適なPOVMの明示的な形式を解明するためのツールとして機能し,量子パラメータ推定手法の理解を深める。
Quantum parameter estimation holds significant promise for achieving high precision through the utilization of the most informative measurements. While various lower bounds have been developed to assess the best accuracy for estimates, they are not tight, nor provide a construction of the optimal measurement in general. Thus, determining the explicit forms of optimal measurements has been challenging due to the non-trivial optimization. In this study, we introduce an algorithm, termed QestOptPOVM, designed to directly identify optimal positive operator-valued measure (POVM) using the steepest descent method. Through rigorous testing on several examples for multiple copies of qubit states (up to six copies), we demonstrate the efficiency and accuracy of our proposed algorithm. Moreover, a comparative analysis between numerical results and established lower bounds serves to validate the tightness of the Nagaoka-Hayashi bound in finite-sample quantum metrology for our examples. Concurrently, our algorithm functions as a tool for elucidating the explicit forms of optimal POVMs, thereby enhancing our understanding of quantum parameter estimation methodologies. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# PairEval: ペアワイズ比較によるオープンドメイン対話の評価
PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison ( http://arxiv.org/abs/2404.01015v2 ) ライセンス: Link先を確認 | ChaeHun Park, Minseok Choi, Dohyun Lee, Jaegul Choo, | (参考訳) オープンドメイン対話システムには,信頼性と自動評価基準の構築が不可欠だが難しい課題である。
近年の研究では、過去の対話履歴との関連性を考慮して、生成した応答を評価する評価指標が提案されている。
有効ではあるが、これらの指標は他の反応と比較して相対的な品質を考慮せず、個々の反応を直接評価する。
そこで本研究では,異なる会話における応答に対する応答の質を比較することで,応答を評価する新しい対話評価指標であるPairEvalを提案する。
PairEvalは、オープンソースの言語モデルと中規模言語モデルに基づいて構築されており、対話応答のペアワイズ比較に特化させる。
複数のベンチマークでの大規模な実験により、我々の測定値が基準値よりも人間の判断と高い相関を示すことが示された。
また、提案手法は、繰り返しや話者の不感度を含むオープンドメイン対話システムからの共通障害の検出において、より堅牢であることがわかった。
Building a reliable and automated evaluation metric is a necessary but challenging problem for open-domain dialogue systems. Recent studies proposed evaluation metrics that assess generated responses by considering their relevance to previous dialogue histories. Although effective, these metrics evaluate individual responses directly rather than considering their relative quality compared to other responses. To handle this, we propose PairEval, a novel dialogue evaluation metric for assessing responses by comparing their quality against responses in different conversations. PairEval is built on top of open-sourced and moderate-size language models, and we make them specialized in pairwise comparison between dialogue responses. Extensive experiments on multiple benchmarks demonstrate that our metric exhibits a higher correlation with human judgments than baseline metrics. We also find that the proposed comparative metric is more robust in detecting common failures from open-domain dialogue systems, including repetition and speaker insensitivity. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# NeRF-MAE:ニューラルネットワーク分野の自己教師付き3次元表現学習のためのマスク付きオートエンコーダ
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields ( http://arxiv.org/abs/2404.01300v3 ) ライセンス: Link先を確認 | Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus, | (参考訳) ニューラルネットワークはコンピュータビジョンやロボット工学において、セマンティクス、幾何学、ダイナミクスを推論するといった3次元視覚世界を理解する能力によって優れている。
2D画像から3Dシーンを密に表現するニューラルネットワークの能力を考えると、我々は疑問を呈する: マスク付きオートエンコーダを使って、自己教師付き事前訓練を拡大して、ポーズされたRGB画像から効果的な3D表現を生成することができるか?
トランスを新しいデータモダリティに拡張するという驚くべき成功により、我々は標準の3Dビジョン変換器を用いて、NeRFのユニークな定式化に適合する。
我々はNeRFの体積格子を変換器への高密度入力として利用し、情報密度が不均一な点雲のような他の3次元表現と対比し、その表現は不規則である。
マスク付きオートエンコーダをNeRFなどの暗黙の表現に適用することの難しさから,サンプリングにカメラトラジェクトリを用いることで,ドメイン間のシーンを標準化する明示的な表現を抽出することを選んだ。
我々の目標は、NeRFの放射率と密度グリッドからランダムなパッチをマスキングし、標準的な3Dスウィントランスを用いてマスクされたパッチを再構築することである。
そうすることで、モデルは完全なシーンの意味的構造と空間的構造を学ぶことができる。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
事前訓練後、エンコーダは効果的な3D転送学習に使用される。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
ラベル付けされていない2Dデータを事前トレーニングに利用することにより、NeRF-MAEはFront3DおよびScanNetデータセットにおける自己教師付き3D事前トレーニングとNeRFシーン理解ベースラインを著しく上回り、3Dオブジェクト検出のための20% AP50と8% AP25の絶対的なパフォーマンス向上を実現した。
Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF's volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF's radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.8 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# この画像が生成したモデル : 原点属性のモデル非依存的アプローチ
Which Model Generated This Image? A Model-Agnostic Approach for Origin Attribution ( http://arxiv.org/abs/2404.02697v2 ) ライセンス: Link先を確認 | Fengyuan Liu, Haochen Luo, Yiming Li, Philip Torr, Jindong Gu, | (参考訳) 視覚生成モデルの最近の進歩は、高品質な画像の生成を可能にする。
生成した画像の誤用を防止するために、生成する原点モデルを特定することが重要である。
本研究では,ソースモデルによって生成された少数の画像のみにアクセスでき,ソースモデルにアクセスできない現実的な環境で,生成した画像の起源属性について検討する。
ゴールは、ある画像がソースモデルによって生成されるかどうかを確認することである。
まず、この問題を数発の1クラス分類タスクとして定式化する。
この課題を解決するために,数発のワンクラス分類のためのCLIPベースのフレームワークであるOCC-CLIPを提案する。
OCC-CLIPフレームワークの有効性を検証した。
さらに、最近リリースされたDALL-E 3 APIに基づく実験により、我々のソリューションの現実的な適用性を検証する。
Recent progress in visual generative models enables the generation of high-quality images. To prevent the misuse of generated images, it is important to identify the origin model that generates them. In this work, we study the origin attribution of generated images in a practical setting where only a few images generated by a source model are available and the source model cannot be accessed. The goal is to check if a given image is generated by the source model. We first formulate this problem as a few-shot one-class classification task. To solve the task, we propose OCC-CLIP, a CLIP-based framework for few-shot one-class classification, enabling the identification of an image's source model, even among multiple candidates. Extensive experiments corresponding to various generative models verify the effectiveness of our OCC-CLIP framework. Furthermore, an experiment based on the recently released DALL-E 3 API verifies the real-world applicability of our solution. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形
Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v2 ) ライセンス: Link先を確認 | Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, | (参考訳) 3D Gaussian Splatting (3DGS)は高速かつ高品質な新規ビュー合成を提供するため、動的シーンを表現するために標準3DGSを複数のフレームに変形させる自然な拡張である。
しかし、以前の作品では複雑な動的シーンを正確に再構築することはできなかった。
我々は, 座標関数として構築された変形場の設計に失敗しているとみなす。
3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。
この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。
さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。
また, 局所的滑らか度正規化を導入し, 動的領域の細部を改良する。
プロジェクトページ: https://jeongminb.github.io/e-d3dgs/
As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames for representing a dynamic scene. However, previous works fail to accurately reconstruct complex dynamic scenes. We attribute the failure to the design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce a local smoothness regularization for per-Gaussian embedding to improve the details in dynamic regions. Project page: https://jeongminb.github.io/e-d3dgs/ | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# テンソルネットワークからの開放量子東ガラスモデルにおける動的不均一性と大きな偏差
Dynamical heterogeneity and large deviations in the open quantum East glass model from tensor networks ( http://arxiv.org/abs/2404.03750v3 ) ライセンス: Link先を確認 | Luke Causer, Mari Carmen Bañuls, Juan P. Garrahan, | (参考訳) 数値テンソルネットワークを用いた散逸量子東モデルの非平衡ダイナミクスについて検討する。
我々は行列積状態を用いて、正確な対角化にアクセスできるものを超える大きさの量子ジャンプなき大きさの進化を表現する。
これにより、古典的なガラス系で見られるものと類似して、動的不均一性が緩やかに緩和することを示すことができる。
さらに、変分行列積演算子を用いて、
(i)リンドブラディアンのスペクトルギャップを計算し、純古典の場合と比較して弱い量子ゆらぎの存在下でガラス性が向上していることを示し、
2)傾斜したリンドブラディアンの主固有ベクトルを計算し、一階の活性-非活性な動的相転移の明確な証拠を求めることにより、動的大偏差を求める。
また、大きな偏差に関連する希少な量子軌道を直接サンプリングする方法を示す。
We study the non-equilibrium dynamics of the dissipative quantum East model via numerical tensor networks. We use matrix product states to represent evolution under quantum-jump unravellings for sizes beyond those accessible to exact diagonalisation. This allows us to demonstrate that dynamical heterogeneity accompanies slow relaxation, in analogy with what is seen in classical glassy systems. Furthermore, using variational matrix product operators we: (i) compute the spectral gap of the Lindbladian, and show that glassiness is enhanced in the presence of weak quantum fluctuations compared to the pure classical case, and (ii) obtain the dynamical large deviations by calculating the leading eigenvector of the tilted Lindbladian, and find clear evidence for a first-order active-inactive dynamical phase transition. We also show how to directly sample the rare quantum trajectories associated to the large deviations. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# RoT: 検索ツリーのリフレクションによる大規模言語モデルの強化
RoT: Enhancing Large Language Models with Reflection on Search Trees ( http://arxiv.org/abs/2404.05449v3 ) ライセンス: Link先を確認 | Wenyang Hui, Kewei Tu, | (参考訳) 大規模言語モデル(LLM)は、木探索に基づくプロンプト手法と統合された場合、推論と計画において印象的な能力を示す。
しかし,これらの手法は過去の検索体験を無視するので,検索プロセスではしばしば同じ誤りを犯す。
この問題を解決するために,木探索によるプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)を導入する。
強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。
本ガイドラインは, 木探索による課題解決の指針であり, 過去の探索プロセスにおいて, 弱いLLMが同様のミスを犯すのを防ぐ。
さらに我々は,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択手法を提案する。
広範囲にわたる実験の結果,RoT は様々な木探索手法(BFS や MCTS など)を用いた推論や計画作業において LLM の性能を著しく向上させることがわかった。
Chain-of-Thought(CoT)のような非ツリー検索ベースのプロンプト手法は、RoTが検索エクスペリエンスから収集したタスク固有の知識を提供することができるため、RoTガイドラインの恩恵を受けることができる。
Large language models (LLMs) have demonstrated impressive capability in reasoning and planning when integrated with tree-search-based prompting methods. However, since these methods ignore the previous search experiences, they often make the same mistakes in the search process. To address this issue, we introduce Reflection on search Trees (RoT), an LLM reflection framework designed to improve the performance of tree-search-based prompting methods. It uses a strong LLM to summarize guidelines from previous tree search experiences to enhance the ability of a weak LLM. The guidelines are instructions about solving this task through tree search which can prevent the weak LLMs from making similar mistakes in the past search process. In addition, we proposed a novel state selection method, which identifies the critical information from historical search processes to help RoT generate more specific and meaningful guidelines. In our extensive experiments, we find that RoT significantly improves the performance of LLMs in reasoning or planning tasks with various tree-search-based prompting methods (e.g., BFS and MCTS). Non-tree-search-based prompting methods such as Chain-of-Thought (CoT) can also benefit from RoT guidelines since RoT can provide task-specific knowledge collected from the search experience. | 翻訳日:2024-07-19 21:01:57 公開日:2024-07-18 |
# 医療領域のためのマルチラベル連続学習:新しいベンチマーク
Multi-Label Continual Learning for the Medical Domain: A Novel Benchmark ( http://arxiv.org/abs/2404.06859v3 ) ライセンス: Link先を確認 | Marina Ceccon, Davide Dalle Pezze, Alessandro Fabris, Gian Antonio Susto, | (参考訳) 深層学習における医療領域の重要性にもかかわらず、この分野の研究の大部分は静的環境におけるトレーニングモデルのみに焦点を当てている。
近年になって、動的環境に対処し、継続学習(CL)技術を用いて破滅的な予測問題に取り組む研究が始まっている。
これまでの研究は主にドメインインクリメンタルラーニングやクラスインクリメンタルラーニングといったシナリオに重点を置いてきた。
そこで本研究では,新しいインスタンスと新しいクラス(NIC)のシナリオを考慮し,新しいクラス到着と単一フレームワークにおけるドメインシフトの課題を組み合わせた新しいベンチマークを提案する。
本ベンチマークは,医療画像における多ラベル分類問題に対する現実的なCL設定をモデル化することを目的とする。
さらに、以前テストされたシナリオよりも多くのタスクを含んでいる。
具体的には,2つのデータセット(NIHとCXP),19のクラス,7つのタスクで構成される。
CILとNICのシナリオで見られる共通課題(例えばタスク推論問題)を解決するために、我々はReplay Consolidation with Label Propagation (RCLP)と呼ばれる新しいアプローチを提案する。
提案手法は既存の手法を超越し,最小限の忘れを伴って優れた性能を示す。
Despite the critical importance of the medical domain in Deep Learning, most of the research in this area solely focuses on training models in static environments. It is only in recent years that research has begun to address dynamic environments and tackle the Catastrophic Forgetting problem through Continual Learning (CL) techniques. Previous studies have primarily focused on scenarios such as Domain Incremental Learning and Class Incremental Learning, which do not fully capture the complexity of real-world applications. Therefore, in this work, we propose a novel benchmark combining the challenges of new class arrivals and domain shifts in a single framework, by considering the New Instances and New Classes (NIC) scenario. This benchmark aims to model a realistic CL setting for the multi-label classification problem in medical imaging. Additionally, it encompasses a greater number of tasks compared to previously tested scenarios. Specifically, our benchmark consists of two datasets (NIH and CXP), nineteen classes, and seven tasks, a stream longer than the previously tested ones. To solve common challenges (e.g., the task inference problem) found in the CIL and NIC scenarios, we propose a novel approach called Replay Consolidation with Label Propagation (RCLP). Our method surpasses existing approaches, exhibiting superior performance with minimal forgetting. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# UMBRAE: 統一マルチモーダル脳デコーディング
UMBRAE: Unified Multimodal Brain Decoding ( http://arxiv.org/abs/2404.07202v2 ) ライセンス: Link先を確認 | Weihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue, | (参考訳) 我々は、文献が正確な空間情報をほとんど復元せず、主題固有のモデルを必要とするという観察から離れて、脳による研究の一般的な課題に対処する。
これらの課題に対処するため,脳信号のマルチモーダルデコードであるUMBRAEを提案する。
まず、ニューラルネットワークからインスタンスレベルの概念的・空間的詳細を抽出するため、マルチモーダル脳アライメントのための効率的なユニバーサル脳エンコーダを導入し、その後のマルチモーダル大言語モデル(MLLM)から多段階の粒度でオブジェクト記述を復元する。
第2に,対象物固有の特徴を共通の特徴空間にマッピングするクロスオブジェクトトレーニング戦略を導入する。
これにより、モデルは余分なリソースを使わずに複数の被験者でトレーニングでき、また、対象固有のモデルよりも優れた結果が得られる。
さらに,本研究は,新たな被験者への教師付き適応を弱め,トレーニングデータのごく一部に過ぎなかったことを実証する。
実験により、UMBRAEは新たに導入されたタスクにおいて優れた結果を得るだけでなく、確立されたタスクにおいてメソッドよりも優れることが示された。
提案手法を評価するため,脳理解ベンチマークBrainHubを構築し,コミュニティと共有する。
私たちのコードとベンチマークはhttps://weihaox.github.io/UMBRAE.comで公開されています。
We address prevailing challenges of the brain-powered research, departing from the observation that the literature hardly recover accurate spatial information and require subject-specific models. To address these challenges, we propose UMBRAE, a unified multimodal decoding of brain signals. First, to extract instance-level conceptual and spatial details from neural signals, we introduce an efficient universal brain encoder for multimodal-brain alignment and recover object descriptions at multiple levels of granularity from subsequent multimodal large language model (MLLM). Second, we introduce a cross-subject training strategy mapping subject-specific features to a common feature space. This allows a model to be trained on multiple subjects without extra resources, even yielding superior results compared to subject-specific models. Further, we demonstrate this supports weakly-supervised adaptation to new subjects, with only a fraction of the total training data. Experiments demonstrate that UMBRAE not only achieves superior results in the newly introduced tasks but also outperforms methods in well established tasks. To assess our method, we construct and share with the community a comprehensive brain understanding benchmark BrainHub. Our code and benchmark are available at https://weihaox.github.io/UMBRAE. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# モノのインターネットにおけるオポチュニティなセンサベース認証要因
Opportunistic Sensor-Based Authentication Factors in and for the Internet of Things ( http://arxiv.org/abs/2404.07675v2 ) ライセンス: Link先を確認 | Marc Saideh, Jean-Paul Jamont, Laurent Vercouter, | (参考訳) IoT(Internet of Things)におけるコネクテッドオブジェクト間の通信は、エンティティのアイデンティティを検証し、機密データやリソースへの不正アクセスを防止するために、セキュアで信頼性の高い認証メカニズムを必要とすることが多い。
他のドメインとは異なり、IoTは多くのセンサーを通じてリアルタイムデータを収集する機能など、いくつかのアドバンテージと機会を提供する。
これらのデータには、環境やその他のオブジェクトに関する貴重な情報が含まれており、使用すれば認証プロセスを大幅に強化することができる。
本稿では,システムアプローチにおける既存のIoTセンサを活用することで,機会論的センサベースの認証要素を構築するための新しいアイデアを提案する。
目的は、IoTセキュリティを強化するための機会論的認証要因の有望な可能性を強調することである。
センサは新たな認証要素を作成するために利用でき、既存のオブジェクト間認証機構を強化することができる。
これらの機会論的センサベースの認証要素を多要素認証スキームに統合することにより、IoTセキュリティを大幅に改善することができる。
本研究は,移動ロボットと自動車の両方を含む駐車場入場シナリオにおける実証実験を通じて,その実現可能性と有効性を実証し,高い識別精度を実現した。
我々は、IoTセキュリティを改善する新しい手法の可能性を強調し、我々のアプローチを既存の技術と比較するための今後の研究方向を提案する。
Communication between connected objects in the Internet of Things (IoT) often requires secure and reliable authentication mechanisms to verify identities of entities and prevent unauthorized access to sensitive data and resources. Unlike other domains, IoT offers several advantages and opportunities, such as the ability to collect real-time data through numerous sensors. These data contains valuable information about the environment and other objects that, if used, can significantly enhance authentication processes. In this paper, we propose a novel idea to building opportunistic sensor-based authentication factors by leveraging existing IoT sensors in a system of systems approach. The objective is to highlight the promising prospects of opportunistic authentication factors in enhancing IoT security. We claim that sensors can be utilized to create additional authentication factors, thereby reinforcing existing object-to-object authentication mechanisms. By integrating these opportunistic sensor-based authentication factors into multi-factor authentication schemes, IoT security can be substantially improved. We demonstrate the feasibility and effectivenness of our idea through illustrative experiments in a parking entry scenario, involving both mobile robots and cars, achieving high identification accuracy. We highlight the potential of this novel method to improve IoT security and suggest future research directions for formalizing and comparing our approach with existing techniques. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# SPAMming Labels:明日のトラッカーに効率的なアノテーション
SPAMming Labels: Efficient Annotations for the Trackers of Tomorrow ( http://arxiv.org/abs/2404.11426v2 ) ライセンス: Link先を確認 | Orcun Cetintas, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé, | (参考訳) ビデオからのトラジェクトリアノテーションのアノテーション効率の向上は、次世代のデータハングリートラッキングアルゴリズムが大規模データセット上で成長する可能性を秘めている。
このタスクの重要性にもかかわらず、トラッキングデータセットを包括的に効率的にラベル付けする方法を研究する研究は、今のところほとんどない。
本研究では,人間の介入を最小限に抑えた高品質なラベルを提供するビデオラベルエンジンSPAMを紹介する。
SPAMは2つの重要な洞察に基づいて構築されています。
i)ほとんどの追跡シナリオは簡単に解決できる。
これを活用するために、トレーニング済みのモデルを用いて高品質な擬似ラベルを生成し、より難しいインスタンスの小さなサブセットに人間の関与を保ちます。
二 時間にわたってトラックアノテーションの時空間的依存関係を扱うことは、グラフを通して優雅かつ効率的に定式化することができる。
そこで我々は統合グラフ定式化を用いて、トラックの検知と同一性関連の両方のアノテーションに時間をかけて対処する。
これらの知見に基づき、SPAMは、基礎となる真理ラベルのコストをわずかに抑えた高品質なアノテーションを生成する。
我々はSPAMラベルでトレーニングされたトラッカーが、人間のアノテーションでトレーニングされたトラッカーと同等のパフォーマンスを達成できることを示した。
したがって、SPAMは大規模追跡データセットの高効率なラベル付けへの道を開く。
すべてのモデルとコードをリリースします。
Increasing the annotation efficiency of trajectory annotations from videos has the potential to enable the next generation of data-hungry tracking algorithms to thrive on large-scale datasets. Despite the importance of this task, there are currently very few works exploring how to efficiently label tracking datasets comprehensively. In this work, we introduce SPAM, a video label engine that provides high-quality labels with minimal human intervention. SPAM is built around two key insights: i) most tracking scenarios can be easily resolved. To take advantage of this, we utilize a pre-trained model to generate high-quality pseudo-labels, reserving human involvement for a smaller subset of more difficult instances; ii) handling the spatiotemporal dependencies of track annotations across time can be elegantly and efficiently formulated through graphs. Therefore, we use a unified graph formulation to address the annotation of both detections and identity association for tracks across time. Based on these insights, SPAM produces high-quality annotations with a fraction of ground truth labeling cost. We demonstrate that trackers trained on SPAM labels achieve comparable performance to those trained on human annotations while requiring only $3-20\%$ of the human labeling effort. Hence, SPAM paves the way towards highly efficient labeling of large-scale tracking datasets. We release all models and code. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# TrialDura: 解釈可能な治験期間予測のための階層的注意変換器
TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction ( http://arxiv.org/abs/2404.13235v2 ) ライセンス: Link先を確認 | Ling Yue, Jonathan Li, Sixue Xing, Md Zabirul Islam, Bolun Xia, Tianfan Fu, Jintai Chen, | (参考訳) 薬物開発において重要な段階である臨床試験は、新しい治療法の開発に不可欠である。
介入臨床試験の第一の目的は、特定の疾患に対する薬物ベースの治療の安全性と効果を評価することである。
しかし、これらの試行は長く、労働集約的で、高価であることが多い。
臨床試験の期間は、全体的なコストに大きく影響し、予算の管理と研究の経済的実現性を確保するために効率的なスケジュール管理が重要である。
この問題に対処するために、病気名、薬物分子、試験段階、資格基準を含む多モードデータを用いて臨床試験期間を推定する機械学習ベースのTrialDuraを提案する。
次に,臨床実験データのより深く,より関連性の高い意味的理解を提供するために,バイオメディカルコンテキスト用に特別に調整されたBio-BERT埋め込みにエンコードする。
最後に、モデルの階層的な注意機構は、すべての埋め込みを繋ぎ、それらの相互作用を捉え、臨床試験期間を予測する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
公開されているコードは、https://anonymous.4open.science/r/TrialDura-F196で参照できる。
The clinical trial process, a critical phase in drug development, is essential for developing new treatments. The primary goal of interventional clinical trials is to evaluate the safety and efficacy of drug-based treatments for specific diseases. However, these trials are often lengthy, labor-intensive, and expensive. The duration of a clinical trial significantly impacts overall costs, making efficient timeline management crucial for controlling budgets and ensuring the economic feasibility of research. To address this issue, We propose TrialDura, a machine learning-based method that estimates the duration of clinical trials using multimodal data, including disease names, drug molecules, trial phases, and eligibility criteria. Then, we encode them into Bio-BERT embeddings specifically tuned for biomedical contexts to provide a deeper and more relevant semantic understanding of clinical trial data. Finally, the model's hierarchical attention mechanism connects all of the embeddings to capture their interactions and predict clinical trial duration. Our proposed model demonstrated superior performance with a mean absolute error (MAE) of 1.04 years and a root mean square error (RMSE) of 1.39 years compared to the other models, indicating more accurate clinical trial duration prediction. Publicly available code can be found at: https://anonymous.4open.science/r/TrialDura-F196. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# Fermi-Bose Machineは一般化と対向ロバスト性の両方を達成する
Fermi-Bose Machine achieves both generalization and adversarial robustness ( http://arxiv.org/abs/2404.13631v2 ) ライセンス: Link先を確認 | Mingshan Xie, Yuchen Wang, Haiping Huang, | (参考訳) 人間の認知処理とは違い、バックプロパゲーションによって訓練されたディープニューラルネットワークは、敵対的な例によって容易に騙される。
意味的に意味のある表現学習を設計するために、バックプロパゲーションを廃止し、代わりに、同じラベルを持つ入力の表現が、異なるラベルを持つもの(フェルミオンに類似)に対して、隠れた層で収縮する(ボソンに類似)ローカルコントラスト学習を提案する。
この階層的な学習は自然界において局所的であり、生物学的に妥当である。
統計力学解析により、ターゲットフェルミオン対距離が重要なパラメータであることが示された。
さらに、MNISTベンチマークデータセットへのこの局所的コントラスト学習の適用により、標準パーセプトロンの対角的脆弱性は、ターゲット距離、すなわち、プロトタイプ多様体の幾何学的分離を制御することによって、大幅に緩和できることが示される。
Distinct from human cognitive processing, deep neural networks trained by backpropagation can be easily fooled by adversarial examples. To design a semantically meaningful representation learning, we discard backpropagation, and instead, propose a local contrastive learning, where the representation for the inputs bearing the same label shrink (akin to boson) in hidden layers, while those of different labels repel (akin to fermion). This layer-wise learning is local in nature, being biological plausible. A statistical mechanics analysis shows that the target fermion-pair-distance is a key parameter. Moreover, the application of this local contrastive learning to MNIST benchmark dataset demonstrates that the adversarial vulnerability of standard perceptron can be greatly mitigated by tuning the target distance, i.e., controlling the geometric separation of prototype manifolds. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# RingID:マルチキー識別のためのツリーリング透かしの再検討
RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification ( http://arxiv.org/abs/2404.14055v3 ) ライセンス: Link先を確認 | Hai Ci, Pei Yang, Yiren Song, Mike Zheng Shou, | (参考訳) 我々は,様々な攻撃に対して強い堅牢性を示す拡散モデル透かし法であるツリーリング透かしを再検討する。
本研究は,透かしパターンマッチングとは別に,透かし処理によって意図せず導入される分布変化が,その異常な強靭性に寄与することを明らかにする。
我々の調査は、元の設計に固有の欠陥、特に分散シフトが役に立たない複数の異なるキーを識別する能力をさらに明らかにしている。
これらの知見と分析に基づいて,マルチキー識別の強化を目的としたリングIDを提案する。
多様な透かしから顕著な長所をシームレスにアマルガメートするために設計された、新しい多チャンネル不均一透かしアプローチで構成されている。
RingIDは、提案された一連の拡張と合わせて、マルチキー識別の大幅な進歩を示している。
Githubページ:https://github.com/showlab/RingID
We revisit Tree-Ring Watermarking, a recent diffusion model watermarking method that demonstrates great robustness to various attacks. We conduct an in-depth study on it and reveal that the distribution shift unintentionally introduced by the watermarking process, apart from watermark pattern matching, contributes to its exceptional robustness. Our investigation further exposes inherent flaws in its original design, particularly in its ability to identify multiple distinct keys, where distribution shift offers no assistance. Based on these findings and analysis, we present RingID for enhanced multi-key identification. It consists of a novel multi-channel heterogeneous watermarking approach designed to seamlessly amalgamate distinctive advantages from diverse watermarks. Coupled with a series of suggested enhancements, RingID exhibits substantial advancements in multi-key identification. Github Page: https://github.com/showlab/RingID | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# ODMixer:Metro Origin-Destination Predictionのための微細な時空間MLP
ODMixer: Fine-grained Spatial-temporal MLP for Metro Origin-Destination Prediction ( http://arxiv.org/abs/2404.15734v3 ) ライセンス: Link先を確認 | Yang Liu, Binglin Chen, Yongsen Zheng, Lechao Cheng, Guanbin Li, Liang Lin, | (参考訳) Metro Origin-Destination (OD) 予測は、都市コンピューティングにおいて重要な時空間予測課題であり、メトロスケジューリングを最適化し、全体の輸送効率を向上させるために、クロスステーションライダーシップを正確に予測することを目的としている。
駅間の細粒度および包括的関係を効果的に分析することは、メトロOD予測に不可欠である。
しかし、既存の地下鉄のODモデルは、駅の視点で複数のODペアからの情報や、ODペアのサブセットにのみ焦点を合わせている。
これらのアプローチはODペア間の微細な関係を見落とし、潜在的な異常な状態を予測するのに困難をもたらす可能性がある。
これらの課題に対処するために、すべてのODペアの観点からトラフィックの変動を分析し、ODMixerというメトロOD予測のための微粒な時空間MLPアーキテクチャを提案する。
具体的には、ODMixerは二重分岐構造を持ち、Channel Mixer、Multi-view Mixer、Bidirectional Trend Learnerを含む。
Channel MixerはODペア間の短期的時間的関係を捉えることを目的としており、Multi-view Mixerは起源と目的地の両方の観点から関係を捉えることに集中している。
長期的な時間的関係をモデル化するために,双方向トレンド学習システムを導入する。
大規模OD予測データセットHZMODとSHMOの大規模な実験により,ODMixerの利点が示された。
私たちのコードはhttps://github.com/KLatitude/ODMixer.comから入手可能です。
Metro Origin-Destination (OD) prediction is a crucial yet challenging spatial-temporal prediction task in urban computing, which aims to accurately forecast cross-station ridership for optimizing metro scheduling and enhancing overall transport efficiency. Analyzing fine-grained and comprehensive relations among stations effectively is imperative for metro OD prediction. However, existing metro OD models either mix information from multiple OD pairs from the station's perspective or exclusively focus on a subset of OD pairs. These approaches may overlook fine-grained relations among OD pairs, leading to difficulties in predicting potential anomalous conditions. To address these challenges, we analyze traffic variations from the perspective of all OD pairs and propose a fine-grained spatial-temporal MLP architecture for metro OD prediction, namely ODMixer. Specifically, our ODMixer has double-branch structure and involves the Channel Mixer, the Multi-view Mixer, and the Bidirectional Trend Learner. The Channel Mixer aims to capture short-term temporal relations among OD pairs, the Multi-view Mixer concentrates on capturing relations from both origin and destination perspectives. To model long-term temporal relations, we introduce the Bidirectional Trend Learner. Extensive experiments on two large-scale metro OD prediction datasets HZMOD and SHMO demonstrate the advantages of our ODMixer. Our code is available at https://github.com/KLatitude/ODMixer. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# Point-JEPA: Point Cloud上での自己教師付き学習のための予測アーキテクチャのインテグレーション
Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud ( http://arxiv.org/abs/2404.16432v3 ) ライセンス: Link先を確認 | Ayumu Saito, Jiju Poovvancheri, | (参考訳) クラウド領域における自己教師型学習の最近の進歩は、大きな可能性を秘めている。
しかし、これらの手法は、長い事前訓練時間、入力空間における再構成の必要性、追加のモダリティの必要性といった欠点に悩まされることが多い。
これらの問題に対処するために,ポイントクラウドデータ用に設計された統合組込み予測アーキテクチャであるPoint-JEPAを紹介する。
そこで本研究では,ターゲット選択やコンテキスト選択の際のインデックスに基づいて,トークンの近接を効率的に計算し,利用するために,ポイントクラウドトークンを順序付けするシーケンサを提案する。
シーケンサはまた、コンテキストとターゲット選択に近接するトークンの共有計算を可能にし、効率をさらに向上する。
提案手法は,入力空間の再構成や追加のモダリティを回避しつつ,最先端手法による競合的な結果を得る。
Recent advancements in self-supervised learning in the point cloud domain have demonstrated significant potential. However, these methods often suffer from drawbacks, including lengthy pre-training time, the necessity of reconstruction in the input space, or the necessity of additional modalities. In order to address these issues, we introduce Point-JEPA, a joint embedding predictive architecture designed specifically for point cloud data. To this end, we introduce a sequencer that orders point cloud tokens to efficiently compute and utilize tokens proximity based on their indices during target and context selection. The sequencer also allows shared computations of the tokens proximity between context and target selection, further improving the efficiency. Experimentally, our method achieves competitive results with state-of-the-art methods while avoiding the reconstruction in the input space or additional modality. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# MER 2024: 半教師付き学習, ノイズロバスト性, オープン語彙マルチモーダル感情認識
MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition ( http://arxiv.org/abs/2404.17113v4 ) ライセンス: Link先を確認 | Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao, | (参考訳) マルチモーダル感情認識は人工知能における重要な研究課題である。
過去数十年間、研究者はデータセットのサイズを拡大し、より効率的なアルゴリズムを構築することで驚くべき進歩を遂げてきた。
しかし、複雑な環境や不正確なアノテーションなどの問題により、現在のシステムは実用アプリケーションの要求を満たすことは困難である。
そこで我々は,この分野の発展を促進するために,MERシリーズのコンペティションを組織する。
昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つの興味深いトピックに焦点を当てました。
今年のMER2024では、データセットのサイズの拡大に加えて、オープン語彙の感情認識に関する新たなトラックも導入しています。
このトラックの主な目的は、既存のデータセットが通常ラベル空間を固定し、アノテータの一貫性を高めるために多数決を使用することである。
しかし、このプロセスは、非メジャーなラベルや非候補のラベルを無視するなど、不正確なアノテーションにつながる可能性がある。
本トラックでは,参加者に対して,感情状態を可能な限り正確に記述することを目的とした,任意のカテゴリのラベルの生成を奨励する。
私たちのベースラインコードはMERToolsに依存しており、https://github.com/zeroQiaoba/MERTools/tree/master/MER2024で利用可能です。
Multimodal emotion recognition is an important research topic in artificial intelligence. Over the past few decades, researchers have made remarkable progress by increasing the dataset size and building more effective algorithms. However, due to problems such as complex environments and inaccurate annotations, current systems are hard to meet the demands of practical applications. Therefore, we organize the MER series of competitions to promote the development of this field. Last year, we launched MER2023, focusing on three interesting topics: multi-label learning, noise robustness, and semi-supervised learning. In this year's MER2024, besides expanding the dataset size, we further introduce a new track around open-vocabulary emotion recognition. The main purpose of this track is that existing datasets usually fix the label space and use majority voting to enhance the annotator consistency. However, this process may lead to inaccurate annotations, such as ignoring non-majority or non-candidate labels. In this track, we encourage participants to generate any number of labels in any category, aiming to describe emotional states as accurately as possible. Our baseline code relies on MERTools and is available at: https://github.com/zeroQiaoba/MERTools/tree/master/MER2024. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# SERPENT-VLM : 視覚言語モデルを用いた自己精製ラジオロジーレポート作成
SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models ( http://arxiv.org/abs/2404.17912v2 ) ライセンス: Link先を確認 | Manav Nitin Kapadnis, Sohan Patnaik, Abhilash Nandy, Sourjyadip Ray, Pawan Goyal, Debdoot Sheet, | (参考訳) 放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
MLLMフレームワークに自己精製機構を統合することで、R2Genタスクを改善する新しい戦略であるSERPENT-VLM(Self Refining Radiology RePort GENeraTion using Vision Language Models)を導入する。
我々は、プール画像表現と生成した無線テキストの文脈表現との類似性を利用して、画像テキスト表現を洗練させるために、標準的な因果言語モデリングの目的と並行して独自の自己教師付きロスを用いる。
これにより、与えられた画像と生成されたテキスト間の動的相互作用を通じて生成されたテキストを精査・調整し、幻覚を低減し、ニュアンスレポート生成を継続的に強化することができる。
SERPENT-VLMは、LLaVA-Med、BiomedGPTなどの既存のベースラインを上回り、IU X線およびROCO(英語版)データセットでのSoTAパフォーマンスを達成するとともに、ノイズの多い画像に対して堅牢であることを示す。
質的なケーススタディでは、R2Genのより洗練されたMLLMフレームワークへの大きな進歩が強調され、医療画像領域における自己監督的改善のさらなる研究の道が開かれた。
Radiology Report Generation (R2Gen) demonstrates how Multi-modal Large Language Models (MLLMs) can automate the creation of accurate and coherent radiological reports. Existing methods often hallucinate details in text-based reports that don't accurately reflect the image content. To mitigate this, we introduce a novel strategy, SERPENT-VLM (SElf Refining Radiology RePort GENeraTion using Vision Language Models), which improves the R2Gen task by integrating a self-refining mechanism into the MLLM framework. We employ a unique self-supervised loss that leverages similarity between pooled image representations and the contextual representations of the generated radiological text, alongside the standard Causal Language Modeling objective, to refine image-text representations. This allows the model to scrutinize and align the generated text through dynamic interaction between a given image and the generated text, therefore reducing hallucination and continuously enhancing nuanced report generation. SERPENT-VLM outperforms existing baselines such as LLaVA-Med, BiomedGPT, etc., achieving SoTA performance on the IU X-ray and Radiology Objects in COntext (ROCO) datasets, and also proves to be robust against noisy images. A qualitative case study emphasizes the significant advancements towards more sophisticated MLLM frameworks for R2Gen, opening paths for further research into self-supervised refinement in the medical imaging domain. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# 教師なしレッドパンダ再同定のための特徴認識型ノイズコントラスト学習
Feature-Aware Noise Contrastive Learning for Unsupervised Red Panda Re-Identification ( http://arxiv.org/abs/2405.00468v2 ) ライセンス: Link先を確認 | Jincheng Zhang, Qijun Zhao, Tie Liu, | (参考訳) 個々の動物の再同定(re-ID)を容易にするため、既存の手法は主に同一個体内での特徴的類似性を最大化し、異なる個体間の識別性を増強することに焦点を当てている。
しかし、それらの多くは依然として教師付き学習に依存しており、かなりのラベル付きデータを必要とするため、入手は困難である。
この問題を回避するために,教師なし学習ソリューションを探索するFANCL(Feature-Aware Noise Contrastive Learning)法を提案する。
FANCLは、重要な特徴を隠蔽するノイズ画像を生成するために、特徴認識ノイズ付加モジュールを設計し、損失を計算するために2つの対照的な学習モジュールを使用している。
第一に、機能一貫性モジュールは、オリジナルの機能とノイズのある機能の間のギャップを埋めるために設計されている。
次に、ニューラルネットワークはクラスタコントラスト学習モジュールを通じてトレーニングされる。
これらのより困難な学習タスクを通じて、FANCLはレッドパンダのより深い表現を適応的に抽出することができる。
室内および屋外の両方で収集されたレッドパンダ画像に対する実験結果は、FANCLがいくつかの非教師付き手法よりも優れており、教師付き学習法に匹敵する高い性能を達成していることを証明している。
To facilitate the re-identification (re-ID) of individual animals, existing methods primarily focus on maximizing feature similarity within the same individual and enhancing distinctiveness between different individuals. However, most of them still rely on supervised learning and require substantial labeled data, which is challenging to obtain. To avoid this issue, we propose Feature-Aware Noise Contrastive Learning (FANCL) method to explore an unsupervised learning solution, which is then validated on the task of red panda re-ID. FANCL designs a Feature-Aware Noise Addition module to produce noised images that conceal critical features, and employs two contrastive learning modules to calculate the losses. Firstly, a feature consistency module is designed to bridge the gap between the original and noised features. Secondly, the neural networks are trained through a cluster contrastive learning module. Through these more challenging learning tasks, FANCL can adaptively extract deeper representations of red pandas. The experimental results on a set of red panda images collected in both indoor and outdoor environments prove that FANCL outperforms several related state-of-the-art unsupervised methods, achieving high performance comparable to supervised learning methods. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# 強化学習によるラウンドアウェイにおける待ち行列型エコドライブ
Queue-based Eco-Driving at Roundabouts with Reinforcement Learning ( http://arxiv.org/abs/2405.00625v2 ) ライセンス: Link先を確認 | Anna-Lena Schlamp, Werner Huber, Stefanie Schmidtner, | (参考訳) 我々は、都市部における交通の流れと交通効率を高めるために、混在交通におけるラウンドアバウンドでのエコ運転に対処する。
目的は、自動または非自動連結車両(CV)の速度を積極的に最適化し、効率的なアプローチとラウンドアバウンドへのスムーズな参入を確実にすることである。
我々は先進的な交通状況、すなわち先行車両や待ち行列を取り入れている。
さらに,ルールベースと強化学習(Reinforcement Learning, RL)ベースのエコ自動運転システムという2つのアプローチを開発し,そのアプローチリンクと競合するCVからの情報を用いて速度最適化を行う。
ルールベースとRLベースのアプローチを公正に比較し、古典最適化の代替としてRLを探索する。
その結果、どちらのアプローチもベースラインを上回っていることがわかった。
交通量の増加に伴い、改善が著しく増加し、高いボリュームで得られる平均値の最良の結果が得られた。
キャパシティに近い性能は低下し、キャパシティの制限による適用性が制限される。
CV透過率の異なる試験では, 性能の低下が見られたが, CV透過率の低下は相変わらず顕著であった。
RLエージェントは、動的ラウンドアバウンド設定において、スピード最適化のための効果的なポリシーを発見することができるが、古典的なアプローチ、特に高いトラフィック量や低いCV浸透率に対して、大きな優位性を提供していない。
We address eco-driving at roundabouts in mixed traffic to enhance traffic flow and traffic efficiency in urban areas. The aim is to proactively optimize speed of automated or non-automated connected vehicles (CVs), ensuring both an efficient approach and smooth entry into roundabouts. We incorporate the traffic situation ahead, i.e. preceding vehicles and waiting queues. Further, we develop two approaches: a rule-based and an Reinforcement Learning (RL) based eco-driving system, with both using the approach link and information from conflicting CVs for speed optimization. A fair comparison of rule-based and RL-based approaches is performed to explore RL as a viable alternative to classical optimization. Results show that both approaches outperform the baseline. Improvements significantly increase with growing traffic volumes, leading to best results on average being obtained at high volumes. Near capacity, performance deteriorates, indicating limited applicability at capacity limits. Examining different CV penetration rates, a decline in performance is observed, but with substantial results still being achieved at lower CV rates. RL agents can discover effective policies for speed optimization in dynamic roundabout settings, but they do not offer a substantial advantage over classical approaches, especially at higher traffic volumes or lower CV penetration rates. | 翻訳日:2024-07-19 20:52:07 公開日:2024-07-18 |
# 初期化のない大規模バンドル調整のための可変パワープロジェクション
Power Variable Projection for Initialization-Free Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2405.05079v3 ) ライセンス: Link先を確認 | Simon Weber, Je Hyeong Hong, Daniel Cremers, | (参考訳) Levenberg-Marquardアルゴリズムのようなほとんどのバンドル調整(BA)解法は、優れた初期化を必要とする。
代わりに、初期化のないBAは、ほとんどチャージされていない領域のままである。
探索されていない可変射影アルゴリズム(VarPro)は初期化なしでも広い収束盆地を示す。
オブジェクト空間誤差の定式化と組み合わせた最近の研究は、小規模初期化自由バンドル調整問題を解く能力を示している。
このような初期化のないBAアプローチをスケーラブルにするために、電力系列に基づく最近の逆展開法を拡張したパワー可変射影(PoVar)を導入する。
重要なことに、パワー級数展開はリーマン多様体の最適化にリンクする。
この射影フレームワークは,初期化を伴わない大規模バンドル調整問題の解決に不可欠である。
実世界のBALデータセットを用いて,我々の解法が最先端の結果を速度と精度で達成できることを実験的に実証した。
我々の知る限り、この研究はBAのスケーラビリティに最初の取り組みであり、初期化が不要な構造運動のための新しい会場を開かなかった。
Most Bundle Adjustment (BA) solvers like the Levenberg-Marquard algorithm require a good initialization. Instead, initialization-free BA remains a largely uncharted territory. The under-explored Variable Projection algorithm (VarPro) exhibits a wide convergence basin even without initialization. Coupled with object space error formulation, recent works have shown its ability to solve small-scale initialization-free bundle adjustment problem. To make such initialization-free BA approaches scalable, we introduce Power Variable Projection (PoVar), extending a recent inverse expansion method based on power series. Importantly, we link the power series expansion to Riemannian manifold optimization. This projective framework is crucial to solve large-scale bundle adjustment problems without initialization. Using the real-world BAL dataset, we experimentally demonstrate that our solver achieves state-of-the-art results in terms of speed and accuracy. To our knowledge, this work is the first to address the scalability of BA without initialization opening new venues for initialization-free structure-from-motion. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 効率的なセマンティックセグメンテーションのためのコンテキストガイド型空間特徴再構成
Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation ( http://arxiv.org/abs/2405.06228v2 ) ライセンス: Link先を確認 | Zhenliang Ni, Xinghao Chen, Yingjie Zhai, Yehui Tang, Yunhe Wang, | (参考訳) セマンティックセグメンテーションは多くのアプリケーションにとって重要なタスクであるが、計算コストを限定して高度な性能を達成することは依然として非常に困難である。
本稿では,文脈誘導型空間特徴再構成に基づく効率的かつ競争性の高いセグメンテーションフレームワークであるCGRSegを提案する。
矩形自己校正モジュールは空間的特徴再構成とピラミッドコンテキスト抽出のために慎重に設計されている。
水平方向と垂直方向の両方で軸方向のグローバルコンテキストをキャプチャし、長方形の鍵領域を明示的にモデル化する。
形状自己校正関数は、鍵領域を前景オブジェクトに近づけるように設計されている。
さらに,クラス埋め込みによる前景オブジェクトの分類を改善するために,軽量な動的プロトタイプガイドヘッドを提案する。
我々のCGRSegはADE20K、COCO-Stuff、Pascal Contextベンチマークで広範囲に評価され、最先端のセマンティックパフォーマンスを実現する。
具体的には、ADE20Kで43.6\% mIoUを達成し、GFLOPはわずか4.0ドル、$0.9\%$と$2.5\%$ mIoUはSeaFormerやSegNeXtより優れているが、約38.0\%のGFLOPは少ない。
コードはhttps://github.com/nizhenliang/CGRSegで入手できる。
Semantic segmentation is an important task for numerous applications but it is still quite challenging to achieve advanced performance with limited computational costs. In this paper, we present CGRSeg, an efficient yet competitive segmentation framework based on context-guided spatial feature reconstruction. A Rectangular Self-Calibration Module is carefully designed for spatial feature reconstruction and pyramid context extraction. It captures the axial global context in both horizontal and vertical directions to explicitly model rectangular key areas. A shape self-calibration function is designed to make the key areas closer to foreground objects. Besides, a lightweight Dynamic Prototype Guided head is proposed to improve the classification of foreground objects by explicit class embedding. Our CGRSeg is extensively evaluated on ADE20K, COCO-Stuff, and Pascal Context benchmarks, and achieves state-of-the-art semantic performance. Specifically, it achieves $43.6\%$ mIoU on ADE20K with only $4.0$ GFLOPs, which is $0.9\%$ and $2.5\%$ mIoU better than SeaFormer and SegNeXt but with about $38.0\%$ fewer GFLOPs. Code is available at https://github.com/nizhenliang/CGRSeg. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# LGDE: ローカルグラフベースの辞書の拡張
LGDE: Local Graph-based Dictionary Expansion ( http://arxiv.org/abs/2405.07764v2 ) ライセンス: Link先を確認 | Dominik J. Schindler, Sneha Jha, Xixuan Zhang, Kilian Buehling, Annett Heft, Mauricio Barahona, | (参考訳) 本稿では,局所グラフに基づく辞書拡張(LGDE)を提案する。これは,多様体学習とネットワーク科学のツールを用いて,単語の意味領域をデータ駆動で発見する手法である。
LGDEの中心には、単語埋め込みの幾何学から単語類似性グラフの作成と、グラフ拡散に基づく局所的なコミュニティ検出がある。
局所グラフ多様体の拡散により、単語埋め込みの複素非線形幾何を探索し、意味的関連の経路に基づいて単語類似性を捉えることができる。
このようなセマンティックな領域の展開により、事前選択されたキーワードの辞書の拡張が可能になり、データベースクエリやオンラインデータ収集などの情報検索におけるタスクの重要なステップとなる。
Reddit と Gab の英語ヘイトスピーチ関連記事のコーパス上で LGDE を検証した結果,LGDE は単語の類似性に基づくしきい値法よりも格段に高い性能でキーワードのリストを充実させることを示した。
さらに,本手法を実世界の通信科学のユースケースで実証し,ドメインの専門家が収集・分析したオンラインデータから陰謀関連辞書を拡張して,LGDEを定量的に評価する。
実験結果と専門ユーザ評価の結果から,LGDEは,多様体学習に基づく類似性ネットワークにより,より有用なキーワードでシード辞書を拡張していることが示唆された。
We present Local Graph-based Dictionary Expansion (LGDE), a method for data-driven discovery of the semantic neighbourhood of words using tools from manifold learning and network science. At the heart of LGDE lies the creation of a word similarity graph from the geometry of word embeddings followed by local community detection based on graph diffusion. The diffusion in the local graph manifold allows the exploration of the complex nonlinear geometry of word embeddings to capture word similarities based on paths of semantic association, over and above direct pairwise similarities. Exploiting such semantic neighbourhoods enables the expansion of dictionaries of pre-selected keywords, an important step for tasks in information retrieval, such as database queries and online data collection. We validate LGDE on a corpus of English-language hate speech-related posts from Reddit and Gab and show that LGDE enriches the list of keywords with significantly better performance than threshold methods based on direct word similarities. We further demonstrate our method through a real-world use case from communication science, where LGDE is evaluated quantitatively on the expansion of a conspiracy-related dictionary from online data collected and analysed by domain experts. Our empirical results and expert user assessment indicate that LGDE expands the seed dictionary with more useful keywords due to the manifold-learning-based similarity network. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 量子シミュレーションによるゲージドリフトのゼノ効果抑制
Zeno Effect Suppression of Gauge Drift in Quantum Simulations ( http://arxiv.org/abs/2405.09462v3 ) ライセンス: Link先を確認 | Carter Ball, Thomas D. Cohen, | (参考訳) 格子ゲージ理論の量子シミュレーションは、リアルタイム力学を含む多くの複雑な問題を研究する上で有望なツールである。
しかしゲージ理論では、時間的発展の間にゲージ不変性を維持することが大きな課題である。
そのような理論は、物理的空間よりも大きいヒルベルト空間を持ち、ゲージ不変あるいは等価にガウスの法則を尊重する状態の集合である。
物理ヒルベルト空間から始まるハミルトン力学の正確な実装は、系を物理空間に保ち続けるが、様々な種類の誤差は必然的にその外側の成分を生成する。
本研究は, このゲージドリフトをゼノ効果により抑制する方法を提案する。
ゼノ効果の標準的な図のように、本手法は物理部分空間への頻繁な射影に依存する。
さらに、ゲージドリフトの速度を減少させる手法が議論され、投射の必要周波数を減少させるのに役立つ。
本手法は,$\mathbb{Z}_2$ gauge theory toy model上で実証する。
Quantum simulation of lattice gauge theories is a promising tool for the study of many complicated problems including ones with real-time dynamics. For gauge theories, however, there is a major challenge in maintaining gauge invariance during time evolution. Such theories have a full Hilbert space that is larger than the physical space -- the set of states which are gauge invariant or equivalently respect the Gauss law. While an exact implementation of Hamiltonian dynamics starting in the physical Hilbert space will keep the system in the physical space, various types of errors will inevitably produce components outside of it. This work proposes a method of suppressing this gauge drift via the Zeno effect. As in the standard picture of the Zeno effect, our method relies on frequent projection onto the physical subspace. Additionally, a technique is discussed to reduce the speed of the gauge drift, which helps to reduce the required frequency of projections. We demonstrate our method on a $\mathbb{Z}_2$ gauge theory toy model. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 多変量時系列インプットのための高次時空間物理包含グラフニューラルネットワーク
Higher-order Spatio-temporal Physics-incorporated Graph Neural Network for Multivariate Time Series Imputation ( http://arxiv.org/abs/2405.10995v2 ) ライセンス: Link先を確認 | Guojun Liang, Prayag Tiwari, Slawomir Nowaczyk, Stefan Byttner, | (参考訳) 欠落した値の探索は、複雑な潜時時空間相関と時系列の動的性質のために必須だが難しい問題である。
構造学習ポテンシャルを扱う上での優れた性能のため、グラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)は、多変量時系列におけるこのような複雑な時空間的特徴を捉えるためにしばしば使用される。
しかし、これらのデータ駆動モデルは、重要な信号の破損が発生したときに、重要な時空間的関係を捉えることができないことが多い。
さらに、これらのモデルにおける高次隣接ノードの計算は、高い計算複雑性を持つ。
これらの問題に対処するため,新しい高次時空間物理包摂型GNN(HSPGNN)を提案する。
第一に、動的ラプラシア行列は空間的注意機構によって得ることができる。
次に、物理力学系の一般不均一偏微分方程式(PDE)を用いて、動的高次時空間GNNを構築し、不足時系列値を得る。
さらに,グラフ内の各ノードの重要性を評価するために,正規化フロー(NF)による損失を見積もる。
4つのベンチマークデータセットによる実験結果から, HSPGNNの有効性と, 各種隣接ノードの組み合わせによる優れた性能が示された。
また、従来のデータ駆動モデルよりも優れた動的解析と説明を提供するHSPGNNによって、グラフのような光学的フロー、動的グラフ、および欠落した影響を自然に得ることができる。
私たちのコードはhttps://github.com/gorgen 2020/HSPGNN.comで公開されています。
Exploring the missing values is an essential but challenging issue due to the complex latent spatio-temporal correlation and dynamic nature of time series. Owing to the outstanding performance in dealing with structure learning potentials, Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) are often used to capture such complex spatio-temporal features in multivariate time series. However, these data-driven models often fail to capture the essential spatio-temporal relationships when significant signal corruption occurs. Additionally, calculating the high-order neighbor nodes in these models is of high computational complexity. To address these problems, we propose a novel higher-order spatio-temporal physics-incorporated GNN (HSPGNN). Firstly, the dynamic Laplacian matrix can be obtained by the spatial attention mechanism. Then, the generic inhomogeneous partial differential equation (PDE) of physical dynamic systems is used to construct the dynamic higher-order spatio-temporal GNN to obtain the missing time series values. Moreover, we estimate the missing impact by Normalizing Flows (NF) to evaluate the importance of each node in the graph for better explainability. Experimental results on four benchmark datasets demonstrate the effectiveness of HSPGNN and the superior performance when combining various order neighbor nodes. Also, graph-like optical flow, dynamic graphs, and missing impact can be obtained naturally by HSPGNN, which provides better dynamic analysis and explanation than traditional data-driven models. Our code is available at https://github.com/gorgen2020/HSPGNN. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 大規模言語モデルを用いたテキスト・画像生成の実証的研究
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation ( http://arxiv.org/abs/2405.12914v2 ) ライセンス: Link先を確認 | Zhiyu Tan, Mengping Yang, Luozheng Qin, Hao Yang, Ye Qian, Qiang Zhou, Cheng Zhang, Hao Li, | (参考訳) 忠実なテキスト画像生成のための重要な前提は、テキスト入力の正確な理解である。
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
しかし、事前訓練されたCLIPモデルは、最大トークン長77の英語をエンコードするだけでよい。
さらに、CLIPからのテキストエンコーダのモデルキャパシティは、多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現するLarge Language Models (LLMs)と比較して比較的制限されている。
本稿では,LLMをテキストエンコーダとして検討し,テキスト・画像生成における言語理解を改善する。
残念なことに、LLMをスクラッチからトレーニングするテキスト・ツー・イメージ生成モデルには、かなりの計算資源とデータが必要である。
そこで本研究では,既存のテキスト・画像モデルとLLMを効果的かつ効率的に統合する3段階学習パイプラインを提案する。
具体的には,LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
大規模な実験により,本モデルは多言語だけでなく,画像生成品質の優れた入力コンテキストもサポートすることが示された。
One critical prerequisite for faithful text-to-image generation is the accurate understanding of text inputs. Existing methods leverage the text encoder of the CLIP model to represent input prompts. However, the pre-trained CLIP model can merely encode English with a maximum token length of 77. Moreover, the model capacity of the text encoder from CLIP is relatively limited compared to Large Language Models (LLMs), which offer multilingual input, accommodate longer context, and achieve superior text representation. In this paper, we investigate LLMs as the text encoder to improve the language understanding in text-to-image generation. Unfortunately, training text-to-image generative model with LLMs from scratch demands significant computational resources and data. To this end, we introduce a three-stage training pipeline that effectively and efficiently integrates the existing text-to-image model with LLMs. Specifically, we propose a lightweight adapter that enables fast training of the text-to-image model using the textual representations from LLMs. Extensive experiments demonstrate that our model supports not only multilingual but also longer input context with superior image generation quality. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 歩行型神経変性疾患診断における人工知能の検討
A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis ( http://arxiv.org/abs/2405.13082v2 ) ライセンス: Link先を確認 | Haocong Rao, Minlin Zeng, Xuejiao Zhao, Chunyan Miao, | (参考訳) 近年、神経変性疾患(ND)による世界的な人口増加が観測されている。
重要な疾患関連運動症状として、ヒトの歩行を利用して異なるNDを特徴づけることができる。
人工知能(AI)モデルの現在の進歩は、NDの識別と分類のための自動歩行分析を可能にし、NDの迅速でコスト効率のよい診断を容易にする新しい道を開く。
本稿では,5つの典型的なNDの歩行による診断に応用した,機械学習とディープラーニングに基づくAI技術の最近の進歩に関する包括的調査を行う。
本稿では,AIによるNDs診断のプロセスの概要と,既存の歩行データとAIモデルの系統分類について述べる。
一方,既存の研究の質を定量的に評価するために,新たな品質評価基準を提案する。
164研究の広範なレビューと分析を通じて、この分野における課題、潜在的な解決策、今後の方向性を特定し、議論する。
最後に,人間の歩行表現のための3Dスケルトンデータの将来的活用と,NDs診断のためのより効率的なAIモデルの開発を想定する。
私たちは、この新興分野の開発を追跡、促進するための公開リソースリポジトリを提供しています。
Recent years have witnessed an increasing global population affected by neurodegenerative diseases (NDs), which traditionally require extensive healthcare resources and human effort for medical diagnosis and monitoring. As a crucial disease-related motor symptom, human gait can be exploited to characterize different NDs. The current advances in artificial intelligence (AI) models enable automatic gait analysis for NDs identification and classification, opening a new avenue to facilitate faster and more cost-effective diagnosis of NDs. In this paper, we provide a comprehensive survey on recent progress of machine learning and deep learning based AI techniques applied to diagnosis of five typical NDs through gait. We provide an overview of the process of AI-assisted NDs diagnosis, and present a systematic taxonomy of existing gait data and AI models. Meanwhile, a novel quality evaluation criterion is proposed to quantitatively assess the quality of existing studies. Through an extensive review and analysis of 164 studies, we identify and discuss the challenges, potential solutions, and future directions in this field. Finally, we envision the prospective utilization of 3D skeleton data for human gait representation and the development of more efficient AI models for NDs diagnosis. We provide a public resource repository to track and facilitate developments in this emerging field: https://github.com/Kali-Hac/AI4NDD-Survey. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# PoseCrafter: フレキシブルなPoseコントロールによるワンショットパーソナライズされたビデオ合成
PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control ( http://arxiv.org/abs/2405.14582v3 ) ライセンス: Link先を確認 | Yong Zhong, Min Zhao, Zebin You, Xiaofeng Yu, Changwang Zhang, Chongxuan Li, | (参考訳) 本稿では、フレキシブルポーズの制御に追随したパーソナライズされたビデオ生成のためのワンショット手法であるPoseCrafterを紹介する。
安定拡散と制御ネットを基盤として,高画質なビデオを生成するための推論プロセスを慎重に設計する。
まず、トレーニングビデオから適切な参照フレームを選択し、それを逆転して潜在変数を初期化して生成する。
そして、トレーニングされた時間的注意モジュールを通して忠実度を高めるために、対応するトレーニングポーズをターゲットポーズシーケンスに挿入する。
さらに、トレーニングビデオのポーズと推論ポーズの相違による顔と手の劣化を軽減するため、顔と手のランドマークを含むアフィン変換マトリクスを用いて簡易な潜時編集を行う。
複数のデータセットに対する大規模な実験により、PoseCrafterは8つの一般的なメトリクスの下で大量のビデオのコレクションに基づいて事前トレーニングされたベースラインに対して、優れた結果が得られることが示された。
さらに、PoseCrafterは、異なる個人や人工的な編集のポーズをフォローでき、オープンドメインのトレーニングビデオで人間のアイデンティティを同時に保持できる。
私たちのプロジェクトページはhttps://ml-gsai.github.io/PoseCrafter-demo/で公開されています。
In this paper, we introduce PoseCrafter, a one-shot method for personalized video generation following the control of flexible poses. Built upon Stable Diffusion and ControlNet, we carefully design an inference process to produce high-quality videos without the corresponding ground-truth frames. First, we select an appropriate reference frame from the training video and invert it to initialize all latent variables for generation. Then, we insert the corresponding training pose into the target pose sequences to enhance faithfulness through a trained temporal attention module. Furthermore, to alleviate the face and hand degradation resulting from discrepancies between poses of training videos and inference poses, we implement simple latent editing through an affine transformation matrix involving facial and hand landmarks. Extensive experiments on several datasets demonstrate that PoseCrafter achieves superior results to baselines pre-trained on a vast collection of videos under 8 commonly used metrics. Besides, PoseCrafter can follow poses from different individuals or artificial edits and simultaneously retain the human identity in an open-domain training video. Our project page is available at https://ml-gsai.github.io/PoseCrafter-demo/. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# データ中心から見たマルチモーダル大言語モデルの検討
A Survey of Multimodal Large Language Model from A Data-centric Perspective ( http://arxiv.org/abs/2405.16640v2 ) ライセンス: Link先を確認 | Tianyi Bai, Hao Liang, Binwang Wan, Yanran Xu, Xi Li, Shiyu Li, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Ping Huang, Jiulong Shan, Conghui He, Binhang Yuan, Wentao Zhang, | (参考訳) MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオ、ビデオ、および3D環境を含む複数のモードからのデータの統合と処理によって、標準の大規模言語モデルの能力を高める。
データはこれらのモデルの開発と改良において重要な役割を担います。
本稿では,データ中心の観点からMLLMに関する文献を概観的にレビューする。
具体的には,MLLMの事前学習および適応段階におけるマルチモーダルデータ作成手法について検討する。
さらに、データセットの評価方法を分析し、MLLMの評価のためのベンチマークをレビューする。
今後の研究の方向性についても概説する。
この研究は、MLLMのデータ駆動的な側面の詳細な理解を研究者に提供することを目的としており、この分野におけるさらなる探索と革新を促進することを目的としている。
Multimodal large language models (MLLMs) enhance the capabilities of standard large language models by integrating and processing data from multiple modalities, including text, vision, audio, video, and 3D environments. Data plays a pivotal role in the development and refinement of these models. In this survey, we comprehensively review the literature on MLLMs from a data-centric perspective. Specifically, we explore methods for preparing multimodal data during the pretraining and adaptation phases of MLLMs. Additionally, we analyze the evaluation methods for the datasets and review the benchmarks for evaluating MLLMs. Our survey also outlines potential future research directions. This work aims to provide researchers with a detailed understanding of the data-driven aspects of MLLMs, fostering further exploration and innovation in this field. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 知識グラフ補完のためのLLMの適合性評価
Assessing LLMs Suitability for Knowledge Graph Completion ( http://arxiv.org/abs/2405.17249v2 ) ライセンス: Link先を確認 | Vasile Ionut Remus Iga, Gheorghe Cosmin Silaghi, | (参考訳) 最近の研究は、ゼロやフューショットのパラダイムでさえ、知識グラフの補完のような知識グラフに関連するタスクを解決するために、LLM(Large Language Models)の能力を示している。
しかし、答えを幻覚させることや、結果が非決定的な方法で出力されることが知られており、ユーザの要求を満たすとしても、誤った合理的な応答につながる。
知識グラフ関連課題の機会と課題を明らかにするため,静的知識グラフの知識グラフ補完について,タスク指向対話システムの場合において,ゼロとワンショットの文脈でTELeR分類に従って構築されたプロンプトを用いて,Mixtral-8x7b-Instruct-v0.1,GPT-3.5-Turbo-0125,GPT-4oの3つの優れたLCMを実験した。
厳密な測定方法とフレキシブルな測定方法の両方を用いて評価すると,LLMが十分な情報と関連する事例をカプセル化すれば,そのようなタスクに適合する可能性が示唆された。
Recent work has shown the capability of Large Language Models (LLMs) to solve tasks related to Knowledge Graphs, such as Knowledge Graph Completion, even in Zero- or Few-Shot paradigms. However, they are known to hallucinate answers, or output results in a non-deterministic manner, thus leading to wrongly reasoned responses, even if they satisfy the user's demands. To highlight opportunities and challenges in knowledge graphs-related tasks, we experiment with three distinguished LLMs, namely Mixtral-8x7b-Instruct-v0.1, GPT-3.5-Turbo-0125 and GPT-4o, on Knowledge Graph Completion for static knowledge graphs, using prompts constructed following the TELeR taxonomy, in Zero- and One-Shot contexts, on a Task-Oriented Dialogue system use case. When evaluated using both strict and flexible metrics measurement manners, our results show that LLMs could be fit for such a task if prompts encapsulate sufficient information and relevant examples. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 予め訓練した非現実的非現実的ニューラルネットワークによる血糖コントロール
Blood Glucose Control Via Pre-trained Counterfactual Invertible Neural Networks ( http://arxiv.org/abs/2405.17458v2 ) ライセンス: Link先を確認 | Jingchi Jiang, Rujia Shen, Boran Wang, Yi Guan, | (参考訳) 1型糖尿病(T1D)はインスリン欠乏症とBGコントロールの問題が特徴である。
連続BG制御のための最先端のソリューションは強化学習(RL)であり、エージェントはターゲット範囲内のBGレベルを維持するために、時間内に外因性インスリン投与量を動的に調整することができる。
しかしながら、アクションガイダンスが欠如しているため、エージェントは、外因性インスリン投与量とBGレベルの誤解を招く相関を理解するために、ランダム化試験から学ぶ必要があることが多い。
これらの課題に対処するために, 対実的可逆ニューラルネットワーク(CINN)に基づくイントロスペクティブRLを提案する。
事前学習したCINNをRLエージェントのフリーズイントロスペクティブブロックとして使用し、前方予測と逆ファクト推論を統合してポリシー更新をガイドし、より安定で安全なBG制御を促進する。
解釈可能な因果順序に基づいて構築されたCINNは、直交量正規化を用いて、アフィン結合層を持つ双方向エンコーダを用いて、トレーニング可能性を高め、ネットワークパラメータの双方向微分性を確保する。
本稿では,BG予測における事前学習CINNの精度と一般化能力を実験的に検証した。
さらに,より正確かつ安全なBG制御のためのRLポリシー更新の指導において,事前学習型CINNの有効性を強調した。
Type 1 diabetes mellitus (T1D) is characterized by insulin deficiency and blood glucose (BG) control issues. The state-of-the-art solution for continuous BG control is reinforcement learning (RL), where an agent can dynamically adjust exogenous insulin doses in time to maintain BG levels within the target range. However, due to the lack of action guidance, the agent often needs to learn from randomized trials to understand misleading correlations between exogenous insulin doses and BG levels, which can lead to instability and unsafety. To address these challenges, we propose an introspective RL based on Counterfactual Invertible Neural Networks (CINN). We use the pre-trained CINN as a frozen introspective block of the RL agent, which integrates forward prediction and counterfactual inference to guide the policy updates, promoting more stable and safer BG control. Constructed based on interpretable causal order, CINN employs bidirectional encoders with affine coupling layers to ensure invertibility while using orthogonal weight normalization to enhance the trainability, thereby ensuring the bidirectional differentiability of network parameters. We experimentally validate the accuracy and generalization ability of the pre-trained CINN in BG prediction and counterfactual inference for action. Furthermore, our experimental results highlight the effectiveness of pre-trained CINN in guiding RL policy updates for more accurate and safer BG control. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# フローサイトメトリー予測のためのグラフニューラルネットワークへの階層的生物前駆体注入
Injecting Hierarchical Biological Priors into Graph Neural Networks for Flow Cytometry Prediction ( http://arxiv.org/abs/2405.18507v3 ) ライセンス: Link先を確認 | Fatemeh Nassajian Mojarrad, Lorenzo Bini, Thomas Matthes, Stéphane Marchand-Maillet, | (参考訳) フローサイトメトリー(FC)データから得られた末梢血や骨髄などの血液学的サンプルの複雑な景観において、細胞レベルでの予測は深刻な課題を呈している。
本研究では、グラフニューラルネットワーク(GNN)に階層的な事前知識を注入して、表層セルデータの単一セルマルチクラス分類を行う。
データをグラフとして表現し,クラス間の階層的関係を符号化することにより,複数のGNNモデル,すなわちFCHC-GNNに適用可能な階層的プラグイン手法を提案する。
19人の異なる患者のコホートに対する大規模な実験により、階層的な生物学的制約を取り入れることによって、複数の指標においてパフォーマンスが著しく向上することが実証された。
提案手法は, 複雑な生物予測タスクにおける一般化向上のための構造的帰納バイアスの重要性を強調した。
In the complex landscape of hematologic samples such as peripheral blood or bone marrow derived from flow cytometry (FC) data, cell-level prediction presents profound challenges. This work explores injecting hierarchical prior knowledge into graph neural networks (GNNs) for single-cell multi-class classification of tabular cellular data. By representing the data as graphs and encoding hierarchical relationships between classes, we propose our hierarchical plug-in method to be applied to several GNN models, namely, FCHC-GNN, and effectively designed to capture neighborhood information crucial for single-cell FC domain. Extensive experiments on our cohort of 19 distinct patients, demonstrate that incorporating hierarchical biological constraints boosts performance significantly across multiple metrics compared to baseline GNNs without such priors. The proposed approach highlights the importance of structured inductive biases for gaining improved generalization in complex biological prediction tasks. | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 超音速特徴場を用いたビュー一貫性階層型3次元セグメンテーション
View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields ( http://arxiv.org/abs/2405.19678v2 ) ライセンス: Link先を確認 | Haodi He, Colton Stearns, Adam W. Harley, Leonidas J. Guibas, | (参考訳) Segment Anything (SAM)のような大規模ビジョン基盤モデルは、ゼロショット画像のセグメンテーションにおいて、複数のレベルの粒度で印象的な性能を示す。
しかし、これらのゼロショット予測は3D一貫性がほとんどない。
カメラの視点がシーンに変化するにつれて、セグメンテーション予測や"粗い"や"細かい"粒度のキャラクタリゼーションも変化する。
本研究では,階層的かつ3D一貫性の表現に多粒性およびビュー非一貫性のイメージセグメンテーションを持ち上げるという課題に対処する。
我々は、特徴距離の異なるしきい値を用いることで、分割構造を異なるスケールで明らかにできる3次元シーンを表すニューラルレージアンス場(NeRF)内の新しい特徴場を学習する。
私たちのキーとなる考え方は、ユークリッド空間とは異なり、距離に基づくグループ化において推移性を示し、自然に階層的クラスタリングにつながる超測度特徴空間を学習することである。
提案手法は、ビュー一貫性のない多粒性2Dセグメンテーションを入力とし、出力として3D一貫性セグメンテーションの階層を生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
さらに、実世界のシーンにおけるモデルの3次元階層的セグメンテーションの定性的な例を示す。
コードとデータセットはhttps://github.com/hardyho/ultrametric_feature_fieldsで公開されている。
Large-scale vision foundation models such as Segment Anything (SAM) demonstrate impressive performance in zero-shot image segmentation at multiple levels of granularity. However, these zero-shot predictions are rarely 3D-consistent. As the camera viewpoint changes in a scene, so do the segmentation predictions, as well as the characterizations of "coarse" or "fine" granularity. In this work, we address the challenging task of lifting multi-granular and view-inconsistent image segmentations into a hierarchical and 3D-consistent representation. We learn a novel feature field within a Neural Radiance Field (NeRF) representing a 3D scene, whose segmentation structure can be revealed at different scales by simply using different thresholds on feature distance. Our key idea is to learn an ultrametric feature space, which unlike a Euclidean space, exhibits transitivity in distance-based grouping, naturally leading to a hierarchical clustering. Put together, our method takes view-inconsistent multi-granularity 2D segmentations as input and produces a hierarchy of 3D-consistent segmentations as output. We evaluate our method and several baselines on synthetic datasets with multi-view images and multi-granular segmentation, showcasing improved accuracy and viewpoint-consistency. We additionally provide qualitative examples of our model's 3D hierarchical segmentations in real world scenes. The code and dataset are available at https://github.com/hardyho/ultrametric_feature_fields | 翻訳日:2024-07-19 20:42:05 公開日:2024-07-18 |
# 生成フローネットワークを用いた集団可変自由遷移経路サンプリング
Collective Variable Free Transition Path Sampling with Generative Flow Network ( http://arxiv.org/abs/2405.19961v3 ) ライセンス: Link先を確認 | Kiyoung Seong, Seonghyun Park, Seonghwan Kim, Woo Youn Kim, Sungsoo Ahn, | (参考訳) 分子系における準安定状態間の遷移経路を理解することは、物質設計と薬物発見に不可欠である。
しかし、準安定状態間の高エネルギー障壁のため、非バイアス分子動力学シミュレーションによるこれらの経路のサンプリングは計算的に禁止されている。
最近の機械学習アプローチは、しばしば単純なシステムに制限されるか、高価なドメイン知識から抽出された集合変数(CV)に依存している。
本研究では,生成フローネットワーク(GFlowNets)をCVに依存しない遷移経路のサンプリングに活用することを提案する。
我々は、GFlowNetsのフローマッチング目的から得られたターゲット分布とジェネレータの2乗対数比を最小化することにより、遷移経路上での償却エネルギーベースのサンプリングとして問題を再構築し、ニューラルバイアスポテンシャルを訓練する。
我々の3つのタンパク質(アラニンジペプチド、ポリプロリンヘリックス、チグノリン)に対する評価は、我々のアプローチであるTPS-GFNが、従来のCVフリー機械学習アプローチよりも現実的で多様な遷移経路を生成することを示している。
Understanding transition paths between meta-stable states in molecular systems is fundamental for material design and drug discovery. However, sampling these paths via unbiased molecular dynamics simulations is computationally prohibitive due to the high energy barriers between the meta-stable states. Recent machine learning approaches are often restricted to simple systems or rely on collective variables (CVs) extracted from expensive domain knowledge. In this work, we propose to leverage generative flow networks (GFlowNets) to sample transition paths without relying on CVs. We reformulate the problem as amortized energy-based sampling over transition paths and train a neural bias potential by minimizing the squared log-ratio between the target distribution and the generator, derived from the flow matching objective of GFlowNets. Our evaluation on three proteins (Alanine Dipeptide, Polyproline Helix, and Chignolin) demonstrates that our approach, called TPS-GFN, generates more realistic and diverse transition paths than the previous CV-free machine learning approach. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# 個人レベル差分プライバシを用いた個人平均推定
Private Mean Estimation with Person-Level Differential Privacy ( http://arxiv.org/abs/2405.20405v2 ) ライセンス: Link先を確認 | Sushant Agarwal, Gautam Kamath, Mahbod Majid, Argyris Mouzakis, Rose Silver, Jonathan Ullman, | (参考訳) 複数のサンプルを保持する場合の個人レベルの差分プライベート(DP)平均推定について検討した。
ここでDPは、人のデータポイントの$\textit{all}$を変更できる場合、通常の分散安定性の概念を必要とします。
インフォーマルに、$n$の人々が、有界な$k$-thモーメントを持つ未知の$d$-dimensionalディストリビューションから$m$のサンプルを持っている場合、我々は、$\alpha$ in $\ell_2$-normを$\varepsilon$-differential privacy(そしてその一般的な緩和)の下で推定するのに必要で十分であることを示す。
多変量設定では、計算効率の良いアルゴリズムを近似DPで、計算効率の悪いアルゴリズムを純粋DPで提供し、近似DPの最も寛容な場合において、ほぼ一致する下界が保持する。
計算効率のよい推定器は標準的なクリップ・アンド・ノイズ・フレームワークに基づいているが,新しいアルゴリズム技術と新しい解析技術の両方を必要とする。
特に、独立、ベクトル値、有界なモーメント変数の和の尾辺に関する我々の新しい境界は興味を持つかもしれない。
\[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d}{\alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\]
We study person-level differentially private (DP) mean estimation in the case where each person holds multiple samples. DP here requires the usual notion of distributional stability when $\textit{all}$ of a person's datapoints can be modified. Informally, if $n$ people each have $m$ samples from an unknown $d$-dimensional distribution with bounded $k$-th moments, we show that people are necessary and sufficient to estimate the mean up to distance $\alpha$ in $\ell_2$-norm under $\varepsilon$-differential privacy (and its common relaxations). In the multivariate setting, we give computationally efficient algorithms under approximate-DP and computationally inefficient algorithms under pure DP, and our nearly matching lower bounds hold for the most permissive case of approximate DP. Our computationally efficient estimators are based on the standard clip-and-noise framework, but the analysis for our setting requires both new algorithmic techniques and new analyses. In particular, our new bounds on the tails of sums of independent, vector-valued, bounded-moments random variables may be of interest. \[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d}{\alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\] | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# 探索空間分割学習による多目的ニューラルアーキテクチャ探索
Multi-Objective Neural Architecture Search by Learning Search Space Partitions ( http://arxiv.org/abs/2406.00291v2 ) ライセンス: Link先を確認 | Yiyang Zhao, Linnan Wang, Tian Guo, | (参考訳) ディープラーニングモデルをデプロイするには、モデルサイズ、推論レイテンシ、#FLOPなどのニューラルネットワークメトリクスを考慮する必要がある。
この結果、ディープラーニングモデルデザイナは、多目的最適化を利用して、効率的なディープニューラルネットワークを複数の基準で設計する。
しかし、NASタスクは一般に巨大な検索空間を持ち、非無視探索コストもかかるため、ニューラルネットワーク探索(NAS)に多目的最適化を適用することは簡単ではない。
これはGPUコストを軽減するために効果的な多目的探索アルゴリズムを必要とする。
本研究では,NASタスク上でのLaMOOというメタアルゴリズムに基づく,新しい多目的最適化手法を提案する。
簡単に言えば、LaMOOは観測されたサンプルからモデルを学び、探索空間を分割し、パレートフロンティアのサブセットを含む可能性のある領域にフォーカスすることで、探索プロセスを高速化する。
LaMOOを用いて,異なるNASデータセット上でのベイズ最適化と進化型多目的最適化と比較して200%以上のサンプル効率の改善を観察した。
例えば、LaMOOと組み合わせると、qEHVIはNasBench201でqEHVIのみを使用するよりも225%効率が向上する。
現実世界のタスクでは、LaMOOの精度は97.36%、CIFAR10の#Paramsはわずか600のサンプルで1.62万である。
ImageNetでは、私たちの大モデルは80.4%の精度で、522M #FLOPsしかありません。
Deploying deep learning models requires taking into consideration neural network metrics such as model size, inference latency, and #FLOPs, aside from inference accuracy. This results in deep learning model designers leveraging multi-objective optimization to design effective deep neural networks in multiple criteria. However, applying multi-objective optimizations to neural architecture search (NAS) is nontrivial because NAS tasks usually have a huge search space, along with a non-negligible searching cost. This requires effective multi-objective search algorithms to alleviate the GPU costs. In this work, we implement a novel multi-objectives optimizer based on a recently proposed meta-algorithm called LaMOO on NAS tasks. In a nutshell, LaMOO speedups the search process by learning a model from observed samples to partition the search space and then focusing on promising regions likely to contain a subset of the Pareto frontier. Using LaMOO, we observe an improvement of more than 200% sample efficiency compared to Bayesian optimization and evolutionary-based multi-objective optimizers on different NAS datasets. For example, when combined with LaMOO, qEHVI achieves a 225% improvement in sample efficiency compared to using qEHVI alone in NasBench201. For real-world tasks, LaMOO achieves 97.36% accuracy with only 1.62M #Params on CIFAR10 in only 600 search samples. On ImageNet, our large model reaches 80.4% top-1 accuracy with only 522M #FLOPs. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# CE-NAS: エンド・ツー・エンドのカーボン効率の良いニューラルネットワーク検索フレームワーク
CE-NAS: An End-to-End Carbon-Efficient Neural Architecture Search Framework ( http://arxiv.org/abs/2406.01414v2 ) ライセンス: Link先を確認 | Yiyang Zhao, Yunzhuo Liu, Bo Jiang, Tian Guo, | (参考訳) 本研究は,モデル設計プロセスにおける炭素効率の向上を目的とした,ニューラルアーキテクチャ探索(NAS)に対する新しいアプローチを提案する。
提案したフレームワークCE-NASは、NASアルゴリズムのエネルギーの炭素放出変化とエネルギー差を探索することにより、NASに関連する高炭素コストの鍵となる課題に対処する。
高レベルでは、CE-NASは強化学習エージェントを利用して、時系列変換器によって予測される炭素強度に基づいてGPUリソースを動的に調整し、エネルギー効率の高いサンプリングとエネルギー集約評価タスクのバランスをとる。
さらに、CE-NASは、最近提案された多目的最適化器を利用して、NAS探索空間を効果的に削減する。
我々は,NASデータセットとオープンドメインNASタスクのSOTA結果を達成しつつ,CE-NASの炭素排出量低減効果を実証した。
例えば、HW-NasBenchデータセットでは、CE-NASはバニラNASに匹敵する探索効率を維持しながら、二酸化炭素排出量を最大7.22倍削減する。
オープンドメインNASタスクでは、CE-NASはCIFAR-10で97.35%の精度でSOTAを達成し、パラメータはわずか1.68M、二酸化炭素は38.53ポンドである。
ImageNetでは、NVIDIA V100上でFP16を使用して0.78msのTensorRTレイテンシで80.6%のトップ1の精度を実現し、909.86 lbのCO2を消費するだけで、他のワンショットベースのNASベースラインに匹敵する。
This work presents a novel approach to neural architecture search (NAS) that aims to increase carbon efficiency for the model design process. The proposed framework CE-NAS addresses the key challenge of high carbon cost associated with NAS by exploring the carbon emission variations of energy and energy differences of different NAS algorithms. At the high level, CE-NAS leverages a reinforcement-learning agent to dynamically adjust GPU resources based on carbon intensity, predicted by a time-series transformer, to balance energy-efficient sampling and energy-intensive evaluation tasks. Furthermore, CE-NAS leverages a recently proposed multi-objective optimizer to effectively reduce the NAS search space. We demonstrate the efficacy of CE-NAS in lowering carbon emissions while achieving SOTA results for both NAS datasets and open-domain NAS tasks. For example, on the HW-NasBench dataset, CE-NAS reduces carbon emissions by up to 7.22X while maintaining a search efficiency comparable to vanilla NAS. For open-domain NAS tasks, CE-NAS achieves SOTA results with 97.35% top-1 accuracy on CIFAR-10 with only 1.68M parameters and a carbon consumption of 38.53 lbs of CO2. On ImageNet, our searched model achieves 80.6% top-1 accuracy with a 0.78 ms TensorRT latency using FP16 on NVIDIA V100, consuming only 909.86 lbs of CO2, making it comparable to other one-shot-based NAS baselines. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# オンライン選挙干渉における生成人工知能の悪用景観の図表化
Charting the Landscape of Nefarious Uses of Generative Artificial Intelligence for Online Election Interference ( http://arxiv.org/abs/2406.01862v2 ) ライセンス: Link先を確認 | Emilio Ferrara, | (参考訳) Generative Artificial Intelligence (GenAI) と Large Language Models (LLMs) は、特にオンライン選挙干渉の領域において大きなリスクをもたらす。
本稿では、GenAIの悪用を探求し、ディープフェイク、ボットネット、偽情報キャンペーン、合成IDを通じて民主的プロセスを破壊できる可能性を明らかにする。
Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) pose significant risks, particularly in the realm of online election interference. This paper explores the nefarious applications of GenAI, highlighting their potential to disrupt democratic processes through deepfakes, botnets, targeted misinformation campaigns, and synthetic identities. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# MoLA: 逆行訓練により増強された潜伏拡散による運動生成と編集
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training ( http://arxiv.org/abs/2406.01867v2 ) ライセンス: Link先を確認 | Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Shusuke Takahashi, Yuki Mitsufuji, | (参考訳) モーションジェネレーションでは、制御性や生成品質、速度がますます重要になっている。
動作編集タスクは, 内装, 上体編集, パス追従など多岐にわたるが, 既存の手法では, 遅延拡散モデルに比べて推論が遅いデータ空間拡散モデルを用いて動作編集を行う。
本稿では,高速かつ高品質なモーション生成を実現するMoLAを提案する。
高品質かつ高速な生成には,変分オートエンコーダと潜時拡散モデルを用い,対向訓練による性能向上を図る。
さらに、動作制御入力を用いた様々な編集タスクを実現するために、トレーニング不要のガイド付き生成フレームワークを適用した。
本研究では,テキスト・ツー・モーション生成における対人学習の有効性を定量的に示すとともに,動作領域における複数の編集タスクに対する編集フレームワークの適用性を示す。
In motion generation, controllability as well as generation quality and speed is becoming more and more important. There are various motion editing tasks, such as in-betweening, upper body editing, and path-following, but existing methods perform motion editing with a data-space diffusion model, which is slow in inference compared to a latent diffusion model. In this paper, we propose MoLA, which provides fast and high-quality motion generation and also can deal with multiple editing tasks in a single framework. For high-quality and fast generation, we employ a variational autoencoder and latent diffusion model, and improve the performance with adversarial training. In addition, we apply a training-free guided generation framework to achieve various editing tasks with motion control inputs. We quantitatively show the effectiveness of adversarial learning in text-to-motion generation, and demonstrate the applicability of our editing framework to multiple editing tasks in the motion domain. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# 半教師付き迷路追従に対する拡散精製VQAアノテーション
Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following ( http://arxiv.org/abs/2406.02774v2 ) ライセンス: Link先を確認 | Qiaomu Miao, Alexandros Graikos, Jingwei Zhang, Sounak Mondal, Minh Hoai, Dimitris Samaras, | (参考訳) 視線を訓練するモデルには、人間のアノテーションによって注釈付けされた視線目標座標を持つ多数の画像が必要であり、これは退屈で本質的に曖昧なプロセスである。
タスクに2つの新しい前処理を導入することで、視線追跡のための最初の半教師付き手法を提案する。
本稿では,VQAモデルを用いて事前学習を行い,次の質問に目を向けて,VQAモデルを用いてGrad-CAMヒートマップを'prompting'することで計算する。
これらのヒートマップはノイズがあり、訓練に適さない。
これらのノイズの多いアノテーションを洗練する必要があるため、私たちは2番目の前もって組み込むことができます。
我々は,限定された人間のアノテーションに基づいて訓練された拡散モデルを利用し,逆サンプリングプロセスを変更してGrad-CAMヒートマップを改良する。
拡散過程を調整することにより、人間のアノテーションとVQAのヒートマップとのトレードオフを実現し、トレーニングデータ分布に類似した特性を示しながら、有用なVQAの事前情報を保持する。
提案手法は,GazeFollow画像データセットに基づく単純な擬似アノテーション生成ベースラインよりも優れている。
さらに、VATモデル(VAT)に広く用いられている擬似アノテーション戦略により、アノテーションの必要性を50%低減する。
提案手法は,VideoAttentionTargetデータセット上でも最良である。
Training gaze following models requires a large number of images with gaze target coordinates annotated by human annotators, which is a laborious and inherently ambiguous process. We propose the first semi-supervised method for gaze following by introducing two novel priors to the task. We obtain the first prior using a large pretrained Visual Question Answering (VQA) model, where we compute Grad-CAM heatmaps by `prompting' the VQA model with a gaze following question. These heatmaps can be noisy and not suited for use in training. The need to refine these noisy annotations leads us to incorporate a second prior. We utilize a diffusion model trained on limited human annotations and modify the reverse sampling process to refine the Grad-CAM heatmaps. By tuning the diffusion process we achieve a trade-off between the human annotation prior and the VQA heatmap prior, which retains the useful VQA prior information while exhibiting similar properties to the training data distribution. Our method outperforms simple pseudo-annotation generation baselines on the GazeFollow image dataset. More importantly, our pseudo-annotation strategy, applied to a widely used supervised gaze following model (VAT), reduces the annotation need by 50%. Our method also performs the best on the VideoAttentionTarget dataset. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# セルネットワークを通過するE(n)同変メッセージ
E(n) Equivariant Message Passing Cellular Networks ( http://arxiv.org/abs/2406.03145v3 ) ライセンス: Link先を確認 | Veljko Kovač, Erik J. Bekkers, Pietro Liò, Floor Eijkelboom, | (参考訳) 本稿では、E(n)同変グラフニューラルネットワークをCW-複合体に拡張した、E(n)同変メッセージパッシングセルネットワーク(EMPCN)を紹介する。
我々のアプローチは幾何学的メッセージパッシングネットワークの2つの側面に対処する。
1)任意の細胞を組み込んで表現力を高めること
2) 切り離されたEMPCNs技術により, 計算効率が向上した。
EMPCNは、多体予測やモーションキャプチャなど、操りやすさを必要とせず、複数のタスクにおける最先端性能に近いことを実証する。
さらに, 脱結合型EMPCNは非トポロジカルに情報を得たものよりも強い一般化能力を示すことが, アブレーション研究により確認された。
これらの結果から,EMPCNは幾何学的およびトポロジ的グラフにおける高次メッセージパッシングのためのスケーラブルで表現力のあるフレームワークとして利用できることが示された。
This paper introduces E(n) Equivariant Message Passing Cellular Networks (EMPCNs), an extension of E(n) Equivariant Graph Neural Networks to CW-complexes. Our approach addresses two aspects of geometric message passing networks: 1) enhancing their expressiveness by incorporating arbitrary cells, and 2) achieving this in a computationally efficient way with a decoupled EMPCNs technique. We demonstrate that EMPCNs achieve close to state-of-the-art performance on multiple tasks without the need for steerability, including many-body predictions and motion capture. Moreover, ablation studies confirm that decoupled EMPCNs exhibit stronger generalization capabilities than their non-topologically informed counterparts. These findings show that EMPCNs can be used as a scalable and expressive framework for higher-order message passing in geometric and topological graphs | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# QJL:ゼロオーバーヘッドによるKVキャッシュ量子化のための1ビット量子化JL変換
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead ( http://arxiv.org/abs/2406.03482v2 ) ライセンス: Link先を確認 | Amir Zandieh, Majid Daliri, Insu Han, | (参考訳) LLMをシリアル化するには、キーバリュー(KV)埋め込みをKVキャッシュに格納する必要があるため、大きなメモリを必要とする。
KVキャッシュを圧縮するための効果的なアプローチは量子化である。
しかし、従来の量子化法は、量子化定数(少なくともゼロ点とスケール)を1データブロックあたりの完全精度で保存する必要があるため、メモリオーバーヘッドがかなり大きい。
ブロックサイズによって、このオーバーヘッドは量子化数当たり1ビットまたは2ビットを追加することができる。
我々は、ジョンソン-リンデンシュトラウス変換(JL)とサインビット量子化を組み合わせた新しい量子化手法であるQJLを紹介する。
既存の方法とは対照的に、QJLは量子化定数を保存する必要をなくすことでメモリオーバーヘッドをなくす。
2つのベクトルの内積に対する非対称推定器を提案し、一方のベクトルにQJLを適用すると、他方のベクトルに量子化せずに標準のJL変換を適用すると、最小歪みの非バイアス推定器が得られることを示した。
我々は,QJLスケッチとそれに対応する内部積推定器の効率的な実装を開発し,軽量なCUDAカーネルを用いて最適化計算を行った。
様々なLLMおよびNLPタスクにまたがってKVキャッシュを3ビットに量子化すると、QJLはKVキャッシュのメモリ使用量を5倍以上に削減し、精度を損なうことなく高速な実行を実現している。
コードは \url{https://github.com/amirzandieh/QJL} で公開されている。
Serving LLMs requires substantial memory due to the storage requirements of Key-Value (KV) embeddings in the KV cache, which grows with sequence length. An effective approach to compress KV cache is quantization. However, traditional quantization methods face significant memory overhead due to the need to store quantization constants (at least a zero point and a scale) in full precision per data block. Depending on the block size, this overhead can add 1 or 2 bits per quantized number. We introduce QJL, a new quantization approach that consists of a Johnson-Lindenstrauss (JL) transform followed by sign-bit quantization. In contrast to existing methods, QJL eliminates memory overheads by removing the need for storing quantization constants. We propose an asymmetric estimator for the inner product of two vectors and demonstrate that applying QJL to one vector and a standard JL transform without quantization to the other provides an unbiased estimator with minimal distortion. We have developed an efficient implementation of the QJL sketch and its corresponding inner product estimator, incorporating a lightweight CUDA kernel for optimized computation. When applied across various LLMs and NLP tasks to quantize the KV cache to only 3 bits, QJL demonstrates a more than fivefold reduction in KV cache memory usage without compromising accuracy, all while achieving faster runtime. Codes are available at \url{https://github.com/amirzandieh/QJL}. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# カテゴリー発見のためのラベル付きデータ選択
Labeled Data Selection for Category Discovery ( http://arxiv.org/abs/2406.04898v2 ) ライセンス: Link先を確認 | Bingchen Zhao, Nico Lang, Serge Belongie, Oisin Mac Aodha, | (参考訳) カテゴリー発見手法は、ラベルのない視覚データに新しいカテゴリを見つけることを目的としている。
トレーニング時にはラベル付き画像とラベルなし画像のセットが提供され、ラベルは画像に存在するカテゴリに対応する。
ラベル付きデータは、ラベルなしデータの発見にどのような視覚特性や特徴が関係しているかを示すことによって、トレーニング中のガイダンスを提供する。
その結果、ラベル付けされた集合に存在する圏を変更することは、ラベル付けされていない集合で最終的に発見されるものに大きな影響を与える。
その重要性にもかかわらず、ラベル付きデータ選択の影響は、今までのカテゴリ発見文献では調査されていない。
ラベル付きデータの変更が発見性能に大きな影響を及ぼすことを示す。
そこで本研究では,ラベル付きデータとラベルなしデータとの類似性に基づいて,最適なラベル付きデータを自動的に選択する2つの新しい手法を提案する。
我々の観察では、従来の教師ありトランスファーラーニングとは異なり、最高のラベル付けは、ラベル付けされていないカテゴリとあまり似ていないし、相容れないものでもない。
結果として得られたアプローチは、難易度の高いベンチマークデータセットにまたがって、最先端の発見性能を得る。
Category discovery methods aim to find novel categories in unlabeled visual data. At training time, a set of labeled and unlabeled images are provided, where the labels correspond to the categories present in the images. The labeled data provides guidance during training by indicating what types of visual properties and features are relevant for performing discovery in the unlabeled data. As a result, changing the categories present in the labeled set can have a large impact on what is ultimately discovered in the unlabeled set. Despite its importance, the impact of labeled data selection has not been explored in the category discovery literature to date. We show that changing the labeled data can significantly impact discovery performance. Motivated by this, we propose two new approaches for automatically selecting the most suitable labeled data based on the similarity between the labeled and unlabeled data. Our observation is that, unlike in conventional supervised transfer learning, the best labeled is neither too similar, nor too dissimilar, to the unlabeled categories. Our resulting approaches obtains state-of-the-art discovery performance across a range of challenging fine-grained benchmark datasets. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# 混合曲率決定木とランダム森林
Mixed-Curvature Decision Trees and Random Forests ( http://arxiv.org/abs/2406.05227v2 ) ライセンス: Link先を確認 | Philippe Chlenski, Quentin Chu, Itsik Pe'er, | (参考訳) 決定木とランダムフォレストアルゴリズムを積空間多様体に拡張する: ユークリッド多様体、超球面多様体、双曲多様体の直積。
そのような空間は、測度歪みの低い多くの距離の配置を表現できる非常に表現力のある測地を持っている。
これまで、積空間のすべての分類器は1つの線形決定境界に適合しており、回帰器は記述されていない。
本手法は積多様体の分類と回帰のための単純で表現力豊かな方法を実現する。
ツールの精度は、多様体の周囲空間や接平面で動くユークリッド法と比較して、定数曲率および積多様体の範囲で優れていることを示す。
実装と実験のコードはhttps://github.com/pchlenski/embedders.comで公開されている。
We extend decision tree and random forest algorithms to product space manifolds: Cartesian products of Euclidean, hyperspherical, and hyperbolic manifolds. Such spaces have extremely expressive geometries capable of representing many arrangements of distances with low metric distortion. To date, all classifiers for product spaces fit a single linear decision boundary, and no regressor has been described. Our method enables a simple, expressive method for classification and regression in product manifolds. We demonstrate the superior accuracy of our tool compared to Euclidean methods operating in the ambient space or the tangent plane of the manifold across a range of constant-curvature and product manifolds. Code for our implementation and experiments is available at https://github.com/pchlenski/embedders. | 翻訳日:2024-07-19 20:32:20 公開日:2024-07-18 |
# 一般配電学習 : ディープラーニングの理論的枠組み
General Distribution Learning: A theoretical framework for Deep Learning ( http://arxiv.org/abs/2406.05666v5 ) ライセンス: Link先を確認 | Binchuan Qi, | (参考訳) 本稿では、分類、回帰、パラメータ推定を含む、機械学習と統計タスクの包括的範囲に対処するために設計された、新しい理論学習フレームワークであるGeneral Distribution Learning(GD Learning)を紹介する。
GDラーニングは、データセットの真の基礎となる確率分布を推定し、推定された分布パラメータに適合するモデルを使用することに重点を置いている。
したがって、GD学習における学習誤差は、推定誤差と適合誤差の2つの異なるカテゴリに分解される。
推定誤差は、有限サンプリングの制約、限定された事前知識、および推定アルゴリズム固有の制約に起因し、真の分布と推定との相違を定量化する。
フィッティング誤差は、モデルのキャパシティ制限と最適化アルゴリズムの性能制限に起因し、フィッティング対象からのモデル出力の偏差を評価することができる。
学習誤差の最適化における非凸性の問題に対処するために、標準損失関数を導入し、この関数を用いることで、非凸最適化における大域的最適解が、勾配ノルムと構造誤差を最小化することで、アプローチできることを実証する。
さらに,推定誤差が$q$の不確実性によって決定されることを示し,真分布の最適推定値を得るための最小不確実性原理を提案する。
さらに,GD学習フレームワークにおける推定誤差,適合誤差,学習誤差の上限も提供する。
本研究は, オーバーパラメータ化, 非凸最適化, フラットミニマ, 動的等尺条件など, ディープラーニングに関するいくつかの未解決問題に対する理論的説明を行うために応用された。
This paper introduces General Distribution Learning (GD learning), a novel theoretical learning framework designed to address a comprehensive range of machine learning and statistical tasks, including classification, regression, and parameter estimation. GD learning focuses on estimating the true underlying probability distribution of dataset and using models to fit the estimated parameters of the distribution. The learning error in GD learning is thus decomposed into two distinct categories: estimation error and fitting error. The estimation error, which stems from the constraints of finite sampling, limited prior knowledge, and the estimation algorithm's inherent limitations, quantifies the discrepancy between the true distribution and its estimate. The fitting error can be attributed to model's capacity limitation and the performance limitation of the optimization algorithm, which evaluates the deviation of the model output from the fitted objective. To address the challenge of non-convexity in the optimization of learning error, we introduce the standard loss function and demonstrate that, when employing this function, global optimal solutions in non-convex optimization can be approached by minimizing the gradient norm and the structural error. Moreover, we demonstrate that the estimation error is determined by the uncertainty of the estimate $q$, and propose the minimum uncertainty principle to obtain an optimal estimate of the true distribution. We further provide upper bounds for the estimation error, fitting error, and learning error within the GD learning framework. Ultimately, our findings are applied to offer theoretical explanations for several unanswered questions on deep learning, including overparameterization, non-convex optimization, flat minima, dynamic isometry condition and other techniques in deep learning. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# HORAE:マルチモーダルサービス規制を自動化するドメインに依存しないモデリング言語
HORAE: A Domain-Agnostic Modeling Language for Automating Multimodal Service Regulation ( http://arxiv.org/abs/2406.06600v2 ) ライセンス: Link先を確認 | Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Kangjia Zhao, He Li, Jintao Chen, Liqiang Lu, Xinkui Zhao, Shuiguang Deng, Jianwei Yin, | (参考訳) 人工知能は、サービス規制の分野に急速に浸透している。
この研究は、多様なドメインからなるマルチモーダル規制ルールをモデル化するための統一仕様言語であるHORAEの設計原則を提示する。
我々は、HORAEモデリングプロセスを自動化するHORAEという名前の細調整された大規模言語モデルをさらに活用することにより、HORAEがインテリジェントなサービス規制パイプラインを促進する方法を示し、完全に自動化されたインテリジェントなサービス規制のためのエンドツーエンドのフレームワークを提供する。
Artificial intelligence is rapidly encroaching on the field of service regulation. This work presents the design principles behind HORAE, a unified specification language to model multimodal regulation rules across a diverse set of domains. We show how HORAE facilitates an intelligent service regulation pipeline by further exploiting a fine-tuned large language model named HORAE that automates the HORAE modeling process, thereby yielding an end-to-end framework for fully automated intelligent service regulation. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 階層化, サンプリング, 推定による効率的なモデル評価のためのフレームワーク
A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation ( http://arxiv.org/abs/2406.07320v2 ) ライセンス: Link先を確認 | Riccardo Fogliato, Pratik Patil, Mathew Monfort, Pietro Perona, | (参考訳) モデル性能評価は、機械学習とコンピュータビジョンにおいて重要で高価なタスクである。
明確なガイドラインがなければ、実践者はデータの1回完全にランダムな選択を使用してモデルの精度を見積もることが多い。
しかし, 適切なサンプリングと推定手法を用いることで, より正確な推定値を得ることができ, アノテーションのコストを低減できる。
本稿では,階層化,サンプリング,推定を含むモデル評価のための統計的枠組みを提案する。
本研究では,各成分の統計特性について検討し,その効率性(精度)を評価する。
我々の研究の重要な成果の1つは、モデル性能の正確な予測に基づくk平均クラスタリングによる成層化が効率的な推定を行うことである。
計算機ビジョンデータセットを用いた実験により,本手法は従来の単純な乱数サンプリングよりも精度の高い推定値を提供し,精度は10倍に向上した。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、ラベル付きデータのみに基づく従来の推定よりも一般的に効率的であることがわかった。
Model performance evaluation is a critical and expensive task in machine learning and computer vision. Without clear guidelines, practitioners often estimate model accuracy using a one-time completely random selection of the data. However, by employing tailored sampling and estimation strategies, one can obtain more precise estimates and reduce annotation costs. In this paper, we propose a statistical framework for model evaluation that includes stratification, sampling, and estimation components. We examine the statistical properties of each component and evaluate their efficiency (precision). One key result of our work is that stratification via k-means clustering based on accurate predictions of model performance yields efficient estimators. Our experiments on computer vision datasets show that this method consistently provides more precise accuracy estimates than the traditional simple random sampling, even with substantial efficiency gains of 10x. We also find that model-assisted estimators, which leverage predictions of model accuracy on the unlabeled portion of the dataset, are generally more efficient than the traditional estimates based solely on the labeled data. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# YouTube、TikTok、その他2024年の麻疹のアウトブレイクに関する動画の感情分析のためのラベル付きデータセット
A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles ( http://arxiv.org/abs/2406.07693v3 ) ライセンス: Link先を確認 | Nirmalya Thakur, Vanessa Su, Mingchen Shao, Kesha A. Patel, Hongseok Jeong, Victoria Knieling, Andrew Bian, | (参考訳) 本稿では,2024年1月1日から5月31日までにインターネット上の264のウェブサイトで公表された麻疹の流行に関する4011件のビデオデータを含むデータセットを提案する。
データセットはhttps://dx.doi.org/10.21227/40s8-xf63で公開されている。
これらのウェブサイトにはYouTubeとTikTokが含まれるが、これはそれぞれ48.6%と15.2%である。
残りのWebサイトは、InstagramとFacebookだけでなく、さまざまなグローバルおよびローカルなニュース組織のWebサイトも含んでいる。
これらのビデオのそれぞれについて、ビデオのURL、投稿のタイトル、投稿の説明、およびビデオの公開日をデータセット内の別の属性として提示する。
このデータセットを開発した後、ビデオタイトルとビデオ記述の感情分析(VADERを用いた)、主観的分析(TextBlobを用いた)、微粒な感情分析(DistilRoBERTaベースを用いた)を行った。
これには、各ビデオタイトルとビデオ記述を分類することが含まれる。
(i)肯定的、否定的、中立的な感情階級の1つ
(二)主観的階級の1つ、即ち、高い意見、中立的な意見、または、最小の意見
(三)恐怖、驚き、喜び、悲しみ、怒り、嫌悪、中立という微粒な感情のクラスの一つ。
これらの結果は、この分野での感情分析や主観分析を行う機械学習アルゴリズムのトレーニングとテストのためのデータセットと、他のアプリケーションのためのデータセットの別属性として提示される。
最後に,本データセットを用いて検討することのできるオープンリサーチ質問のリストも提示する。
The work of this paper presents a dataset that contains the data of 4011 videos about the ongoing outbreak of measles published on 264 websites on the internet between January 1, 2024, and May 31, 2024. The dataset is available at https://dx.doi.org/10.21227/40s8-xf63. These websites primarily include YouTube and TikTok, which account for 48.6% and 15.2% of the videos, respectively. The remainder of the websites include Instagram and Facebook as well as the websites of various global and local news organizations. For each of these videos, the URL of the video, title of the post, description of the post, and the date of publication of the video are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis (using VADER), subjectivity analysis (using TextBlob), and fine-grain sentiment analysis (using DistilRoBERTa-base) of the video titles and video descriptions were performed. This included classifying each video title and video description into (i) one of the sentiment classes i.e. positive, negative, or neutral, (ii) one of the subjectivity classes i.e. highly opinionated, neutral opinionated, or least opinionated, and (iii) one of the fine-grain sentiment classes i.e. fear, surprise, joy, sadness, anger, disgust, or neutral. These results are presented as separate attributes in the dataset for the training and testing of machine learning algorithms for performing sentiment analysis or subjectivity analysis in this field as well as for other applications. Finally, this paper also presents a list of open research questions that may be investigated using this dataset. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 長距離相互作用系におけるリーブ・シュルツ・マティス理論の妥当性
Validity of the Lieb-Schultz-Mattis Theorem in Long-Range Interacting Systems ( http://arxiv.org/abs/2406.08948v2 ) ライセンス: Link先を確認 | Yi-Neng Zhou, Xingyu Li, | (参考訳) リーブ=シュルツ=マティスの定理(LSM)は、システムの顕微鏡的詳細はシステムの低エネルギー特性に非自明な制約を課すことができると主張している。
従来の短距離相互作用系では、局所性によって大きなシステムサイズ制限のスペクトルギャップが消滅することを保証するが、LSM定理に対する長距離相互作用の影響は未解決のままである。
長距離相互作用は、リドベルク原子、双極子量子ガス、極性分子、光学キャビティ、閉じ込められたイオンなどの実験プラットフォームでよく見られ、相互作用崩壊指数を実験的に調整することができる。
一次元の LSM 定理を長距離相互作用系に拡張し、LSM 定理が崩壊指数 $\alpha > 2$ との指数的あるいは強法的な二体相互作用に対して成り立つことを発見した。
しかし、$\alpha < 2$ とのパワー・ロー相互作用では、基底状態の LSM 定理の制約は適用されない。
また,LSM対称性要件を満たすHeisenbergモデルとMagumdar-Ghoshモデルの長距離モデルの数値シミュレーションも提供する。
この結果から, 可変長距離相互作用を持つシステムにおいて, LSM定理を実験的に検証するための有望な方向が示唆された。
The Lieb-Schultz-Mattis (LSM) theorem asserts that microscopic details of the system can impose non-trivial constraints on the system's low-energy properties. While traditionally applied to short-range interaction systems, where locality ensures a vanishing spectral gap in large system size limit, the impact of long-range interactions on the LSM theorem remains an open question. Long-range interactions are prevalent in experimental platforms such as Rydberg atoms, dipolar quantum gases, polar molecules, optical cavities, and trapped ions, where the interaction decay exponent can be experimentally tuned. We extend the LSM theorem in one dimension to long-range interacting systems and find that the LSM theorem holds for exponentially or power-law two-body interactions with a decay exponent $\alpha > 2$. However, for power-law interactions with $\alpha < 2$, the constraints of the LSM theorem on the ground state do not apply. Numerical simulations of long-range versions of the Heisenberg and Majumdar-Ghosh models, both satisfying the LSM symmetry requirements, are also provided. Our results suggest promising directions for experimental validation of the LSM theorem in systems with tunable long-range interactions. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 固有ベクトル熱ネットワーク
An Intrinsic Vector Heat Network ( http://arxiv.org/abs/2406.09648v2 ) ライセンス: Link先を確認 | Alexander Gao, Maurice Chu, Mubbasir Kapadia, Ming C. Lin, Hsueh-Ti Derek Liu, | (参考訳) ベクトル場は多くの科学や工学の応用のためにフローを表現しモデル化するために広く使われている。
本稿では,3次元に埋め込まれた多様体上に固有に定義された接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。
曲面上のベクトル場を学習する以前のアプローチでは、ベクトルを多次元スカラー場として扱い、従来のスカラー値アーキテクチャを用いてチャネルを個別に処理し、したがってベクトル場の基本的な内在的性質を保存できなかった。
この研究の中核となる考え方は、ベクトル値の特徴データを空間的に伝播させる訓練可能なベクトル熱拡散モジュールの導入である。
我々の構造は入力の剛性運動、等尺変形、局所接地基底の選択に不変であり、表面の離散化に頑健である。
トライアングルメッシュ上でベクトル熱ネットワークを評価し,その不変性を実証的に検証した。
また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。
Vector fields are widely used to represent and model flows for many science and engineering applications. This paper introduces a novel neural network architecture for learning tangent vector fields that are intrinsically defined on manifold surfaces embedded in 3D. Previous approaches to learning vector fields on surfaces treat vectors as multi-dimensional scalar fields, using traditional scalar-valued architectures to process channels individually, thus fail to preserve fundamental intrinsic properties of the vector field. The core idea of this work is to introduce a trainable vector heat diffusion module to spatially propagate vector-valued feature data across the surface, which we incorporate into our proposed architecture that consists of vector-valued neurons. Our architecture is invariant to rigid motion of the input, isometric deformation, and choice of local tangent bases, and is robust to discretizations of the surface. We evaluate our Vector Heat Network on triangle meshes, and empirically validate its invariant properties. We also demonstrate the effectiveness of our method on the useful industrial application of quadrilateral mesh generation. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 中性原子の基底状態多様体における励起のキラル運動のシミュレーション
Simulation of chiral motion of excitation within the ground-state manifolds of neutral atoms ( http://arxiv.org/abs/2406.11291v2 ) ライセンス: Link先を確認 | Hao-Yuan Tang, Xiao-Xuan Li, Jia-Bin You, Xiao-Qiang Shao, | (参考訳) 中性原子中のレーザー誘起ゲージ場は磁場の効果を模倣する手段となり、研究者は実際の磁場下で観測された凝縮物質系に類似した挙動を探索するプラットフォームを提供する。
本稿では、中性原子基底状態多様体内の原子励起におけるキラル運動を生成する方法を提案する。
これは、グラウンド・ライドベルク遷移に結合した多色駆動場と、非伝統的なライドベルクポンプを用いることによって達成される。
このスキームは、異なる外部レーザー磁場間の相対位相を設定することにより、有効磁束の任意の調整の利点を提供する。
さらに、原子基底状態間の効果的な相互作用強度を10kHzで維持することができ、フロケ変調を利用した以前のアプローチの能力を超えることができる。
特に,提案手法はヘキサゴナル中性原子格子を実装するために容易に拡張することができ,Haldaneモデルを実現するための基本単位として機能する。
Laser-induced gauge fields in neutral atoms serve as a means of mimicking the effects of a magnetic field, providing researchers with a platform to explore behaviors analogous to those observed in condensed matter systems under real magnetic fields. Here, we propose a method to generate chiral motion in atomic excitations within the neutral atomic ground-state manifolds. This is achieved through the application of polychromatic driving fields coupled to the ground-Rydberg transition, along with unconventional Rydberg pumping. The scheme offers the advantage of arbitrary adjustment of the effective magnetic flux by setting the relative phases between different external laser fields. Additionally, the effective interaction strength between the atomic ground states can be maintained at 10 kHz, surpassing the capabilities of the previous approach utilizing Floquet modulation. Notably, the proposed method can be readily extended to implement a hexagonal neutral atom lattice, serving as the fundamental unit in realizing the Haldane model. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# AIシステムのためのID
IDs for AI Systems ( http://arxiv.org/abs/2406.12137v2 ) ライセンス: Link先を確認 | Alan Chan, Noam Kolt, Peter Wills, Usman Anwar, Christian Schroeder de Witt, Nitarshan Rajkumar, Lewis Hammond, David Krueger, Lennart Heim, Markus Anderljung, | (参考訳) AIシステムはますます普及しているが、それらをどう扱うかを決めるのに必要な情報は存在せず、アクセスもできない。
ユーザーは、システムが特定の安全認証を持っているかどうかを検証できないかもしれない。
調査官は、システムがいつインシデントを発生させるか、誰が調査すべきかを知らないかもしれない。
誰が接触して機能不全のシステムをシャットダウンするかは、はっきりしないかもしれない。
多くのドメインにわたって、IDは、特定のエンティティ(例えばボーイング747)を特定し、同じクラスの他のエンティティ(例えばボーイング747)に関する情報を提供することによって、類似した問題に対処する。
我々は,AIシステムのインスタンス(例えば,Claude3との特定のチャットセッション)にIDが登録され,関連する情報が,そのシステムと対話しようとする関係者にアクセス可能なフレームワークを提案する。
AIシステムのIDを特徴付け、IDが有用である具体的な例を提供し、主要なアクターからのIDに対する大きな需要がある可能性を主張し、アクターがIDの採用を動機付ける方法を分析し、AIシステムのデプロイのためのフレームワークの実装の可能性を探り、制限とリスクを強調します。
IDは、金融取引や実際の人間との接触など、AIシステムが世界に大きな影響を与える可能性のある設定で最も保証されているように思われる。
さらなる研究により、IDはAIシステムが社会に浸透する世界を管理するのに役立つかもしれない。
AI systems are increasingly pervasive, yet information needed to decide whether and how to engage with them may not exist or be accessible. A user may not be able to verify whether a system has certain safety certifications. An investigator may not know whom to investigate when a system causes an incident. It may not be clear whom to contact to shut down a malfunctioning system. Across a number of domains, IDs address analogous problems by identifying particular entities (e.g., a particular Boeing 747) and providing information about other entities of the same class (e.g., some or all Boeing 747s). We propose a framework in which IDs are ascribed to instances of AI systems (e.g., a particular chat session with Claude 3), and associated information is accessible to parties seeking to interact with that system. We characterize IDs for AI systems, provide concrete examples where IDs could be useful, argue that there could be significant demand for IDs from key actors, analyze how those actors could incentivize ID adoption, explore a potential implementation of our framework for deployers of AI systems, and highlight limitations and risks. IDs seem most warranted in settings where AI systems could have a large impact upon the world, such as in making financial transactions or contacting real humans. With further study, IDs could help to manage a world where AI systems pervade society. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# AgentDojo: LLMエージェントに対する攻撃と防御を評価する動的環境
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents ( http://arxiv.org/abs/2406.13352v2 ) ライセンス: Link先を確認 | Edoardo Debenedetti, Jie Zhang, Mislav Balunović, Luca Beurer-Kellner, Marc Fischer, Florian Tramèr, | (参考訳) AIエージェントは、テキストベースの推論と外部ツールコールを組み合わせることで、複雑なタスクを解決することを目指している。
残念ながら、AIエージェントは、外部ツールによって返されるデータがエージェントをハイジャックして悪意のあるタスクを実行するようなインジェクション攻撃に対して脆弱である。
AIエージェントの敵対的堅牢性を測定するために,信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
攻撃と防御の進化的な性質を捉えるため、AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための拡張可能な環境である。
環境には、97の現実的なタスク(Eメールクライアントの管理、eバンキングウェブサイトのナビゲート、旅行予約など)、629のセキュリティテストケース、各種の攻撃・防衛パラダイムが組み込まれています。
最先端のLLMは多くのタスク(攻撃がない場合でも)で失敗し、既存のプロンプトインジェクション攻撃はセキュリティ特性を損なうが、すべてではない。
AgentDojoは、一般的なタスクを信頼性と堅牢な方法で解決するAIエージェントのための新しい設計原則の研究を促進することができることを期待しています。
AgentDojoのコードはhttps://github.com/ethz-spylab/agentdojo.comで公開しています。
AI agents aim to solve complex tasks by combining text-based reasoning with external tool calls. Unfortunately, AI agents are vulnerable to prompt injection attacks where data returned by external tools hijacks the agent to execute malicious tasks. To measure the adversarial robustness of AI agents, we introduce AgentDojo, an evaluation framework for agents that execute tools over untrusted data. To capture the evolving nature of attacks and defenses, AgentDojo is not a static test suite, but rather an extensible environment for designing and evaluating new agent tasks, defenses, and adaptive attacks. We populate the environment with 97 realistic tasks (e.g., managing an email client, navigating an e-banking website, or making travel bookings), 629 security test cases, and various attack and defense paradigms from the literature. We find that AgentDojo poses a challenge for both attacks and defenses: state-of-the-art LLMs fail at many tasks (even in the absence of attacks), and existing prompt injection attacks break some security properties but not all. We hope that AgentDojo can foster research on new design principles for AI agents that solve common tasks in a reliable and robust manner. We release the code for AgentDojo at https://github.com/ethz-spylab/agentdojo. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# MVSBoost: 効率的なポイントクラウドベースの3D再構成
MVSBoost: An Efficient Point Cloud-based 3D Reconstruction ( http://arxiv.org/abs/2406.13515v2 ) ライセンス: Link先を確認 | Umair Haroon, Ahmad AlMughrabi, Ricardo Marques, Petia Radeva, | (参考訳) 拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。
従来のMulti-View Stereo(MVS)システムはこれらのアプリケーションでは基本的だが、暗黙の3次元シーンモデリングでニューラルな暗黙の場を使用することで、複雑なトポロジや連続した表面を扱う新たな可能性が導入されている。
しかし、ニューラルな暗黙のフィールドは、しばしば計算の非効率さ、過度な適合、データ品質への強い依存に悩まされ、その実用性は制限される。
本稿では、マルチビュー360度画像と、Structure from Motion (SfM)によるロバストカメラポーズ推定と、点雲の密度化、メッシュ再構成、テクスチャ化のための高度な画像処理を統合したMVSフレームワークを提案する。
提案手法は従来の MVS 手法を大幅に改善し,リアルタイム合成360 データセット上での Chamfer 距離測定を用いて,精度と精度が向上した。
開発したMVS技術は、3次元再構成の細部と明度を高め、複雑なシーン再構成において優れた計算効率とロバスト性を示し、オクルージョンと様々な視点を効果的に扱う。
これらの改善は、MVSフレームワークが、特にリアルタイム処理とスケーラビリティを必要とするシナリオにおいて、現在の最先端のニューラル暗黙のフィールドメソッドと競合し、さらに超える可能性があることを示唆している。
Efficient and accurate 3D reconstruction is crucial for various applications, including augmented and virtual reality, medical imaging, and cinematic special effects. While traditional Multi-View Stereo (MVS) systems have been fundamental in these applications, using neural implicit fields in implicit 3D scene modeling has introduced new possibilities for handling complex topologies and continuous surfaces. However, neural implicit fields often suffer from computational inefficiencies, overfitting, and heavy reliance on data quality, limiting their practical use. This paper presents an enhanced MVS framework that integrates multi-view 360-degree imagery with robust camera pose estimation via Structure from Motion (SfM) and advanced image processing for point cloud densification, mesh reconstruction, and texturing. Our approach significantly improves upon traditional MVS methods, offering superior accuracy and precision as validated using Chamfer distance metrics on the Realistic Synthetic 360 dataset. The developed MVS technique enhances the detail and clarity of 3D reconstructions and demonstrates superior computational efficiency and robustness in complex scene reconstruction, effectively handling occlusions and varying viewpoints. These improvements suggest that our MVS framework can compete with and potentially exceed current state-of-the-art neural implicit field methods, especially in scenarios requiring real-time processing and scalability. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 一様ランダムウォークにおける点予測のための動きの融合とナイーブ予測
Fusion of Movement and Naive Predictions for Point Forecasting in Univariate Random Walks ( http://arxiv.org/abs/2406.14469v3 ) ライセンス: Link先を確認 | Cheng Zhang, | (参考訳) 単変量ランダムウォークにおける点予測の従来の方法は、データの予測不能のため、単純なベンチマークを超えないことが多い。
本研究では,単変量無作為歩行における1段階の正確な予測を行うために,動作予測(バイナリ分類)とナイーブ予測を融合する新しい予測手法を提案する。
この手法の有効性は理論解析、シミュレーション、実世界のデータ実験を通じて実証される。
S&P500指数やBitcoin価格の予測において、ARIMA、線形回帰、MLP、LSTMネットワークなどのベースラインモデルよりも優れている。
この方法は、正確な点予測が困難な場合に特に有利であるが、正確な運動予測が達成可能であり、ランダムウォークコンテキストにおける点予測に移動予測を変換する。
Traditional methods for point forecasting in univariate random walks often fail to surpass naive benchmarks due to data unpredictability. This study introduces a novel forecasting method that fuses movement prediction (binary classification) with naive forecasts for accurate one-step-ahead point forecasting in univariate random walks. The method's efficacy is demonstrated through theoretical analysis, simulations, and real-world data experiments. It reliably outperforms naive forecasts with moderate movement prediction accuracies, such as 0.55, and is superior to baseline models such as the ARIMA, linear regression, MLP, and LSTM networks in forecasting the S&P 500 index and Bitcoin prices. This method is particularly advantageous when accurate point predictions are challenging but accurate movement predictions are attainable, translating movement predictions into point forecasts in random walk contexts. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# 大規模視覚言語モデルにおける関係幻覚の評価と解析
Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2406.16449v4 ) ライセンス: Link先を確認 | Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。
これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。
しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。
本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。
さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。
また、文脈情報に基づく空間関係の推論にも苦労している。
The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information. | 翻訳日:2024-07-19 20:22:33 公開日:2024-07-18 |
# No more Sliding-Windows: 学習なしのランダム畳み込みに基づく動的関数接続性
No More Sliding-Windows: Dynamic Functional Connectivity Based On Random Convolutions Without Learning ( http://arxiv.org/abs/2406.16619v2 ) ライセンス: Link先を確認 | Yongjie Duan, Zhiying Long, | (参考訳) 静的機能接続と比較して、動的機能接続はより詳細な時間情報を提供する。
従来のスライディングウインドウは、時系列全体にわたって移動時間ウインドウを適用して機能的接続行列を構築し、脳領域間の相関を計算する。
しかし,特徴抽出の手法として,ウィンドウ長に対する特徴次元の依存性や,ウィンドウ内の他の時間点からの情報を欠いた特徴の生成など,大きな制約が生じる。
本稿では,ランダムに生成された多次元畳み込みカーネルを用いた動的機能接続(DFC)の計算手法であるRandConを提案する。
本手法は,BOLD信号上で直接畳み込み操作を行う。
スライドウインドウ法と比較して、RandConは、特に時間的精度と耐雑音性の観点から、シミュレーションデータの性能が顕著に向上したことを示す。
実データから、この手法は、短時間のウィンドウ内で安定性を維持し、男女差をよりよく識別することを示す。
さらに,スライディングウインドウ法とその変種を具体例とする,より包括的な理論的枠組みである多次元畳み込み法を提案する。
提案手法は単純かつ効率的であり, 動的機能接続研究の範囲を大きく広げ, 理論的, 実用的可能性を提供する。
Compared to static functional connectivity, dynamic functional connectivity provides more detailed temporal information. The traditional sliding window method constructs functional connectivity matrices by applying a moving time window across the entire time series to calculate correlations between brain regions. However, as a method of feature extraction, it exhibits significant limitations, such as the dependency of feature dimensions on the window length and the generation of features lacking information from other time points within the window. This paper presents RandCon, a novel method for calculating dynamic functional connectivity (DFC), which employs randomly generated multi-dimensional convolution kernels. This method performs convolution operations directly on the BOLD signal without the need for learning, extracting functional connectivity features. Compared to the sliding window method, RandCon shows notable improvements in performance on simulated data, particularly in terms of temporal accuracy and noise resistance. Results from real data indicate that this method maintains stability within short time windows and better identifies gender differences. Furthermore, we propose a more comprehensive theoretical framework, the multi-dimensional convolution method, where the sliding window method and its variants are specific cases of this method. The proposed method is straightforward and efficient, significantly broadening the scope of dynamic functional connectivity research and offering substantial theoretical and practical potential. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# LLMが必要とするものを理解する: 再検索型生成のための二元選好アライメント
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.18676v2 ) ライセンス: Link先を確認 | Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen, | (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)の幻覚問題を緩和する効果を実証している。
しかし,レトリバーと多様なLLMの知識嗜好を整合させることの難しさは,信頼性の高いRAGシステムを開発する上で必然的な課題となる。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
具体的には、まず、嗜好知識構築のピップラインを導入し、嗜好データの不足を軽減するために、5つの新しいクエリ拡張戦略を取り入れる。
嗜好データに基づいて、DPA-RAGは、外部と内部の両方の嗜好アライメントを達成する。
1) ペアワイド,ポイントワイド,コントラスト優先アライメント能力とリランカを併用し,RAG成分間の外部優先アライメントを実現する。
2)バニラ・スーパーバイザード・ファインチューニング(SFT)の前に事前整列ステージを導入し,LLMの内部アライメントを達成することにより,LLMが推論の好みに沿った知識を暗黙的に取得することを可能にする。
4つの知識集約型QAデータセットに対する実験結果から、DPA-RAGはすべてのベースラインを上回り、ブラックボックスとオープンソースLLMリーダの両方をシームレスに統合することを示した。
さらに質的な分析と議論は、信頼性の高いRAGシステムを実現するための実証的なガイダンスを提供する。
私たちのコードはhttps://github.com/dongguanting/DPA-RAG.comで公開されています。
Retrieval-augmented generation (RAG) has demonstrated effectiveness in mitigating the hallucination problem of large language models (LLMs). However, the difficulty of aligning the retriever with the diverse LLMs' knowledge preferences inevitably poses an inevitable challenge in developing a reliable RAG system. To address this issue, we propose DPA-RAG, a universal framework designed to align diverse knowledge preferences within RAG systems. Specifically, we initially introduce a preference knowledge construction pipline and incorporate five novel query augmentation strategies to alleviate preference data scarcity. Based on preference data, DPA-RAG accomplishes both external and internal preference alignment: 1) It jointly integrate pair-wise, point-wise, and contrastive preference alignment abilities into the reranker, achieving external preference alignment among RAG components. 2) It further introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT), enabling LLMs to implicitly capture knowledge aligned with their reasoning preferences, achieving LLMs' internal alignment. Experimental results across four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all baselines and seamlessly integrates both black-box and open-sourced LLM readers. Further qualitative analysis and discussions also provide empirical guidance for achieving reliable RAG systems. Our code is publicly available at https://github.com/dongguanting/DPA-RAG. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# AnyControl: テキストから画像生成へのVersatileコントロールによるアートワークの作成
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation ( http://arxiv.org/abs/2406.18958v3 ) ライセンス: Link先を確認 | Yanan Sun, Yanchen Liu, Yinhao Tang, Wenjie Pei, Kai Chen, | (参考訳) テキスト・ツー・イメージ(T2I)生成の分野は近年,拡散モデルの発展によって大きく進歩している。
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
この課題は、深度マップやエッジマップなどの追加のユーザ供給空間条件を、余分なエンコーディングを通じて事前訓練されたT2Iモデルに組み込むことによって、かなり研究されている。
しかし、マルチコントロール画像合成は依然としていくつかの課題に直面している。
特に、現在のアプローチは、多様な入力制御信号の自由結合を扱い、複数の空間的条件の間の複雑な関係を見落とし、提供されたテキストプロンプトで意味的アライメントを維持するのに失敗する。
これは、最適以下のユーザー体験につながる可能性がある。
これらの課題に対処するために,多様な制御信号の任意の組み合わせをサポートするマルチコントロール画像合成フレームワークであるAnyControlを提案する。
AnyControlは、生成プロセスを導くために、統一されたマルチモーダル埋め込みを抽出する、新しいマルチコントロルエンコーダを開発する。
このアプローチは、ユーザ入力の全体的理解を可能にし、広範囲な量的および定性的な評価によって示されるように、多元的制御信号の下で高品質で忠実な結果を生成する。
プロジェクトのページはhttps://any-control.github.io.comで公開されている。
The field of text-to-image (T2I) generation has made significant progress in recent years, largely driven by advancements in diffusion models. Linguistic control enables effective content creation, but struggles with fine-grained control over image generation. This challenge has been explored, to a great extent, by incorporating additional user-supplied spatial conditions, such as depth maps and edge maps, into pre-trained T2I models through extra encoding. However, multi-control image synthesis still faces several challenges. Specifically, current approaches are limited in handling free combinations of diverse input control signals, overlook the complex relationships among multiple spatial conditions, and often fail to maintain semantic alignment with provided textual prompts. This can lead to suboptimal user experiences. To address these challenges, we propose AnyControl, a multi-control image synthesis framework that supports arbitrary combinations of diverse control signals. AnyControl develops a novel Multi-Control Encoder that extracts a unified multi-modal embedding to guide the generation process. This approach enables a holistic understanding of user inputs, and produces high-quality, faithful results under versatile control signals, as demonstrated by extensive quantitative and qualitative evaluations. Our project page is available in https://any-control.github.io. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# マルチスケールスコアマッチング解析による異常の局所化
Localizing Anomalies via Multiscale Score Matching Analysis ( http://arxiv.org/abs/2407.00148v2 ) ライセンス: Link先を確認 | Ahsan Mahmood, Junier Oliva, Martin Styner, | (参考訳) 医療画像における異常検出と局所化は、医療において重要な課題である。
本稿では,容積脳MRIにおける異常局所化のための新しい教師なし手法であるSpatial-MSMA(Multiscale Score Matching Analysis)を紹介する。
提案手法は,MSMAフレームワーク上に構築され,異常検出能力を高めるために,空間情報と条件付き確率が組み込まれている。
パッチ位置とグローバルな画像特徴を条件としたフレキシブルな正規化フローモデルを用いて、パッチワイドな異常スコアを推定する。
この方法は、通常発達している子供の1,650T1およびT2強調脳MRIのデータセットで評価され、テストセットにシミュレートされた病変が加えられた。
空間MSMAは、病変検出やセグメンテーションタスクにおいて、再構成ベース、生成ベース、解釈ベースアプローチなど、既存の手法を著しく上回っている。
我々のモデルは、距離ベースメトリクス(99th percentile Hausdorff Distance: 7.05 \pm 0.61$, Mean Surface Distance: $2.10 \pm 0.43$)とコンポーネントワイドメトリクス(True Positive Rate: $0.83 \pm 0.01$, Positive Predictive Value: $0.96 \pm 0.01$)の両方で優れたパフォーマンスを達成する。
これらの結果から, 画像診断における空間MSMAの有用性と, 臨床現場での診断・治療計画の改善が示唆された。
私たちのコードは~\url{https://github.com/ahsanMah/sade/}で利用可能です。
Anomaly detection and localization in medical imaging remain critical challenges in healthcare. This paper introduces Spatial-MSMA (Multiscale Score Matching Analysis), a novel unsupervised method for anomaly localization in volumetric brain MRIs. Building upon the MSMA framework, our approach incorporates spatial information and conditional likelihoods to enhance anomaly detection capabilities. We employ a flexible normalizing flow model conditioned on patch positions and global image features to estimate patch-wise anomaly scores. The method is evaluated on a dataset of 1,650 T1- and T2-weighted brain MRIs from typically developing children, with simulated lesions added to the test set. Spatial-MSMA significantly outperforms existing methods, including reconstruction-based, generative-based, and interpretation-based approaches, in lesion detection and segmentation tasks. Our model achieves superior performance in both distance-based metrics (99th percentile Hausdorff Distance: $7.05 \pm 0.61$, Mean Surface Distance: $2.10 \pm 0.43$) and component-wise metrics (True Positive Rate: $0.83 \pm 0.01$, Positive Predictive Value: $0.96 \pm 0.01$). These results demonstrate Spatial-MSMA's potential for accurate and interpretable anomaly localization in medical imaging, with implications for improved diagnosis and treatment planning in clinical settings. Our code is available at~\url{https://github.com/ahsanMah/sade/}. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# 大規模言語モデルによる知識表現学習の強化に関する調査
Large Language Model Enhanced Knowledge Representation Learning: A Survey ( http://arxiv.org/abs/2407.00936v2 ) ライセンス: Link先を確認 | Xin Wang, Zirui Chen, Haofen Wang, Leong Hou U, Zhao Li, Wenbin Guo, | (参考訳) LLM(Large Language Models)と知識表現学習(KRL)の統合は、人工知能(AI)分野における重要な進歩を意味し、構造情報とテキスト情報の両方を捕捉し活用する能力を高める。
LLMによるKRLの強化に関する研究が増えているにもかかわらず、これらの強化されたモデルのプロセスを分析する徹底的な調査は、顕著に欠落している。
3つの異なるトランスフォーマーアーキテクチャに基づいてこれらのモデルを分類し、様々なKRL下流タスクからの実験データを解析し、それぞれのアプローチの長所と短所を評価することで、この問題に対処する。
最後に、この未発見領域における将来的な研究の方向性を特定し、探求する。
The integration of Large Language Models (LLM) with Knowledge Representation Learning (KRL) signifies a significant advancement in the field of artificial intelligence (AI), enhancing the ability to capture and utilize both structure and textual information. Despite the increasing research on enhancing KRL with LLMs, a thorough survey that analyse processes of these enhanced models is conspicuously absent. Our survey addresses this by categorizing these models based on three distinct Transformer architectures, and by analyzing experimental data from various KRL downstream tasks to evaluate the strengths and weaknesses of each approach. Finally, we identify and explore potential future research directions in this emerging yet underexplored domain. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# 自由二項決定図による量子状態生成
Quantum State Preparation via Free Binary Decision Diagram ( http://arxiv.org/abs/2407.01671v2 ) ライセンス: Link先を確認 | Yu Tanaka, Hayata Yamasaki, Mio Murao, | (参考訳) 量子状態準備(QSP)は、量子状態の古典的な記述のための量子状態を作成するための量子計算の基本的なタスクである。
古典的な$n$-qubit量子状態の記述は、一般に$\exp(O(n))$パラメータを持つが、これは本質的には最悪の場合を扱うのに非効率である。
ここでは、量子状態の古典的な記述が重み付きエッジを持つFBDDによって与えられるとき、QSPのための量子アルゴリズムを構築し、この設定におけるQSPの空間と時間的複雑さを分析する。
N=O(\mathrm{poly}(n))$ノードを$\mathrm{exp}(O(n))$ではなく、$N=O(\mathrm{poly}(n))$ノードで重み付けされたFBDDで表現できる$n$-qubit状態の非自明な例を提供する。
重み付きFBDDで表される任意の量子状態が$N$量子ビットを用いて$O(N)$サイズの量子回路で作成できることを示し、他のBDDベースのQSPと比較してQSPに必要な回路サイズを指数関数的に改善する。
また、$n=O(n^2)$ノードと$O(n^2)$アシラリーキュービットを持つ重み付きFBDDで表現できる$n$-qubit状態の別の例も提示するが、振幅増幅に基づいてQSPで効率的に生成することはできない。
これらの結果は、効率的なQSPの可能性を広げるためのツールとしてFBDDを使うためのテクニックを提供する。
Quantum state preparation (QSP) is a fundamental task in quantum computation to prepare a quantum state for a given classical description of the quantum state. The classical description of an $n$-qubit quantum state may have $\exp(O(n))$ parameters in general, which are inherently inefficient to deal with in the worst case; however, in many practical cases, we may be able to employ suitable data structures to represent such large-scale data in a compressed way, e.g., by using a free binary decision diagram (FBDD), a rooted directed acyclic graph with two terminal nodes to concisely represent a Boolean function. We here construct a quantum algorithm for QSP when the classical description of a quantum state is given by an FBDD with weighted edges, and analyze the space, and time complexity of QSP in this setting. We provide a nontrivial example of an $n$-qubit state that can be represented by a weighted FBDD with $N=O(\mathrm{poly}(n))$ nodes rather than $\mathrm{exp}(O(n))$. We show that any quantum state represented by the weighted FBDD with $N$ nodes can be prepared by an $O(N)$-sized quantum circuit using $N$ ancillary qubits, exponentially improving the required circuit size for QSP compared to other BDD-based QSPs. We also provide another example of an $n$-qubit state that can be represented by a weighted FBDD with $N=O(n^2)$ nodes, and $O(n^2)$ ancillary qubits, but cannot be prepared efficiently by a QSP based on the amplitude amplification. These results provide techniques to employ FBDDs as a tool for broadening the possibility of efficient QSP. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# 直接選好アライメントによる量子化大言語モデルの会話能力の向上
Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment ( http://arxiv.org/abs/2407.03051v2 ) ライセンス: Link先を確認 | Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang, Jungwook Choi, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、文脈のニュアンスを把握し、関連する文を生成できる会話型チャットボットへの変換を促進し、人間のフィードバックからの指導チューニングや強化学習(RLHF)といった高度な技術を通じて、人間の価値を忠実に反映している。
しかし、後学習量子化(PTQ)のような技術によって達成されるLLMに必要な計算効率は、チャットボットのパフォーマンスを損なうトークンフリッピングのような課題を提示している。
そこで本研究では,量子化されたLLMをその完全精度に整合させ,会話能力の向上を図るための,新しい選好アライメント手法であるQDPOを提案する。
各種言語における2つの命令調整 LLM を評価したところ、QDPO は既存のPTQ や知識蒸留細調整技術と比較して、会話能力の向上に優れた性能を示し、効率的で効果的な会話型 LLM の開発において大きな一歩を踏み出した。
The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human values through advanced techniques such as instruction tuning and reinforcement learning from human feedback (RLHF). However, the computational efficiency required for LLMs, achieved through techniques like post-training quantization (PTQ), presents challenges such as token-flipping that can impair chatbot performance. In response, we propose a novel preference alignment approach, quantization-aware direct preference optimization (QDPO), that aligns quantized LLMs with their full-precision counterparts, improving conversational abilities. Evaluated on two instruction-tuned LLMs in various languages, QDPO demonstrated superior performance in improving conversational abilities compared to established PTQ and knowledge-distillation fine-tuning techniques, marking a significant step forward in the development of efficient and effective conversational LLMs. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# 適応的知識マッチングに基づく個人化フェデレーションドメインインクリメンタルラーニング
Personalized Federated Domain-Incremental Learning based on Adaptive Knowledge Matching ( http://arxiv.org/abs/2407.05005v2 ) ライセンス: Link先を確認 | Yichen Li, Wenchao Xu, Haozhao Wang, Ruixuan Li, Yining Qi, Jingcai Guo, | (参考訳) 本稿では,FDIL(Federated Domain-Incremental Learning)に焦点を当て,各クライアントが相互にドメインがシフトする段階的なタスクを学習し続けている。
適応型知識マッチングに基づくパーソナライズFDIL手法 (pFedDIL) を提案する。
より具体的には、新しいタスクが到着すると、各クライアントはまず、そのローカルなタスクと前のタスクとの相関を計算する。
次に、クライアントは、新しい初期モデルまたは類似した知識を持つ前のモデルを採用して、新しいタスクをトレーニングし、これらの相関に基づいて、以前のタスクから知識を同時に移行することができる。
さらに,新たなタスクとクライアント毎のタスク間の相関関係を識別するために,各対象分類モデルに補助分類器を別々に使用し,対象分類モデルと補助分類器との間の部分的パラメータの共有を提案し,モデルパラメータを凝縮させる。
pFedDILは各タスクの平均精度を最大14.35倍に向上することを示した。
This paper focuses on Federated Domain-Incremental Learning (FDIL) where each client continues to learn incremental tasks where their domain shifts from each other. We propose a novel adaptive knowledge matching-based personalized FDIL approach (pFedDIL) which allows each client to alternatively utilize appropriate incremental task learning strategy on the correlation with the knowledge from previous tasks. More specifically, when a new task arrives, each client first calculates its local correlations with previous tasks. Then, the client can choose to adopt a new initial model or a previous model with similar knowledge to train the new task and simultaneously migrate knowledge from previous tasks based on these correlations. Furthermore, to identify the correlations between the new task and previous tasks for each client, we separately employ an auxiliary classifier to each target classification model and propose sharing partial parameters between the target classification model and the auxiliary classifier to condense model parameters. We conduct extensive experiments on several datasets of which results demonstrate that pFedDIL outperforms state-of-the-art methods by up to 14.35\% in terms of average accuracy of all tasks. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# einselection (複数形 einselections)
Decoherence without einselection ( http://arxiv.org/abs/2407.05074v3 ) ライセンス: Link先を確認 | Xiao Zhang, | (参考訳) 量子測定におけるデコヒーレンス(decoherence)は、一般に、環境によって引き起こされるスーパーセレクション(einselection)として知られる、システムの固有状態間のコヒーレンスを破壊する環境との相互作用として説明される。
本研究は, 装置の非平衡力学を無視して, 電子選択とそれに伴う分散が実際に人工物であることを実証する。
我々は、量子重力代数の最近の発展に触発された確率行列積分(SMI)と呼ばれる、演算子ドレッシングの新しい定式化を提案する。
このアプローチは自然にPW(Page-Wootters)式から生じ、相互作用する非平衡過程としてデコヒーレンスを記述する。
これはヒルベルト空間の減少と、ボルンの法則と同様に本質的な非単位過程の出現につながる。
これらの結果は、固有選択とポインタ基底の仮定に頼らずに達成される。
Decoherence in a quantum measurement is typically explained as an interaction with the environment that destroys coherence between the system's eigenstates, a phenomenon known as environment-induced superselection (einselection). In this work, we demonstrate that einselection and the associated envariance are actually artifacts resulting from neglecting the non-equilibrium dynamics of the apparatus. We propose a new formalism of operator dressing, which we call the stochastic matrix integral (SMI), inspired by recent developments in quantum gravity algebras. This approach naturally arises from a modified Page-Wootters (PW) formula and describes decoherence as an interacting non-equilibrium process. It leads to the reduction of the Hilbert space and the emergence of an intrinsic non-unitary process as well as Born's rule. These outcomes are achieved without relying on the assumptions of einselection and pointer basis. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# ランダムスイッチによるグラフアテンション
Graph Attention with Random Rewiring ( http://arxiv.org/abs/2407.05649v2 ) ライセンス: Link先を確認 | Tongzhou Liao, Barnabás Póczos, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化深層学習の基盤となっている。
現代のGNNの主なパラダイムは、メッセージパッシング、グラフリワイア、グラフトランスフォーマーである。
本稿では,これら3つのパラダイムの利点を組み合わせた新しいGNNアーキテクチャであるGRASS(Graph-Rewiring Attention with Stochastic Structures)を紹介する。
GRASSは、ランダムな正規グラフを重畳して入力グラフをリワイヤし、入力グラフの構造的特徴を保持しながら、長距離情報伝播を強化する。
また、グラフ構造化データに適したユニークな付加的なアテンション機構を採用し、計算効率を保ちながらグラフ帰納バイアスを提供する。
実験により、GRASSは複数のベンチマークデータセット上で最先端のパフォーマンスを達成し、実用性を確認した。
Graph Neural Networks (GNNs) have become fundamental in graph-structured deep learning. Key paradigms of modern GNNs include message passing, graph rewiring, and Graph Transformers. This paper introduces Graph-Rewiring Attention with Stochastic Structures (GRASS), a novel GNN architecture that combines the advantages of these three paradigms. GRASS rewires the input graph by superimposing a random regular graph, enhancing long-range information propagation while preserving structural features of the input graph. It also employs a unique additive attention mechanism tailored for graph-structured data, providing a graph inductive bias while remaining computationally efficient. Our empirical evaluations demonstrate that GRASS achieves state-of-the-art performance on multiple benchmark datasets, confirming its practical efficacy. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# BEVWorld: 統一型BEVラテントスペースによる自律走行のためのマルチモーダル世界モデル
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space ( http://arxiv.org/abs/2407.05679v2 ) ライセンス: Link先を確認 | Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang, | (参考訳) 世界モデルは、将来のシナリオを予測する能力のために、自動運転に注目が集まっている。
本稿では,BEVWorldを提案する。BEVWorldは環境モデリングのための,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View (BEV)潜在空間にトークン化する手法である。
世界モデルは、マルチモーダル・トークンーザと潜在型BEVシーケンス拡散モデルという2つの部分から構成される。
マルチモーダル・トークンライザは、まずマルチモーダル情報を符号化し、デコーダは、遅延したBEVトークンをLiDARに再構成し、自ら監督された方法でレイキャストレンダリングにより画像観察することができる。
次に、潜在BEVシーケンス拡散モデルにより、与えられたアクショントークンを条件として将来のシナリオを予測する。
実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
コードはhttps://github.com/zympsyche/BevWorld.comで入手できる。
World models are receiving increasing attention in autonomous driving for their ability to predict potential future scenarios. In this paper, we present BEVWorld, a novel approach that tokenizes multimodal sensor inputs into a unified and compact Bird's Eye View (BEV) latent space for environment modeling. The world model consists of two parts: the multi-modal tokenizer and the latent BEV sequence diffusion model. The multi-modal tokenizer first encodes multi-modality information and the decoder is able to reconstruct the latent BEV tokens into LiDAR and image observations by ray-casting rendering in a self-supervised manner. Then the latent BEV sequence diffusion model predicts future scenarios given action tokens as conditions. Experiments demonstrate the effectiveness of BEVWorld in autonomous driving tasks, showcasing its capability in generating future scenes and benefiting downstream tasks such as perception and motion prediction. Code will be available at https://github.com/zympsyche/BevWorld. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# PAS:データ効率の良いPlug-and-Play Prompt Augmentation System
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System ( http://arxiv.org/abs/2407.06027v4 ) ライセンス: Link先を確認 | Miao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Youzhen Wu, Kun Li, Yanjun Shen, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, | (参考訳) 近年、Large Language Models(LLMs)の台頭により、プラグアンドプレイAIシステムへの需要が高まっている。
様々なAI技術の中で、プロンプトエンジニアリングは特に重要である。
しかし、学習曲線の急激さや時間投資の大幅な増加により、ユーザーはプロンプトを書くことの難しさに直面することが多く、既存の自動プロンプトエンジニアリング(APE)モデルを使用することは困難である。
この問題に対処するために, LLM ベースのプラグアンドプレイ APE システム PAS を提案する。
PASは高品質で自動生成される補完的なデータセットに基づいてトレーニングされたLLMを使用し、例外的なパフォーマンスを実現している。
総合的なベンチマークでは、PASは従来のAPEモデルと比較して、平均6.09ポイントの改善を達成している。
さらに、PASは非常に効率的で、9000のデータポイントしか持たないSoTAの性能を実現している。
さらに、PASは人的労働を必要とせずに、即時増強データを自律的に生成することができる。
この柔軟性により、既存のすべてのLLMと互換性があり、幅広いタスクに適用できる。
PASは人間の評価に優れており、ユーザのためのプラグインとしての適合性を強調している。
高い性能、効率、柔軟性の組み合わせにより、PASはプロンプトエンジニアリングの改善を通じてLCMのユーザビリティと有効性を向上する貴重なシステムとなっている。
In recent years, the rise of Large Language Models (LLMs) has spurred a growing demand for plug-and-play AI systems. Among the various AI techniques, prompt engineering stands out as particularly significant. However, users often face challenges in writing prompts due to the steep learning curve and significant time investment, and existing automatic prompt engineering (APE) models can be difficult to use. To address this issue, we propose PAS, an LLM-based plug-and-play APE system. PAS utilizes LLMs trained on high-quality, automatically generated prompt complementary datasets, resulting in exceptional performance. In comprehensive benchmarks, PAS achieves state-of-the-art (SoTA) results compared to previous APE models, with an average improvement of 6.09 points. Moreover, PAS is highly efficient, achieving SoTA performance with only 9000 data points. Additionally, PAS can autonomously generate prompt augmentation data without requiring additional human labor. Its flexibility also allows it to be compatible with all existing LLMs and applicable to a wide range of tasks. PAS excels in human evaluations, underscoring its suitability as a plug-in for users. This combination of high performance, efficiency, and flexibility makes PAS a valuable system for enhancing the usability and effectiveness of LLMs through improved prompt engineering. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# 強力で柔軟な:強化学習によるパーソナライズされたテキスト・ツー・イメージ生成
Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning ( http://arxiv.org/abs/2407.06642v2 ) ライセンス: Link先を確認 | Fanyue Wei, Wei Zeng, Zhenyang Li, Dawei Yin, Lixin Duan, Wen Li, | (参考訳) パーソナライズされたテキスト・ツー・イメージモデルにより、ユーザーはオブジェクト(参照画像のセットで指定)のさまざまなスタイルのイメージ(文で指定)を生成できる。
拡散に基づく生成モデルを用いて顕著な結果が得られたが、物体の視覚構造と詳細は拡散過程中に予期せず変化することがしばしばある。
主な理由の1つは、これらの拡散に基づくアプローチが訓練中に単純な再構成目的を採用するのが一般的であり、生成された画像と参照画像の間の適切な構造的一貫性をほとんど強制できないことである。
そこで,本稿では,画像の拡散モデルに差分,あるいは非差分といった様々な目的を組み込むことで,画像の質を向上させるための決定論的ポリシー勾配法を用いて,新たな強化学習フレームワークを設計する。
パーソナライズされたテキスト・ツー・イメージ・ジェネレーション・ベンチマーク・データセットによる実験結果から,提案手法はテキストアライメントを維持しつつ,視覚的忠実度に大きな差を伴って既存の最先端手法よりも優れていることが示された。
我々のコードは以下の通りである。
Personalized text-to-image models allow users to generate varied styles of images (specified with a sentence) for an object (specified with a set of reference images). While remarkable results have been achieved using diffusion-based generation models, the visual structure and details of the object are often unexpectedly changed during the diffusion process. One major reason is that these diffusion-based approaches typically adopt a simple reconstruction objective during training, which can hardly enforce appropriate structural consistency between the generated and the reference images. To this end, in this paper, we design a novel reinforcement learning framework by utilizing the deterministic policy gradient method for personalized text-to-image generation, with which various objectives, differential or even non-differential, can be easily incorporated to supervise the diffusion models to improve the quality of the generated images. Experimental results on personalized text-to-image generation benchmark datasets demonstrate that our proposed approach outperforms existing state-of-the-art methods by a large margin on visual fidelity while maintaining text-alignment. Our code is available at: \url{https://github.com/wfanyue/DPG-T2I-Personalization}. | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# ProtoSAM:基礎モデルによるワンショットの医用画像セグメンテーション
ProtoSAM: One-Shot Medical Image Segmentation With Foundational Models ( http://arxiv.org/abs/2407.07042v2 ) ライセンス: Link先を確認 | Lev Ayzenberg, Raja Giryes, Hayit Greenspan, | (参考訳) この研究は、ワンショットの医療画像セグメンテーションのための新しいフレームワーク、ProtoSAMを紹介した。
これは、数ショットセグメンテーションで知られているプロトタイプネットワークと、自然画像基盤モデルSAMの併用である。
提案手法は,DINOv2エンコーダを付加したALPnetのプロトタイプネットワークを用いて,初期粗いセグメンテーションマスクを生成する。
初期マスクの抽出後、ポイントやバウンディングボックスなどのプロンプトが抽出され、Segment Anything Model(SAM)に入力される。
最先端の結果は、いくつかの医療画像データセットに示され、基礎モデルの微調整を必要とせずに、単一の画像例(ワンショット)を使用して、自動セグメンテーション機能を示す。
私たちのコードは、https://github.com/levayz/ProtoSAMで利用可能です。
This work introduces a new framework, ProtoSAM, for one-shot medical image segmentation. It combines the use of prototypical networks, known for few-shot segmentation, with SAM - a natural image foundation model. The method proposed creates an initial coarse segmentation mask using the ALPnet prototypical network, augmented with a DINOv2 encoder. Following the extraction of an initial mask, prompts are extracted, such as points and bounding boxes, which are then input into the Segment Anything Model (SAM). State-of-the-art results are shown on several medical image datasets and demonstrate automated segmentation capabilities using a single image example (one shot) with no need for fine-tuning of the foundation model. Our code is available at: https://github.com/levayz/ProtoSAM | 翻訳日:2024-07-19 20:12:48 公開日:2024-07-18 |
# Explicit-NeRF-QA: Explicit NeRFモデル圧縮のための品質評価データベース
Explicit-NeRF-QA: A Quality Assessment Database for Explicit NeRF Model Compression ( http://arxiv.org/abs/2407.08165v2 ) ライセンス: Link先を確認 | Yuke Xing, Qi Yang, Kaifa Yang, Yilin Xu, Zhu Li, | (参考訳) 近年,Neural Radiance Fields (NeRF) は3Dシーンの表現と合成において大きな優位性を示している。
明示的なNeRFモデルは、より高速なレンダリング速度を持つ実用的なNeRFアプリケーションを容易にし、また巨大なストレージコストのためにNeRF圧縮に大きな注目を集める。
本稿では,NeRF圧縮研究の課題に対処するため,Explicit-NeRF-QAと呼ばれる新しいデータセットを構築した。
5つのパラメータレベルにまたがる4つの典型的なNeRFモデルをトレーニングするために、さまざまなジオメトリ、テクスチャ、材料複合体を持つ22の3Dオブジェクトを使用します。
モデル生成中にロッシー圧縮が導入され、InstantNGPのハッシュテーブルサイズやPlenoxelsのボクセルグリッド解像度などのキーパラメータの選択が中心となる。
処理されたビデオシーケンス(PVS)にNeRFサンプルをレンダリングすることにより、実験室環境における大規模な主観的実験を行い、21人の視聴者から主観的スコアを収集する。
提案したデータセットの多様性,平均世論スコア(MOS)の精度,NeRF歪みの特徴を包括的に提示し,その不均一性を確立した。
最先端の客観的メトリクスは、新しいデータセットでテストされる。
ベストパーソン相関(Best Person correlation)は、約0.85で、全参照客観的指標から収集される。
すべてのテストされたノン参照メトリクスは、0.4から0.6の相関で非常に低い結果を報告し、より堅牢なノン参照メトリクスのさらなる開発の必要性を示している。
NeRFサンプル、ソース3Dオブジェクト、NeRF生成用のマルチビューイメージ、PSV、MOSを含むデータセットは、以下の場所で公開されている。
In recent years, Neural Radiance Fields (NeRF) have demonstrated significant advantages in representing and synthesizing 3D scenes. Explicit NeRF models facilitate the practical NeRF applications with faster rendering speed, and also attract considerable attention in NeRF compression due to its huge storage cost. To address the challenge of the NeRF compression study, in this paper, we construct a new dataset, called Explicit-NeRF-QA. We use 22 3D objects with diverse geometries, textures, and material complexities to train four typical explicit NeRF models across five parameter levels. Lossy compression is introduced during the model generation, pivoting the selection of key parameters such as hash table size for InstantNGP and voxel grid resolution for Plenoxels. By rendering NeRF samples to processed video sequences (PVS), a large scale subjective experiment with lab environment is conducted to collect subjective scores from 21 viewers. The diversity of content, accuracy of mean opinion scores (MOS), and characteristics of NeRF distortion are comprehensively presented, establishing the heterogeneity of the proposed dataset. The state-of-the-art objective metrics are tested in the new dataset. Best Person correlation, which is around 0.85, is collected from the full-reference objective metric. All tested no-reference metrics report very poor results with 0.4 to 0.6 correlations, demonstrating the need for further development of more robust no-reference metrics. The dataset, including NeRF samples, source 3D objects, multiview images for NeRF generation, PVSs, MOS, is made publicly available at the following location: https://github.com/LittlericeChloe/Explicit_NeRF_QA. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-18 |
# SRPose: スパースキーポイントを用いた2視点相対ポース推定
SRPose: Two-view Relative Pose Estimation with Sparse Keypoints ( http://arxiv.org/abs/2407.08199v2 ) ライセンス: Link先を確認 | Rui Yin, Yulun Zhang, Zherong Pan, Jianjun Zhu, Cheng Wang, Biao Jia, | (参考訳) 2ビューポーズ推定は、地図のない視覚的再ローカライズとオブジェクトポーズ追跡タスクに不可欠である。
しかし、従来のマッチング手法は、時間を要する堅牢な推定器に悩まされ、ディープラーニングベースのポーズ回帰器は、カメラ間ポーズ推定にのみ対応し、画像サイズやカメラ固有の一般化性に欠ける。
本稿では,SRPoseを提案する。SRPoseは,カメラ・ツー・ワールドシナリオとオブジェクト・ツー・カメラシナリオにおける2視点相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
SRPoseはスパースキーポイント検出器、固有校正位置エンコーダ、知識誘導型アテンション層で構成されている。
固定シーンまたは移動物体の2つのRGB画像が与えられた場合、SRPoseは相対カメラまたは6Dオブジェクトのポーズ変換を推定する。
大規模な実験により、SRPoseは最先端の手法と比較して、精度と速度の面で競争力や優れた性能を達成し、両方のシナリオに一般化可能であることが示された。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
Two-view pose estimation is essential for map-free visual relocalization and object pose tracking tasks. However, traditional matching methods suffer from time-consuming robust estimators, while deep learning-based pose regressors only cater to camera-to-world pose estimation, lacking generalizability to different image sizes and camera intrinsics. In this paper, we propose SRPose, a sparse keypoint-based framework for two-view relative pose estimation in camera-to-world and object-to-camera scenarios. SRPose consists of a sparse keypoint detector, an intrinsic-calibration position encoder, and promptable prior knowledge-guided attention layers. Given two RGB images of a fixed scene or a moving object, SRPose estimates the relative camera or 6D object pose transformation. Extensive experiments demonstrate that SRPose achieves competitive or superior performance compared to state-of-the-art methods in terms of accuracy and speed, showing generalizability to both scenarios. It is robust to different image sizes and camera intrinsics, and can be deployed with low computing resources. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-18 |
# 自然言語モデリングとコーディネートシーケンス生成による熱赤外トラッキングの強化
Enhancing Thermal Infrared Tracking with Natural Language Modeling and Coordinate Sequence Generation ( http://arxiv.org/abs/2407.08265v2 ) ライセンス: Link先を確認 | Miao Yan, Ping Zhang, Haofei Zhang, Ruqian Hao, Juanxiu Liu, Xiaoyang Wang, Lin Liu, | (参考訳) 熱赤外トラッキングは、全天候イメージングの利点から、コンピュータビジョンタスクにおいて重要なトピックである。
しかし,従来の手法では手作りの特徴のみを生かし,深層学習に基づく相関フィルタリングは単純な相関操作によって制限される。
トランスフォーマーベースの手法は、テクスチャや色情報に欠けるTIRトラッキングにとって重要な時間情報や座標情報を無視する。
本稿では、これらの問題に対処するために、自然言語モデリングをTIR追跡に適用し、座標情報と時間情報の利用を向上させるNLMTrackと呼ばれる新しいモデルを提案する。
NLMTrackは、機能抽出と機能融合を統一するエンコーダを適用し、TIR追跡パイプラインを単純化する。
TIR画像の低精細化と低コントラスト化の課題に対処するため,多段階のプログレッシブ・フュージョン・モジュールを設計し,セマンティックな表現を強化し,マルチスケールな特徴を取り入れた。
一方、デコーダは、因果変換器を用いて、TIR特徴と座標系列特徴を組み合わせて、目標シーケンスステップをステップごとに生成する。
さらに,追跡精度の向上を目的とした適応的損失と,ターゲットの外観変化に対応するための簡易なテンプレート更新戦略について検討する。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
コードは \url{https://github.com/ELOESZHANG/NLMTrack} で公開されている。
Thermal infrared tracking is an essential topic in computer vision tasks because of its advantage of all-weather imaging. However, most conventional methods utilize only hand-crafted features, while deep learning-based correlation filtering methods are limited by simple correlation operations. Transformer-based methods ignore temporal and coordinate information, which is critical for TIR tracking that lacks texture and color information. In this paper, to address these issues, we apply natural language modeling to TIR tracking and propose a novel model called NLMTrack, which enhances the utilization of coordinate and temporal information. NLMTrack applies an encoder that unifies feature extraction and feature fusion, which simplifies the TIR tracking pipeline. To address the challenge of low detail and low contrast in TIR images, on the one hand, we design a multi-level progressive fusion module that enhances the semantic representation and incorporates multi-scale features. On the other hand, the decoder combines the TIR features and the coordinate sequence features using a causal transformer to generate the target sequence step by step. Moreover, we explore an adaptive loss aimed at elevating tracking accuracy and a simple template update strategy to accommodate the target's appearance variations. Experiments show that NLMTrack achieves state-of-the-art performance on multiple benchmarks. The Code is publicly available at \url{https://github.com/ELOESZHANG/NLMTrack}. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-18 |
# 深部ニューラルネットワークのグラフ展開と拡張限界
Graph Expansions of Deep Neural Networks and their Universal Scaling Limits ( http://arxiv.org/abs/2407.08459v2 ) ライセンス: Link先を確認 | Nicola Muca Cirone, Jad Hamdan, Cristopher Salvi, | (参考訳) 本稿では,乱数行列理論からの属拡大手法を用いて,ニューラルネットワークのスケーリング限界を求める統一的な手法を提案する。
このアプローチは、ODE のブッチャー級数に類似したニューラルネットワークの新たな拡張から始まり、ファ=ア・ディ・ブルーノの公式を任意の数の合成に一般化することで得られる。
この拡張において、単項写像の役割は、辺がランダム行列に対応する有向グラフによってインデックス付けされた無作為な多重線型写像によって演じられ、これは作用素グラフと呼ばれる。
この拡張は活性化関数の効果を線形化し、各項の期待値を計算するウィックの原理を直接適用することができる。
次に、対応するグラフを曲面に埋め込み、それらのオイラー特性を計算することによって、各項への主要な寄与を決定する。
さらに、解析演算とグラフィカル演算の対応性を開発することにより、ニューラルネットワークの入力出力ジャコビアンと同様のグラフ展開を求め、その無限幅限界を相対的容易性で導出する。
特に、ジャコビアンの極限特異値分布のモーメントに対する明示的な公式が見つかる。
すると、これらの結果は、モーメント仮定を満たすエントリ、複素行列、スパース行列など、より一般的な重みを持つネットワークに対して成り立つことを示す。
We present a unified approach to obtain scaling limits of neural networks using the genus expansion technique from random matrix theory. This approach begins with a novel expansion of neural networks which is reminiscent of Butcher series for ODEs, and is obtained through a generalisation of Fa\`a di Bruno's formula to an arbitrary number of compositions. In this expansion, the role of monomials is played by random multilinear maps indexed by directed graphs whose edges correspond to random matrices, which we call operator graphs. This expansion linearises the effect of the activation functions, allowing for the direct application of Wick's principle to compute the expectation of each of its terms. We then determine the leading contribution to each term by embedding the corresponding graphs onto surfaces, and computing their Euler characteristic. Furthermore, by developing a correspondence between analytic and graphical operations, we obtain similar graph expansions for the neural tangent kernel as well as the input-output Jacobian of the original neural network, and derive their infinite-width limits with relative ease. Notably, we find explicit formulae for the moments of the limiting singular value distribution of the Jacobian. We then show that all of these results hold for networks with more general weights, such as general matrices with i.i.d. entries satisfying moment assumptions, complex matrices and sparse matrices. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-18 |
# 複雑な果樹園環境における果汁の検出・計数におけるYOLOv10, YOLOv9, YOLOv8の総合的性能評価
Comprehensive Performance Evaluation of YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments ( http://arxiv.org/abs/2407.12040v2 ) ライセンス: Link先を確認 | Ranjan Sapkota, Zhichao Meng, Dawood Ahmed, Martin Churuvija, Xiaoqiang Du, Zenghong Ma, Manoj Karkee, | (参考訳) 本研究は, 商業用果樹園における果肉検出のためのYOLOv8, YOLOv9, YOLOv10オブジェクト検出アルゴリズムの全構成について, 広範囲にわたる評価を行った。
さらに,5種類のリンゴ品種(Scifresh,Scilate,Honeycrisp,Cosmic crisp,Golden delicious)において,iPhoneおよびマシンビジョンセンサーを用いて,果実のフィールド内数を測定し,検証した。
この全17の異なる構成(YOLOv8 5、YOLOv9 6、YOLOv10 6)の総合的な調査により、YOLOv9はmAP@50でYOLOv10とYOLOv8より優れており、YOLOv10xは精度とリコールでテストされた17の構成全てより優れていた。
具体的には、YOLOv9 Gelan-eは0.935の最高mAP@50を達成し、YOLOv10nの0.921とYOLOv8sの0.924を上回った。
精度の面では、YOLOv10xは0.908の最高精度を達成し、試験された他の構成(例えば YOLOv9 Gelan-c の 0.903 と YOLOv8m の 0.897 の精度)よりも優れた物体識別精度を示した。
リコールに関しては、YOLOv10sはシリーズ最高(0.872)、YOLOv9 GelanmはYOLOv9構成(0.899)、YOLOv8nはYOLOv8構成(0.883)で最高(0.883)であった。
一方、YOLOv10の3つの構成: YOLOv10b、YOLOv10l、YOLOv10xは1.5ミリ秒の処理後速度で、YOLOv9およびYOLOv8ファミリー内の他のすべての構成より優れていた。
具体的には、YOLOv9 Gelan-eは後処理速度1.9ミリ秒を記録し、YOLOv8mは2.1ミリ秒を達成した。
さらに、YOLOv8nはテストされた全ての構成の中で最も高い推論速度を示し、4.1ミリ秒の処理時間を実現し、YOLOv9 Gelan-tとYOLOv10nは、それぞれ9.3msと5.5msの比較的遅い推論速度を示した。
This study performed an extensive evaluation of the performances of all configurations of YOLOv8, YOLOv9, and YOLOv10 object detection algorithms for fruitlet (of green fruit) detection in commercial orchards. Additionally, this research performed and validated in-field counting of fruitlets using an iPhone and machine vision sensors in 5 different apple varieties (Scifresh, Scilate, Honeycrisp, Cosmic crisp & Golden delicious). This comprehensive investigation of total 17 different configurations (5 for YOLOv8, 6 for YOLOv9 and 6 for YOLOv10) revealed that YOLOv9 outperforms YOLOv10 and YOLOv8 in terms of mAP@50, while YOLOv10x outperformed all 17 configurations tested in terms of precision and recall. Specifically, YOLOv9 Gelan-e achieved the highest mAP@50 of 0.935, outperforming YOLOv10n's 0.921 and YOLOv8s's 0.924. In terms of precision, YOLOv10x achieved the highest precision of 0.908, indicating superior object identification accuracy compared to other configurations tested (e.g. YOLOv9 Gelan-c with a precision of 0.903 and YOLOv8m with 0.897. In terms of recall, YOLOv10s achieved the highest in its series (0.872), while YOLOv9 Gelan m performed the best among YOLOv9 configurations (0.899), and YOLOv8n performed the best among the YOLOv8 configurations (0.883). Meanwhile, three configurations of YOLOv10: YOLOv10b, YOLOv10l, and YOLOv10x achieved superior post-processing speeds of 1.5 milliseconds, outperforming all other configurations within the YOLOv9 and YOLOv8 families. Specifically, YOLOv9 Gelan-e recorded a post-processing speed of 1.9 milliseconds, and YOLOv8m achieved 2.1 milliseconds. Furthermore, YOLOv8n exhibited the highest inference speed among all configurations tested, achieving a processing time of 4.1 milliseconds while YOLOv9 Gelan-t and YOLOv10n also demonstrated comparatively slower inference speeds of 9.3 ms and 5.5 ms, respectively. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-18 |
# Krait:グラフプロンプトチューニングに対するバックドア攻撃
Krait: A Backdoor Attack Against Graph Prompt Tuning ( http://arxiv.org/abs/2407.13068v1 ) ライセンス: Link先を確認 | Ying Song, Rita Singh, Balaji Palanisamy, | (参考訳) グラフプロンプトチューニングは、訓練済みのモデルから様々なダウンストリームタスク、特に数ショットのコンテキストに、グラフの知識を効果的に伝達する、有望なパラダイムとして登場した。
しかし、敵が結果を操作するトリガーを挿入するバックドア攻撃に対する感受性は、重大な懸念を引き起こす。
このような脆弱性を調査するための最初の研究を行い、バックドアが良性グラフのプロンプトを偽装し、検出を回避できることを示した。
私たちは、新しいグラフプロンプトバックドアであるKraitを紹介します。
具体的には, 有毒な候補を選択するために, ラベル非一様性という, 単純で効果的なモデル認識尺度を提案する。
多様な攻撃シナリオと高度な攻撃タイプに対応するため、我々はトリガーとしてプロンプトを作成するために3つのカスタマイズ可能なトリガー生成方法を設計した。
本稿では,攻撃効率とステルスネスを最適化するために,セントロイド類似度に基づく新たな損失関数を提案する。
4つの実世界のグラフの実験では、Kraitはトレーニングノードの0.0%から2%に効率的にトリガーを埋め込むことができ、クリーンな精度を犠牲にすることなく高い攻撃成功率を達成することができる。
特に、一対一攻撃と一対一攻撃では、Kraitは、それぞれ2ノードと22ノードを毒殺することで、100%の攻撃成功率を達成することができる。
我々の実験は、さまざまな転送ケース、アタックタイプ、グラフニューラルネットワークのバックボーンで、Kraitが強力であることをさらに示している。
さらに、Kraitはブラックボックス設定にまで拡張することができ、より深刻な脅威を生じさせる。
最後に、クライトが古典的かつ最先端の防御を回避できる理由を分析し、この種の攻撃を検出し緩和するための実践的な洞察を提供する。
Graph prompt tuning has emerged as a promising paradigm to effectively transfer general graph knowledge from pre-trained models to various downstream tasks, particularly in few-shot contexts. However, its susceptibility to backdoor attacks, where adversaries insert triggers to manipulate outcomes, raises a critical concern. We conduct the first study to investigate such vulnerability, revealing that backdoors can disguise benign graph prompts, thus evading detection. We introduce Krait, a novel graph prompt backdoor. Specifically, we propose a simple yet effective model-agnostic metric called label non-uniformity homophily to select poisoned candidates, significantly reducing computational complexity. To accommodate diverse attack scenarios and advanced attack types, we design three customizable trigger generation methods to craft prompts as triggers. We propose a novel centroid similarity-based loss function to optimize prompt tuning for attack effectiveness and stealthiness. Experiments on four real-world graphs demonstrate that Krait can efficiently embed triggers to merely 0.15% to 2% of training nodes, achieving high attack success rates without sacrificing clean accuracy. Notably, in one-to-one and all-to-one attacks, Krait can achieve 100% attack success rates by poisoning as few as 2 and 22 nodes, respectively. Our experiments further show that Krait remains potent across different transfer cases, attack types, and graph neural network backbones. Additionally, Krait can be successfully extended to the black-box setting, posing more severe threats. Finally, we analyze why Krait can evade both classical and state-of-the-art defenses, and provide practical insights for detecting and mitigating this class of attacks. | 翻訳日:2024-07-19 19:13:43 公開日:2024-07-18 |
# 主要投票を用いた局所的大言語モデルを用いた動的感性分析:レストラン評価に影響する要因の検討
Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study on Factors Affecting Restaurant Evaluation ( http://arxiv.org/abs/2407.13069v1 ) ライセンス: Link先を確認 | Junichiro Niimi, | (参考訳) オンラインプラットフォーム上のユーザ生成コンテンツ(UGC)は、マーケティング研究者が製品やサービスの消費者の嗜好を理解することを可能にする。
大規模言語モデル(LLM)の進歩に伴い、アノテーションや感情分析のモデルを利用した研究もある。
しかし, LLMの精度と過度パラメータの関係については, まだ詳しくは明らかになっていない。
また, LLMの各試験の結果の変動性や再現性に関する問題は, 既存の文献ではめったに考慮されていない。
実際の人間のアノテーションは、アノテータ間の不一致を解決するために多数決を利用するので、本研究では、ローカルLLMを用いた感情分析モデルに多数決機構を導入する。
レストラン評価に関するオンラインレビューを3回に分けて分析した結果, 中規模モデルを用いた複数回の投票では, 一つの試みによる大規模モデルよりも, より堅牢な結果が得られた。
さらに,各側面が全体評価に与える影響について,さらに分析を行った。
User-generated contents (UGCs) on online platforms allow marketing researchers to understand consumer preferences for products and services. With the advance of large language models (LLMs), some studies utilized the models for annotation and sentiment analysis. However, the relationship between the accuracy and the hyper-parameters of LLMs is yet to be thoroughly examined. In addition, the issues of variability and reproducibility of results from each trial of LLMs have rarely been considered in existing literature. Since actual human annotation uses majority voting to resolve disagreements among annotators, this study introduces a majority voting mechanism to a sentiment analysis model using local LLMs. By a series of three analyses of online reviews on restaurant evaluations, we demonstrate that majority voting with multiple attempts using a medium-sized model produces more robust results than using a large model with a single attempt. Furthermore, we conducted further analysis to investigate the effect of each aspect on the overall evaluation. | 翻訳日:2024-07-19 19:13:43 公開日:2024-07-18 |
# 時間的アクションローカライゼーションの強化:リカレントメカニズムによる高度なS6モデリング
Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism ( http://arxiv.org/abs/2407.13078v1 ) ライセンス: Link先を確認 | Sangyoun Lee, Juho Jung, Changdae Oh, Sunghee Yun, | (参考訳) 時間的行動局所化(TAL)は、ビデオ分析において重要な課題であり、アクションの開始と終了の正確な時間を特定する。
CNN、RNN、GCN、Transformerといった既存の方法には、長距離依存関係と時間的因果関係をキャプチャする制限がある。
これらの課題に対処するために、選択状態空間モデル(S6)を利用した新しいTALアーキテクチャを提案する。
提案手法では,パラメータの複雑さを増大させることなく,時間的およびチャネル的依存性のモデリングを改善するために,Feature Aggregated Bi-S6ブロック,Dual Bi-S6構造と繰り返し機構を統合する。
ベンチマークデータセットの大規模な実験では、THUMOS-14で74.2%、ActivityNetで42.9%、FineActionで29.6%、HACSで45.8%のmAPスコアが得られた。
アブレーション研究により,Stemモジュールのデュアル構造とリカレント機構が従来の手法よりも優れていることを示す。
本研究は,S6-based model の TAL タスクにおける可能性を示し,今後の研究への道を開くものである。
Temporal Action Localization (TAL) is a critical task in video analysis, identifying precise start and end times of actions. Existing methods like CNNs, RNNs, GCNs, and Transformers have limitations in capturing long-range dependencies and temporal causality. To address these challenges, we propose a novel TAL architecture leveraging the Selective State Space Model (S6). Our approach integrates the Feature Aggregated Bi-S6 block, Dual Bi-S6 structure, and a recurrent mechanism to enhance temporal and channel-wise dependency modeling without increasing parameter complexity. Extensive experiments on benchmark datasets demonstrate state-of-the-art results with mAP scores of 74.2% on THUMOS-14, 42.9% on ActivityNet, 29.6% on FineAction, and 45.8% on HACS. Ablation studies validate our method's effectiveness, showing that the Dual structure in the Stem module and the recurrent mechanism outperform traditional approaches. Our findings demonstrate the potential of S6-based models in TAL tasks, paving the way for future research. | 翻訳日:2024-07-19 19:13:43 公開日:2024-07-18 |
# 量子コンピュータ上のフェルミオン決定因子
Fermion determinants on a quantum computer ( http://arxiv.org/abs/2407.13080v1 ) ライセンス: Link先を確認 | George T. Fleming, Prasanth Shyamsundar, Judah Unmuth-Yockey, | (参考訳) 本稿では,古典的な格子ゲージ場の構成を前提として,フェルミオン行列行列の対数を計算する量子アルゴリズムを提案する。
このアルゴリズムは量子固有値変換と量子平均推定を使い、行列次元$V$で$O(V\log(V))$のようにスケールするクエリ複雑性を与える。
We present a quantum algorithm to compute the logarithm of the determinant of the fermion matrix, assuming access to a classical lattice gauge field configuration. The algorithm uses the quantum eigenvalue transform, and quantum mean estimation, giving a query complexity that scales like $O(V\log(V))$ in the matrix dimension $V$. | 翻訳日:2024-07-19 19:13:43 公開日:2024-07-18 |
# 音響プリミティブによる人体音場のモデル化と駆動
Modeling and Driving Human Body Soundfields through Acoustic Primitives ( http://arxiv.org/abs/2407.13083v1 ) ライセンス: Link先を確認 | Chao Huan, Dejan Markovic, Chenliang Xu, Alexander Richard, | (参考訳) フォトリアリスティックな3D人体モデルのレンダリングとアニメーションは、過去数年間で完成し、印象的な品質に達したが、そのようなフルボディモデルに関連する空間オーディオのモデリングは、これまでほとんど無視されてきた。
本研究では,音声,フットステップ,手動インタラクションなど,人体が生成する全3次元音場をレンダリングすることのできる,高品質な空間オーディオ生成を実現するフレームワークを提案する。
頭部に装着したマイクロホンの3次元ボディポーズとオーディオによる身体の基本的な音響・視覚的表現を考慮し、全音響シーンを3次元空間の任意の地点で効率よく正確にレンダリングできることを実証する。
音の近距離場およびリアルタイムレンダリングを可能にするため,グラフィカル・ニューラル・レンダリングからボリューム・プリミティブのアイデアを借りて音響領域に転送する。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches. | 翻訳日:2024-07-19 19:13:43 公開日:2024-07-18 |
# MetaSumPerceiver: Fact-Checkingのためのマルチモーダルマルチドキュメント証拠要約
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking ( http://arxiv.org/abs/2407.13089v1 ) ライセンス: Link先を確認 | Ting-Chih Chen, Chia-Wei Tang, Chris Thomas, | (参考訳) Fact-checking real-world claims はしばしば、クレームの真実性を評価するために複数のマルチモーダル文書をレビューする必要がある。
本稿では,マルチモーダル・マルチドキュメントデータセットからファクトチェックに有用なクレーム固有の要約を生成するための要約モデルを提案する。
このモデルは、事実確認タスクを支援することを目的として、文書、画像、クレームの形式でインプットを取る。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
モデルをトレーニングするために,新たな強化学習に基づくエンテーメント目標を活用して,異なる真偽ラベルを識別する証拠を提供する要約を生成する。
提案手法の有効性を評価するため,既存のベンチマークと,提案するマルチドキュメントクレームの新しいデータセットの両方で実験を行った。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%上回り,新しいMulti-News-Fact-Checkingデータセット上で高い性能を示す。
Fact-checking real-world claims often requires reviewing multiple multimodal documents to assess a claim's truthfulness, which is a highly laborious and time-consuming task. In this paper, we present a summarization model designed to generate claim-specific summaries useful for fact-checking from multimodal, multi-document datasets. The model takes inputs in the form of documents, images, and a claim, with the objective of assisting in fact-checking tasks. We introduce a dynamic perceiver-based model that can handle inputs from multiple modalities of arbitrary lengths. To train our model, we leverage a novel reinforcement learning-based entailment objective to generate summaries that provide evidence distinguishing between different truthfulness labels. To assess the efficacy of our approach, we conduct experiments on both an existing benchmark and a new dataset of multi-document claims that we contribute. Our approach outperforms the SOTA approach by 4.6% in the claim verification task on the MOCHEG dataset and demonstrates strong performance on our new Multi-News-Fact-Checking dataset. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# 残像U-Netを用いたOCT画像の高分解能化 : PSOCTとASOCTを用いた臨床診断のクロスモーダルアプローチ
Enhanced Denoising of OCT Images Using Residual U-Net: A Cross-Modality Approach on PSOCT and ASOCT for Clinical Diagnostics ( http://arxiv.org/abs/2407.13090v1 ) ライセンス: Link先を確認 | Akkidas Noel Prakasha, Jahnvi Sai Gantaa, Ramaswami Krishnadasb, Tin A. Tunc, Satish K Pandaa, | (参考訳) オプティカルコヒーレンス・トモグラフィー(OCT)は眼科領域の詳細な断面像を提供することで眼科領域の診断に重要である。
それにもかかわらず、OCTに固有のスペックルノイズや他のイメージングアーティファクトは、診断の精度を著しく損なう。
本研究では,雑音を効果的に低減し,ASOCT(Aterior Segment OCT)とPSOCT(Polarization-sensitive OCT)の両方で画像の明瞭度を向上させるResidual U-Netアーキテクチャを用いたデノナイズモデルを提案する。
PSOCT画像のPak Signal Noise Ratio(PSNR)は34.343$\pm$1.113であり,SSIM値は0.885$\pm$0.030であり,組織整合性およびテクスチャ細部の保存性の向上が示唆された。
ASOCT画像では,PSNRが23.525$\pm$0.872 dB,SSIM 0.407$\pm$0.044となり,視覚的品質と構造的精度が大幅に向上した。
これらの指標は、ノイズの低減だけでなく、重要な解剖学的特徴の維持にも有効であり、より正確かつ効率的な臨床評価を可能にする。
ASOCTとPSOCTの両モードにまたがる二重機能は、臨床現場での幅広い応用の可能性、診断プロセスの最適化、画像セッションの長期化の必要性を浮き彫りにしている。
Optical Coherence Tomography (OCT) imaging is pivotal in diagnosing ophthalmic conditions by providing detailed cross-sectional images of the anterior and posterior segments of the eye. Nonetheless, speckle noise and other imaging artifacts inherent to OCT impede the accuracy of diagnosis significantly. In this study, we proposed an enhanced denoising model using a Residual U-Net architecture that effectively diminishes noise and improves image clarity across both Anterior Segment OCT (ASOCT) and polarization-sensitive OCT (PSOCT) images. Our approach demonstrated substantial improvements in image quality metrics: the Peak Signal Noise Ratio (PSNR) was 34.343 $\pm$ 1.113 for PSOCT images, and Structural Similarity Index Measure (SSIM) values were 0.885 $\pm$ 0.030, indicating enhanced preservation of tissue integrity and textural details. For ASOCT images, we observed the PSNR to be 23.525 $\pm$ 0.872 dB and SSIM 0.407 $\pm$ 0.044, reflecting significant enhancements in visual quality and structural accuracy. These metrics substantiate the models efficacy in not only reducing noise but also in maintaining crucial anatomical features, thereby enabling more precise and efficient clinical evaluations. The dual functionality across both ASOCT and PSOCT modalities underscores the versatility and potential for broad application in clinical settings, optimizing diagnostic processes and reducing the necessity for prolonged imaging sessions. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# 強化学習に基づくレコメンダシステムのための因果解離状態表現学習について
On Causally Disentangled State Representation Learning for Reinforcement Learning based Recommender Systems ( http://arxiv.org/abs/2407.13091v1 ) ライセンス: Link先を確認 | Siyu Wang, Xiaocong Chen, Lina Yao, | (参考訳) Reinforcement Learning-based Recommender Systems (RLRS) では、ユーザインタラクションの複雑さとダイナミズムは高次元でノイズの多い状態空間をもたらすことが多く、意思決定プロセスの推進に真の影響を及ぼす状態のどの側面を区別することが困難である。
この問題は、ユーザの嗜好や行動の進化によって悪化し、一般性を維持しつつ、意思決定に最も関連性の高い情報に適応的に焦点を合わせる必要がある。
この問題に対処するために、RLRSにおける状態の分解と \textbf{C}ausal-\textbf{I}n\textbf{D}ispensable \textbf{S}tate Representations (CIDS) 抽出のための革新的な因果的アプローチを導入する。
本手法は, 効果的なレコメンデーションを行う上で必須となる, \textbf{D}irectly \textbf{A}ction-\textbf{I}nfluenced \textbf{S}tate Variables (DAIS) と \textbf{A}ction-\textbf{I}nfluence \textbf{A}ncestors (AIA) の同定に集中する。
条件付き相互情報を活用することにより、生成過程内の因果関係を識別するだけでなく、一般に密度の高い高次元状態表現から臨界状態変数を分離する枠組みを開発する。
これらの変数の識別可能性に関する理論的証拠を提供する。
そして、同定された因果関係を利用して因果関係に欠かせない状態表現を構築し、エージェントの状態空間のより有利な部分集合に対するポリシーの訓練を可能にする。
提案手法の有効性を実証し,提案手法が最先端の手法より優れていることを示す。
In Reinforcement Learning-based Recommender Systems (RLRS), the complexity and dynamism of user interactions often result in high-dimensional and noisy state spaces, making it challenging to discern which aspects of the state are truly influential in driving the decision-making process. This issue is exacerbated by the evolving nature of user preferences and behaviors, requiring the recommender system to adaptively focus on the most relevant information for decision-making while preserving generaliability. To tackle this problem, we introduce an innovative causal approach for decomposing the state and extracting \textbf{C}ausal-\textbf{I}n\textbf{D}ispensable \textbf{S}tate Representations (CIDS) in RLRS. Our method concentrates on identifying the \textbf{D}irectly \textbf{A}ction-\textbf{I}nfluenced \textbf{S}tate Variables (DAIS) and \textbf{A}ction-\textbf{I}nfluence \textbf{A}ncestors (AIA), which are essential for making effective recommendations. By leveraging conditional mutual information, we develop a framework that not only discerns the causal relationships within the generative process but also isolates critical state variables from the typically dense and high-dimensional state representations. We provide theoretical evidence for the identifiability of these variables. Then, by making use of the identified causal relationship, we construct causal-indispensable state representations, enabling the training of policies over a more advantageous subset of the agent's state space. We demonstrate the efficacy of our approach through extensive experiments, showcasing our method outperforms state-of-the-art methods. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# CC-DCNet:マルチモード画像を用いた肺がんサブタイプ同定のためのコントラスト制約付き動的畳み込みニューラルネットワーク
CC-DCNet: Dynamic Convolutional Neural Network with Contrastive Constraints for Identifying Lung Cancer Subtypes on Multi-modality Images ( http://arxiv.org/abs/2407.13092v1 ) ライセンス: Link先を確認 | Yuan Jin, Gege Ma, Geng Chen, Tianling Lyu, Jan Egger, Junhui Lyu, Shaoting Zhang, Wentao Zhu, | (参考訳) 肺癌の病理診断は経過観察と予後管理において極めて重要である。
深層学習技術を利用した評価手法は,臨床診断に新しいアプローチを導入している。
しかし、既存のモデルのほとんどは単一のモダリティ画像入力のみに依存しており、診断精度は限られている。
そこで本研究では,肺がんサブタイプを多次元・多次元画像,すなわちCTおよび病理画像と正確に分類するための新しい深層学習ネットワークを提案する。
提案モデルの強みは, 対のCT-病理画像セットと独立のCT画像セットの両方を動的に処理し, 結果としてCT画像からの病理関連特徴抽出を最適化できることにある。
この適応学習アプローチは、多次元および多モードデータセットの処理における柔軟性を高め、モデルテストフェーズにおける性能向上をもたらす。
コントラスト制約モジュールも開発し,ネットワークトレーニングを通じてモダリティ関係を定量的にマッピングし,それに対応するCTスキャンから「ゴールドスタンダード」の病理情報を探索する。
本モデルの有効性,適応性,一般化能力を評価するため,大規模マルチセンターデータセットを用いた広範囲な実験を行い,一連の最先端分類モデルと比較した。
肺がんの亜型分類モデルでは,ACC,AUC,F1スコアなどの精度指標が有意な改善を示した。
The accurate diagnosis of pathological subtypes of lung cancer is of paramount importance for follow-up treatments and prognosis managements. Assessment methods utilizing deep learning technologies have introduced novel approaches for clinical diagnosis. However, the majority of existing models rely solely on single-modality image input, leading to limited diagnostic accuracy. To this end, we propose a novel deep learning network designed to accurately classify lung cancer subtype with multi-dimensional and multi-modality images, i.e., CT and pathological images. The strength of the proposed model lies in its ability to dynamically process both paired CT-pathological image sets as well as independent CT image sets, and consequently optimize the pathology-related feature extractions from CT images. This adaptive learning approach enhances the flexibility in processing multi-dimensional and multi-modality datasets and results in performance elevating in the model testing phase. We also develop a contrastive constraint module, which quantitatively maps the cross-modality associations through network training, and thereby helps to explore the "gold standard" pathological information from the corresponding CT scans. To evaluate the effectiveness, adaptability, and generalization ability of our model, we conducted extensive experiments on a large-scale multi-center dataset and compared our model with a series of state-of-the-art classification models. The experimental results demonstrated the superiority of our model for lung cancer subtype classification, showcasing significant improvements in accuracy metrics such as ACC, AUC, and F1-score. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# LLMを使ってセキュリティ運用センターの脅威情報分析ワークフローを自動化する
Using LLMs to Automate Threat Intelligence Analysis Workflows in Security Operation Centers ( http://arxiv.org/abs/2407.13093v1 ) ライセンス: Link先を確認 | PeiYu Tseng, ZihDwo Yeh, Xushu Dai, Peng Liu, | (参考訳) SIEMシステムは広く普及しており、Security Operation Centerのさまざまなアナリストワークフローにおいて重要な役割を果たす。
しかし、現代のSIEMは大きな課題に直面しており、自然言語で書かれたCTI(Cyber Threat Intelligence)レポートを解析する反復的なタスクからアナリストを解放することはできません。
このプロジェクトの目的は、CTIレポートの分析に関わる労働集約的な反復的なタスクを置き換えるAIエージェントの開発である。
LLM(例えば、GPT-4)の革命的能力を利用するが、人間の介入は不要である。
SIEM systems are prevalent and play a critical role in a variety of analyst workflows in Security Operation Centers. However, modern SIEMs face a big challenge: they still cannot relieve analysts from the repetitive tasks involved in analyzing CTI (Cyber Threat Intelligence) reports written in natural languages. This project aims to develop an AI agent to replace the labor intensive repetitive tasks involved in analyzing CTI reports. The agent exploits the revolutionary capabilities of LLMs (e.g., GPT-4), but it does not require any human intervention. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# ビデオテキスト理解の再考:非現実的な拡張データからの検索
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data ( http://arxiv.org/abs/2407.13094v1 ) ライセンス: Link先を確認 | Wufei Ma, Kai Li, Zhongshi Jiang, Moustafa Meshry, Qihao Liu, Huiyu Wang, Christian Häne, Alan Yuille, | (参考訳) 最近のビデオテキスト基盤モデルは、様々なダウンストリームビデオ理解タスクにおいて強力な性能を示している。
これらのビデオテキストモデルは、自然ビデオの内容を真に理解できますか?
標準のビデオテキスト評価は、単一のフレーム内のオブジェクトやコンテキスト、あるいはデータセット固有のバイアスからのみ推測できる多くの質問を誤解を招く可能性がある。
本稿では,現在のビデオテキストモデルの能力をよりよく評価し,その限界を理解することを目的とする。
本稿では,映像テキスト理解のための新しい評価課題,すなわち,対実的拡張データ(RCAD)からの検索,および新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
分析により、従来のビデオテキスト基盤モデルは、偽の強化データによって容易に騙され、人間レベルのパフォーマンスにはるかに遅れていることが示された。
ビデオテキストモデルとRCAD上での人的パフォーマンスのギャップを狭めるために、ビデオテキストデータに対する現在のコントラスト的アプローチの鍵となる限界を特定し、事前訓練された大規模言語モデルから得られた知識を活用することで、アクションセマンティクスを学習するためのより効果的なアプローチであるLCM-Teacherを導入する。
実験と分析により,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善することができた。
Feint6Kデータセットとプロジェクトページはhttps://feint6k.github.io.comで公開されている。
Recent video-text foundation models have demonstrated strong performance on a wide variety of downstream video understanding tasks. Can these video-text models genuinely understand the contents of natural videos? Standard video-text evaluations could be misleading as many questions can be inferred merely from the objects and contexts in a single frame or biases inherent in the datasets. In this paper, we aim to better assess the capabilities of current video-text models and understand their limitations. We propose a novel evaluation task for video-text understanding, namely retrieval from counterfactually augmented data (RCAD), and a new Feint6K dataset. To succeed on our new evaluation task, models must derive a comprehensive understanding of the video from cross-frame reasoning. Analyses show that previous video-text foundation models can be easily fooled by counterfactually augmented data and are far behind human-level performance. In order to narrow the gap between video-text models and human performance on RCAD, we identify a key limitation of current contrastive approaches on video-text data and introduce LLM-teacher, a more effective approach to learn action semantics by leveraging knowledge obtained from a pretrained large language model. Experiments and analyses show that our approach successfully learn more discriminative action embeddings and improves results on Feint6K when applied to multiple video-text models. Our Feint6K dataset and project page is available at https://feint6k.github.io. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# 視覚的一般化型ゼロショット学習の容易な方法
Audio-visual Generalized Zero-shot Learning the Easy Way ( http://arxiv.org/abs/2407.13095v1 ) ライセンス: Link先を確認 | Shentong Mo, Pedro Morgado, | (参考訳) 音声視覚一般化ゼロショット学習は、ビデオ内の音声と視覚的手がかりの複雑な関係を理解するために急速に進歩している領域である。
全体的な目標は、目に見えないクラスからの洞察を活用して、これまで見えなかったものからインスタンスを識別することだ。
それまでのアプローチでは、主に同期自動エンコーダを使用して、クロスアテンショントランスフォーマーと投影されたテキスト埋め込みによって通知されるオーディオ視覚属性を再構築した。
しかし、これらの手法は、事前訓練された言語対応の埋め込みに固有のクロスモーダル特徴とクラスラベル埋め込みの複雑な関係を効果的に捉えるには至らなかった。
これらのボトルネックを回避するために,EZ-AVGZLという,音声・視覚の埋め込みを変換されたテキスト表現と整合させる,簡易なオーディオ・ビジュアル一般化ゼロショット学習のための,シンプルかつ効果的なフレームワークを導入する。
単一の教師付きテキスト・ビジュアル・コントラッシブ・ロスを利用して、音声・視覚とテキスト・モダリティのアライメントを学習し、従来のクロスモーダルな特徴とテキスト埋め込みの再構築のアプローチから離れる。
私たちの重要な洞察は、クラス名埋め込みは言語ベースのオーディオ視覚機能とよく一致しているが、ゼロショット学習に役立つ十分なクラス分離を提供していないということです。
そこで本手法では, 言語表現のセマンティック構造を保ちながら, クラス埋め込みをより識別的な空間に変換するために, 微分最適化を利用する。
本稿では,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
以上の結果から,EZ-AVGZLは音声・視覚一般化ゼロショット学習における最先端性能を達成できることが示唆された。
Audio-visual generalized zero-shot learning is a rapidly advancing domain that seeks to understand the intricate relations between audio and visual cues within videos. The overarching goal is to leverage insights from seen classes to identify instances from previously unseen ones. Prior approaches primarily utilized synchronized auto-encoders to reconstruct audio-visual attributes, which were informed by cross-attention transformers and projected text embeddings. However, these methods fell short of effectively capturing the intricate relationship between cross-modal features and class-label embeddings inherent in pre-trained language-aligned embeddings. To circumvent these bottlenecks, we introduce a simple yet effective framework for Easy Audio-Visual Generalized Zero-shot Learning, named EZ-AVGZL, that aligns audio-visual embeddings with transformed text representations. It utilizes a single supervised text audio-visual contrastive loss to learn an alignment between audio-visual and textual modalities, moving away from the conventional approach of reconstructing cross-modal features and text embeddings. Our key insight is that while class name embeddings are well aligned with language-based audio-visual features, they don't provide sufficient class separation to be useful for zero-shot learning. To address this, our method leverages differential optimization to transform class embeddings into a more discriminative space while preserving the semantic structure of language representations. We conduct extensive experiments on VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL benchmarks. Our results demonstrate that our EZ-AVGZL achieves state-of-the-art performance in audio-visual generalized zero-shot learning. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# AlcLaM:アラビア方言モデル
AlcLaM: Arabic Dialectal Language Model ( http://arxiv.org/abs/2407.13097v1 ) ライセンス: Link先を確認 | Murtadha Ahmed, Saghir Alfasly, Bo Wen, Jamaal Qasem, Mohammed Ahmed, Yunfeng Liu, | (参考訳) 事前訓練された言語モデル(PLM)は多くの現代の自然言語処理(NLP)システムに不可欠なものである。
多言語モデルは幅広い言語をカバーするが、高い推論コストや多言語非英語学習データの欠如といった課題に悩まされることが多い。
アラビア語固有のPLMは主に現代の標準アラビア語に基づいて訓練されており、地域方言でのパフォーマンスを損なう。
これを解決するために,ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、CAMeL、MARBERT、ArBERTといった既存のモデルで使われているデータのうち、それぞれ7.8%、10.2%、21.3%に相当する13GBのテキストでトレーニングされています。
AlcLaMは、訓練データに制限があるにもかかわらず、様々なアラビアのNLPタスクにおいて優れたパフォーマンスを示す。
AlcLaMはGitHub https://github.com/amurtadha/AlclamとHuggingFace https://huggingface.co/rahbi.comで入手できる。
Pre-trained Language Models (PLMs) are integral to many modern natural language processing (NLP) systems. Although multilingual models cover a wide range of languages, they often grapple with challenges like high inference costs and a lack of diverse non-English training data. Arabic-specific PLMs are trained predominantly on modern standard Arabic, which compromises their performance on regional dialects. To tackle this, we construct an Arabic dialectal corpus comprising 3.4M sentences gathered from social media platforms. We utilize this corpus to expand the vocabulary and retrain a BERT-based model from scratch. Named AlcLaM, our model was trained using only 13 GB of text, which represents a fraction of the data used by existing models such as CAMeL, MARBERT, and ArBERT, compared to 7.8%, 10.2%, and 21.3%, respectively. Remarkably, AlcLaM demonstrates superior performance on a variety of Arabic NLP tasks despite the limited training data. AlcLaM is available at GitHub https://github.com/amurtadha/Alclam and HuggingFace https://huggingface.co/rahbi. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# テンソルネットワークシミュレーションのための最適ツリーテンソルネットワーク演算子:オープン量子システムへの応用
Optimal Tree Tensor Network Operators for Tensor Network Simulations: Applications to Open Quantum Systems ( http://arxiv.org/abs/2407.13098v1 ) ライセンス: Link先を確認 | Weitang Li, Jiajun Ren, Hengrui Yang, Haobin Wang, Zhigang Shuai, | (参考訳) ツリーテンソルネットワーク状態(TTNS)は、木トポロジーに基づく低ランクテンソルの積に系波動関数を分解し、マルチ層多重構成時間依存Hartree(ML-MCTDH)法の基盤となる。
本研究では,任意の積のシンボリック量子演算子に対して,最適かつ正確なツリーテンソルネットワーク演算子(TTNO)を自動構築するアルゴリズムを提案する。
最適TTNOにより、スピン-ボソンモデルにおけるスピン緩和ダイナミクスや分子接合における電荷輸送などのオープン量子系をシミュレートする。
これらのシミュレーションでは、環境は離散モードとして扱われ、その波動関数はシステムと同等の足場で進化する。
ガラス状のフォノン環境をモデル化するためにコールダビッドソンスペクトル密度を用い、熱場力学による温度効果を取り入れた。
その結果,計算コストは離散化モードの数に比例して線形にスケールし,提案手法の効率性を実証した。
Tree tensor network states (TTNS) decompose the system wavefunction to the product of low-rank tensors based on the tree topology, serving as the foundation of the multi-layer multi-configuration time-dependent Hartree (ML-MCTDH) method. In this work, we present an algorithm that automatically constructs the optimal and exact tree tensor network operators (TTNO) for any sum-of-product symbolic quantum operator.The construction is based on the minimum vertex cover of a bipartite graph. With the optimal TTNO, we simulate open quantum systems such as spin relaxation dynamics in the spin-boson model and charge transport in molecular junctions. In these simulations, the environment is treated as discrete modes and its wavefunction is evolved on equal footing with the system. We employ the Cole-Davidson spectral density to model the glassy phonon environment, and incorporate temperature effects via thermo field dynamics. Our results show that the computational cost scales linearly with the number of discretized modes, demonstrating the efficiency of our approach. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# Retrieve, Summarize, Plan: 反復的アプローチによるマルチホップ質問回答の改善
Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach ( http://arxiv.org/abs/2407.13101v1 ) ライセンス: Link先を確認 | Zhouyu Jiang, Mengshu Sun, Lei Liang, Zhiqiang Zhang, | (参考訳) 大規模言語モデル(LLM)に基づく検索・拡張生成(RAG)手法が,この課題に対処するための一般的なアプローチとなっている。
一つのイテレーションで全ての必要な情報を検索できない可能性があるため、最近一連の反復的なRAG手法が開発され、性能が大幅に向上した。
しかし、既存の手法では、複数の検索ラウンドによるコンテキストオーバーロードと、記録された検索軌跡の欠如による過剰計画と反復計画の2つの重要な課題に直面している。
本稿では,二重機能要約器を備えたReSPと呼ばれる新しい反復RAG手法を提案する。
この要約器は、検索された文書から情報を圧縮し、上位の質問と現在のサブクエストの両方を同時にターゲットとする。
マルチホップ質問応答データセットHotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端の手法よりも優れ,文脈長に関して優れた堅牢性を示すことが示された。
Multi-hop question answering is a challenging task with distinct industrial relevance, and Retrieval-Augmented Generation (RAG) methods based on large language models (LLMs) have become a popular approach to tackle this task. Owing to the potential inability to retrieve all necessary information in a single iteration, a series of iterative RAG methods has been recently developed, showing significant performance improvements. However, existing methods still face two critical challenges: context overload resulting from multiple rounds of retrieval, and over-planning and repetitive planning due to the lack of a recorded retrieval trajectory. In this paper, we propose a novel iterative RAG method called ReSP, equipped with a dual-function summarizer. This summarizer compresses information from retrieved documents, targeting both the overarching question and the current sub-question concurrently. Experimental results on the multi-hop question-answering datasets HotpotQA and 2WikiMultihopQA demonstrate that our method significantly outperforms the state-of-the-art, and exhibits excellent robustness concerning context length. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# 航空画像時系列からのツリーセマンティックセグメンテーション
Tree semantic segmentation from aerial image time series ( http://arxiv.org/abs/2407.13102v1 ) ライセンス: Link先を確認 | Venkatesh Ramesh, Arthur Ouaknine, David Rolnick, | (参考訳) 地球の森林は気候変動との戦いにおいて重要な役割を担い、その影響を否定的に受けている。
異なる樹種の効果的なモニタリングは、森林の健康と生物多様性の理解と改善に不可欠である。
本研究では,1年以上にわたる航空画像データセットを用いて,樹木のセマンティックセマンティックセグメンテーションを行うことにより,樹木種同定の課題に対処する。
単体画像で訓練したモデルと時系列で訓練したモデルを比較し,木表現学がセグメンテーション性能に与える影響を評価する。
また、画像時系列から時空間的特徴を抽出するための単純な畳み込みブロックを導入し、一般的な事前訓練されたバックボーンとメソッドの使用を可能にした。
樹種分類の階層構造を,種,属,高水準の3つのレベルで予測を洗練させるカスタム・ロス・ファンクションを取り入れることで活用する。
本研究は,時系列モダリティの活用における方法論の優位性を実証し,分類情報を用いたラベルの充実がセマンティックセグメンテーション性能を向上させることを確認した。
Earth's forests play an important role in the fight against climate change, and are in turn negatively affected by it. Effective monitoring of different tree species is essential to understanding and improving the health and biodiversity of forests. In this work, we address the challenge of tree species identification by performing semantic segmentation of trees using an aerial image dataset spanning over a year. We compare models trained on single images versus those trained on time series to assess the impact of tree phenology on segmentation performances. We also introduce a simple convolutional block for extracting spatio-temporal features from image time series, enabling the use of popular pretrained backbones and methods. We leverage the hierarchical structure of tree species taxonomy by incorporating a custom loss function that refines predictions at three levels: species, genus, and higher-level taxa. Our findings demonstrate the superiority of our methodology in exploiting the time series modality and confirm that enriching labels using taxonomic information improves the semantic segmentation performance. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# シュワルツシルト時空におけるエントロピック不確実性関係
Entropic uncertainty relations in Schwarzschild space-time ( http://arxiv.org/abs/2407.13104v1 ) ライセンス: Link先を確認 | Tian-Yu Wang, Dong Wang, | (参考訳) 不確実性原理は量子力学の基盤の1つと見なされ、不確実性の低い限界を探索することは、原理の性質を理解するのに役立つ。
本研究では,多粒子系における任意の多重観測可能なエントロピー不確実性関係を一般化し,Holevoの品質と相互情報を考慮したより厳密な下界を導出する。
重要なことに、シュワルツシルト時空の文脈において提案された不確実性関係と量子コヒーレンスについて詳細に議論する。
ホーキング放射が物理的にアクセス可能な領域のコヒーレンスを損傷し、不確実性を高めることは興味深い。
さらに、シュワルツシルト時空における不確実性の性質は、系の純度と異なる領域の情報再分配から説明できると主張する。
したがって, この発見は多粒子系におけるエントロピーの不確実性関係を一般化し, ブラックホールの量子性と情報パラドックスのより深い理解を促進すると考えられる。
The uncertainty principle is deemed as one of cornerstones in quantum mechanics, and exploring its lower limit of uncertainty will be helpful to understand the principle's nature. In this study, we propose a generalized entropic uncertainty relation for arbitrary multiple-observable in multipartite system, and further derive a tighter lower bound by considering Holevo quality and mutual information. Importantly, we detailedly discuss the proposed uncertainty relations and quantum coherence in the context of Schwarzschild space-time. It is interesting to find that Hawking radiation will damage the coherence of the physically accessible region and increase the uncertainty. Furthermore, we argue that the properties of the uncertainty in Schwarzschild space-time can be explained from the systems' purity and the information redistribution of the different regions. Therefore, it is believed that our findings provide the generalized entropic uncertainty relations in multipartite systems, which may facilitate us deeper understanding of quantumness and information paradox of the black holes. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# UCIP:動的プロンプトを用いた圧縮画像超解法のためのユニバーサルフレームワーク
UCIP: A Universal Framework for Compressed Image Super-Resolution using Dynamic Prompt ( http://arxiv.org/abs/2407.13108v1 ) ライセンス: Link先を確認 | Xin Li, Bingchen Li, Yeying Jin, Cuiling Lan, Hanxin Zhu, Yulin Ren, Zhibo Chen, | (参考訳) 圧縮画像スーパーレゾリューション(CSR)は、圧縮された画像を同時に超解き、圧縮によるハイブリッド歪みに対処することを目的としている。
しかし、CSRに関する既存の研究は通常、JPEG(英語版)という単一の圧縮コーデックに焦点を当てており、例えば、HEVC、VVC、HIFICなど、様々な伝統または学習ベースのコーデックを無視している。
本研究では,任意の圧縮コーデック/モデックのCSR歪みを協調的に支援することを目的として,動的プロンプト学習を備えたUCIPと呼ばれる最初のユニバーサルCSRフレームワークを提案する。
特に、空間サイズ1x1の少量のプロンプトのみを用いて、CSRタスクのコンテンツ/空間対応タスク適応コンテキスト情報をマイニングする効率的な動的プロンプト戦略を提案する。
文脈情報マイニングを簡略化するために, アクティブトークンミキサー(ATM)をCSRタスクに適用することで, UCIPの新たなMLPライクなフレームワークバックボーンを導入する。
また、JPEG、HEVC、VVC、HIFICなど、一般的な6つの伝統的な学習ベースのコーデックでデータセットを収集することで、CSRタスクのためのオールインワンのベンチマークデータセットを構築しました。
普遍的CSRタスクにおけるUCIPの一貫性と優れた性能を示す大規模な実験を行った。
このプロジェクトはhttps://lixinustc.github.io/UCIP.github.ioで見ることができる。
Compressed Image Super-resolution (CSR) aims to simultaneously super-resolve the compressed images and tackle the challenging hybrid distortions caused by compression. However, existing works on CSR usually focuses on a single compression codec, i.e., JPEG, ignoring the diverse traditional or learning-based codecs in the practical application, e.g., HEVC, VVC, HIFIC, etc. In this work, we propose the first universal CSR framework, dubbed UCIP, with dynamic prompt learning, intending to jointly support the CSR distortions of any compression codecs/modes. Particularly, an efficient dynamic prompt strategy is proposed to mine the content/spatial-aware task-adaptive contextual information for the universal CSR task, using only a small amount of prompts with spatial size 1x1. To simplify contextual information mining, we introduce the novel MLP-like framework backbone for our UCIP by adapting the Active Token Mixer (ATM) to CSR tasks for the first time, where the global information modeling is only taken in horizontal and vertical directions with offset prediction. We also build an all-in-one benchmark dataset for the CSR task by collecting the datasets with the popular 6 diverse traditional and learning-based codecs, including JPEG, HEVC, VVC, HIFIC, etc., resulting in 23 common degradations. Extensive experiments have shown the consistent and excellent performance of our UCIP on universal CSR tasks. The project can be found in https://lixinustc.github.io/UCIP.github.io | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# PG-Attack: 自律運転のためのビジョンファウンデーションモデルに対する精度誘導型逆攻撃フレームワーク
PG-Attack: A Precision-Guided Adversarial Attack Framework Against Vision Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2407.13111v1 ) ライセンス: Link先を確認 | Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Shuyong Gao, Wenqiang Zhang, | (参考訳) ビジョンファウンデーションモデルは、高度な能力のため、自律運転システムにますます採用されている。
しかし、これらのモデルは敵の攻撃を受けやすいため、自動運転車の信頼性と安全性に大きなリスクが生じる。
敵はこれらの脆弱性を利用して車両の周囲に対する認識を操り、誤った判断と破滅的な結果をもたらす可能性がある。
そこで本研究では,PMP-Attack(Precision Mask Perturbation Attack)とDTP-Attack(Deceptive Text Patch Attack)の2つの手法を組み合わせた,PG-Attack(Precision-Guided Adversarial Attack)フレームワークを提案する。
PMP-Attackは、モデルの特徴空間における対象オブジェクトの表現への影響を最大化しながら、全体の摂動を最小限に抑えるために、攻撃領域を的確にターゲットとする。
DTP-Attackは、モデルによるシーンの理解を阻害する偽造テキストパッチを導入し、攻撃の有効性をさらに高める。
実験の結果,PG-Attack は GPT-4V, Qwen-VL, imp-V1 など,様々な先進的マルチモーダル大モデルに着想を得た。
さらに、CVPR 2024 Workshop Challenge: Black-box Adversarial Attacks on Vision Foundation Modelsとコードはhttps://github.com/fuhaha824/PG-Attack.comで入手できる。
Vision foundation models are increasingly employed in autonomous driving systems due to their advanced capabilities. However, these models are susceptible to adversarial attacks, posing significant risks to the reliability and safety of autonomous vehicles. Adversaries can exploit these vulnerabilities to manipulate the vehicle's perception of its surroundings, leading to erroneous decisions and potentially catastrophic consequences. To address this challenge, we propose a novel Precision-Guided Adversarial Attack (PG-Attack) framework that combines two techniques: Precision Mask Perturbation Attack (PMP-Attack) and Deceptive Text Patch Attack (DTP-Attack). PMP-Attack precisely targets the attack region to minimize the overall perturbation while maximizing its impact on the target object's representation in the model's feature space. DTP-Attack introduces deceptive text patches that disrupt the model's understanding of the scene, further enhancing the attack's effectiveness. Our experiments demonstrate that PG-Attack successfully deceives a variety of advanced multi-modal large models, including GPT-4V, Qwen-VL, and imp-V1. Additionally, we won First-Place in the CVPR 2024 Workshop Challenge: Black-box Adversarial Attacks on Vision Foundation Models and codes are available at https://github.com/fuhaha824/PG-Attack. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# タイムウインドウを用いた多目的車両ルーティング最適化:ディープ強化学習とNSGA-IIを用いたハイブリッドアプローチ
Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II ( http://arxiv.org/abs/2407.13113v1 ) ライセンス: Link先を確認 | Rixin Wu, Ran Wang, Jie Hao, Qiang Wu, Ping Wang, Dusit Niyato, | (参考訳) 本稿では、時間ウィンドウ(MOVRPTW)を用いた多目的車両ルーティング問題に対する重み付き深度強化学習(WADRL)アプローチを提案する。
非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法はWADRLの結果を最適化し、両方のアプローチの限界を緩和する。
まず、旅行コストの最小化と顧客満足度の最大化を両立させるMOVRPTWモデルを設計する。
その後、トランスフォーマーベースのポリシーネットワークを組み込んだ新しいDRLフレームワークを提案する。
本ネットワークは、エンコーダモジュールと、対象関数の重みを組み込んだ重み埋め込みモジュールと、デコーダモジュールとから構成される。
NSGA-IIはWADRLによって生成される解を最適化するために使用される。
最後に,本手法が既存手法や従来手法よりも優れていることを示す。
VRPTWの制約が多すぎるため、NSGA-IIアルゴリズムの初期解を生成するには時間がかかる。
しかし、WADRLが生成した解をNSGA-IIの初期解として使用すると、初期解を生成するのに必要な時間が大幅に削減される。
一方、NSGA-IIアルゴリズムはWADRLによって生成されるソリューションの品質を向上させることができ、スケーラビリティが向上する。
特に、ウェイト・アウェア・ストラテジーは、DRLのトレーニング時間を大幅に短縮し、より優れた結果が得られ、単一のDRLモデルにより、多目的最適化の全体を解決することができる。
This paper proposes a weight-aware deep reinforcement learning (WADRL) approach designed to address the multiobjective vehicle routing problem with time windows (MOVRPTW), aiming to use a single deep reinforcement learning (DRL) model to solve the entire multiobjective optimization problem. The Non-dominated sorting genetic algorithm-II (NSGA-II) method is then employed to optimize the outcomes produced by the WADRL, thereby mitigating the limitations of both approaches. Firstly, we design an MOVRPTW model to balance the minimization of travel cost and the maximization of customer satisfaction. Subsequently, we present a novel DRL framework that incorporates a transformer-based policy network. This network is composed of an encoder module, a weight embedding module where the weights of the objective functions are incorporated, and a decoder module. NSGA-II is then utilized to optimize the solutions generated by WADRL. Finally, extensive experimental results demonstrate that our method outperforms the existing and traditional methods. Due to the numerous constraints in VRPTW, generating initial solutions of the NSGA-II algorithm can be time-consuming. However, using solutions generated by the WADRL as initial solutions for NSGA-II significantly reduces the time required for generating initial solutions. Meanwhile, the NSGA-II algorithm can enhance the quality of solutions generated by WADRL, resulting in solutions with better scalability. Notably, the weight-aware strategy significantly reduces the training time of DRL while achieving better results, enabling a single DRL model to solve the entire multiobjective optimization problem. | 翻訳日:2024-07-19 19:03:47 公開日:2024-07-18 |
# TrialEnroll: ディープ・アンド・クロス・ネットワークと大規模言語モデルによる臨床治験成功予測
TrialEnroll: Predicting Clinical Trial Enrollment Success with Deep & Cross Network and Large Language Models ( http://arxiv.org/abs/2407.13115v1 ) ライセンス: Link先を確認 | Ling Yue, Sixue Xing, Jintai Chen, Tianfan Fu, | (参考訳) 臨床試験では、ある疾患の治癒における治療(例えば新薬)の統計力を示すのに十分な数のボランティア患者を雇う必要がある。
臨床試験の募集は、試験の成功に大きな影響を及ぼす。
トライアルを実施する前に採用プロセスが成功するかどうかを予測すれば、多くのリソースと時間を節約できるでしょう。
本稿では,大規模言語モデル(LLM)を付加した新しいディープ・アンド・クロスネットワークを開発した。
提案手法は,どの文/単語が予測に大きく寄与するかを理解することによって,解釈可能性を実現する。
また,提案手法の実証的優位性(0.7002 PR-AUC)を,多数の確立された機械学習手法に対して示す。
コードとキュレートされたデータセットはhttps://anonymous.4open.science/r/TrialEnroll-7E12で公開されている。
Clinical trials need to recruit a sufficient number of volunteer patients to demonstrate the statistical power of the treatment (e.g., a new drug) in curing a certain disease. Clinical trial recruitment has a significant impact on trial success. Forecasting whether the recruitment process would be successful before we run the trial would save many resources and time. This paper develops a novel deep & cross network with large language model (LLM)-augmented text feature that learns semantic information from trial eligibility criteria and predicts enrollment success. The proposed method enables interpretability by understanding which sentence/word in eligibility criteria contributes heavily to prediction. We also demonstrate the empirical superiority of the proposed method (0.7002 PR-AUC) over a bunch of well-established machine learning methods. The code and curated dataset are publicly available at https://anonymous.4open.science/r/TrialEnroll-7E12. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# SOMONITOR: 大規模言語モデルによる説明可能なマーケティングデータ処理と分析
SOMONITOR: Explainable Marketing Data Processing and Analysis with Large Language Models ( http://arxiv.org/abs/2407.13117v1 ) ライセンス: Link先を確認 | Qi Yang, Sergey Nikolenko, Marlo Ongpin, Ilia Gossoudarev, Yu-Yi Chu-Farseeva, Aleksandr Farseev, | (参考訳) オンラインマーケティングは、競合分析、コンテンツ研究、戦略的ブランディングに必要な膨大な量のデータを管理し、解釈する上で、重大な課題に直面している。
何百から何千というオンラインコンテンツアイテムを手作業でレビューすることは不可能であり、部分的な分析は、しばしば最適以下の結果をもたらす。
このフレームワークは、戦略的計画からコンテンツ作成、キャンペーン実行に至るまで、マーケティングファンネルのあらゆる段階におけるマーケターを支援する。
SoMonitorは、広告コンテンツのCTR予測とランキングモデルを導入し、大きな言語モデル(LLM)を使用して、ハイパフォーマンスな競合コンテンツを処理する。
これらの柱は、コミュニケーションのテーマやターゲットとする顧客ペルソナなど、より広範なカテゴリに分類される。
これらの洞察をブランド自身の広告キャンペーンのデータと統合することにより、SoMonitorは新しい顧客ペルソナに対処するための物語を構築し、マーケティングチームが直接適用可能なユーザストーリーの形式で詳細なコンテンツブリーフィングを生成し、コンテンツの制作とキャンペーン実行を合理化する。
SoMonitorの日々の運用における採用により、デジタルマーケターは広範なデータセットを素早く分析し、キャンペーンの有効性と全体的な仕事満足度を大幅に向上させる実行可能な洞察を提供する。
Online marketing faces formidable challenges in managing and interpreting immense volumes of data necessary for competitor analysis, content research, and strategic branding. It is impossible to review hundreds to thousands of transient online content items by hand, and partial analysis often leads to suboptimal outcomes and poorly performing campaigns. We introduce an explainable AI framework SoMonitor that aims to synergize human intuition with AI-based efficiency, helping marketers across all stages of the marketing funnel, from strategic planning to content creation and campaign execution. SoMonitor incorporates a CTR prediction and ranking model for advertising content and uses large language models (LLMs) to process high-performing competitor content, identifying core content pillars such as target audiences, customer needs, and product features. These pillars are then organized into broader categories, including communication themes and targeted customer personas. By integrating these insights with data from the brand's own advertising campaigns, SoMonitor constructs a narrative for addressing new customer personas and simultaneously generates detailed content briefs in the form of user stories that can be directly applied by marketing teams to streamline content production and campaign execution. The adoption of SoMonitor in daily operations allows digital marketers to quickly parse through extensive datasets, offering actionable insights that significantly enhance campaign effectiveness and overall job satisfaction | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# HPPP:Halpern-type Preconditioned Proximal Point Algorithmsと画像復元への応用
HPPP: Halpern-type Preconditioned Proximal Point Algorithms and Applications to Image Restoration ( http://arxiv.org/abs/2407.13120v1 ) ライセンス: Link先を確認 | Shuchang Zhang, Hui Zhang, Hongxia Wang, | (参考訳) Preconditioned Proximal Point (PPP)アルゴリズムは、画像復元におけるメソッド分割のための統一的なフレームワークを提供する。
RED(Regularization by Denoising)とPnP(Plug-and-Play)による最近の進歩は、この領域で最先端のパフォーマンスを実現し、意味のある特定のソリューションの必要性を強調している。
しかし、退化 PPP アルゴリズムは典型的には無限次元ヒルベルト空間において弱収束を示し、不確実な解をもたらす。
この問題に対処するため,Halpernイテレーションの強い収束特性を利用して特定の解を実現するHalpern-type Preconditioned Proximal Point (HPPP)アルゴリズムを提案する。
勾配REDで定義された暗黙の正則化に基づいて,HPPPを経由したDenoisingによるグラディエント正規化(Gradient Regularization)をGraRED-HP3アルゴリズムによりさらに導入する。
HPPPアルゴリズムは、おもちゃの例によって特定の解に規則性が収束していることが示されている。
また,GraRED-HP3の有効性を検証し,Chambolle-Pock (CP), PPP, RED, RED-PROなどの古典的手法を克服した。
Preconditioned Proximal Point (PPP) algorithms provide a unified framework for splitting methods in image restoration. Recent advancements with RED (Regularization by Denoising) and PnP (Plug-and-Play) priors have achieved state-of-the-art performance in this domain, emphasizing the need for a meaningful particular solution. However, degenerate PPP algorithms typically exhibit weak convergence in infinite-dimensional Hilbert space, leading to uncertain solutions. To address this issue, we propose the Halpern-type Preconditioned Proximal Point (HPPP) algorithm, which leverages the strong convergence properties of Halpern iteration to achieve a particular solution. Based on the implicit regularization defined by gradient RED, we further introduce the Gradient REgularization by Denoising via HPPP called GraRED-HP3 algorithm. The HPPP algorithm is shown to have the regularity converging to a particular solution by a toy example. Additionally, experiments in image deblurring and inpainting validate the effectiveness of GraRED-HP3, showing it surpasses classical methods such as Chambolle-Pock (CP), PPP, RED, and RED-PRO. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# MO-EMT-NAS: 異なるデータセットからのタスク間のアーキテクチャ知識の多目的連続転送
MO-EMT-NAS: Multi-Objective Continuous Transfer of Architectural Knowledge Between Tasks from Different Datasets ( http://arxiv.org/abs/2407.13122v1 ) ライセンス: Link先を確認 | Peng Liao, XiLu Wang, Yaochu Jin, WenLi Du, | (参考訳) 多様なデバイスにモデルをデプロイする場合、リソースの制約が異なるため、複数の目標間のトレードオフが要求される。
スーパーネットに基づく多目的ニューラルアーキテクチャサーチ(MO-NAS)における小さなモデルトラップ問題のため、既存のアプローチでは大きなモデルを維持することができない可能性がある。
さらに、MT-NAS(Multi-tasking Neural Architecture Search)は、複数のタスクを同時に扱うことができるが、既存の取り組みは、同じデータセットからのタスクに重点を置いている。
このような課題に対処するため,NAS(MO-EMT-NAS)のための多目的進化型マルチタスクフレームワークを提案する。
モデルトラップの問題を軽減するために,複数の大きなモデルの類似した精度維持を支援する補助的目的を導入する。
さらに、ウェイトシェアリングベースのスーパーネットのトレーニングと検証を並列化することにより、計算効率をさらに向上する。
2、3、4つのタスクの組み合わせを持つ7つのデータセットの実験結果から、MO-EMT-NASは、最先端の単一目的のMT-NASアルゴリズムと比較して、モデル性能と複雑性の間の柔軟なトレードオフを提供しながら、より優れた最小限の分類誤差を達成することが示された。
MO-EMT-NASのランタイムは、対応する多目的シングルタスクアプローチと比較して59.7%から77.7%に削減されている。
Deploying models across diverse devices demands tradeoffs among multiple objectives due to different resource constraints. Arguably, due to the small model trap problem in multi-objective neural architecture search (MO-NAS) based on a supernet, existing approaches may fail to maintain large models. Moreover, multi-tasking neural architecture search (MT-NAS) excels in handling multiple tasks simultaneously, but most existing efforts focus on tasks from the same dataset, limiting their practicality in real-world scenarios where multiple tasks may come from distinct datasets. To tackle the above challenges, we propose a Multi-Objective Evolutionary Multi-Tasking framework for NAS (MO-EMT-NAS) to achieve architectural knowledge transfer across tasks from different datasets while finding Pareto optimal architectures for multi-objectives, model accuracy and computational efficiency. To alleviate the small model trap issue, we introduce an auxiliary objective that helps maintain multiple larger models of similar accuracy. Moreover, the computational efficiency is further enhanced by parallelizing the training and validation of the weight-sharing-based supernet. Experimental results on seven datasets with two, three, and four task combinations show that MO-EMT-NAS achieves a better minimum classification error while being able to offer flexible trade-offs between model performance and complexity, compared to the state-of-the-art single-objective MT-NAS algorithms. The runtime of MO-EMT-NAS is reduced by 59.7% to 77.7%, compared to the corresponding multi-objective single-task approaches. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# Reconfigurable Intelligent Surface Aided Vehicular Edge Computing: Joint Phase-shift Optimization と Multi-User Power Allocation
Reconfigurable Intelligent Surface Aided Vehicular Edge Computing: Joint Phase-shift Optimization and Multi-User Power Allocation ( http://arxiv.org/abs/2407.13123v1 ) ライセンス: Link先を確認 | Kangwei Qi, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Khaled B. Letaief, | (参考訳) 車両エッジコンピューティング(VEC)は、車両のインターネット(IoV)分野において大きな可能性を持つ新興技術であり、車両が局所的に集中的な計算タスクを実行したり、近くのエッジデバイスにオフロードしたりすることができる。
しかし、建物などの障害物により通信リンクの品質が著しく低下し、オフロードのプロセスが阻害される可能性がある。
この課題に対処するために、車載通信を支援する代替通信経路を提供するReconfigurable Intelligent Surfaces (RIS) を導入する。
RISの位相シフトを動的に調整することにより、VECシステムの性能を大幅に向上させることができる。
本研究では、RIS支援VECシステムについて検討し、ランダムなタスク到着やチャネル変動を考慮した、ローカル実行パワー、オフロードパワー、RIS位相シフトのための最適スキームを設計する。
本稿では,RIS位相シフト係数を最適化するDep Deterministic Policy Gradient(DDPG)アルゴリズムと,車両利用者の電力配分を最適化するMulti-Agent Deep Deterministic Policy Gradient(MADDPG)アルゴリズムを組み合わせたDRLフレームワークを提案する。
シミュレーションの結果,提案手法は従来の集中型DDPG, Twin Delayed Deep Deterministic Policy Gradient (TD3) およびいくつかの典型的な確率的スキームよりも優れていた。
Vehicular edge computing (VEC) is an emerging technology with significant potential in the field of internet of vehicles (IoV), enabling vehicles to perform intensive computational tasks locally or offload them to nearby edge devices. However, the quality of communication links may be severely deteriorated due to obstacles such as buildings, impeding the offloading process. To address this challenge, we introduce the use of Reconfigurable Intelligent Surfaces (RIS), which provide alternative communication pathways to assist vehicular communication. By dynamically adjusting the phase-shift of the RIS, the performance of VEC systems can be substantially improved. In this work, we consider a RIS-assisted VEC system, and design an optimal scheme for local execution power, offloading power, and RIS phase-shift, where random task arrivals and channel variations are taken into account. To address the scheme, we propose an innovative deep reinforcement learning (DRL) framework that combines the Deep Deterministic Policy Gradient (DDPG) algorithm for optimizing RIS phase-shift coefficients and the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm for optimizing the power allocation of vehicle user (VU). Simulation results show that our proposed scheme outperforms the traditional centralized DDPG, Twin Delayed Deep Deterministic Policy Gradient (TD3) and some typical stochastic schemes. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# 光原子系統合・校正装置:1 atm to 1$\times$10$^{-11}$Torr in 24h
Apparatus for Optical-Atomic System Integration & Calibration: 1 atm to 1$\times$10$^{-11}$ Torr in 24h ( http://arxiv.org/abs/2407.13129v1 ) ライセンス: Link先を確認 | G. Kestler, K. Ton, J. T. Barreiro, | (参考訳) レーザーによって精密に制御される超低温原子は、特に最先端の量子科学と技術のセンシング、時間保存、計算のための量子基盤である。
しかし、そのような光学原子量子装置のための実験室規模のインフラは、商業的応用にはほとんど変換されない。
期待できる解決策は、小型超高真空(UHV)チャンバー内の低温原子と一体化したチップスケールデバイスに光学レイアウトを小型化することである。
しかし、プロトタイピングの目的のために、テスト用フォトニック装置をUHVチャンバーに迅速に装填または交換することは、大気圧から最適に冷却された1ドル10^{-11}=Torrの超低温原子への避難時間によって制限される。
そこで本研究では,24時間以内で$<1\times10^{-11}$Torrに出力し,交換し,退避するロードロック装置とローディング手順を提案する。
本システムは,超低温原子を用いた様々なフォトニック装置の高速試験とベンチマークを可能にする。
Ultracold atoms exquisitely controlled by lasers are the quantum foundation, particularly for sensing, timekeeping, and computing, of state-of-the-art quantum science and technology. However, the laboratory-scale infrastructure for such optical-atomic quantum apparatuses rarely translates into commercial applications. A promising solution is miniaturizing the optical layouts onto a chip-scale device integrated with cold atoms inside a compact ultra-high vacuum (UHV) chamber. For prototyping purposes, however, rapidly loading or exchanging test photonic devices into a UHV chamber is limited by the evacuation time from atmospheric pressures to the optimal pressures for ultracold atoms of $1\times10^{-11}$ Torr, a process typically taking weeks or months without cryogenics. Here, we present a loadlock apparatus and loading procedure capable of venting, exchanging, and evacuating back to $<1\times10^{-11}$ Torr in under 24 hours. Our system allows for rapid testing and benchmarking of various photonic devices with ultracold atoms. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# ベンガル・デコロニアル・ディスコースとYouTubeコンテンツクリエーターによるコミュニティの再構築
Reimagining Communities through Transnational Bengali Decolonial Discourse with YouTube Content Creators ( http://arxiv.org/abs/2407.13131v1 ) ライセンス: Link先を確認 | Dipto Das, Dhwani Gandhi, Bryan Semaan, | (参考訳) 植民地主義 — 外国組織が地域社会に生活様式を課す政策と実践 — は歴史的に、集団が他者との関係においてどのように自分を知覚するかに影響を及ぼした。
植民地主義は民族主義を通じて、民族主義は共通の言語、文化、宗教、地政学的境界を通じてしばしば理解される。
植民地主義が国民のナショナリズムに対する経験を形作るやり方は、長い間、異なる国家のメンバー間の歴史的対立を形作ってきた。
近年の社会コンピューティング研究は、植民地化によって疎外された人々が、自己の言葉で植民地化や再想像をし、自身の言葉でコミュニティを再生するための言論にどのように関与できるかを研究する一方で、テクノロジーが民族主義を再想像する上で、植民地化の言論をいかに支援できるかがあまり理解されていない。
この現象を理解するために、この研究は、バングラデシュ、インド、パキスタンにまたがる植民地化の産物として生活が盛り上げられた文化的なベンガル人についてのビデオを制作するYouTuberとの半構造化インタビュー研究に基づいている。
本研究は、国際的文脈におけるビデオによるデコロナール談話への人々のモチベーションと戦略を理解することを目的としている。
本稿では,オンライン・デコロニアル・談話の社会物質性の可能性について論じるとともに,社会コンピューティング研究におけるナショナリズムの複雑さを先導する招待状を拡張した。
Colonialism--the policies and practices wherein a foreign body imposes its ways of life on local communities--has historically impacted how collectives perceive themselves in relation to others. One way colonialism has impacted how people see themselves is through nationalism, where nationalism is often understood through shared language, culture, religion, and geopolitical borders. The way colonialism has shaped people's experiences with nationalism has shaped historical conflicts between members of different nation-states for a long time. While recent social computing research has studied how colonially marginalized people can engage in discourse to decolonize or re-imagine and reclaim themselves and their communities on their own terms--what is less understood is how technology can better support decolonial discourses in an effort to re-imagine nationalism. To understand this phenomenon, this research draws on a semi-structured interview study with YouTubers who make videos about culturally Bengali people whose lives were upended as a product of colonization and are now dispersed across Bangladesh, India, and Pakistan. This research seeks to understand people's motivations and strategies for engaging in video-mediated decolonial discourse in transnational contexts. We discuss how our work demonstrates the potential of the sociomateriality of decolonial discourse online and extends an invitation to foreground complexities of nationalism in social computing research. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# LSD3K : 腹腔鏡下手術画像からの煙除去のためのベンチマーク
LSD3K: A Benchmark for Smoke Removal from Laparoscopic Surgery Images ( http://arxiv.org/abs/2407.13132v1 ) ライセンス: Link先を確認 | Wenhui Chang, Hongming Chen, | (参考訳) 腹腔鏡下手術で手術器具が生み出す煙は視野を曖昧にし、外科医が正確に安全に手術を行う能力を損なう。
したがって、腹腔鏡画像の煙除去作業が極めて望ましい。
腹腔鏡画像の喫煙は近年研究者の注目を集め、いくつかのアルゴリズムが登場したが、このタスクの開発進捗を妨げる主要なボトルネックは、公開可能な高品質なベンチマークデータセットの欠如である。
この領域を推し進めるために、3000対の合成非均一な煙像からなるLSD3Kという、腹腔鏡下手術画像デスモーキングのための新しい高品質データセットを構築した。
本稿では,Blender を用いた煙形状のモデル化,Colec80 データセットからの地味画像の収集,煙マスクのランダムサンプリングなどを含む,データセット生成パイプラインを提案する。
提案したベンチマークに基づいて,既存の代表喫煙アルゴリズムの包括的評価を行った。
提案されたデータセットはhttps://drive.google.com/file/d/1v0U5_3S4nJpaUiP898Q0pc-MfEAtnbOq/view?
usp=共有
Smoke generated by surgical instruments during laparoscopic surgery can obscure the visual field, impairing surgeons' ability to perform operations accurately and safely. Thus, smoke removal task for laparoscopic images is highly desirable. Despite laparoscopic image desmoking has attracted the attention of researchers in recent years and several algorithms have emerged, the lack of publicly available high-quality benchmark datasets is the main bottleneck to hamper the development progress of this task. To advance this field, we construct a new high-quality dataset for Laparoscopic Surgery image Desmoking, named LSD3K, consisting of 3,000 paired synthetic non-homogeneous smoke images. In this paper, we provide a dataset generation pipeline, which includes modeling smoke shape using Blender, collecting ground-truth images from the Cholec80 dataset, random sampling of smoke masks and etc. Based on the proposed benchmark, we further conducted a comprehensive evaluation of the existing representative desmoking algorithms. The proposed dataset is publicly available at https://drive.google.com/file/d/1v0U5_3S4nJpaUiP898Q0pc-MfEAtnbOq/view?usp=sharing | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# FocusDiffuser:カモフラーゲ型物体検出のための局所的差異の認識
FocusDiffuser: Perceiving Local Disparities for Camouflaged Object Detection ( http://arxiv.org/abs/2407.13133v1 ) ライセンス: Link先を確認 | Jianwei Zhao, Xin Li, Fan Yang, Qiang Zhai, Ao Luo, Zicheng Jiao, Hong Cheng, | (参考訳) 物体が周囲にシームレスに混ざり合っていることを検出することは、人間の認知能力と高度な人工知能アルゴリズムの両方にとって複雑なタスクである。
現在、カモフラージュされた物体を検出する手法の大半は、様々なユニークなデザインを持つ識別モデルの利用に重点を置いている。
しかし, 安定拡散のような生成モデルは, 複雑な環境下での様々な物体の理解能力が強く, カモフラージュされた物体の認識と検出の可能性は広く研究されていない。
本研究では,カモフラージュされた物体の検出と解釈を,生成モデルがいかに向上させるかを検討するために,新しい微分拡散モデルであるFocusDiffuserを提案する。
カモフラージュされた物体を見つける秘密は、細部において微妙なニュアンスを捉えることにあると我々は信じている。
その結果、FocusDiffuserは、特にBundary-Driven LookUp(BDLU)モジュールとCyclic Positioning(CP)モジュールを革新的に統合し、標準拡散モデルを高め、ディテール指向の分析能力を著しく向上させました。
実験の結果,FocusDiffuserは,CAMO, COD10K, NC4Kなどのベンチマークにおいて, カモフラージュされたオブジェクト検出の課題に効果的に対処していることがわかった。
Detecting objects seamlessly blended into their surroundings represents a complex task for both human cognitive capabilities and advanced artificial intelligence algorithms. Currently, the majority of methodologies for detecting camouflaged objects mainly focus on utilizing discriminative models with various unique designs. However, it has been observed that generative models, such as Stable Diffusion, possess stronger capabilities for understanding various objects in complex environments; Yet their potential for the cognition and detection of camouflaged objects has not been extensively explored. In this study, we present a novel denoising diffusion model, namely FocusDiffuser, to investigate how generative models can enhance the detection and interpretation of camouflaged objects. We believe that the secret to spotting camouflaged objects lies in catching the subtle nuances in details. Consequently, our FocusDiffuser innovatively integrates specialized enhancements, notably the Boundary-Driven LookUp (BDLU) module and Cyclic Positioning (CP) module, to elevate standard diffusion models, significantly boosting the detail-oriented analytical capabilities. Our experiments demonstrate that FocusDiffuser, from a generative perspective, effectively addresses the challenge of camouflaged object detection, surpassing leading models on benchmarks like CAMO, COD10K and NC4K. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# OE-BevSeg:バードアイビュー車両セマンティックセマンティックセグメンテーションのためのマルチモーダル・フレームワーク
OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation ( http://arxiv.org/abs/2407.13137v1 ) ライセンス: Link先を確認 | Jian Sun, Yuqi Dai, Chi-Man Vong, Qing Xu, Shengbo Eben Li, Jianqiang Wang, Lei He, Keqiang Li, | (参考訳) Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
2次元多視点画像を3次元の世界空間に投影することで,環境認識の環境認識を実現する。
近年、BEVセグメンテーションは、より良いビュー変換モジュール、より大きな画像エンコーダ、より時間的な情報による、顕著な進歩を遂げている。
しかし、まだ2つの問題がある。
1)BEV空間の特徴の効果的な理解と強化の欠如、特に長距離環境の特徴を正確に把握すること。
2)対象物の細部を認識すること。
これらの課題に対処するために,グローバル環境認識と局所目標オブジェクト拡張を通じて,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
OE-BevSegは環境対応のBEV圧縮機を使用している。
距離間隔の増加に伴って変化するBEV周囲環境の主成分に関する事前知識に基づいて, 長期グローバルモデリングを用いて, モデルによる環境の理解と認識を改善する。
セグメンテーション結果における対象対象情報の充実の観点から、センタネス情報を用いてセグメンテーションヘッドを監督・案内し、局所エンハンスメントの観点からセグメンテーション性能を向上させるセンターインフォームドオブジェクトエンハンスメントモジュールを導入する。
さらに,マルチビューRGB画像機能とレーダ/LiDAR機能を統合したマルチモーダル融合ブランチを設計し,大幅な性能向上を実現した。
広汎な実験により, カメラオンリー, マルチモーダル融合BEVセグメンテーションタスクにおいても, 車両セグメンテーションのためのnuScenesデータセットにおいて, 最先端の成果が得られ, 自律走行の分野での優れた適用性が示された。
Bird's-eye-view (BEV) semantic segmentation is becoming crucial in autonomous driving systems. It realizes ego-vehicle surrounding environment perception by projecting 2D multi-view images into 3D world space. Recently, BEV segmentation has made notable progress, attributed to better view transformation modules, larger image encoders, or more temporal information. However, there are still two issues: 1) a lack of effective understanding and enhancement of BEV space features, particularly in accurately capturing long-distance environmental features and 2) recognizing fine details of target objects. To address these issues, we propose OE-BevSeg, an end-to-end multimodal framework that enhances BEV segmentation performance through global environment-aware perception and local target object enhancement. OE-BevSeg employs an environment-aware BEV compressor. Based on prior knowledge about the main composition of the BEV surrounding environment varying with the increase of distance intervals, long-sequence global modeling is utilized to improve the model's understanding and perception of the environment. From the perspective of enriching target object information in segmentation results, we introduce the center-informed object enhancement module, using centerness information to supervise and guide the segmentation head, thereby enhancing segmentation performance from a local enhancement perspective. Additionally, we designed a multimodal fusion branch that integrates multi-view RGB image features with radar/LiDAR features, achieving significant performance improvements. Extensive experiments show that, whether in camera-only or multimodal fusion BEV segmentation tasks, our approach achieves state-of-the-art results by a large margin on the nuScenes dataset for vehicle segmentation, demonstrating superior applicability in the field of autonomous driving. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# インストラクション誘導画像編集における画像描画モデルの有用性
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing ( http://arxiv.org/abs/2407.13139v1 ) ライセンス: Link先を確認 | Xuan Ju, Junhao Zhuang, Zhaoyang Zhang, Yuxuan Bian, Qiang Xu, Ying Shan, | (参考訳) CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-Guided Image Editing Trackの優勝論文である。
近年,指導指導による画像編集が盛んに研究されている。
SmartEditやMGIEのような最も先進的な手法は、大きめの言語モデルと共同トレーニングによる拡散モデルを組み合わせており、後者はテキスト理解能力を提供し、後者は画像生成能力を提供する。
しかし,実験の結果,大規模な言語モデルと画像生成モデルとの結合をマスクなどの中間的ガイダンスで行うだけで,より優れた編集性能と成功率が得られることがわかった。
4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。
その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
This is the technique report for the winning solution of the CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing track. Instruction-guided image editing has been largely studied in recent years. The most advanced methods, such as SmartEdit and MGIE, usually combine large language models with diffusion models through joint training, where the former provides text understanding ability, and the latter provides image generation ability. However, in our experiments, we find that simply connecting large language models and image generation models through intermediary guidance such as masks instead of joint fine-tuning leads to a better editing performance and success rate. We use a 4-step process IIIE (Inpainting-based Instruction-guided Image Editing): editing category classification, main editing object identification, editing mask acquisition, and image inpainting. Results show that through proper combinations of language models and image inpainting models, our pipeline can reach a high success rate with satisfying visual quality. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# 非負のカーネル回帰を用いたソフトクラスタリングによるアウト・オブ・ディストリビューション検出
Out-of-Distribution Detection through Soft Clustering with Non-Negative Kernel Regression ( http://arxiv.org/abs/2407.13141v1 ) ライセンス: Link先を確認 | Aryan Gulati, Xingjian Dong, Carlos Hurtado, Sarath Shekkizhar, Swabha Swayamdipta, Antonio Ortega, | (参考訳) 言語モデルがより汎用的になるにつれて、トレーニング中に見られる分布に属さないもの(out-of-distriion(OOD)インスタンスの検出に注意を払う必要がある。
既存のOODデータ検出方法は計算処理が複雑で、ストレージ集約である。
非負のカーネル回帰に基づくOOD検出のためのソフトクラスタリング手法を提案する。
提案手法は計算と空間の複雑さを大幅に減らし(推論時間の最大11倍改善とストレージ要求の87%削減)、4つのベンチマークで最大4つのAUROCポイントを上回ります。
また,提案アルゴリズムのエントロピー制約バージョンを導入し,競合性能を維持しつつ,ストレージ要件のさらなる削減(比較可能なアプローチよりも最大97%低い)を実現した。
OOD検出のためのソフトクラスタリング手法は、超大規模データ設定におけるテールエンド現象の検出の可能性を強調している。
As language models become more general purpose, increased attention needs to be paid to detecting out-of-distribution (OOD) instances, i.e., those not belonging to any of the distributions seen during training. Existing methods for detecting OOD data are computationally complex and storage-intensive. We propose a novel soft clustering approach for OOD detection based on non-negative kernel regression. Our approach greatly reduces computational and space complexities (up to 11x improvement in inference time and 87% reduction in storage requirements) and outperforms existing approaches by up to 4 AUROC points on four different benchmarks. We also introduce an entropy-constrained version of our algorithm, which leads to further reductions in storage requirements (up to 97% lower than comparable approaches) while retaining competitive performance. Our soft clustering approach for OOD detection highlights its potential for detecting tail-end phenomena in extreme-scale data settings. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# オンデバイスストリーミングASRのための軽量で効率的な句読解と単語ケーシング予測モデル
A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR ( http://arxiv.org/abs/2407.13142v1 ) ライセンス: Link先を確認 | Jian You, Xiangfeng Li, | (参考訳) 自動音声認識(ASR)には,句読解と単語キャシング予測が必要である。
オンデバイス・エンド・ツー・エンドのストリーミングASRシステムの普及に伴い、デバイス上の句読点とワードケーシング予測が必須となり、これについてはほとんど議論されていない。
Transformerの登場に伴い、Transformerベースのモデルがこのシナリオのために検討されている。
しかし、Transformerベースのモデルはデバイス上のASRシステムでは大きすぎる。
本稿では,句読点と単語のケーシングをリアルタイムに予測する軽量で効率的なモデルを提案する。
このモデルは、畳み込みニューラルネットワーク(CNN)と双方向長短期記憶(BiLSTM)に基づいている。
IWSLT2011テストセットの実験結果から,提案モデルではF1スコア全体の非トランスフォーマーモデルと比較して9%の相対的改善が得られた。
トランスフォーマーモデルと比較すると,提案モデルは1倍の大きさで,推定時間では2.5倍の速さで代表モデルに匹敵する結果が得られる。
オンデバイスストリーミングのASRシステムに適している。
私たちのコードは公開されています。
Punctuation and word casing prediction are necessary for automatic speech recognition (ASR). With the popularity of on-device end-to-end streaming ASR systems, the on-device punctuation and word casing prediction become a necessity while we found little discussion on this. With the emergence of Transformer, Transformer based models have been explored for this scenario. However, Transformer based models are too large for on-device ASR systems. In this paper, we propose a light-weight and efficient model that jointly predicts punctuation and word casing in real time. The model is based on Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM). Experimental results on the IWSLT2011 test set show that the proposed model obtains 9% relative improvement compared to the best of non-Transformer models on overall F1-score. Compared to the representative of Transformer based models, the proposed model achieves comparable results to the representative model while being only one-fortieth its size and 2.5 times faster in terms of inference time. It is suitable for on-device streaming ASR systems. Our code is publicly available. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# 統合ハードウェアアーキテクチャとデバイス配置探索
Integrated Hardware Architecture and Device Placement Search ( http://arxiv.org/abs/2407.13143v1 ) ライセンス: Link先を確認 | Irene Wang, Jakub Tarnawski, Amar Phanishayee, Divya Mahajan, | (参考訳) ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、新しいアルゴリズムによって最適なアーキテクチャとデバイス配置戦略を決定すること、計算資源、メモリ使用量、データ分散のバランスを改善することの共最適化を探求する最初の試みである。
アーキテクチャ検索ではテンソルとベクトル単位を利用し,その量と次元,オンチップとオフチップのメモリ構成を決定する。
また、マイクロバッチサイズを決定し、トレーニングのメモリフットプリントとストレージサイズのバランスを取りながら、再計算またはスタッシュアクティベーションを決定する。
Integer Linear Program (ILP) を用いて、各アーキテクチャ構成を探索し、アクセル上の演算子の実行に最適なスケジュールを求める。
ILPの結果は動的プログラミングソリューションと統合され、複数のアクセラレーターにまたがるデータ、パイプライン、テンソルモデルの並列性を組み合わせ、最も効果的なデバイス配置戦略を特定する。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
PHAZEのソースコードはhttps://github.com/msr-fiddle/phaze.comで公開されている。
Distributed execution of deep learning training involves a dynamic interplay between hardware accelerator architecture and device placement strategy. This is the first work to explore the co-optimization of determining the optimal architecture and device placement strategy through novel algorithms, improving the balance of computational resources, memory usage, and data distribution. Our architecture search leverages tensor and vector units, determining their quantity and dimensionality, and on-chip and off-chip memory configurations. It also determines the microbatch size and decides whether to recompute or stash activations, balancing the memory footprint of training and storage size. For each explored architecture configuration, we use an Integer Linear Program (ILP) to find the optimal schedule for executing operators on the accelerator. The ILP results then integrate with a dynamic programming solution to identify the most effective device placement strategy, combining data, pipeline, and tensor model parallelism across multiple accelerators. Our approach achieves higher throughput on large language models compared to the state-of-the-art TPUv4 and the Spotlight accelerator search framework. The entire source code of PHAZE is available at https://github.com/msr-fiddle/phaze. | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# PG-Rainbow:ポリシグラディエント手法における分散強化学習の利用
PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods ( http://arxiv.org/abs/2407.13146v1 ) ライセンス: Link先を確認 | WooJae Jeon, KanJun Lee, Jeewoo Lee, | (参考訳) 本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
既存の政策勾配法は、サンプル非効率であり、状態-作用値関数を計算するときのリターン平均に依存し、強化学習タスクにおけるリターンの分布特性を無視する。
この問題に対処するために,近似ポリシ最適化アルゴリズムの批判ネットワークに対して,報酬分布の定量情報を提供するImplicit Quantile Networkを使用する。
政策エージェントは、報酬分配情報を政策ネットワークに統合することで、与えられた状態における潜在的行動の結果を包括的に評価し、より高度で情報に富んだ意思決定プロセスを容易にする能力を得る。
アーケード学習環境(ALE)を模擬したAtari-2600ゲームスイートにおける提案アルゴリズムの性能評価を行った。
This paper introduces PG-Rainbow, a novel algorithm that incorporates a distributional reinforcement learning framework with a policy gradient algorithm. Existing policy gradient methods are sample inefficient and rely on the mean of returns when calculating the state-action value function, neglecting the distributional nature of returns in reinforcement learning tasks. To address this issue, we use an Implicit Quantile Network that provides the quantile information of the distribution of rewards to the critic network of the Proximal Policy Optimization algorithm. We show empirical results that through the integration of reward distribution information into the policy network, the policy agent acquires enhanced capabilities to comprehensively evaluate the consequences of potential actions in a given state, facilitating more sophisticated and informed decision-making processes. We evaluate the performance of the proposed algorithm in the Atari-2600 game suite, simulated via the Arcade Learning Environment (ALE). | 翻訳日:2024-07-19 18:53:59 公開日:2024-07-18 |
# DFMSD: 物体検出のための段階的知識蒸留
DFMSD: Dual Feature Masking Stage-wise Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2407.13147v1 ) ライセンス: Link先を確認 | Zhourui Zhang, Jun Li, Zhijian Wu, Jifeng Shen, Jianhua Xu, | (参考訳) 近年,教師ネットワークの特徴マップから学生ネットワークの選択的マスキング領域を再構築することで,現在主流のマスキング蒸留法が主に機能している。
これらの方法では、教師の特徴と類似した十分な識別力と表現力で、再構成された特徴が符号化されるように、空間的に重要な領域と重要なオブジェクト認識チャネルの手がかりを識別するのに役立つ。
しかし, 従来の特徴マスキング蒸留法は, 不均一な知識蒸留シナリオを考慮せずに, 均質な知識蒸留を主目的としていた。
特に, 不均一蒸留パラダイムにおける教師と学生の枠組みの相違は, 特徴マスキングに有害であり, 再建された生徒の特徴を損なう。
本研究では,DFMSDと呼ばれる新しい二重特徴マスキングヘテロジニアス蒸留法を提案する。
より具体的には、段階的適応学習モジュールを二重特徴マスキングフレームワークに組み込んで、異種ネットワーク間のギャップを埋めるための教師モデルに学生モデルを段階的に適応させることができる。
さらに、マスキング強化戦略と段階学習を組み合わせることで、オブジェクト認識マスキング領域を適応的に強化し、特徴マスキング再構築を改善する。
さらに、教師と学生ネットワーク間の各特徴ピラミッドネットワーク(FPN)層でセマンティックアライメントを行い、一貫した特徴分布を生成する。
対象物検出タスクに対する実験により, DFMSDは, 最先端の不均質蒸留法と同質蒸留法の両方に優れていたことが示唆された。
In recent years, current mainstream feature masking distillation methods mainly function by reconstructing selectively masked regions of a student network from the feature maps of a teacher network. In these methods, attention mechanisms can help to identify spatially important regions and crucial object-aware channel clues, such that the reconstructed features are encoded with sufficient discriminative and representational power similar to teacher features. However, previous feature-masking distillation methods mainly address homogeneous knowledge distillation without fully taking into account the heterogeneous knowledge distillation scenario. In particular, the huge discrepancy between the teacher and the student frameworks within the heterogeneous distillation paradigm is detrimental to feature masking, leading to deteriorating reconstructed student features. In this study, a novel dual feature-masking heterogeneous distillation framework termed DFMSD is proposed for object detection. More specifically, a stage-wise adaptation learning module is incorporated into the dual feature-masking framework, and thus the student model can be progressively adapted to the teacher models for bridging the gap between heterogeneous networks. Furthermore, a masking enhancement strategy is combined with stage-wise learning such that object-aware masking regions are adaptively strengthened to improve feature-masking reconstruction. In addition, semantic alignment is performed at each Feature Pyramid Network (FPN) layer between the teacher and the student networks for generating consistent feature distributions. Our experiments for the object detection task demonstrate the promise of our approach, suggesting that DFMSD outperforms both the state-of-the-art heterogeneous and homogeneous distillation methods. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# SAR画像変化検出のためのウェーブレットに基づく二次元アグリゲーションネットワーク
Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection ( http://arxiv.org/abs/2407.13151v1 ) ライセンス: Link先を確認 | Jiangwei Xie, Feng Gao, Xiaowei Zhou, Junyu Dong, | (参考訳) 合成開口レーダ(SAR)画像変化検出はリモートセンシング画像解析において重要である。
近年,アテンション機構は変化検出タスクに広く利用されている。
しかし、既存の注意機構では、計算効率を高めるためにキーとバリューコンポーネントの平均プーリングのようなダウンサンプリング処理を用いることが多い。
これらの不可逆演算は、高周波成分の喪失やその他の重要な情報をもたらす。
この制限に対処するため、SAR画像変化検出のためのWavelet-based Bi-dimensional Aggregation Network (WBANet) を開発した。
本稿では,ウェーブレット変換とキーおよびバリューコンポーネント上の逆離散ウェーブレット変換を含むウェーブレットベースの自己アテンションブロックを設計する。
したがって、この機能は情報を失うことなくダウンサンプリングを行い、同時に、拡張された受容領域を通して局所的な文脈認識を強化する。
さらに,放送機構を介して空間情報とチャネル情報を融合することにより,非線形表現能力を高める2次元アグリゲーションモジュールを組み込んだ。
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
具体的には、WBANetは、それぞれのデータセット上で98.33\%、96.65\%、96.62\%の正確な分類(PCC)を達成した。
ソースコードは \url{https://github.com/summitgao/WBANet} で入手できる。
Synthetic aperture radar (SAR) image change detection is critical in remote sensing image analysis. Recently, the attention mechanism has been widely used in change detection tasks. However, existing attention mechanisms often employ down-sampling operations such as average pooling on the Key and Value components to enhance computational efficiency. These irreversible operations result in the loss of high-frequency components and other important information. To address this limitation, we develop Wavelet-based Bi-dimensional Aggregation Network (WBANet) for SAR image change detection. We design a wavelet-based self-attention block that includes discrete wavelet transform and inverse discrete wavelet transform operations on Key and Value components. Hence, the feature undergoes downsampling without any loss of information, while simultaneously enhancing local contextual awareness through an expanded receptive field. Additionally, we have incorporated a bi-dimensional aggregation module that boosts the non-linear representation capability by merging spatial and channel information via broadcast mechanism. Experimental results on three SAR datasets demonstrate that our WBANet significantly outperforms contemporary state-of-the-art methods. Specifically, our WBANet achieves 98.33\%, 96.65\%, and 96.62\% of percentage of correct classification (PCC) on the respective datasets, highlighting its superior performance. Source codes are available at \url{https://github.com/summitgao/WBANet}. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# プライバシ制御音声音声合成システムにおけるプレセット音声マッチング
Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems ( http://arxiv.org/abs/2407.13153v1 ) ライセンス: Link先を確認 | Daniel Platnick, Bishoy Abdelnour, Eamon Earl, Rahul Kumar, Zahra Rezaei, Thomas Tsangaris, Faraj Lagum, | (参考訳) 近年,産業環境における音声合成システム(S2ST)の需要が高まっている。
商業化は成功したが、クローンベースのS2STシステムは、個人によって誤用された場合、その流通業者を負債に晒し、メディア組織によって悪用された場合、人格の権利を侵害することができる。
この研究は、Preset-Voice Matching (PVM)と呼ばれる規制付きS2STフレームワークを提案する。
PVMは、まず入力音声と、ターゲット言語における類似の同意話者音声とをマッチングすることにより、S2STにおける言語間音声のクローニングを除去する。
この分離により、PVMは入力話者のクローンを回避し、PVMシステムは規則に準拠し、誤用リスクを低減する。
提案手法は,複数話者設定におけるS2STシステムの実行時間とS2ST合成音声の自然性を大幅に向上させることができることを示す。
私たちの知る限り、PVMは、動的S2STタスクに類似のマッチング済みプリセットボイスを活用する、最初に明示的に規制されたS2STフレームワークです。
In recent years, there has been increased demand for speech-to-speech translation (S2ST) systems in industry settings. Although successfully commercialized, cloning-based S2ST systems expose their distributors to liabilities when misused by individuals and can infringe on personality rights when exploited by media organizations. This work proposes a regulated S2ST framework called Preset-Voice Matching (PVM). PVM removes cross-lingual voice cloning in S2ST by first matching the input voice to a similar prior consenting speaker voice in the target-language. With this separation, PVM avoids cloning the input speaker, ensuring PVM systems comply with regulations and reduce risk of misuse. Our results demonstrate PVM can significantly improve S2ST system run-time in multi-speaker settings and the naturalness of S2ST synthesized speech. To our knowledge, PVM is the first explicitly regulated S2ST framework leveraging similarly-matched preset-voices for dynamic S2ST tasks. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# Geometric-Semantic Disentanglementによるリアルタイム3次元動作予測
Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement ( http://arxiv.org/abs/2407.13155v1 ) ライセンス: Link先を確認 | Yulin He, Wei Chen, Tianci Xun, Yusong Tan, | (参考訳) 職業予測は、微粒な幾何学的知覚と一般的な物体認識能力により、自律運転(AD)において重要な役割を担っている。
しかし、既存の手法はしばしば高い計算コストを発生させ、ADのリアルタイム要求とは矛盾する。
この目的のために、我々はまず、一般に利用可能なほとんどのメソッドの速度とメモリ使用量を評価し、焦点を単に精度を優先することから、効率も考慮することを目的としている。
次に、高速かつ正確な性能を達成する上でのコア課題を特定します: \textbf{the strong coupling between geometry and semantic}。
この問題に対処する。
1) ハイブリッドBEV-Voxel表現を用いたジオメトリ・セマンティックデュアルブランチネットワーク(GSDBN)を提案する。
BEVブランチでは、高密度な意味的特徴を抽出するために、BEVレベルの時間融合モジュールとU-Netエンコーダが導入された。
ボクセル分岐では、スパース3次元形状を洗練し、計算量を削減するために、大カーネル再パラメータ化3次元畳み込みが提案されている。
さらに,両枝の機能融合のために,BEV機能をボクセル空間に投射する新しいBEV-ボクセル昇降モジュールを提案する。
ネットワーク設計に加えて。
2)Geometric-Semantic Decoupled Learning(GSDL)戦略も提案する。
この戦略は最初、接地構造深度を用いて正確な幾何学のセマンティクスを学習し、その後予測された深度を徐々に混合して予測された幾何にモデルを適応させる。
Occ3D-nuScenesベンチマークによる大規模な実験により,20.0FPSの39.4mIoUを実現した。
この結果は、CVPR2023 3D Occupancy Prediction Challengeの勝者であるFB-OCCと比較して、$\sim 3 \times$ faster and +1.9 mIoU である。
私たちのコードはオープンソースにされます。
Occupancy prediction plays a pivotal role in autonomous driving (AD) due to the fine-grained geometric perception and general object recognition capabilities. However, existing methods often incur high computational costs, which contradicts the real-time demands of AD. To this end, we first evaluate the speed and memory usage of most public available methods, aiming to redirect the focus from solely prioritizing accuracy to also considering efficiency. We then identify a core challenge in achieving both fast and accurate performance: \textbf{the strong coupling between geometry and semantic}. To address this issue, 1) we propose a Geometric-Semantic Dual-Branch Network (GSDBN) with a hybrid BEV-Voxel representation. In the BEV branch, a BEV-level temporal fusion module and a U-Net encoder is introduced to extract dense semantic features. In the voxel branch, a large-kernel re-parameterized 3D convolution is proposed to refine sparse 3D geometry and reduce computation. Moreover, we propose a novel BEV-Voxel lifting module that projects BEV features into voxel space for feature fusion of the two branches. In addition to the network design, 2) we also propose a Geometric-Semantic Decoupled Learning (GSDL) strategy. This strategy initially learns semantics with accurate geometry using ground-truth depth, and then gradually mixes predicted depth to adapt the model to the predicted geometry. Extensive experiments on the widely-used Occ3D-nuScenes benchmark demonstrate the superiority of our method, which achieves a 39.4 mIoU with 20.0 FPS. This result is $\sim 3 \times$ faster and +1.9 mIoU higher compared to FB-OCC, the winner of CVPR2023 3D Occupancy Prediction Challenge. Our code will be made open-source. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# 量子ネットワークにおける量子鍵分配ルーティングプロトコルの概要と課題
Quantum Key Distribution Routing Protocol in Quantum Networks: Overview and Challenges ( http://arxiv.org/abs/2407.13156v1 ) ライセンス: Link先を確認 | Pankaj Kumar, Neel Kanth Kundu, Binayak Kar, | (参考訳) 日常的な応用における量子暗号の利用は、産業分野と学術分野の両方で注目されている。
量子エレクトロニクスの進歩により、実用的な量子デバイスはすでに市場に出回っており、広く使われる準備ができている。
量子鍵分布(Quantum Key Distribution, QKD)は、量子物理学の原理を用いて、地理的に分離されたユーザ間で対称暗号鍵を生成し、配布する量子暗号の重要な側面である。
様々なソリューションをテストするために、多くの成功したQKDネットワークが確立されている。
本研究の目的は、量子鍵分布の文脈において、量子力学の原理に根ざしたユニークな性質によって区別される、確立されたルーティング設計技術を活用する可能性を探ることである。
しかし、これらの手法の実装は、量子メモリのデコヒーレンス、キーレート生成、遅延遅延、量子システム固有のノイズ、限られた通信範囲、高度に専門化されたハードウェアの必要性など、重大な課題を生んでいる。
本稿では,量子鍵分布の設計手法に関する重要な研究について詳細に検討する。
また、量子ルーティングの基本的な側面と、量子QKDに固有の性質についても検討している。
本稿では, 効率的かつレジリエントなQKDネットワーク構築に必要なステップを解明する。
本論文は,QKDネットワークとルーティングに関連する技術,基礎となる原則,プロトコル,課題を要約し,今後の研究の方向性を明らかにする。
The use of quantum cryptography in everyday applications has gained attention in both industrial and academic fields. Due to advancements in quantum electronics, practical quantum devices are already available in the market, and ready for wider use. Quantum Key Distribution (QKD) is a crucial aspect of quantum cryptography, which involves generating and distributing symmetric cryptographic keys between geographically separated users using principles of quantum physics. Many successful QKD networks have been established to test different solutions. The objective of this paper is to delve into the potential of utilizing established routing design techniques in the context of quantum key distribution, a field distinguished by its unique properties rooted in the principles of quantum mechanics. However, the implementation of these techniques poses substantial challenges, including quantum memory decoherence, key rate generation, latency delays, inherent noise in quantum systems, limited communication ranges, and the necessity for highly specialized hardware. This paper conducts an in-depth examination of essential research pertaining to the design methodologies for quantum key distribution. It also explores the fundamental aspects of quantum routing and the associated properties inherent to quantum QKD. This paper elucidates the necessary steps for constructing efficient and resilient QKD networks. In summarizing the techniques relevant to QKD networking and routing, including their underlying principles, protocols, and challenges, this paper sheds light on potential applications and delineates future research directions in this burgeoning field. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# ノイズのある擬似ラベルからカモフラージュされた物体検出を学習する
Learning Camouflaged Object Detection from Noisy Pseudo Label ( http://arxiv.org/abs/2407.13157v1 ) ライセンス: Link先を確認 | Jin Zhang, Ruiheng Zhang, Yanjiao Shi, Zhe Cao, Nian Liu, Fahad Shahbaz Khan, | (参考訳) 既存のCamouflaged Object Detection (COD) 法は、時間と労力のかかる大規模なピクセルアノテートトレーニングセットに大きく依存している。
弱い教師付き手法は高いアノテーション効率を提供するが、その性能はカモフラージュ画像における前景と背景の間の不明瞭な視覚的境界のためにはるかに遅れている。
本稿では,カモフラージュシーンのプロンプトとしてボックスを使用することの可能性について検討し,予算効率と高精度なカモフラージュオブジェクトセグメンテーションを目的とした,第1の弱い半教師付きCOD法を提案する。
批判的に、そのような制限された集合から学ぶことは、必然的に真にノイズの多いピクセルを持つ擬似ラベルを生成する。
そこで我々は,初期学習段階において,モデルが正しい画素を学習しやすくするノイズ補正損失を提案し,暗記段階においてノイズの多い画素が支配する誤差リスク勾配を補正し,最終的にノイズの多いラベルからカモフラージュされたオブジェクトの正確なセグメンテーションを実現する。
完全ラベル付きデータの20%しか使用しない場合,本手法は最先端の手法よりも優れた性能を示す。
Existing Camouflaged Object Detection (COD) methods rely heavily on large-scale pixel-annotated training sets, which are both time-consuming and labor-intensive. Although weakly supervised methods offer higher annotation efficiency, their performance is far behind due to the unclear visual demarcations between foreground and background in camouflaged images. In this paper, we explore the potential of using boxes as prompts in camouflaged scenes and introduce the first weakly semi-supervised COD method, aiming for budget-efficient and high-precision camouflaged object segmentation with an extremely limited number of fully labeled images. Critically, learning from such limited set inevitably generates pseudo labels with serious noisy pixels. To address this, we propose a noise correction loss that facilitates the model's learning of correct pixels in the early learning stage, and corrects the error risk gradients dominated by noisy pixels in the memorization stage, ultimately achieving accurate segmentation of camouflaged objects from noisy labels. When using only 20% of fully labeled data, our method shows superior performance over the state-of-the-art methods. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# HHGT:不均質グラフ表現学習のための階層的不均質グラフ変換器
HHGT: Hierarchical Heterogeneous Graph Transformer for Heterogeneous Graph Representation Learning ( http://arxiv.org/abs/2407.13158v1 ) ライセンス: Link先を確認 | Qiuyu Zhu, Liang Zhang, Qianxiong Xu, Kaijun Liu, Cheng Long, Xiaoyang Wang, | (参考訳) 実世界の異種情報ネットワーク(HIN)のモデリングにおいて、異種グラフニューラルネットワーク(HGNN)の成功にもかかわらず、表現性の制限や過剰なスムーシングといった課題が、HIN表現学習の強化のためにグラフトランスフォーマー(GT)を探索するきっかけとなった。
しかし、HINsにおけるGTの研究は限定的であり、既存の研究において2つの重大な欠点がある: 1) HINs内の異なる距離にいるノードの隣人は多様な意味論を伝達する。
残念ながら、既存の手法はそのような違いを無視し、与えられた距離の隣人を粗い方法で一様に扱い、意味的な混乱をもたらす。
2) HINのノードにはさまざまな型があり、それぞれにユニークなセマンティクスがある。
それにもかかわらず、既存のメソッドは、近隣の集約中に異なるタイプのノードを混在させ、多様なタイプのノード間の適切な相関を捕捉するのを妨げている。
これらのギャップを埋めるために、我々は(k,t)-ring neighborhoodと呼ばれる革新的な構造を設計し、ノードはまずその距離によって構成され、各距離ごとに異なる非重なり合うk-ring neighborhoodを形成する。
各 k-環構造の中で、ノードはそれらのタイプによってさらに異なるグループに分類されるので、HINにおける距離と型の両方の不均一性を自然に強調する。
この構造に基づいて,各kリング近傍の異なるタイプのノードをシームレスに集約するType-level Transformerと,異なるkリング近傍を階層的に集約するRing-level Transformerを併用するHHGT(Hierarchical Heterogeneous Graph Transformer)モデルを提案する。
HHGTの14ベースラインに対する優位性を検証するために、下流タスクで大規模な実験が行われ、最高ベースラインと比較して、ACMデータセット上のノードクラスタリングタスクに対して、NMIで24.75%、ARIで29.25%の顕著な改善がなされた。
Despite the success of Heterogeneous Graph Neural Networks (HGNNs) in modeling real-world Heterogeneous Information Networks (HINs), challenges such as expressiveness limitations and over-smoothing have prompted researchers to explore Graph Transformers (GTs) for enhanced HIN representation learning. However, research on GT in HINs remains limited, with two key shortcomings in existing work: (1) A node's neighbors at different distances in HINs convey diverse semantics. Unfortunately, existing methods ignore such differences and uniformly treat neighbors within a given distance in a coarse manner, which results in semantic confusion. (2) Nodes in HINs have various types, each with unique semantics. Nevertheless, existing methods mix nodes of different types during neighbor aggregation, hindering the capture of proper correlations between nodes of diverse types. To bridge these gaps, we design an innovative structure named (k,t)-ring neighborhood, where nodes are initially organized by their distance, forming different non-overlapping k-ring neighborhoods for each distance. Within each k-ring structure, nodes are further categorized into different groups according to their types, thus emphasizing the heterogeneity of both distances and types in HINs naturally. Based on this structure, we propose a novel Hierarchical Heterogeneous Graph Transformer (HHGT) model, which seamlessly integrates a Type-level Transformer for aggregating nodes of different types within each k-ring neighborhood, followed by a Ring-level Transformer for aggregating different k-ring neighborhoods in a hierarchical manner. Extensive experiments are conducted on downstream tasks to verify HHGT's superiority over 14 baselines, with a notable improvement of up to 24.75% in NMI and 29.25% in ARI for node clustering task on the ACM dataset compared to the best baseline. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# 水中地形における学習型ビジュアルオドメトリーのための中間透過マップを用いた減衰を考慮した重み付き光学流
Attenuation-Aware Weighted Optical Flow with Medium Transmission Map for Learning-based Visual Odometry in Underwater terrain ( http://arxiv.org/abs/2407.13159v1 ) ライセンス: Link先を確認 | Bach Nguyen Gia, Chanh Minh Tran, Kamioka Eiji, Tan Phan Xuan, | (参考訳) 本稿では,水中光画像の原理を取り入れ,光学的フロー推定の操作により,水中環境における学習に基づく単眼視力計測(VO)を改善するという課題に対処する。
水中イメージングの固有の特性を活用して、自律型水中車両(AUV)のVOシステムの精度を高める新しいwflow-TartanVOが導入された。
提案手法は, 水中光散乱・吸収による不確実領域の抑制と低劣化領域の強調のために, 推定光流量の調整を行うため, 標準中透過マップを重みマップとして利用する。
wflow-TartanVOは、事前訓練されたVOモデルの微調整を必要としないため、異なる環境やカメラモデルへの適応性を促進する。
実世界の異なる水中データセットの評価は、絶対軌道誤差 (ATE) が著しく減少していることから、ベースラインVO法よりもwflow-TartanVOが優れていることを示す。
実装コードは、https://github.com/bachzz/wflow-TartanVOで利用可能である。
This paper addresses the challenge of improving learning-based monocular visual odometry (VO) in underwater environments by integrating principles of underwater optical imaging to manipulate optical flow estimation. Leveraging the inherent properties of underwater imaging, the novel wflow-TartanVO is introduced, enhancing the accuracy of VO systems for autonomous underwater vehicles (AUVs). The proposed method utilizes a normalized medium transmission map as a weight map to adjust the estimated optical flow for emphasizing regions with lower degradation and suppressing uncertain regions affected by underwater light scattering and absorption. wflow-TartanVO does not require fine-tuning of pre-trained VO models, thus promoting its adaptability to different environments and camera models. Evaluation of different real-world underwater datasets demonstrates the outperformance of wflow-TartanVO over baseline VO methods, as evidenced by the considerably reduced Absolute Trajectory Error (ATE). The implementation code is available at: https://github.com/bachzz/wflow-TartanVO | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# 検査の定量化法 : 複雑なネットワークによる物理検査からの証拠
How to quantify an examination? Evidence from physics examinations via complex networks ( http://arxiv.org/abs/2407.13161v1 ) ライセンス: Link先を確認 | Min Xia, Zhu Su, Weibing Deng, Xiumei Feng, Benwei Zhang, | (参考訳) 検査の継続的な改善のための未解決の可能性を考えると、定量的調査は学習効率と評価を大幅に向上させる努力を導き、学習者と教育者の双方にとって大きな助けとなる。
しかし、検査の量的方法の欠如が一般的である。
このギャップに対処するため、我々は、複雑なネットワークを介して、知識ポイントネットワーク(KPN)をノードとして表現し、これらのポイントが同じ質問に現れるとリンクを追加することによって、試験の知識ポイントネットワーク(KPN)を構築することを提案する。
次に,KPNのトポロジカルな量(度数,中心性,地域社会など)を用いて,試験の構造的特性と進化を体系的に探求することができる。
本研究は,2006年から2020年までのNCEE試験における35の物理試験を証拠として検討した。
構築されたKPNは、ほとんどの場合、強いアソシティと小さな世界効果を示すスケールフリーネットワークであることが判明した。
KPN内のコミュニティは明らかであり、キーノードは主に力学と電磁磁気に関係している。
異なる質問タイプは特定の知識ポイントと関連付けられており、KPNの顕著な構造変化をもたらす。
さらに,KPNトポロジの変化は,大学入学試験の改革を導く洞察を与える可能性がある。
Fdは, 平均度, ネットワーク密度, 平均クラスタリング係数, ネットワーク推移率などのトポロジー量に基づいて, 試験の難易度を評価する。
これらの結果は,本手法が知識構造と検査特性を包括的に定量化できることを示唆している。
これらのネットワークは、教育者のための総合的な試験知識グラフを解明し、教育改善の指針となる。
Given the untapped potential for continuous improvement of examinations, quantitative investigations of examinations could guide efforts to considerably improve learning efficiency and evaluation and thus greatly help both learners and educators. However, there is a general lack of quantitative methods for investigating examinations. To address this gap, we propose a new metric via complex networks; i.e., the knowledge point network (KPN) of an examination is constructed by representing the knowledge points (concepts, laws, etc.) as nodes and adding links when these points appear in the same question. Then, the topological quantities of KPNs, such as degree, centrality, and community, can be employed to systematically explore the structural properties and evolution of examinations. In this work, 35 physics examinations from the NCEE examination spanning from 2006 to 2020 were investigated as an evidence. We found that the constructed KPNs are scale-free networks that show strong assortativity and small-world effects in most cases. The communities within the KPNs are obvious, and the key nodes are mainly related to mechanics and electromagnetism. Different question types are related to specific knowledge points, leading to noticeable structural variations in KPNs. Moreover, changes in the KPN topology between examinations administered in different years may offer insights guiding college entrance examination reforms. Based on topological quantities such as the average degree, network density, average clustering coefficient, and network transitivity, the Fd is proposed to evaluate examination difficulty. All the above results show that our approach can comprehensively quantify the knowledge structures and examination characteristics. These networks may elucidate comprehensive examination knowledge graphs for educators and guide improvements in teaching. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# ロボットカテーテル化のためのマスタフォロワ遠隔操作システム:設計・評価・追跡制御
A Master-Follower Teleoperation System for Robotic Catheterization: Design, Characterization, and Tracking Control ( http://arxiv.org/abs/2407.13162v1 ) ライセンス: Link先を確認 | Ali A. Nazari, Jeremy Catania, Soroush Sadeghian, Amir Jalali, Houman Masnavi, Farrokh Janabi-Sharifi, Kourosh Zareinia, | (参考訳) 最小限の侵襲的なロボット手術は、過去20年間で大きな注目を集めてきた。
遠隔医療システムとロボットを介する最小侵襲技術を組み合わせることで、外科医や臨床医は医療スタッフの放射線被曝を軽減し、遠隔医療や治療の難しい地域に医療サービスを拡大することができる。
これらのサービスを強化するために、マスターデバイスとフォローデバイスを組み込んだ遠隔操作型ロボット手術システムは透明性を提供し、外科医や臨床医が患者の身体で経験したような力の相互作用を遠隔で体験できるようにする必要がある。
本稿では,ロボットカテーテル化のための3自由度マスターフォロワ遠隔操作システムの設計と開発について述べる。
臨床医の手による介入と似ており、手術中にカテーテル座屈やねじれを除去するグリップインサート放出機構を備えている。
双方向ナビゲート型アブレーションカテーテルは、静的に力覚的医療介入を特徴とする。
システムの性能は、典型的な円形、無限大のような、スパイラルな経路上での接近経路と開ループ経路の追跡によって評価される。
経路追跡誤差は平均ユークリッド誤差(MEE)と平均絶対誤差(MAE)として表される。
MEEは0.64cm(無限のような経路)から1.53cm(スピラルパス)まで幅がある。
MAEは0.81cm(無限のような経路)から1.92cm(スピラルパス)まで幅がある。
その結果、オープンループコントローラによるシステム精度と精度が設計目標を満たす一方で、カテーテルのヒステリシスやデッドゾーン、システム非線形性に対処するためにクローズドループコントローラが必要であることが示唆された。
Minimally invasive robotic surgery has gained significant attention over the past two decades. Telerobotic systems, combined with robot-mediated minimally invasive techniques, have enabled surgeons and clinicians to mitigate radiation exposure for medical staff and extend medical services to remote and hard-to-reach areas. To enhance these services, teleoperated robotic surgery systems incorporating master and follower devices should offer transparency, enabling surgeons and clinicians to remotely experience a force interaction similar to the one the follower device experiences with patients' bodies. This paper presents the design and development of a three-degree-of-freedom master-follower teleoperated system for robotic catheterization. To resemble manual intervention by clinicians, the follower device features a grip-insert-release mechanism to eliminate catheter buckling and torsion during operation. The bidirectionally navigable ablation catheter is statically characterized for force-interactive medical interventions. The system's performance is evaluated through approaching and open-loop path tracking over typical circular, infinity-like, and spiral paths. Path tracking errors are presented as mean Euclidean error (MEE) and mean absolute error (MAE). The MEE ranges from 0.64 cm (infinity-like path) to 1.53 cm (spiral path). The MAE also ranges from 0.81 cm (infinity-like path) to 1.92 cm (spiral path). The results indicate that while the system's precision and accuracy with an open-loop controller meet the design targets, closed-loop controllers are necessary to address the catheter's hysteresis and dead zone, and system nonlinearities. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# ROLeR:Recommenderシステムにおけるオフライン強化学習における効果的なリワードシェーピング
ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems ( http://arxiv.org/abs/2407.13163v1 ) ライセンス: Link先を確認 | Yi Zhang, Ruihong Qiu, Jiajun Liu, Sen Wang, | (参考訳) オフライン強化学習(英語版) (RL) は、ユーザの動的関心とインタラクティブな性質をモデル化する能力を持つ実世界のレコメンデータシステムに有効なツールである。
既存のオフラインRLレコメンダシステムは、オフラインデータからワールドモデルを学び、このモデルと対話することでレコメンデーションポリシーを構築することで、モデルベースのRLに焦点を当てている。
これらの手法は,レコメンデーション性能の向上に寄与しているが,オンラインプラットフォームとのユーザインタラクションにおいて,オフラインログデータと実世界のデータとの極端な相違により,報酬モデルとモデル不確実性の推定精度によって,モデルベースのオフラインRL手法の有効性が制約されることが多い。
このギャップを埋めるためには、モデルベースRL法ではより正確な報酬モデルと不確実性推定が必要である。
本稿では,レコメンデーションシステムにおける報酬と不確実性評価のために,新しいモデルベースReward Shaping in Offline Reinforcement Learning for Recommender Systems, ROLeRを提案する。
具体的には、報酬モデルを改善するために、非パラメトリック報酬形成法を設計する。
さらに、フレキシブルでより代表的な不確実性ペナルティは、レコメンデーションシステムのニーズに適合するように設計されている。
4つのベンチマークデータセットで実施された大規模な実験は、ROLeRが既存のベースラインと比較して最先端のパフォーマンスを達成することを示した。
ソースコードはhttps://github.com/ArronDZhang/ROLeRでダウンロードできる。
Offline reinforcement learning (RL) is an effective tool for real-world recommender systems with its capacity to model the dynamic interest of users and its interactive nature. Most existing offline RL recommender systems focus on model-based RL through learning a world model from offline data and building the recommendation policy by interacting with this model. Although these methods have made progress in the recommendation performance, the effectiveness of model-based offline RL methods is often constrained by the accuracy of the estimation of the reward model and the model uncertainties, primarily due to the extreme discrepancy between offline logged data and real-world data in user interactions with online platforms. To fill this gap, a more accurate reward model and uncertainty estimation are needed for the model-based RL methods. In this paper, a novel model-based Reward Shaping in Offline Reinforcement Learning for Recommender Systems, ROLeR, is proposed for reward and uncertainty estimation in recommendation systems. Specifically, a non-parametric reward shaping method is designed to refine the reward model. In addition, a flexible and more representative uncertainty penalty is designed to fit the needs of recommendation systems. Extensive experiments conducted on four benchmark datasets showcase that ROLeR achieves state-of-the-art performance compared with existing baselines. The source code can be downloaded at https://github.com/ArronDZhang/ROLeR. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# Translate-and-Revise: 制約付き翻訳のための大規模言語モデルの強化
Translate-and-Revise: Boosting Large Language Models for Constrained Translation ( http://arxiv.org/abs/2407.13164v1 ) ライセンス: Link先を確認 | Pengcheng Huang, Yongyu Mu, Yuzhang Wu, Bei Li, Chunyang Xiao, Tong Xiao, Jingbo Zhu, | (参考訳) 機械翻訳システムに制約を課すことは、これらのシステムでは、適切な流動的な翻訳を生成するために制約を利用するように訓練されていないため、難しい問題となる。
本稿では,LLMが翻訳命令や制約をプロンプトとして取り込むことで,このタスクに容易に適応できることから,制約付き翻訳のための大規模言語モデル(LLM)の機能を利用する。
しかし、LLMは翻訳の精度を常に保証しておらず、場合によっては与えられた制約を無視している。
これは、LLMが制約の影響をオーバーライドし、予測に過度に自信を持っているためである。
このオーバライドな振る舞いを克服するために、まだ満たされていない制約について、LSMにアウトプットを修正するよう促すリビジョンプロセスを追加することを提案する。
我々は、複数の制約領域における語彙的制約と構造的制約の両方を含む4つの制約付き翻訳タスクに対するアプローチを評価する。
実験では、標準LLMよりも制約ベースの翻訳精度が15倍向上し、アプローチはニューラルマシン翻訳(NMT)の最先端手法を著しく上回っている。
Imposing constraints on machine translation systems presents a challenging issue because these systems are not trained to make use of constraints in generating adequate, fluent translations. In this paper, we leverage the capabilities of large language models (LLMs) for constrained translation, given that LLMs can easily adapt to this task by taking translation instructions and constraints as prompts. However, LLMs cannot always guarantee the adequacy of translation, and, in some cases, ignore the given constraints. This is in part because LLMs might be overly confident in their predictions, overriding the influence of the constraints. To overcome this overiding behaviour, we propose to add a revision process that encourages LLMs to correct the outputs by prompting them about the constraints that have not yet been met. We evaluate our approach on four constrained translation tasks, encompassing both lexical and structural constraints in multiple constraint domains. Experiments show 15\% improvement in constraint-based translation accuracy over standard LLMs and the approach also significantly outperforms neural machine translation (NMT) state-of-the-art methods. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# SciCode:科学者がキュレーションした研究コードベンチマーク
SciCode: A Research Coding Benchmark Curated by Scientists ( http://arxiv.org/abs/2407.13168v1 ) ライセンス: Link先を確認 | Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng, | (参考訳) 言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
本稿では,実科学研究問題を解くためのコードを生成するLMの能力を調べることで,この問題に対処する。
数学、物理学、化学、生物学、材料科学を含む16の分野の科学者とAI研究者からのインプットを取り入れて、科学者が計算したコーディングベンチマークであるSciCodeを作成しました。
SciCodeの問題は自然に複数のサブプロブレムに分解され、それぞれが知識のリコール、推論、コード合成を含む。
SciCodeには、80の課題から切り離された338のサブプロブレムが含まれている。
科学的な背景情報と科学者が注釈を付けたゴールドスタンダードのソリューションと評価のためのテストケースを指定するオプション記述を提供する。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
SciCodeは、現代のLMが有用な科学アシスタントになるための進歩を実証し、科学AIの開発と評価に光を当てていると信じている。
Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# Unified-EGformer:混合露光画像強調のための露光誘導軽量変圧器
Unified-EGformer: Exposure Guided Lightweight Transformer for Mixed-Exposure Image Enhancement ( http://arxiv.org/abs/2407.13170v1 ) ライセンス: Link先を確認 | Eashan Adhikarla, Kai Zhang, Rosaura G. VidalMata, Manjushree Aithal, Nikhil Ambha Madhusudhana, John Nicholson, Lichao Sun, Brian D. Davison, | (参考訳) 画像処理におけるAIの最近の進歩にもかかわらず、複合露光の問題、監視や写真など多くの現実世界のシナリオにおいて重要な問題は、依然として不十分に対処されている。
従来の画像強調技術と現在のトランスフォーマーモデルは、過剰露光または過度の露光に重点を置いている。
このギャップを埋めるために、Unified-Exposure Guided Transformer (Unified-EGformer)を導入する。
提案手法は,局所的な画素レベルの精細化と,色補正のためのグローバルな精細化ブロックと画像ワイド調整を備えた,高度なトランスフォーマーアーキテクチャを基盤として構築されている。
実世界の様々な条件にまたがる適応性を確保するため,光合成領域を正確に識別するためのガイド付きアテンション機構を採用している。
U-EGformerは、メモリフットプリント(ピークメモリ)がわずか$\sim$1134 MB (0.1 Millionパラメータ)で、推論時間は95ms (9.61倍)で、監視や自律ナビゲーションといったリアルタイムアプリケーションには実行可能な選択肢である。
さらに、我々のモデルは高度に一般化可能であり、単一のアーキテクチャで複数のタスクやデータセットを処理するために最小限の微調整を必要とする。
Despite recent strides made by AI in image processing, the issue of mixed exposure, pivotal in many real-world scenarios like surveillance and photography, remains inadequately addressed. Traditional image enhancement techniques and current transformer models are limited with primary focus on either overexposure or underexposure. To bridge this gap, we introduce the Unified-Exposure Guided Transformer (Unified-EGformer). Our proposed solution is built upon advanced transformer architectures, equipped with local pixel-level refinement and global refinement blocks for color correction and image-wide adjustments. We employ a guided attention mechanism to precisely identify exposure-compromised regions, ensuring its adaptability across various real-world conditions. U-EGformer, with a lightweight design featuring a memory footprint (peak memory) of only $\sim$1134 MB (0.1 Million parameters) and an inference time of 95 ms (9.61x faster than the average), is a viable choice for real-time applications such as surveillance and autonomous navigation. Additionally, our model is highly generalizable, requiring minimal fine-tuning to handle multiple tasks and datasets with a single architecture. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# 圧縮モデルは大型モデルの小型版ではない
Compressed models are NOT miniature versions of large models ( http://arxiv.org/abs/2407.13174v1 ) ライセンス: Link先を確認 | Rohit Raj Rai, Rishant Pal, Amit Awekar, | (参考訳) 大規模なニューラルモデルは、展開前に圧縮されることが多い。
モデル圧縮は、推論遅延、メモリフットプリント、エネルギー消費など、多くの実用的な理由から必要である。
圧縮モデルは、対応する大きなニューラルモデルのミニチュアバージョンであると仮定される。
しかし、我々はこの信念に疑問を呈している。
予測誤差,データ表現,データ分布,および敵攻撃に対する脆弱性の4つのモデル特性を用いて,圧縮モデルと対応する大きなニューラルモデルを比較した。
BERT-largeモデルとその5種類の圧縮版を用いて実験を行った。
全ての4つのモデル特性において、圧縮されたモデルはBERT大モデルと大きく異なる。
圧縮されたモデルの中でも、4つのモデルの特徴で異なる。
予測されるモデル性能の損失とは別に、大きなニューラルモデルを置き換えるために圧縮モデルを使用することによる大きな副作用がある。
Large neural models are often compressed before deployment. Model compression is necessary for many practical reasons, such as inference latency, memory footprint, and energy consumption. Compressed models are assumed to be miniature versions of corresponding large neural models. However, we question this belief in our work. We compare compressed models with corresponding large neural models using four model characteristics: prediction errors, data representation, data distribution, and vulnerability to adversarial attack. We perform experiments using the BERT-large model and its five compressed versions. For all four model characteristics, compressed models significantly differ from the BERT-large model. Even among compressed models, they differ from each other on all four model characteristics. Apart from the expected loss in model performance, there are major side effects of using compressed models to replace large neural models. | 翻訳日:2024-07-19 16:51:58 公開日:2024-07-18 |
# 局所二分パターン(対称LPP)における対称有限差の利用
The use of the symmetric finite difference in the local binary pattern (symmetric LBP) ( http://arxiv.org/abs/2407.13178v1 ) ライセンス: Link先を確認 | Zeinab Sedaghatjoo, Hossein Hosseinzadeh, | (参考訳) 本稿では,LBP(Local Binary Pattern)特徴抽出プロセスで表される2進数について数学的に考察する。
対称有限差分はしばしば近似の精度を高めるために数値解析に適用される。
そこで本稿では,顔検出と表情認識のための LBP 定式化における対称有限差分の利用について検討する。
通常、8つの方向微分を用いる標準LPPを拡張し、4つの方向微分のみを組み込む新しいアプローチを導入する。
この手法は対称 LBP と呼ばれる。
LBPの特徴の数は、対称LPPを用いることで256から16に削減される。
この研究は、新しいアプローチで考慮された方向の数の重要性を浮き彫りにしている。
その結果,研究課題の重要性が強調された。
The paper provides a mathematical view to the binary numbers presented in the Local Binary Pattern (LBP) feature extraction process. Symmetric finite difference is often applied in numerical analysis to enhance the accuracy of approximations. Then, the paper investigates utilization of the symmetric finite difference in the LBP formulation for face detection and facial expression recognition. It introduces a novel approach that extends the standard LBP, which typically employs eight directional derivatives, to incorporate only four directional derivatives. This approach is named symmetric LBP. The number of LBP features is reduced to 16 from 256 by the use of the symmetric LBP. The study underscores the significance of the number of directions considered in the new approach. Consequently, the results obtained emphasize the importance of the research topic. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 知覚的最適記憶・表示のための学習したHDR画像圧縮
Learned HDR Image Compression for Perceptually Optimal Storage and Display ( http://arxiv.org/abs/2407.13179v1 ) ライセンス: Link先を確認 | Peibei Cao, Haoyu Chen, Jingzhe Ma, Yu-Chieh Yuan, Zhiyong Xie, Xin Xie, Haiqing Bai, Kede Ma, | (参考訳) 高ダイナミックレンジ(HDR)のキャプチャと表示は、技術の進歩と優れた画像品質に対する消費者の需要の増加により、人気が著しく上昇している。
その結果、HDR画像圧縮は、大きなファイルサイズと非効率なデータハンドリングに悩まされることなく、HDR画像の利点を十分に実現するために重要である。
従来,HDR画像と低ダイナミックレンジ(LDR)画像のギャップを埋めるメタデータとして残差/ゲインマップを導入し,LDR画像コーデックと互換性を持つが,最適速度歪み性能を提供する。
本研究では,エンド・ツー・エンドで最適化されたHDR画像圧縮を,知覚的に最適な記憶・表示に活用するための取り組みを開始する。
具体的には、HDR画像を2つのビットストリームに圧縮することを学ぶ。1つは、従来のLDRディスプレイとの互換性を確保するためにLDR画像を生成するもので、もう1つは、出力されたLDR画像からのHDR画像再構成を支援する側情報である。
出力HDR画像とLDR画像の知覚的品質を測定するために,画像品質の人間の知覚的データと非圧縮HDR画像の両方に対して,最近提案された2つの画像歪み指標を用いた。
速度歪み性能のエンドツーエンド最適化により,HDRとLDRの画質を全ビットレートで劇的に向上させる。
High dynamic range (HDR) capture and display have seen significant growth in popularity driven by the advancements in technology and increasing consumer demand for superior image quality. As a result, HDR image compression is crucial to fully realize the benefits of HDR imaging without suffering from large file sizes and inefficient data handling. Conventionally, this is achieved by introducing a residual/gain map as additional metadata to bridge the gap between HDR and low dynamic range (LDR) images, making the former compatible with LDR image codecs but offering suboptimal rate-distortion performance. In this work, we initiate efforts towards end-to-end optimized HDR image compression for perceptually optimal storage and display. Specifically, we learn to compress an HDR image into two bitstreams: one for generating an LDR image to ensure compatibility with legacy LDR displays, and another as side information to aid HDR image reconstruction from the output LDR image. To measure the perceptual quality of output HDR and LDR images, we use two recently proposed image distortion metrics, both validated against human perceptual data of image quality and with reference to the uncompressed HDR image. Through end-to-end optimization for rate-distortion performance, our method dramatically improves HDR and LDR image quality at all bit rates. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# マルチインワン画像復元のための訓練不要大規模モデル
Training-Free Large Model Priors for Multiple-in-One Image Restoration ( http://arxiv.org/abs/2407.13181v1 ) ライセンス: Link先を確認 | Xuanhua He, Lang Li, Yingying Wang, Hui Zheng, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou, | (参考訳) 画像復元は、劣化した画像から潜伏した鮮明な画像を再構築することを目的としている。
顕著な成果にもかかわらず、既存の手法は主に特定の劣化型を扱うことに重点を置いており、そのため、動的劣化シナリオにおける現実世界のアプリケーションを妨げる特別なモデルを必要としている。
この問題に対処するために,大規模マルチモーダル言語モデル (MMLM) と事前訓練した拡散モデルからのジェネリック先行を生かした,新しいマルチインワン画像復元パラダイムであるLMDIR(Large Model Driven Image Restoration framework)を提案する。
詳しくは、MDIRは3つの重要な事前知識を統合している。
1)MMLMからの世界的劣化知識
2)MMLMによるシーン対応の文脈記述、及び
3)MMLM記述で導かれる拡散モデルにより合成された微細な高画質参照画像。
このアーキテクチャは,クエリベースのプロンプトエンコーダ,グローバルな劣化知識を注入する劣化認識トランスフォーマーブロック,シーン記述を取り入れたコンテンツ認識トランスフォーマーブロック,微細な画像先行を取り入れた参照ベーストランスフォーマーブロックから構成される。
この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
大規模実験により,提案手法は,複数の評価ベンチマークにおいて,最先端の競合よりも優れた性能を示すことが示された。
Image restoration aims to reconstruct the latent clear images from their degraded versions. Despite the notable achievement, existing methods predominantly focus on handling specific degradation types and thus require specialized models, impeding real-world applications in dynamic degradation scenarios. To address this issue, we propose Large Model Driven Image Restoration framework (LMDIR), a novel multiple-in-one image restoration paradigm that leverages the generic priors from large multi-modal language models (MMLMs) and the pretrained diffusion models. In detail, LMDIR integrates three key prior knowledges: 1) global degradation knowledge from MMLMs, 2) scene-aware contextual descriptions generated by MMLMs, and 3) fine-grained high-quality reference images synthesized by diffusion models guided by MMLM descriptions. Standing on above priors, our architecture comprises a query-based prompt encoder, degradation-aware transformer block injecting global degradation knowledge, content-aware transformer block incorporating scene description, and reference-based transformer block incorporating fine-grained image priors. This design facilitates single-stage training paradigm to address various degradations while supporting both automatic and user-guided restoration. Extensive experiments demonstrate that our designed method outperforms state-of-the-art competitors on multiple evaluation benchmarks. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# SpaDiT: scRNA-seqを用いた空間遺伝子発現予測用拡散変換器
SpaDiT: Diffusion Transformer for Spatial Gene Expression Prediction using scRNA-seq ( http://arxiv.org/abs/2407.13182v1 ) ライセンス: Link先を確認 | Xiaoyu Li, Fangfang Zhu, Wenwen Min, | (参考訳) 空間転写学(ST)技術の急速な発展は、生体組織の空間的構造に対する我々の理解に革命をもたらしている。
現在のST法は、次世代のシークエンシング (seq-based) と蛍光 in situ hybridization (image-based) に分類され、生物学的組織の機能的ダイナミクスに関する革新的な洞察を提供する。
しかし、これらの方法は細胞の分解能と検出可能な遺伝子の量によって制限されている。
これらの制約に対処するために,拡散生成モデルを用いた深層学習手法であるSpaDiTを提案する。
Transformerベースの拡散モデルを用いることで、SpaDiTは未知の遺伝子を正確に予測するだけでなく、ST遺伝子の空間構造を効果的に生成する。
本研究では,SpaDiTの有効性を,Seqベースおよび画像ベースSTデータの両方で広範な実験により実証した。
SpaDiTは、その革新的なアプローチでST遺伝子予測方法に大きく貢献する。
8つの主要なベースライン手法と比較して、SpaDiTは複数のメトリクスにわたって最先端のパフォーマンスを達成し、その相当なバイオインフォマティクスの貢献を強調した。
The rapid development of spatial transcriptomics (ST) technologies is revolutionizing our understanding of the spatial organization of biological tissues. Current ST methods, categorized into next-generation sequencing-based (seq-based) and fluorescence in situ hybridization-based (image-based) methods, offer innovative insights into the functional dynamics of biological tissues. However, these methods are limited by their cellular resolution and the quantity of genes they can detect. To address these limitations, we propose SpaDiT, a deep learning method that utilizes a diffusion generative model to integrate scRNA-seq and ST data for the prediction of undetected genes. By employing a Transformer-based diffusion model, SpaDiT not only accurately predicts unknown genes but also effectively generates the spatial structure of ST genes. We have demonstrated the effectiveness of SpaDiT through extensive experiments on both seq-based and image-based ST data. SpaDiT significantly contributes to ST gene prediction methods with its innovative approach. Compared to eight leading baseline methods, SpaDiT achieved state-of-the-art performance across multiple metrics, highlighting its substantial bioinformatics contribution. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 気管支狭窄のX線学的可逆性判定のための右下葉の気管支動脈比と壁厚の測定方法
Methods to Measure the Broncho-Arterial Ratio and Wall Thickness in the Right Lower Lobe for Defining Radiographic Reversibility of Bronchiectasis ( http://arxiv.org/abs/2407.13183v1 ) ライセンス: Link先を確認 | Abhijith R. Beeravolu, Ian Brent Masters, Mirjam Jonkman, Kheng Cher Yeo, Spyridon Prountzos, Rahul J Thomas, Eva Ignatious, Sami Azam, Gabrielle B McCallum, Efthymia Alexopoulou, Anne B Chang, Friso De Boer, | (参考訳) 気管支狭窄の診断には異常な気管支拡張を計測する必要がある。
胸部CT検査では気管支動脈比(BAR)が上昇し,気管支壁が肥厚する傾向がみられた。
画像処理手法は、ローブやセグメントによるより高速な解釈と詳細な評価を容易にする。
傾斜性、斜め方向、部分体積効果といった課題は、同じアルゴリズムを用いて上葉と中葉の正確な測定を得ることを困難にしている。
したがって,BARの気道および動脈領域の正確な検出および測定には,各部位の肉厚と壁厚の異なる画像処理・機械学習法が必要である。
我々は以下の方法を提案する。
1 気管分岐点(Carina)を中心マーカーとして、右下葉(RLL)領域をフル長CTスキャンから分離すること。
2.BAR測定のための気道内径と動脈外径の配置
3. 気道境界の外径と内径を同定して気道壁厚(WT)を測定する。
異なる厚さ (0.67mm, 1mm, 2mm) のHRCTスキャン13件の分析では, 気管分岐フレームを正確に検出でき, 場合によっては+/-2フレームの偏差が認められる。
Windowsアプリは、内気道径、動脈径、BAR、壁厚を測定するために開発された。
10対のBA対の測定結果から、ヒトの読み手と同等の結果が得られ、その偏差は +/- 0.10-0.15mm であった。
層間および層内変動を増強し, 方法を強化するためには, さらなる研究と検証が必要である。
The diagnosis of bronchiectasis requires measuring abnormal bronchial dilation. It is confirmed using a chest CT scan, where the key feature is an increased broncho-arterial ratio (BAR) (>0.8 in children), often with bronchial wall thickening. Image processing methods facilitate quicker interpretation and detailed evaluations by lobes and segments. Challenges like inclined nature, oblique orientation, and partial volume effect make it difficult to obtain accurate measurements in the upper and middle lobes using the same algorithms. Therefore, accurate detection and measurement of airway and artery regions for BAR and wall thickness in each lobe require different image processing/machine learning methods. We propose methods for: 1. Separating the right lower lobe (RLL) region from full-length CT scans using the tracheal bifurcation (Carina) point as a central marker; 2. Locating the inner diameter of airways and outer diameter of arteries for BAR measurement; and 3. Measuring airway wall thickness (WT) by identifying the outer and inner diameters of airway boundaries. Analysis of 13 HRCT scans with varying thicknesses (0.67mm, 1mm, 2mm) shows the tracheal bifurcation frame can be detected accurately, with a deviation of +/- 2 frames in some cases. A Windows app was developed for measuring inner airway diameter, artery diameter, BAR, and wall thickness, allowing users to draw boundaries around visible BA pairs in the RLL region. Measurements of 10 BA pairs revealed accurate results comparable to those of a human reader, with deviations of +/- 0.10-0.15mm. Additional studies and validation are needed to consolidate inter- and intra-rater variability and enhance the methods. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# HSEmotion Team at the 7th ABAW Challenge: Multi-Task Learning and Compound Facial Expression Recognition
HSEmotion Team at the 7th ABAW Challenge: Multi-Task Learning and Compound Facial Expression Recognition ( http://arxiv.org/abs/2407.13184v1 ) ライセンス: Link先を確認 | Andrey V. Savchenko, | (参考訳) 本稿では,HSEmotionチームの結果を,第7回ABAW(Affective Behavior Analysis in the-wild)コンペティションの2つのタスク,すなわち,表情の同時予測のためのマルチタスク学習,原子価,覚醒,行動単位の検出,複合表現認識の2つのタスクで記述する。
複数タスク設定で事前学習したフレームレベルの顔特徴抽出器をベースとした効率的なパイプラインを提案する。
我々は,MT-EmotiDDAMFN,MT-EmotiEffNet,MT-EmotiMobileFaceNetなどのニューラルネットワークの軽量なアーキテクチャを用いて,遠隔サーバに顔映像を送ることなくモバイルデバイス上でも動作可能な手法のプライバシ意識を確保する。
全体的な精度を改善するための重要なステップとして,ガウスフィルタやボックスフィルタを用いたニューラルネットワークの出力スコアの平滑化が示された。
2つの上位視覚モデルの単純なブレンディングによる予測の単純な後処理は、表情認識のF1スコアを最大7%向上させることを示した。
同時に、各モデルのフレームレベルの予測に比べて、価と覚醒の平均一致相関係数(CCC)を最大1.25倍に向上させる。
その結果,マルチタスク学習課題による検証結果の最終的な性能スコアは,ベースラインの4.5倍(1.494対0.32)であった。
In this paper, we describe the results of the HSEmotion team in two tasks of the seventh Affective Behavior Analysis in-the-wild (ABAW) competition, namely, multi-task learning for simultaneous prediction of facial expression, valence, arousal, and detection of action units, and compound expression recognition. We propose an efficient pipeline based on frame-level facial feature extractors pre-trained in multi-task settings to estimate valence-arousal and basic facial expressions given a facial photo. We ensure the privacy-awareness of our techniques by using the lightweight architectures of neural networks, such as MT-EmotiDDAMFN, MT-EmotiEffNet, and MT-EmotiMobileFaceNet, that can run even on a mobile device without the need to send facial video to a remote server. It was demonstrated that a significant step in improving the overall accuracy is the smoothing of neural network output scores using Gaussian or box filters. It was experimentally demonstrated that such a simple post-processing of predictions from simple blending of two top visual models improves the F1-score of facial expression recognition up to 7%. At the same time, the mean Concordance Correlation Coefficient (CCC) of valence and arousal is increased by up to 1.25 times compared to each model's frame-level predictions. As a result, our final performance score on the validation set from the multi-task learning challenge is 4.5 times higher than the baseline (1.494 vs 0.32). | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# KFD-NeRF:Kalmanフィルタを用いた動的NeRFの再検討
KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter ( http://arxiv.org/abs/2407.13185v1 ) ライセンス: Link先を確認 | Yifan Zhan, Zhuoxiao Li, Muyao Niu, Zhihang Zhong, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng, | (参考訳) KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
本稿では,シーン観測と予測から正確な変形推定を可能にする,新しいプラグインKalmanフィルタ誘導変形場を提案する。
我々は、浅層多層パーセプトロン(MLP)を用いて、動きを局所線形としてモデル化し、運動方程式による予測を計算する。
観測MLPの性能をさらに向上するため,ネットワークの異なるフレームに対するワープ学習を容易にするために,標準空間における正規化を導入する。
さらに、正準空間を符号化するために効率的な三面体表現を用い、実験により高品質で迅速に収束することが実証された。
これにより、実装では2つのレイヤのみで構成された、より浅い観察型MLPを使用することができます。
我々は合成および実データの実験を行い、過去の動的NeRF法と比較した。
我々のKFD-NeRFは、同等の計算時間内で類似またはそれ以上のレンダリング性能を示し、徹底的なトレーニングで最先端のビュー合成性能を実現する。
We introduce KFD-NeRF, a novel dynamic neural radiance field integrated with an efficient and high-quality motion reconstruction framework based on Kalman filtering. Our key idea is to model the dynamic radiance field as a dynamic system whose temporally varying states are estimated based on two sources of knowledge: observations and predictions. We introduce a novel plug-in Kalman filter guided deformation field that enables accurate deformation estimation from scene observations and predictions. We use a shallow Multi-Layer Perceptron (MLP) for observations and model the motion as locally linear to calculate predictions with motion equations. To further enhance the performance of the observation MLP, we introduce regularization in the canonical space to facilitate the network's ability to learn warping for different frames. Additionally, we employ an efficient tri-plane representation for encoding the canonical space, which has been experimentally demonstrated to converge quickly with high quality. This enables us to use a shallower observation MLP, consisting of just two layers in our implementation. We conduct experiments on synthetic and real data and compare with past dynamic NeRF methods. Our KFD-NeRF demonstrates similar or even superior rendering performance within comparable computational time and achieves state-of-the-art view synthesis performance with thorough training. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# Safe-SD: テキストプロンプトトリガーによる可視なジェネレーションウォーターマーキングのための安全かつトレーサブルな拡散
Safe-SD: Safe and Traceable Stable Diffusion with Text Prompt Trigger for Invisible Generative Watermarking ( http://arxiv.org/abs/2407.13188v1 ) ライセンス: Link先を確認 | Zhiyuan Ma, Guoli Jia, Biqing Qi, Bowen Zhou, | (参考訳) 近年、画像合成とパーソナライズされた編集の分野では、安定した拡散(SD)モデルが一般的に栄えており、様々なフォトリアリスティック画像や前例のない画像が生成されている。
その結果、視覚コンテンツ作成に様々なSDベースのツールを開発し、利用することへの関心が高まった。
しかし、AIが作成したコンテンツを公開プラットフォームに公開することで、法的および倫理的リスクが高まる可能性がある。
この点において、既に生成された画像(例えば後処理)に透かしを追加する従来の方法は、SDベースの方法で強力な画像反転とテキスト・ツー・イメージ編集技術が広く研究されているため、著作権保護とコンテンツ監視の観点からジレンマ(例えば、削除または修正)に直面している可能性がある。
本研究では,テキスト駆動型目に見えない透かしと検出をサポートするための生成拡散過程において,図形透かし(QRコードなど)を許容不能な構造関連画素に適応的に埋め込む,安全かつ高追跡性安定拡散フレームワーク(Safe-SD)を提案する。
従来の高コストインジェクション・then検出訓練フレームワークとは違って,単一ネットワークにおけるウォーターマークインジェクションと検出を同時にトレーニングし,使用効率と利便性を大幅に向上する,シンプルで統一的なアーキテクチャを設計する。
さらに,テキスト駆動型ウォーターマーキングをさらに支援し,その堅牢性と高トレーサビリティを深く探求するために,高忠実な画像合成と高トレーサブルな透かし検出のバランスをとるために,VAEでラップされた潜伏拡散器を微調整するために,ラムダサンプリングと暗号化アルゴリズムを精巧に設計する。
我々は,LSUN,COCO,FFHQの2つの代表的なデータセットに対する定量および定性的な結果を示し,Safe-SDの最先端性能を実証し,それ以前のアプローチよりも大幅に優れていたことを示す。
Recently, stable diffusion (SD) models have typically flourished in the field of image synthesis and personalized editing, with a range of photorealistic and unprecedented images being successfully generated. As a result, widespread interest has been ignited to develop and use various SD-based tools for visual content creation. However, the exposure of AI-created content on public platforms could raise both legal and ethical risks. In this regard, the traditional methods of adding watermarks to the already generated images (i.e. post-processing) may face a dilemma (e.g., being erased or modified) in terms of copyright protection and content monitoring, since the powerful image inversion and text-to-image editing techniques have been widely explored in SD-based methods. In this work, we propose a Safe and high-traceable Stable Diffusion framework (namely Safe-SD) to adaptively implant the graphical watermarks (e.g., QR code) into the imperceptible structure-related pixels during the generative diffusion process for supporting text-driven invisible watermarking and detection. Different from the previous high-cost injection-then-detection training framework, we design a simple and unified architecture, which makes it possible to simultaneously train watermark injection and detection in a single network, greatly improving the efficiency and convenience of use. Moreover, to further support text-driven generative watermarking and deeply explore its robustness and high-traceability, we elaborately design lambda sampling and encryption algorithm to fine-tune a latent diffuser wrapped by a VAE for balancing high-fidelity image synthesis and high-traceable watermark detection. We present our quantitative and qualitative results on two representative datasets LSUN, COCO and FFHQ, demonstrating state-of-the-art performance of Safe-SD and showing it significantly outperforms the previous approaches. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# データ駆動による条件付き期待値の推定と最適停止・強化学習への応用
Data-Driven Estimation of Conditional Expectations, Application to Optimal Stopping and Reinforcement Learning ( http://arxiv.org/abs/2407.13189v1 ) ライセンス: Link先を確認 | George V. Moustakides, | (参考訳) 基礎となる条件密度が分かっている場合、条件予測は解析的または数値的に計算できる。
しかし、そのような知識が得られず、代わりにトレーニングデータの集合が与えられる場合、本研究の目的は、望まれる条件予測を直接推定する単純で純粋にデータ駆動の手段を提案することである。
非線形方程式系を満足する最適解を用いた確率的最適化問題の記述に条件付き期待が現れるため,データ駆動法も適用範囲を広げる。
強化学習における最適停止・最適行動政策に適用して方法論を検証した。
When the underlying conditional density is known, conditional expectations can be computed analytically or numerically. When, however, such knowledge is not available and instead we are given a collection of training data, the goal of this work is to propose simple and purely data-driven means for estimating directly the desired conditional expectation. Because conditional expectations appear in the description of a number of stochastic optimization problems with the corresponding optimal solution satisfying a system of nonlinear equations, we extend our data-driven method to cover such cases as well. We test our methodology by applying it to Optimal Stopping and Optimal Action Policy in Reinforcement Learning. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 自然言語処理のための検索強化生成:サーベイ
Retrieval-Augmented Generation for Natural Language Processing: A Survey ( http://arxiv.org/abs/2407.13193v1 ) ライセンス: Link先を確認 | Shangyu Wu, Ying Xiong, Yufei Cui, Haolun Wu, Can Chen, Ye Yuan, Lianming Huang, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue, | (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めており、知識を保持する膨大なパラメータの恩恵を受けている。
しかし、LLMは幻覚の問題、知識更新の問題、ドメイン固有の専門知識の欠如など、いくつかの重要な問題に悩まされている。
検索強化世代(RAG)の出現は、外部知識データベースを利用してLLMを増強し、LLMの欠点を補っている。
本稿では,RAGの重要技術,特に検索器と検索融合について概説する。
さらに、RAGの代表的なテクニックを実装するためのチュートリアルコードも提供されている。
本稿では、RAG with/withoutデータストア更新を含むRAGトレーニングについても論じる。
そこで本研究では,自然言語処理タスクや産業シナリオにおけるRAGの適用について紹介する。
最後に,RAGの今後の方向性と開発促進の課題について述べる。
Large language models (LLMs) have demonstrated great success in various fields, benefiting from their huge amount of parameters that store knowledge. However, LLMs still suffer from several key issues, such as hallucination problems, knowledge update issues, and lacking domain-specific expertise. The appearance of retrieval-augmented generation (RAG), which leverages an external knowledge database to augment LLMs, makes up those drawbacks of LLMs. This paper reviews all significant techniques of RAG, especially in the retriever and the retrieval fusions. Besides, tutorial codes are provided for implementing the representative techniques in RAG. This paper further discusses the RAG training, including RAG with/without datastore update. Then, we introduce the application of RAG in representative natural language processing tasks and industrial scenarios. Finally, this paper discusses the future directions and challenges of RAG for promoting its development. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 系列内および系列間遷移シフトに対するロバスト多変量時系列予測
Robust Multivariate Time Series Forecasting against Intra- and Inter-Series Transitional Shift ( http://arxiv.org/abs/2407.13194v1 ) ライセンス: Link先を確認 | Hui He, Qi Zhang, Kun Yi, Xiaojun Xue, Shoujin Wang, Liang Hu, Longbing Cao, | (参考訳) 実世界の多変量時系列(MTS)データの非定常的な性質は、分布シフトと呼ばれる時系列の時間変量分布に対する恐ろしい挑戦を伴う予測モデルを示す。
分布シフトに関する既存の研究は、時間平均と共分散シフトを緩和するための適応正規化技術や、時間変動を捉えるための時間変動モデリングに大きく依存している。
モデル一般化の改善にもかかわらず、これらの正規化に基づく手法は出力と入力の間の時間不変遷移を仮定することが多いが、時間不変モデルは分布シフトの本質的な原因を見落としている。
このことは、MSS予測の分布シフトに取り組むことの表現性と解釈可能性を制限する。
このようなジレンマを緩和するために、我々は、時系列内/時系列間の相関関係を結合的に捉え、時変遷移分布をモデル化し、非定常MTS予測のためのJointPGMと呼ばれるニューラルネットワークフレームワークをインスタンス化する統一確率的グラフィカルモデルを提案する。
特に、JointPGMは複数のフーリエ基底関数を用いて動的時間要素を学習し、2つの異なる学習者(シリーズ内およびシリーズ間学習者)を設計する。
系列内学習者は時間的ゲートを利用して時間的ダイナミクスを効果的に捕捉し、系列間学習者はGumbel-softmaxサンプリングを取り入れたマルチホップ伝搬により空間的ダイナミクスを明示的にモデル化する。
これらの2種類の級数ダイナミクスはその後、遅延変数に融合され、逆向きに時間要素を推論し、最終的な予測を生成し、再構成を行う。
MTS予測の最先端予測性能を達成し、6つの非定常MTSデータセットに対する広範囲な実験により、JointPGMの有効性と効率を検証した。
The non-stationary nature of real-world Multivariate Time Series (MTS) data presents forecasting models with a formidable challenge of the time-variant distribution of time series, referred to as distribution shift. Existing studies on the distribution shift mostly adhere to adaptive normalization techniques for alleviating temporal mean and covariance shifts or time-variant modeling for capturing temporal shifts. Despite improving model generalization, these normalization-based methods often assume a time-invariant transition between outputs and inputs but disregard specific intra-/inter-series correlations, while time-variant models overlook the intrinsic causes of the distribution shift. This limits model expressiveness and interpretability of tackling the distribution shift for MTS forecasting. To mitigate such a dilemma, we present a unified Probabilistic Graphical Model to Jointly capturing intra-/inter-series correlations and modeling the time-variant transitional distribution, and instantiate a neural framework called JointPGM for non-stationary MTS forecasting. Specifically, JointPGM first employs multiple Fourier basis functions to learn dynamic time factors and designs two distinct learners: intra-series and inter-series learners. The intra-series learner effectively captures temporal dynamics by utilizing temporal gates, while the inter-series learner explicitly models spatial dynamics through multi-hop propagation, incorporating Gumbel-softmax sampling. These two types of series dynamics are subsequently fused into a latent variable, which is inversely employed to infer time factors, generate final prediction, and perform reconstruction. We validate the effectiveness and efficiency of JointPGM through extensive experiments on six highly non-stationary MTS datasets, achieving state-of-the-art forecasting performance of MTS forecasting. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# オンライン決定のための適応的基礎モデル:高速なインクリメンタル不確実性推定を伴うハイパーエージェント
Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation ( http://arxiv.org/abs/2407.13195v1 ) ライセンス: Link先を確認 | Yingru Li, Jiawei Xu, Zhi-Quan Luo, | (参考訳) ファウンデーションモデルは、オンライン意思決定の新たな状況に直面し、この不確実性を解決するためにスケーラブルで効率的な探索を必要とする場合、しばしば不確実性に苦慮する。
GPT-HyperAgentは,自然言語入力に関わる基本的なオンライン決定問題である,不確実性を認識し,拡張性のある探索を行うためのGPT-HyperAgentである。
我々はHyperAgentが、線形実現可能な仮定の下で、$\tilde{O}(\log T)$ 1ステップの計算複雑性で高速なインクリメンタル不確実性推定を実現することを証明した。
我々の分析は、ハイパーエージェントの後悔の順序が線形文脈帯域における正確なトンプソンサンプリングと一致していることを示し、スケーラブルな探索において重要な理論的ギャップを閉じた。
GPT-HyperAgentの安全性決定における実用的有効性を検証するために,人間のフィードバックによる自動コンテンツモデレーションなどの実世界のコンテキスト的盗聴作業の実証的な結果を得た。
我々のコードは \url{https://github.com/szrlee/GPT-HyperAgent/} でオープンソース化されています。
Foundation models often struggle with uncertainty when faced with new situations in online decision-making, necessitating scalable and efficient exploration to resolve this uncertainty. We introduce GPT-HyperAgent, an augmentation of GPT with HyperAgent for uncertainty-aware, scalable exploration in contextual bandits, a fundamental online decision problem involving natural language input. We prove that HyperAgent achieves fast incremental uncertainty estimation with $\tilde{O}(\log T)$ per-step computational complexity over $T$ periods under the linear realizable assumption. Our analysis demonstrates that HyperAgent's regret order matches that of exact Thompson sampling in linear contextual bandits, closing a significant theoretical gap in scalable exploration. Empirical results in real-world contextual bandit tasks, such as automated content moderation with human feedback, validate the practical effectiveness of GPT-HyperAgent for safety-critical decisions. Our code is open-sourced at \url{https://github.com/szrlee/GPT-HyperAgent/}. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# Adapt PointFormer:2Dビジュアルトランスによる3Dポイントクラウド分析
Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers ( http://arxiv.org/abs/2407.13200v1 ) ライセンス: Link先を確認 | Mengke Li, Da Li, Guoqing Yang, Yiu-ming Cheung, Hui Huang, | (参考訳) 事前訓練された大規模モデルはコンピュータビジョン、特に2次元画像解析において顕著な効果を示した。
しかし、3Dポイントクラウドに関しては、膨大な画像のリポジトリとは対照的に、データの制限されたアクセシビリティは、3D事前訓練されたモデルの開発に課題をもたらす。
そこで本研究では,2次元事前知識を持つ事前学習モデルを直接活用して,3次元ポイントクラウド解析の課題を遂行する。
そこで,APF(Adaptive PointFormer)を提案する。このモデルでは,画像へのマッピングの必要性を回避し,ポイントクラウドを直接処理するためのパラメータの数が少なく,事前訓練された2Dモデルを微調整する。
具体的には、原点雲を画像トークンと寸法を合わせるための点埋め込みに変換する。
画像の構造的性質とは対照的に、点雲に固有の障害を考慮に入れれば、点埋め込みをシーケンスして2次元の注意の事前利用を最適化する。
3Dおよび2D領域の注意を校正し、計算オーバーヘッドを低減するため、限られた数のパラメータを持つトレーニング可能なPointFormerは、その後、凍結事前訓練された画像モデルに連結される。
様々なベンチマークで大規模な実験を行い、提案したAPFの有効性を示した。
ソースコードと詳細はhttps://vcc.tech/research/2024/PointFormer.orgで公開されている。
Pre-trained large-scale models have exhibited remarkable efficacy in computer vision, particularly for 2D image analysis. However, when it comes to 3D point clouds, the constrained accessibility of data, in contrast to the vast repositories of images, poses a challenge for the development of 3D pre-trained models. This paper therefore attempts to directly leverage pre-trained models with 2D prior knowledge to accomplish the tasks for 3D point cloud analysis. Accordingly, we propose the Adaptive PointFormer (APF), which fine-tunes pre-trained 2D models with only a modest number of parameters to directly process point clouds, obviating the need for mapping to images. Specifically, we convert raw point clouds into point embeddings for aligning dimensions with image tokens. Given the inherent disorder in point clouds, in contrast to the structured nature of images, we then sequence the point embeddings to optimize the utilization of 2D attention priors. To calibrate attention across 3D and 2D domains and reduce computational overhead, a trainable PointFormer with a limited number of parameters is subsequently concatenated to a frozen pre-trained image model. Extensive experiments on various benchmarks demonstrate the effectiveness of the proposed APF. The source code and more details are available at https://vcc.tech/research/2024/PointFormer. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# $μ$Drive: ユーザー設定の自動運転
$μ$Drive: User-Controlled Autonomous Driving ( http://arxiv.org/abs/2407.13201v1 ) ライセンス: Link先を確認 | Kun Wang, Christopher M. Poskitt, Yang Sun, Jun Sun, Jingyi Wang, Peng Cheng, Jiming Chen, | (参考訳) 自律走行車(AV)は、乗客に満足で安全な旅路を提供するため、洗練された自律走行システム(ADS)に依存している。
乗り手の個人の好みは、車の中で安全と快適さの認識を形作る上で重要な役割を担っている。
しかし、既存のADSには、ライダーの好みを体系的にキャプチャし、計画モジュールに統合するメカニズムが欠けている。
このギャップを埋めるために、我々はイベントベースのドメイン特化言語(DSL)である$\mu$Driveを提案します。
$\mu$Driveは、障害に遭遇したり、複雑な交通状況をナビゲートするといった、コンテキストイベントによって引き起こされるルールを通じて、ユーザが好みを表現できるようにする。
これらのルールは、ADS計画モジュールのパラメータ設定を動的に調整し、運転計画にライダーの好みをシームレスに統合する。
評価では,Apollo ADSフレームワークと統合することで,$\mu$Driveの有効性と有効性を示す。
以上の結果から,Apolloの計画に$\mu$Driveで効果的に影響を及ぼし,ADSによる交通規制の遵守改善を支援することが示唆された。
$\mu$Driveコマンドのレスポンス時間は、常に秒単位かミリ秒単位である。
これは、$\mu$Driveが、よりパーソナライズされたユーザー中心のAV体験への道を開くのに役立つことを示唆している。
Autonomous Vehicles (AVs) rely on sophisticated Autonomous Driving Systems (ADSs) to provide passengers a satisfying and safe journey. The individual preferences of riders plays a crucial role in shaping the perception of safety and comfort while they are in the car. Existing ADSs, however, lack mechanisms to systematically capture and integrate rider preferences into their planning modules. To bridge this gap, we propose $\mu$Drive, an event-based Domain-Specific Language (DSL) designed for specifying autonomous vehicle behaviour. $\mu$Drive enables users to express their preferences through rules triggered by contextual events, such as encountering obstacles or navigating complex traffic situations. These rules dynamically adjust the parameter settings of the ADS planning module, facilitating seamless integration of rider preferences into the driving plan. In our evaluation, we demonstrate the feasibility and efficacy of $\mu$Drive by integrating it with the Apollo ADS framework. Our findings show that users can effectively influence Apollo's planning through $\mu$Drive, assisting ADS in achieving improved compliance with traffic regulations. The response time for $\mu$Drive commands remains consistently at the second or millisecond level. This suggests that $\mu$Drive may help pave the way to more personalizsed and user-centric AV experiences. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 変圧器を用いたシングルセル言語モデル:調査
Transformer-based Single-Cell Language Model: A Survey ( http://arxiv.org/abs/2407.13205v1 ) ライセンス: Link先を確認 | Wei Lan, Guohang He, Mingyang Liu, Qingfeng Chen, Junyue Cao, Wei Peng, | (参考訳) 変換器は、並列処理能力と高度に柔軟な注意機構として、自然言語処理において大きな成果を上げている。
さらに、単一セルデータをモデル化するために、トランスフォーマーに基づく研究の増加が提案されている。
本稿では,トランスフォーマに基づく単一セル言語モデルとアプリケーションを体系的に要約する。
まず,変圧器の構造と原理について概説する。
そこで本研究では,単一セルデータ解析のための単一セル言語モデルと大規模言語モデルについて概説する。
さらに、バッチ修正、セルクラスタリング、細胞型アノテーション、遺伝子制御ネットワーク推論、摂動応答などの下流タスクにおける単一セル言語モデルのデータセットと応用について検討する。
さらに,単一セル言語モデルの課題について論じ,将来性のある研究方向性を提供する。
このレビューが、シングルセル言語モデルの方向性に関心を持つ研究者の最新の参考になることを期待している。
The transformers have achieved significant accomplishments in the natural language processing as its outstanding parallel processing capabilities and highly flexible attention mechanism. In addition, increasing studies based on transformers have been proposed to model single-cell data. In this review, we attempt to systematically summarize the single-cell language models and applications based on transformers. First, we provide a detailed introduction about the structure and principles of transformers. Then, we review the single-cell language models and large language models for single-cell data analysis. Moreover, we explore the datasets and applications of single-cell language models in downstream tasks such as batch correction, cell clustering, cell type annotation, gene regulatory network inference and perturbation response. Further, we discuss the challenges of single-cell language models and provide promising research directions. We hope this review will serve as an up-to-date reference for researchers interested in the direction of single-cell language models. | 翻訳日:2024-07-19 16:42:04 公開日:2024-07-18 |
# 非造影CTによる食道静脈瘤の評価
Improved Esophageal Varices Assessment from Non-Contrast CT Scans ( http://arxiv.org/abs/2407.13210v1 ) ライセンス: Link先を確認 | Chunli Li, Xiaoming Zhang, Yuan Gao, Xiaoli Yin, Le Lu, Ling Zhang, Ke Yan, Yu Shi, | (参考訳) 門脈圧亢進による重篤な健康上の問題である食道静脈瘤(EV)は、伝統的に侵襲的内視鏡的処置によって診断される。
非造影CT(non-contrast Computed Tomography, NC-CT)は, 安価で非侵襲的な画像モダリティであるにもかかわらず, EV評価のための主要な臨床診断ツールとして完全には受け入れられていない。
既存の診断課題を克服するために,NC-CTスキャンにおける重要な臓器機能の解析を改良し,EVを効果的に評価するMulti-Organ-cOhesion-Network(MOON)を提案する。
放射線技師の徹底的な評価から着想を得たMOONは、EVの関連臓器、すなわち食道、肝臓、脾臓のイメージング特徴を統一する凝集性多臓器分析モデルを確立する。
この統合により、EVの診断精度が大幅に向上する。
我々は,EVと診断された1,255人のNC-CTデータセットを3グレードの重症度で収集した。
それぞれの症例は内視鏡的診断の結果と相関する。
MOONの有効性は1010件のクロスバリデーションと245件の独立した検査を含む検証プロセスを通じて裏付けられ、食道のみに焦点を当てた方法(重度グレード:AUC 0.864 vs 0.803、中等度から重度グレード:AUC 0.832 vs 0.793)に比べて優れた診断性能を示した。
我々の知る限り、MOONは、EV評価のための同期多臓器NC-CT分析を取り入れた最初の研究であり、従来の内視鏡検査と比較して、患者に対してより受け入れられ、最小限に侵襲的な代替手段を提供する。
Esophageal varices (EV), a serious health concern resulting from portal hypertension, are traditionally diagnosed through invasive endoscopic procedures. Despite non-contrast computed tomography (NC-CT) imaging being a less expensive and non-invasive imaging modality, it has yet to gain full acceptance as a primary clinical diagnostic tool for EV evaluation. To overcome existing diagnostic challenges, we present the Multi-Organ-cOhesion-Network (MOON), a novel framework enhancing the analysis of critical organ features in NC-CT scans for effective assessment of EV. Drawing inspiration from the thorough assessment practices of radiologists, MOON establishes a cohesive multiorgan analysis model that unifies the imaging features of the related organs of EV, namely esophagus, liver, and spleen. This integration significantly increases the diagnostic accuracy for EV. We have compiled an extensive NC-CT dataset of 1,255 patients diagnosed with EV, spanning three grades of severity. Each case is corroborated by endoscopic diagnostic results. The efficacy of MOON has been substantiated through a validation process involving multi-fold cross-validation on 1,010 cases and an independent test on 245 cases, exhibiting superior diagnostic performance compared to methods focusing solely on the esophagus (for classifying severe grade: AUC of 0.864 versus 0.803, and for moderate to severe grades: AUC of 0.832 versus 0.793). To our knowledge, MOON is the first work to incorporate a synchronized multi-organ NC-CT analysis for EV assessment, providing a more acceptable and minimally invasive alternative for patients compared to traditional endoscopy. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 畳み込みニューラルネットワークを用いた画像超解像再構成機構に関する研究
Research on Image Super-Resolution Reconstruction Mechanism based on Convolutional Neural Network ( http://arxiv.org/abs/2407.13211v1 ) ライセンス: Link先を確認 | Hao Yan, Zixiang Wang, Zhengjia Xu, Zhuoyue Wang, Zhizhong Wu, Ranran Lyu, | (参考訳) 超高解像度再構成技術は、同一シーンから撮影された1つ以上の低解像度画像を高解像度画像に変換するためのソフトウェアアルゴリズムの利用を必要とする。
近年、シングルイメージ超解像アルゴリズムの領域、特にディープラーニング技術に基づく領域において、かなりの進歩が観察されている。
それでも、再構成過程における画像の特徴抽出や非線形マッピング手法は、既存のアルゴリズムでは難しいままである。
これらの問題により、ネットワークアーキテクチャは様々なレベルで多様な情報を効果的に活用できない。
微細なテクスチャの詳細が欠如しているため、最終的な再構成画像の特徴は過度に滑らかである。
これは画像の主観的な視覚的品質に悪影響を及ぼす。
目的は、高解像度の画像から高品質で高解像度の画像を復元することである。
本研究では,複数の畳み込み層から構成される深層畳み込みニューラルネットワークモデルを用いて,画像の多様な特徴を効果的に捉えるために,特定のフィルタとアクティベーション機能を備える。
さらに、トレーニングを加速し、ネットワークの収束を高めるために残留学習戦略を採用し、サブピクセル畳み込み層を利用して、画像の高周波の詳細やテクスチャを洗練させる。
実験により、従来のバイコビック補間法や他の学習に基づく超解像法と比較して、複数の公開データセット上でのモデルの有効性が示された。
さらに、画像のエッジやテクスチャを維持する上で、モデルの有効性を証明する。
Super-resolution reconstruction techniques entail the utilization of software algorithms to transform one or more sets of low-resolution images captured from the same scene into high-resolution images. In recent years, considerable advancement has been observed in the domain of single-image super-resolution algorithms, particularly those based on deep learning techniques. Nevertheless, the extraction of image features and nonlinear mapping methods in the reconstruction process remain challenging for existing algorithms. These issues result in the network architecture being unable to effectively utilize the diverse range of information at different levels. The loss of high-frequency details is significant, and the final reconstructed image features are overly smooth, with a lack of fine texture details. This negatively impacts the subjective visual quality of the image. The objective is to recover high-quality, high-resolution images from low-resolution images. In this work, an enhanced deep convolutional neural network model is employed, comprising multiple convolutional layers, each of which is configured with specific filters and activation functions to effectively capture the diverse features of the image. Furthermore, a residual learning strategy is employed to accelerate training and enhance the convergence of the network, while sub-pixel convolutional layers are utilized to refine the high-frequency details and textures of the image. The experimental analysis demonstrates the superior performance of the proposed model on multiple public datasets when compared with the traditional bicubic interpolation method and several other learning-based super-resolution methods. Furthermore, it proves the model's efficacy in maintaining image edges and textures. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# TXL-PBC : 自由にアクセスできるラベル付き末梢血細胞データセット
TXL-PBC: a freely accessible labeled peripheral blood cell dataset ( http://arxiv.org/abs/2407.13214v1 ) ライセンス: Link先を確認 | Lu Gan, Xi Li, | (参考訳) 最近の研究では、BCDとBCDのデータセットには、エラーのラベル付け、サンプルサイズ不足、データ品質の低下など、重大な問題があることが判明した。
これらの問題に対処するため、サンプル削除、再ラベル化、これらの2つのデータセットの統合を行いました。
さらに、PBCとRaabin-WBCデータセットを導入し、最終的に高品質でサンプルバランスのよい新しいデータセットを作成しました。
データセットには1008のトレーニングセット、288の検証セット、144のテストセットが含まれている。
まず、データセットには厳密な手動アノテーション、YOLOv8nモデルによる自動アノテーション、アノテーションの正確性と一貫性を保証するための手動監査ステップが実施された。
第2に,元のデータセットの血液細胞ミスラベル問題に対処する。
ラベル境界ボックス領域の分布とラベルの数は、BCCDおよびBCDデータセットよりも優れている。
さらに、YOLOv8nモデルを用いてこれらの3つのデータセットをトレーニングし、TXL-PBCデータセットのパフォーマンスが元の2つのデータセットを上回った。
最後に,TXL-PBCのベースラインモデルとして,YOLOv5n,YOLOv5s,YOLOv5l,YOLOv8s,YOLOv8mの検出モデルを採用した。
この研究は、血液細胞データセットの品質を高めるだけでなく、血液細胞標的検出モデルの改善にも研究者を支援している。
アクセス可能なTXL-PBCデータセットをhttps://github.com/lugan113/TXL-PBC\_Datasetで公開しました。
In a recent study, we found that publicly BCCD and BCD datasets have significant issues such as labeling errors, insufficient sample size, and poor data quality. To address these problems, we performed sample deletion, re-labeling, and integration of these two datasets. Additionally, we introduced the PBC and Raabin-WBC datasets, and ultimately created a high-quality, sample-balanced new dataset, which we named TXL-PBC. The dataset contains 1008 training sets, 288 validation sets, and 144 test sets. Firstly, The dataset underwent strict manual annotation, automatic annotation with YOLOv8n model, and manual audit steps to ensure the accuracy and consistency of annotations. Secondly, we addresses the blood cell mislabeling problem of the original datasets. The distribution of label boundary box areas and the number of labels are better than the BCCD and BCD datasets. Moreover, we used the YOLOv8n model to train these three datasets, the performance of the TXL-PBC dataset surpass the original two datasets. Finally, we employed YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s, YOLOv8m detection models as the baseline models for TXL-PBC. This study not only enhances the quality of the blood cell dataset but also supports researchers in improving models for blood cell target detection. We published our freely accessible TXL-PBC dataset at https://github.com/lugan113/TXL-PBC\_Dataset. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 特集「QIIL at T3 Challenge」の編集にあたって
QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View ( http://arxiv.org/abs/2407.13216v1 ) ライセンス: Link先を確認 | Trinh T. L. Vuong, Doanh C. Bui, Jin Tae Kwak, | (参考訳) 本稿では,Trauma THOMPSON(T3) Challenge(T3)において,行動認識,行動予測,視覚質問応答(VQA)を包含した,生命維持介入手順における多種多様な自動化タスクに対するソリューションを提案する。
動作認識と予測のために,複数の入力を1つの画像にサンプリング・縫合し,モーメントと注意に基づく知識蒸留を取り入れた前処理戦略を提案する。
トレーニングのために、我々は、実験全体で最も好意的な結果をもたらすアクション辞書誘導設計を提案する。
VQAの領域では、オブジェクトレベルの機能を活用し、オブジェクトと問合せの両方をトレーニングするためにコアテンションネットワークをデプロイします。
特に,ネットワークのコアに新しいフレーム・クエスト・クロスアテンション機構を導入し,性能向上を図る。
我々のソリューションは、行動認識および予測タスクにおける2$^{nd}$ランクと、VQAタスクにおける1$^{st}$ランクを達成します。
In this paper, we present our solutions for a spectrum of automation tasks in life-saving intervention procedures within the Trauma THOMPSON (T3) Challenge, encompassing action recognition, action anticipation, and Visual Question Answering (VQA). For action recognition and anticipation, we propose a pre-processing strategy that samples and stitches multiple inputs into a single image and then incorporates momentum- and attention-based knowledge distillation to improve the performance of the two tasks. For training, we present an action dictionary-guided design, which consistently yields the most favorable results across our experiments. In the realm of VQA, we leverage object-level features and deploy co-attention networks to train both object and question features. Notably, we introduce a novel frame-question cross-attention mechanism at the network's core for enhanced performance. Our solutions achieve the $2^{nd}$ rank in action recognition and anticipation tasks and $1^{st}$ rank in the VQA task. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# LIDIA:イテレーティブフュージョンと非対称コントラスト学習による多相造影CTの肝腫瘍診断
LIDIA: Precise Liver Tumor Diagnosis on Multi-Phase Contrast-Enhanced CT via Iterative Fusion and Asymmetric Contrastive Learning ( http://arxiv.org/abs/2407.13217v1 ) ライセンス: Link先を確認 | Wei Huang, Wei Liu, Xiaoming Zhang, Xiaoli Yin, Xu Han, Chunli Li, Yuan Gao, Yu Shi, Le Lu, Ling Zhang, Lei Zhang, Ke Yan, | (参考訳) 肝腫瘍の早期発見と正確な診断は臨床的に重要な課題であるが,肝腫瘍の多様性と多様性が高いことから,重要な課題となっている。
そこで本研究では,多相造影CTを用いたLIver腫瘍DIAgnosisネットワーク(LIDIA)を提案する。
造影CTで利用可能なすべての位相をフル活用するために、LIDIAはまず反復融合モジュールを使用して画像位相の変動数を集計し、異なる位相の病変の特徴を捉えて腫瘍の診断を改善する。
肝腫瘍の高均一性問題を効果的に緩和するために、LIDIAは非対称コントラスト学習を導入し、異なるクラス間の差別性を高める。
本手法を評価するため,1,921例と8,138例からなる大規模データセットを構築した。
LIDIAは8種類の病変に対して平均93.6%のAUCを達成し、その効果を実証している。
さらに、LIDIAは828人の外部コホートで検査すると平均89.3%のAUCで強い一般化性を示した。
The early detection and precise diagnosis of liver tumors are tasks of critical clinical value, yet they pose significant challenges due to the high heterogeneity and variability of liver tumors. In this work, a precise LIver tumor DIAgnosis network on multi-phase contrast-enhance CT, named LIDIA, is proposed for real-world scenario. To fully utilize all available phases in contrast-enhanced CT, LIDIA first employs the iterative fusion module to aggregate variable numbers of image phases, thereby capturing the features of lesions at different phases for better tumor diagnosis. To effectively mitigate the high heterogeneity problem of liver tumors, LIDIA incorporates asymmetric contrastive learning to enhance the discriminability between different classes. To evaluate our method, we constructed a large-scale dataset comprising 1,921 patients and 8,138 lesions. LIDIA has achieved an average AUC of 93.6% across eight different types of lesions, demonstrating its effectiveness. Besides, LIDIA also demonstrated strong generalizability with an average AUC of 89.3% when tested on an external cohort of 828 patients. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# LiNR: LinkedInのGPU上でのモデルベースのニューラル検索
LiNR: Model Based Neural Retrieval on GPUs at LinkedIn ( http://arxiv.org/abs/2407.13218v1 ) ライセンス: Link先を確認 | Fedor Borisyuk, Qingquan Song, Mingzhou Zhou, Ganesh Parameswaran, Madhu Arun, Siva Popuri, Tugrul Bingol, Zhuotao Pei, Kuang-Hsuan Lee, Lu Zheng, Qizhan Shao, Ali Naqvi, Sen Zhou, Aman Gupta, | (参考訳) 本稿では,LinkedInの大規模GPUベース検索システムであるLiNRを紹介する。
LiNRはGPUモデルの10億ドル規模のインデックスをサポートする。
TensorFlowとPyTorchを実運用規模で使用して、スケーラブルで差別化可能な検索インデックスを作成する上での私たちの経験と課題について論じる。
LiNRでは、アイテムとモデルウェイトの両方がモデルバイナリに統合されます。
モデルトレーニングの一形態としてインデックス構築を見ていくことで,大規模なインデックスをスケールし,フルスキャンと効率的なフィルタリングを取り入れたシステムについて述べる。
重要な焦点は、徹底的なGPUサーチで属性ベースの事前フィルタリングを可能にすることであり、システム品質を低下させるKNNサーチにおけるポストフィルタの一般的な課題に対処する。
さらに、検索におけるコールドスタート問題に対処するためのマルチ埋め込み検索アルゴリズムと戦略を提供する。
量子化によるより大きな指標支援の進歩についても論じる。
我々は、LiNRが業界初のLive-updated model-based search indexの1つであると考えている。
LinkedIn Feedのネットワーク外投稿レコメンデーションに適用されると、LiNRはプロのデイリーアクティブユーザーを3%増加させた。
我々はLiNRを、検索とランキングを単一のGPUモデルに統合し、複雑なインフラストラクチャを単純化し、勾配勾配を通した変更可能なインフラストラクチャ全体のエンドツーエンドの最適化を可能にするためのステップとして考えています。
This paper introduces LiNR, LinkedIn's large-scale, GPU-based retrieval system. LiNR supports a billion-sized index on GPU models. We discuss our experiences and challenges in creating scalable, differentiable search indexes using TensorFlow and PyTorch at production scale. In LiNR, both items and model weights are integrated into the model binary. Viewing index construction as a form of model training, we describe scaling our system for large indexes, incorporating full scans and efficient filtering. A key focus is on enabling attribute-based pre-filtering for exhaustive GPU searches, addressing the common challenge of post-filtering in KNN searches that often reduces system quality. We further provide multi-embedding retrieval algorithms and strategies for tackling cold start issues in retrieval. Our advancements in supporting larger indexes through quantization are also discussed. We believe LiNR represents one of the industry's first Live-updated model-based retrieval indexes. Applied to out-of-network post recommendations on LinkedIn Feed, LiNR has contributed to a 3% relative increase in professional daily active users. We envisage LiNR as a step towards integrating retrieval and ranking into a single GPU model, simplifying complex infrastructures and enabling end-to-end optimization of the entire differentiable infrastructure through gradient descent. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 長時間映像生成のためのマルチセンス映像グラウンドイング
Multi-sentence Video Grounding for Long Video Generation ( http://arxiv.org/abs/2407.13219v1 ) ライセンス: Link先を確認 | Wei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Wenwu Zhu, | (参考訳) ビデオ生成は近年大きな成功を収めているが、生成したビデオの時間的一貫性の維持と生成時の高メモリコストの維持が困難であることから、長大なビデオ生成への応用は依然として困難である。
この問題に対処するため,本稿では,大規模な映像モーメント検索をビデオ生成タスクに初めて接続し,長大な映像生成のための新しいパラダイムを提供する,多文ビデオグラウンドディングの勇敢で新しいアイデアを提案する。
私たちの作業の方法は3つのステップにまとめることができます。
i) 映像データベースのテキスト要求を満たす映像モーメントセグメントを検索するために, 大規模な映像モーメント検索を利用して, 連続的なシーンテキストプロンプトをビデオグラウンド検索のクエリとして設計する。
2)検索した映像の時間的一貫性を保ちつつ,新たな映像コンテンツを作成するための映像編集手法を,検索した映像のソースフレームに基づいて導入した。
編集はセグメント単位で行うことができ、フレーム単位で行うこともできるため、メモリコストを大幅に削減できる。
また,長大映像生成の主観的整合性を改善するために,映像のモーフィングとパーソナライズド生成手法を試み,長大映像生成のサブタスクに対するアブレーション実験結果を提供する。
提案手法は,画像・ビデオ編集,動画のモーフィング,パーソナライズ生成,ビデオグラウンド化などの開発をシームレスに拡張し,低メモリで長時間ビデオを生成するための効果的なソリューションを提供する。
Video generation has witnessed great success recently, but their application in generating long videos still remains challenging due to the difficulty in maintaining the temporal consistency of generated videos and the high memory cost during generation. To tackle the problems, in this paper, we propose a brave and new idea of Multi-sentence Video Grounding for Long Video Generation, connecting the massive video moment retrieval to the video generation task for the first time, providing a new paradigm for long video generation. The method of our work can be summarized as three steps: (i) We design sequential scene text prompts as the queries for video grounding, utilizing the massive video moment retrieval to search for video moment segments that meet the text requirements in the video database. (ii) Based on the source frames of retrieved video moment segments, we adopt video editing methods to create new video content while preserving the temporal consistency of the retrieved video. Since the editing can be conducted segment by segment, and even frame by frame, it largely reduces the memory cost. (iii) We also attempt video morphing and personalized generation methods to improve the subject consistency of long video generation, providing ablation experimental results for the subtasks of long video generation. Our approach seamlessly extends the development in image/video editing, video morphing and personalized generation, and video grounding to the long video generation, offering effective solutions for generating long videos at low memory cost. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 強化学習によるマルチモーダルラベル関連ランク付け
Multimodal Label Relevance Ranking via Reinforcement Learning ( http://arxiv.org/abs/2407.13221v1 ) ライセンス: Link先を確認 | Taian Guo, Taolin Zhang, Haoqian Wu, Hanjun Li, Ruizhi Qiao, Xing Sun, | (参考訳) 従来のマルチラベル認識手法は、しばしばラベルの信頼性に焦点を合わせ、しばしば人間の嗜好と整合した部分順序関係の重要な役割を見落としている。
これらの問題を解決するために,ラベル間の部分順序関係を効果的に識別する,Rabel Relevance Ranking with Proximal Policy Optimization (LR\textsuperscript{2}PPO) と呼ばれる,マルチモーダルラベル関連ランキングの新しい手法を提案する。
LR\textsuperscript{2}PPOは、まずターゲットドメインの部分順序ペアを使用して報酬モデルをトレーニングする。
さらに、ランキングタスクに適した状態表現とポリシー損失を慎重に設計し、LR\textsuperscript{2}PPOによりラベル関連ランキングモデルの性能を高め、新しいシーンに転送するための部分順序アノテーションの要求を大幅に低減する。
さらに,本手法と類似手法の評価を支援するために,マルチモーダルラベルと対応する部分順序データを備えた新しいベンチマークデータセットLRMovieNetを提案する。
LR\textsuperscript{2}PPOアルゴリズムは,マルチモーダルラベル関連ランキング問題に対処する上で,その有効性を示す。
コードとLRMovieNetデータセットは \url{https://github.com/ChazzyGordon/LR2PPO} で公開されている。
Conventional multi-label recognition methods often focus on label confidence, frequently overlooking the pivotal role of partial order relations consistent with human preference. To resolve these issues, we introduce a novel method for multimodal label relevance ranking, named Label Relevance Ranking with Proximal Policy Optimization (LR\textsuperscript{2}PPO), which effectively discerns partial order relations among labels. LR\textsuperscript{2}PPO first utilizes partial order pairs in the target domain to train a reward model, which aims to capture human preference intrinsic to the specific scenario. Furthermore, we meticulously design state representation and a policy loss tailored for ranking tasks, enabling LR\textsuperscript{2}PPO to boost the performance of label relevance ranking model and largely reduce the requirement of partial order annotation for transferring to new scenes. To assist in the evaluation of our approach and similar methods, we further propose a novel benchmark dataset, LRMovieNet, featuring multimodal labels and their corresponding partial order data. Extensive experiments demonstrate that our LR\textsuperscript{2}PPO algorithm achieves state-of-the-art performance, proving its effectiveness in addressing the multimodal label relevance ranking problem. Codes and the proposed LRMovieNet dataset are publicly available at \url{https://github.com/ChazzyGordon/LR2PPO}. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# SVMモデルとmmWaveレーダセンサデータを用いた非接触呼吸速度分類
Non-Contact Breath Rate Classification Using SVM Model and mmWave Radar Sensor Data ( http://arxiv.org/abs/2407.13222v1 ) ライセンス: Link先を確認 | Mohammad Wassaf Ali, Ayushi Gupta, Mujeev Khan, Mohd Wajid, | (参考訳) 本研究では、周波数変調連続波(FMCW)レーダ技術と機械学習モデルを組み合わせて、正常と異常な呼吸速度を区別する手法を提案する。
提案システムは、呼吸速度に依存するFMCWレーダを用いて、非接触でデータを収集する。
様々なサポートベクターマシンカーネルを使用して、観測されたデータを正常な状態と異常な状態に分類する。
長時間の実験は、呼吸速度の分類において良好な精度を示し、モデルの有効性を確認した。
最良の精度は95%であり、二次多項式カーネルの場合、サポートベクトルの最小数である。
This work presents the use of frequency modulated continuous wave (FMCW) radar technology combined with a machine learning model to differentiate between normal and abnormal breath rates. The proposed system non-contactly collects data using FMCW radar, which depends on breath rates. Various support vector machine kernels are used to classify the observed data into normal and abnormal states. Prolonged experiments show good accuracy in breath rate classification, confirming the model's efficacy. The best accuracy is 95 percent with the smallest number of support vectors in the case of the quadratic polynomial kernel. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# Counseling and Psychotherapy Transcripts を用いた不安・抑うつ分類のための大規模言語モデルの評価
Evaluating Large Language Models for Anxiety and Depression Classification using Counseling and Psychotherapy Transcripts ( http://arxiv.org/abs/2407.13228v1 ) ライセンス: Link先を確認 | Junwei Sun, Siqi Ma, Yiran Fan, Peter Washington, | (参考訳) 我々は,従来の機械学習と大規模言語モデル(LLM)が,長い会話の書き起こしから不安や抑うつを分類する上で,有効性を評価することを目的としている。
我々は,変圧器モデル(BERT,RoBERTa,Longformer)と近年の大型モデル(Mistral-7B)の両者を微調整し,特徴工学を用いたサポートベクトルマシンを訓練し,プロンプトによるGPTモデルの評価を行った。
従来の機械学習手法と比較して,最先端のモデルでは分類結果の強化に失敗する。
We aim to evaluate the efficacy of traditional machine learning and large language models (LLMs) in classifying anxiety and depression from long conversational transcripts. We fine-tune both established transformer models (BERT, RoBERTa, Longformer) and more recent large models (Mistral-7B), trained a Support Vector Machine with feature engineering, and assessed GPT models through prompting. We observe that state-of-the-art models fail to enhance classification outcomes compared to traditional machine learning methods. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 異種海洋データストリームのためのデータフロー指向ソフトウェアアーキテクチャ
A data-flow oriented software architecture for heterogeneous marine data streams ( http://arxiv.org/abs/2407.13231v1 ) ライセンス: Link先を確認 | Keila Lima, Ngoc-Thanh Nguyen, Rogardt Heldal, Lars Michael Kristensen, Tosin Daniel Oyetoyan, Patrizio Pelliccione, Eric Knauss, | (参考訳) 海洋のin-situデータは、固定または移動システムに搭載されたセンサーによって収集される。
この種のデータは、海洋生態系や気候変動の状況を監視し予測するために、海洋産業と公共当局の両方にとって重要である。
様々な公共団体が過去10年間に海底のデータを収集し、管理し、公開してきた。
近年、Ocean Decade Corporate Data Group(Ocean Decade Corporate Data Group)のようなイニシアチブは、海洋管理を支援する民間企業から、公益の海洋データの共有にインセンティブを与えている。
しかし、システムエンジニアリングにおけるデータ品質の影響や、収集したデータの管理と活用方法について、明確な理解が得られていない。
本稿では,海洋データストリームの主設計決定とデータフロー指向コンポーネントとコネクタビューを提案する。
本研究の成果は,海洋分野の専門家から公衆および民間機関から抽出した知識と文献で特定された課題から得られた,縦断的な経験的ソフトウェア工学プロセスに基づく。
提案するソフトウェアアーキテクチャは、プロトタイプ実装でインスタンス化され、例示される。
Marine in-situ data is collected by sensors mounted on fixed or mobile systems deployed into the ocean. This type of data is crucial both for the ocean industries and public authorities, e.g., for monitoring and forecasting the state of marine ecosystems and/or climate changes. Various public organizations have collected, managed, and openly shared in-situ marine data in the past decade. Recently, initiatives like the Ocean Decade Corporate Data Group have incentivized the sharing of marine data of public interest from private companies aiding in ocean management. However, there is no clear understanding of the impact of data quality in the engineering of systems, as well as on how to manage and exploit the collected data. In this paper, we propose main architectural decisions and a data flow-oriented component and connector view for marine in-situ data streams. Our results are based on a longitudinal empirical software engineering process, and driven by knowledge extracted from the experts in the marine domain from public and private organizations, and challenges identified in the literature. The proposed software architecture is instantiated and exemplified in a prototype implementation. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# LLMを用いた強化学習のための状態表現
LLM-Empowered State Representation for Reinforcement Learning ( http://arxiv.org/abs/2407.13237v1 ) ライセンス: Link先を確認 | Boyuan Wang, Yun Qu, Yuhang Jiang, Jianzhun Shao, Chang Liu, Wenming Yang, Xiangyang Ji, | (参考訳) 強化学習における従来の状態表現はしばしば重要なタスク関連の詳細を省略し、状態からタスク報酬への正確なマッピングを確立する上で、バリューネットワークにとって重要な課題を提示している。
従来の手法は、通常、タスク固有の情報で状態表現を豊かにする広範なサンプル学習に依存しており、サンプル効率が低く、時間的コストも高い。
近年,知識のある大規模言語モデル (LLM) が増加し,人的介入を最小限に抑えた先行注入の代替として有望な代替手段が提供されてきた。
そこで本研究では,LLMを用いてタスク関連状態表現コードを自動生成し,ネットワークマッピングの継続性を向上し,効率的なトレーニングを容易にする,LESR(LLM-Empowered State Representation)を提案する。
実験の結果、LESRは高いサンプル効率を示し、ムジョコタスクの累積報酬の29%、ジム・ロボティクスタスクの成功率の30%を平均で上回り、最先端のベースラインを上回ります。
Conventional state representations in reinforcement learning often omit critical task-related details, presenting a significant challenge for value networks in establishing accurate mappings from states to task rewards. Traditional methods typically depend on extensive sample learning to enrich state representations with task-specific information, which leads to low sample efficiency and high time costs. Recently, surging knowledgeable large language models (LLM) have provided promising substitutes for prior injection with minimal human intervention. Motivated by this, we propose LLM-Empowered State Representation (LESR), a novel approach that utilizes LLM to autonomously generate task-related state representation codes which help to enhance the continuity of network mappings and facilitate efficient training. Experimental results demonstrate LESR exhibits high sample efficiency and outperforms state-of-the-art baselines by an average of 29% in accumulated reward in Mujoco tasks and 30% in success rates in Gym-Robotics tasks. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# 語彙データモデリングのための確率的競合を持つ変換器
Transformers with Stochastic Competition for Tabular Data Modelling ( http://arxiv.org/abs/2407.13238v1 ) ライセンス: Link先を確認 | Andreas Voskou, Charalambos Christoforou, Sotirios Chatzis, | (参考訳) 多くの産業や分野にまたがる表形式のデータの普及と重要性にもかかわらず、ディープラーニングの領域では比較的過小評価されている。
現在でも、ニューラルネットワークは、勾配向上決定木(GBDT)のような技術によって隠れていることが多い。
しかし、近年のモデルはこのギャップを埋め始めており、様々な設定でGBDTを上回り、この分野の注目を集めている。
この発展に触発されて,表型データに特化して設計された,確率的深層学習モデルを導入する。
このモデルの基礎はTransformerベースのアーキテクチャであり、戦略的なアーキテクチャ変更と2種類の確率的競争の活用を通じて、表データのユニークな特性に注意深く適合する。
まず,確率性や空間性を通じて一般化能力を促進するために,確率的「ローカル・ウィンナー・テイクズ・オール」ユニットを用いる。
第2に、確率的競合のメカニズムにより、他の線形埋め込み層の中から選択する新しい埋め込み層を導入する。
モデルの有効性は、広く使用されており、公開されているさまざまなデータセットで検証される。
これらの要素の組み入れにより,本モデルは高い性能を示し,グラフデータへの深層学習の適用において著しい進歩を示す。
Despite the prevalence and significance of tabular data across numerous industries and fields, it has been relatively underexplored in the realm of deep learning. Even today, neural networks are often overshadowed by techniques such as gradient boosted decision trees (GBDT). However, recent models are beginning to close this gap, outperforming GBDT in various setups and garnering increased attention in the field. Inspired by this development, we introduce a novel stochastic deep learning model specifically designed for tabular data. The foundation of this model is a Transformer-based architecture, carefully adapted to cater to the unique properties of tabular data through strategic architectural modifications and leveraging two forms of stochastic competition. First, we employ stochastic "Local Winner Takes All" units to promote generalization capacity through stochasticity and sparsity. Second, we introduce a novel embedding layer that selects among alternative linear embedding layers through a mechanism of stochastic competition. The effectiveness of the model is validated on a variety of widely-used, publicly available datasets. We demonstrate that, through the incorporation of these elements, our model yields high performance and marks a significant advancement in the application of deep learning to tabular data. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# Intelligo ut Confido: Verifiable Receipt-Free E-Votingにおける理解,信頼,ユーザエクスペリエンス
Intelligo ut Confido: Understanding, Trust and User Experience in Verifiable Receipt-Free E-Voting (long version) ( http://arxiv.org/abs/2407.13240v1 ) ライセンス: Link先を確認 | Marie-Laure Zollinger, Peter B. Rønne, Steve Schneider, Peter Y. A. Ryan, Wojtek Jamroga, | (参考訳) 投票プロトコルは、選挙において整合性を提供し、プライバシーを投票する。
完全性を達成するために、投票者が投票を検証できる手順が提案されている。
特に、投票の検証は、攻撃者が文書、すなわちレシートを入手できれば、投票や強制に繋がる可能性がある。
したがって、一部の投票プロトコルはさらに進み、そのようなレシートを防ぐメカニズムを提供する。
有効にするために、いわゆる「レシートフリーネス」は、有権者がこれらのメカニズムを理解して利用できることに依存している。
本稿では,電子投票プロトコルであるSeleneにおけるレシートフリー化に関する有権者の経験を投票購入の文脈で評価することを目的とした,300人の参加者を対象にした調査を行った。
これは実際に、電子投票における投票購入に関する最初のユーザスタディである。
実験では, ユーザビリティと信頼要因が低かったが, 信頼と理解の間に正の相関が認められた。
Voting protocols seek to provide integrity and vote privacy in elections. To achieve integrity, procedures have been proposed allowing voters to verify their vote - however this impacts both the user experience and privacy. Especially, vote verification can lead to vote-buying or coercion, if an attacker can obtain documentation, i.e. a receipt, of the cast vote. Thus, some voting protocols go further and provide mechanisms to prevent such receipts. To be effective, this so-called receipt-freeness depends on voters being able to understand and use these mechanisms. In this paper, we present a study with 300 participants which aims to evaluate the voters' experience of the receipt-freeness procedures in the e-voting protocol Selene in the context of vote-buying. This actually constitutes the first user study dealing with vote-buying in e-voting. While the usability and trust factors were rated low in the experiments, we found a positive correlation between trust and understanding. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# NODER:ニューラル正規微分方程式に基づく画像系列回帰
NODER: Image Sequence Regression Based on Neural Ordinary Differential Equations ( http://arxiv.org/abs/2407.13241v1 ) ライセンス: Link先を確認 | Hao Bai, Yi Hong, | (参考訳) 医用画像シーケンスの回帰は、時間的画像パターンの変化を捉え、欠落または将来の時点における画像を予測することができる。
しかし、既存の測地回帰法は、線形力学の強い仮定によって回帰性能を制限しているが、拡散法は高い計算コストを持ち、画像トポロジを保存するための制約が欠如している。
本稿では,ニューラル常微分方程式を利用して複雑なダイナミックスを捕捉し,遅延空間を導入することで高次元画像量を扱うための計算コストを削減できるNODERという最適化ベースの新しいフレームワークを提案する。
我々はNODERと最近の2つの回帰法を比較し,ADNIおよびACDCデータセットを用いた実験結果から,本手法が3次元画像レグレッションにおける最先端性能を実現することを示す。
本モデルでは, 極めて限られた画像時系列が解析に利用可能である臨床状況において, 現実的な予測を行うために, 一連の画像しか必要としない。
ソースコードはhttps://github.com/ZedKing12138/NODER-pytorch.comで公開されています。
Regression on medical image sequences can capture temporal image pattern changes and predict images at missing or future time points. However, existing geodesic regression methods limit their regression performance by a strong underlying assumption of linear dynamics, while diffusion-based methods have high computational costs and lack constraints to preserve image topology. In this paper, we propose an optimization-based new framework called NODER, which leverages neural ordinary differential equations to capture complex underlying dynamics and reduces its high computational cost of handling high-dimensional image volumes by introducing the latent space. We compare our NODER with two recent regression methods, and the experimental results on ADNI and ACDC datasets demonstrate that our method achieves the state-of-the-art performance in 3D image regression. Our model needs only a couple of images in a sequence for prediction, which is practical, especially for clinical situations where extremely limited image time series are available for analysis. Our source code is available at https://github.com/ZedKing12138/NODER-pytorch. | 翻訳日:2024-07-19 16:32:17 公開日:2024-07-18 |
# PM-LLM-Benchmark:プロセスマイニングタスクにおける大規模言語モデルの評価
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks ( http://arxiv.org/abs/2407.13244v1 ) ライセンス: Link先を確認 | Alessandro Berti, Humam Kourani, Wil M. P. van der Aalst, | (参考訳) 大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。
商用モデルはすでに多くの分析タスクに適しているが、PMタスクにおけるオープンソースのLLMの競合レベルは不明である。
本稿では,ドメイン知識(プロセスマイニング固有およびプロセス固有)と異なる実装戦略に焦点を当てたPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。
また,データ公開に関するベンチマーク作成の課題や,LCMによる評価バイアスにも着目する。
全体としては、LLMのほとんどの場合、良好なレベルでプロセスマイニングタスクを実行できるが、エッジデバイス上で実行される小さなモデルはまだ不十分である。
また,提案ベンチマークはプロセスマイニング作業に適するLCMの同定に有用であるが,評価バイアスを克服し,競合LCMのより詳細な評価を行うためには,さらなる研究が必要であると結論付けた。
Large Language Models (LLMs) have the potential to semi-automate some process mining (PM) analyses. While commercial models are already adequate for many analytics tasks, the competitive level of open-source LLMs in PM tasks is unknown. In this paper, we propose PM-LLM-Benchmark, the first comprehensive benchmark for PM focusing on domain knowledge (process-mining-specific and process-specific) and on different implementation strategies. We focus also on the challenges in creating such a benchmark, related to the public availability of the data and on evaluation biases by the LLMs. Overall, we observe that most of the considered LLMs can perform some process mining tasks at a satisfactory level, but tiny models that would run on edge devices are still inadequate. We also conclude that while the proposed benchmark is useful for identifying LLMs that are adequate for process mining tasks, further research is needed to overcome the evaluation biases and perform a more thorough ranking of the competitive LLMs. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# STS MICCAI 2023 Challenge: Grand Challenge on 2D and 3D semi-supervised teeth segmentation
STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation ( http://arxiv.org/abs/2407.13246v1 ) ライセンス: Link先を確認 | Yaqi Wang, Yifan Zhang, Xiaodiao Chen, Shuai Wang, Dahong Qian, Fan Ye, Feng Xu, Hongyuan Zhang, Qianni Zhang, Chengyu Wu, Yunxiang Li, Weiwei Cui, Shan Luo, Chengkai Wang, Tianhao Li, Yi Liu, Xiang Feng, Huiyu Zhou, Dongyun Liu, Qixuan Wang, Zhouhao Lin, Wei Song, Yuanlin Li, Bing Wang, Chunshi Wang, Qiupu Chen, Mingqian Li, | (参考訳) コンピュータ支援デザイン(CAD)ツールは、現代の歯科医療、特に治療計画や包括的予後評価において、ますます人気が高まっている。
特に、この2DパノラマX線画像は、小児の盲歯、衝撃歯、超数歯を効率よく検出する一方、3D歯科用コーンビームCT(CBCT)は、その低放射線線量による矯正および歯内療法に広く用いられている。
しかし, 小児歯の2次元公開データセットは存在せず, 3次元歯科用CBCTデータセットも存在せず, 歯のセグメンテーションや疾患解析のための自動アルゴリズムの開発が制限されている。
MICCAI 2023 ToothFairy Workshop on the Alibaba Tianchi platformの一部として、歯のセグメンテーションの先駆的なイベントであるSemi-supervised Teeth Segmentation (STS) Challengeが開催された。
この課題は, 歯学の分野を前進させるために, 効果的な半教師付き歯のセグメンテーションアルゴリズムを検討することである。
本研究では,2次元パノラマX線像と3次元CBCT歯量を含む2つのモダリティを提供する。
第1タスクでは, 成人歯と小児歯のパノラマX線像において, 歯の領域を分割することが目的であった。
第2章 CBCTボリュームを用いた歯列分割。
この課題のプロンプトには、ほとんどラベリングされていないラベル付き画像が、セミ教師付きアルゴリズムで訓練された。
予選では434チームが参加し、64チームが決勝に進出した。
本稿では,STS MICCAI 2023 Challengeにおける上位チームによる多様な手法について要約する。
Computer-aided design (CAD) tools are increasingly popular in modern dental practice, particularly for treatment planning or comprehensive prognosis evaluation. In particular, the 2D panoramic X-ray image efficiently detects invisible caries, impacted teeth and supernumerary teeth in children, while the 3D dental cone beam computed tomography (CBCT) is widely used in orthodontics and endodontics due to its low radiation dose. However, there is no open-access 2D public dataset for children's teeth and no open 3D dental CBCT dataset, which limits the development of automatic algorithms for segmenting teeth and analyzing diseases. The Semi-supervised Teeth Segmentation (STS) Challenge, a pioneering event in tooth segmentation, was held as a part of the MICCAI 2023 ToothFairy Workshop on the Alibaba Tianchi platform. This challenge aims to investigate effective semi-supervised tooth segmentation algorithms to advance the field of dentistry. In this challenge, we provide two modalities including the 2D panoramic X-ray images and the 3D CBCT tooth volumes. In Task 1, the goal was to segment tooth regions in panoramic X-ray images of both adult and pediatric teeth. Task 2 involved segmenting tooth sections using CBCT volumes. Limited labelled images with mostly unlabelled ones were provided in this challenge prompt using semi-supervised algorithms for training. In the preliminary round, the challenge received registration and result submission by 434 teams, with 64 advancing to the final round. This paper summarizes the diverse methods employed by the top-ranking teams in the STS MICCAI 2023 Challenge. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# 大規模言語モデルは人間レベルナラティブを生成することができるか?
Are Large Language Models Capable of Generating Human-Level Narratives? ( http://arxiv.org/abs/2407.13248v1 ) ライセンス: Link先を確認 | Yufei Tian, Tenghao Huang, Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng, | (参考訳) 本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを導入する。
ストーリー・アーク; ストーリー・アーク; ストーリー・アーク
二 点を回すこと、及び
三 覚醒及び静寂を含む情緒的寸法
専門家と自動アノテーションを活用することで、LLMと人間による物語の間に大きな相違点が明らかになる。
人間による物語はサスペンスがあり、刺激的であり、物語構造において多様であるが、LLMの物語は均質に肯定的であり、緊張を欠いている。
次に,ナラティブ推論スキルを生成能力の前駆体として測定し,ほとんどのLLMは言論理解における人間の能力に欠けていると結論付けた。
最後に, 上記の談話機能の明示的な統合は, 多様性, サスペンス, 覚醒の観点から, 40%以上のニューラルストーリーテリングの改善が示されるように, ストーリーテリングを促進できることを示す。
This paper investigates the capability of LLMs in storytelling, focusing on narrative development and plot progression. We introduce a novel computational framework to analyze narratives through three discourse-level aspects: i) story arcs, ii) turning points, and iii) affective dimensions, including arousal and valence. By leveraging expert and automatic annotations, we uncover significant discrepancies between the LLM- and human- written stories. While human-written stories are suspenseful, arousing, and diverse in narrative structures, LLM stories are homogeneously positive and lack tension. Next, we measure narrative reasoning skills as a precursor to generative capacities, concluding that most LLMs fall short of human abilities in discourse understanding. Finally, we show that explicit integration of aforementioned discourse features can enhance storytelling, as is demonstrated by over 40% improvement in neural storytelling in terms of diversity, suspense, and arousal. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# PyTreeNet: ツリーテンソルネットワークを簡単に活用するためのPythonライブラリ
PyTreeNet: A Python Library for easy Utilisation of Tree Tensor Networks ( http://arxiv.org/abs/2407.13249v1 ) ライセンス: Link先を確認 | Richard M. Milbradt, Qunsheng Huang, Christian B. Mendl, | (参考訳) 近年、ツリーテンソルネットワーク法は、量子多体や他の高次元システムをシミュレートできることが証明されている。
この作業はPythonライブラリPyTreeNetのユーザガイドです。
ライブラリの機能を導入し、ツリーテンソルネットワークを取り巻く概念とメソッドを読者に親しみやすくするためのコード例と演習が含まれている。
PyTreeNetは、テンソル分解や任意のツリー構造など、一般的なツリーテンソルネットワークメソッドを実装するために必要なツールをすべて実装している。
主な焦点は量子系の時間発展である。
これには、ツリーテンソルネットワーク状態と演算子の導入、時間発展ブロックのデミテーションと時間依存の変動原理が含まれる。
ライブラリの機能は、共通の状態ベクトルメソッドの能力をはるかに超える、ツリー構造上の修正された横フィールドIsingモデルの例で紹介されている。
In recent years, tree tensor network methods have proven capable of simulating quantum many-body and other high-dimensional systems. This work is a user guide to our Python library PyTreeNet. It includes code examples and exercises to introduce the library's functions and familiarise the reader with the concepts and methods surrounding tree tensor networks. PyTreeNet implements all the tools required to implement general tree tensor network methods, such as tensor decompositions and arbitrary tree structures. The main focus is on the time evolution of quantum systems. This includes an introduction to tree tensor network states and operators and the time-evolving block decimation and time-dependent variational principle. The library's capabilities are showcased with the example of a modified transverse field Ising model on tree structures that go far beyond the ability of common state vector methods. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# グラフレベル異常検出のための逆補正によるモチフ一貫性陰影
Motif-Consistent Counterfactuals with Adversarial Refinement for Graph-Level Anomaly Detection ( http://arxiv.org/abs/2407.13251v1 ) ライセンス: Link先を確認 | Chunjing Xiao, Shikang Pang, Wenxin Tai, Yanlong Huang, Goce Trajcevski, Fan Zhou, | (参考訳) グラフレベルの異常検出は多様な領域において重要である。
検出性能を向上させるために,因果関係の学習によって一般化能力の恩恵を受けるために,反ファクトグラフを利用した。
既存の研究の多くは、対実グラフを生成するために摂動(例えば、エッジを反転させる)を直接導入しており、これは生成された例のセマンティクスを変更してデータ多様体から外し、結果として準最適性能をもたらす。
これらの問題に対処するため、グラフレベルの異常検出のための新しい手法Motif-consistent Counterfactuals with Adversarial Refinement (MotifCAR)を提案する。
このモデルは、あるグラフのモチーフと、識別(カテゴリ)情報を含むコアサブグラフと、別のグラフのコンテキストサブグラフ(非モチーフ)を組み合わせて、生の反事実グラフを生成する。
しかし、生成された生グラフは歪んでいて、写実性、妥当性、近接性、スパーシティといった重要な反事実性を満たすことができないかもしれない。
そこで本研究では,GAN(Generative Adversarial Network)ベースのグラフオプティマイザを提案する。
これは、ジェネレータを誘導する判別器を採用し、現実的なデータに近いグラフを生成する。
さらに,生成したグラフのモチーフを現実的なグラフと整合させるようにモチーフ整合性を設計し,特性の妥当性を満足する。
また、コンテキストの損失と接続損失を考案し、コンテキストのサブグラフと新たに追加されたリンクをプロクシミティとスパーシティに適合させる。
結果として、モデルは高品質な反ファクトグラフを生成することができる。
実験はMotifCARの優位性を示す。
Graph-level anomaly detection is significant in diverse domains. To improve detection performance, counterfactual graphs have been exploited to benefit the generalization capacity by learning causal relations. Most existing studies directly introduce perturbations (e.g., flipping edges) to generate counterfactual graphs, which are prone to alter the semantics of generated examples and make them off the data manifold, resulting in sub-optimal performance. To address these issues, we propose a novel approach, Motif-consistent Counterfactuals with Adversarial Refinement (MotifCAR), for graph-level anomaly detection. The model combines the motif of one graph, the core subgraph containing the identification (category) information, and the contextual subgraph (non-motif) of another graph to produce a raw counterfactual graph. However, the produced raw graph might be distorted and cannot satisfy the important counterfactual properties: Realism, Validity, Proximity and Sparsity. Towards that, we present a Generative Adversarial Network (GAN)-based graph optimizer to refine the raw counterfactual graphs. It adopts the discriminator to guide the generator to generate graphs close to realistic data, i.e., meet the property Realism. Further, we design the motif consistency to force the motif of the generated graphs to be consistent with the realistic graphs, meeting the property Validity. Also, we devise the contextual loss and connection loss to control the contextual subgraph and the newly added links to meet the properties Proximity and Sparsity. As a result, the model can generate high-quality counterfactual graphs. Experiments demonstrate the superiority of MotifCAR. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# 構造記憶の解放:テキスト・画像拡散モデルにおける構造的メンバーシップ推論攻撃
Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.13252v1 ) ライセンス: Link先を確認 | Qiao Li, Xiaomeng Fu, Xi Wang, Jin Liu, Xingyu Gao, Jiao Dai, Jizhong Han, | (参考訳) 大規模テキスト・画像拡散モデルの急速な進歩により、様々な実践的応用が生まれ、社会に大きな便宜をもたらした。
しかし、モデル開発者は不正なデータを誤用して拡散モデルを訓練することがある。
これらのデータはモデルによって記憶される危険性があり、市民のプライバシーの権利を侵害する可能性がある。
したがって、特定の画像がモデルのトレーニングセットのメンバーとして利用されるかどうかを判断するために、プライバシ保護のためのツールとしてメンバーシップ推論攻撃(MIA)を提案する。
現在のMIA法は,拡散モデルの画素レベルの記憶特性を考慮し,主に画素比較を手がかりの区別として用いている。
しかし、大規模なトレーニングセットにおけるピクセルレベルの情報を全て記憶することは、テキスト・ツー・イメージ・モデルでは事実上不可能である。
したがって、より高度な構造レベルの記憶へ移行する。
拡散過程の観察から, 部材の構造は非部材よりも保存性が良く, 拡散モデルにはトレーニングセットからメンバー画像の構造を記憶する能力があることが示唆された。
これらの知見に基づいて,テキスト・画像拡散モデルに適したシンプルなMIA手法を提案する。
本手法の有効性を実験的に検証した。
現在の画素レベルのベースラインと比較して,本手法は最先端の性能を達成するだけでなく,様々な歪みに対して顕著な堅牢性を示す。
With the rapid advancements of large-scale text-to-image diffusion models, various practical applications have emerged, bringing significant convenience to society. However, model developers may misuse the unauthorized data to train diffusion models. These data are at risk of being memorized by the models, thus potentially violating citizens' privacy rights. Therefore, in order to judge whether a specific image is utilized as a member of a model's training set, Membership Inference Attack (MIA) is proposed to serve as a tool for privacy protection. Current MIA methods predominantly utilize pixel-wise comparisons as distinguishing clues, considering the pixel-level memorization characteristic of diffusion models. However, it is practically impossible for text-to-image models to memorize all the pixel-level information in massive training sets. Therefore, we move to the more advanced structure-level memorization. Observations on the diffusion process show that the structures of members are better preserved compared to those of nonmembers, indicating that diffusion models possess the capability to remember the structures of member images from training sets. Drawing on these insights, we propose a simple yet effective MIA method tailored for text-to-image diffusion models. Extensive experimental results validate the efficacy of our approach. Compared to current pixel-level baselines, our approach not only achieves state-of-the-art performance but also demonstrates remarkable robustness against various distortions. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# ラベル支援を強くする : セマンティックセグメンテーションのための新しい知識蒸留手法
Make a Strong Teacher with Label Assistance: A Novel Knowledge Distillation Approach for Semantic Segmentation ( http://arxiv.org/abs/2407.13254v1 ) ライセンス: Link先を確認 | Shoumeng Qiu, Jie Chen, Xinrun Li, Ru Wan, Xiangyang Xue, Jian Pu, | (参考訳) 本稿では,セマンティックセグメンテーションタスクのための新しい知識蒸留手法を提案する。
パワートレーニングされた教師や他のモダリティに頼って追加知識を提供する従来の方法とは異なり、我々のアプローチでは複雑な教師モデルや追加センサーからの情報を必要としない。
具体的には、教師モデルトレーニングにおいて、ラベルをノイズにし、それを入力に組み込んで軽量教師のパフォーマンスを効果的に向上させることを提案する。
導入した騒音に対する教師モデルのロバスト性を確保するため、2つの経路の出力間の距離損失を特徴とする2経路整合性トレーニング戦略を提案する。
学生モデルトレーニングでは, 簡易化のための標準蒸留法と整合性を維持している。
本手法は,知識蒸留の有効性を高めるだけでなく,教師モデルや学生モデルを選択する際の柔軟性も向上させる。
LAD法の利点を実証するため,Cityscapes, ADE20K, PASCAL-VOC, COCO-Stuff 10K, COCO-Stuff 164K, FCN, PSPNet, DeepLabV3, STDC, OCRNetの5つの人気モデルについて, 実験を行った。
私たちの研究で示されているように、ラベルを入力に組み込むことで、関連する分野に関する貴重な洞察が得られます。
コードはhttps://github.com/skyshoumeng/Label_Assisted_Distillation.comで公開されている。
In this paper, we introduce a novel knowledge distillation approach for the semantic segmentation task. Unlike previous methods that rely on power-trained teachers or other modalities to provide additional knowledge, our approach does not require complex teacher models or information from extra sensors. Specifically, for the teacher model training, we propose to noise the label and then incorporate it into input to effectively boost the lightweight teacher performance. To ensure the robustness of the teacher model against the introduced noise, we propose a dual-path consistency training strategy featuring a distance loss between the outputs of two paths. For the student model training, we keep it consistent with the standard distillation for simplicity. Our approach not only boosts the efficacy of knowledge distillation but also increases the flexibility in selecting teacher and student models. To demonstrate the advantages of our Label Assisted Distillation (LAD) method, we conduct extensive experiments on five challenging datasets including Cityscapes, ADE20K, PASCAL-VOC, COCO-Stuff 10K, and COCO-Stuff 164K, five popular models: FCN, PSPNet, DeepLabV3, STDC, and OCRNet, and results show the effectiveness and generalization of our approach. We posit that incorporating labels into the input, as demonstrated in our work, will provide valuable insights into related fields. Code is available at https://github.com/skyshoumeng/Label_Assisted_Distillation. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# テスト駆動開発におけるスライスの役割
The role of slicing in test-driven development ( http://arxiv.org/abs/2407.13258v1 ) ライセンス: Link先を確認 | Oscar Dieste, Ayse Tosun, Sira Vegas, Adrian Santos, Fernando Uyaguari, Jarno Kyykka, Natalia Juristo, | (参考訳) テスト駆動開発(TDD)は広く使われているアジャイルプラクティスです。
しかしながら、TDDの基礎となる基盤、すなわちTDDの動作方法について、確実性はほとんど分かっていない。
本稿では,TDDの理論的枠組みについて述べる。
1) 各TDDサイクルは(おそらく小さな)ユーザストーリーの垂直スライスを表します。
2) ディベロッパの心に暗黙的にコントラクトを使用して垂直スライスをキャプチャし、
3) TDDサイクルで作成されたコードは、コードオラクルのスライスベースの仕様で、コントラクトを事前/後条件のスライスとして使用します。
業界で実施されたコントロールされた実験を使用して、TDD、契約、スライス間の接続をチェックしました。
Test-driven development (TDD) is a widely used agile practice. However, very little is known with certainty about TDD's underlying foundations, i.e., the way TDD works. In this paper, we propose a theoretical framework for TDD, with the following characteristics: 1) Each TDD cycle represents a vertical slice of a (probably also small) user story, 2) vertical slices are captured using contracts, implicit in the developers' minds, and 3) the code created during a TDD cycle is a sliced-based specification of a code oracle, using the contracts as slicing pre/post-conditions. We have checked the connections among TDD, contracts, and slices using a controlled experiment conducted in the industry. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# 水中音響信号復調アルゴリズムの現状と課題
Underwater Acoustic Signal Denoising Algorithms: A Survey of the State-of-the-art ( http://arxiv.org/abs/2407.13264v1 ) ライセンス: Link先を確認 | Ruobin Gao, Maohan Liang, Heng Dong, Xuewen Luo, P. N. Suganthan, | (参考訳) 本稿では,水中通信・監視システムの信頼性・明快性向上に不可欠な水中音響信号デノナイジングの最近の進歩を概観的にレビューする。
この分野でかなりの進歩があったにもかかわらず、水中環境の複雑な性質は、デノナイジング過程を複雑にする固有の課題を生んでいる。
まず, 水中音響信号処理に関する基本的な課題について概説し, 信号減衰, ノイズ変動, 環境要因の影響について概説する。
このレビューは、従来の、分解ベース、学習ベースのテクニックなど、さまざまな分類アルゴリズムを体系的に分類し、議論し、それらの応用、利点、限界を強調している。
評価指標と実験データセットもレビューする。
本稿は, 動的水中音響環境に適応可能な, より堅牢な遮音技術開発の必要性を強調した, 今後の研究方向性に関するオープンな質問とレコメンデーションのリストで締めくくっている。
This paper comprehensively reviews recent advances in underwater acoustic signal denoising, an area critical for improving the reliability and clarity of underwater communication and monitoring systems. Despite significant progress in the field, the complex nature of underwater environments poses unique challenges that complicate the denoising process. We begin by outlining the fundamental challenges associated with underwater acoustic signal processing, including signal attenuation, noise variability, and the impact of environmental factors. The review then systematically categorizes and discusses various denoising algorithms, such as conventional, decomposition-based, and learning-based techniques, highlighting their applications, advantages, and limitations. Evaluation metrics and experimental datasets are also reviewed. The paper concludes with a list of open questions and recommendations for future research directions, emphasizing the need for developing more robust denoising techniques that can adapt to the dynamic underwater acoustic environment. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# 集合からのマルチタスク指導学習におけるエキスパートの混在
Mixture of Experts based Multi-task Supervise Learning from Crowds ( http://arxiv.org/abs/2407.13268v1 ) ライセンス: Link先を確認 | Tao Han, Huaixuan Shi, Xinyi Ding, Xiao Ma, Huamao Gu, Yili Fang, | (参考訳) クラウドソーシングにおける既存の真理推論手法は、冗長なラベルやアイテムを基底真理にマッピングすることを目的としている。
彼らは、基底真理を隠れ変数として扱い、統計的または深層学習に基づく労働者行動モデルを使用して、基底真理を推測する。
しかし, 作業者行動モデルでは, 作業者の特徴レベルにおいて, 作業者の行動を見落とし, 不正確な特徴付けを行い, 真理推定の質に悪影響を及ぼす。
本稿では,作業者行動モデルにおけるアイテムの基底的真実のモデル化の必要性を排除し,群衆からのマルチタスク指導型学習の新たなパラダイムを提案する。
このパラダイム内では、Mixture of Experts based Multi-task Supervised Learning from Crowds (MMLC)と呼ばれるアイテム機能レベルでの作業行動モデルを提案する。
MMLCには2つの真理推論戦略が提案されている。
最初の戦略はMMLC-owfと呼ばれ、労働者スペクトル空間におけるクラスタリング手法を用いて、オラクル労働者の射影ベクトルを同定する。
その後、このベクトルに基づいて生成されたラベルを推測真理とみなす。
MMLC-dfと呼ばれる第2の戦略は、クラウドソースされたデータを満たすためにMMLCモデルを用いており、既存の真理推論手法の有効性を高めることができる。
実験により,MMLC-owfは最先端の手法より優れており,MMLC-dfは既存の真理推論手法の品質を向上させることが示された。
Existing truth inference methods in crowdsourcing aim to map redundant labels and items to the ground truth. They treat the ground truth as hidden variables and use statistical or deep learning-based worker behavior models to infer the ground truth. However, worker behavior models that rely on ground truth hidden variables overlook workers' behavior at the item feature level, leading to imprecise characterizations and negatively impacting the quality of truth inference. This paper proposes a new paradigm of multi-task supervised learning from crowds, which eliminates the need for modeling of items's ground truth in worker behavior models. Within this paradigm, we propose a worker behavior model at the item feature level called Mixture of Experts based Multi-task Supervised Learning from Crowds (MMLC). Two truth inference strategies are proposed within MMLC. The first strategy, named MMLC-owf, utilizes clustering methods in the worker spectral space to identify the projection vector of the oracle worker. Subsequently, the labels generated based on this vector are considered as the inferred truth. The second strategy, called MMLC-df, employs the MMLC model to fill the crowdsourced data, which can enhance the effectiveness of existing truth inference methods. Experimental results demonstrate that MMLC-owf outperforms state-of-the-art methods and MMLC-df enhances the quality of existing truth inference methods. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# フェルミオン型トンクス・ジラルドーガスのBCS状態定式化
A BCS state formulation for the fermionic Tonks-Girardeau gas ( http://arxiv.org/abs/2407.13270v1 ) ライセンス: Link先を確認 | Francesc Sabater, Abel Rojo-Francàs, Grigori E. Astrakharchik, Bruno Juliá-Díaz, | (参考訳) フェルミオン型トンクス・ジラルドーガスの基底状態波動関数の代替式を提案する。
波動関数は1体密度行列の占有数と自然軌道に基づいて構成される。
新たに発見された波動関数は、任意の外部電位下でのフェルミオン型トンクス・ジラルドーガスの基底状態を記述する。
第二量子化の枠組みで提案された波動関数を表現することにより、フェルミオン型トンクス・ジラルドーガスの基底状態が数保存型バーディーン・クーパー・シュリーファー状態(BCS)であることが示される。
フェルミオン型トンクス・ジラルドー気体を数保存型BCS状態として記述した対応する係数に対する明示的な表現を提供する。
さらに、第二量子化における提案する波動関数の適切な形式により、フェルミオン型トンクス・ジラルドーガス中のペアリングを実験的に検出するために必要な期待値を導出することができる。
これにより、フェルミオン型トンクス・ジラルドー気体が非自明な量子相関を示すだけでなく、ペア状態であることを示す。
We introduce an alternative expression for the ground state wave function of the fermionic Tonks-Girardeau gas. Our wave function is constructed based on the occupation numbers and natural orbitals of the one-body density matrix. We demonstrate that the newly found wave function describes the ground state of the fermionic Tonks-Girardeau gas under any external potential. By expressing the proposed wave function in the framework of second quantization, we show that the ground state of the fermionic Tonks-Girardeau gas is a number-conserving Bardeen-Cooper-Schrieffer (BCS) state. We provide explicit expressions for the corresponding coefficients that describe the fermionic Tonks-Girardeau gas as a number-conserving BCS state. Additionally, the suitable form of the proposed wave function in second quantization allows us to derive the necessary expectation values to experimentally detect pairing in the fermionic Tonks-Girardeau gas. With this, we prove and show how to detect that the fermionic Tonks-Girardeau gas not only exhibits non-trivial quantum correlations but is also a paired state. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# Stack Overflowによるコードスニペットのスマートコントラクトセキュリティ問題の検出
Identifying Smart Contract Security Issues in Code Snippets from Stack Overflow ( http://arxiv.org/abs/2407.13271v1 ) ライセンス: Link先を確認 | Jiachi Chen, Chong Chen, Jiang Hu, John Grundy, Yanlin Wang, Ting Chen, Zibin Zheng, | (参考訳) スマートコントラクト開発者は、Stack Overflow(SO)など、Q&Aプラットフォームにおける開発上の課題に対して、ソリューションをシークすることが多い。
コミュニティ対応はしばしば実行可能なソリューションを提供するが、組み込みコードスニペットには隠れた脆弱性も含まれている。
このようなコードをスマートコントラクトに直接統合することで、悪意のある攻撃を受けやすい可能性がある。
オンライン調査を行い、スマートコントラクト開発者から74の回答を得た。
この調査の結果、参加者の過半数(86.4%)がSOコードスニペットの再利用時にセキュリティを十分に考慮していないことが示唆された。
スマートコントラクトの脆弱性を検出するために設計されたさまざまなツールが存在するにもかかわらず、これらのツールは一般的に、完全に完成したスマートコントラクトを分析するために開発されており、SOで見られる典型的なコードスニペットを分析するのに効果がない。
SOCheckerは、不完全なSOスマートコントラクトコードスニペットの潜在的な脆弱性を特定するために設計された最初のツールである。
SOCheckerはまずコード補完のために微調整されたLlama2モデルを利用し、続いて脆弱性検出にシンボル実行メソッドを適用する。
スマートコントラクト関連SOポストから収集した897個のコードスニペットからなるデータセットから得られた実験結果から,SOCheckerのF1スコアは68.2%,GPT-3.5とGPT-4を大きく上回った(20.9%,33.2%)。
この結果から,Q&A Webサイトのコードスニペットのセキュリティ向上の必要性が浮き彫りになった。
Smart contract developers frequently seak solutions to developmental challenges on Q&A platforms such as Stack Overflow (SO). Although community responses often provide viable solutions, the embedded code snippets can also contain hidden vulnerabilities. Integrating such code directly into smart contracts may make them susceptible to malicious attacks. We conducted an online survey and received 74 responses from smart contract developers. The results of this survey indicate that the majority (86.4%) of participants do not sufficiently consider security when reusing SO code snippets. Despite the existence of various tools designed to detect vulnerabilities in smart contracts, these tools are typically developed for analyzing fully-completed smart contracts and thus are ineffective for analyzing typical code snippets as found on SO. We introduce SOChecker, the first tool designed to identify potential vulnerabilities in incomplete SO smart contract code snippets. SOChecker first leverages a fine-tuned Llama2 model for code completion, followed by the application of symbolic execution methods for vulnerability detection. Our experimental results, derived from a dataset comprising 897 code snippets collected from smart contract-related SO posts, demonstrate that SOChecker achieves an F1 score of 68.2%, greatly surpassing GPT-3.5 and GPT-4 (20.9% and 33.2% F1 Scores respectively). Our findings underscore the need to improve the security of code snippets from Q&A websites. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# 単一光子エミッタにおけるレベルダイナミクスの実験的証明
Experimental certification of level dynamics in single-photon emitters ( http://arxiv.org/abs/2407.13273v1 ) ライセンス: Link先を確認 | Luk\' aš Lachman, Ilya P. Radko, Maxime Bergamin, Ulrik L. Andersen, Radim Filip, | (参考訳) 単一光子のエミッタは、新しい量子技術に必要な資源であり、非線形光学、原子、固体系を含む様々なプラットフォームで開発されている。
排出過程のエネルギー準位構造は、高品質な源の到達と制御に重要である。
最も一般的に応用される試験は、光子検出イベントの時間的相関に基づいてエミッタエネルギーレベル構造を決定するために、Hanbury-Brown and Twiss (HBT) を用いている。
しかし、そのような検出から放出過程に関する部分的な情報のみを抽出し、その後にデータの不確定なフィッティングが続く可能性がある。
このプロセスは、通信、センシング、コンピューティングの応用において重要な光子放出過程のダイナミクスを定量化し、理解する能力の制限を事前に決定する。
本研究では、同じHBT設定で記録された検出イベントと非検出イベントの一致を全て正規化して完全な解析を行い、発光したフォトニック状態の期待特性を認証する。
提案手法をダイヤモンド中の単一窒素空孔中心に適用し,古典的なノイズ背景と混合したフォトニック状態を放射する2レベルエミッタに基づくモデルについて,認証が決定的に拒否する。
Emitters of single-photons are essential resources for emerging quantum technologies and developed within different platforms including nonlinear optics, atomic and solid-state systems. The energy level structures of emission processes are critical for reaching and controlling high-quality sources. The most commonly applied test uses a Hanbury-Brown and Twiss (HBT) setup to determine the emitter energy level structure based on fitting temporal correlations of photon detection events. However, only partial information about the emission process is extracted from such detection, that might be followed by an inconclusive fitting of the data. This process predetermines our limited ability to quantify and understand the dynamics in the photon emission process that are of importance for the applications in communication, sensing and computing. In this work, we present a complete analysis based on all normalized coincidences between detection and no-detection events recorded in the same HBT setup to certify expected properties of an emitted photonic state. As a proof of concept we apply our methodology to single nitrogen-vacancy centers in diamond, in which case the certification conclusively rejects a model based on a two-level emitter that radiates a photonic states mixed with any classical noise background. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# URCDM: 病理組織における超解像合成
URCDM: Ultra-Resolution Image Synthesis in Histopathology ( http://arxiv.org/abs/2407.13277v1 ) ライセンス: Link先を確認 | Sarah Cechnicka, James Ball, Matthew Baugh, Hadrien Reynaud, Naomi Simmonds, Andrew P. T. Smith, Catherine Horsfield, Candice Roufosse, Bernhard Kainz, | (参考訳) 病理組織学的データから診断するには、全スライド画像(WSI)の様々な解像度を網羅的に分析する必要がある。
しかし、既存の生成手法は、高忠実度パッチに焦点を当てているため、WSIの階層構造を一貫して表現することができない。
そこで本研究では,全病理像を高分解能で合成できる超解像カスケード拡散モデル(URCDM)を提案する。
本手法は,脳,乳腺,腎臓組織からなる3つの異なるデータセットを用いて評価し,既存の最先端のマルチレゾリューションモデルを上回った。
さらに、専門家による評価研究を行い、訓練された評価器が実際の画像と区別できない様々な解像度の出力を連続的に生成できることを実証した。
すべてのコードと追加の例はGitHubで見ることができる。
Diagnosing medical conditions from histopathology data requires a thorough analysis across the various resolutions of Whole Slide Images (WSI). However, existing generative methods fail to consistently represent the hierarchical structure of WSIs due to a focus on high-fidelity patches. To tackle this, we propose Ultra-Resolution Cascaded Diffusion Models (URCDMs) which are capable of synthesising entire histopathology images at high resolutions whilst authentically capturing the details of both the underlying anatomy and pathology at all magnification levels. We evaluate our method on three separate datasets, consisting of brain, breast and kidney tissue, and surpass existing state-of-the-art multi-resolution models. Furthermore, an expert evaluation study was conducted, demonstrating that URCDMs consistently generate outputs across various resolutions that trained evaluators cannot distinguish from real images. All code and additional examples can be found on GitHub. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# ローカルな説明の監査は難しい
Auditing Local Explanations is Hard ( http://arxiv.org/abs/2407.13281v1 ) ライセンス: Link先を確認 | Robi Bhattacharjee, Ulrike von Luxburg, | (参考訳) センシティブな文脈では、機械学習アルゴリズムのプロバイダは、アルゴリズムの決定を説明するためにますます必要となる。
しかし、説明レシーバーはプロバイダを信頼せず、誤解を招くか、操作された説明を出力する可能性がある。
本研究では,サードパーティの監査官やユーザ集団が,モデル決定と対応するローカル説明を問合せ,受信した情報をすべてプールし,基本的整合性を確認するという,健全性チェックを試みている監査フレームワークについて検討する。
監査人がこのフレームワーク内で成功するために必要なクエリの量について、上位と下位のバウンダリを証明します。
この結果から,特に高次元の場合において,監査を成功させるには,潜在的に過剰なクエリ数が必要であることが示唆された。分析の結果,提案された説明の「局所性」という重要な特性が説明可能性の文献であまり注目されていない量であることが判明した。
今後, 複雑な高次元設定では, ポイントワイドな予測や説明が不十分である可能性が示唆されている。
In sensitive contexts, providers of machine learning algorithms are increasingly required to give explanations for their algorithms' decisions. However, explanation receivers might not trust the provider, who potentially could output misleading or manipulated explanations. In this work, we investigate an auditing framework in which a third-party auditor or a collective of users attempts to sanity-check explanations: they can query model decisions and the corresponding local explanations, pool all the information received, and then check for basic consistency properties. We prove upper and lower bounds on the amount of queries that are needed for an auditor to succeed within this framework. Our results show that successful auditing requires a potentially exorbitant number of queries -- particularly in high dimensional cases. Our analysis also reveals that a key property is the ``locality'' of the provided explanations -- a quantity that so far has not been paid much attention to in the explainability literature. Looking forward, our results suggest that for complex high-dimensional settings, merely providing a pointwise prediction and explanation could be insufficient, as there is no way for the users to verify that the provided explanations are not completely made-up. | 翻訳日:2024-07-19 16:22:32 公開日:2024-07-18 |
# Deep Time Series Models: 総合的な調査とベンチマーク
Deep Time Series Models: A Comprehensive Survey and Benchmark ( http://arxiv.org/abs/2407.13278v1 ) ライセンス: Link先を確認 | Yuxuan Wang, Haixu Wu, Jiaxiang Dong, Yong Liu, Mingsheng Long, Jianmin Wang, | (参考訳) 時系列は、離散時間順序で配列された一連のデータポイントによって特徴づけられ、現実世界のアプリケーションではユビキタスである。
他のモダリティとは異なり、時系列はその複雑でダイナミックな性質から、非線形パターンの絡み合いや時間変動傾向など、ユニークな課題を提示する。
時系列データを解析することは現実のシナリオにおいて非常に重要であり、何世紀にもわたって広く研究されてきた。
近年では、伝統的な統計手法から高度なディープラーニングモデルに移行する技術によって、時系列コミュニティの驚くべきブレークスルーが見られた。
本稿では,様々な解析タスクにおける深部時系列モデルの設計について検討し,基本モジュールとモデルアーキテクチャという2つの視点から既存文献をレビューする。
さらに、24の主流モデルを実装し、異なるドメインから30のデータセットをカバーし、5つの一般的な分析タスクをサポートする、多様な分析タスクのためのディープ時系列モデルの公正ベンチマークとして、時系列ライブラリ(TSLib)を開発し、リリースする。
TSLibをベースとして,12種類の高度な深部時系列モデルを様々なタスクで徹底的に評価した。
実験的な結果は、特定の構造を持つモデルは、異なる分析タスクに適しており、ディープ時系列モデルの研究と採用のための洞察を提供することを示している。
コードはhttps://github.com/thuml/Time-Series-Libraryで入手できる。
Time series, characterized by a sequence of data points arranged in a discrete-time order, are ubiquitous in real-world applications. Different from other modalities, time series present unique challenges due to their complex and dynamic nature, including the entanglement of nonlinear patterns and time-variant trends. Analyzing time series data is of great significance in real-world scenarios and has been widely studied over centuries. Recent years have witnessed remarkable breakthroughs in the time series community, with techniques shifting from traditional statistical methods to advanced deep learning models. In this paper, we delve into the design of deep time series models across various analysis tasks and review the existing literature from two perspectives: basic modules and model architectures. Further, we develop and release Time Series Library (TSLib) as a fair benchmark of deep time series models for diverse analysis tasks, which implements 24 mainstream models, covers 30 datasets from different domains, and supports five prevalent analysis tasks. Based on TSLib, we thoroughly evaluate 12 advanced deep time series models on different tasks. Empirical results indicate that models with specific structures are well-suited for distinct analytical tasks, which offers insights for research and adoption of deep time series models. Code is available at https://github.com/thuml/Time-Series-Library. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 深層強化学習におけるトータル・リワードとディスカウント・リワードのギャップの解析とブリッジ
Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning ( http://arxiv.org/abs/2407.13279v1 ) ライセンス: Link先を確認 | Shuyu Yin, Fei Wen, Peilin Liu, Tao Luo, | (参考訳) 深層強化学習アプリケーションでは、アルゴリズムの収束と安定性を確保するために全報酬を最大化する代わりに、割引報酬の最大化がしばしば用いられる。
しかし、これらの2つの目的に対応する最適ポリシーは必ずしも一貫性があるとは限らない。
この問題に対処するため、割引報酬を最大化することで得られる政策の最適度を、全報酬を最大化する政策と関連づけて分析し、ハイパーパラメータの影響を同定した。
さらに,これらの2つの目的の最適方針を,様々な条件下で整合させるための十分な条件を提案した。
主な貢献は以下の通りである: 割引報酬を全報酬の代用として使用する際の性能に影響する要因を理論的に分析し、このシナリオの理論的理解を深める。
さらに,ある状況下での2つの目的の最適方針を整合させる手法を開発し,強化学習アルゴリズムの性能向上を図る。
In deep reinforcement learning applications, maximizing discounted reward is often employed instead of maximizing total reward to ensure the convergence and stability of algorithms, even though the performance metric for evaluating the policy remains the total reward. However, the optimal policies corresponding to these two objectives may not always be consistent. To address this issue, we analyzed the suboptimality of the policy obtained through maximizing discounted reward in relation to the policy that maximizes total reward and identified the influence of hyperparameters. Additionally, we proposed sufficient conditions for aligning the optimal policies of these two objectives under various settings. The primary contributions are as follows: We theoretically analyzed the factors influencing performance when using discounted reward as a proxy for total reward, thereby enhancing the theoretical understanding of this scenario. Furthermore, we developed methods to align the optimal policies of the two objectives in certain situations, which can improve the performance of reinforcement learning algorithms. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 産業規模でのAI支援SQLオーサリング
AI-Assisted SQL Authoring at Industry Scale ( http://arxiv.org/abs/2407.13280v1 ) ライセンス: Link先を確認 | Chandra Maddila, Negar Ghorbani, Kosay Jabre, Vijayaraghavan Murali, Edwin Kim, Parth Thakkar, Nikolay Pavlovich Laptev, Olivia Harman, Diana Hsu, Rui Abreu, Peter C. Rigby, | (参考訳) SqlComposeは、生成AIを使用してデータ分析タスク、特にSQLクエリを支援するツールである。
SQLは宣言的であり、形式的なテーブルスキーマを持ち、しばしば非線形で書かれる、という課題に対処する。
著者らは、Public Llamaモデルの性能をテストするための内部SQLベンチマークを開発し、BLEUスコアが53%、マルチライン予測が24%であることを確認した。
その後、内部データとデータベーススキーマでLlamaモデルを微調整し、パフォーマンスを大幅に改善した。
また、中級モデルのSqlComposeFIMも開発しており、完成すべきラインの前後のコンテキストを認識しており、このモデルは他の2モデルよりも35ポイント向上している。
さらに、モデルが正しいテーブル名を取得する頻度を測定し、SqlComposeFIMが、他の2つのモデルよりも大きな改善である、この75%の時間でこれを行うことができることを発見した。
著者らはMetaでSqlComposeFIMを公開し、退屈で反復的なSQL節の完成、定型的なコーディングの提案、難しいSQL構文を覚える必要性の排除など、ユーザから肯定的なフィードバックを受けている。
しかし、SqlComposeFIMのリリースで減少しているテーブルや列名幻覚を報告しているユーザもいる。
全体として、SqlComposeモデルはサイズが小さいにもかかわらず、パブリックおよび内部のLLMよりも一貫して優れており、より小型のスペシャリストモデルの方がより大きな汎用モデルより優れたことを早期に示唆している。
SqlCompose is a tool that uses generative AI to assist with data analytics tasks, specifically SQL queries. It addresses the challenges of SQL being declarative, having formal table schemas, and often being written in a non-linear manner. The authors develop an internal SQL benchmark to test the performance of the Public Llama model and find that it performs well, with a BLEU score of 53% for single-line predictions and 24% for multi-line predictions. They then fine-tune the Llama model on their internal data and database schemas, resulting in a substantial improvement in performance. They also develop a fill-in-the-middle model, SqlComposeFIM, which is aware of the context before and after the line(s) that need to be completed, and this model outperforms the other two models by 35 percentage points. Additionally, they measure how often the models get the correct table names and find that SqlComposeFIM is able to do this 75% of the time, a major improvement over the other two models. The authors also roll out SqlComposeFIM at Meta and receive positive feedback from users, including completing tedious or repetitive SQL clauses, suggesting boilerplate coding, and help in eliminating the need to remember difficult SQL syntax. However, some users report table and column name hallucinations, which has been reduced with the release of SqlComposeFIM. Overall, the SqlCompose models consistently outperform public and internal LLMs despite their smaller size, providing early indications that smaller specialist models can outperform larger general purpose models. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# オリーブオイル生産モニタリングのための協調的リアルタイムビジョンベースデバイス
Collaborative real-time vision-based device for olive oil production monitoring ( http://arxiv.org/abs/2407.13285v1 ) ライセンス: Link先を確認 | Matija Šuković, Igor Jovančević, | (参考訳) 本稿では,オリーブ油製造の品質管理の改善と,異物による機械の損傷防止のための革新的なアプローチを提案する。
我々は,オリーブグラインダーの入力を監視し,外部物体が検出された場合,オペレータに即座に警告するコンピュータビジョンベースのシステムを開発した。
This paper proposes an innovative approach to improving quality control of olive oil manufacturing and preventing damage to the machinery caused by foreign objects. We developed a computer-vision-based system that monitors the input of an olive grinder and promptly alerts operators if a foreign object is detected, indicating it by using guided lasers, audio, and visual cues. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# Wi-Fi RSSIフィンガープリントに基づくマルチビルディングとマルチフロア屋内ローカライゼーションのためのリンク型ディープニューラルネットワークの階層的ステージワイズトレーニング
Hierarchical Stage-Wise Training of Linked Deep Neural Networks for Multi-Building and Multi-Floor Indoor Localization Based on Wi-Fi RSSI Fingerprinting ( http://arxiv.org/abs/2407.13288v1 ) ライセンス: Link先を確認 | Sihao Li, Kyeong Soo Kim, Zhe Tang, Graduate, Jeremy S. Smith, | (参考訳) 本稿では,ニューラルネットワークがサブプロブレムに特化され,階層的な段階的トレーニングフレームワークの下でトレーニングされる,大規模マルチビルディングとマルチフロア屋内ローカライゼーションの課題に対する新しい解決策を提案する。
センサの計測データにマルチビルディングやマルチフロアの屋内位置決めのような階層的表現がある場合,データ処理における階層的特性を活用して,スケーラブルなソリューションを提供することが重要である。
この点において、階層的な段階訓練フレームワークは、複数のリンクネットワークの場合において、上位階層ネットワークのトレーニングから得られる事前知識に基づいて、下位階層ネットワークをトレーニングすることにより、元の段階訓練フレームワークを拡張している。
UJIIndoorLocのマルチビルディングとマルチフロアのWi-Fi RSSI指紋データベースによる実験結果は、提案した階層的な段階的トレーニングフレームワークでトレーニングされたリンクニューラルネットワークが3次元のローカライゼーション誤差8.19mを達成できることを示し、これは著者の知る限り、UJIIndoorLocデータベースの全データセットでトレーニングおよび評価されたニューラルネットワークベースモデルにおいて最も正確な結果であり、階層的な畳み込みニューラルネットワークに基づくモデルに適用した場合、提案したトレーニングフレームワークは3次元のローカライゼーション誤差を11.78mから8.71mに減少させることができる。
In this paper, we present a new solution to the problem of large-scale multi-building and multi-floor indoor localization based on linked neural networks, where each neural network is dedicated to a sub-problem and trained under a hierarchical stage-wise training framework. When the measured data from sensors have a hierarchical representation as in multi-building and multi-floor indoor localization, it is important to exploit the hierarchical nature in data processing to provide a scalable solution. In this regard, the hierarchical stage-wise training framework extends the original stage-wise training framework to the case of multiple linked networks by training a lower-hierarchy network based on the prior knowledge gained from the training of higher-hierarchy networks. The experimental results with the publicly-available UJIIndoorLoc multi-building and multi-floor Wi-Fi RSSI fingerprint database demonstrate that the linked neural networks trained under the proposed hierarchical stage-wise training framework can achieve a three-dimensional localization error of 8.19 m, which, to the best of the authors' knowledge, is the most accurate result ever obtained for neural network-based models trained and evaluated with the full datasets of the UJIIndoorLoc database, and that, when applied to a model based on hierarchical convolutional neural networks, the proposed training framework can also significantly reduce the three-dimensional localization error from 11.78 m to 8.71 m. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# シンキットフィンガープリント : Pythonにおける分子指紋の簡便かつ効率的な計算法
Scikit-fingerprints: easy and efficient computation of molecular fingerprints in Python ( http://arxiv.org/abs/2407.13291v1 ) ライセンス: Link先を確認 | Jakub Adamczyk, Piotr Ludynia, | (参考訳) 本稿では,化学情報学応用のための分子指紋計算のためのPythonパッケージであるtextit{scikit-fingerprints}を紹介する。
私たちのライブラリは業界標準のScikit-learnインターフェースを提供しており、直感的な使用と機械学習パイプラインとの統合が容易です。
また、大きな分子データセットの効率的な処理を可能にする並列計算を特徴とする高度に最適化されている。
現在、 \textit{scikit-fingerprints}はPythonエコシステムで最も機能豊富なライブラリであり、30以上の分子指紋を提供している。
本ライブラリは,分子特性予測や仮想スクリーニングなど,分子指紋に基づく化学情報処理タスクを簡略化する。
また、柔軟性があり、非常に効率的で、完全にオープンソースです。
In this work, we present \textit{scikit-fingerprints}, a Python package for computation of molecular fingerprints for applications in chemoinformatics. Our library offers an industry-standard scikit-learn interface, allowing intuitive usage and easy integration with machine learning pipelines. It is also highly optimized, featuring parallel computation that enables efficient processing of large molecular datasets. Currently, \textit{scikit-fingerprints} stands as the most feature-rich library in the Python ecosystem, offering over 30 molecular fingerprints. Our library simplifies chemoinformatics tasks based on molecular fingerprints, including molecular property prediction and virtual screening. It is also flexible, highly efficient, and fully open source. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 弱教師付き音素ベース多言語事前学習によるIu Mien言語に対する低音源音声認識
Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training ( http://arxiv.org/abs/2407.13292v1 ) ライセンス: Link先を確認 | Lukuan Dong, Donghong Qin, Fengbo Bai, Fanhua Song, Yan Liu, Chen Xu, Zhijian Ou, | (参考訳) 主流の自動音声認識(ASR)技術は通常、何百時間から何千時間もの注釈付き音声データを必要とする。
低リソースASRへの3つのアプローチは、音素またはサブワードに基づく教師付き事前学習と、多言語データに対する自己教師付き事前学習である。
イウ・ミエン語(Iu Mien language)は、中国におけるヤオ族の主要な民族言語であり、注釈付き言語が非常に限られているという意味では低資源である。
本研究は,10時間未満のIu Mien言語を用いて,Iu Mien音声認識における3つのアプローチについて検討・比較する。
我々の実験は、最近リリースされたCommonVoiceデータセット(CV-Lang10)から10言語で事前訓練された3つのバックボーンモデルに基づいています。
その結果,音素の監督はサブワードの監督や自己監督よりも優れた結果が得られ,高いデータ効率が得られることがわかった。
特に、弱い教師付き音素ベースの多言語事前学習によって得られるウィスルモデルが最も競争力のある結果を得る。
The mainstream automatic speech recognition (ASR) technology usually requires hundreds to thousands of hours of annotated speech data. Three approaches to low-resourced ASR are phoneme or subword based supervised pre-training, and self-supervised pre-training over multilingual data. The Iu Mien language is the main ethnic language of the Yao ethnic group in China and is low-resourced in the sense that the annotated speech is very limited. With less than 10 hours of transcribed Iu Mien language, this paper investigates and compares the three approaches for Iu Mien speech recognition. Our experiments are based on the recently released, three backbone models pretrained over the 10 languages from the CommonVoice dataset (CV-Lang10), which correspond to the three approaches for low-resourced ASR. It is found that phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. Particularly, the Whistle models, i.e., obtained by the weakly-supervised phoneme-based multilingual pre-training, obtain the most competitive results. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 二重スケールSYK及びパワースペクトルパースペクティブにおけるフェルミオン鎖のクリロフ複雑性
Krylov complexity of fermion chain in double-scaled SYK and power spectrum perspective ( http://arxiv.org/abs/2407.13293v1 ) ライセンス: Link先を確認 | Takanori Anegawa, Ryota Watanabe, | (参考訳) 有限温度2倍スケールSYK(DSSYK)モデルにおける複数のマヨラナフェルミオンからなるフェルミオン連鎖作用素のクリロフ複雑性について検討する。
クリロフ複雑性が2点関数から計算可能であるという事実を用いて、2点関数が単純になる極限において解析を行い、その結果を他の研究と比較する。
極低温条件下でのクリロフ複雑性の指数的成長を確認した。
一般に、クリロフ複雑性は、有界エネルギースペクトルを持つ任意の系において、非常に遅い時間で最も線形に成長する。
したがって,システムやオペレータの挙動の違いを確認するためには,初期成長に焦点をあてる必要がある。
DSSYKモデルはそのような有界系であるため、そのカオス性はクリロフ複雑性の初期指数的成長として現れることが期待できる。
特に、クリロフ複雑性の初期指数的成長が終了する時間は、自由度数とは独立である。
以上のことに基づいて、おもちゃのパワースペクトルを用いてランツォス係数とクリロフ複雑性を体系的に、特に研究し、これらの初期行動の理解を深める。
特に、エネルギースペクトルが有界であっても、パワースペクトルの全体的なsech様挙動がランツォス係数の初期線形成長を示すことを確認した。
We investigate Krylov complexity of the fermion chain operator which consists of multiple Majorana fermions in the double-scaled SYK (DSSYK) model with finite temperature. Using the fact that Krylov complexity is computable from two-point functions, the analysis is performed in the limit where the two-point function becomes simple and we compare the results with those of other previous studies. We confirm the exponential growth of Krylov complexity in the very low temperature regime. In general, Krylov complexity grows at most linearly at very late times in any system with a bounded energy spectrum. Therefore, we have to focus on the initial growth to see differences in the behaviors of systems or operators. Since the DSSYK model is such a bounded system, its chaotic nature can be expected to appear as the initial exponential growth of the Krylov complexity. In particular, the time at which the initial exponential growth of Krylov complexity terminates is independent of the number of degrees of freedom. Based on the above, we systematically and specifically study the Lanczos coefficients and Krylov complexity using a toy power spectrum and deepen our understanding of those initial behaviors. In particular, we confirm that the overall sech-like behavior of the power spectrum shows the initial linear growth of the Lanczos coefficient, even when the energy spectrum is bounded. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# SpeciaLex: In-Context Specialized Lexicon Learningのベンチマーク
SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning ( http://arxiv.org/abs/2407.13297v1 ) ライセンス: Link先を確認 | Joseph Marvin Imperial, Harish Tayyar Madabushi, | (参考訳) 特殊レキシコン(英: Specialated lexicons)は、特別な定義、特定の役割、目的とする対象のオーディエンスなど、関連する制約のある単語の集合である。
これらの制約は、テキストコンテンツの曖昧さを減らし、特定のオーディエンスに対する全体的な可読性を高めることを目的として、コンテンツ生成およびドキュメントタスク(例えば、テクニカルマニュアルや子供の本を書く)に必要である。
これらの制約をいかに大きな言語モデルが捉えるかを理解することで、研究者はNLPコミュニティを超えて、より優れた、より影響力のあるツールを構築することができる。
この目的に向けて、言語モデルが18の異なるサブタスクにまたがる特別なレキシコンベースの制約に従う能力を評価するためのベンチマークであるSpeciaLexを紹介し、チェック、識別、書き換え、オープンジェネレーションのコアタスクをカバーする1,285のテストインスタンスを紹介した。
本稿では,15のオープン・クローズド・ソース LLM の実証評価を行い,モデルスケール,オープンネス,セットアップ,信頼性などの要因が,ベンチマークで評価した場合のパフォーマンスに与える影響について考察する。
Specialized lexicons are collections of words with associated constraints such as special definitions, specific roles, and intended target audiences. These constraints are necessary for content generation and documentation tasks (e.g., writing technical manuals or children's books), where the goal is to reduce the ambiguity of text content and increase its overall readability for a specific group of audience. Understanding how large language models can capture these constraints can help researchers build better, more impactful tools for wider use beyond the NLP community. Towards this end, we introduce SpeciaLex, a benchmark for evaluating a language model's ability to follow specialized lexicon-based constraints across 18 diverse subtasks with 1,285 test instances covering core tasks of Checking, Identification, Rewriting, and Open Generation. We present an empirical evaluation of 15 open and closed-source LLMs and discuss insights on how factors such as model scale, openness, setup, and recency affect performance upon evaluating with the benchmark. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 保守的データフィルタリングを用いたロバストASR誤差補正
Robust ASR Error Correction with Conservative Data Filtering ( http://arxiv.org/abs/2407.13300v1 ) ライセンス: Link先を確認 | Takuma Udagawa, Masayuki Suzuki, Masayasu Muraoka, Gakuto Kurata, | (参考訳) 大規模言語モデルに基づく誤り訂正(EC)は,自動音声認識(ASR)システムの性能を向上させる新しい技術である。
一般的に、ECのトレーニングデータは、大量のASR仮説(ソースとして)とその金の参照(ターゲットとして)を自動的にペアリングすることによって収集される。
しかし、そのようなペアの品質は保証されておらず、我々は、ECモデルを不安定にすることができる様々な種類のノイズを観測した。
本研究は,ECトレーニングデータが満たすべき基本的基準として,(1)情報源に対する言語的受容性の向上,(2)利用可能な文脈(例えばソース音素)から推測可能なこと,の2つを提案する。
これらの基準により、我々は低品質のECペアを特定し、そのようなケースでは修正しないようにモデルを訓練する。
本実験では,EC 用日本語 LLM のベースラインとして強力な Conformer-CTC を用いた日本語 ASR に着目した。
提案手法は,21種類の内部ベンチマークを用いて,過補正を大幅に低減し,ASRの精度と品質を両立させることで,難易度の高いOOD設定が得られることを示した。
Error correction (EC) based on large language models is an emerging technology to enhance the performance of automatic speech recognition (ASR) systems. Generally, training data for EC are collected by automatically pairing a large set of ASR hypotheses (as sources) and their gold references (as targets). However, the quality of such pairs is not guaranteed, and we observed various types of noise which can make the EC models brittle, e.g. inducing overcorrection in out-of-domain (OOD) settings. In this work, we propose two fundamental criteria that EC training data should satisfy: namely, EC targets should (1) improve linguistic acceptability over sources and (2) be inferable from the available context (e.g. source phonemes). Through these criteria, we identify low-quality EC pairs and train the models not to make any correction in such cases, the process we refer to as conservative data filtering. In our experiments, we focus on Japanese ASR using a strong Conformer-CTC as the baseline and finetune Japanese LLMs for EC. Through our evaluation on a suite of 21 internal benchmarks, we demonstrate that our approach can significantly reduce overcorrection and improve both the accuracy and quality of ASR results in the challenging OOD settings. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 診断の連鎖を利用した解釈可能な医療エージェントを目指すCoD
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis ( http://arxiv.org/abs/2407.13301v1 ) ライセンス: Link先を確認 | Junying Chen, Chi Gui, Anningzhe Gao, Ke Ji, Xidong Wang, Xiang Wan, Benyou Wang, | (参考訳) 医学診断の分野は、大きな言語モデル(LLM)の出現とともに大きな変革を遂げてきたが、これらのモデルにおける解釈可能性の課題は、ほとんど未解決のままである。
本研究は, LLMに基づく診断の解釈可能性を高めるために, CoD (Chain-of-Diagnosis) を導入する。
CoDは診断プロセスを、医師の思考過程を反映した診断連鎖に変換し、透明な推論経路を提供する。
さらに、CoDは、意思決定における透明性を確保するために、病気の信頼性分布を出力する。
この解釈可能性により、モデル診断は制御可能となり、信頼性のエントロピーの低減を通じて、調査のための重要な症状を識別する助けとなる。
9604症例を診断できる診断用GPTを開発した。
実験の結果,診断GPTは診断ベンチマークにおいて他のLLMよりも優れていた。
さらに、診断GPTは、診断リガーの可制御性を確保しつつ、解釈可能性を提供する。
The field of medical diagnosis has undergone a significant transformation with the advent of large language models (LLMs), yet the challenges of interpretability within these models remain largely unaddressed. This study introduces Chain-of-Diagnosis (CoD) to enhance the interpretability of LLM-based medical diagnostics. CoD transforms the diagnostic process into a diagnostic chain that mirrors a physician's thought process, providing a transparent reasoning pathway. Additionally, CoD outputs the disease confidence distribution to ensure transparency in decision-making. This interpretability makes model diagnostics controllable and aids in identifying critical symptoms for inquiry through the entropy reduction of confidences. With CoD, we developed DiagnosisGPT, capable of diagnosing 9604 diseases. Experimental results demonstrate that DiagnosisGPT outperforms other LLMs on diagnostic benchmarks. Moreover, DiagnosisGPT provides interpretability while ensuring controllability in diagnostic rigor. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# Wi-Fi RSSI フィンガープリントを用いた屋内ローカライズのための平均教師型SSLフレームワーク
Mean Teacher based SSL Framework for Indoor Localization Using Wi-Fi RSSI Fingerprinting ( http://arxiv.org/abs/2407.13303v1 ) ライセンス: Link先を確認 | Sihao Li, Zhe Tang, Kyeong Soo Kim, Jeremy S. Smith, | (参考訳) Wi-Fiフィンガープリントは、Wi-Fiデバイスの普及により、屋内のローカライズに広く応用されている。
しかし,従来の手法はスケーラビリティの問題から,マルチビルド環境やマルチフロア環境には適していない。
そのため、ますます多くの研究者が、スケーラブルな屋内ローカライゼーションを実現するためにディープラーニング技術を採用している。
本稿では, 無線アクセスポイント選択, ノイズ注入, 平均教師モデルに基づくニューラルネットワークの半教師付き学習フレームワークを提案する。
提案するフレームワークは,ハイブリッドイン/アウトソーシングおよび自発的に提供されたデータベースを管理し,サービス中に新たに提出された未ラベルの指紋で指紋データベースを継続的に拡張することができる。
UJIIndoorLocデータベースを用いた2つの定型ディープラーニングモデルを用いて,提案手法の有効性を検討した。
実験結果から,提案手法は,EvAAL測定値を用いたフロアレベル座標推定において,教師付き学習手法と比較して,局所化性能を著しく向上させることが示された。
前者のシナリオでは10.99%、前者のシナリオでは8.98%、後者では4.25%、後者では9.35%まで向上している。
Wi-Fi fingerprinting is widely applied for indoor localization due to the widespread availability of Wi-Fi devices. However, traditional methods are not ideal for multi-building and multi-floor environments due to the scalability issues. Therefore, more and more researchers have employed deep learning techniques to enable scalable indoor localization. This paper introduces a novel semi-supervised learning framework for neural networks based on wireless access point selection, noise injection, and Mean Teacher model, which leverages unlabeled fingerprints to enhance localization performance. The proposed framework can manage hybrid in/outsourcing and voluntarily contributed databases and continually expand the fingerprint database with newly submitted unlabeled fingerprints during service. The viability of the proposed framework was examined using two established deep-learning models with the UJIIndoorLoc database. The experimental results suggest that the proposed framework significantly improves localization performance compared to the supervised learning-based approach in terms of floor-level coordinate estimation using EvAAL metric. It shows enhancements up to 10.99% and 8.98% in the former scenario and 4.25% and 9.35% in the latter, respectively with additional studies highlight the importance of the essential components of the proposed framework. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 農業ロボット用果実の形状コンプリートのためのデータセットとベンチマーク
A Dataset and Benchmark for Shape Completion of Fruits for Agricultural Robotics ( http://arxiv.org/abs/2407.13304v1 ) ライセンス: Link先を確認 | Federico Magistri, Thomas Läbe, Elias Marks, Sumanth Nagulavancha, Yue Pan, Claus Smitt, Lasse Klingbeil, Michael Halstead, Heiner Kuhlmann, Chris McCool, Jens Behley, Cyrill Stachniss, | (参考訳) 人口は2050年までに100億に達すると予想されているため、農業部門では人的労働力の減少にもかかわらず、我々の農業生産システムは生産性を2倍にする必要がある。
自律型ロボットシステムは、果物の摘みなどの労働集約的な手作業を引き継ぐことで生産性を高めるための、有望な道の1つだ。
有効にするためには、植物や果実を正確に監視し、相互作用する必要がある。
したがって, 果実収穫などの作業を自動化するためには, 閉塞の有無で物体の完全な3次元形状を推定できることが不可欠である。
本稿では,農業用視覚システムのための3次元形状補完データセットを提案する。
果実の3次元形状を推定するためのRGB-Dデータセットを提供する。
具体的には、実験室の環境だけでなく、商業的な温室にも、単一の甘辛料のRGB-Dフレームが組み込まれています。
各果実について, 根本的真理として用いる高精度な点雲も収集した。
実験室と温室の両方で実のサツマイモのデータを高精度に記録し,実の果実の形状を推定する手法を開発した。
100以上の異なる果実に属する約7000のRGB-Dフレームからなるデータセットをリリースしました。
我々は、高精度レーザースキャナーで得られた高精度・オクルージョンフリーの点雲とともに、カメラのイントロシクスにより、色付き点雲を容易に得ることができるセグメンテーションされたRGB-Dフレームを提供する。
さらに,ベンチマークサーバ上での公開課題を通じて,隠れテストセット上での形状補完手法の評価を可能にする。
As the population is expected to reach 10 billion by 2050, our agricultural production system needs to double its productivity despite a decline of human workforce in the agricultural sector. Autonomous robotic systems are one promising pathway to increase productivity by taking over labor-intensive manual tasks like fruit picking. To be effective, such systems need to monitor and interact with plants and fruits precisely, which is challenging due to the cluttered nature of agricultural environments causing, for example, strong occlusions. Thus, being able to estimate the complete 3D shapes of objects in presence of occlusions is crucial for automating operations such as fruit harvesting. In this paper, we propose the first publicly available 3D shape completion dataset for agricultural vision systems. We provide an RGB-D dataset for estimating the 3D shape of fruits. Specifically, our dataset contains RGB-D frames of single sweet peppers in lab conditions but also in a commercial greenhouse. For each fruit, we additionally collected high-precision point clouds that we use as ground truth. For acquiring the ground truth shape, we developed a measuring process that allows us to record data of real sweet pepper plants, both in the lab and in the greenhouse with high precision, and determine the shape of the sensed fruits. We release our dataset, consisting of almost 7000 RGB-D frames belonging to more than 100 different fruits. We provide segmented RGB-D frames, with camera instrinsics to easily obtain colored point clouds, together with the corresponding high-precision, occlusion-free point clouds obtained with a high-precision laser scanner. We additionally enable evaluation ofshape completion approaches on a hidden test set through a public challenge on a benchmark server. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# セグメント出力品質制御のための等角的性能範囲予測
Conformal Performance Range Prediction for Segmentation Output Quality Control ( http://arxiv.org/abs/2407.13307v1 ) ライセンス: Link先を確認 | Anna M. Wundram, Paul Fischer, Michael Muehlebach, Lisa M. Koch, Christian F. Baumgartner, | (参考訳) 近年の研究では、ニューラルネットワークのソフトマックス出力にのみ依存して、真理を示さずにセグメンテーション性能を推定する方法が提案されている。
これらの技術は直感的な出力品質制御の可能性を秘めている。
しかし、そのような性能推定は校正されたソフトマックス出力に依存しており、現代のニューラルネットワークではそうではないことが多い。
さらに、推定値はセグメンテーションタスクに固有の不確実性を考慮していない。
これらの制限は、正確な性能予測を達成不可能にし、性能推定手法の実用性を制限する可能性がある。
これらの課題に対処するため,利用者が特定した確率で真理を含むという統計的保証付きの性能範囲を予測するための新しい手法を開発した。
提案手法は,サンプリングに基づくセグメンテーションの不確実性推定を利用してヒューリスティックな性能範囲を導出し,これらの推定を所望の保証を満たす厳密な予測範囲に変換するために分割共形予測を適用する。
FIVES網膜血管セグメンテーションデータセットへのアプローチを実証し、5つの一般的なサンプリングベース不確実性推定手法を比較した。
本結果から,出力品質管理に有用なツールとして,性能範囲予測の可能性を強調し,予測範囲を小さくすることで,所望のカバレッジを達成できることが示唆された。
Recent works have introduced methods to estimate segmentation performance without ground truth, relying solely on neural network softmax outputs. These techniques hold potential for intuitive output quality control. However, such performance estimates rely on calibrated softmax outputs, which is often not the case in modern neural networks. Moreover, the estimates do not take into account inherent uncertainty in segmentation tasks. These limitations may render precise performance predictions unattainable, restricting the practical applicability of performance estimation methods. To address these challenges, we develop a novel approach for predicting performance ranges with statistical guarantees of containing the ground truth with a user specified probability. Our method leverages sampling-based segmentation uncertainty estimation to derive heuristic performance ranges, and applies split conformal prediction to transform these estimates into rigorous prediction ranges that meet the desired guarantees. We demonstrate our approach on the FIVES retinal vessel segmentation dataset and compare five commonly used sampling-based uncertainty estimation techniques. Our results show that it is possible to achieve the desired coverage with small prediction ranges, highlighting the potential of performance range prediction as a valuable tool for output quality control. | 翻訳日:2024-07-19 16:12:25 公開日:2024-07-18 |
# 時間整合型ニューラルハイダイナミックレンジビデオレンダリングのための露光補完
Exposure Completing for Temporally Consistent Neural High Dynamic Range Video Rendering ( http://arxiv.org/abs/2407.13309v1 ) ライセンス: Link先を確認 | Jiahao Cui, Wei Jiang, Zhan Peng, Zhiyu Pan, Zhiguo Cao, | (参考訳) 低ダイナミックレンジ(LDR)ビデオからのハイダイナミックレンジ(HDR)ビデオレンダリングでは、各タイムスタンプにおける露出の変化と欠如により、フレームが交互に露出する際の大きな課題が発生する。
露光の変化と欠如により、既存の手法は点滅するHDR結果を生成する。
本稿では,不在な露光情報を完成させることで,HDRフレームを描画する新しいパラダイムを提案する。
提案手法では, 隣接LDRフレームを時間次元で補間し, 露出の欠如に対してLDRフレームを再構成する。
補間されたLDRフレームと与えられたLDRフレームを組み合わせることで、各タイムスタンプで露出情報の完全なセットが利用可能となる。
これにより、HDR結果の融合プロセスの恩恵を受け、ノイズやゴーストを低減し、時間的一貫性を向上させることができる。
提案手法は,HDRビデオレンダリングにおける露光完了の欠如の重要性を浮き彫りにして,最先端の性能を実現することを実証した。
コードはhttps://github.com/cuijiahao666/NECHDRで公開されている。
High dynamic range (HDR) video rendering from low dynamic range (LDR) videos where frames are of alternate exposure encounters significant challenges, due to the exposure change and absence at each time stamp. The exposure change and absence make existing methods generate flickering HDR results. In this paper, we propose a novel paradigm to render HDR frames via completing the absent exposure information, hence the exposure information is complete and consistent. Our approach involves interpolating neighbor LDR frames in the time dimension to reconstruct LDR frames for the absent exposures. Combining the interpolated and given LDR frames, the complete set of exposure information is available at each time stamp. This benefits the fusing process for HDR results, reducing noise and ghosting artifacts therefore improving temporal consistency. Extensive experimental evaluations on standard benchmarks demonstrate that our method achieves state-of-the-art performance, highlighting the importance of absent exposure completing in HDR video rendering. The code is available at https://github.com/cuijiahao666/NECHDR. | 翻訳日:2024-07-19 16:00:24 公開日:2024-07-18 |
# 産業プロセスにおける半教師付きマルチユニットソフトセンシングのための深潜時変動モデル
A deep latent variable model for semi-supervised multi-unit soft sensing in industrial processes ( http://arxiv.org/abs/2407.13310v1 ) ライセンス: Link先を確認 | Bjarne Grimstad, Kristian Løvland, Lars S. Imsland, Vidar Gunnerud, | (参考訳) 多くの産業プロセスにおいて、明らかにデータの欠如は、データ駆動型ソフトセンサーの開発を制限する。
しかし、よりデータ効率のよいモデルを学ぶ機会がしばしばあります。
これを実現するために、ソフトセンサーが学習したデータに関する知識を利用することができる。
産業データに頻繁に保持される特性を生かして,半教師付きマルチユニットソフトセンシングのための潜時変動モデルを提案する。
この階層的で生成的なモデルは、ラベル付きデータとラベルなしデータの両方から学習するだけでなく、異なるユニットを共同でモデル化することができる。
単相流体流の合成データセットと,油井およびガス井内の多相流の大規模実データを用いて,マルチユニットソフトセンシングの実証的研究を行った。
半教師付き学習とマルチタスク学習を組み合わせることで,このソフトセンシング問題において,従来の先行手法よりも優れた結果が得られることを示す。
また、モデルがマルチユニットデータセットでトレーニングされた場合、少数のデータポイントのみを使用して、以前に見つからなかったユニットに微調整されることも示している。
この微調整法では、ラベルなしデータによりソフトセンサーの性能が向上し、ラベル付きデータが入手できない場合でも顕著である。
In many industrial processes, an apparent lack of data limits the development of data-driven soft sensors. There are, however, often opportunities to learn stronger models by being more data-efficient. To achieve this, one can leverage knowledge about the data from which the soft sensor is learned. Taking advantage of properties frequently possessed by industrial data, we introduce a deep latent variable model for semi-supervised multi-unit soft sensing. This hierarchical, generative model is able to jointly model different units, as well as learning from both labeled and unlabeled data. An empirical study of multi-unit soft sensing is conducted using two datasets: a synthetic dataset of single-phase fluid flow, and a large, real dataset of multi-phase flow in oil and gas wells. We show that by combining semi-supervised and multi-task learning, the proposed model achieves superior results, outperforming current leading methods for this soft sensing problem. We also show that when a model has been trained on a multi-unit dataset, it may be finetuned to previously unseen units using only a handful of data points. In this finetuning procedure, unlabeled data improve soft sensor performance; remarkably, this is true even when no labeled data are available. | 翻訳日:2024-07-19 16:00:24 公開日:2024-07-18 |
# 医用画像登録における一般ビジョンエンコーダの特徴
General Vision Encoder Features as Guidance in Medical Image Registration ( http://arxiv.org/abs/2407.13311v1 ) ライセンス: Link先を確認 | Fryderyk Kögl, Anna Reithmeir, Vasiliki Sideri-Lampretsa, Ines Machado, Rickmer Braren, Daniel Rückert, Julia A. Schnabel, Veronika A. Zimmer, | (参考訳) DINOv2やSAMのような一般的な視覚エンコーダはコンピュータビジョンを変換した。
自然画像で訓練されているにもかかわらず、そのようなエンコーダモデルは医療画像、例えば分類、セグメンテーション、登録において優れている。
しかし、医学登録のための様々な最先端の一般ビジョンエンコーダの詳細な比較は行われていない。
本研究では,医用画像登録のための異種度指標において,一般的な視覚エンコーダの特徴がどの程度有効であるかを検討する。
我々は、自然画像で訓練された2つのエンコーダと、医療データで微調整された1つのエンコーダを探索した。
確立されたB-スプラインFFD登録フレームワークに特徴を適用した。
心血管MRIデータに関する広範な実験では、従来の指標の付加的なガイダンスとして機能を使用することで、登録品質が向上することが判明した。
コードはgithub.com/compai-lab/2024-miccai-koeglで入手できる。
General vision encoders like DINOv2 and SAM have recently transformed computer vision. Even though they are trained on natural images, such encoder models have excelled in medical imaging, e.g., in classification, segmentation, and registration. However, no in-depth comparison of different state-of-the-art general vision encoders for medical registration is available. In this work, we investigate how well general vision encoder features can be used in the dissimilarity metrics for medical image registration. We explore two encoders that were trained on natural images as well as one that was fine-tuned on medical data. We apply the features within the well-established B-spline FFD registration framework. In extensive experiments on cardiac cine MRI data, we find that using features as additional guidance for conventional metrics improves the registration quality. The code is available at github.com/compai-lab/2024-miccai-koegl. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 時系列データのソート性
Sortability of Time Series Data ( http://arxiv.org/abs/2407.13313v1 ) ライセンス: Link先を確認 | Christopher Lohse, Jonas Wahl, | (参考訳) 時間依存プロセス間の因果関係の探索を目的とした因果発見アルゴリズムの性能評価は依然として課題である。
本稿では,自己相関型定常時系列のデータセットにおいても,可変性(Reisach et al 2021)や$R^2$-sortability(Reisach et al 2023)などのデータセットの特徴が生じることを示す。
SVARモデルとErd\H{o}s-R\enyiグラフに基づくシミュレーションデータ、2019年の因果的気候問題(Runge et al 2019)で使用されるデータ、現実世界の河川ストリームデータセット、およびCausal Chamber of (Gamella et al 2024)によって生成された実世界のデータである。
そのため, var- および $R^2$-sortability を時系列データに適用する。
また,スコアに基づく因果探索手法の性能が,高いソート性とともにどの程度向上するかについても検討した。
おそらく最も驚くべき発見は、調査された実世界のデータセットは高いバラツキ性を示し、R^2$-sortabilityはスケールが相当量の因果情報を持つ可能性があることを示すことである。
Evaluating the performance of causal discovery algorithms that aim to find causal relationships between time-dependent processes remains a challenging topic. In this paper, we show that certain characteristics of datasets, such as varsortability (Reisach et al. 2021) and $R^2$-sortability (Reisach et al. 2023), also occur in datasets for autocorrelated stationary time series. We illustrate this empirically using four types of data: simulated data based on SVAR models and Erd\H{o}s-R\'enyi graphs, the data used in the 2019 causality-for-climate challenge (Runge et al. 2019), real-world river stream datasets, and real-world data generated by the Causal Chamber of (Gamella et al. 2024). To do this, we adapt var- and $R^2$-sortability to time series data. We also investigate the extent to which the performance of score-based causal discovery methods goes hand in hand with high sortability. Arguably, our most surprising finding is that the investigated real-world datasets exhibit high varsortability and low $R^2$-sortability indicating that scales may carry a significant amount of causal information. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 確率的最適制御による決定論的軌道最適化
Deterministic Trajectory Optimization through Probabilistic Optimal Control ( http://arxiv.org/abs/2407.13316v1 ) ライセンス: Link先を確認 | Mohammad Mahmoudi Filabadi, Tom Lefebvre, Guillaume Crevecoeur, | (参考訳) 本稿では、離散時間決定論的有限水平非線形最適制御問題またはいわゆる軌道最適化問題に適した2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率的最適制御と呼ばれる新しい理論パラダイムにインスパイアされ、最適制御を等価な確率的推論問題として再構成する。
この観点は、期待最大化アルゴリズムを用いてこの問題に対処することができる。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの固定点反復が得られることを示す。
現状の不確実性定量化手法を用いて,2つの異なるアルゴリズムによる政策評価手法について検討した。
これらのアルゴリズムは、直接勾配評価を避けるために、ディファレンシャル・ダイナミック・プログラミング・アルゴリズムおよびシグマ・ポイント・メソッドを使用する関連手法と構造的に最も近いものである。
我々の研究の主な利点は、反復に対する探索と搾取のバランスの改善であり、数値安定性の向上と収束の加速につながります。
これらの性質は異なる非線形系で示される。
This article proposes two new algorithms tailored to discrete-time deterministic finite-horizon nonlinear optimal control problems or so-called trajectory optimization problems. Both algorithms are inspired by a novel theoretical paradigm known as probabilistic optimal control, that reformulates optimal control as an equivalent probabilistic inference problem. This perspective allows to address the problem using the Expectation-Maximization algorithm. We show that the application of this algorithm results in a fixed point iteration of probabilistic policies that converge to the deterministic optimal policy. Two strategies for policy evaluation are discussed, using state-of-the-art uncertainty quantification methods resulting into two distinct algorithms. The algorithms are structurally closest related to the differential dynamic programming algorithm and related methods that use sigma-point methods to avoid direct gradient evaluations. The main advantage of our work is an improved balance between exploration and exploitation over the iterations, leading to improved numerical stability and accelerated convergence. These properties are demonstrated on different nonlinear systems. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 同種暗号を用いたプロキシシグナへの署名権を委譲する新しいアプローチ
A new approach to delegate signing rights to proxy signers using isogeny-based cryptography ( http://arxiv.org/abs/2407.13318v1 ) ライセンス: Link先を確認 | Kunal Dey, Somnath Kumar, Vikas Srivastava, Sumit Kumar Debnath, | (参考訳) E-governanceは、政府サービスを使用し、データを共有し、情報を要求するための双方向プロトコルである。
行政サービスを効率的かつ迅速に公共に提供するためのコミュニケーションと情報技術の使用を指す。
さらに、e-Governmentシステムに提出された書類は、デジタル署名方式を用いて政府職員によって認証されなければならない。
デジタルシグネチャの文脈では、プロキシシグネチャは重要な暗号プリミティブであり、元のシグネチャが署名権限を他のシグネチャ(プロキシシグネチャ)に委譲することを可能にする。
プロキシシグネチャは、E- Governmentシステムに多くの重要な応用がある。
現在、大量のプロキシシグネチャスキームがあります。
それらの殆どのセキュリティは、離散対数問題と整数問題の因数分解という、以下の難しい問題に依存している。
しかし、ショアのアルゴリズムにより、大規模量子コンピュータは多項式時間で解くことができる。
結果として、量子コンピュータに抵抗するプロキシシグネチャが、量子敵からE-Governanceシステムを保護する必要がある。
本研究では、量子後等質性に基づく最初のプロキシシグネチャスキームCSI-PS(commutative supersingular isogeny proxy signature)を提案する。
同種性に基づくグループアクション逆問題(GAIP)の難易度下では,本手法は u-cma が安全であることが証明された。
E-governance is a two-way protocol through which one can use government services, share data and request information. It refers to the use of communication and information technologies to provide government services to public in an efficient and fast manner. In addition, any document submitted to the e-Government system must be authenticated by a government officer using a digital signature scheme. In the context of digital signatures, the proxy signature is an important cryptographic primitive that allows the original signer to delegate signing authority to another signer (proxy signer). The proxy signature has a number of important applications in the e-government system. There are now a large amount of proxy signature schemes. The security of most of them relies on the following hard problems: the discrete logarithm problem and the factorization of integers problem. However, a large-scale quantum computer can solve them in polynomial time due to Shor's algorithm. As a consequence, there is a need for a quantum computer-resistant proxy signature to secure e-governance system from quantum adversaries. In this work, we propose the first post-quantum isogeny based proxy signature scheme CSI-PS (commutative supersingular isogeny proxy signature). Our construction is proven to be uf-cma secure under the hardness of the group action inverse problem (GAIP) based on isogeny. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 多目的最適化のための深部強化学習:騒音発生の軽減と風力発電の強化
Deep Reinforcement Learning for Multi-Objective Optimization: Enhancing Wind Turbine Energy Generation while Mitigating Noise Emissions ( http://arxiv.org/abs/2407.13320v1 ) ライセンス: Link先を確認 | Martín de Frutos, Oscar A. Marino, David Huergo, Esteban Ferrer, | (参考訳) 我々は,風力タービンの深部強化学習を用いたトルクピッチ制御フレームワークを開発し,運転騒音を最小限に抑えながら風力タービンエネルギーの発生を最適化する。
我々は、風力タービンパラメータの正確な制御を可能にするために、ブレード要素運動量解決器と組み合わされた二重深度Q-ラーニングを用いる。
ブレード要素の運動量に加えて,ブルックス・ポープとマルコーニの風力タービン音響モデルを用いる。
単純な風で訓練することで、複雑な乱流風の効率的な制御を可能にする最適な制御ポリシーを学習する。
実験により, 雑音を最小化しながらエネルギーを最大化する場合に, 強化学習がパレート前線で最適となることを示した。
さらに, 強風条件の変化に対する強化学習剤の適応性は, 実世界の応用に有効であることを示す。
定格出力2.3MWのSWT2.3-93風車を用いた手法の検証を行った。
我々は,騒音発生を考慮した強化学習制御と古典的制御との比較を行い,ノイズ発生を考慮した場合と同等であることを示す。
発生した騒音(タービンの100メートル風下)に最大45dBの限界を加えると、抽出された年間エネルギーは22%減少する。
この手法は柔軟であり、報酬の定義を通じて目的と制約の調整が容易であり、風力タービン制御のための柔軟な多目的最適化フレームワークをもたらす。
総じて、騒音汚染を緩和しつつ風力タービン効率を向上させるためのRLベースの制御戦略の可能性を強調し、持続可能なエネルギー生成技術の進歩を図った。
We develop a torque-pitch control framework using deep reinforcement learning for wind turbines to optimize the generation of wind turbine energy while minimizing operational noise. We employ a double deep Q-learning, coupled to a blade element momentum solver, to enable precise control over wind turbine parameters. In addition to the blade element momentum, we use the wind turbine acoustic model of Brooks Pope and Marcolini. Through training with simple winds, the agent learns optimal control policies that allow efficient control for complex turbulent winds. Our experiments demonstrate that the reinforcement learning is able to find optima at the Pareto front, when maximizing energy while minimizing noise. In addition, the adaptability of the reinforcement learning agent to changing turbulent wind conditions, underscores its efficacy for real-world applications. We validate the methodology using a SWT2.3-93 wind turbine with a rated power of 2.3 MW. We compare the reinforcement learning control to classic controls to show that they are comparable when not taking into account noise emissions. When including a maximum limit of 45 dB to the noise produced (100 meters downwind of the turbine), the extracted yearly energy decreases by 22%. The methodology is flexible and allows for easy tuning of the objectives and constraints through the reward definitions, resulting in a flexible multi-objective optimization framework for wind turbine control. Overall, our findings highlight the potential of RL-based control strategies to improve wind turbine efficiency while mitigating noise pollution, thus advancing sustainable energy generation technologies | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 超伝導回路における工学的散逸による絡み合いのハードウェア効率よく安定化
Hardware-Efficient Stabilization of Entanglement via Engineered Dissipation in Superconducting Circuits ( http://arxiv.org/abs/2407.13321v1 ) ライセンス: Link先を確認 | Changling Chen, Kai Tang, Yuxuan Zhou, KangYuan Yi, Xuan Zhang, Xu Zhang, Haosheng Guo, Song Liu, Yuanzhen Chen, Tongxing Yan, Dapeng Yu, | (参考訳) 量子エンタングルメントの生成と保存は、量子情報処理の主要なタスクである。
量子バス工学による状態安定化は、この目的を達成するための資源効率の良いアプローチを提供する。
しかしながら、ターゲットの絡み合った状態を安定化するための現在の工学的散逸チャネルの手法は、しばしば特別なハードウェア設計を必要とし、実験的な実現を複雑にし、スケーラブルな量子計算アーキテクチャとの互換性を妨げている。
そこで本研究では,主成分である超伝導量子回路において容易に実装可能な安定化プロトコルを提案し,実験的に実証する。
このアプローチは、超伝導量子ビットアレイとその専用リードアウト共振器を含む共鳴(またはほぼ共鳴)ラマン過程を用いて、非局所散逸チャネルを効果的に発生させる。
量子ビットと共振器の個別制御性を活用し、このプロトコルは2ビットのベル状態が90.7 %$で安定化され、固体プラットフォームで最も高い値が報告されている。
さらに、この戦略を3つの量子ビットを含むように拡張することにより、絡み合った$W$状態が8.6.2\%の忠実度で達成される。
特に、このプロトコルは、基盤となる超伝導回路の標準動作に共通する既存のハードウェアのみを利用するため、多くのボディの量子絡みを消散性資源で探究しやすくするため、実際的な関心事である。
Generation and preservation of quantum entanglement are among the primary tasks in quantum information processing. State stabilization via quantum bath engineering offers a resource-efficient approach to achieve this objective. However, current methods for engineering dissipative channels to stabilize target entangled states often require specialized hardware designs, complicating experimental realization and hindering their compatibility with scalable quantum computation architectures. In this work, we propose and experimentally demonstrate a stabilization protocol readily implementable in the mainstream integrated superconducting quantum circuits. The approach utilizes a Raman process involving a resonant (or nearly resonant) superconducting qubit array and their dedicated readout resonators to effectively emerge nonlocal dissipative channels. Leveraging individual controllability of the qubits and resonators, the protocol stabilizes two-qubit Bell states with a fidelity of $90.7\%$, marking the highest reported value in solid-state platforms to date. Furthermore, by extending this strategy to include three qubits, an entangled $W$ state is achieved with a fidelity of $86.2\%$, which has not been experimentally investigated before. Notably, the protocol is of practical interest since it only utilizes existing hardware common to standard operations in the underlying superconducting circuits, thereby facilitating the exploration of many-body quantum entanglement with dissipative resources. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 合成信号誘導特徴学習による完全実時間rPPG推定
Fully Test-Time rPPG Estimation via Synthetic Signal-Guided Feature Learning ( http://arxiv.org/abs/2407.13322v1 ) ライセンス: Link先を確認 | Pei-Kai Huang, Tzu-Hsien Chen, Ya-Ting Chan, Kuan-Wen Chen, Chiou-Ting Hsu, | (参考訳) 多くのリモート光胸腺撮影(rPPG)推定モデルは、トレーニング領域で有望なパフォーマンスを達成したが、テスト領域での生理的信号や心拍数(HR)の測定に失敗することが多い。
したがって、ドメイン一般化(DG)またはドメイン適応(DA)技術はオフラインのトレーニング段階で採用され、利用可能なすべてのソースドメインデータを参照することによって、モデルが観測されていないまたは観測されていないテストドメインに適応する。
しかし、rPPG推定問題においては、適応モデルは通常、異なるビデオキャプチャ設定、異なる年齢範囲の個人、異なるHR分布など、様々なドメイン情報でターゲットデータを推定する課題に直面している。
対照的に、TTA(Test-Time Adaptation)は、ソースデータを参照することなく、ラベルのないターゲットデータにオンラインで適応することにより、様々な未確認領域のrPPG信号を適応的に推定することができる。
本稿ではまず,様々なドメイン情報や人事分布を含む新しいTTA-rPPGベンチマークを提案し,rPPG推定における課題をシミュレートする。
次に,二つの目的を持つ合成信号誘導rPPG推定フレームワークを提案する。
まず、rPPGモデルを適用して新しいターゲット領域情報を取得するために、効果的なスペクトルベースのエントロピー最小化を設計する。
第2に、擬似rPPG信号を擬似基底構造として合成し、条件生成器を誘導して潜在rPPG特徴を生成する合成信号誘導特徴学習を開発する。
合成rPPG信号と生成されたrPPG特徴を用いて、rPPGモデルを誘導し、様々なHR分布を広範囲にカバーする。
TTA-rPPGベンチマークの広範な実験により,提案手法は,TTA-rPPGベンチマークのほとんどのプロトコルにおいて,従来のDGおよびDA手法よりも優れた性能を実現し,性能を向上することが示された。
Many remote photoplethysmography (rPPG) estimation models have achieved promising performance on the training domain but often fail to measure the physiological signals or heart rates (HR) on test domains. Domain generalization (DG) or domain adaptation (DA) techniques are therefore adopted in the offline training stage to adapt the model to the unobserved or observed test domain by referring to all the available source domain data. However, in rPPG estimation problems, the adapted model usually confronts challenges of estimating target data with various domain information, such as different video capturing settings, individuals of different age ranges, or of different HR distributions. In contrast, Test-Time Adaptation (TTA), by online adapting to unlabeled target data without referring to any source data, enables the model to adaptively estimate rPPG signals of various unseen domains. In this paper, we first propose a novel TTA-rPPG benchmark, which encompasses various domain information and HR distributions, to simulate the challenges encountered in rPPG estimation. Next, we propose a novel synthetic signal-guided rPPG estimation framework with a two-fold purpose. First, we design an effective spectral-based entropy minimization to enforce the rPPG model to learn new target domain information. Second, we develop a synthetic signal-guided feature learning, by synthesizing pseudo rPPG signals as pseudo ground-truths to guide a conditional generator to generate latent rPPG features. The synthesized rPPG signals and the generated rPPG features are used to guide the rPPG model to broadly cover various HR distributions. Our extensive experiments on the TTA-rPPG benchmark show that the proposed method achieves superior performance and outperforms previous DG and DA methods across most protocols of the proposed TTA-rPPG benchmark. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# ANNアルゴリズムにおけるRISC-V RVV効率
RISC-V RVV efficiency for ANN algorithms ( http://arxiv.org/abs/2407.13326v1 ) ライセンス: Link先を確認 | Konstantin Rumyantsev, Pavel Yakovlev, Andrey Gorshkov, Andrey P. Sokolov, | (参考訳) 膨大な量のデータを扱うことは、今日の世界では非常に重要です。
高性能コンピューティングの成長は、特にANN(Approximate Nearest Neighbors)のような機械学習アルゴリズムの領域において、並列化の必要性を生み出している。
これらのアルゴリズムを高速化するためには、特定のプロセッサアーキテクチャ向けに最適化することが重要である。
RISC-V (Reduced Instruction Set Computer Five) は、 RVV (RISC-V Vector Extension) と呼ばれるベクトル命令セットを特徴とする最新のプロセッサアーキテクチャの1つである。
機械学習アルゴリズムでは、ベクトル拡張を広く利用し、揮発性データの処理を改善する。
本研究では、一般的なANNアルゴリズムにRVVを適用することの有効性について検討する。
アルゴリズムはRISC-Vに適応し、主要なボトルネックを特定した後、RVVを使用して最適化された。
さらに、パラメータ化されたベクトルブロックの理論モデルを開発し、他のCPUパラメータが固定されたときのANNアルゴリズムの最も高い理論的性能を示す平均的な構成でベストを識別した。
Handling vast amounts of data is crucial in today's world. The growth of high-performance computing has created a need for parallelization, particularly in the area of machine learning algorithms such as ANN (Approximate Nearest Neighbors). To improve the speed of these algorithms, it is important to optimize them for specific processor architectures. RISC-V (Reduced Instruction Set Computer Five) is one of the modern processor architectures, which features a vector instruction set called RVV (RISC-V Vector Extension). In machine learning algorithms, vector extensions are widely utilized to improve the processing of voluminous data. This study examines the effectiveness of applying RVV to commonly used ANN algorithms. The algorithms were adapted for RISC-V and optimized using RVV after identifying the primary bottlenecks. Additionally, we developed a theoretical model of a parameterized vector block and identified the best on average configuration that demonstrates the highest theoretical performance of the studied ANN algorithms when the other CPU parameters are fixed. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# コンテキストコントラストとアグリゲーションによる教師なしドメイン適応レーン検出
Unsupervised Domain Adaptive Lane Detection via Contextual Contrast and Aggregation ( http://arxiv.org/abs/2407.13328v1 ) ライセンス: Link先を確認 | Kunyang Zhou, Yunjian Feng, Jun Li, | (参考訳) 本稿では、ドメイン適応車線検出における2つの重要な問題、すなわち、識別的特徴を効果的に学習し、ドメイン間で知識を伝達する方法に焦点を当てる。
既存の車線検出法は通常、列車検出モデルに画素単位のクロスエントロピー損失を利用する。
しかし、この損失は車線間の特徴表現の違いを無視し、非効率な特徴学習につながる。
一方,既存のレーン検出手法では,ドメイン間の知識伝達に重要なドメイン間コンテキスト依存性が探索されていない。
本稿では,ドメイン・コントラスト・アグリゲーション(DACCA)を用いたドメイン・アダプティブ・レーン検出手法を提案し,ドメイン・アダプティブ・レーン検出を実現する。
前者は、ドメインレベルの特徴を正のサンプルとすることで、カテゴリ間の特徴表現を効果的に区別することができる。
後者はドメインレベルの機能とピクセルレベルの機能を融合させ、ドメイン間のコンテキスト依存性を強化する。
特にCULaneからTusimple(92.10%の精度)、TusimpleからCULane(41.9%のF1スコア)、OpenLaneからCULane(43.0%のF1スコア)、OpenLane(27.6%のF1スコア)、CULaneからOpenLane(27.6%のF1スコア)の6つのデータセットにおいて、DACCAは検出モデルの性能を大幅に改善し、既存の教師なしドメイン適応レーン検出手法よりも優れていた。
This paper focuses on two crucial issues in domain-adaptive lane detection, i.e., how to effectively learn discriminative features and transfer knowledge across domains. Existing lane detection methods usually exploit a pixel-wise cross-entropy loss to train detection models. However, the loss ignores the difference in feature representation among lanes, which leads to inefficient feature learning. On the other hand, cross-domain context dependency crucial for transferring knowledge across domains remains unexplored in existing lane detection methods. This paper proposes a method of Domain-Adaptive lane detection via Contextual Contrast and Aggregation (DACCA), consisting of two key components, i.e., cross-domain contrastive loss and domain-level feature aggregation, to realize domain-adaptive lane detection. The former can effectively differentiate feature representations among categories by taking domain-level features as positive samples. The latter fuses the domain-level and pixel-level features to strengthen cross-domain context dependency. Extensive experiments show that DACCA significantly improves the detection model's performance and outperforms existing unsupervised domain adaptive lane detection methods on six datasets, especially achieving the best performance when transferring from CULane to Tusimple (92.10% accuracy), Tusimple to CULane (41.9% F1 score), OpenLane to CULane (43.0% F1 score), and CULane to OpenLane (27.6% F1 score). | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# なぜ引用するのか?引用意図と意思決定の分類過程に関する研究
Why do you cite? An investigation on citation intents and decision-making classification processes ( http://arxiv.org/abs/2407.13329v1 ) ライセンス: Link先を確認 | Lorenzo Paolini, Sahar Vahdati, Angelo Di Iorio, Robert Wardenga, Ivan Heibi, Silvio Peroni, | (参考訳) 著者が別の著作を引用する理由を特定することは、科学的貢献の性質を理解し、その影響を評価するために不可欠である。
サイテーションは学術的なコミュニケーションの柱の1つであり、これらの概念的リンクを分析するために使用されるほとんどの指標は定量的な観測に基づいている。
他の学術作品を参照する行為の裏には、熟達し、効果的に明らかにする必要がある意味の世界全体が存在している。
本研究は,研究評価において,より包括的で洞察に富んだ分析を提供するために,引用意図を信頼して分類することの重要性を強調した。
本稿では、言語モデル(LM)を取り入れたCIC(Ensemble Strategies for Citation Intent Classification)と、モデル予測の解釈性と信頼性を高めるための説明可能なAI(XAI)技術を用いて、この課題に対処する。
本稿では,SciBERT と XLNet LM をベースラインとして用いた2つのアンサンブル分類器を提案する。
モデルの性能向上において,セクションタイトルが重要な役割を担っていることを示す。
また、Fraskで開発され、現在http://137.204.64.4:81/cic/classifierで利用できるWebアプリケーションも紹介されている。
我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
XAI技術の統合は、意思決定プロセスに関する洞察を与え、レベル0分類のための個々の単語の貢献とメタ分類のための個々のモデルの貢献を強調します。
その結果,セクションタイトルの付与はCICタスクにおける分類性能を著しく向上させることが示唆された。
我々の貢献は、より堅牢なデータセットや方法論を開発する上で有用な洞察を与え、学術的なコミュニケーションのより深い理解を促進する。
Identifying the reason for which an author cites another work is essential to understand the nature of scientific contributions and to assess their impact. Citations are one of the pillars of scholarly communication and most metrics employed to analyze these conceptual links are based on quantitative observations. Behind the act of referencing another scholarly work there is a whole world of meanings that needs to be proficiently and effectively revealed. This study emphasizes the importance of trustfully classifying citation intents to provide more comprehensive and insightful analyses in research assessment. We address this task by presenting a study utilizing advanced Ensemble Strategies for Citation Intent Classification (CIC) incorporating Language Models (LMs) and employing Explainable AI (XAI) techniques to enhance the interpretability and trustworthiness of models' predictions. Our approach involves two ensemble classifiers that utilize fine-tuned SciBERT and XLNet LMs as baselines. We further demonstrate the critical role of section titles as a feature in improving models' performances. The study also introduces a web application developed with Flask and currently available at http://137.204.64.4:81/cic/classifier, aimed at classifying citation intents. One of our models sets as a new state-of-the-art (SOTA) with an 89.46% Macro-F1 score on the SciCite benchmark. The integration of XAI techniques provides insights into the decision-making processes, highlighting the contributions of individual words for level-0 classifications, and of individual models for the metaclassification. The findings suggest that the inclusion of section titles significantly enhances classification performances in the CIC task. Our contributions provide useful insights for developing more robust datasets and methodologies, thus fostering a deeper understanding of scholarly communication. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# ロボット軌道計画の探索 -動的環境におけるアルゴリズムとソフトウェア実装の比較分析-
Exploring Robot Trajectory Planning -- A Comparative Analysis of Algorithms And Software Implementations in Dynamic Environments ( http://arxiv.org/abs/2407.13330v1 ) ライセンス: Link先を確認 | Arunabh Bora, | (参考訳) 軌道計画(Trajectory Planning)は、現代・先端ロボティクスにおいて重要な用語である。
これは、ロボットが時間が経つにつれて、スムーズで実現可能な経路を生成する方法です。
この過程は、主に速度、加速度、ジャークなどの経路を生成するためにいくつかの因子を必要とする。
このプロセスは、ロボットが適切な環境で望ましい動き経路をたどる方法を扱う。
この軌道計画は自動車産業ロボット、マニピュレータ、移動ロボットで広く用いられている。
軌道計画は運動制御システムの基本的構成要素である。
ピック・アンド・プレイス・オペレーション、アセンブリ、溶接、塗装、パスフォロー、障害物回避などのタスクを実行する。
本稿では,複雑な環境と動的環境における軌道計画アルゴリズムとそのソフトウェア要素の動作戦略の比較分析を紹介する。
適応性とリアルタイム分析は軌道計画において最も一般的な問題である。
この論文は主に、予測不可能な環境をよりよく理解することに焦点を当てている。
Trajectory Planning is a crucial word in Modern & Advanced Robotics. It's a way of generating a smooth and feasible path for the robot to follow over time. The process primarily takes several factors to generate the path, such as velocity, acceleration and jerk. The process deals with how the robot can follow a desired motion path in a suitable environment. This trajectory planning is extensively used in Automobile Industrial Robot, Manipulators, and Mobile Robots. Trajectory planning is a fundamental component of motion control systems. To perform tasks like pick and place operations, assembly, welding, painting, path following, and obstacle avoidance. This paper introduces a comparative analysis of trajectory planning algorithms and their key software elements working strategy in complex and dynamic environments. Adaptability and real-time analysis are the most common problems in trajectory planning. The paper primarily focuses on getting a better understanding of these unpredictable environments. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# 再訓練を伴わないプレナードモデルの再構築
Reconstruct the Pruned Model without Any Retraining ( http://arxiv.org/abs/2407.13331v1 ) ライセンス: Link先を確認 | Pingjie Wang, Ziqing Fan, Shengchao Hu, Zhe Chen, Yanfeng Wang, Yu Wang, | (参考訳) 構造化プルーニング(Structured pruning)は,大規模言語モデル(LLM)のハードウェアフレンドリな圧縮技術として有望である。
このリトレーニングフリーパラダイムは、(1)アーキテクチャを定義するためのプルーニング基準、(2)パフォーマンスを回復するための歪み再構成を含む。
しかし、既存の手法では、特定のモジュールや基準に特有の再構築技術を使用してプルーニング基準を強調することが多く、その結果、限定的な一般化が可能となった。
これを解決するために,線形補間に基づく適応再構成(LIAR)フレームワークを導入する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
保存された重みに線形補間を適用することにより、LIARは復元誤差を最小化し、刈り取られた出力を効果的に再構成する。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去した後でもBERTモデルを98%の精度で維持でき, わずか数分でLLaMAの最高性能を達成できることがわかった。
Structured pruning is a promising hardware-friendly compression technique for large language models (LLMs), which is expected to be retraining-free to avoid the enormous retraining cost. This retraining-free paradigm involves (1) pruning criteria to define the architecture and (2) distortion reconstruction to restore performance. However, existing methods often emphasize pruning criteria while using reconstruction techniques that are specific to certain modules or criteria, resulting in limited generalizability. To address this, we introduce the Linear Interpolation-based Adaptive Reconstruction (LIAR) framework, which is both efficient and effective. LIAR does not require back-propagation or retraining and is compatible with various pruning criteria and modules. By applying linear interpolation to the preserved weights, LIAR minimizes reconstruction error and effectively reconstructs the pruned output. Our evaluations on benchmarks such as GLUE, SQuAD, WikiText, and common sense reasoning show that LIAR enables a BERT model to maintain 98% accuracy even after removing 50% of its parameters and achieves top performance for LLaMA in just a few minutes. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# OAT: Gaze Scanpath 予測のためのオブジェクトレベルアテンション変換器
OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction ( http://arxiv.org/abs/2407.13335v1 ) ライセンス: Link先を確認 | Yini Fang, Jingling Yu, Haozheng Zhang, Ralf van der Lans, Bertram Shi, | (参考訳) ビジュアル検索は私たちの日常生活において重要である。
視覚的な注意を効果的に割り当てることは、視覚的な検索タスクを効果的に完了させる上で重要である。
以前の研究では、例えばサリエンシマップを用いて、ピクセルレベルの画像における視覚的注意の空間的割り当てを主にモデル化してきた。
しかし、新たな証拠は、視覚的注意はピクセル強度ではなく物体によって導かれることを示している。
本稿では,乱雑な乱れの場面で対象物を探索する際に,人間のスキャンパスを予測するオブジェクトレベル注意変換器(OAT)を提案する。
OATはエンコーダ-デコーダアーキテクチャを使用する。
エンコーダは、画像内のオブジェクトの位置と外観、およびターゲットに関する情報をキャプチャする。
デコーダは、エンコーダとデコーダの両方からの出力特徴を統合することにより、ガーゼスキャンパスをオブジェクト固定のシーケンスとして予測する。
また,物体間の空間的関係をよりよく反映する新しい位置符号化法を提案する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
OATの予測された視線スキャンパスは、確立されたメトリクスと行動に基づく新しいメトリクスの両方に対する空間的注意に基づくアルゴリズムによる予測と比較して、人間の視線パターンとより密接に一致している。
OATの一般化能力は,不明瞭なレイアウトや対象物に対する人間のスキャンパスを正確に予測するものである。
Visual search is important in our daily life. The efficient allocation of visual attention is critical to effectively complete visual search tasks. Prior research has predominantly modelled the spatial allocation of visual attention in images at the pixel level, e.g. using a saliency map. However, emerging evidence shows that visual attention is guided by objects rather than pixel intensities. This paper introduces the Object-level Attention Transformer (OAT), which predicts human scanpaths as they search for a target object within a cluttered scene of distractors. OAT uses an encoder-decoder architecture. The encoder captures information about the position and appearance of the objects within an image and about the target. The decoder predicts the gaze scanpath as a sequence of object fixations, by integrating output features from both the encoder and decoder. We also propose a new positional encoding that better reflects spatial relationships between objects. We evaluated OAT on the Amazon book cover dataset and a new dataset for visual search that we collected. OAT's predicted gaze scanpaths align more closely with human gaze patterns, compared to predictions by algorithms based on spatial attention on both established metrics and a novel behavioural-based metric. Our results demonstrate the generalization ability of OAT, as it accurately predicts human scanpaths for unseen layouts and target objects. | 翻訳日:2024-07-19 16:00:23 公開日:2024-07-18 |
# コスト・ボリューム・フュージョンによる長期3次元点追跡
Long-Term 3D Point Tracking By Cost Volume Fusion ( http://arxiv.org/abs/2407.13337v1 ) ライセンス: Link先を確認 | Hung Nguyen, Chanho Kim, Rigved Naukarkar, Li Fuxin, | (参考訳) 物理的世界の非剛体運動をよりよく理解するためには、長期の点追跡が不可欠である。
ディープラーニングのアプローチは、最近長期的ポイントトラッキングに取り入れられているが、ほとんどの以前の作業は主に2Dで機能する。
これらの手法は、確立されたバックボーンとマッチングフレームワークの恩恵を受けるが、それらが生み出す動きは、必ずしも3D物理世界において意味のあるものではない。
本稿では,テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化した3次元の長期点追跡のための最初のディープラーニングフレームワークを提案する。
本モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで効果的に統合し,全体のトラッキング性能を大幅に向上するコスト容積融合モジュールを備える。
3Dトラッキング性能は, 合成シナリオにおいて, 地上の真相深度とカメラがバックプロジェクト2Dポイントトラックに作用する場合でも, 単純なシーンフローチェインや, 従来の2Dポイントトラッキング手法よりも有意に優れる。
Long-term point tracking is essential to understand non-rigid motion in the physical world better. Deep learning approaches have recently been incorporated into long-term point tracking, but most prior work predominantly functions in 2D. Although these methods benefit from the well-established backbones and matching frameworks, the motions they produce do not always make sense in the 3D physical world. In this paper, we propose the first deep learning framework for long-term point tracking in 3D that generalizes to new points and videos without requiring test-time fine-tuning. Our model contains a cost volume fusion module that effectively integrates multiple past appearances and motion information via a transformer architecture, significantly enhancing overall tracking performance. In terms of 3D tracking performance, our model significantly outperforms simple scene flow chaining and previous 2D point tracking methods, even if one uses ground truth depth and camera pose to backproject 2D point tracks in a synthetic scenario. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 覚えることを学び、忘れること:動的SLAMの継続的な学習的視点
Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM ( http://arxiv.org/abs/2407.13338v1 ) ライセンス: Link先を確認 | Baicheng Li, Zike Yan, Dong Wu, Hanqing Jiang, Hongbin Zha, | (参考訳) 暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)は、表現力と連続学習の革新的パラダイムにより、広く注目を集めている。
しかし、そのようなシステムを動的環境にデプロイすることは、十分に研究されていない。
このような課題は、動的対象との異なる視点からの観察が幾何学的および測光的一貫性を損なうのに対し、一貫性は、カメラのポーズとマップパラメータを共同最適化するための基礎となるため、従来のアルゴリズムでさえも難解である。
本稿では,連続学習の特徴を最大限に活用し,動的環境のための新しいSLAMフレームワークを提案する。
過去の試みは,経験的リプレイ戦略を活かして,破滅的な忘れを回避してきたが,我々は,忘れを望ましい特徴と見なしている。
再生バッファを適応的に制御することにより、移動物体によるあいまいさを忘れることなく容易に軽減することができる。
動的オブジェクト識別のための連続学習型分類器を導入することにより、動的オブジェクトのリプレイを抑える。
ニューラルネットワークと分類器の反復最適化により、動的環境下でのSLAMシステムの堅牢性は著しく向上する。
挑戦的なデータセットの実験は、提案したフレームワークの有効性を検証する。
Simultaneous localization and mapping (SLAM) with implicit neural representations has received extensive attention due to the expressive representation power and the innovative paradigm of continual learning. However, deploying such a system within a dynamic environment has not been well-studied. Such challenges are intractable even for conventional algorithms since observations from different views with dynamic objects involved break the geometric and photometric consistency, whereas the consistency lays the foundation for joint optimizing the camera pose and the map parameters. In this paper, we best exploit the characteristics of continual learning and propose a novel SLAM framework for dynamic environments. While past efforts have been made to avoid catastrophic forgetting by exploiting an experience replay strategy, we view forgetting as a desirable characteristic. By adaptively controlling the replayed buffer, the ambiguity caused by moving objects can be easily alleviated through forgetting. We restrain the replay of the dynamic objects by introducing a continually-learned classifier for dynamic object identification. The iterative optimization of the neural map and the classifier notably improves the robustness of the SLAM system under a dynamic environment. Experiments on challenging datasets verify the effectiveness of the proposed framework. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# PICU患者モニタリングにおける咬合分割強化のためのハイブリッド深層学習
Hybrid Deep Learning-Based for Enhanced Occlusion Segmentation in PICU Patient Monitoring ( http://arxiv.org/abs/2407.13341v1 ) ライセンス: Link先を確認 | Mario Francisco Munoz, Hoang Vu Huy, Thanh-Dung Le, | (参考訳) 遠隔患者モニタリングは、デジタル技術とコンピュータビジョン(CV)を用いて、従来の侵襲的モニタリングに取って代わる、顕著な非侵襲的手法として登場した。
新生児部と小児部がこのアプローチを取り入れている一方で、小児集中治療室(PICU)は、正確な画像分析と解釈を妨げる閉塞の課題に直面している。
そこで本研究では,遠隔監視アプリケーションで発生する共通閉塞をPICU内で効果的に分離するハイブリッド手法を提案する。
私たちのアプローチは、限られたトレーニングデータシナリオのためのディープラーニングパイプラインの作成に重点を置いています。
まず、確立されたGoogle DeepLabV3+セグメンテーションモデルとトランスフォーマーベースのSegment Anything Model(SAM)を組み合わせて、オクルージョンセグメンテーションマスクの提案と改善のために考案された。
次に、Microsoft Kinectカメラで現実世界のPICU設定から取得した小さなデータセットを使用してパイプラインをトレーニングし、検証し、インターセクション・オーバー・ユニオン(IoU)メトリックの85\%を達成する。
\textit{Results}: 定量的および定性的分析は, 提案手法の有効性を裏付けるものである。
提案手法は,92.5\%の精度,93.8\%のリコール,90.3\%の精度,92.0\%のF1スコアで総合的な分類性能が得られる。
その結果、提案手法は、ベースラインCNNベースのフレームワークと比較して平均2.75倍の性能向上率で、全ての指標の予測を一貫して改善する。
\textit{Conclusions}:本提案のハイブリッドアプローチは,PICU設定内における遠隔患者モニタリングにおける咬合のセグメンテーションを著しく向上させる。
この進歩は、より正確で信頼性の高い遠隔監視を確実にすることで、臨床実践における重要なニーズに対処し、小児患者のケアの質の向上に寄与する。
Remote patient monitoring has emerged as a prominent non-invasive method, using digital technologies and computer vision (CV) to replace traditional invasive monitoring. While neonatal and pediatric departments embrace this approach, Pediatric Intensive Care Units (PICUs) face the challenge of occlusions hindering accurate image analysis and interpretation. \textit{Objective}: In this study, we propose a hybrid approach to effectively segment common occlusions encountered in remote monitoring applications within PICUs. Our approach centers on creating a deep-learning pipeline for limited training data scenarios. \textit{Methods}: First, a combination of the well-established Google DeepLabV3+ segmentation model with the transformer-based Segment Anything Model (SAM) is devised for occlusion segmentation mask proposal and refinement. We then train and validate this pipeline using a small dataset acquired from real-world PICU settings with a Microsoft Kinect camera, achieving an Intersection-over-Union (IoU) metric of 85\%. \textit{Results}: Both quantitative and qualitative analyses underscore the effectiveness of our proposed method. The proposed framework yields an overall classification performance with 92.5\% accuracy, 93.8\% recall, 90.3\% precision, and 92.0\% F1-score. Consequently, the proposed method consistently improves the predictions across all metrics, with an average of 2.75\% gain in performance compared to the baseline CNN-based framework. \textit{Conclusions}: Our proposed hybrid approach significantly enhances the segmentation of occlusions in remote patient monitoring within PICU settings. This advancement contributes to improving the quality of care for pediatric patients, addressing a critical need in clinical practice by ensuring more accurate and reliable remote monitoring. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 3次元点雲からのニューラルサイン付き距離関数学習のためのインプリシットフィルタ
Implicit Filtering for Learning Neural Signed Distance Functions from 3D Point Clouds ( http://arxiv.org/abs/2407.13342v1 ) ライセンス: Link先を確認 | Shengtao Li, Ge Gao, Yudong Liu, Ming Gu, Yu-Shen Liu, | (参考訳) ニューラルサイン付き距離関数(SDF)は形状幾何学に適合する強力な能力を示している。
しかし、離散的無向点雲から連続符号付き距離場を推論することは依然として困難である。
ニューラルネットワークは通常、粗い表面で形状に適合し、形状の端や角といった細かい幾何学的詳細を省略する。
本稿では,高周波幾何の詳細を保存しながら,暗黙の場を滑らかにするための非線形暗黙フィルタを提案する。
我々の新規性は、符号付き距離場の勾配で隣接する入力点によって曲面(ゼロレベル集合)をフィルタリングできることにある。
入力された原点雲を勾配に沿って移動させることで、提案した暗黙のフィルタリングを非ゼロレベル集合に拡張し、異なるレベル集合間の約束の整合性を維持することができ、結果としてゼロレベル集合の規則化がより良くなる。
対象物および複雑なシーンポイント雲の表面再構成に関する総合的な実験を行い、数値的および視覚的比較により、広く使用されているベンチマークの下での最先端手法に対する改善を実証する。
Neural signed distance functions (SDFs) have shown powerful ability in fitting the shape geometry. However, inferring continuous signed distance fields from discrete unoriented point clouds still remains a challenge. The neural network typically fits the shape with a rough surface and omits fine-grained geometric details such as shape edges and corners. In this paper, we propose a novel non-linear implicit filter to smooth the implicit field while preserving high-frequency geometry details. Our novelty lies in that we can filter the surface (zero level set) by the neighbor input points with gradients of the signed distance field. By moving the input raw point clouds along the gradient, our proposed implicit filtering can be extended to non-zero level sets to keep the promise consistency between different level sets, which consequently results in a better regularization of the zero level set. We conduct comprehensive experiments in surface reconstruction from objects and complex scene point clouds, the numerical and visual comparisons demonstrate our improvements over the state-of-the-art methods under the widely used benchmarks. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 内在言語翻訳における学習ミスのプロンプト
Learning-From-Mistakes Prompting for Indigenous Language Translation ( http://arxiv.org/abs/2407.13343v1 ) ライセンス: Link先を確認 | You-Cheng Liao, Chen-Jui Yu, Chi-Yi Lin, He-Feng Yun, Yen-Hsiang Wang, Hsiao-Min Li, Yao-Chung Fan, | (参考訳) 本稿では,大規模な言語モデルを用いて,低リソースの言語翻訳を改善する手法を提案する。
本手法は,(1) 限られた並列翻訳例からなるデータストアの存在,(2) GPT-3.5 のような LLM 固有の機能,(3) 単語レベルの翻訳辞書の存在を前提としている。
我々は、LLMを極低リソース言語のためのユニバーサルトランスレータとして使用するような設定において、LLMや文脈内学習技術の可能性を生かしている。
提案手法は,LLMを言語コンパイラとして,選択した言語ペアの言語コンパイラとして活用することで,構文構造を内部化し,正確な翻訳を容易にすることを仮定する。
KNNPrompting with Retrieved Prompting Context, Chain-of-Thought Prompting and Learning From-Mistakes Prompting。
評価結果から,LLMはコーパスが限られていても,適切なプロンプトと組み合わせることで,極めて低リソースな言語を効果的に翻訳できることが示唆された。
Using large language models, this paper presents techniques to improve extremely low-resourced indigenous language translations. Our approaches are grounded in the use of (1) the presence of a datastore consisting of a limited number of parallel translation examples, (2) the inherent capabilities of LLMs like GPT-3.5, and (3) a word-level translation dictionary. We harness the potential of LLMs and in-context learning techniques in such a setting for using LLMs as universal translators for extremely low-resourced languages. Our methodology hinges on utilizing LLMs as language compilers for selected language pairs, hypothesizing that they could internalize syntactic structures to facilitate accurate translation. We introduce three techniques: KNNPrompting with Retrieved Prompting Context, Chain-of-Thought Prompting and Learningfrom-Mistakes Prompting, with the last method addressing past errors. The evaluation results suggest that, even with limited corpora, LLMs can effectively translate extremely low-resource languages when paired with proper prompting. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 多粒子エンタングルメントと多粒子エンタングルメント
Multipartite Entanglement versus Multiparticle Entanglement ( http://arxiv.org/abs/2407.13348v1 ) ライセンス: Link先を確認 | Marcin Wieśniak, | (参考訳) 絡み合いは、局所的な作用や古典的なコミュニケーションによって達成された以上の量子相関の存在として定義される。
一般的な状態におけるその存在を特定するために、例えば、分離可能な状態の分解の存在を確認することができる。
自然拡大(英: natural extension)とは、分解を二可分状態(後に二可分分解(英: biseparable decomposition, BD)と呼ぶ)に非公約と解釈した、真の多部分交絡(英: multipartite entanglement)である。
この貢献で、GMEの活性化を再考する。
生体生成物の混合状態に分解可能な状態のいくつかの例について論じる。
しかし、これらの状態の2つのコピーをマージした後、証人演算子とBDの非存在を証明した。
これは、GMEを別のリソースとして理解することに挑戦しているようです。
物理的文脈を慎重に検討する必要があることが判明した。
我々は、GMEフリー状態の複数コピーからのGMEの活性化には、必然的に操作の絡み合いが伴うことを強調する。
Entanglement is defined as presence of quantum correlations beyond those achieved by local action and classical communication. To identify its presence in a generic state, one can, for example, check for existence of a decomposition of separable states. A natural extension is a genuine multipartite entanglement (GME), understood as nonexistenence of a decomposition into biseparable states (later called biseparable decomposition, BD). In this contribution we revisit activation of GME. We discuss few examples of states, which are decomposable into a mixture of biproduct states. However, after merging two copies of these states, we certify nonexistence of BD with witness operators. This seems to challenge our understanding of GME as a separate resource. It turns out that it requires a careful consideration of the physical context. We stress that activation of GME from multiple copies of GME-free states necessarily involves entangling operations. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 双対エントロピーに基づく$S^{t}$および$T^{t}_q$-エントロピーエントロピーエンタングルメントの一般単項関係
General monogamy relations of the $S^{t}$ and $T^{t}_q$-entropy entanglement measures based on dual entropy ( http://arxiv.org/abs/2407.13350v1 ) ライセンス: Link先を確認 | Zhong-Xi Shen, Kang-Kang Yang, Zhi-Xiang Jin, Zhi-Xi Wang, Shao-Ming Fei, | (参考訳) 絡み合いのモノガミーは量子システムの基本的な性質である。
双対エントロピーに基づく2つの新しいエントロピー尺度、$S^{t}$-エントロピーエントロピーエントロピーと$T^{t}_q$-エントロピーエントロピーエントロピーエントロピー測度を用いて、マルチキュービット量子系における一般的なモノガミー関係を示す。
これらの新たなモノガミー不等式は既存のものよりも厳密であることを示す。
これらの一般的なモノガミー関係に基づき、通常のコンカレンスに基づくインジケータが機能しない場合においてもうまく機能することが示される$N$-qubit状態に対する多部エンタングルメントインジケータの集合を構築する。
結果を説明するために、詳細な例を挙げる。
Monogamy of entanglement is the fundamental property of quantum systems. By using two new entanglement measures based on dual entropy, the $S^{t}$-entropy entanglement and $T^{t}_q$-entropy entanglement measures, we present the general monogamy relations in multi-qubit quantum systems. We show that these newly derived monogamy inequalities are tighter than the existing ones. Based on these general monogamy relations, we construct the set of multipartite entanglement indicators for $N$-qubit states, which are shown to work well even for the cases that the usual concurrence-based indicators do not work. Detailed examples are presented to illustrate our results. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 集合可観測物の連続測定のための爆発的非平衡相転移と強対称性
Exploiting nonequilibrium phase transitions and strong symmetries for continuous measurement of collective observables ( http://arxiv.org/abs/2407.13352v1 ) ライセンス: Link先を確認 | Albert Cabot, Federico Carollo, Igor Lesanovsky, | (参考訳) 散逸多体量子力学は、保存量をもたらす強い対称性を特徴付けることができる。
ここでは、非平衡相転移を伴う強い対称性が、集合多体観測可能量を測定するためのプロトコルを考案する方法について論じる。
この概念を実証するために、成分が全角運動量を保存する散逸力学によって支配される集合スピン系を考える。
連続的に観測することで、スピンの連続的な射影測定や再初期化を必要とせずに、全角運動量の値を時間積分放出信号から直接推定できることが示される。
これは量子トモグラフィー、量子計算、量子計量学に応用された、量子ビットアンサンブルの集合特性の測定への道筋を提供するかもしれない。
Dissipative many-body quantum dynamics can feature strong symmetries which give rise to conserved quantities. We discuss here how a strong symmetry in conjunction with a nonequilibrium phase transition allows to devise a protocol for measuring collective many-body observables. To demonstrate this idea we consider a collective spin system whose constituents are governed by a dissipative dynamics that conserves the total angular momentum. We show that by continuously monitoring the system output the value of the total angular momentum can be inferred directly from the time-integrated emission signal, without the need of repeated projective measurements or reinitializations of the spins. This may offer a route towards the measurement of collective properties in qubit ensembles, with applications in quantum tomography, quantum computation and quantum metrology. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# EarlyMalDetect: API呼び出しのシーケンスに基づいた早期Windowsマルウェア検出のための新しいアプローチ
EarlyMalDetect: A Novel Approach for Early Windows Malware Detection Based on Sequences of API Calls ( http://arxiv.org/abs/2407.13355v1 ) ライセンス: Link先を確認 | Pascal Maniriho, Abdun Naser Mahmood, Mohammad Jabed Morshed Chowdhury, | (参考訳) 本研究では,API呼び出しのシーケンスに基づく早期Windowsマルウェア検出手法であるEarlyMalDetectを提案する。
本手法では, マルウェア実行初期における悪意行動パターンを正確に識別し, 検出するために, 生成トランスフォーマモデルと注意誘導型深部リカレントニューラルネットワークを利用する。
実行中に呼び出されたAPI呼び出しのシーケンスを分析することで、実行中に呼び出されたいくつかのショット(初期API呼び出し)に基づいて、動作を予測することによって、実行ファイル(プログラム)をマルウェアまたは良性として分類することができる。
EarlyMalDetectは、悪意のあるペイロードを実行してシステムに感染する前に、マルウェアプログラムがターゲットシステムで何が実行されるかを予測し、明らかにすることができる。
具体的には、EarlyMalDetectは、マルウェアや良質な実行プログラムで使用される次のAPI呼び出し関数を予測する可能性を持つAPI呼び出しに基づいた、微調整されたトランスフォーマーモデルに依存している。
提案手法はマルウェアの挙動を予測するのに極めて有効であり,Windowsシステムにおけるゼロデイ脅威に対する予防的対策として有効であることを示す。
In this work, we propose EarlyMalDetect, a novel approach for early Windows malware detection based on sequences of API calls. Our approach leverages generative transformer models and attention-guided deep recurrent neural networks to accurately identify and detect patterns of malicious behaviors in the early stage of malware execution. By analyzing the sequences of API calls invoked during execution, the proposed approach can classify executable files (programs) as malware or benign by predicting their behaviors based on a few shots (initial API calls) invoked during execution. EarlyMalDetect can predict and reveal what a malware program is going to perform on the target system before it occurs, which can help to stop it before executing its malicious payload and infecting the system. Specifically, EarlyMalDetect relies on a fine-tuned transformer model based on API calls which has the potential to predict the next API call functions to be used by a malware or benign executable program. Our extensive experimental evaluations show that the proposed approach is highly effective in predicting malware behaviors and can be used as a preventive measure against zero-day threats in Windows systems. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 著者・文書表現におけるスタイルの捉え方
Capturing Style in Author and Document Representation ( http://arxiv.org/abs/2407.13358v1 ) ライセンス: Link先を確認 | Enzo Terreau, Antoine Gourru, Julien Velcin, | (参考訳) 幅広い自然言語処理(NLP)モデルが、単語や文書の連続的および低次元表現を統合している。
驚くべきことに、著者のための表現学習を研究するモデルはほとんどない。
これらの表現は、著者の識別や分類、レコメンデーションシステムなど、多くのNLPタスクに使用することができる。
現存する作品の強い制限は、明らかに書風を捉えておらず、文学データにはほとんど適用できないことである。
そこで我々は,文体制約のある著者と文書の埋め込みを学習する,変分情報ボトルネック(VIB)に基づく新しいアーキテクチャを提案する。
我々のモデルは、事前訓練された文書エンコーダを微調整する。
書字スタイルインジケータに関して,表現軸を解釈可能にした事前定義されたスタイル的特徴を加えることで,書字スタイルの検出を刺激する。
我々は,Gutenberg Project,Blog Authorship Corpus,IMDb62から抽出した文芸コーパスを3つのデータセットで評価した。
A wide range of Deep Natural Language Processing (NLP) models integrates continuous and low dimensional representations of words and documents. Surprisingly, very few models study representation learning for authors. These representations can be used for many NLP tasks, such as author identification and classification, or in recommendation systems. A strong limitation of existing works is that they do not explicitly capture writing style, making them hardly applicable to literary data. We therefore propose a new architecture based on Variational Information Bottleneck (VIB) that learns embeddings for both authors and documents with a stylistic constraint. Our model fine-tunes a pre-trained document encoder. We stimulate the detection of writing style by adding predefined stylistic features making the representation axis interpretable with respect to writing style indicators. We evaluate our method on three datasets: a literary corpus extracted from the Gutenberg Project, the Blog Authorship Corpus and IMDb62, for which we show that it matches or outperforms strong/recent baselines in authorship attribution while capturing much more accurately the authors stylistic aspects. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 幾何学的自己蒸留によるオープン語彙3次元シーン理解
Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation ( http://arxiv.org/abs/2407.13362v1 ) ライセンス: Link先を確認 | Pengfei Wang, Yuxi Wang, Shuai Li, Zhaoxiang Zhang, Zhen Lei, Lei Zhang, | (参考訳) 大規模3次元テキストペアリングデータの不足は,オープンな3次元シーン理解において大きな課題となるため,インターネット規模の2次元データを活用し,知識蒸留を通じてオープンな3次元モデルに移植することが一般的である。
しかし,既存の蒸留法に基づく3次元シーン理解手法は,幾何学的先行点探索や3次元データによる固有表現的優位性を無視して,2次元モデルの表現能力に依存している。
本稿では,2次元事前学習モデルから優れた3次元表現を学習するための,幾何学的自己蒸留法(GGSD)を提案する。
具体的には,まず2次元モデルから知識を抽出するための幾何学誘導蒸留モジュールを設計し,次に,2次元モデル固有のノイズを緩和し,表現学習プロセスを強化するために3次元幾何先行手法を利用する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
これにより、自己蒸留による3次元データの表現優位性をさらに活用する動機付けとなる。
その結果、GGSD手法は既存のオープンな3Dシーン理解手法よりも、屋内および屋外のベンチマークデータセットで実証したように、大きなマージンで優れていることがわかった。
The scarcity of large-scale 3D-text paired data poses a great challenge on open vocabulary 3D scene understanding, and hence it is popular to leverage internet-scale 2D data and transfer their open vocabulary capabilities to 3D models through knowledge distillation. However, the existing distillation-based 3D scene understanding approaches rely on the representation capacity of 2D models, disregarding the exploration of geometric priors and inherent representational advantages offered by 3D data. In this paper, we propose an effective approach, namely Geometry Guided Self-Distillation (GGSD), to learn superior 3D representations from 2D pre-trained models. Specifically, we first design a geometry guided distillation module to distill knowledge from 2D models, and then leverage the 3D geometric priors to alleviate the inherent noise in 2D models and enhance the representation learning process. Due to the advantages of 3D representation, the performance of the distilled 3D student model can significantly surpass that of the 2D teacher model. This motivates us to further leverage the representation advantages of 3D data through self-distillation. As a result, our proposed GGSD approach outperforms the existing open vocabulary 3D scene understanding methods by a large margin, as demonstrated by our experiments on both indoor and outdoor benchmark datasets. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# Webからの学習: セマンティックセグメンテーションのための言語駆動型インクリメンタルラーニング
Learning from the Web: Language Drives Weakly-Supervised Incremental Learning for Semantic Segmentation ( http://arxiv.org/abs/2407.13363v1 ) ライセンス: Link先を確認 | Chang Liu, Giulia Rizzoli, Pietro Zanuttigh, Fu Li, Yi Niu, | (参考訳) セマンティックセグメンテーション(WILSS)アプローチに対する現在の弱い教師付きインクリメンタルラーニングでは、ピクセルレベルのアノテーションをイメージレベルのラベルに置き換えることしか検討されていない。
本稿では,新しいクラスを学習するためにも,広く利用可能なWebイメージを考えることができる,と論じる。
まず、Fourier-based domain discriminatorを用いて、潜伏空間で以前見られた例に類似したWebイメージを選択する方法を提案する。
そこで,従来学習した授業を保存するために,効果的なキャプション駆動型リハビリテーション戦略を提案する。
我々の知る限り、これは新しい概念の学習とWILSSで既に学んだ概念の保存の両方のために、Webイメージにのみ依存する最初の作業である。
実験結果から,提案手法は段階的なステップで手動で選択したアノテートデータを用いることなく,最先端の性能に到達可能であることが示された。
Current weakly-supervised incremental learning for semantic segmentation (WILSS) approaches only consider replacing pixel-level annotations with image-level labels, while the training images are still from well-designed datasets. In this work, we argue that widely available web images can also be considered for the learning of new classes. To achieve this, firstly we introduce a strategy to select web images which are similar to previously seen examples in the latent space using a Fourier-based domain discriminator. Then, an effective caption-driven reharsal strategy is proposed to preserve previously learnt classes. To our knowledge, this is the first work to rely solely on web images for both the learning of new concepts and the preservation of the already learned ones in WILSS. Experimental results show that the proposed approach can reach state-of-the-art performances without using manually selected and annotated data in the incremental steps. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# マルコフ決定過程における幾何学的アクティブ探索--抽象の利点
Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction ( http://arxiv.org/abs/2407.13364v1 ) ライセンス: Link先を確認 | Riccardo De Santi, Federico Arangath Joseph, Noah Liniger, Mirco Mutti, Andreas Krause, | (参考訳) 科学者はReinforcement Learning (RL)アルゴリズムを使って、動的システムの状態空間上での実験を設計できるだろうか?
有限系とマルコフ系の場合、Active Exploration (AE) と呼ばれる領域は、実験設計の最適化問題を緩和して、より広い報酬の概念を認めるRLの一般化であるConvex RL(英語版)へと導く。
残念ながら、このフレームワークは現在拡張性がなく、AEの可能性は科学的な発見に典型的な実験空間の広大さによって妨げられている。
しかしながら、これらの空間には自然測地(例えば分子設計における置換不変性)が与えられ、エージェントはAEの統計的および計算的効率を改善することができる。
これを実現するために、AE と MDP の準同型をブリッジし、抽象を通して既知の幾何学的構造を利用する方法を提供する。
この目的に向けて、我々は MDP 準同型を Convex RL に拡張し、我々の知る限りでは、サンプル効率に関する準同型を通して抽象の利益を公式に捉える最初の分析である。
最終的に、科学的発見における問題によって動機付けられた環境において、理論的、実験的に解析するGeometric Active Exploration (GAE)アルゴリズムを提案する。
How can a scientist use a Reinforcement Learning (RL) algorithm to design experiments over a dynamical system's state space? In the case of finite and Markovian systems, an area called Active Exploration (AE) relaxes the optimization problem of experiments design into Convex RL, a generalization of RL admitting a wider notion of reward. Unfortunately, this framework is currently not scalable and the potential of AE is hindered by the vastness of experiment spaces typical of scientific discovery applications. However, these spaces are often endowed with natural geometries, e.g., permutation invariance in molecular design, that an agent could leverage to improve the statistical and computational efficiency of AE. To achieve this, we bridge AE and MDP homomorphisms, which offer a way to exploit known geometric structures via abstraction. Towards this goal, we make two fundamental contributions: we extend MDP homomorphisms formalism to Convex RL, and we present, to the best of our knowledge, the first analysis that formally captures the benefit of abstraction via homomorphisms on sample efficiency. Ultimately, we propose the Geometric Active Exploration (GAE) algorithm, which we analyse theoretically and experimentally in environments motivated by problems in scientific discovery. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# ジェネレーティブAIと生存リスク問題
Generative AI and the problem of existential risk ( http://arxiv.org/abs/2407.13365v1 ) ライセンス: Link先を確認 | Lynette Webb, Daniel Schönberger, | (参考訳) ChatGPTのローンチ以来、ジェネレーティブAIは、AIの現実的リスクに対する懸念の焦点となっている。
AIの研究と哲学におけるニッチな話題として、AIの安全性と存在的リスクが、政策立案者や主要な基礎モデル開発者の間で主流の議論になってきた。
この章は、生成的AIに関連する存在的リスクの恐怖の根底にある重要な懸念を強調し、政府や業界がそれらに対処するために取り組んでいる重要な行動にスポットライトを当てることによって、議論を軽視することを目的としている。
Ever since the launch of ChatGPT, Generative AI has been a focal point for concerns about AI's perceived existential risk. Once a niche topic in AI research and philosophy, AI safety and existential risk has now entered mainstream debate among policy makers and leading foundation models developers, much to the chagrin of those who see it as a distraction from addressing more pressing nearer-term harms. This chapter aims to demystify the debate by highlighting the key worries that underpin existential risk fears in relation to generative AI, and spotlighting the key actions that governments and industry are taking thus far to helping address them. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 効率的な誤り訂正を含む知識誘導型視覚言語モデルによるアクシデンス知覚
Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction ( http://arxiv.org/abs/2407.13368v1 ) ライセンス: Link先を確認 | Gertjan Burghouts, Marianne Schaaphok, Michael van Bekkum, Wouter Meijer, Fieke Hillerström, Jelle van Mil, | (参考訳) モバイルロボットプラットフォームは、オープンワールド環境におけるオブジェクトの把握と操作に関わる活動に、ますます取り組まれていくだろう。
Affordance Understandingは、ロボットに目標を実現し、タスクを実行するための手段を提供する。
動作可能な提案を得るためには、ロボットはオブジェクト間の微妙な違いを区別する必要がある。
本論文では,オープンワールド環境におけるロボットの余裕感を向上させる。
提案手法は,(1)正確で行動可能な手頃な価格表現,(2)基礎となる視覚言語モデル(VLM)とこの知識ベースを結びつけること,(3)VLMの出力の補正に人間-イン・ザ・ループを適用すること,の3つである。
空白表現,画像検出,ループ内の人間との混在は,ロボットが目標を達成するために対象を探索する上で有効である。
私たちはこれを、さまざまなドアと、それを開くさまざまな方法を見つけるシナリオで実証しました。
Mobile robot platforms will increasingly be tasked with activities that involve grasping and manipulating objects in open world environments. Affordance understanding provides a robot with means to realise its goals and execute its tasks, e.g. to achieve autonomous navigation in unknown buildings where it has to find doors and ways to open these. In order to get actionable suggestions, robots need to be able to distinguish subtle differences between objects, as they may result in different action sequences: doorknobs require grasp and twist, while handlebars require grasp and push. In this paper, we improve affordance perception for a robot in an open-world setting. Our contribution is threefold: (1) We provide an affordance representation with precise, actionable affordances; (2) We connect this knowledge base to a foundational vision-language models (VLM) and prompt the VLM for a wider variety of new and unseen objects; (3) We apply a human-in-the-loop for corrections on the output of the VLM. The mix of affordance representation, image detection and a human-in-the-loop is effective for a robot to search for objects to achieve its goals. We have demonstrated this in a scenario of finding various doors and the many different ways to open them. | 翻訳日:2024-07-19 15:50:32 公開日:2024-07-18 |
# 効率的な自動劣化適応による画像復元
Any Image Restoration with Efficient Automatic Degradation Adaptation ( http://arxiv.org/abs/2407.13372v1 ) ライセンス: Link先を確認 | Bin Ren, Eduard Zamfir, Yawei Li, Zongwei Wu, Danda Pani Paudel, Radu Timofte, Nicu Sebe, Luc Van Gool, | (参考訳) モバイルデバイスの出現に伴い、より優れた知覚品質のために、劣化したイメージを復元する効率的なモデルへの需要が高まっている。
しかし、既存のモデルは、分解ごとに調整された特定の学習モジュールを必要とすることが多く、複雑なアーキテクチャと高い計算コストが生じる。
本稿では, 従来の研究と異なり, 様々な劣化の相似性を生かし, 効率的かつ包括的修復を図り, 共同埋設を実現する統一的な手法を提案する。
具体的には、まず各入力のサブラテント空間を掘り下げて、キーコンポーネントを分析し、それらのコントリビューションをゲート方式で再重み付けする。
内在的認識は、X字型スキームにおける文脈的注意とさらに統合され、局所的な言語間相互作用を最大化する。
我々のネットワークは、トレーニング可能なパラメータで約82%、FLOPで約85%のモデル複雑さを減らしながら、新しいSOTAレコードを設定する。
私たちのコードは、https://github.com/Amazingren/AnyIR.comで公開されます。
With the emergence of mobile devices, there is a growing demand for an efficient model to restore any degraded image for better perceptual quality. However, existing models often require specific learning modules tailored for each degradation, resulting in complex architectures and high computation costs. Different from previous work, in this paper, we propose a unified manner to achieve joint embedding by leveraging the inherent similarities across various degradations for efficient and comprehensive restoration. Specifically, we first dig into the sub-latent space of each input to analyze the key components and reweight their contributions in a gated manner. The intrinsic awareness is further integrated with contextualized attention in an X-shaped scheme, maximizing local-global intertwining. Extensive comparison on benchmarking all-in-one restoration setting validates our efficiency and effectiveness, i.e., our network sets new SOTA records while reducing model complexity by approximately -82% in trainable parameters and -85\% in FLOPs. Our code will be made publicly available at:https://github.com/Amazingren/AnyIR. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# 音声処理のための線形複雑自己教師付き学習
Linear-Complexity Self-Supervised Learning for Speech Processing ( http://arxiv.org/abs/2407.13377v1 ) ライセンス: Link先を確認 | Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya, | (参考訳) 自己教師付き学習(SSL)モデルは、通常、数十のハイエンドGPUで数週間の事前トレーニングを必要とする。
これらのモデルは通常、MHSA(Multi-headed self-attention)コンテキストエンコーダを持つ。
しかし、MHSAは入力長の2次時間と空間を要し、事前学習のコストが高い。
MHSAの線形複雑度代替案が提案されている。
例えば、教師付きトレーニングでは、SlideMixingモデルは複数の音声処理タスクでMHSAを初めて上回ります。
しかし、これらの安価な代替手段はまだSSLについては検討されていない。
本稿では,SSLのための線形複雑コンテキストエンコーダを初めて検討する。
MP3Sベンチマークの下流タスクのより良いあるいは同等のパフォーマンスにより、SlideMixingは、wav2vec 2.0モデルの事前トレーニング時間とピークVRAMをそれぞれ18%、ピークVRAMを23%削減し、145Mのwav2vec 2.0モデルの事前トレーニングは4Tesla A100 GPUで1週間以内に完了した。
コードはhttps://github.com/SamsungLabs/SummaryMixing.comで入手できる。
Self-supervised learning (SSL) models usually require weeks of pre-training with dozens of high-end GPUs. These models typically have a multi-headed self-attention (MHSA) context encoder. However, MHSA takes quadratic time and space in the input length, contributing to the high pre-training cost. Linear-complexity alternatives to MHSA have been proposed. For instance, in supervised training, the SummaryMixing model is the first to outperform MHSA across multiple speech processing tasks. However, these cheaper alternatives have not been explored for SSL yet. This paper studies a linear-complexity context encoder for SSL for the first time. With better or equivalent performance for the downstream tasks of the MP3S benchmark, SummaryMixing reduces the pre-training time and peak VRAM of wav2vec 2.0 model by 18% and by 23%, respectively, leading to the pre-training of a 155M wav2vec 2.0 model finished within one week with 4 Tesla A100 GPUs. Code is available at https://github.com/SamsungLabs/SummaryMixing. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# 地上の太陽画像から雲の影を除去する
Removing cloud shadows from ground-based solar imagery ( http://arxiv.org/abs/2407.13379v1 ) ライセンス: Link先を確認 | Amal Chaoui, Jay Paul Morgan, Adeline Paiement, Jean Aboudarham, | (参考訳) 宇宙気象の研究と予測は、太陽の大気の構造を示す太陽画像の分析を必要とする。
地球の地上から撮影された画像は、太陽構造の検出を妨げる地上の雲によって汚染される可能性がある。
本稿では,U-Netアーキテクチャに基づくクラウドシャドウの除去手法を提案し,古典的監視と条件付きGANを比較した。
我々は,実画像と合成雲の新しいデータセットを用いて,2つの異なる画像モダリティについて評価を行った。
画像品質指標(RMSE, PSNR, SSIM, FID)を用いて定量的評価を行った。
クラウドの種類やテクスチャによって,従来のクラウド除去技術と疎結合なコーディングベースラインに関して,改良された結果を示す。
The study and prediction of space weather entails the analysis of solar images showing structures of the Sun's atmosphere. When imaged from the Earth's ground, images may be polluted by terrestrial clouds which hinder the detection of solar structures. We propose a new method to remove cloud shadows, based on a U-Net architecture, and compare classical supervision with conditional GAN. We evaluate our method on two different imaging modalities, using both real images and a new dataset of synthetic clouds. Quantitative assessments are obtained through image quality indices (RMSE, PSNR, SSIM, and FID). We demonstrate improved results with regards to the traditional cloud removal technique and a sparse coding baseline, on different cloud types and textures. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# ゼロショットシンボルのニューロシンボリックプログラムによるオープンワールドビジュアル推論
Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols ( http://arxiv.org/abs/2407.13382v1 ) ライセンス: Link先を確認 | Gertjan Burghouts, Fieke Hillerström, Erwin Walraven, Michael van Bekkum, Frank Ruis, Joris Sijs, Jelle van Mil, Judith Dijk, | (参考訳) 画像中の複数の物体の空間的配置を求める問題,例えば移動体検査ロボットは,床に捨てられた道具を位置決めする作業を行う。
我々は,一階述語論理によるオブジェクトの空間的構成を関係や属性の観点から定義する。
ニューロシンボリックプログラムは、論理式と与えられた画像に対する確率的オブジェクトの提案とを一致させる。
この研究は、ニューロ・シンボリック・プログラミング(推論)と言語ビジョン・モデル(学習)を組み合わせて、オープン・ワールド・セッティングにおける画像内の物体の空間的構成を見つける最初のものである。
床に捨てられた道具を見つけ, パイプを漏らすことにより, 有効性を示す。
その結果,ほとんどの予測誤差は言語ビジョンモデルにおけるバイアスに起因することがわかった。
We consider the problem of finding spatial configurations of multiple objects in images, e.g., a mobile inspection robot is tasked to localize abandoned tools on the floor. We define the spatial configuration of objects by first-order logic in terms of relations and attributes. A neuro-symbolic program matches the logic formulas to probabilistic object proposals for the given image, provided by language-vision models by querying them for the symbols. This work is the first to combine neuro-symbolic programming (reasoning) and language-vision models (learning) to find spatial configurations of objects in images in an open world setting. We show the effectiveness by finding abandoned tools on floors and leaking pipes. We find that most prediction errors are due to biases in the language-vision model. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# NeuroPlug: 空間充填曲線を用いたNPUのサイドチャネルリーク
NeuroPlug: Plugging Side-Channel Leaks in NPUs using Space Filling Curves ( http://arxiv.org/abs/2407.13383v1 ) ライセンス: Link先を確認 | Nivedita Shrivastava, Smruti R. Sarangi, | (参考訳) 生データを取得し、複雑なモデルを訓練するための時間とリソースの相当な投資を考えれば、サイドチャネル攻撃からディープニューラルネットワーク(DNN)を保護することは、今日の重要な問題である。
全ての公表された対策(CM)は、信号XにノイズNを付加する(リークされるネットメモリトラフィックなどの関心度パラメータ)。
敵はX+Nを観測し,対象とする測定値,統計分析,様々な種類の推定側情報を用いて,このノイズを除去することが容易であることを示す。
我々はこれらの攻撃手法に免疫を持つ新しいCM NeuroPlugを提案する。
特徴写像圧縮から自然に生じる乗法変数Cを導入する。
提案手法は, 計算を1次元空間充填曲線にマッピングし, タイリング, 圧縮, ビンニングによる難読化操作を連続的に行う。
続いて、Mellin変換に基づく理論的枠組みを提案し、それによって探索空間のサイズを、付加する雑音の関数として正確に定量化し、敵が持つ側情報として正確に定量化する。
NeuroPlugが提供するセキュリティ保証は、統計および情報理論に基づくテストのバッテリーを使用して検証される。
また、最も近い競合する作業と比較して、15%の性能向上を示す。
Securing deep neural networks (DNNs) from side-channel attacks is an important problem as of today, given the substantial investment of time and resources in acquiring the raw data and training complex models. All published countermeasures (CMs) add noise N to a signal X (parameter of interest such as the net memory traffic that is leaked). The adversary observes X+N ; we shall show that it is easy to filter this noise out using targeted measurements, statistical analyses and different kinds of reasonably-assumed side information. We present a novel CM NeuroPlug that is immune to these attack methodologies mainly because we use a different formulation CX + N . We introduce a multiplicative variable C that naturally arises from feature map compression; it plays a key role in obfuscating the parameters of interest. Our approach is based on mapping all the computations to a 1-D space filling curve and then performing a sequence of tiling, compression and binning-based obfuscation operations. We follow up with proposing a theoretical framework based on Mellin transforms that allows us to accurately quantify the size of the search space as a function of the noise we add and the side information that an adversary possesses. The security guarantees provided by NeuroPlug are validated using a battery of statistical and information theory-based tests. We also demonstrate a substantial performance enhancement of 15% compared to the closest competing work. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# TESLA対応GNSS受信機の時間同期
Time Synchronization of TESLA-enabled GNSS Receivers ( http://arxiv.org/abs/2407.13386v1 ) ライセンス: Link先を確認 | Jason Anderson, Sherman Lo, Todd Walter, | (参考訳) 認証位置決めのためのTESLA対応のGNSSはユビキティに達するため、受信機はオンボード、GNSS非依存クロックと注意深く構築された時間同期アルゴリズムを使用して真正性を主張する必要がある。
この作業は、ブロードキャストのみのGNSSコンテキストに必要なチェックと同期プロトコルを提供する。
遅延可能な敵の下で,各アルゴリズムのセキュリティの証明を行う。
このアルゴリズムは、GNSS受信機がオンボードのGNSS非依存クロックを使用することで、正しい時刻にメッセージが到着したかどうかを判定し、オンボードのGNSS非依存クロックが安全かどうかを判断し、予測されたクロックドリフトのためにいつクロックが安全でなくなるのかを判断し、オンボードのGNSS非依存クロックを同期させる。
各アルゴリズムは、相手がプロトコル内で遅延を誘導しても安全である。
さらに、異なる認証ケイデンスの2つの同時TESLAインスタンスを使用するGNSS認証方式の意義についても論じる。
レシーバー実装者や標準作成者にとって、この作業はセキュリティを主張するために必要な実装アルゴリズムを提供し、これらのメソッドが必要な理由に関する包括的なガイドを提供する。
As TESLA-enabled GNSS for authenticated positioning reaches ubiquity, receivers must use an onboard, GNSS-independent clock and carefully constructed time synchronization algorithms to assert the authenticity afforded. This work provides the necessary checks and synchronization protocols needed in the broadcast-only GNSS context. We provide proof of security for each of our algorithms under a delay-capable adversary. The algorithms included herein enable a GNSS receiver to use its onboard, GNSS-independent clock to determine whether a message arrived at the correct time, to determine whether its onboard, GNSS-independent clock is safe to use and when the clock will no longer be safe in the future due to predicted clock drift, and to resynchronize its onboard, GNSS-independent clock. Each algorithm is safe to use even when an adversary induces delays within the protocol. Moreover, we discuss the implications of GNSS authentication schemes that use two simultaneous TESLA instances of different authentication cadences. To a receiver implementer or standards author, this work provides the necessary implementation algorithms to assert security and provides a comprehensive guide on why these methods are required. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# GeometrySticker: 再カラー化ニューラルラディアンスフィールドの所有者権主張
GeometrySticker: Enabling Ownership Claim of Recolorized Neural Radiance Fields ( http://arxiv.org/abs/2407.13390v1 ) ライセンス: Link先を確認 | Xiufeng Huang, Ka Chun Cheung, Simon See, Renjie Wan, | (参考訳) ニューラルレイディアンスフィールド(NeRF)の再色化の顕著な進歩は、NeRFの色特性を変更する過程を単純化した。
しかし、NeRFがデジタル資産として機能する可能性を秘めているため、悪意のあるユーザーがNeRFモデルの色を変えて、その再カラー化バージョンを自称するのではないかと懸念されている。
このような所有権侵害から保護するためには、オリジナルのNeRFクリエーターが再彩色されたNeRFの権利を確立することが不可欠である。
CopyRNeRFのようなアプローチは、著作権保護のためのデジタルシグネチャとしてNeRFモデルにバイナリメッセージを埋め込むために導入されたが、リカラー化のプロセスはこれらのバイナリメッセージを削除できる。
そこで,本稿では,ステッカーの応用に類似した,放射場の幾何学的成分にバイナリメッセージをシームレスに統合するGeometryStickerを提案する。
GeometryStickerはバイナリメッセージをNeRFモデルに埋め込むことができ、再色化に対するこれらのメッセージの有効性を保存することができる。
我々の総合的研究は、GeometryStickerが一般的なNeRFアーキテクチャに適応できることを示し、様々な歪みに対する可換性を維持している。
プロジェクトページ: https://kevinhuangxf.github.io/GeometrySticker/。
Remarkable advancements in the recolorization of Neural Radiance Fields (NeRF) have simplified the process of modifying NeRF's color attributes. Yet, with the potential of NeRF to serve as shareable digital assets, there's a concern that malicious users might alter the color of NeRF models and falsely claim the recolorized version as their own. To safeguard against such breaches of ownership, enabling original NeRF creators to establish rights over recolorized NeRF is crucial. While approaches like CopyRNeRF have been introduced to embed binary messages into NeRF models as digital signatures for copyright protection, the process of recolorization can remove these binary messages. In our paper, we present GeometrySticker, a method for seamlessly integrating binary messages into the geometry components of radiance fields, akin to applying a sticker. GeometrySticker can embed binary messages into NeRF models while preserving the effectiveness of these messages against recolorization. Our comprehensive studies demonstrate that GeometrySticker is adaptable to prevalent NeRF architectures and maintains a commendable level of robustness against various distortions. Project page: https://kevinhuangxf.github.io/GeometrySticker/. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# 地層トラバーサビリティのための簡易セマンティックセマンティックセグメンテーションによる軽量不確かさの定量化
Lightweight Uncertainty Quantification with Simplex Semantic Segmentation for Terrain Traversability ( http://arxiv.org/abs/2407.13392v1 ) ライセンス: Link先を確認 | Judith Dijk, Gertjan Burghouts, Kapil D. Katyal, Bryanna Y. Yeh, Craig T. Knuth, Ella Fokkinga, Tejaswi Kasarla, Pascal Mettes, | (参考訳) ロボットのナビゲーションにおいて、画像セグメンテーションは地形の移動可能性を決定する重要な要素である。
安全かつ効率的なナビゲーションのためには、予測されたセグメントの不確実性を評価することが重要である。
現在の不確実性推定手法は、特定のモデルアーキテクチャの選択に限られており、トレーニング時間や推論のための大きなメモリを必要とする(アンサンブル)、複雑なモデルアーキテクチャ(エネルギーベース、双曲型、マスキング)。
本稿では,アーキテクチャによらず,任意の事前訓練された画像分割モデルに接続可能な,シンプルな軽量モジュールを提案する。
我々のモジュールは、それぞれのプロトタイプベクトルによるセグメント化クラスを最大限に分離することに基づいている。
これは、分布外セグメントがプロトタイプベクトル間で投影される確率を最適化する。
分類ラベル内の不確かさ値は、最も近いプロトタイプまでの距離から得られる。
地形分割におけるモジュールの有効性を実証する。
For navigation of robots, image segmentation is an important component to determining a terrain's traversability. For safe and efficient navigation, it is key to assess the uncertainty of the predicted segments. Current uncertainty estimation methods are limited to a specific choice of model architecture, are costly in terms of training time, require large memory for inference (ensembles), or involve complex model architectures (energy-based, hyperbolic, masking). In this paper, we propose a simple, light-weight module that can be connected to any pretrained image segmentation model, regardless of its architecture, with marginal additional computation cost because it reuses the model's backbone. Our module is based on maximum separation of the segmentation classes by respective prototype vectors. This optimizes the probability that out-of-distribution segments are projected in between the prototype vectors. The uncertainty value in the classification label is obtained from the distance to the nearest prototype. We demonstrate the effectiveness of our module for terrain segmentation. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# PICASSO:Rendering Self-SupervisionによるCADスケッチのパラメトリック推論のためのフィードフォワードフレームワーク
PICASSO: A Feed-Forward Framework for Parametric Inference of CAD Sketches via Rendering Self-Supervision ( http://arxiv.org/abs/2407.13394v1 ) ライセンス: Link先を確認 | Ahmet Serdar Karadeniz, Dimitrios Mallis, Nesryne Mejri, Kseniya Cherenkova, Anis Kacem, Djamila Aouada, | (参考訳) PICASSOは,手書きあるいは精密なスケッチ画像からのCADスケッチパラメータ化のための新しいフレームワークである。
CADスケッチを描画すると、提案フレームワークはCADソフトウェアにインポート可能なパラメトリックプリミティブに変換する。
既存の手法と比較して、PICASSOはパラメータレベルのアノテーションが不足している場合や利用できない場合であっても、精密または手書きのスケッチ画像からパラメトリックCADスケッチを学習することができる。
これはCADパラメータ化ネットワークを事前学習するための学習キューとしてスケッチの幾何学的特性を活用することで達成される。
具体的には、(1)CADスケッチ画像から一連のパラメトリックプリミティブを予測するSketch Parameterization Network(SPN)と、(2)CADスケッチを異なる方法で描画するSketch Rendering Network(SRN)の2つの主要コンポーネントから構成される。
SRNは画像と画像の損失の計算を容易にし、SPNの事前訓練に利用できるので、手書きスケッチのパラメータ化のためのゼロと少数ショットの学習シナリオを可能にする。
広く使われているSketchGraphsデータセットの大規模な評価は、提案フレームワークの有効性を検証する。
We propose PICASSO, a novel framework CAD sketch parameterization from hand-drawn or precise sketch images via rendering self-supervision. Given a drawing of a CAD sketch, the proposed framework turns it into parametric primitives that can be imported into CAD software. Compared to existing methods, PICASSO enables the learning of parametric CAD sketches from either precise or hand-drawn sketch images, even in cases where annotations at the parameter level are scarce or unavailable. This is achieved by leveraging the geometric characteristics of sketches as a learning cue to pre-train a CAD parameterization network. Specifically, PICASSO comprises two primary components: (1) a Sketch Parameterization Network (SPN) that predicts a series of parametric primitives from CAD sketch images, and (2) a Sketch Rendering Network (SRN) that renders parametric CAD sketches in a differentiable manner. SRN facilitates the computation of a image-to-image loss, which can be utilized to pre-train SPN, thereby enabling zero- and few-shot learning scenarios for the parameterization of hand-drawn sketches. Extensive evaluation on the widely used SketchGraphs dataset validates the effectiveness of the proposed framework. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# KL規則化のミソスを補正する:Chi-squared Preference Optimizationによる過パラメータ化を伴わない直アライメント
Correcting the Mythos of KL-Regularization: Direct Alignment without Overparameterization via Chi-squared Preference Optimization ( http://arxiv.org/abs/2407.13399v1 ) ライセンス: Link先を確認 | Audrey Huang, Wenhao Zhan, Tengyang Xie, Jason D. Lee, Wen Sun, Akshay Krishnamurthy, Dylan J. Foster, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)のような言語モデルアライメント手法は、言語モデル機能に顕著な進歩をもたらしたが、既存の手法は、アライメントプロセスの過程で言語モデルプレートの質が低下したり劣化したりする過最適化と呼ばれる現象によって、広く観察されている現象によって制限されている。
過度な最適化は、しばしば不正確な報酬モデルによる過度な適合によるもので、オンラインデータ収集によって緩和できるが、多くの設定では実現不可能である。
既存のオフラインアライメントアルゴリズムは、データを最大限に活用しているか、サンプル効率をさらに向上できるのか?
オフラインアライメントのための新しいアルゴリズムである$\chi^2$-Preference Optimization(\chi$PO)でこの問題に対処する。
$\chi$POは、直接選好最適化(DPO; Rafailov et al , 2023)の1行の変更であり、DPOの目的の対数リンク関数を変更することのみを含む。
この最小限の変更にもかかわらず、$\chi$PO は KL-正規化よりも効果的に不確実性を定量化する $\chi^2$-divergence -- を正規化することで不確実性に直面したペシミズムの原則を暗黙的に実装している。
$\chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとしては初めてのものとなる。
Language model alignment methods, such as reinforcement learning from human feedback (RLHF), have led to impressive advances in language model capabilities, but existing techniques are limited by a widely observed phenomenon known as overoptimization, where the quality of the language model plateaus or degrades over the course of the alignment process. Overoptimization is often attributed to overfitting to an inaccurate reward model, and while it can be mitigated through online data collection, this is infeasible in many settings. This raises a fundamental question: Do existing offline alignment algorithms make the most of the data they have, or can their sample-efficiency be improved further? We address this question with a new algorithm for offline alignment, $\chi^2$-Preference Optimization ($\chi$PO). $\chi$PO is a one-line change to Direct Preference Optimization (DPO; Rafailov et al., 2023), which only involves modifying the logarithmic link function in the DPO objective. Despite this minimal change, $\chi$PO implicitly implements the principle of pessimism in the face of uncertainty via regularization with the $\chi^2$-divergence -- which quantifies uncertainty more effectively than KL-regularization -- and provably alleviates overoptimization, achieving sample-complexity guarantees based on single-policy concentrability -- the gold standard in offline reinforcement learning. $\chi$PO's simplicity and strong guarantees make it the first practical and general-purpose offline alignment algorithm that is provably robust to overoptimization. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# DISCOVER: 人間の行動の総合的観察・可視化・爆発のためのデータ駆動型インタラクティブシステム
DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour ( http://arxiv.org/abs/2407.13408v1 ) ライセンス: Link先を確認 | Dominik Schiller, Tobias Hallmen, Daksitha Withanage Don, Elisabeth André, Tobias Baur, | (参考訳) 人間の行動を理解することは社会科学の基本的な目標であるが、その分析には重大な課題がある。
労働集約的なデータ収集プロセスと複雑な分析によって特徴づけられる行動研究に使用される従来の手法は、時間と資源の要求により、しばしば包括的な探索を妨げる。
これらの課題に対応するために、計算モデルは、研究者が社会的信号などの重要な行動指標を自動的に識別することによって大量のデータを分析するのに役立つ有望なツールであることが証明されている。
しかし、そのような最先端の計算モデルの普及は、その固有の複雑さとそれを実行するために必要な計算資源によって妨げられているため、技術的専門知識や適切な機器を持たない研究者へのアクセシビリティーが制限される。
これらの障壁に対処するために、D DISCOVER - モジュール的で柔軟性があり、ユーザフレンドリなソフトウェアフレームワークで、人間の行動分析のための計算駆動データ探索を効率化するために特別に開発された。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
本稿では,対話型セマンティックコンテンツ探索(Interactive Semantic Content Exploration),ビジュアルインスペクション(Visual Inspection),Aided Annotation(Aided Annotation),マルチモーダルシーン検索(Multimodal Scene Search)の4つの例を用いて,disCOVERの機能を実証する。
これらのワークフローを図示することで、DiscoVERの汎用性とアクセシビリティを包括的フレームワークとして強調し、探索データ解析の一般的な出発点となるブループリントのセットを提案する。
Understanding human behavior is a fundamental goal of social sciences, yet its analysis presents significant challenges. Conventional methodologies employed for the study of behavior, characterized by labor-intensive data collection processes and intricate analyses, frequently hinder comprehensive exploration due to their time and resource demands. In response to these challenges, computational models have proven to be promising tools that help researchers analyze large amounts of data by automatically identifying important behavioral indicators, such as social signals. However, the widespread adoption of such state-of-the-art computational models is impeded by their inherent complexity and the substantial computational resources necessary to run them, thereby constraining accessibility for researchers without technical expertise and adequate equipment. To address these barriers, we introduce DISCOVER -- a modular and flexible, yet user-friendly software framework specifically developed to streamline computational-driven data exploration for human behavior analysis. Our primary objective is to democratize access to advanced computational methodologies, thereby enabling researchers across disciplines to engage in detailed behavioral analysis without the need for extensive technical proficiency. In this paper, we demonstrate the capabilities of DISCOVER using four exemplary data exploration workflows that build on each other: Interactive Semantic Content Exploration, Visual Inspection, Aided Annotation, and Multimodal Scene Search. By illustrating these workflows, we aim to emphasize the versatility and accessibility of DISCOVER as a comprehensive framework and propose a set of blueprints that can serve as a general starting point for exploratory data analysis. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# メムリスタを用いたニューロモルフィック回路シミュレーション:MNISTとCIFARのためのMemTorchを用いた設計と評価
Neuromorphic Circuit Simulation with Memristors: Design and Evaluation Using MemTorch for MNIST and CIFAR ( http://arxiv.org/abs/2407.13410v1 ) ライセンス: Link先を確認 | Julio Souto, Guillermo Botella, Daniel García, Raúl Murillo, Alberto del Barrio, | (参考訳) Memristorは、不揮発性、低消費電力、履歴に依存した導電性のため、インメモリコンピューティングデバイスとして大きな利点を提供する。
これらの特性はニューラルネットワークのニューロモルフィック回路の領域で特に有用であり、現在はフォン・ノイマンのアーキテクチャや高エネルギー要求による制限に直面している。
本研究は,MNIST, CIFAR10, CIFAR100を用いて3つのデジタル畳み込みニューラルネットワークを構築し, 訓練することにより, メモリ内処理におけるmemristorsの使用の可能性を評価する。
その後、Memtorchを用いて、これらのネットワークをmemristiveシステムに変換した。
シミュレーションは理想的な条件下で行われ、推論中に最小1%の精度の損失が得られた。
さらに、本研究では、タイルサイズと膜型非イデオロギーがパフォーマンスに与える影響を分析し、神経形コンピューティングシステムにおける膜型コンピュータの統合の実践的意義を強調した。
この経験的ニューラルネットワーク応用の探索は、ニューロモルフィックアーキテクチャの進展におけるMemtorchの可能性を強調している。
Memristors offer significant advantages as in-memory computing devices due to their non-volatility, low power consumption, and history-dependent conductivity. These attributes are particularly valuable in the realm of neuromorphic circuits for neural networks, which currently face limitations imposed by the Von Neumann architecture and high energy demands. This study evaluates the feasibility of using memristors for in-memory processing by constructing and training three digital convolutional neural networks with the datasets MNIST, CIFAR10 and CIFAR100. Subsequent conversion of these networks into memristive systems was performed using Memtorch. The simulations, conducted under ideal conditions, revealed minimal precision losses of nearly 1% during inference. Additionally, the study analyzed the impact of tile size and memristor-specific non-idealities on performance, highlighting the practical implications of integrating memristors in neuromorphic computing systems. This exploration into memristive neural network applications underscores the potential of Memtorch in advancing neuromorphic architectures. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# スリランカの移動型健康生態系の実証分析 : 効果的なステークホルダーエンゲージメントの前兆
Empirical Analysis of Sri Lankan Mobile Health Ecosystem: A Precursor to an Effective Stakeholder Engagement ( http://arxiv.org/abs/2407.13415v1 ) ライセンス: Link先を確認 | Kenneth Thilakarathna, Sachintha Pitigala, Jayantha Fernando, Primal Wijesekera, | (参考訳) Sri Lankaは最近、健康を含む幅広い分野をカバーする最初のプライバシー法を成立させた。
医療分野における効果的なステークホルダーエンゲージメントの先駆者として、医療における法律の最も効果的な実装方法を理解するために、41の人気のあるモバイルアプリとWebポータルを分析しました。
テスト対象システムの78%には、消費者の視認性が最小限に抑えられた、機密性の高い健康データを受け取るサードパーティドメインがあることがわかった。
新しいプライバシー法の準備において、これが潜在的な問題を引き起こすかについて議論する。
Sri Lanka recently passed its first privacy legislation covering a wide range of sectors, including health. As a precursor for effective stakeholder engagement in the health domain to understand the most effective way to implement legislation in healthcare, we have analyzed 41 popular mobile apps and web portals. We found that 78% of the tested systems have third-party domains receiving sensitive health data with minimal visibility to the consumers. We discuss how this will create potential issues in preparing for the new privacy legislation. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# GDDS: Gather と Distribute Domain-shift Suppression Network を用いたオープンワールドシナリオの単一ドメイン一般化欠陥検出フレーム
GDDS: A Single Domain Generalized Defect Detection Frame of Open World Scenario using Gather and Distribute Domain-shift Suppression Network ( http://arxiv.org/abs/2407.13417v1 ) ライセンス: Link先を確認 | Haiyong Chen, Yaxiu Zhang, Yan Zhang, Xin Zhang, Xingwei Yan, | (参考訳) 太陽光発電モジュールの高効率かつインテリジェントな表面欠陥検出は,太陽光発電モジュールの品質向上と大規模インフラの信頼性確保に不可欠である。
しかし、データ分散逸脱のシナリオ特性は、太陽光発電や発電所検査といったオープンワールドシナリオの欠陥検出モデルの構築を困難にしている。
そこで我々はGDDS(Gather and Distribute Domain shift Suppression Network)を提案する。
分散シフトの問題に対処するため、テストサンプルから完全に独立な単一のドメイン一般化手法を採用する。
1段ネットワークをベースラインネットワークとして使用すると、通常2段ネットワークを使用する従来のドメイン一般化手法の限界を突破する。
検出精度とスピードのバランスを取るだけでなく、モデルのデプロイメントとアプリケーションプロセスの簡略化も行います。
GDDSにはDeepSpine ModuleとGatherとDistribute Moduleの2つのモジュールが含まれている。
具体的には、DeepSpine Moduleは、より広い範囲のコンテキスト情報を適用し、マルチスケール機能を取得して連結することにより、バックグラウンドスタイルのシフトを抑制する。
Gather and Distribute Moduleはグローバルな情報を収集して配布し、マルチスケールチャネル機能の対話的学習と欠陥インスタンスシフトの抑制を行う。
さらに、GDDSは正規化ワッサースタイン距離を類似度測定に利用し、ボックス位置ずれによる測定誤差を低減する。
EL内因性シフトデータセットと太陽光発電検査赤外線画像データセットを用いたGDDSの総合評価を行った。
実験の結果、GDDSは、他の最先端手法よりも、オープンワールドシナリオにおける欠陥検出に迅速に適応できることがわかった。
Efficient and intelligent surface defect detection of photovoltaic modules is crucial for improving the quality of photovoltaic modules and ensuring the reliable operation of large-scale infrastructure. However, the scenario characteristics of data distribution deviation make the construction of defect detection models for open world scenarios such as photovoltaic manufacturing and power plant inspections a challenge. Therefore, we propose the Gather and Distribute Domain shift Suppression Network (GDDS). It adopts a single domain generalized method that is completely independent of the test samples to address the problem of distribution shift. Using a one-stage network as the baseline network breaks through the limitations of traditional domain generalization methods that typically use two-stage networks. It not only balances detection accuracy and speed but also simplifies the model deployment and application process. The GDDS includes two modules: DeepSpine Module and Gather and Distribute Module. Specifically, the DeepSpine Module applies a wider range of contextual information and suppresses background style shift by acquiring and concatenating multi-scale features. The Gather and Distribute Module collects and distributes global information to achieve cross layer interactive learning of multi-scale channel features and suppress defect instance shift. Furthermore, the GDDS utilizes normalized Wasserstein distance for similarity measurement, reducing measurement errors caused by bounding box position deviations. We conducted a comprehensive evaluation of GDDS on the EL endogenous shift dataset and Photovoltaic inspection infrared image dataset. The experimental results showed that GDDS can adapt to defect detection in open world scenarios faster and better than other state-of-the-art methods. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# 言葉から世界へ:認知アーキテクチャのための構成性
From Words to Worlds: Compositionality for Cognitive Architectures ( http://arxiv.org/abs/2407.13419v1 ) ライセンス: Link先を確認 | Ruchira Dhar, Anders Søgaard, | (参考訳) 大規模言語モデル(LLM)は非常に高性能なコネクショナリストシステムであるが、より構成性が高いか?
さらに重要なのは、それらがうまく機能する理由の一部なのだろうか?
以下に紹介するタスクを含む4つのLLMファミリー(12モデル)と3つのタスクカテゴリの実証分析について述べる。
本研究は,LLMによる構成戦略の学習における微妙な関係を明らかにし,スケーリングは構成能力を高める一方,指導指導は逆効果を持つことが多い。
このような格差は、人間の認知能力に合わせて、大きな言語モデルの開発と改善に関するオープンな問題を引き起こします。
Large language models (LLMs) are very performant connectionist systems, but do they exhibit more compositionality? More importantly, is that part of why they perform so well? We present empirical analyses across four LLM families (12 models) and three task categories, including a novel task introduced below. Our findings reveal a nuanced relationship in learning of compositional strategies by LLMs -- while scaling enhances compositional abilities, instruction tuning often has a reverse effect. Such disparity brings forth some open issues regarding the development and improvement of large language models in alignment with human cognitive capacities. | 翻訳日:2024-07-19 15:40:38 公開日:2024-07-18 |
# エンド・ツー・エンド微分可能なニューラルチャージ粒子追跡の探索 -ランドスケープの視点-
Exploring End-to-end Differentiable Neural Charged Particle Tracking -- A Loss Landscape Perspective ( http://arxiv.org/abs/2407.13420v1 ) ライセンス: Link先を確認 | Tobias Kortus, Ralf Keidel, Nicolas R. Gauger, | (参考訳) 科学的、医学的、工業的応用のための高エネルギー粒子の測定と分析は複雑な手順であり、高度な検出器とデータ処理システムの設計を必要とする。
そのため、従来の機械学習アルゴリズムと機械学習アルゴリズムを組み合わせた適応型および微分可能なソフトウェアパイプラインの開発は、エンドツーエンド(E2E)の微分性を維持しながら、システムの最適化と効率的な運用がますます重要になっている。
本稿では,各検出器層に対する線形代入問題を解くグラフニューラルネットワークを用いたE2E微分型決定中心学習方式の荷電粒子追跡への応用を提案する。
離散割当操作の微分可能なバリエーションを含めることで、効率的なネットワーク最適化が可能であり、E2Eの微分性に欠けるアプローチと同等か、あるいは同等に動作することを実証的に実証する。
さらなる研究では、最適化プロセスについて深く掘り下げ、ロスランドスケープの観点からさらなる洞察を提供する。
両手法は, 同様の動作領域に収束するが, 初期化および最適化手法間ではかなりの予測不安定さに悩まされ, 画像再構成などの下流タスクの性能に予測不可能な結果をもたらすことが実証された。
また、勾配推定器の補間係数とモデルの予測安定性との依存性を指摘し、十分に小さい値を選択することを示唆した。
学習したソリューションの強いグローバル接続性と優れたトレーニング性能を考えると、E2Eの微分性は、勾配情報の一般提供に加えて、下流タスクでよく動作するソリューションを好んで予測不安定を緩和する堅牢な粒子追跡のための重要なツールである、と論じる。
Measurement and analysis of high energetic particles for scientific, medical or industrial applications is a complex procedure, requiring the design of sophisticated detector and data processing systems. The development of adaptive and differentiable software pipelines using a combination of conventional and machine learning algorithms is therefore getting ever more important to optimize and operate the system efficiently while maintaining end-to-end (E2E) differentiability. We propose for the application of charged particle tracking an E2E differentiable decision-focused learning scheme using graph neural networks with combinatorial components solving a linear assignment problem for each detector layer. We demonstrate empirically that including differentiable variations of discrete assignment operations allows for efficient network optimization, working better or on par with approaches that lack E2E differentiability. In additional studies, we dive deeper into the optimization process and provide further insights from a loss landscape perspective. We demonstrate that while both methods converge into similar performing, globally well-connected regions, they suffer under substantial predictive instability across initialization and optimization methods, which can have unpredictable consequences on the performance of downstream tasks such as image reconstruction. We also point out a dependency between the interpolation factor of the gradient estimator and the prediction stability of the model, suggesting the choice of sufficiently small values. Given the strong global connectivity of learned solutions and the excellent training performance, we argue that E2E differentiability provides, besides the general availability of gradient information, an important tool for robust particle tracking to mitigate prediction instabilities by favoring solutions that perform well on downstream tasks. | 翻訳日:2024-07-19 15:30:46 公開日:2024-07-18 |
# CycleMix:スタイル依存データにおけるドメインの一般化のためのソースドメインの混合
CycleMix: Mixing Source Domains for Domain Generalization in Style-Dependent Data ( http://arxiv.org/abs/2407.13421v1 ) ライセンス: Link先を確認 | Aristotelis Ballas, Christos Diou, | (参考訳) ディープラーニングに基づくシステムが日常生活の不可欠な部分となっているため、その一般化能力の限界が浮かび上がっている。
機械学習アルゴリズムは通常、i.d.仮定に依存している。つまり、トレーニングデータと検証データは、実際には必ずしも保持されない同じ分布に従うことが期待されている。
画像分類の場合、アルゴリズムが一般化に失敗する理由の1つは、ターゲットクラスにイメージスタイルを関連付けるなど、トレーニングデータに存在する急激な相関に頼っていることである。
これらの関連性は、目に見えないテストデータには存在せず、その効果が著しく低下する。
本研究では,この領域一般化(DG)問題を画像スタイルに起因する特徴を無視する頑健な特徴抽出器を訓練することにより緩和する。
そこで我々はCycleGANモデルをトレーニングし、トレーニングデータに存在する異なるスタイルを学習し、それらをランダムに混合して新しいスタイル属性のサンプルを作成し、一般化を改善する。
提案手法をPACS DGベンチマークで検証した。
As deep learning-based systems have become an integral part of everyday life, limitations in their generalization ability have begun to emerge. Machine learning algorithms typically rely on the i.i.d. assumption, meaning that their training and validation data are expected to follow the same distribution, which does not necessarily hold in practice. In the case of image classification, one frequent reason that algorithms fail to generalize is that they rely on spurious correlations present in training data, such as associating image styles with target classes. These associations may not be present in the unseen test data, leading to significant degradation of their effectiveness. In this work, we attempt to mitigate this Domain Generalization (DG) problem by training a robust feature extractor which disregards features attributed to image-style but infers based on style-invariant image representations. To achieve this, we train CycleGAN models to learn the different styles present in the training data and randomly mix them together to create samples with novel style attributes to improve generalization. Experimental results on the PACS DG benchmark validate the proposed method. | 翻訳日:2024-07-19 15:30:46 公開日:2024-07-18 |
# 切開開系におけるキブル・ズレーク機構の明らかな遅延
Apparent delay of the Kibble-Zurek mechanism in quenched open systems ( http://arxiv.org/abs/2407.13424v1 ) ライセンス: Link先を確認 | Roy D. Jara Jr., Jayson G. Cosme, | (参考訳) クエンチ時間における新しい中間状態である$\tau_{q}$を報告し、キブル・ズレーク機構(KZM)の通常の妥当性と有限クエンチプロトコルの下での開系における急激なクエンチの分解を分離する。
これは、ランプが既に終了しており、最後のクエンチ値が一定に保たれているにもかかわらず、システムが断熱状態に入るように見えるので、$\tau_{q}$で遷移時間のゆるいスケーリングに現れる。
遅延KZMとして疑うこの中間状態は、インパルス状態において系が凍結するのを防ぐための散逸によって出現する。
その結果、ほとんどの実験では、システムが位相遷移を行う実際の時間と、順序パラメータのしきい値に基づく基準から推測される時間との間に大きな遅延が生じる。
我々は、オープンディックモデルとその1次元格子バージョンを用いて、この現象が効果的な結合振動子モデルにマッピングできるオープンシステムの一般的な特徴であることを実証する。
また, この現象は臨界付近で顕著になり, 遷移時間測定への影響は, 順序パラメータの大きなしきい値によってさらに高められることを示す。
そこで本稿では,システムの欠陥数などの時空間情報を用いて,遷移時間を特定するしきい値基準の代替手法を提案する。
We report a new intermediate regime in the quench time, $\tau_{q}$, separating the usual validity of the Kibble-Zurek mechanism (KZM) and its breakdown for rapid quenches in open systems under finite quench protocols. It manifests in the power-law scaling of the transition time with $\tau_{q}$ as the system appears to enter the adiabatic regime, even though the ramp is already terminated and the final quench value is held constant. This intermediate regime, which we dub as the delayed KZM, emerges due to the dissipation preventing the system from freezing in the impulse regime. This results in a large delay between the actual time the system undergoes a phase transition and the time inferred from a threshold-based criterion for the order parameter, as done in most experiments. We demonstrate using the open Dicke model and its one-dimensional lattice version that this phenomenon is a generic feature of open systems that can be mapped onto an effective coupled oscillator model. We also show that the phenomenon becomes more prominent near criticality, and its effects on the transition time measurement can be further exacerbated by large threshold values for an order parameter. Due to this, we propose an alternative method for threshold-based criterion which uses the spatio-temporal information, such as the system's defect number, for identifying the transition time. | 翻訳日:2024-07-19 15:30:46 公開日:2024-07-18 |
# WiNet:効果的な医用画像登録のためのウェーブレットベースのインクリメンタルラーニング
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration ( http://arxiv.org/abs/2407.13426v1 ) ライセンス: Link先を確認 | Xinxing Cheng, Xi Jia, Wenqi Lu, Qiufu Li, Linlin Shen, Alexander Krull, Jinming Duan, | (参考訳) 深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
しかし,これらの手法は,特徴マップのカスケード性やコンポジション/ウォーピング操作を繰り返しているため,トレーニングやテストの際のメモリ使用量を負に増加させる。
さらに、このようなアプローチは、異なるスケールでの小さな変形の学習過程に明確な制約を欠いているため、説明可能性に欠ける。
本研究では,元の入力画像対から導出したウェーブレット係数を利用して,様々なスケールにわたる変位/速度場に対するスケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
ウェーブレット変換の特性を利用して、これらの推定係数は、設計した逆ウェーブレット変換(IDWT)層を介して全分解能変位/速度場をシームレスに再構成する。
このアプローチは、カスケードネットワークやコンポジション操作の複雑さを回避し、WiNetは他の粗いメソッドと説明可能かつ効率的な競合となる。
2つの3Dデータセットによる大規模な実験結果から、WiNetは正確でGPU効率が良いことが分かる。
コードはhttps://github.com/x-xc/WiNetで公開されている。
Deep image registration has demonstrated exceptional accuracy and fast inference. Recent advances have adopted either multiple cascades or pyramid architectures to estimate dense deformation fields in a coarse-to-fine manner. However, due to the cascaded nature and repeated composition/warping operations on feature maps, these methods negatively increase memory usage during training and testing. Moreover, such approaches lack explicit constraints on the learning process of small deformations at different scales, thus lacking explainability. In this study, we introduce a model-driven WiNet that incrementally estimates scale-wise wavelet coefficients for the displacement/velocity field across various scales, utilizing the wavelet coefficients derived from the original input image pair. By exploiting the properties of the wavelet transform, these estimated coefficients facilitate the seamless reconstruction of a full-resolution displacement/velocity field via our devised inverse discrete wavelet transform (IDWT) layer. This approach avoids the complexities of cascading networks or composition operations, making our WiNet an explainable and efficient competitor with other coarse-to-fine methods. Extensive experimental results from two 3D datasets show that our WiNet is accurate and GPU efficient. The code is available at https://github.com/x-xc/WiNet . | 翻訳日:2024-07-19 15:30:46 公開日:2024-07-18 |
# DeepClair:効果的なポートフォリオ選択に市場予測を活用する
DeepClair: Utilizing Market Forecasts for Effective Portfolio Selection ( http://arxiv.org/abs/2407.13427v1 ) ライセンス: Link先を確認 | Donghee Choi, Jinkyu Kim, Mogan Gim, Jinho Lee, Jaewoo Kang, | (参考訳) 市場予測を活用することは、ポートフォリオ選択戦略の最適化において重要である。
ポートフォリオ選択のための新しいフレームワークであるDeepClairを紹介します。
DeepClairは、トランスフォーマーベースの時系列予測モデルを活用して、市場の動向を予測し、より情報があり、適応可能なポートフォリオ決定を促進する。
予測モデルを深層強化学習駆動型ポートフォリオ選択フレームワークに統合するために、まず、市場データ上で時系列モデルを事前学習し、続いてこのモデルを用いてポートフォリオ選択アーキテクチャを微調整する2段階の戦略を導入した。
さらに、投資シナリオの微調整のための事前学習予測モデルを強化するため、LoRA(Lo-Rank Adaptation)の最適化手法について検討した。
この作業は市場予測とポートフォリオ選択を橋渡しし、投資戦略の進展を促進する。
Utilizing market forecasts is pivotal in optimizing portfolio selection strategies. We introduce DeepClair, a novel framework for portfolio selection. DeepClair leverages a transformer-based time-series forecasting model to predict market trends, facilitating more informed and adaptable portfolio decisions. To integrate the forecasting model into a deep reinforcement learning-driven portfolio selection framework, we introduced a two-step strategy: first, pre-training the time-series model on market data, followed by fine-tuning the portfolio selection architecture using this model. Additionally, we investigated the optimization technique, Low-Rank Adaptation (LoRA), to enhance the pre-trained forecasting model for fine-tuning in investment scenarios. This work bridges market forecasting and portfolio selection, facilitating the advancement of investment strategies. | 翻訳日:2024-07-19 15:30:46 公開日:2024-07-18 |
# 条件付き相互情報の最大化による医療時系列の動的特徴獲得に向けて
Towards Dynamic Feature Acquisition on Medical Time Series by Maximizing Conditional Mutual Information ( http://arxiv.org/abs/2407.13429v1 ) ライセンス: Link先を確認 | Fedor Sergeev, Paola Malsot, Gunnar Rätsch, Vincent Fortuin, | (参考訳) 多変量時系列のどの特徴を計測し、いつ測定するかを知ることは、医療、ウェアラブル、ロボット工学において重要な課題である。
より良い買収ポリシーは、下流予測器の性能を維持したり改善したりしながらコストを削減できる。
条件付き相互情報の最大化に着想を得て,下流損失のみを用いてエンド・ツー・エンドの学習を行う手法を提案する。
提案手法はランダムな獲得ポリシーよりも優れており,制約のない予算モデルと一致しているが,まだ静的な獲得戦略に勝っていないことを示す。
今後の作業の前提と方法の概略を強調します。
Knowing which features of a multivariate time series to measure and when is a key task in medicine, wearables, and robotics. Better acquisition policies can reduce costs while maintaining or even improving the performance of downstream predictors. Inspired by the maximization of conditional mutual information, we propose an approach to train acquirers end-to-end using only the downstream loss. We show that our method outperforms random acquisition policy, matches a model with an unrestrained budget, but does not yet overtake a static acquisition strategy. We highlight the assumptions and outline avenues for future work. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# 多項式表現による自律走行における軌道予測のアウト・オブ・ディストリビューション一般化の改善
Improving Out-of-Distribution Generalization of Trajectory Prediction for Autonomous Driving via Polynomial Representations ( http://arxiv.org/abs/2407.13431v1 ) ライセンス: Link先を確認 | Yue Yao, Shengchao Yan, Daniel Goehring, Wolfram Burgard, Joerg Reichardt, | (参考訳) OoD(Out-of-Distribution)サンプルに対するロバスト性は、軌道予測モデルの重要な性能指標である。
しかし、最先端(SotA)モデルの開発とランキングは、個々の競合データセット上でのID(In-Distribution)パフォーマンスによって駆動される。
本稿では,2つの大規模動作データセット間でデータセットと予測タスクを均質化するOoDテストプロトコルを提案する。
本稿では,エージェント軌道の多項式表現と,入力側と出力側の両方の道路形状に基づく新しい予測アルゴリズムを提案する。
モデルのサイズ、トレーニングの労力、推論時間を大幅に小さくすることで、IDテストのSotAに近いパフォーマンスに達し、OoDテストの堅牢性を大幅に向上します。
OoDテストプロトコルでは、SotAモデルの2つの拡張戦略とモデル一般化に対するそれらの効果についてさらに検討する。
軌道予測モデルの評価基準にOoDテストを追加することを提案する。
Robustness against Out-of-Distribution (OoD) samples is a key performance indicator of a trajectory prediction model. However, the development and ranking of state-of-the-art (SotA) models are driven by their In-Distribution (ID) performance on individual competition datasets. We present an OoD testing protocol that homogenizes datasets and prediction tasks across two large-scale motion datasets. We introduce a novel prediction algorithm based on polynomial representations for agent trajectory and road geometry on both the input and output sides of the model. With a much smaller model size, training effort, and inference time, we reach near SotA performance for ID testing and significantly improve robustness in OoD testing. Within our OoD testing protocol, we further study two augmentation strategies of SotA models and their effects on model generalization. Highlighting the contrast between ID and OoD performance, we suggest adding OoD testing to the evaluation criteria of trajectory prediction models. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# 想像の技:少数のデモから長い水平操作課題を学習する
The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations ( http://arxiv.org/abs/2407.13432v1 ) ライセンス: Link先を確認 | Jan Ole von Hartz, Tim Welschehold, Abhinav Valada, Joschka Boedecker, | (参考訳) Task Parametrized Gaussian Mixture Models (TP-GMM) は、オブジェクト中心のロボット操作タスクを学習するためのサンプル効率のよい手法である。
しかし、TP-GMMの適用にはいくつかのオープンな課題がある。
本研究では, 相乗的に3つの重要な課題に取り組む。
第一に、エンドエフェクタ速度は非ユークリッドであり、したがって標準GMMを用いたモデリングは困難である。
そこで本研究では,ロボットのエンドエフェクタ速度をその方向と大きさに分解し,リーマンGMMを用いてモデル化する。
第二に、複雑な実演軌跡のセグメンテーションとシーケンシャルスキルに分解速度を利用する。
セグメンテーションを通じて、スキルトラジェクトリをさらに整列させ、従って時間を強力な帰納バイアスとして活用する。
第3に,視覚的観察からスキル毎のタスクパラメータを自動的に検出する手法を提案する。
提案手法は,RGB-D観測のみを用いて,たった5つの実演から複雑な操作タスクを学習することを可能にする。
RLBenchの大規模実験により,20倍の試料効率向上を図った。
我々のポリシーは様々な環境、オブジェクトインスタンス、オブジェクトの位置にまたがって一般化され、学習スキルは再利用されます。
Task Parametrized Gaussian Mixture Models (TP-GMM) are a sample-efficient method for learning object-centric robot manipulation tasks. However, there are several open challenges to applying TP-GMMs in the wild. In this work, we tackle three crucial challenges synergistically. First, end-effector velocities are non-Euclidean and thus hard to model using standard GMMs. We thus propose to factorize the robot's end-effector velocity into its direction and magnitude, and model them using Riemannian GMMs. Second, we leverage the factorized velocities to segment and sequence skills from complex demonstration trajectories. Through the segmentation, we further align skill trajectories and hence leverage time as a powerful inductive bias. Third, we present a method to automatically detect relevant task parameters per skill from visual observations. Our approach enables learning complex manipulation tasks from just five demonstrations while using only RGB-D observations. Extensive experimental evaluations on RLBench demonstrate that our approach achieves state-of-the-art performance with 20-fold improved sample efficiency. Our policies generalize across different environments, object instances, and object positions, while the learned skills are reusable. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# 2モード圧縮ガウス状態を用いた量子位相推定のための精度境界
Precision bounds for quantum phase estimation using two-mode squeezed Gaussian states ( http://arxiv.org/abs/2407.13433v1 ) ライセンス: Link先を確認 | Jian-Dong Zhang, Chuang Li, Lili Hou, Shuai Wang, | (参考訳) ガウス状態に基づく量子位相推定は、多くの応用分野において重要な役割を果たす。
本稿では,2モード圧縮ガウス状態を用いたスキームの精度境界について検討する。
量子フィッシャー情報を計算し、その最大化を用いて最適なパラメータを決定する。
2つの単モード圧縮真空状態が最適入力であり、対応する精度境界がハイゼンベルク極限よりも2。
実用上,光子損失に起因する影響を考察する。
精度境界は、損失率が0.4以下である場合でも、ショットノイズ限界を上回る。
我々の研究は、実用的な量子力学への重要な、そして有望なステップを示すかもしれない。
Quantum phase estimation based on Gaussian states plays a crucial role in many application fields. In this paper, we study the precision bound for the scheme using two-mode squeezed Gaussian states. The quantum Fisher information is calculated and its maximization is used to determine the optimal parameters. We find that two single-mode squeezed vacuum states are the optimal inputs and the corresponding precision bound is superior to the Heisenberg limit by a factor of 2. For practical purposes, we consider the effects originating from photon loss. The precision bound can still outperform the shot-noise limit when the lossy rate is below 0.4. Our work may demonstrate a significant and promising step towards practical quantum metrology. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# ローエフォートデータストラテジーによるインドTSシステムの実用化のための語彙外性能向上
Enhancing Out-of-Vocabulary Performance of Indian TTS Systems for Practical Applications through Low-Effort Data Strategies ( http://arxiv.org/abs/2407.13435v1 ) ライセンス: Link先を確認 | Srija Anand, Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra, | (参考訳) HindiやTamilのような低リソース言語向けに公開されているTSデータセットには、一般的に10~20時間のデータが含まれており、語彙のカバレッジが低くなる。
この制限は、ドメイン固有の語彙と頻繁なコードミキシングが組み合わさった下流アプリケーションでは明らかになり、多くのOOVワードが生成される。
この問題を強調するために,複数の実世界のアプリケーションからのOOV単語を含むベンチマークを作成する。
実際、最先端のHindiとTamil TTSシステムは、インテリジェンステストによって示されるように、このOOVベンチマークでは性能が良くない。
モデルのOOV性能を改善するために,より訓練データを得るための,低効率で経済的に実行可能な戦略を提案する。
具体的には、高品質な音声アーティストではなくボランティアを用いて、トレーニングデータに見えない文字大文字を含む単語を記録することを提案する。
このような安価なデータを用いることで、音声品質やドメイン内性能に影響を与えず、OOV語の性能が向上することを示す。
Publicly available TTS datasets for low-resource languages like Hindi and Tamil typically contain 10-20 hours of data, leading to poor vocabulary coverage. This limitation becomes evident in downstream applications where domain-specific vocabulary coupled with frequent code-mixing with English, results in many OOV words. To highlight this problem, we create a benchmark containing OOV words from several real-world applications. Indeed, state-of-the-art Hindi and Tamil TTS systems perform poorly on this OOV benchmark, as indicated by intelligibility tests. To improve the model's OOV performance, we propose a low-effort and economically viable strategy to obtain more training data. Specifically, we propose using volunteers as opposed to high quality voice artists to record words containing character bigrams unseen in the training data. We show that using such inexpensive data, the model's performance improves on OOV words, while not affecting voice quality and in-domain performance. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# FREST: 複数の逆条件下でのセマンティックセグメンテーションのためのFeature RESToration
FREST: Feature RESToration for Semantic Segmentation under Multiple Adverse Conditions ( http://arxiv.org/abs/2407.13437v1 ) ライセンス: Link先を確認 | Sohyun Lee, Namyup Kim, Sungyeon Kim, Suha Kwak, | (参考訳) 悪条件下でのロバストなセマンティックセグメンテーションは、現実世界の応用において不可欠である。
ラベル付き正規条件画像がトレーニングでアクセスできない現実的なシナリオにおいて、この課題に対処するため、本研究では、セマンティックセマンティックセグメンテーションのソースフリードメイン適応(SFDA)のための新しい機能回復フレームワークであるFRESTを提案する。
FRESTは,(1)条件情報のみを分離する条件埋め込み空間の学習,(2)条件埋め込み空間上の条件画像の特徴の復元という2つのステップを交互に行う。
これら2つのステップを交互に行うことで、FRESTは、悪条件の影響が減少する特徴を徐々に回復する。
FRESTは、FDAの有害な状態に対する2つの公開ベンチマーク(ACDCとRobotCar)で最先端を達成した。
さらに、目に見えないデータセットに対して優れた一般化能力を示す。
Robust semantic segmentation under adverse conditions is crucial in real-world applications. To address this challenging task in practical scenarios where labeled normal condition images are not accessible in training, we propose FREST, a novel feature restoration framework for source-free domain adaptation (SFDA) of semantic segmentation to adverse conditions. FREST alternates two steps: (1) learning the condition embedding space that only separates the condition information from the features and (2) restoring features of adverse condition images on the learned condition embedding space. By alternating these two steps, FREST gradually restores features where the effect of adverse conditions is reduced. FREST achieved a state of the art on two public benchmarks (i.e., ACDC and RobotCar) for SFDA to adverse conditions. Moreover, it shows superior generalization ability on unseen datasets. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# AIにおけるMarginalized Music Genresの使用に対する障壁の低減
Reducing Barriers to the Use of Marginalised Music Genres in AI ( http://arxiv.org/abs/2407.13439v1 ) ライセンス: Link先を確認 | Nick Bryan-Kinns, Zijin Li, | (参考訳) 高品質の音楽生成のためのAIシステムは、通常、AIモデルをトレーニングするために非常に大きな音楽データセットに依存します。
これにより、西洋古典音楽やポップ音楽のような支配的なデータセットに代表されるジャンルを超えて音楽を生み出す障壁が生じる。
本稿では,eXplainable AI(XAI)の課題と,AIモデルによる音楽の限界ジャンルの使用に対する障壁の低減に関連する機会を探るため,4ヶ月の国際研究プロジェクトを要約した。
特定されたXAIの機会には、AIモデルの透明性とコントロールの改善、AIモデルの倫理とバイアスの説明、バイアスを減らすために小さなデータセットで大規模モデルの微調整、AIモデルによるスタイル移行の機会の説明などが含まれる。
この研究の参加者は、疎外された音楽やAIのような小さなデータセットを扱うのは難しいが、そのようなアプローチは、表現されていない文化の文化的表現を強化し、深層学習モデルのバイアスの問題への対処に寄与している、と強調した。
私たちは現在、グローバルなInternational Responsible AI Musicコミュニティをまとめて、私たちのネットワークへの参加を招待するために、このプロジェクトを構築しています。
AI systems for high quality music generation typically rely on extremely large musical datasets to train the AI models. This creates barriers to generating music beyond the genres represented in dominant datasets such as Western Classical music or pop music. We undertook a 4 month international research project summarised in this paper to explore the eXplainable AI (XAI) challenges and opportunities associated with reducing barriers to using marginalised genres of music with AI models. XAI opportunities identified included topics of improving transparency and control of AI models, explaining the ethics and bias of AI models, fine tuning large models with small datasets to reduce bias, and explaining style-transfer opportunities with AI models. Participants in the research emphasised that whilst it is hard to work with small datasets such as marginalised music and AI, such approaches strengthen cultural representation of underrepresented cultures and contribute to addressing issues of bias of deep learning models. We are now building on this project to bring together a global International Responsible AI Music community and invite people to join our network. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# BEAF:視覚言語モデルにおける幻覚評価のための時間的変化の観察
BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models ( http://arxiv.org/abs/2407.13442v1 ) ライセンス: Link先を確認 | Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh, | (参考訳) 視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
視覚エンコーダは、大規模な視覚テキストデータセットに基づいて事前訓練されており、視覚データに対するゼロショットの一般化を提供し、LLMはその高い推論能力をVLMに与えている。
これにより、VLMは微調整をせず、ゼロまたは少数ショットの能力を示すことなく、広範囲のベンチマークで高いパフォーマンスを達成することができる。
しかし、最近の研究では、VLMは幻覚に弱いことが示されている。
この望ましくない振る舞いは信頼性と信頼性を低下させ、ユーザがVLMからの出力を完全に信頼できないようにする。
信頼性を高め,VLMの幻覚への取り組みを改善するため,BEAF(Before-AFter Hallucination dataset)と呼ばれる新たな評価データセットをキュレートし,True Understanding (TU), IG(IG), StuBbornness (SB), InDecision (ID)という新たな指標を導入する。
質問や回答のみに焦点を絞った以前の研究とは異なり、我々のベンチマークのキーとなる考え方は、画像編集モデルによって視覚的なシーン情報を操作し、シーンの変化に基づいてメトリクスを設計することである。
これにより、VLMが特定のシーンを正しく理解しているかどうかを、変化を知覚する能力を観察することで明確に評価することができる。
また、視覚とテキストという2軸の視点により、画像と物体の関係を可視化する。
我々のデータセットを用いてVLMを評価すると、これまでに報告されていないVLM幻覚のさまざまな側面が明らかになる。
プロジェクトページ: \url{https://beafbench.github.io/}
Vision language models (VLMs) perceive the world through a combination of a visual encoder and a large language model (LLM). The visual encoder, pre-trained on large-scale vision-text datasets, provides zero-shot generalization to visual data, and the LLM endows its high reasoning ability to VLMs. It leads VLMs to achieve high performance on wide benchmarks without fine-tuning, exhibiting zero or few-shot capability. However, recent studies show that VLMs are vulnerable to hallucination. This undesirable behavior degrades reliability and credibility, thereby making users unable to fully trust the output from VLMs. To enhance trustworthiness and better tackle the hallucination of VLMs, we curate a new evaluation dataset, called the BEfore-AFter hallucination dataset (BEAF), and introduce new metrics: True Understanding (TU), IGnorance (IG), StuBbornness (SB), and InDecision (ID). Unlike prior works that focus only on constructing questions and answers, the key idea of our benchmark is to manipulate visual scene information by image editing models and to design the metrics based on scene changes. This allows us to clearly assess whether VLMs correctly understand a given scene by observing the ability to perceive changes. We also visualize image-wise object relationship by virtue of our two-axis view: vision and text. Upon evaluating VLMs with our dataset, we observed that our metrics reveal different aspects of VLM hallucination that have not been reported before. Project page: \url{https://beafbench.github.io/} | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# ローマへの全道? 生成的画像モデルの潜在空間間の類似性を探る
All Roads Lead to Rome? Exploring Representational Similarities Between Latent Spaces of Generative Image Models ( http://arxiv.org/abs/2407.13449v1 ) ライセンス: Link先を確認 | Charumathi Badrinath, Usha Bhalla, Alex Oesterling, Suraj Srinivas, Himabindu Lakkaraju, | (参考訳) 異なる生成画像モデルは、秘密裏に類似した表現を学習するのか?
VAE, GAN, 正規化フロー (NF) , 拡散モデル (DM) の4種類のモデルにおいて, 潜時空間の類似度を測定して検討した。
提案手法では, 任意のエンコーダとデコーダの"スティッチ"のために, 凍結した潜在空間間の線形写像をトレーニングし, 結果の"スティッチド"モデル上で出力ベースおよびプローブベースメトリクスを測定する。
主な知見は,潜時空間間の線形写像は,潜時サイズが異なる場合でもほとんどの視覚情報を保ち,CelebAモデルでは,ジェンダーが最もよく表されるプローブ可能な属性である。
最後に、学習初期に潜在空間表現が収束することを示す。
Do different generative image models secretly learn similar underlying representations? We investigate this by measuring the latent space similarity of four different models: VAEs, GANs, Normalizing Flows (NFs), and Diffusion Models (DMs). Our methodology involves training linear maps between frozen latent spaces to "stitch" arbitrary pairs of encoders and decoders and measuring output-based and probe-based metrics on the resulting "stitched'' models. Our main findings are that linear maps between latent spaces of performant models preserve most visual information even when latent sizes differ; for CelebA models, gender is the most similarly represented probe-able attribute. Finally we show on an NF that latent space representations converge early in training. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# SA-DVAE:分散変分オートエンコーダによるゼロショットスケルトンに基づく行動認識の改善
SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders ( http://arxiv.org/abs/2407.13460v1 ) ライセンス: Link先を確認 | Sheng-Wei Li, Zi-Xiang Wei, Wei-Jie Chen, Yi-Hsin Yu, Chih-Yuan Yang, Jane Yung-jen Hsu, | (参考訳) 既存のゼロショットスケルトンに基づく行動認識手法では、プロジェクションネットワークを用いて、骨格の特徴とセマンティック埋め込みの共有潜在空間を学習する。
動作認識データセットの固有の不均衡は、可変スケルトンシーケンスで特徴づけられるが、クラスラベルは一定であり、アライメントの重要な課題である。
この不均衡に対処するために、私たちはSA-DVAE -- Disentangled Variational Autoencodersによるセマンティックアライメント(Semantic Alignment) -- スケルトンの特徴を2つの独立した部分 – 1つはセマンティック関連であり、もう1つは無関係 – に分割することで、スケルトンとセマンティック特徴の整合性を向上する手法を提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
我々は,NTU RGB+D,NTU RGB+D 120,PKU-MMDの3つのベンチマークデータセットを用いて実験を行った。
コードはhttps://github.com/pha123661/SA-DVAEで公開されている。
Existing zero-shot skeleton-based action recognition methods utilize projection networks to learn a shared latent space of skeleton features and semantic embeddings. The inherent imbalance in action recognition datasets, characterized by variable skeleton sequences yet constant class labels, presents significant challenges for alignment. To address the imbalance, we propose SA-DVAE -- Semantic Alignment via Disentangled Variational Autoencoders, a method that first adopts feature disentanglement to separate skeleton features into two independent parts -- one is semantic-related and another is irrelevant -- to better align skeleton and semantic features. We implement this idea via a pair of modality-specific variational autoencoders coupled with a total correction penalty. We conduct experiments on three benchmark datasets: NTU RGB+D, NTU RGB+D 120 and PKU-MMD, and our experimental results show that SA-DAVE produces improved performance over existing methods. The code is available at https://github.com/pha123661/SA-DVAE. | 翻訳日:2024-07-19 15:30:45 公開日:2024-07-18 |
# 大規模言語モデルを用いたエンド・ツー・エンド臨床試験
End-To-End Clinical Trial Matching with Large Language Models ( http://arxiv.org/abs/2407.13463v1 ) ライセンス: Link先を確認 | Dyke Ferber, Lars Hilgers, Isabella C. Wiest, Marie-Elisabeth Leßmann, Jan Clusmann, Peter Neidlinger, Jiefu Zhu, Georg Wölflein, Jacqueline Lammert, Maximilian Tschochohei, Heiko Böhme, Dirk Jäger, Mihaela Aldea, Daniel Truhn, Christiane Höper, Jakob Nikolas Kather, | (参考訳) がん患者を臨床試験に合わせることは、治療と治療の進歩に不可欠である。
しかし、医用フリーテキスト文書の不整合形式と複雑な試験適格基準により、このプロセスは医師にとって極めて困難で時間を要する。
臨床医学における105,600のオンコロジー関連臨床治験の特定から基準レベルの適性マッチングの生成まで,大規模言語モデル(LLMs)を用いて,全ての試験マッチングプロセスが自動化可能かを検討した。
GPT-4oと51種類の総合電子健康記録(EHRs)を用いて、本研究は93.3%の症例において関連する候補を同定し、ヒトの専門家が定義した基準値と基準値の一致時に88.0%の事前精度を達成できることを実証した。
LLMのフィードバックを利用することで、当初不正確と考えられていた39.3%の基準が曖昧であるか、不正確なアノテーションであることが明らかとなり、人間の基準を精査した後の総モデル精度は92.7%となった。
総説では,LSMを用いた臨床治験のためのエンドツーエンドのパイプラインを提示し,個別患者に対するスクリーニングおよびマッチング試験の精度を実証し,資格医の成績よりも優れていた。
私たちの完全なエンドツーエンドパイプラインは、自律的または人間の監督の下で動作可能で、オンコロジーに限定されません。
Matching cancer patients to clinical trials is essential for advancing treatment and patient care. However, the inconsistent format of medical free text documents and complex trial eligibility criteria make this process extremely challenging and time-consuming for physicians. We investigated whether the entire trial matching process - from identifying relevant trials among 105,600 oncology-related clinical trials on clinicaltrials.gov to generating criterion-level eligibility matches - could be automated using Large Language Models (LLMs). Using GPT-4o and a set of 51 synthetic Electronic Health Records (EHRs), we demonstrate that our approach identifies relevant candidate trials in 93.3% of cases and achieves a preliminary accuracy of 88.0% when matching patient-level information at the criterion level against a baseline defined by human experts. Utilizing LLM feedback reveals that 39.3% criteria that were initially considered incorrect are either ambiguous or inaccurately annotated, leading to a total model accuracy of 92.7% after refining our human baseline. In summary, we present an end-to-end pipeline for clinical trial matching using LLMs, demonstrating high precision in screening and matching trials to individual patients, even outperforming the performance of qualified medical doctors. Our fully end-to-end pipeline can operate autonomously or with human supervision and is not restricted to oncology, offering a scalable solution for enhancing patient-trial matching in real-world settings. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# LIMT: 言語によるマルチタスクビジュアルワールドモデル
LIMT: Language-Informed Multi-Task Visual World Models ( http://arxiv.org/abs/2407.13466v1 ) ライセンス: Link先を確認 | Elie Aljalbout, Nikolaos Sotirakis, Patrick van der Smagt, Maximilian Karl, Nutan Chen, | (参考訳) 最近のロボット強化学習の成功には、特殊なシングルタスクエージェントの学習が含まれる。
しかし、複数のタスクを実行できるロボットは、現実世界のアプリケーションでははるかに価値がある。
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
このトピックに関するこれまでの研究は、モデルなしのアプローチが支配的だった。
後者は、特殊なシングルタスクエージェントを学習しても、非常に非効率的である。
本研究では,モデルに基づくマルチタスク強化学習に焦点を当てた。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
これらの表現は、世界モデルと政策によって、動的および行動におけるタスクの類似性について推論するために使用される。
本結果は,世界モデルに言語駆動型タスク表現を用いることの利点と,より一般的なモデルフリーパラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
Most recent successes in robot reinforcement learning involve learning a specialized single-task agent. However, robots capable of performing multiple tasks can be much more valuable in real-world applications. Multi-task reinforcement learning can be very challenging due to the increased sample complexity and the potentially conflicting task objectives. Previous work on this topic is dominated by model-free approaches. The latter can be very sample inefficient even when learning specialized single-task agents. In this work, we focus on model-based multi-task reinforcement learning. We propose a method for learning multi-task visual world models, leveraging pre-trained language models to extract semantically meaningful task representations. These representations are used by the world model and policy to reason about task similarity in dynamics and behavior. Our results highlight the benefits of using language-driven task representations for world models and a clear advantage of model-based multi-task learning over the more common model-free paradigm. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 非EEAドメインへの個人データ転送 : 市民のためのツールとイタリアの公共行政ウェブサイトの分析
Personal Data Transfers to Non-EEA Domains: A Tool for Citizens and An Analysis on Italian Public Administration Websites ( http://arxiv.org/abs/2407.13467v1 ) ライセンス: Link先を確認 | Lorenzo Laudadio, Antonio Vetrò, Riccardo Coppola, Juan Carlos De Martin, Marco Torchiano, | (参考訳) GDPRの施行から6年後も、欧州のデータ保護当局が発行する罰金の額が継続的に増加し続けており、欧州の企業や組織はそれに対応するのに苦慮している。
個人データ転送は例外ではない。
本研究では,20000以上のイタリア公共行政機関から第三者への個人データ転送について分析する。
私たちは、HTTPリクエストを記録しながらWebをナビゲートできるユーザフレンドリーなアプリケーションである"Minos"を開発した。
次に、分析を自動化するために、Minosのバックエンドを使用しました。
その結果、PAsのウェブサイトの約14%が欧州経済地域(EEA)からデータを転送していることがわかった。
この数字は、ホームページへの訪問のみが分析の対象であるため、過小評価である。
データ転送の上位3つの目的地はAmazon、Google、Fonticonsで、悪いリクエストの70%を占めている。
リクエストの対象となる最も頻繁なサービスは、クラウドコンピューティングサービスとコンテンツ配信ネットワーク(CDN)である。
イタリアでは、行政機関のウェブサイトの関連部分が個人データを非EEA諸国に転送している。
技術政策に関して、これらの結果はPAデジタルインフラを改善するための更なるインセンティブの必要性を強調している。
最後に、美濃の精巧化に取り組んでいる間、このバージョンはZenodoで公開されており、様々な俳優(市民、研究者、活動家、政策立案者)が意識を高め、調査を拡大するのに役立ちます。
Six years after the entry into force of the GDPR, European companies and organizations still have difficulties complying with it: the amount of fines issued by the European data protection authorities is continuously increasing. Personal data transfers are no exception. In this work we analyse the personal data transfers from more than 20000 Italian Public Administration (PA) entities to third countries. We developed "Minos", a user-friendly application which allows to navigate the web while recording HTTP requests. Then, we used the back-end of Minos to automate the analysis. We found that about 14% of the PAs websites transferred data out of the European Economic Area (EEA). This number is an underestimation because only visits to the home pages were object of the analysis. The top 3 destinations of the data transfers are Amazon, Google and Fonticons, accounting for about the 70% of the bad requests. The most recurrent services which are the object of the requests are cloud computing services and content delivery networks (CDNs). Our results highlight that, in Italy, a relevant portion of public administrations websites transfers personal data to non EEA countries. In terms of technology policy, these results stress the need for further incentives to improve the PA digital infrastructures. Finally, while working on refinements of Minos, the version here described is openly available on Zenodo: it can be helpful to a variety of actors (citizens, researchers, activists, policy makers) to increase awareness and enlarge the investigation. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 適応器を用いた固定・適応同時機械翻訳手法
Fixed and Adaptive Simultaneous Machine Translation Strategies Using Adapters ( http://arxiv.org/abs/2407.13469v1 ) ライセンス: Link先を確認 | Abderrahmane Issam, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis, | (参考訳) 同時機械翻訳は、全入力を消費する前に翻訳を開始することでリアルタイム翻訳の課題を解決することを目的としており、翻訳の品質とレイテンシのバランスをとることの難しさを浮き彫りにする。
wait-$k$ポリシーは、$k$ワードを消費した後に翻訳し始めることでソリューションを提供する。
遅延と品質を推論で選択しようとするアプリケーションでは、wait-$k$ポリシーによって複数のモデルをトレーニングせざるを得ません。
本稿では,複数の遅延レベルを満たす1つのモデルを構築することの課題に対処し,デコーダに軽量なアダプタモジュールを導入することでこれを実現する。
アダプタはさまざまなwait-k$値に特化するように訓練されており、パラメータ共有のメリットを享受し、干渉を最小限に抑えるために、他のテクニックと比較して柔軟性が向上している。
さらに,適応戦略と組み合わせることで,結果をさらに改善できることを示す。
2つの言語方向の実験により、我々のメソッドは、ほとんどの遅延値において、他の強力なベースラインよりも優れているか、競合していることが示された。
Simultaneous machine translation aims at solving the task of real-time translation by starting to translate before consuming the full input, which poses challenges in terms of balancing quality and latency of the translation. The wait-$k$ policy offers a solution by starting to translate after consuming $k$ words, where the choice of the number $k$ directly affects the latency and quality. In applications where we seek to keep the choice over latency and quality at inference, the wait-$k$ policy obliges us to train more than one model. In this paper, we address the challenge of building one model that can fulfil multiple latency levels and we achieve this by introducing lightweight adapter modules into the decoder. The adapters are trained to be specialized for different wait-$k$ values and compared to other techniques they offer more flexibility to allow for reaping the benefits of parameter sharing and minimizing interference. Additionally, we show that by combining with an adaptive strategy, we can further improve the results. Experiments on two language directions show that our method outperforms or competes with other strong baselines on most latency values. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 安全批判シナリオ下におけるリスク対応車両軌道予測
Risk-Aware Vehicle Trajectory Prediction Under Safety-Critical Scenarios ( http://arxiv.org/abs/2407.13480v1 ) ライセンス: Link先を確認 | Qingfan Wang, Dongyang Xu, Gaoyuan Kuang, Chen Lv, Shengbo Eben Li, Bingbing Nie, | (参考訳) 軌道予測は、高レベルの自動運転を実現するためのインテリジェントな車両にとって重要なものであり、近年多くの関連する研究成果が達成されている。
急速な開発にもかかわらず、既存の研究のほとんどは通常の安全シナリオにのみ焦点をあて、特に緊急衝突を含む安全クリティカルなシナリオを無視した。
この監視により、自動運転車はそのような状況において重要な予測能力が欠如し、安全性に重大な脅威をもたらす可能性がある。
そこで本研究では,安全クリティカルシナリオに適したリスク対応軌道予測フレームワークを提案する。
特異な有害な特徴を生かし、3つのコアリスク認識コンポーネントを開発する。
まず,リスクを考慮したシーンエンコーダを導入し,リスクを意識したシーンコンテキストのエンコーダを実現する。
次に、デコーダの予測先としてエンドポイントリスク合成意図クエリを組み込んで、予測されたマルチモーダル軌道が様々な空間的意図とリスクレベルの両方をカバーすることを保証する。
最後に、究極のリスク認識予測のために補助リスク予測タスクを実行する。
さらに、モデルトレーニングと性能評価を支援するために、安全クリティカルな軌道予測データセットと調整された評価指標を導入する。
包括的評価を行い、そのモデルを複数のSOTAモデルと比較する。
その結果,モデルの性能が向上し,ほとんどの指標が大幅に改善した。
この予測により、自動運転車は安全クリティカルなシナリオ下で正確な衝突回避操作を実行でき、最終的には道路交通の安全性を高めることができる。
Trajectory prediction is significant for intelligent vehicles to achieve high-level autonomous driving, and a lot of relevant research achievements have been made recently. Despite the rapid development, most existing studies solely focused on normal safe scenarios while largely neglecting safety-critical scenarios, particularly those involving imminent collisions. This oversight may result in autonomous vehicles lacking the essential predictive ability in such situations, posing a significant threat to safety. To tackle these, this paper proposes a risk-aware trajectory prediction framework tailored to safety-critical scenarios. Leveraging distinctive hazardous features, we develop three core risk-aware components. First, we introduce a risk-incorporated scene encoder, which augments conventional encoders with quantitative risk information to achieve risk-aware encoding of hazardous scene contexts. Next, we incorporate endpoint-risk-combined intention queries as prediction priors in the decoder to ensure that the predicted multimodal trajectories cover both various spatial intentions and risk levels. Lastly, an auxiliary risk prediction task is implemented for the ultimate risk-aware prediction. Furthermore, to support model training and performance evaluation, we introduce a safety-critical trajectory prediction dataset and tailored evaluation metrics. We conduct comprehensive evaluations and compare our model with several SOTA models. Results demonstrate the superior performance of our model, with a significant improvement in most metrics. This prediction advancement enables autonomous vehicles to execute correct collision avoidance maneuvers under safety-critical scenarios, eventually enhancing road traffic safety. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 注意オーバーフロー:長期欠落項目推奨時の言語モデル入力ブラー
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation ( http://arxiv.org/abs/2407.13481v1 ) ライセンス: Link先を確認 | Damien Sileo, | (参考訳) 大きな言語モデル(LLM)は、プロンプトにリストされた項目から欠落した要素を提案できる。
しかし、そのパフォーマンスは、入力リストにすでに含まれているアイテムを提案し始めたため、あまりにも多くのアイテムを提示すると劣化する。
これは2024年半ばの旗艦LLMの約100項目で発生する。
この現象を合成問題(例えば、与えられたシャッフル整数の範囲の欠落数)とリアルな映画レコメンデーションシナリオの両方で評価する。
繰り返しを防ぐには、すべてのアイテムに同時に参加する必要があります。
反復ループはこの問題を軽減することができるが、そのコストは反復率によって増加し、言語モデルが長い入力から新規性を引き出す能力に影響を与える。
Large language models (LLMs) can suggest missing elements from items listed in a prompt, which can be used for list completion or recommendations based on users' history. However, their performance degrades when presented with too many items, as they start to suggest items already included in the input list. This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this phenomenon on both synthetic problems (e.g., finding missing numbers in a given range of shuffled integers) and realistic movie recommendation scenarios. We refer to this issue as \textit{attention overflow}, as preventing repetition requires attending to all items simultaneously. Although iterative loops can mitigate this problem, their costs increase with the repetition rate, affecting the language models' ability to derive novelty from lengthy inputs. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# SCAPE: シンプルで強力なカテゴリ非依存型ポース推定器
SCAPE: A Simple and Strong Category-Agnostic Pose Estimator ( http://arxiv.org/abs/2407.13483v1 ) ライセンス: Link先を確認 | Yujia Liang, Zixuan Ye, Wenze Liu, Hao Lu, | (参考訳) Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
先行技術には、類似性計算のための日没モジュールや、2段階のフレームワーク、あるいは追加のヒートマップ生成と監視といった高度な設計が含まれている。
CAPEは本質的に特徴マッチングのタスクであり、注意プロセス内で解決できることに気付きます。
したがって、まずアーキテクチャをいくつかの純粋な自己アテンション層とMPP回帰ヘッドからなる単純なベースラインに合理化します -- この単純化は、CAPEの性能を高めるために注意の質を考慮する必要があることを意味します。
CAPEの効果的な注意プロセスに向けて、我々はさらに2つの重要なモジュールを紹介します。
一 グローバルな意味情報を支援キーポイントに注入するグローバルなキーポイント特徴受入者
二 キーポイント間のノード間相関を高めるためのキーポイント注意改善装置
彼らは、シンプルで強力なカテゴリー非依存のPose Estimator(SCAPE)を共同で形成する。
実験の結果,SCAPEは1ショットおよび5ショット設定で2.2と1.3PCKで先行技術より優れ,推論速度と軽量モデルキャパシティが向上し,精度と効率に優れていた。
コードとモデルはhttps://github.com/tiny-smart/SCAPEで公開されている。
Category-Agnostic Pose Estimation (CAPE) aims to localize keypoints on an object of any category given few exemplars in an in-context manner. Prior arts involve sophisticated designs, e.g., sundry modules for similarity calculation and a two-stage framework, or takes in extra heatmap generation and supervision. We notice that CAPE is essentially a task about feature matching, which can be solved within the attention process. Therefore we first streamline the architecture into a simple baseline consisting of several pure self-attention layers and an MLP regression head -- this simplification means that one only needs to consider the attention quality to boost the performance of CAPE. Towards an effective attention process for CAPE, we further introduce two key modules: i) a global keypoint feature perceptor to inject global semantic information into support keypoints, and ii) a keypoint attention refiner to enhance inter-node correlation between keypoints. They jointly form a Simple and strong Category-Agnostic Pose Estimator (SCAPE). Experimental results show that SCAPE outperforms prior arts by 2.2 and 1.3 PCK under 1-shot and 5-shot settings with faster inference speed and lighter model capacity, excelling in both accuracy and efficiency. Code and models are available at https://github.com/tiny-smart/SCAPE | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 相似性:マルチモーダル・アウト・オブ・コンテクストの誤情報検出は進んでいるか?
Similarity over Factuality: Are we making progress on multimodal out-of-context misinformation detection? ( http://arxiv.org/abs/2407.13488v1 ) ライセンス: Link先を確認 | Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis, | (参考訳) アウト・オブ・コンテクスト(OOC)の誤報は、虚偽の物語をサポートするために、画像が元の文脈を誤って表現するテキストとペアリングされるマルチモーダルなファクトチェックにおいて、重大な課題となる。
証拠に基づくOCO検出の最近の研究は、トランスフォーマー、基礎モデル、および大規模言語モデルを導入し、ますます複雑なアーキテクチャへと向かっている。
本研究では,MUSE(MUltimodal SimilaritiEs)と外部画像とテキストエビデンスとの類似性を評価する,シンプルだが頑健なベースラインを提案する。
その結果、MUSEは、決定木、ランダムフォレスト、マルチレイヤーパーセプトロンといった従来の分類器と併用することで、NewsCLIPpingsおよびVERITEデータセットの最先端技術と競合し、さらに超えることができることを示した。
さらに,提案したAITR(Attentive Intermediate Transformer Representations)にMUSEを統合することで,NewsCLIPpingsとVERITEでそれぞれ3.3%,7.5%向上した。
それでも、MUSEの成功は、表面的なパターンやショートカットに依存し、事実や論理的な矛盾を検査することなく、どのようにタスクを定義し、データセットを構築し、外部のエビデンスを収集し、どのように現場の進捗を評価するかについて批判的な疑問を提起する。
https://github.com/stevejpapad/outcontext-misinfo-progress
Out-of-context (OOC) misinformation poses a significant challenge in multimodal fact-checking, where images are paired with texts that misrepresent their original context to support false narratives. Recent research in evidence-based OOC detection has seen a trend towards increasingly complex architectures, incorporating Transformers, foundation models, and large language models. In this study, we introduce a simple yet robust baseline, which assesses MUltimodal SimilaritiEs (MUSE), specifically the similarity between image-text pairs and external image and text evidence. Our results demonstrate that MUSE, when used with conventional classifiers like Decision Tree, Random Forest, and Multilayer Perceptron, can compete with and even surpass the state-of-the-art on the NewsCLIPpings and VERITE datasets. Furthermore, integrating MUSE in our proposed "Attentive Intermediate Transformer Representations" (AITR) significantly improved performance, by 3.3% and 7.5% on NewsCLIPpings and VERITE, respectively. Nevertheless, the success of MUSE, relying on surface-level patterns and shortcuts, without examining factuality and logical inconsistencies, raises critical questions about how we define the task, construct datasets, collect external evidence and overall, how we assess progress in the field. We release our code at: https://github.com/stevejpapad/outcontext-misinfo-progress | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 制約型プログラミング推論と大規模言語モデル予測の併用
Combining Constraint Programming Reasoning with Large Language Model Predictions ( http://arxiv.org/abs/2407.13490v1 ) ライセンス: Link先を確認 | Florian Régin, Elisabetta De Maria, Alexandre Bonlarron, | (参考訳) 制約プログラミング(CP)と機械学習(ML)は、CPが「意味」とMLが構造的制約に難航しているために、テキスト生成の課題に直面している。
本稿では,Large Language Model (LLM) をCPに組み込んだ手法を提案する。
LLMは単語生成と意味を扱うが、CPは構造的制約を管理する。
このアプローチは、LLM生成ドメインを使用したOn-the-fly Constraint Programming Search (OTFS)の改良版であるGenCPをベースにしている。
標準NLP法であるビームサーチ(BS)と比較して、この組み合わせアプローチ(GenCPとLLM)は高速で、より良い結果をもたらし、全ての制約が満たされることを保証する。
このCPとMLの融合は制約下でのテキスト生成を向上する新たな可能性を示す。
Constraint Programming (CP) and Machine Learning (ML) face challenges in text generation due to CP's struggle with implementing "meaning'' and ML's difficulty with structural constraints. This paper proposes a solution by combining both approaches and embedding a Large Language Model (LLM) in CP. The LLM handles word generation and meaning, while CP manages structural constraints. This approach builds on GenCP, an improved version of On-the-fly Constraint Programming Search (OTFS) using LLM-generated domains. Compared to Beam Search (BS), a standard NLP method, this combined approach (GenCP with LLM) is faster and produces better results, ensuring all constraints are satisfied. This fusion of CP and ML presents new possibilities for enhancing text generation under constraints. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 病気のためのバイオメディカル知識発見の強化: エンドツーエンドのオープンソースフレームワーク
Enhancing Biomedical Knowledge Discovery for Diseases: An End-To-End Open-Source Framework ( http://arxiv.org/abs/2407.13492v1 ) ライセンス: Link先を確認 | Christos Theodoropoulos, Andrei Catalin Coman, James Henderson, Marie-Francine Moens, | (参考訳) バイオメディカル・パブリッシングの増大は、効率的な知識発見にとって重要な必要性を生んでいる。
この文脈では,原文から直接特定の疾患に関する知識を構築するために設計された,オープンソースのエンドツーエンドフレームワークを導入する。
疾患関連知識発見の研究を容易にするため,Rett症候群とアルツハイマー病に焦点を当てた2つの注釈付きデータセットを作成し,バイオメディカルエンティティ間の意味的関係の同定を可能にした。
広範囲なベンチマークは、関係や実体表現を表現する様々な方法を探究し、意味的関係の検出と知識発見における言語モデルの能力の強調のための最適なモデリング戦略に関する洞察を提供する。
また,異なるレイヤ表現とアテンションスコアを用いて探索実験を行い,意味的関係を捉えるトランスフォーマーの能力を探る。
The ever-growing volume of biomedical publications creates a critical need for efficient knowledge discovery. In this context, we introduce an open-source end-to-end framework designed to construct knowledge around specific diseases directly from raw text. To facilitate research in disease-related knowledge discovery, we create two annotated datasets focused on Rett syndrome and Alzheimer's disease, enabling the identification of semantic relations between biomedical entities. Extensive benchmarking explores various ways to represent relations and entity representations, offering insights into optimal modeling strategies for semantic relation detection and highlighting language models' competence in knowledge discovery. We also conduct probing experiments using different layer representations and attention scores to explore transformers' ability to capture semantic relations. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# データ圧縮としての基礎モデル--情報・モデル重み・著作権法を中心に
Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law ( http://arxiv.org/abs/2407.13493v1 ) ライセンス: Link先を確認 | Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi, | (参考訳) ディープラーニングシステムの他のクラスに対する基礎モデルのトレーニングプロセスは、トレーニングセット上の再構成誤差を最小限に抑えることに基づいている。
そのため、記憶とその後のトレーニングサンプルの再生に影響を受けやすい。
本稿では,モデルの重みがトレーニングデータの圧縮表現を具現化する,トレーニング・アズ・圧縮の視点を紹介する。
著作権の観点から見れば、この視点は、重みが潜在的に保護された作品の複製または派生作品と見なせることを意味している。
本稿では,基礎モデルが生み出すアウトプットの著作権の枠組みから生じる技術的・法的課題について考察する。
この問題に情報中心のアプローチを採用することは、これらの新たな複雑な法的問題に取り組む上で有望な道筋を示す。
The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model's weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# ストリーミング技術とシリアライズプロトコル:実証的パフォーマンス分析
Streaming Technologies and Serialization Protocols: Empirical Performance Analysis ( http://arxiv.org/abs/2407.13494v1 ) ライセンス: Link先を確認 | Samuel Jackson, Nathan Cummings, Saiful Khan, | (参考訳) 高ボリュームデータを効率的にストリーミングすることは、リアルタイムデータ分析、可視化、AIおよび機械学習モデルのトレーニングに不可欠である。
様々なストリーミング技術とシリアライズプロトコルが、異なるストリーミングニーズを満たすために開発されている。
同時に、さまざまなタスクやデータセットにわたって異なるパフォーマンスを行う。
したがって、ストリーミングシステムを開発する際、UKAEAのMASTデータやSKAの電波天文学データのためにストリーミングを実装する際に遭遇したように、適切な組み合わせについて情報的決定を行うことは困難である。
本研究では、広く使われているデータストリーミング技術とシリアライズプロトコルを実証研究することで、このギャップに対処する。
さまざまなパフォーマンス指標にまたがって効率をベンチマークする拡張性のあるオープンソースのソフトウェアフレームワークを導入します。
以上の結果から,これらの技術間の性能差とトレードオフが明らかとなった。
これらの洞察は、現代のデータ課題に対して適切なストリーミングおよびシリアライズソリューションを選択するのに役立つ。
我々は、データ利用とリアルタイム分析を改善するためにデータストリーミングを最適化する知識を、科学コミュニティと業界専門家に提供することを目指している。
Efficiently streaming high-volume data is essential for real-time data analytics, visualization, and AI and machine learning model training. Various streaming technologies and serialization protocols have been developed to meet different streaming needs. Together, they perform differently across various tasks and datasets. Therefore, when developing a streaming system, it can be challenging to make an informed decision on the suitable combination, as we encountered when implementing streaming for the UKAEA's MAST data or SKA's radio astronomy data. This study addresses this gap by proposing an empirical study of widely used data streaming technologies and serialization protocols. We introduce an extensible and open-source software framework to benchmark their efficiency across various performance metrics. Our findings reveal significant performance differences and trade-offs between these technologies. These insights can help in choosing suitable streaming and serialization solutions for contemporary data challenges. We aim to provide the scientific community and industry professionals with the knowledge to optimize data streaming for better data utilization and real-time analysis. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 3状態情報隠蔽:おそらく安全で非対称なステガノグラフィー
Three-State Information Hiding: Provably Secure Asymmetric Steganography ( http://arxiv.org/abs/2407.13499v1 ) ライセンス: Link先を確認 | Minhao Bai, Jinshuai Yang, Kaiyi Pang, Xu Xin, Yongfeng Huang, | (参考訳) 言語モデルの台頭は、ステガノグラフィーの応用のための肥大した土台となった。
適格な出力のため、ステガノグラフィーのテキストは人間に似ており、多くのステガノグラフィー研究者の注意を引き付けている。
しかし、言語モデルを実行するには強力な計算プラットフォームが必要である。
ステガノグラフィーはデコーダによって制御される電子機器がGPUを搭載できない可能性があるため、適用可能なシナリオを制限する。
従来の安全なステガノグラフィー手法は、この低リソースのシナリオには適用できない。
そこで我々は,低リソース方式で実用化された新しいステガノグラフィーフレームワークを設計することを目的としている。
我々は、仮説テスト手法を用いて厳密な確率解析から始め、理論的な枠組みを構築する。
そして、フレームワークのセキュリティとロバスト性を証明し、最適化の目標を指摘します。
理論フレームワークをいくつかの有名なLCMで検証し,そのユーザビリティを実証した。
まだいくつかの実践的な問題があり、これが将来の仕事の方向性を与えます。
本研究がステガノグラフィーの実践範囲を拡大し,新たなステガノグラフィーの分野を創出することを願っている。
The rise of language models has provided a fertile ground for the application of steganography. Due to their qualified output, steganographic texts become similar to human and have attracted most of the steganography researchers' attention. However, running a language model requires a strong computation platform. It limits the applicable scenario of steganography, since those electronic devices controlled by the decoder may not even equipped with a GPU. Traditional provably secure steganography methods cannot be applied to this low-resource scenario. Therefore, we aim at design a novel steganography framework that is practical in a low-resource scheme. We start from the rigorous probability analysis with the help of hypothesis testing techniques to construct an theoretical framework. Then we prove the security and robostness of our framework and point out its optimization goal. We test our theoretical framework in some famous LLMs and the results have proved its usability. There are still some practical problems and this gives the direction of future work. We hope that this work will expand the practical scope of steganography and create a new branch of steganography. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# FADE:エンコーダ・デコーダアーキテクチャのためのタスク非依存のアップサンプリング演算子
FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures ( http://arxiv.org/abs/2407.13500v1 ) ライセンス: Link先を確認 | Hao Lu, Wenze Liu, Hongtao Fu, Zhiguo Cao, | (参考訳) 本研究の目的は、意味的セグメンテーションのような領域依存的なタスクだけでなく、画像マッチングのような細部依存的なタスクを容易にするために、オペレータが要求される密集予測のためのタスクに依存しない機能アップサンプリング演算子を開発することである。
以前のアップサンプリング演算子は、どちらのタイプのタスクでもうまく機能するが、両方ではない。
タスク非依存のアップサンプリングは,2つの特性間のバイアスを伴わずに,意味的保存と詳細記述のトレードオフを動的に行うべきだ,と我々は主張する。
本稿では,デコーダとエンコーダの機能の資産を3つのレベルで融合させることにより,新しい,プラグアンドプレイ,軽量,タスクに依存しないアップサンプリング演算子FADEを提案する。
一 カーネルのアップサンプリングにおけるエンコーダとデコーダの特徴の両方を考慮すること。
二 効率的な半シフト畳み込み演算子を有するアップサンプリングカーネルにおけるエンコーダ/デコーダ特徴の点当たりの寄与を制御すること。
三 詳細を補うための復号器依存ゲーティング機構により、エンコーダの特徴の選択的通過を可能にすること。
FADEの実用性を改善するため,セミシフト畳み込みのパラメータとメモリ効率を考察した。
玩具データ上でのFADEのアップサンプリング挙動を解析し,FADEがタスクに依存しない大規模実験により,多くの高密度予測タスクにおける一貫した性能向上と余分なコストを伴わないことを示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
コードは、https://github.com/poppinace/fade.comで公開されている。
The goal of this work is to develop a task-agnostic feature upsampling operator for dense prediction where the operator is required to facilitate not only region-sensitive tasks like semantic segmentation but also detail-sensitive tasks such as image matting. Prior upsampling operators often can work well in either type of the tasks, but not both. We argue that task-agnostic upsampling should dynamically trade off between semantic preservation and detail delineation, instead of having a bias between the two properties. In this paper, we present FADE, a novel, plug-and-play, lightweight, and task-agnostic upsampling operator by fusing the assets of decoder and encoder features at three levels: i) considering both the encoder and decoder feature in upsampling kernel generation; ii) controlling the per-point contribution of the encoder/decoder feature in upsampling kernels with an efficient semi-shift convolutional operator; and iii) enabling the selective pass of encoder features with a decoder-dependent gating mechanism for compensating details. To improve the practicality of FADE, we additionally study parameter- and memory-efficient implementations of semi-shift convolution. We analyze the upsampling behavior of FADE on toy data and show through large-scale experiments that FADE is task-agnostic with consistent performance improvement on a number of dense prediction tasks with little extra cost. For the first time, we demonstrate robust feature upsampling on both region- and detail-sensitive tasks successfully. Code is made available at: https://github.com/poppinace/fade | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# ロボットもマルチタスクが可能:クロスタスクロボットアクション生成のためのメモリアーキテクチャとLCMの統合
Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation ( http://arxiv.org/abs/2407.13505v1 ) ライセンス: Link先を確認 | Hassan Ali, Philipp Allgeuer, Carlo Mazzola, Giulia Belgiovine, Burak Can Kaplan, Stefan Wermter, | (参考訳) 大規模言語モデル(LLM)は、ロボットの知覚と身体能力に則って、LLMの常識推論を基礎づけるロボットアプリケーションで最近使用されている。
ヒューマノイドロボットでは、メモリは、特に、ロボットが以前のタスク状態、環境状態、実行された動作を記憶しなければならないマルチタスク設定において、現実世界の実施を促進する上でも重要な役割を果たす。
本稿では,タスク間を効果的に切り替える一方で,タスク間動作を生成するためのLLMをメモリプロセスに組み込むことに対処する。
提案する2層構造は,人間の認知にインスパイアされた記憶モデルと相補的な推論と追従の手法を併用した2つのLCMを特徴とする。
その結果,5つのロボットタスクのベースラインよりも性能が大幅に向上し,ロボットの動作と適応タスク実行の知覚を組み合わせたLLMにメモリを統合できる可能性が示された。
Large Language Models (LLMs) have been recently used in robot applications for grounding LLM common-sense reasoning with the robot's perception and physical abilities. In humanoid robots, memory also plays a critical role in fostering real-world embodiment and facilitating long-term interactive capabilities, especially in multi-task setups where the robot must remember previous task states, environment states, and executed actions. In this paper, we address incorporating memory processes with LLMs for generating cross-task robot actions, while the robot effectively switches between tasks. Our proposed dual-layered architecture features two LLMs, utilizing their complementary skills of reasoning and following instructions, combined with a memory model inspired by human cognition. Our results show a significant improvement in performance over a baseline of five robotic tasks, demonstrating the potential of integrating memory with LLMs for combining the robot's action and perception for adaptive task execution. | 翻訳日:2024-07-19 15:20:54 公開日:2024-07-18 |
# 言語モデルに基づく制御可能な自発行動を用いた自発スタイルのテキスト音声合成
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models ( http://arxiv.org/abs/2407.13509v1 ) ライセンス: Link先を確認 | Weiqin Li, Peiji Yang, Yicheng Zhong, Yixuan Zhou, Zhisheng Wang, Zhiyong Wu, Xixin Wu, Helen Meng, | (参考訳) 人間のような音声を生成することを目的とした自発的なスタイルの音声合成は、高品質なデータの不足とモデル能力の限界のためにしばしば困難に直面する。
最近の言語モデルに基づくTSシステムは、大規模で多様で低品質な音声データセットで訓練できるため、非常に自然に合成された音声が得られる。
しかし、様々な自然行動のシミュレートや、自然発話における韻律の変化を捉えることの難しさにより制限される。
本稿では,言語モデルに基づく新たな自然発話合成システムを提案する。
多様な自発的行動の体系的分類と一様モデル化を行った。
さらに, 自発音声の微妙な韻律変化を捉えるモデルの性能を高めるために, 提案手法は韻律の自然性や自発行動の自然性の観点から, ベースライン法よりも有意に優れていることを示す実験結果を得た。
Spontaneous style speech synthesis, which aims to generate human-like speech, often encounters challenges due to the scarcity of high-quality data and limitations in model capabilities. Recent language model-based TTS systems can be trained on large, diverse, and low-quality speech datasets, resulting in highly natural synthesized speech. However, they are limited by the difficulty of simulating various spontaneous behaviors and capturing prosody variations in spontaneous speech. In this paper, we propose a novel spontaneous speech synthesis system based on language models. We systematically categorize and uniformly model diverse spontaneous behaviors. Moreover, fine-grained prosody modeling is introduced to enhance the model's ability to capture subtle prosody variations in spontaneous speech.Experimental results show that our proposed method significantly outperforms the baseline methods in terms of prosody naturalness and spontaneous behavior naturalness. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# オープンソースLLMは商用モデルと相容れないか? : 生物医学的課題における現行GPTモデルのFew-Shot性能を探求する
Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks ( http://arxiv.org/abs/2407.13511v1 ) ライセンス: Link先を確認 | Samy Ateia, Udo Kruschwitz, | (参考訳) OpenAIのGPT-4であるChatGPTやAnthropicのClaude 3 Opusのような商用の大規模言語モデル(LLM)は、さまざまなドメインにわたる自然言語処理(NLP)ベンチマークを支配している。
Mixtral 8x7BやLlama 3といった競合する新たなオープンソース代替製品が登場し、そのギャップを埋めつつ、高いスループットを提供し、使用コストの低減を図っている。
オープンソースのLCMは自己ホストすることもでき、サードパーティが機密データを処理すべきでない企業や臨床ユースケースにとって興味深い。
第12回BioASQチャレンジ(RAG)に参加し,現在のGPTモデル(Claude 3 Opus, GPT-3.5-turbo, Mixtral 8x7b)の性能について検討した。
また,LLMの文脈ウィンドウにウィキペディアの関連知識を追加することで,その性能が向上する可能性についても検討した。
ミキサール8x7bは微調整と無調整の両方で10ショット設定で競争力があったが、ゼロショット設定では使用可能な結果が得られなかった。
QLoRaの微調整とウィキペディアのコンテキストは測定可能なパフォーマンス向上には至らなかった。
以上の結果から,RAGセットアップにおける商用モデルとオープンソースモデルのパフォーマンスギャップは,主にゼロショット設定に存在し,ドメイン固有のユースケースに対する少数ショットのサンプルを集めるだけで,クローズできることが示唆された。
これらの実験を再実行するのに必要なコードはGitHubから入手できる。
Commercial large language models (LLMs), like OpenAI's GPT-4 powering ChatGPT and Anthropic's Claude 3 Opus, have dominated natural language processing (NLP) benchmarks across different domains. New competing Open-Source alternatives like Mixtral 8x7B or Llama 3 have emerged and seem to be closing the gap while often offering higher throughput and being less costly to use. Open-Source LLMs can also be self-hosted, which makes them interesting for enterprise and clinical use cases where sensitive data should not be processed by third parties. We participated in the 12th BioASQ challenge, which is a retrieval augmented generation (RAG) setting, and explored the performance of current GPT models Claude 3 Opus, GPT-3.5-turbo and Mixtral 8x7b with in-context learning (zero-shot, few-shot) and QLoRa fine-tuning. We also explored how additional relevant knowledge from Wikipedia added to the context-window of the LLM might improve their performance. Mixtral 8x7b was competitive in the 10-shot setting, both with and without fine-tuning, but failed to produce usable results in the zero-shot setting. QLoRa fine-tuning and Wikipedia context did not lead to measurable performance gains. Our results indicate that the performance gap between commercial and open-source models in RAG setups exists mainly in the zero-shot setting and can be closed by simply collecting few-shot examples for domain-specific use cases. The code needed to rerun these experiments is available through GitHub. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 強化学習による動的アルゴリズム構成のためのインスタンス選択:一般化の改善
Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization ( http://arxiv.org/abs/2407.13513v1 ) ライセンス: Link先を確認 | Carolin Benjamins, Gjorgjina Cenikj, Ana Nikolikj, Aditya Mohan, Tome Eftimov, Marius Lindauer, | (参考訳) 動的アルゴリズム構成(DAC)は、個々のタスクのみに焦点を当てるのではなく、多様なインスタンスに対してアルゴリズムのハイパーパラメータを動的に設定するという課題に対処する。
Deep Reinforcement Learning (RL)でトレーニングされたエージェントは、そのような設定を解決するための経路を提供する。
しかし、これらのエージェントの限定的な一般化性能は、DACの応用を著しく妨げている。
我々の仮説では、トレーニングインスタンスの潜在的なバイアスは一般化能力を制限している。
我々は、過剰表現を克服するためにトレーニングインスタンスの代表的なサブセットを選択し、このサブセット上のエージェントを再訓練して、一般化性能を向上させることで、この問題を軽減するための一歩を踏み出した。
サブセット選択のためのメタ機能の構築には, エージェントが環境との相互作用によって生じる行動や報酬の軌跡に関する時系列特徴を計算することにより, RLエージェントの動的性質を特に考慮する。
DACBenchと呼ばれる標準ベンチマークライブラリのSigmoidおよびCMA-ESベンチマークの実証評価を通じて、インスタンス全体のトレーニングと比較して、選択手法の可能性について議論する。
本結果は,多種多様なインスタンス空間に対するDACポリシーの精錬におけるインスタンス選択の有効性を強調した。
Dynamic Algorithm Configuration (DAC) addresses the challenge of dynamically setting hyperparameters of an algorithm for a diverse set of instances rather than focusing solely on individual tasks. Agents trained with Deep Reinforcement Learning (RL) offer a pathway to solve such settings. However, the limited generalization performance of these agents has significantly hindered the application in DAC. Our hypothesis is that a potential bias in the training instances limits generalization capabilities. We take a step towards mitigating this by selecting a representative subset of training instances to overcome overrepresentation and then retraining the agent on this subset to improve its generalization performance. For constructing the meta-features for the subset selection, we particularly account for the dynamic nature of the RL agent by computing time series features on trajectories of actions and rewards generated by the agent's interaction with the environment. Through empirical evaluations on the Sigmoid and CMA-ES benchmarks from the standard benchmark library for DAC, called DACBench, we discuss the potentials of our selection technique compared to training on the entire instance set. Our results highlight the efficacy of instance selection in refining DAC policies for diverse instance spaces. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 量子局所微分プライバシーのための最適メカニズム
Optimal Mechanisms for Quantum Local Differential Privacy ( http://arxiv.org/abs/2407.13516v1 ) ライセンス: Link先を確認 | Ji Guan, | (参考訳) 近年、集中型微分プライバシーは量子コンピューティングや情報処理にまで拡張され、プライバシの保護と近隣の量子状態の関係の漏洩防止に成功している。
本稿では、量子局所微分プライバシー(QLDP)と呼ばれるフレームワークを導入し、QLDPのアルゴリズム研究を初期化する。
QLDPはパラメータ$\epsilon$を使用して、プライバシリークを管理し、個々の量子状態のプライバシを保証する。
任意の量子機構に対するQLDP値 $\epsilon$, $\epsilon^*$ の最適化は最適化問題として扱われる。
量子ノイズの導入は、QLDPフレームワーク内の最適なユニタリ民営化メカニズムとして特定された量子偏極ノイズによって、古典的なシナリオと同様のプライバシー保護を提供する。
ユニタリメカニズムは、頻繁に使用される量子ノイズタイプを含む様々な量子メカニズムの集合を表す。
量子非偏極ノイズは、量子計算と情報分野における重要な指標である忠実性とトレース距離ユーティリティの両方を最適化し、古典的なランダム化応答法に匹敵する量子として見ることができる。
さらに、QLDPフレームワークを分散(周期的に分離された)量子システムに適用するための合成定理が提示され、状態の独立性、古典的相関、あるいは絡み合い(量子相関)に関係なく、QLDP値の妥当性(加算率)が保証される。
この研究は、分析的および数値実験的アプローチの両方を通じて、単体および非単体量子ノイズ機構を含む様々な量子ノイズメカニズム間の実用性とプライバシのトレードオフについて検討する。
一方、これはQLDPフレームワークにおける量子偏極ノイズの最適化を強調している。
In recent years, centralized differential privacy has been successfully extended to quantum computing and information processing to safeguard privacy and prevent leaks in neighboring relationships of quantum states. This paper introduces a framework known as quantum local differential privacy (QLDP) and initializes the algorithmic study of QLDP. QLDP utilizes a parameter $\epsilon$ to manage privacy leaks and ensure the privacy of individual quantum states. The optimization of the QLDP value $\epsilon$, denoted as $\epsilon^*$, for any quantum mechanism is addressed as an optimization problem. The introduction of quantum noise is shown to provide privacy protections similar to classical scenarios, with quantum depolarizing noise identified as the optimal unital privatization mechanism within the QLDP framework. Unital mechanisms represent a diverse set of quantum mechanisms that encompass frequently employed quantum noise types. Quantum depolarizing noise optimizes both fidelity and trace distance utilities, which are crucial metrics in the field of quantum computation and information, and can be viewed as a quantum counterpart to classical randomized response methods. Additionally, a composition theorem is presented for the application of QLDP framework in distributed (spatially separated) quantum systems, ensuring the validity (additivity of QLDP value) irrespective of the states' independence, classical correlation, or entanglement (quantum correlation). The study further explores the trade-off between utility and privacy across different quantum noise mechanisms, including unital and non-unital quantum noise mechanisms, through both analytical and numerically experimental approaches. Meanwhile, this highlights the optimization of quantum depolarizing noise in QLDP framework. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# Mask2Map:Bird's Eye View Segmentation Masksを用いたベクトル化HDマップの構築
Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks ( http://arxiv.org/abs/2407.13517v1 ) ライセンス: Link先を確認 | Sehwan Choi, Jungho Kim, Hongjae Shin, Jun Won Choi, | (参考訳) 本稿では,自動運転アプリケーション用に設計された新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。
本手法は,鳥の眼球図(BEV)で表されるシーン内の地図インスタンスのクラスと順序付けられた点集合を予測することに焦点を当てる。
Mask2Mapは、IMPNet(インスタンスレベルマスク予測ネットワーク)とMMPNet(マスク駆動マップ予測ネットワーク)の2つの主要コンポーネントで構成されている。
IMPNetはMask-Aware QueriesとBEVセグメンテーションマスクを生成し、世界中の包括的なセマンティック情報をキャプチャする。
その後、MMPNetは2つのサブモジュール(PQG)とGeometric Feature Extractor(GFE))を通じて、ローカルなコンテキスト情報を使用して、これらのクエリ機能を強化した。
PQGは、BEV位置情報をMask-Aware Queriesに埋め込んでインスタンスレベルの位置情報を抽出し、GFEはBEVセグメンテーションマスクを使用してポイントレベルの幾何学的特徴を生成する。
しかし,ネットワーク間不整合によるMask2Mapの性能は,IMPNetとMMPNetの整合性(GT)と異なる予測から生じる。
この課題に対処するために、ノイズの多いGTクエリと摂動したGTセグメンテーションマスクの両方によって影響を受ける出力をデノマイズするためのモデルであるInter-network Denoising Training法を提案する。
nuScenes と Argoverse2 のベンチマークによる評価の結果,Mask2Map は従来の最先端手法よりも優れた性能を示し,それぞれ10.1% mAP と 4.1 mAP が得られた。
私たちのコードはhttps://github.com/SehwanChoi0307/Mask2Mapで参照できます。
In this paper, we introduce Mask2Map, a novel end-to-end online HD map construction method designed for autonomous driving applications. Our approach focuses on predicting the class and ordered point set of map instances within a scene, represented in the bird's eye view (BEV). Mask2Map consists of two primary components: the Instance-Level Mask Prediction Network (IMPNet) and the Mask-Driven Map Prediction Network (MMPNet). IMPNet generates Mask-Aware Queries and BEV Segmentation Masks to capture comprehensive semantic information globally. Subsequently, MMPNet enhances these query features using local contextual information through two submodules: the Positional Query Generator (PQG) and the Geometric Feature Extractor (GFE). PQG extracts instance-level positional queries by embedding BEV positional information into Mask-Aware Queries, while GFE utilizes BEV Segmentation Masks to generate point-level geometric features. However, we observed limited performance in Mask2Map due to inter-network inconsistency stemming from different predictions to Ground Truth (GT) matching between IMPNet and MMPNet. To tackle this challenge, we propose the Inter-network Denoising Training method, which guides the model to denoise the output affected by both noisy GT queries and perturbed GT Segmentation Masks. Our evaluation conducted on nuScenes and Argoverse2 benchmarks demonstrates that Mask2Map achieves remarkable performance improvements over previous state-of-the-art methods, with gains of 10.1% mAP and 4.1 mAP, respectively. Our code can be found at https://github.com/SehwanChoi0307/Mask2Map. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 記号的世界モデルを用いたモデルに基づく政策最適化
Model-based Policy Optimization using Symbolic World Model ( http://arxiv.org/abs/2407.13518v1 ) ライセンス: Link先を確認 | Andrey Gorodetskiy, Konstantin Mironov, Aleksandr Panov, | (参考訳) ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
この課題に対処するため、一般的なアプローチはモデルに基づく強化学習であり、環境力学モデルを採用する必要がある。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
記号モデルによる機械系の近似は、ニューラルネットワークによる近似よりもパラメータが少ないため、外挿の精度と品質が向上する可能性がある。
我々は,モデルに基づくポリシー最適化における軌道を生成するために,記号力学モデルを用いて学習アルゴリズムのサンプル効率を改善する。
シミュレーション環境における様々なタスクに対するアプローチを評価する。
本手法は,モデルフリーおよびモデルベースライン法と比較して,これらのタスクにおいて優れたサンプル効率を示す。
The application of learning-based control methods in robotics presents significant challenges. One is that model-free reinforcement learning algorithms use observation data with low sample efficiency. To address this challenge, a prevalent approach is model-based reinforcement learning, which involves employing an environment dynamics model. We suggest approximating transition dynamics with symbolic expressions, which are generated via symbolic regression. Approximation of a mechanical system with a symbolic model has fewer parameters than approximation with neural networks, which can potentially lead to higher accuracy and quality of extrapolation. We use a symbolic dynamics model to generate trajectories in model-based policy optimization to improve the sample efficiency of the learning algorithm. We evaluate our approach across various tasks within simulated environments. Our method demonstrates superior sample efficiency in these tasks compared to model-free and model-based baseline methods. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# GPSFormer: ポイントクラウド理解のためのグローバル知覚と局所構造適合型トランス
GPSFormer: A Global Perception and Local Structure Fitting-based Transformer for Point Cloud Understanding ( http://arxiv.org/abs/2407.13519v1 ) ライセンス: Link先を確認 | Changshuo Wang, Meiqing Wu, Siew-Kei Lam, Xin Ning, Shangshu Yu, Ruiping Wang, Weijun Li, Thambipillai Srikanthan, | (参考訳) ポイントクラウド理解のための事前学習手法が大幅に進歩しているにもかかわらず、外部データに依存しない不規則なポイントクラウドから直接複雑な形状情報を取得することは、非常に難しい課題である。
この問題に対処するために,GPSFormerを提案する。GPSFormerは革新的なグローバルパーセプションと局所構造フィッティングに基づくトランスフォーマーで,点雲からの詳細な形状情報を顕著な精度で学習する。
GPSFormerのコアはGPM(Global Perception Module)とLSFConv(Local Structure Fitting Convolution)である。
具体的には、GPMはAdaptive Deformable Graph Convolution(ADGConv)を使用して、機能空間の類似した機能間の短距離依存を識別し、MHA(Multi-Head Attention)を使用して、機能空間内のすべての位置における長距離依存を学習し、最終的にコンテキスト表現の柔軟な学習を可能にする。
テイラー級数に触発されてLSFConvを設計し、局所幾何学構造を明示的に符号化し、低階の基本情報と高階精製情報の両方を学習する。
GPMとLSFConvを基本コンポーネントとして、ポイントクラウドのグローバルおよびローカル構造を効果的にキャプチャする最先端のトランスフォーマーであるGPSFormerを構築した。
GPSFormerの有効性は,3点のクラウドタスク – 形状分類,部分分割,少数ショット学習 – で検証されている。
GPSFormerのコードは \url{https://github.com/changshuowang/GPSFormer} で公開されている。
Despite the significant advancements in pre-training methods for point cloud understanding, directly capturing intricate shape information from irregular point clouds without reliance on external data remains a formidable challenge. To address this problem, we propose GPSFormer, an innovative Global Perception and Local Structure Fitting-based Transformer, which learns detailed shape information from point clouds with remarkable precision. The core of GPSFormer is the Global Perception Module (GPM) and the Local Structure Fitting Convolution (LSFConv). Specifically, GPM utilizes Adaptive Deformable Graph Convolution (ADGConv) to identify short-range dependencies among similar features in the feature space and employs Multi-Head Attention (MHA) to learn long-range dependencies across all positions within the feature space, ultimately enabling flexible learning of contextual representations. Inspired by Taylor series, we design LSFConv, which learns both low-order fundamental and high-order refinement information from explicitly encoded local geometric structures. Integrating the GPM and LSFConv as fundamental components, we construct GPSFormer, a cutting-edge Transformer that effectively captures global and local structures of point clouds. Extensive experiments validate GPSFormer's effectiveness in three point cloud tasks: shape classification, part segmentation, and few-shot learning. The code of GPSFormer is available at \url{https://github.com/changshuowang/GPSFormer}. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# EaDeblur-GS: Gaussian Splatting を用いた3D Deblur 再建
EaDeblur-GS: Event assisted 3D Deblur Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2407.13520v1 ) ライセンス: Link先を確認 | Yuchen Weng, Zhengwen Shen, Ruofan Chen, Qi Wang, Jun Wang, | (参考訳) 近年,NeRF (Neural Radiance Fields) と3D Gaussian Splatting (3DGS) の開発により, 3次元劣化再建技術が著しい進歩を遂げている。
これらの技術は、ぼやけた画像入力から比較的鮮明な3D再構成を復元できるが、深刻なぼやけた複雑なカメラの動きを扱うには限界がある。
これらの課題に対処するために,3DGS の動作ぼけに対する堅牢性を高めるために,イベントカメラデータを統合した3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS)を提案する。
Adaptive Deviation Estimator (ADE) ネットワークを用いてガウス中心偏差を推定し、新しい損失関数を用いることで、EaDeblur-GS は最先端の手法に匹敵する性能を示す。
3D deblurring reconstruction techniques have recently seen significant advancements with the development of Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although these techniques can recover relatively clear 3D reconstructions from blurry image inputs, they still face limitations in handling severe blurring and complex camera motion. To address these issues, we propose Event-assisted 3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS), which integrates event camera data to enhance the robustness of 3DGS against motion blur. By employing an Adaptive Deviation Estimator (ADE) network to estimate Gaussian center deviations and using novel loss functions, EaDeblur-GS achieves sharp 3D reconstructions in real-time, demonstrating performance comparable to state-of-the-art methods. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# INDIC QA BENCHMARK:LLMの質問応答能力評価のための多言語ベンチマーク
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages ( http://arxiv.org/abs/2407.13522v1 ) ライセンス: Link先を確認 | Abhishek Kumar Singh, Rudra Murthy, Vishwajeet kumar, Jaydeep Sen, Ganesh Ramakrishnan, | (参考訳) 大規模言語モデル (LLM) は、英語の文脈的質問応答 (QA) など、目に見えないタスクにおいて、目覚ましいゼロショットと少数ショットの能力を示した。
しかし、文脈に基づくQAのための非英語言語におけるLLMの能力の評価は、非英語言語におけるベンチマークの不足によって制限される。
このギャップに対処するために、我々は2つの言語ファミリーから11の主要なインド言語に対して、公開可能な最大の質問回答データセットであるIndic-QAを紹介した。
このデータセットは、抽出的および抽象的な問合せタスクの両方を含み、既存のデータセットと、インドの言語に翻訳された英語のQAデータセットを含んでいる。
さらに、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
このデータセットのリリースにより、低リソース言語におけるLLMの質問応答能力に関するさらなる研究が促進されることを期待する。
Large Language Models (LLMs) have demonstrated remarkable zero-shot and few-shot capabilities in unseen tasks, including context-grounded question answering (QA) in English. However, the evaluation of LLMs' capabilities in non-English languages for context-based QA is limited by the scarcity of benchmarks in non-English languages. To address this gap, we introduce Indic-QA, the largest publicly available context-grounded question-answering dataset for 11 major Indian languages from two language families. The dataset comprises both extractive and abstractive question-answering tasks and includes existing datasets as well as English QA datasets translated into Indian languages. Additionally, we generate a synthetic dataset using the Gemini model to create question-answer pairs given a passage, which is then manually verified for quality assurance. We evaluate various multilingual Large Language Models and their instruction-fine-tuned variants on the benchmark and observe that their performance is subpar, particularly for low-resource languages. We hope that the release of this dataset will stimulate further research on the question-answering abilities of LLMs for low-resource languages. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 量子脅威分析のためのセキュリティアセスメントツール
A Security Assessment tool for Quantum Threat Analysis ( http://arxiv.org/abs/2407.13523v1 ) ライセンス: Link先を確認 | Basel Halak, Cristian Sebastian Csete, Edward Joyce, Jack Papaioannou, Alexandre Pires, Jin Soma, Betul Gokkaya, Michael Murphy, | (参考訳) 量子コンピューティングの急速な進歩は、セキュアな通信、デジタル認証、情報暗号化に使われる多くの現在のセキュリティアルゴリズムに重大な脅威をもたらす。
十分に強力な量子コンピュータは、これらのアルゴリズムの脆弱性を悪用し、トランジットの安全性の低いデータをレンダリングする可能性がある。
この脅威は今後20年以内に実現されると予想されている。
量子レジリエントな暗号スキームへの即時移行は、主に、現在解読中の攻撃を軽減し、10年にわたる運用寿命を持つ製品のセキュリティを確保するために重要である。
この移行は、脆弱な暗号実装を特定し、アップグレードするための体系的なアプローチを必要とする。
この研究は、企業のための量子アセスメントツールを開発し、セキュリティプロトコルをポスト量子世界へ移行するための適切なレコメンデーションを提供する。
この研究には、ネットワーク管理者やサイバーセキュリティの専門家からの質的なフィードバックを使って提案されたソリューションを体系的に評価することが含まれていた。
このフィードバックは、評価プロセスの正確性とユーザビリティを向上するために使用されました。
この結果は、組織が量子コンピューティングの脅威に備える上での有効性と有用性を示している。
このアセスメントツールは (https://quantum-watch.soton.ac.uk) で公開されている。
The rapid advancement of quantum computing poses a significant threat to many current security algorithms used for secure communication, digital authentication, and information encryption. A sufficiently powerful quantum computer could potentially exploit vulnerabilities in these algorithms, rendering data in transit insecure. This threat is expected to materialize within the next 20 years. Immediate transition to quantum-resilient cryptographic schemes is crucial, primarily to mitigate store-now-decrypt-later attacks and to ensure the security of products with decade-long operational lives. This transition requires a systematic approach to identifying and upgrading vulnerable cryptographic implementations. This work developed a quantum assessment tool for organizations, providing tailored recommendations for transitioning their security protocols into a post-quantum world. The work included a systematic evaluation of the proposed solution using qualitative feedback from network administrators and cybersecurity experts. This feedback was used to refine the accuracy and usability of the assessment process. The results demonstrate its effectiveness and usefulness in helping organizations prepare for quantum computing threats. The assessment tool is publicly available at (https://quantum-watch.soton.ac.uk). | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 低信頼 Pseudo Label 蒸留によるソースフリー領域適応物体検出の強化
Enhancing Source-Free Domain Adaptive Object Detection with Low-confidence Pseudo Label Distillation ( http://arxiv.org/abs/2407.13524v1 ) ライセンス: Link先を確認 | Ilhoon Yoon, Hyeongjun Kwon, Jin Kim, Junyoung Park, Hyunsung Jang, Kwanghoon Sohn, | (参考訳) Source-Free Domain Adaptive Object Detection (SFOD)は、トレーニング済みの検出器を、ソースデータにアクセスすることなく、新しい未ラベルのドメインにデプロイする、データプライバシと効率に関する重要な懸念に対処するための、有望な戦略である。
ほとんどのSFOD法は、高信頼 Pseudo Labels (HPL) に大きく依存する平均教師(MT)自己学習パラダイムを利用している。
しかし、これらのHPLはドメインシフトによって大きく変化する小さなインスタンスをしばしば見落としている。
さらに、HPLはトレーニングサンプルが不足しているため、信頼性の低いインスタンスを無視し、ソースドメインの親しみやすいインスタンスに適応する。
この制限に対処するため、我々は、平均教師に基づくSFODフレームワークにおいて、低信頼 Pseudo Label Distillation (LPLD) の損失を導入する。
この新しいアプローチは、不慣れなドメインにおける難しい検出対象を含む可能性がある領域提案ネットワーク(RPN)の提案を活用するように設計されている。
当初、我々は標準的な擬似ラベル技術を用いてHPLを抽出し、RPNが生成した提案から低信頼Pseudo Labels (LPL) のセットを抽出し、HPLとあまり重複しないものを残した。
これらのLPLは、クラス関係情報を活用し、LPLD損失計算に固有のノイズの影響を低減することにより、さらに洗練される。
さらに,機能距離を用いてLPLD損失を適応的に重み付けし,より広い前景領域を含むLPLに着目した。
本手法は,4つのクロスドメインオブジェクト検出ベンチマークにおいて,従来のSFOD法よりも優れていた。
我々のLPLD損失は、偽陰性を低減し、ソースモデルからのドメイン不変知識の使用を促進することによって、効果的な適応をもたらすことを示す。
コードはhttps://github.com/junia3/LPLDで公開されている。
Source-Free domain adaptive Object Detection (SFOD) is a promising strategy for deploying trained detectors to new, unlabeled domains without accessing source data, addressing significant concerns around data privacy and efficiency. Most SFOD methods leverage a Mean-Teacher (MT) self-training paradigm relying heavily on High-confidence Pseudo Labels (HPL). However, these HPL often overlook small instances that undergo significant appearance changes with domain shifts. Additionally, HPL ignore instances with low confidence due to the scarcity of training samples, resulting in biased adaptation toward familiar instances from the source domain. To address this limitation, we introduce the Low-confidence Pseudo Label Distillation (LPLD) loss within the Mean-Teacher based SFOD framework. This novel approach is designed to leverage the proposals from Region Proposal Network (RPN), which potentially encompasses hard-to-detect objects in unfamiliar domains. Initially, we extract HPL using a standard pseudo-labeling technique and mine a set of Low-confidence Pseudo Labels (LPL) from proposals generated by RPN, leaving those that do not overlap significantly with HPL. These LPL are further refined by leveraging class-relation information and reducing the effect of inherent noise for the LPLD loss calculation. Furthermore, we use feature distance to adaptively weight the LPLD loss to focus on LPL containing a larger foreground area. Our method outperforms previous SFOD methods on four cross-domain object detection benchmarks. Extensive experiments demonstrate that our LPLD loss leads to effective adaptation by reducing false negatives and facilitating the use of domain-invariant knowledge from the source model. Code is available at https://github.com/junia3/LPLD. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 線形エキスパートのスパースミックスによる効果的かつ解釈可能なアウトカム予測に関する考察
Discussion: Effective and Interpretable Outcome Prediction by Training Sparse Mixtures of Linear Experts ( http://arxiv.org/abs/2407.13526v1 ) ライセンス: Link先を確認 | Francesco Folino, Luigi Pontieri, Pietro Sabatino, | (参考訳) プロセスアウトカム予測では、未完了のプロセスインスタンスの離散特性をその部分トレースから予測する。
アンサンブル法と深層学習法で発見された高容量結果予測器は、最高精度のパフォーマンスを達成することが示されているが、透明性の欠如に悩まされている。
そこで本研究では,「ゲート」と「エキスパート」の2つのサブネットがロジスティック回帰器であるような,スパース・ミックス・オブ・エキスパートを訓練することを提案する。
このアンサンブルのようなモデルは、各サブネットにおける入力機能のサブセットを自動的に選択しながら、エンドツーエンドで訓練される。
ベンチマークログの試験結果から, 本手法の有効性と有効性が確認された。
Process Outcome Prediction entails predicting a discrete property of an unfinished process instance from its partial trace. High-capacity outcome predictors discovered with ensemble and deep learning methods have been shown to achieve top accuracy performances, but they suffer from a lack of transparency. Aligning with recent efforts to learn inherently interpretable outcome predictors, we propose to train a sparse Mixture-of-Experts where both the ``gate'' and ``expert'' sub-nets are Logistic Regressors. This ensemble-like model is trained end-to-end while automatically selecting a subset of input features in each sub-net, as an alternative to the common approach of performing a global feature selection step prior to model training. Test results on benchmark logs confirmed the validity and efficacy of this approach. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 古典的符号とバッドソン・アダマール行列を用いた量子安定化器符号の構成
A Construction of Quantum Stabilizer Codes from Classical Codes and Butson Hadamard Matrices ( http://arxiv.org/abs/2407.13527v1 ) ライセンス: Link先を確認 | Bulent Sarac, Damla Acar, | (参考訳) 本稿では,古典線形符号 C が次元 k の F_q^n の部分集合であり,古典線型符号 D が次元 s の F_q^k^m の部分集合であることを示す構成的証明を与える。
構成では、位数 p のフーリエ行列の複数のクロネッカー積と等価な特定のタイプのブソン・アダマール行列を用いる。
また、一般正規化されたバトソン・アダマール行列に対する量子符号の同様の構成も検討し、量子符号が安定化符号となる条件を探索する。
In this paper, we give a constructive proof to show that if there exist a classical linear code C is a subset of F_q^n of dimension k and a classical linear code D is a subset of F_q^k^m of dimension s, where q is a power of a prime number p, then there exists an [[nm, ks, d]]_q quantum stabilizer code with d determined by C and D by identifying the stabilizer group of the code. In the construction, we use a particular type of Butson Hadamard matrices equivalent to multiple Kronecker products of the Fourier matrix of order p. We also consider the same construction of a quantum code for a general normalized Butson Hadamard matrix and search for a condition for the quantum code to be a stabilizer code. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# 実験試料効率とデバイス非依存GHZ状態認証
Experimental Sample-Efficient and Device-Independent GHZ State Certification ( http://arxiv.org/abs/2407.13529v1 ) ライセンス: Link先を確認 | Laura dos Santos Martins, Nicolas Laurent-Puig, Ivan Šupić, Damian Markham, Eleni Diamanti, | (参考訳) 量子資源の認証は、量子情報処理の開発において重要なツールである。
特に、量子状態検証は、通信および計算アプリケーションのための基本的なビルディングブロックであり、関係者が手元にあるリソースを信頼できるかどうか、アプリケーションが中止されるべきかどうかを判断する。
デバイス非依存(DI)設定において、このような検証タスクに取り組むために自己検査手法が用いられている。
しかし、これらのアプローチは一般的に大きな(漸近的で、同一かつ独立に分散された(IID)サンプルの限界を考慮し、DI要求を弱め、実験的な実装に深刻な課題をもたらす。
ここでは、数コップおよび非IID状態における量子状態の認証を可能にする理論的プロトコルを採用し、高忠実度多部共役光子源を活用することにより、これらの課題を克服する。
これにより、量子情報タスクの堅牢で信頼性の高い実装に容易に使用できる4量子GHZ状態の単一コピーの、効率的でデバイスに依存しない認証を示すことができる。
The certification of quantum resources is a critical tool in the development of quantum information processing. In particular, quantum state verification is a fundamental building block for communication and computation applications, determining whether the involved parties can trust the resources at hand or whether the application should be aborted. Self-testing methods have been used to tackle such verification tasks in a device-independent (DI) setting. However, these approaches commonly consider the limit of large (asymptotic), identically and independently distributed (IID) samples, which weakens the DI claim and poses serious challenges to their experimental implementation. Here we overcome these challenges by adopting a theoretical protocol enabling the certification of quantum states in the few-copies and non-IID regime and by leveraging a high-fidelity multipartite entangled photon source. This allows us to show the efficient and device-independent certification of a single copy of a four-qubit GHZ state that can readily be used for the robust and reliable implementation of quantum information tasks. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# RecBole と LensKit におけるItemKNN の性能評価
Evaluating the performance-deviation of itemKNN in RecBole and LensKit ( http://arxiv.org/abs/2407.13531v1 ) ライセンス: Link先を確認 | Michael Schmidt, Jannik Nitschke, Tim Prinz, | (参考訳) 本研究では、RecBoleおよびLensKitレコメンダシステムライブラリにおけるアイテムベースk-Nearest Neighbors(ItemKNN)アルゴリズムの性能について検討する。
4つのデータセット(Anime, Modcloth, ML-100K, ML-1M)を用いて, 各ライブラリの効率, 精度, スケーラビリティを評価し, 主に正規化割引累積ゲイン(nDCG)に着目した。
その結果、RecBoleはML-100Kデータセットの3つの指標のうち2つでLensKitより優れており、NDCGが18%、精度が14%、リコールが35%高かった。
公平な比較をするために、LensKitのnDCG計算をRecBoleの手法に合わせるように調整した。
このアライメントにより、LensKitは0.2540とRecBole 0.2674のnDCGを達成した。
類似度行列計算の差が性能差の主な原因として同定された。
上位K項目のみを保持するためにLensKitを変更した後、両方のライブラリはすべてのデータセットでほぼ同一のnDCG値を示した。
例えば、どちらも同じランダムシードを持つML-1Mデータセットで0.2586のnDCGを達成した。
当初、LensKitのオリジナルの実装はModClothデータセットでRecBoleを上回っただけだった。
This study examines the performance of item-based k-Nearest Neighbors (ItemKNN) algorithms in the RecBole and LensKit recommender system libraries. Using four data sets (Anime, Modcloth, ML-100K, and ML-1M), we assess each library's efficiency, accuracy, and scalability, focusing primarily on normalized discounted cumulative gain (nDCG). Our results show that RecBole outperforms LensKit on two of three metrics on the ML-100K data set: it achieved an 18% higher nDCG, 14% higher precision, and 35% lower recall. To ensure a fair comparison, we adjusted LensKit's nDCG calculation to match RecBole's method. This alignment made the performance more comparable, with LensKit achieving an nDCG of 0.2540 and RecBole 0.2674. Differences in similarity matrix calculations were identified as the main cause of performance deviations. After modifying LensKit to retain only the top K similar items, both libraries showed nearly identical nDCG values across all data sets. For instance, both achieved an nDCG of 0.2586 on the ML-1M data set with the same random seed. Initially, LensKit's original implementation only surpassed RecBole in the ModCloth dataset. | 翻訳日:2024-07-19 15:10:55 公開日:2024-07-18 |
# VeriQR: 量子機械学習モデルのためのロバスト性検証ツール
VeriQR: A Robustness Verification Tool for Quantum Machine Learning Models ( http://arxiv.org/abs/2407.13533v1 ) ライセンス: Link先を確認 | Yanling Lin, Ji Guan, Wang Fang, Mingsheng Ying, Zhaofeng Su, | (参考訳) 敵対的ノイズアタックは、量子機械学習(QML)モデルに重大な脅威をもたらす。
これは、ノイズが避けられない現在のノイズ中間スケール量子時代において特に当てはまる。
したがって、デプロイ前にQMLモデルの堅牢性を保証することが不可欠である。
この課題に対処するために、QMLモデルの堅牢性を正式に検証し改善するために設計された最初のツールである \textit{VeriQR} を、私たちの知識の最大限に活用する。
このツールは、QMLモデルの堅牢性を正式に検証するためにランダムノイズを取り入れることで、現実世界の量子ハードウェアのノイズの影響を模倣する。
\textit{VeriQR} は、局所的および大域的堅牢性検証のための正確な(音と完全)アルゴリズムをサポートする。
効率を向上させるために、局所的および大域的ロバスト性を検証するために、アンダー近似(完全)アルゴリズムとテンソルネットワークベースのアルゴリズムを実装している。
公式な検証ツールとして、現実世界の量子機械学習モデルの実験で実証されたように、 \textit{VeriQR} は敵のサンプルを検出し、さらなる分析に利用し、敵のトレーニングを通じて局所的なロバスト性を高めることができる。
さらに、ユーザがカスタマイズされたノイズを組み込むこともできる。
この特徴に基づき,実世界の実例を用いて \textit{VeriQR} の評価を行い,量子ノイズの付加がQMLモデルの大域的ロバスト性を高めることを示す実験結果を得た。
これらのプロセスは、量子コンピューティングの反直観的確率的性質の深い理解を必要とせず、一般ユーザ向けに提供されたユーザフレンドリーなグラフィカルインターフェースを通じてアクセスすることができる。
Adversarial noise attacks present a significant threat to quantum machine learning (QML) models, similar to their classical counterparts. This is especially true in the current Noisy Intermediate-Scale Quantum era, where noise is unavoidable. Therefore, it is essential to ensure the robustness of QML models before their deployment. To address this challenge, we introduce \textit{VeriQR}, the first tool designed specifically for formally verifying and improving the robustness of QML models, to the best of our knowledge. This tool mimics real-world quantum hardware's noisy impacts by incorporating random noise to formally validate a QML model's robustness. \textit{VeriQR} supports exact (sound and complete) algorithms for both local and global robustness verification. For enhanced efficiency, it implements an under-approximate (complete) algorithm and a tensor network-based algorithm to verify local and global robustness, respectively. As a formal verification tool, \textit{VeriQR} can detect adversarial examples and utilize them for further analysis and to enhance the local robustness through adversarial training, as demonstrated by experiments on real-world quantum machine learning models. Moreover, it permits users to incorporate customized noise. Based on this feature, we assess \textit{VeriQR} using various real-world examples, and experimental outcomes confirm that the addition of specific quantum noise can enhance the global robustness of QML models. These processes are made accessible through a user-friendly graphical interface provided by \textit{VeriQR}, catering to general users without requiring a deep understanding of the counter-intuitive probabilistic nature of quantum computing. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 適応スパイクニューロンを用いたニューロモルフィックハードウェア上のRNNの正確なマッピング
Accurate Mapping of RNNs on Neuromorphic Hardware with Adaptive Spiking Neurons ( http://arxiv.org/abs/2407.13534v1 ) ライセンス: Link先を確認 | Gauthier Boeshertz, Giacomo Indiveri, Manu Nair, Alpha Renner, | (参考訳) 並列かつスパースなアクティビティ機能のおかげで、リカレントニューラルネットワーク(RNN)は低消費電力のニューロモルフィックハードウェアのハードウェア実装に適している。
しかし、ハードウェア互換のスパイクニューラルネットワーク(SNN)へのマッピングレートベースのRNNは依然として困難である。
本稿では,${\Sigma}{\Delta}$-low-pass RNN (lpRNN):${\Sigma}{\Delta}$-modulationを用いて信号を符号化し,正確なマッピングを可能にする適応スパイキングニューロンモデルを用いたRNNアーキテクチャを提案する。
${\Sigma}{\Delta}$-neuronはスパイクタイミングを用いてアナログ値と通信し、lpRNNのダイナミクスは音声などの自然信号を処理する典型的な時間スケールと一致するように設定される。
我々の手法はレートと時間符号化を統合し、RNNをSNNに効率よく正確に変換するための堅牢なソリューションを提供する。
我々は,Intelのニューロモルフィック研究チップであるLoihiにおけるlpRNNの実装を実演し,3ビット重みを用いたオーディオベンチマークの最先端の分類結果を得た。
これらの結果から、イベントベースのシステムにおける頻繁性や適応性についてより深く研究し、電力効率のよいリアルタイム推論が必要なエッジコンピューティングアプリケーションに対する洞察につながる可能性がある。
Thanks to their parallel and sparse activity features, recurrent neural networks (RNNs) are well-suited for hardware implementation in low-power neuromorphic hardware. However, mapping rate-based RNNs to hardware-compatible spiking neural networks (SNNs) remains challenging. Here, we present a ${\Sigma}{\Delta}$-low-pass RNN (lpRNN): an RNN architecture employing an adaptive spiking neuron model that encodes signals using ${\Sigma}{\Delta}$-modulation and enables precise mapping. The ${\Sigma}{\Delta}$-neuron communicates analog values using spike timing, and the dynamics of the lpRNN are set to match typical timescales for processing natural signals, such as speech. Our approach integrates rate and temporal coding, offering a robust solution for the efficient and accurate conversion of RNNs to SNNs. We demonstrate the implementation of the lpRNN on Intel's neuromorphic research chip Loihi, achieving state-of-the-art classification results on audio benchmarks using 3-bit weights. These results call for a deeper investigation of recurrency and adaptation in event-based systems, which may lead to insights for edge computing applications where power-efficient real-time inference is required. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# ビジュアルナビゲーションの基本アルゴリズム:間接シーケンス, バイアス拡散, 直接パス
Fundamental Visual Navigation Algorithms: Indirect Sequential, Biased Diffusive, & Direct Pathing ( http://arxiv.org/abs/2407.13535v1 ) ライセンス: Link先を確認 | Patrick Govoni, Pawel Romanczuk, | (参考訳) 予測可能なローカル環境での効果的な捕食は、単語やナビゲーションにおいて、観測可能な空間コンテキストで動きを調整する必要がある。
検索とは別物であり、価値ある場所をナビゲートすることは、独自の特殊性を必要とする。
視覚を通して空間がどのように理解され、ナビゲーションのために解析されるかは、しばしば実験的に検討され、感覚入力を操作したり、アルゴリズムによる意思決定のレベルを探索する能力に制限がある。
経験的手段に代わる、一般化可能な最小限の代替手段として、私たちは、生体が視覚空間ナビゲーションに使用できる情報処理アルゴリズムを探索するために、埋め込みニューラルネットワークを進化させ、研究する。
驚くべきことに、3つの異なるアルゴリズムのクラスが出現し、それぞれが独自のルールとトレードオフを持ち、それぞれが観測可能な生物学的ナビゲーション行動に非常に関連しているように見える。
Effective foraging in a predictable local environment requires coordinating movement with observable spatial context - in a word, navigation. Distinct from search, navigating to specific areas known to be valuable entails its own particularities. How space is understood through vision and parsed for navigation is often examined experimentally, with limited ability to manipulate sensory inputs and probe into the algorithmic level of decision-making. As a generalizable, minimal alternative to empirical means, we evolve and study embodied neural networks to explore information processing algorithms an organism may use for visual spatial navigation. Surprisingly, three distinct classes of algorithms emerged, each with its own set of rules and tradeoffs, and each appear to be highly relevant to observable biological navigation behaviors. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# GlobalPointer: 両凸緩和による大規模平面調整
GlobalPointer: Large-Scale Plane Adjustment with Bi-Convex Relaxation ( http://arxiv.org/abs/2407.13537v1 ) ライセンス: Link先を確認 | Bangyan Liao, Zhenjun Zhao, Lu Chen, Haoang Li, Daniel Cremers, Peidong Liu, | (参考訳) 平面調整(PA)は多くの3Dアプリケーションにおいて重要であり、同時にポーズ推定と平面の復元を行う。
近年の進歩にもかかわらず、マルチビューポイントクラウド登録の領域では依然として難しい問題である。
現在の最先端の手法は、優れた初期化によってのみ、大域的に最適な収束を達成することができる。
さらに、その高速な複雑さは、大規模な問題には実用的ではない。
これらの課題に対処するために、まず最初に、元の問題を2つのより単純なサブプロブレムに分解し、凸緩和技術を用いて各サブプロブレムを再構成し、元の問題が収束するまで各問題を交互に解決する「textit{Bi-Convex Relaxation}」という新しい最適化戦略を利用する。
この戦略に基づいて,平面調整問題を解くための2つのアルゴリズム的変種,すなわち,点対平面誤差と平面対平面誤差に基づいて,それぞれ \textit{GlobalPointer} と \textit{GlobalPointer++} を提案する。
合成データと実データの両方に対する大規模な実験により, 線形時間複雑度, 収束領域の増大, 初期化不良に対するロバスト性を考慮した大規模平面調整が可能であり, 従来手法と同等の精度が得られた。
コードは \href{https://github.com/wu-cvgl/GlobalPointer}{github.com/wu-cvgl/GlobalPointer} で入手できる。
Plane adjustment (PA) is crucial for many 3D applications, involving simultaneous pose estimation and plane recovery. Despite recent advancements, it remains a challenging problem in the realm of multi-view point cloud registration. Current state-of-the-art methods can achieve globally optimal convergence only with good initialization. Furthermore, their high time complexity renders them impractical for large-scale problems. To address these challenges, we first exploit a novel optimization strategy termed \textit{Bi-Convex Relaxation}, which decouples the original problem into two simpler sub-problems, reformulates each sub-problem using a convex relaxation technique, and alternately solves each one until the original problem converges. Building on this strategy, we propose two algorithmic variants for solving the plane adjustment problem, namely \textit{GlobalPointer} and \textit{GlobalPointer++}, based on point-to-plane and plane-to-plane errors, respectively. Extensive experiments on both synthetic and real datasets demonstrate that our method can perform large-scale plane adjustment with linear time complexity, larger convergence region, and robustness to poor initialization, while achieving similar accuracy as prior methods. The code is available at \href{https://github.com/wu-cvgl/GlobalPointer}{github.com/wu-cvgl/GlobalPointer} | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 自己監督型表現学習の識別可能性について
On the Discriminability of Self-Supervised Representation Learning ( http://arxiv.org/abs/2407.13541v1 ) ライセンス: Link先を確認 | Zeen Song, Wenwen Qiang, Changwen Zheng, Fuchun Sun, Hui Xiong, | (参考訳) 自己教師付き学習(SSL)は、最近、下流の視覚タスクで大きな成功を収めた。
しかし、特に複雑な下流タスクにおいて、SSLと教師あり学習(SL)の間には、注目すべきギャップがまだ残っている。
本稿では,SSL手法で学習した特徴が,異なるクラスの特徴が明確に分離されていない群集問題に悩まされ,同一クラス内の特徴が大きなクラス内でのばらつきを示すことを示す。
対照的に、SLはクラス間の明確な分離を保証する。
我々は、この現象を分析し、SSLの目的が異なるサンプルとそれらの拡張の関係を制約しないことを結論づける。
我々の理論的分析は、SSLの目的が、サンプルと拡張の間の必要な制約を強制できないか、そして複雑なタスクにおいてパフォーマンスが低下する原因について考察している。
SSL と SL のパフォーマンスギャップは,SSL メソッドが同様の拡張の集合を捕捉できないこと,異種拡張の分離に起因している,という理論的枠組みを提供する。
この問題に対処するために,動的意味調整器 (DSA) と呼ばれる学習可能なレギュレータを提案する。
DSAは、外れ値に対して堅牢でありながら、特徴空間のサンプルを集約して分離する。
複数のベンチマークデータセットに対する広範な経験的評価を通じて、機能集約と分離の強化におけるDSAの優位性を実証し、最終的にSSLとSLのパフォーマンスギャップを埋める。
Self-supervised learning (SSL) has recently achieved significant success in downstream visual tasks. However, a notable gap still exists between SSL and supervised learning (SL), especially in complex downstream tasks. In this paper, we show that the features learned by SSL methods suffer from the crowding problem, where features of different classes are not distinctly separated, and features within the same class exhibit large intra-class variance. In contrast, SL ensures a clear separation between classes. We analyze this phenomenon and conclude that SSL objectives do not constrain the relationships between different samples and their augmentations. Our theoretical analysis delves into how SSL objectives fail to enforce the necessary constraints between samples and their augmentations, leading to poor performance in complex tasks. We provide a theoretical framework showing that the performance gap between SSL and SL mainly stems from the inability of SSL methods to capture the aggregation of similar augmentations and the separation of dissimilar augmentations. To address this issue, we propose a learnable regulator called Dynamic Semantic Adjuster (DSA). DSA aggregates and separates samples in the feature space while being robust to outliers. Through extensive empirical evaluations on multiple benchmark datasets, we demonstrate the superiority of DSA in enhancing feature aggregation and separation, ultimately closing the performance gap between SSL and SL. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 高次元高密度ユニタリ量子過程の固有解析に基づく多段階トモグラフィー
Multi-stage tomography based on eigenanalysis for high-dimensional dense unitary quantum processes ( http://arxiv.org/abs/2407.13542v1 ) ライセンス: Link先を確認 | Yannick Deville, Alain Deville, | (参考訳) 量子プロセストモグラフィー (Quantum Process Tomography, QPT) は、量子過程を推定する手法である。
QPTは主要な量子情報処理ツールであり、特に量子ゲートの実際の動作を実験的に特徴づけることができるため、量子コンピュータの構成要素として使用できる。
ここでは、孤立系に対応するユニタリで、おそらく密度の高いプロセス(すなわち、疎性制約のないプロセス)を考える。
さらに,多くの量子ビットに適用可能なQPT手法の開発を目標とし,より複雑な問題に対処できるような空間次元の高次化を目指す。
プロセスのユニタリ性を利用することで、プロセス出力の推定密度行列の固有解析を行うことで、QPTの一部を最初に達成する手法を開発することができる。
この考えに基づいて、我々はまず単一の段階、すなわち1つの固有分解のみを使用する完全アルゴリズムのクラスを開発する。
任意の量子状態トモグラフィー(QST)アルゴリズムを全手法のビルディングブロックとして使用する場合、高次元状態空間に対処する一方で、推定誤差の少ないマルチステージアルゴリズム(例えば、複数の固有分解を含む)に拡張する。
まず, 2段階法を提案し, 検討された状態空間次元とともに段数が増加する2段階法に拡張する。
本手法の妥当性はシミュレーションにより検証した。
単段法と二段法は、まず次の結果を得る。
標準のPCとソフトウェアでそれらを実行するだけで、最大13キュービットのパフォーマンス、すなわち状態空間の次元を数千まで評価することができる。
これは精度の点で彼らの魅力を示し、非常に限られた時間枠で高密度QPT問題のコアを解くことを証明している。
その他のテスト結果については、論文を参照してください。
Quantum Process Tomography (QPT) methods aim at identifying, i.e. estimating, a quantum process. QPT is a major quantum information processing tool, since it especially allows one to experimentally characterize the actual behavior of quantum gates, that may be used as the building blocks of quantum computers. We here consider unitary, possibly dense (i.e. without sparsity constraints) processes, which corresponds to isolated systems. Moreover, we aim at developing QPT methods that are applicable to a significant number of qubits and hence to a high state space dimension, which allows one to tackle more complex problems. Using the unitarity of the process allows us to develop methods that first achieve part of QPT by performing an eigenanalysis of the estimated density matrix of a process output. Building upon this idea, we first develop a class of complete algorithms that are single-stage, i.e. that use only one eigendecomposition. We then extend them to multiple-stage algorithms (i.e. with several eigendecompositions), in order to address high-dimensional state spaces while being less limited by the estimation errors made when using an arbitrary given Quantum State Tomography (QST) algorithm as a building block of our overall methods. We first propose two-stage methods and we then extend them to dichotomic methods, whose number of stages increases with the considered state space dimension. The relevance of our methods is validated by means of simulations. Single-stage and two-stage methods first yield the following results. Just running them with standard PC and software already makes it possible to evaluate their performance for up to 13 qubits, i.e. with state space dimensions up to a few thousands. This shows their attractiveness in terms of accuracy and proves that they solve the core of the dense QPT problem in a very limited time frame. For other test results, see the paper. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# DiffuX2CT:2平面X線からのCT画像再構成のための拡散学習
DiffuX2CT: Diffusion Learning to Reconstruct CT Images from Biplanar X-Rays ( http://arxiv.org/abs/2407.13545v1 ) ライセンス: Link先を確認 | Xuhui Liu, Zhi Qiao, Runkun Liu, Hong Li, Juan Zhang, Xiantong Zhen, Zhen Qian, Baochang Zhang, | (参考訳) CT(Computed tomography)は,ヒトの3D画像の詳細な画像を提供するため,臨床現場で広く利用されている。
しかし,特定の手術環境における放射線曝露や制限のため,CTスキャンの実施は必ずしも不可能ではない。
代替として、超スパースX線からのCT画像の再構成は貴重な解決策であり、科学研究や医学応用に大きな関心を寄せている。
しかし、これは本質的に不適切な問題であり、しばしばX線画像の重なり合う構造から生じるアーティファクトによって妥協されるため、大きな課題となる。
本稿では,直交二平面X線からのCT再構成を条件拡散過程としてモデル化したDiffuX2CTを提案する。
DiffuX2CTは、新しい暗黙の条件付け機構を備えた3次元グローバルコヒーレンス認知モデルで構築されている。
新たに設計された三面分離器と暗黙のニューラルデコーダによる条件付け機構を実現する。
これにより、DiffuX2CTは2次元X線から3次元構造情報を復元できる構造制御可能な再構成を実現し、CT画像に忠実なテクスチャを生成する。
コントリビューションとして,LumbarVと呼ばれる実世界の腰椎CTデータセットを新しいベンチマークとして収集し,X線からのCT再構成の臨床的意義と性能を検証する。
このデータセットに関する大規模な実験と、より公開可能な3つのデータセットは、提案の有効性を実証している。
Computed tomography (CT) is widely utilized in clinical settings because it delivers detailed 3D images of the human body. However, performing CT scans is not always feasible due to radiation exposure and limitations in certain surgical environments. As an alternative, reconstructing CT images from ultra-sparse X-rays offers a valuable solution and has gained significant interest in scientific research and medical applications. However, it presents great challenges as it is inherently an ill-posed problem, often compromised by artifacts resulting from overlapping structures in X-ray images. In this paper, we propose DiffuX2CT, which models CT reconstruction from orthogonal biplanar X-rays as a conditional diffusion process. DiffuX2CT is established with a 3D global coherence denoising model with a new, implicit conditioning mechanism. We realize the conditioning mechanism by a newly designed tri-plane decoupling generator and an implicit neural decoder. By doing so, DiffuX2CT achieves structure-controllable reconstruction, which enables 3D structural information to be recovered from 2D X-rays, therefore producing faithful textures in CT images. As an extra contribution, we collect a real-world lumbar CT dataset, called LumbarV, as a new benchmark to verify the clinical significance and performance of CT reconstruction from X-rays. Extensive experiments on this dataset and three more publicly available datasets demonstrate the effectiveness of our proposal. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 不確かさを意識したクロストレーニングによるSAM-Driven Weakly Supervised Nodule Segmentation
SAM-Driven Weakly Supervised Nodule Segmentation with Uncertainty-Aware Cross Teaching ( http://arxiv.org/abs/2407.13553v1 ) ライセンス: Link先を確認 | Xingyue Zhao, Peiqi Li, Xiangde Luo, Meng Yang, Shi Chang, Zhongyu Li, | (参考訳) 自動結節分割は超音波画像におけるコンピュータ支援診断に不可欠である。
それにもかかわらず、既存のほとんどの方法は医療専門家による正確なピクセルレベルのアノテーションに依存しており、これはコストが高く、労働集約的なプロセスである。
近年、SAMのようなセグメンテーション基礎モデルは自然画像に顕著な一般化性を示し、擬似ラベルとしての可能性を示している。
しかし、医療画像において、正確なプロンプトは依然として不可欠である。
本研究では, 自動結節分割のためのアスペクトレーションアノテーションから擬似ラベルを生成するために, セグメンテーション基盤モデルを効果的に活用する, 弱教師付きフレームワークを考案する。
具体的には,3種類の有界箱プロンプトを開発し,次に適応的な擬似ラベル選択モジュールを用いてノジュールの基本モデルの予測能力をフル活用する。
また,SAM駆動型不確実性認識型クロスティーチング戦略を提案する。
この手法はSAMに基づく不確実性推定とラベル空間の摂動を相互学習に統合し、擬似ラベル不正確さがモデルトレーニングに与える影響を軽減する。
臨床的に収集した2つの超音波データセットに対する大規模な実験により,提案手法の優れた性能が示された。
Automated nodule segmentation is essential for computer-assisted diagnosis in ultrasound images. Nevertheless, most existing methods depend on precise pixel-level annotations by medical professionals, a process that is both costly and labor-intensive. Recently, segmentation foundation models like SAM have shown impressive generalizability on natural images, suggesting their potential as pseudo-labelers. However, accurate prompts remain crucial for their success in medical images. In this work, we devise a novel weakly supervised framework that effectively utilizes the segmentation foundation model to generate pseudo-labels from aspect ration annotations for automatic nodule segmentation. Specifically, we develop three types of bounding box prompts based on scalable shape priors, followed by an adaptive pseudo-label selection module to fully exploit the prediction capabilities of the foundation model for nodules. We also present a SAM-driven uncertainty-aware cross-teaching strategy. This approach integrates SAM-based uncertainty estimation and label-space perturbations into cross-teaching to mitigate the impact of pseudo-label inaccuracies on model training. Extensive experiments on two clinically collected ultrasound datasets demonstrate the superior performance of our proposed method. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# PetFace: 動物識別のための大規模データセットとベンチマーク
PetFace: A Large-Scale Dataset and Benchmark for Animal Identification ( http://arxiv.org/abs/2407.13555v1 ) ライセンス: Link先を確認 | Risa Shinoda, Kaede Shiohara, | (参考訳) 動物の顔の自動識別は、行動の監視、調査の実施、失われた動物の発見に重要な役割を果たしている。
人間の顔認証の進歩にもかかわらず、動物領域におけるデータセットやベンチマークの欠如は進歩を妨げている。
本稿では,実験動物とペット動物の両方を含む,13種の動物科および319種の異なる257,484種の動物顔識別のための包括的リソースであるPetFaceデータセットを紹介する。
この大規模な個体の収集は、個体数が限られているため、既存のデータセットで十分に調査されていない領域である未確認動物の顔認証の調査を促進する。
さらにPetFaceには、セックス、種別、色、パターンといった細かいアノテーションもある。
対象個人に対する再識別や,未確認個人に対する検証を含む,複数のベンチマークを提供する。
私たちのデータセットでトレーニングされたモデルは、詳細な品種のバリエーションや目に見えない動物の家族であっても、以前のデータセットでトレーニングされたモデルよりも優れています。
以上の結果から,複数個体群における統合的識別性能を向上させる余地があることが示唆された。
PetFaceデータセットは、動物の顔の識別を促進し、非侵襲的な動物自動識別方法の開発を促進することを願っている。
Automated animal face identification plays a crucial role in the monitoring of behaviors, conducting of surveys, and finding of lost animals. Despite the advancements in human face identification, the lack of datasets and benchmarks in the animal domain has impeded progress. In this paper, we introduce the PetFace dataset, a comprehensive resource for animal face identification encompassing 257,484 unique individuals across 13 animal families and 319 breed categories, including both experimental and pet animals. This large-scale collection of individuals facilitates the investigation of unseen animal face verification, an area that has not been sufficiently explored in existing datasets due to the limited number of individuals. Moreover, PetFace also has fine-grained annotations such as sex, breed, color, and pattern. We provide multiple benchmarks including re-identification for seen individuals and verification for unseen individuals. The models trained on our dataset outperform those trained on prior datasets, even for detailed breed variations and unseen animal families. Our result also indicates that there is some room to improve the performance of integrated identification on multiple animal families. We hope the PetFace dataset will facilitate animal face identification and encourage the development of non-invasive animal automatic identification methods. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# Qalam : アラビア文字と手書き文字認識のためのマルチモーダルLCM
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition ( http://arxiv.org/abs/2407.13559v1 ) ライセンス: Link先を確認 | Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed, | (参考訳) アラビア語の光学文字認識(OCR)と手書き文字認識(HWR)は、アラビア文字の曲的で文脈に敏感な性質のため、独特の課題を提起する。
本研究では,SwinV2エンコーダとRoBERTaデコーダアーキテクチャ上に構築されたアラビアOCRとHWR用に設計された新しい基礎モデルであるQalamを紹介する。
提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
アラビア文字の原稿から450万枚以上の画像と60万枚の画像テキストペアからなる合成データセットを含む、さまざまなデータセットでQalamをトレーニングします。
特に、カラムはアラビア文字の重要な特徴であるアラビア語のダイアクリティカルな扱いを示す。
さらに、現在のOCRシステムにおける共通制限に対処するため、高分解能入力を処理できることが顕著である。
これらの進歩は、アラビア文字認識の先駆的な解決策としてカラムの可能性を浮き彫りにし、精度と効率を飛躍させた。
Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam's potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# LLMに基づくチベット観光ビューポイント情報生成システムに関する研究
Research on Tibetan Tourism Viewpoints information generation system based on LLM ( http://arxiv.org/abs/2407.13561v1 ) ライセンス: Link先を確認 | Jinhu Qi, Shuai Yan, Wentao Zhang, Yibo Zhang, Zirui Liu, Ke Wang, | (参考訳) チベットは中国の領土拡大の中で定着しており、そのラビリンチンと不均一な地形、その重要な歴史的遺産の証し、独特の宗教的な民族の揺らぎによって区別されている。
しかし、これらの属性の本質は、チベットの観光サービスインフラの進歩を阻害し、既存のスマート観光サービスが地域の訪問者に不適切になった。
本研究は,チベット観光観光地における情報格差の増大と,大規模言語モデル(LLM)評価基準の確立という課題に対処するものである。
モデル機能を強化し、最適化プロセスを強化するために教師付き微調整技術を採用した、革新的なアプローチであるDualGen Bridge AIシステムを導入している。
さらに、マルチ構造化された生成結果評価フレームワークの先駆者でもある。
実証的な検証は、このフレームワークの有効性を確認します。
この研究は、観光地情報の生成を改善することを目的とした、独自のDualGen Bridge AIにおける教師付き微調整手法の適用についても検討している。
この研究は、システムのパフォーマンスを最適化するための貴重な洞察を与え、チベットの観光サービスなどにおけるLLM技術の適用への支援とインスピレーションを提供し、高度でカスタマイズされた情報生成機能を備えたスマート観光産業に革命をもたらす可能性がある。
Tibet, ensconced within China's territorial expanse, is distinguished by its labyrinthine and heterogeneous topography, a testament to its profound historical heritage, and the cradle of a unique religious ethos. The very essence of these attributes, however, has impeded the advancement of Tibet's tourism service infrastructure, rendering existing smart tourism services inadequate for the region's visitors. This study delves into the ramifications of informational disparities at tourist sites on Tibetan tourism and addresses the challenge of establishing the Large Language Model (LLM) evaluation criteria. It introduces an innovative approach, the DualGen Bridge AI system, employing supervised fine-tuning techniques to bolster model functionality and enhance optimization processes. Furthermore, it pioneers a multi-structured generative results assessment framework. Empirical validation confirms the efficacy of this framework. The study also explores the application of the supervised fine-tuning method within the proprietary DualGen Bridge AI, aimed at refining the generation of tourist site information. The study's findings offer valuable insights for optimizing system performance and provide support and inspiration for the application of LLM technology in Tibet's tourism services and beyond, potentially revolutionizing the smart tourism industry with advanced, tailored information generation capabilities. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# AraFinNLPにおけるdzFinNlp: 金融対話エージェントにおけるインテント検出の改善
dzFinNlp at AraFinNLP: Improving Intent Detection in Financial Conversational Agents ( http://arxiv.org/abs/2407.13565v1 ) ライセンス: Link先を確認 | Mohamed Lichouri, Khaled Lounnas, Mohamed Zakaria Amziane, | (参考訳) 本稿では、AraFinNLP共有タスクの一環として、金融対話エージェントにおける意図検出へのdzFinNlpチームの貢献を示す。
TF-IDFを使用したLinearSVCや、Long Short-Term Memory (LSTM)のようなディープラーニングモデルなど、さまざまなモデルや機能構成を実験しました。
さらに,このタスクにおけるトランスフォーマーモデルの利用について検討した。
我々の実験は、ArBanking77データセットでそれぞれ93.02%と67.21%のマイクロF1スコアを達成し、開発とテストセットで有望な結果を示した。
In this paper, we present our dzFinNlp team's contribution for intent detection in financial conversational agents, as part of the AraFinNLP shared task. We experimented with various models and feature configurations, including traditional machine learning methods like LinearSVC with TF-IDF, as well as deep learning models like Long Short-Term Memory (LSTM). Additionally, we explored the use of transformer-based models for this task. Our experiments show promising results, with our best model achieving a micro F1-score of 93.02% and 67.21% on the ArBanking77 dataset, in the development and test sets, respectively. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 自律型サイバー物理システムのための分散ガバナンス
Decentralised Governance for Autonomous Cyber-Physical Systems ( http://arxiv.org/abs/2407.13566v1 ) ライセンス: Link先を確認 | Kelsie Nabben, Hongyang Wang, Michael Zargham, | (参考訳) 本稿では,CPS(Cyber-Physical Systems)が分散的に管理される可能性を検討する。ブロックチェーンベースのインフラは,自己管理と自己組織化の原則を通じて,デジタルドメインと物理ドメイン間の通信を容易にする。
分散ガバナンスパラダイムは、物理的なドメイン(例えば'分散自律組織'(DAOs))に計算を統合することで、自律的なガバナンスとオペレーションに対する新しいアプローチを表現している。
これらはサイバネティックシステムに似ていると説明されている。
この研究は、ブロックチェーンベースのコントロールとフィードバックループを通じて自己所有を実証する“no1s1”と呼ばれる自律型キャビンのケーススタディのレンズを通じて、物理的なシステム管理にブロックチェーンインフラストラクチャが活用される可能性を探る。
自律的な物理的空間を管理するための分散ガバナンスの考察と課題を強調することで、自律的なCPSのガバナンスにおける自律性は単なる技術的成果ではなく、機能的および社会的ダイナミクスの複雑なメッシュも含んでいることが明らかになった。
これらの調査結果は、期待される課題と創発的な課題の両方に対処するために、分散CPS内で継続的フィードバックループと適応ガバナンスフレームワークを開発することの重要性を浮き彫りにしている。
この研究は、赤外線構造研究とサイバー物理システム工学の分野に貢献する。
また、実践的な洞察と将来の研究のための枠組みを提供することによって、分散ガバナンスと物理的空間の自律的な管理に関する談話にも貢献している。
This paper examines the potential for Cyber-Physical Systems (CPS) to be governed in a decentralised manner, whereby blockchain-based infrastructure facilitates the communication between digital and physical domains through self-governing and self-organising principles. Decentralised governance paradigms that integrate computation in physical domains (such as 'Decentralised Autonomous Organisations' (DAOs)) represent a novel approach to autono-mous governance and operations. These have been described as akin to cybernetic systems. Through the lens of a case study of an autonomous cabin called "no1s1" which demonstrates self-ownership via blockchain-based control and feedback loops, this research explores the potential for blockchain infrastructure to be utilised in the management of physical systems. By highlighting the considerations and challenges of decentralised governance in managing autonomous physical spaces, the study reveals that autonomy in the governance of autonomous CPS is not merely a technological feat but also involves a complex mesh of functional and social dynamics. These findings underscore the importance of developing continuous feedback loops and adaptive governance frameworks within decentralised CPS to address both expected and emergent challenges. This investigation contributes to the fields of infra-structure studies and Cyber-Physical Systems engineering. It also contributes to the discourse on decentralised governance and autonomous management of physical spaces by offering both practical insights and providing a framework for future research. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# Hyp2Nav: 群衆ナビゲーションのための双曲的計画と好奇心
Hyp2Nav: Hyperbolic Planning and Curiosity for Crowd Navigation ( http://arxiv.org/abs/2407.13567v1 ) ライセンス: Link先を確認 | Alessandro Flaborea, Guido Maria D'Amely di Melendugno, Pascal Mettes, Fabio Galasso, | (参考訳) 自律型ロボットは、社会環境における強力な道具になりつつある。
効果的なクラウドナビゲーションには、安全かつ高速な計画だけでなく、組み込みデバイス上でリアルタイムに作業するための解釈可能性や計算効率も必要である。
本研究では,集団ナビゲーションを実現するための双曲学習を提唱し,Hyp2Navを紹介する。
従来の強化学習に基づく群集ナビゲーション法とは異なり、Hyp2Navは双曲幾何学の本質的な性質を活用し、ナビゲーションタスクにおける意思決定プロセスの階層的性質をよりよく符号化する。
提案するハイパーボリックポリシーモデルとハイパーボリック好奇性モジュールは,効果的なソーシャルナビゲーション,最高の成功率,複数のシミュレーション設定にまたがるリターンを実現し,競合する最先端モデルに比べて最大6倍のパラメータを用いて提案する。
提案手法により,2次元の埋め込み空間で機能するポリシーを得ることができ,低リソースのクラウドナビゲーションとモデル解釈可能性の新たな可能性を開くことができる。
Hyp2Navの内部のハイパーボリックな表現は、ロボットが周囲の群衆にどれだけの注意を払っているかに相関している。
Autonomous robots are increasingly becoming a strong fixture in social environments. Effective crowd navigation requires not only safe yet fast planning, but should also enable interpretability and computational efficiency for working in real-time on embedded devices. In this work, we advocate for hyperbolic learning to enable crowd navigation and we introduce Hyp2Nav. Different from conventional reinforcement learning-based crowd navigation methods, Hyp2Nav leverages the intrinsic properties of hyperbolic geometry to better encode the hierarchical nature of decision-making processes in navigation tasks. We propose a hyperbolic policy model and a hyperbolic curiosity module that results in effective social navigation, best success rates, and returns across multiple simulation settings, using up to 6 times fewer parameters than competitor state-of-the-art models. With our approach, it becomes even possible to obtain policies that work in 2-dimensional embedding spaces, opening up new possibilities for low-resource crowd navigation and model interpretability. Insightfully, the internal hyperbolic representation of Hyp2Nav correlates with how much attention the robot pays to the surrounding crowds, e.g. due to multiple people occluding its pathway or to a few of them showing colliding plans, rather than to its own planned route. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# ビデオからASLサインを検索する新機能
New Capability to Look Up an ASL Sign from a Video Example ( http://arxiv.org/abs/2407.13571v1 ) ライセンス: Link先を確認 | Carol Neidle, Augustine Opoku, Carey Ballard, Yang Zhou, Xiaoxiao He, Gregory Dimitriadis, Dimitris Metaxas, | (参考訳) ASL辞書で未知の符号を探すことは困難である。
多くのASL辞書は、(1)英語のグルースをASL記号に割り当てる慣例がなく、(2)英語のグルースと英語の単語との1-1対応が存在しないにもかかわらず、英語のグルースに基づいて組織されている。
さらに、ユーザが目標記号の意味や可能な英訳を知らない場合はどうでしょう?
いくつかのASL辞書は、ハンプチ、位置、移動特性など、調音特性の仕様を検索できる。
しかし、これは面倒なプロセスであり、必ずしもルックアップが成功するとは限らない。
ここでは、ASL符号(例えば、ウェブカメラ記録や、連続署名ビデオからのクリップ)のビデオの検索を可能にする、Web上で公開された新しいシステムについて述べる。
ユーザは、分析のために動画を提出し、最も可能性の高い5つのサインマッチを、可能性の低い順に提示し、選択を確認し、そのサインのためにASLLRPサインバンクのエントリに連れて行くことができる。
さらに、このビデオ検索は、最新のSignStream(R)ソフトウェアに統合され、ASLビデオデータの言語アノテーションを容易にし、ユーザーが注釈付けされているビデオのサインを直接検索し、マッチを確認すると、その符号の光沢や特徴を直接入力し、ASLビデオデータの言語アノテーションの効率と一貫性を大幅に向上させる。
Looking up an unknown sign in an ASL dictionary can be difficult. Most ASL dictionaries are organized based on English glosses, despite the fact that (1) there is no convention for assigning English-based glosses to ASL signs; and (2) there is no 1-1 correspondence between ASL signs and English words. Furthermore, what if the user does not know either the meaning of the target sign or its possible English translation(s)? Some ASL dictionaries enable searching through specification of articulatory properties, such as handshapes, locations, movement properties, etc. However, this is a cumbersome process and does not always result in successful lookup. Here we describe a new system, publicly shared on the Web, to enable lookup of a video of an ASL sign (e.g., a webcam recording or a clip from a continuous signing video). The user submits a video for analysis and is presented with the five most likely sign matches, in decreasing order of likelihood, so that the user can confirm the selection and then be taken to our ASLLRP Sign Bank entry for that sign. Furthermore, this video lookup is also integrated into our newest version of SignStream(R) software to facilitate linguistic annotation of ASL video data, enabling the user to directly look up a sign in the video being annotated, and, upon confirmation of the match, to directly enter into the annotation the gloss and features of that sign, greatly increasing the efficiency and consistency of linguistic annotations of ASL video data. | 翻訳日:2024-07-19 15:00:55 公開日:2024-07-18 |
# 信頼できる知識基盤としての大規模言語モデル?
Large Language Models as Reliable Knowledge Bases? ( http://arxiv.org/abs/2407.13578v1 ) ライセンス: Link先を確認 | Danna Zheng, Mirella Lapata, Jeff Z. Pan, | (参考訳) NLPコミュニティは最近、LLMを潜在的な知識ベース(KB)と見なしながら、知識集約的なタスクにLLM(Large Language Models)を活用することへの関心が高まっている。
しかし、LLMがKBとして機能する信頼性と範囲は未解明のままである。
従来の研究では、LLMはパラメータ内の知識を符号化できるが、パラメトリック知識の量だけではKBとしての有効性を評価するには不十分である。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性を重視し、目に見えない知識と見えない知識の両方をカバーする。
我々はこれらの基準に基づいていくつかの指標を開発し、26の人気のあるLCMを評価しながら、モデルサイズ、命令チューニング、文脈内学習(ICL)の影響を包括的に分析する。
私たちの結果は心配そうな絵を描きます。
GPT-3.5-turboのような高性能モデルでさえ現実的あるいは一貫したものではなく、ICLや微調整のような戦略はLCMをより良いKBにすることに失敗している。
The NLP community has recently shown a growing interest in leveraging Large Language Models (LLMs) for knowledge-intensive tasks, viewing LLMs as potential knowledge bases (KBs). However, the reliability and extent to which LLMs can function as KBs remain underexplored. While previous studies suggest LLMs can encode knowledge within their parameters, the amount of parametric knowledge alone is not sufficient to evaluate their effectiveness as KBs. This study defines criteria that a reliable LLM-as-KB should meet, focusing on factuality and consistency, and covering both seen and unseen knowledge. We develop several metrics based on these criteria and use them to evaluate 26 popular LLMs, while providing a comprehensive analysis of the effects of model size, instruction tuning, and in-context learning (ICL). Our results paint a worrying picture. Even a high-performant model like GPT-3.5-turbo is not factual or consistent, and strategies like ICL and fine-tuning are unsuccessful at making LLMs better KBs. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# ゼロショットマルチモーダル機械翻訳に向けて
Towards Zero-Shot Multimodal Machine Translation ( http://arxiv.org/abs/2407.13579v1 ) ライセンス: Link先を確認 | Matthieu Futeral, Cordelia Schmid, Benoît Sagot, Rachel Bawden, | (参考訳) 現在のマルチモーダル機械翻訳(MMT)システムは、完全に教師付きデータに依存している(すなわち、モデルは翻訳と付随する画像で文で訓練される)。
しかし、この種のデータは収集に費用がかかるため、MTTをそのようなデータが存在しない他の言語対に拡張することを制限する。
本研究では,マルチモーダル・イングリッシュ・データのみを用いて,MMTシステムのトレーニングのための完全教師付きデータの必要性を回避する手法を提案する。
ZeroMMTと呼ばれるこの手法は、視覚条件付きマスキング言語モデリングと、元のMT出力と新しいMT出力とのクルバック・リーブラー分岐という2つの目的の混合に基づいて、強力なテキストのみの機械翻訳(MT)モデルを適用することによって構成されている。
我々は、標準的なMTベンチマークと、最近リリースされたCoMMuTEを比較検討し、このベンチマークは、モデルがいかに画像を使って英語の文を曖昧にするかを評価することを目的としている。
完全教師付き実例に基づいて訓練した最先端MTモデルに近い曖昧さ性能を得る。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
さらに,不明瞭化能力と翻訳忠実度とのトレードオフを,分類器フリーガイダンスを用いて,追加データなしで制御できることも示している。
私たちのコード、データ、トレーニングされたモデルは公開されています。
Current multimodal machine translation (MMT) systems rely on fully supervised data (i.e models are trained on sentences with their translations and accompanying images). However, this type of data is costly to collect, limiting the extension of MMT to other language pairs for which such data does not exist. In this work, we propose a method to bypass the need for fully supervised data to train MMT systems, using multimodal English data only. Our method, called ZeroMMT, consists in adapting a strong text-only machine translation (MT) model by training it on a mixture of two objectives: visually conditioned masked language modelling and the Kullback-Leibler divergence between the original and new MMT outputs. We evaluate on standard MMT benchmarks and the recently released CoMMuTE, a contrastive benchmark aiming to evaluate how well models use images to disambiguate English sentences. We obtain disambiguation performance close to state-of-the-art MMT models trained additionally on fully supervised examples. To prove that our method generalizes to languages with no fully supervised training data available, we extend the CoMMuTE evaluation dataset to three new languages: Arabic, Russian and Chinese. We further show that we can control the trade-off between disambiguation capabilities and translation fidelity at inference time using classifier-free guidance and without any additional data. Our code, data and trained models are publicly accessible. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# テキストから3次元生成のための連続蒸留とスコア蒸留の接続
Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation ( http://arxiv.org/abs/2407.13584v1 ) ライセンス: Link先を確認 | Zongrui Li, Minghui Hu, Qian Zheng, Xudong Jiang, | (参考訳) 近年のテキスト・ツー・3D生成の進歩は、生成品質を著しく向上させたが、詳細度の制限や忠実度の低さといった問題は引き続き持続しており、さらなる改善が必要である。
これらの問題の本質を理解するため, 整合蒸留の理論を結合させて, スコア蒸留法を徹底的に分析した。
解析によって得られた知見に基づいて,これらの問題を緩和するために3Dガウススプラッティング(3DGS)と統合されたGCS ( Guided Consistency Sampling) という最適化フレームワークを提案する。
さらに,生成した3D資産のレンダリングビューにおいて,持続的な過飽和が観察された。
実験の結果,3DGSの最適化時に不要な蓄積輝度が原因であることが判明した。
この問題を軽減するため、3DGSレンダリングにおいてBEG(Brightness-Equalized Generation)方式を導入する。
実験により,本手法は最先端手法よりも細部と忠実度の高い3Dアセットを生成することが示された。
コードはhttps://github.com/LMozart/ECCV2024-GCS-BEGで公開されている。
Although recent advancements in text-to-3D generation have significantly improved generation quality, issues like limited level of detail and low fidelity still persist, which requires further improvement. To understand the essence of those issues, we thoroughly analyze current score distillation methods by connecting theories of consistency distillation to score distillation. Based on the insights acquired through analysis, we propose an optimization framework, Guided Consistency Sampling (GCS), integrated with 3D Gaussian Splatting (3DGS) to alleviate those issues. Additionally, we have observed the persistent oversaturation in the rendered views of generated 3D assets. From experiments, we find that it is caused by unwanted accumulated brightness in 3DGS during optimization. To mitigate this issue, we introduce a Brightness-Equalized Generation (BEG) scheme in 3DGS rendering. Experimental results demonstrate that our approach generates 3D assets with more details and higher fidelity than state-of-the-art methods. The codes are released at https://github.com/LMozart/ECCV2024-GCS-BEG. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# 大型ビジョンランゲージアダプタのロバスト校正
Robust Calibration of Large Vision-Language Adapters ( http://arxiv.org/abs/2407.13588v1 ) ライセンス: Link先を確認 | Balamurali Murugesan, Julio Silva-Rodriguez, Ismail Ben Ayed, Jose Dolz, | (参考訳) 本稿では、CLIPモデル適応における誤校正の重大な問題、特に既存のCLIP適応に関する文献で見過ごされているOOD(Out-of-distriion)サンプルの難解なシナリオについて論じる。
実験により,適応器,プロンプト学習,テスト時間適応などの一般的なCLIP適応手法は,分布ドリフトの存在下でゼロショットベースラインの校正能力を大幅に低下させることを示した。
CLIP適応手法の誤校正の根本原因として,ロジット範囲の増加が確認された。
これらの観測により、各試料の対数範囲をゼロショット予測ロジットに拡大することにより、誤校正を緩和するための単純でモデルに依存しない解が提示される。
これを実現するために,適応時に統合されるか,推論時に直接使用される3つの選択肢を探索する。
一般的なOOD分類ベンチマークに関する総合的な実験は、これらの人気の高いアプローチの3つのファミリー間で改善が整った差別的性能を維持しながら、誤校正を緩和する提案手法の有効性を実証している。
コードは、https://github.com/Bala93/CLIPCalibで公開されている。
This paper addresses the critical issue of miscalibration in CLIP-based model adaptation, particularly in the challenging scenario of out-of-distribution (OOD) samples, which has been overlooked in the existing literature on CLIP adaptation. We empirically demonstrate that popular CLIP adaptation approaches, such as Adapters, Prompt Learning, and Test-Time Adaptation, substantially degrade the calibration capabilities of the zero-shot baseline in the presence of distributional drift. We identify the increase in logit ranges as the underlying cause of miscalibration of CLIP adaptation methods, contrasting with previous work on calibrating fully-supervised models. Motivated by these observations, we present a simple and model-agnostic solution to mitigate miscalibration, by scaling the logit range of each sample to its zero-shot prediction logits. We explore three different alternatives to achieve this, which can be either integrated during adaptation or directly used at inference time. Comprehensive experiments on popular OOD classification benchmarks demonstrate the effectiveness of the proposed approaches in mitigating miscalibration while maintaining discriminative performance, whose improvements are consistent across the three families of these increasingly popular approaches. The code is publicly available at: https://github.com/Bala93/CLIPCalib | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# MeshFeat: メッシュ上のニューラルネットワークのためのマルチリゾリューション機能
MeshFeat: Multi-Resolution Features for Neural Fields on Meshes ( http://arxiv.org/abs/2407.13592v1 ) ライセンス: Link先を確認 | Mihir Mahajan, Florian Hofherr, Daniel Cremers, | (参考訳) パラメトリック特徴格子符号化は、はるかに小さなMLPを実現するため、ニューラルネットワークの符号化手法として大きな注目を集めており、モデルの推論時間を著しく削減している。
本研究では,メッシュに配向したパラメトリック機能であるMeshFeatを提案し,ユークリッド空間からのマルチレゾリューション機能グリッドの考え方を適応させる。
与えられた頂点トポロジによって提供される構造から始まり、メッシュの単純化アルゴリズムを用いて、メッシュ上に直接多重解像度の特徴表現を構築する。
提案手法では,メッシュ上でのニューラルネットワークに対する小さなMLPの使用が可能であり,テクスチャ再構成やBRDF表現に匹敵する再現品質を維持しつつ,従来の表現に比べて大幅に高速化されている。
頂点への本質的な結合を考えると、この手法は特にメッシュの変形の表現に適しており、オブジェクトアニメーションに適している。
Parametric feature grid encodings have gained significant attention as an encoding approach for neural fields since they allow for much smaller MLPs, which significantly decreases the inference time of the models. In this work, we propose MeshFeat, a parametric feature encoding tailored to meshes, for which we adapt the idea of multi-resolution feature grids from Euclidean space. We start from the structure provided by the given vertex topology and use a mesh simplification algorithm to construct a multi-resolution feature representation directly on the mesh. The approach allows the usage of small MLPs for neural fields on meshes, and we show a significant speed-up compared to previous representations while maintaining comparable reconstruction quality for texture reconstruction and BRDF representation. Given its intrinsic coupling to the vertices, the method is particularly well-suited for representations on deforming meshes, making it a good fit for object animation. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# 変圧器をベースとした2-SATソルバーの機械的解釈--公理論的アプローチ
Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach ( http://arxiv.org/abs/2407.13594v1 ) ライセンス: Link先を確認 | Nils Palumbo, Ravi Mangal, Zifan Wang, Saranya Vijayakumar, Corina S. Pasareanu, Somesh Jha, | (参考訳) 機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
ニューラルネットワークの機械的解釈に関する研究は増えているが、機械的解釈そのものの概念は、しばしばアドホックである。
プログラムのセマンティクスを近似的に開発することを目的としたプログラム解析文献から抽象的解釈の概念に着想を得て,我々は,ニューラルネットワークのセマンティクスを概ね合成的に捉えた記述として,機械的解釈を形式的に特徴付ける一連の公理を与える。
これらの公理を用いて、よく知られた2-SAT問題の解法を訓練したTransformerベースのモデルの機械論的解釈可能性解析を導出する。
モデルによって学習されたアルゴリズムをリバースエンジニアリングすることができます -- モデルがまず入力公式を解析し、Booleanの入力変数のさまざまな値の列挙によってその満足度を評価するのです。
また、解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠も提示する。
Mechanistic interpretability aims to reverse engineer the computation performed by a neural network in terms of its internal components. Although there is a growing body of research on mechanistic interpretation of neural networks, the notion of a mechanistic interpretation itself is often ad-hoc. Inspired by the notion of abstract interpretation from the program analysis literature that aims to develop approximate semantics for programs, we give a set of axioms that formally characterize a mechanistic interpretation as a description that approximately captures the semantics of the neural network under analysis in a compositional manner. We use these axioms to guide the mechanistic interpretability analysis of a Transformer-based model trained to solve the well-known 2-SAT problem. We are able to reverse engineer the algorithm learned by the model -- the model first parses the input formulas and then evaluates their satisfiability via enumeration of different possible valuations of the Boolean input variables. We also present evidence to support that the mechanistic interpretation of the analyzed model indeed satisfies the stated axioms. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# EarthMarker: 地域レベルとポイントレベルのリモートセンシング画像理解のためのビジュアルプロンプト学習フレームワーク
EarthMarker: A Visual Prompt Learning Framework for Region-level and Point-level Remote Sensing Imagery Comprehension ( http://arxiv.org/abs/2407.13596v1 ) ライセンス: Link先を確認 | Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao, | (参考訳) 自然画像領域における視覚的プロンプトの最近の進歩により、ユーザーはボックス、ポイント、フリーフォームなどの様々な視覚的マークを通して人工知能(AI)ツールと対話できるようになった。
しかし、自然とリモートセンシング(RS)画像の間に大きな違いがあるため、既存の視覚刺激モデルでは、RSシナリオの課題に直面している。
さらに、RS MLLMは主に画像レベルのRSデータの解釈に重点を置いており、言語命令とのインタラクションのみをサポートし、現実世界の柔軟性を制限している。
これらの制約に対処するため、画像レベル、領域レベル、点レベルRSの解釈に優れるEarthMarkerという新しい視覚的プロンプトモデルが提案されている。
具体的には、画像とテキストが大きな言語モデル(LLM)に入力され、特定の予測やタスクに適応する。
その後、マルチスケール画像特徴と視覚的プロンプト情報を均一に洗練するために、共有視覚符号化方式を導入する。
さらに,EarthMarkerに多彩な多粒性視覚知覚能力を与えるため,クロスドメイン位相学習戦略を開発し,自然知識とRS知識の両方を活用することで,解離パラメータを軽量に最適化する。
さらに、RSの視覚的プロンプトデータ不足に対処するため、マルチモーダルな微細な視覚的プロンプトを特徴とするRSVPというデータセットを構築した。
提案したEarthMarkerの競合性能の実証実験を行い、視覚的プロンプト学習フレームワークの下での多粒性RS画像解釈の大幅な進歩を示す。
Recent advances in visual prompting in the natural image area have allowed users to interact with artificial intelligence (AI) tools through various visual marks such as box, point, and free-form shapes. However, due to the significant difference between the natural and remote sensing (RS) images, existing visual prompting models face challenges in RS scenarios. Moreover, RS MLLMs mainly focus on interpreting image-level RS data and only support interaction with language instruction, restricting flexibility applications in the real world. To address those limitations, a novel visual prompting model named EarthMarker is proposed, which excels in image-level, region-level, and point-level RS imagery interpretation. Specifically, the visual prompts alongside images and text instruction input into the large language model (LLM), adapt models toward specific predictions and tasks. Subsequently, a sharing visual encoding method is introduced to refine multi-scale image features and visual prompt information uniformly. Furthermore, to endow the EarthMarker with versatile multi-granularity visual perception abilities, the cross-domain phased learning strategy is developed, and the disjoint parameters are optimized in a lightweight manner by leveraging both the natural and RS domain-specific knowledge. In addition, to tackle the lack of RS visual prompting data, a dataset named RSVP featuring multi-modal fine-grained visual prompting instruction is constructed. Extensive experiments are conducted to demonstrate the proposed EarthMarker's competitive performance, representing a significant advance in multi-granularity RS imagery interpretation under the visual prompting learning framework. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# PLANTS: プランニングライク(PL)タスクの要約のための新しい問題とデータセット
PLANTS: A Novel Problem and Dataset for Summarization of Planning-Like (PL) Tasks ( http://arxiv.org/abs/2407.13597v1 ) ライセンス: Link先を確認 | Vishal Pallagani, Biplav Srivastava, Nitin Gupta, | (参考訳) テキスト要約は、人間が消費する非構造化テキストから洞察を導き出すためのよく研究された問題であり、広範なビジネス応用を見出した。
しかし、現実的なタスクの多くは、ワークフロー、レシピ、ダイアログ、旅行計画など、特定の目標を達成するための一連のアクションを生成する。
我々はこれらを計画的(PL)タスクと呼び、彼らが共有する主な共通点が制御フロー情報であることを示す。
部分的に特定できます
彼らの構造は、ユーザが迅速な意思決定を行うのを助けるために、より実践的な要約を作成する機会を提供する。
本研究では,新しい計画要約問題を導入し,データセットを提示し,PL要約を生成するベースライン方法を提供する。
定量的な測定値と定性的なユーザスタディを用いてベースラインを確立し,提案手法と大規模言語モデルから計画要約を評価する。
我々は、この新たな問題とデータセットが要約の研究を再活性化できると信じており、これは解決された問題であると考える者もいる。
Text summarization is a well-studied problem that deals with deriving insights from unstructured text consumed by humans, and it has found extensive business applications. However, many real-life tasks involve generating a series of actions to achieve specific goals, such as workflows, recipes, dialogs, and travel plans. We refer to them as planning-like (PL) tasks noting that the main commonality they share is control flow information. which may be partially specified. Their structure presents an opportunity to create more practical summaries to help users make quick decisions. We investigate this observation by introducing a novel plan summarization problem, presenting a dataset, and providing a baseline method for generating PL summaries. Using quantitative metrics and qualitative user studies to establish baselines, we evaluate the plan summaries from our method and large language models. We believe the novel problem and dataset can reinvigorate research in summarization, which some consider as a solved problem. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# dzStance at StanceEval2024: 文変換器を用いたアラビアスタンス検出
dzStance at StanceEval2024: Arabic Stance Detection based on Sentence Transformers ( http://arxiv.org/abs/2407.13603v1 ) ライセンス: Link先を確認 | Mohamed Lichouri, Khaled Lounnas, Khelil Rafik Ouaras, Mohamed Abi, Anis Guechtouli, | (参考訳) 本研究は, 新型コロナウイルスワクチン, デジタルトランスフォーメーション, 女性のエンパワーメントの3つの重要なトピックについて, TF-IDF(Term Frequency-Inverse Document Frequency)機能と, 著者のスタンスを検出するセンテンストランスフォーマーを比較した。
経験的評価により,Sentence Transformer は様々な実験装置において TF-IDF 特性より優れていることを示した。
我々のチームはスタンス検出競技に参加し、女性エンパワーメント15チーム中13位(74.91%)、新型コロナウイルスワクチン10チーム(73.43%)、デジタルトランスフォーメーション12チーム(66.97%)を達成した。
チーム全体の成績は13位(71.77%)だった。
特に,本手法は有望なF1スコアを達成し,多種多様なトピックに対する作家のスタンスを特定する上での有効性を強調した。
これらの結果は、重要な社会問題に対処するための姿勢検出モデルを強化するためのセンテンストランスフォーマーの可能性を強調している。
This study compares Term Frequency-Inverse Document Frequency (TF-IDF) features with Sentence Transformers for detecting writers' stances--favorable, opposing, or neutral--towards three significant topics: COVID-19 vaccine, digital transformation, and women empowerment. Through empirical evaluation, we demonstrate that Sentence Transformers outperform TF-IDF features across various experimental setups. Our team, dzStance, participated in a stance detection competition, achieving the 13th position (74.91%) among 15 teams in Women Empowerment, 10th (73.43%) in COVID Vaccine, and 12th (66.97%) in Digital Transformation. Overall, our team's performance ranked 13th (71.77%) among all participants. Notably, our approach achieved promising F1-scores, highlighting its effectiveness in identifying writers' stances on diverse topics. These results underscore the potential of Sentence Transformers to enhance stance detection models for addressing critical societal issues. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# 物理誘導型アクティブサンプル再加重による都市流れ予測
Physics-guided Active Sample Reweighting for Urban Flow Prediction ( http://arxiv.org/abs/2407.13605v1 ) ライセンス: Link先を確認 | Wei Jiang, Tong Chen, Guanhua Ye, Wentao Zhang, Lizhen Cui, Zi Huang, Hongzhi Yin, | (参考訳) 都市フロー予測は、バス、タクシー、ライドシェアリングといった交通サービスのスループットを推定する時空間モデリングタスクであり、データ駆動モデルが過去10年で最もポピュラーなソリューションとなっている。
一方、歴史的観測と予測対象との暗黙的に学習されたマッピングは、現実世界の都市流れのダイナミクスを過度に単純化し、最適以下の予測をもたらす傾向にある。
最近の時空間予測ソリューションは、物理誘導機械学習(PGML)の概念を取り入れ、時空間データをニュアンスと原理化された物理法則で記述し、予測精度と解釈可能性の両方を高める。
しかし、これらの時空間PGML法は、観測されたデータが物理系を定義する微分方程式に完全に適合しているという強い仮定に基づいており、都市流予測タスクにおいて急速に悪影響を及ぼす可能性がある。
観測された都市流データ、特に予測を容易にするために時間依存スナップショットにスライスされた場合、典型的には不完全でスパースであり、収集過程において固有のノイズが発生する傾向にある。
その結果,データとPGMLモデルの物理的不整合性は,解の予測力やロバスト性を著しく制限することがわかった。
さらに,多くの交通機関におけるデータ提出の間隔に基づく予測や断続的な性質から,都市流れの瞬時的ダイナミクスを捉えることは困難であり,微分方程式に基づく連続モデリングはこの設定に適している。
これらの課題を克服するために、離散化物理誘導ネットワーク(PN)を開発し、PNを強化するために、P-GASR(Physical-Guided Active Sample Reweighting)を提案する。
実世界の4つのデータセットによる実験結果から,本手法はロバスト性の向上を実証し,最先端の性能を実現していることが示された。
Urban flow prediction is a spatio-temporal modeling task that estimates the throughput of transportation services like buses, taxis, and ride-sharing, where data-driven models have become the most popular solution in the past decade. Meanwhile, the implicitly learned mapping between historical observations to the prediction targets tend to over-simplify the dynamics of real-world urban flows, leading to suboptimal predictions. Some recent spatio-temporal prediction solutions bring remedies with the notion of physics-guided machine learning (PGML), which describes spatio-temporal data with nuanced and principled physics laws, thus enhancing both the prediction accuracy and interpretability. However, these spatio-temporal PGML methods are built upon a strong assumption that the observed data fully conforms to the differential equations that define the physical system, which can quickly become ill-posed in urban flow prediction tasks. The observed urban flow data, especially when sliced into time-dependent snapshots to facilitate predictions, is typically incomplete and sparse, and prone to inherent noise incurred in the collection process. As a result, such physical inconsistency between the data and PGML model significantly limits the predictive power and robustness of the solution. Moreover, due to the interval-based predictions and intermittent nature of data filing in many transportation services, the instantaneous dynamics of urban flows can hardly be captured, rendering differential equation-based continuous modeling a loose fit for this setting. To overcome the challenges, we develop a discretized physics-guided network (PN), and propose a data-aware framework Physics-guided Active Sample Reweighting (P-GASR) to enhance PN. Experimental results in four real-world datasets demonstrate that our method achieves state-of-the-art performance with a demonstrable improvement in robustness. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# dzNLP at NADI 2024 Shared Task: Multi-classifier Ensemble with Weighted Voting and TF-IDF Features
dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features ( http://arxiv.org/abs/2407.13608v1 ) ライセンス: Link先を確認 | Mohamed Lichouri, Khaled Lounnas, Boualem Nadjib Zahaf, Mehdi Ayoub Rabiai, | (参考訳) 本稿では,我々のdzNLPチームによるNADI 2024共有タスクへの貢献について,特にSubtask 1- Multi-label Country-level Dialect Identification (MLDID) (Closed Track) において述べる。
実験1ではn-gramアナライザ(単語,文字,文字,単語境界)と異なるn-gram値の結合を利用し,実験2では項周波数-逆文書周波数(TF-IDF)の重み付けを様々な重み付けで組み合わせ,実験3では線形支援ベクトル分類器(LSVC),ランダムフォレスト(RF),K-Nearest Neighbors(KNN)の3つの分類器を用いた重み付きメジャー投票方式を実装した。
我々のアプローチは、従来の機械学習技術に頼りながら、F1スコアと精度の点で競争性能を実証した。
特に、私たちは参加チームの中で63.22%という高い精度のスコアを獲得しました。
しかし、F1の総得点は約21%で、リコール率は12.87%と大幅に低下した。
これは、我々のモデルは極めて正確であったにもかかわらず、幅広い方言ラベルを思い出すのに苦労し、多様な方言のバリエーションを扱う上で重要な領域を浮き彫りにしたことを示している。
This paper presents the contribution of our dzNLP team to the NADI 2024 shared task, specifically in Subtask 1 - Multi-label Country-level Dialect Identification (MLDID) (Closed Track). We explored various configurations to address the challenge: in Experiment 1, we utilized a union of n-gram analyzers (word, character, character with word boundaries) with different n-gram values; in Experiment 2, we combined a weighted union of Term Frequency-Inverse Document Frequency (TF-IDF) features with various weights; and in Experiment 3, we implemented a weighted major voting scheme using three classifiers: Linear Support Vector Classifier (LSVC), Random Forest (RF), and K-Nearest Neighbors (KNN). Our approach, despite its simplicity and reliance on traditional machine learning techniques, demonstrated competitive performance in terms of F1-score and precision. Notably, we achieved the highest precision score of 63.22% among the participating teams. However, our overall F1 score was approximately 21%, significantly impacted by a low recall rate of 12.87%. This indicates that while our models were highly precise, they struggled to recall a broad range of dialect labels, highlighting a critical area for improvement in handling diverse dialectal variations. | 翻訳日:2024-07-19 14:51:11 公開日:2024-07-18 |
# レイアウト画像合成のための無訓練複合シーン生成
Training-free Composite Scene Generation for Layout-to-Image Synthesis ( http://arxiv.org/abs/2407.13609v1 ) ライセンス: Link先を確認 | Jiaqi Liu, Tao Huang, Chang Xu, | (参考訳) テキストから画像への拡散モデルにおける最近のブレークスルーは、テキスト記述からの高忠実で写実的な画像の生成を著しく前進させてきた。
しかし、これらのモデルはテキストからの空間配置の解釈に苦しむことが多く、正確な空間構成で画像を生成する能力を妨げている。
このギャップを埋めるため、レイアウト・ツー・イメージ・ジェネレーションが有望な方向として現れた。
しかし、トレーニングベースのアプローチは、広範囲の注釈付きデータセットの必要性によって制限されており、高いデータ取得コストと制約付き概念スコープにつながる。
逆に、トレーニング不要な手法は、複雑な構成の中で意味論的に類似したオブジェクトを正確に配置し、生成する際の課題に直面している。
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
選択的サンプリングによるトークン内損失の精製と注意再分配による拡散プロセスの強化により,2つの革新的な制約を提案する。
1) トークンの競合を解消して正確な概念合成を保証するためのトークン間制約,及び
2)画素間関係を改善する自己注意制約。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
コードはhttps://github.com/Papple-F/csg.git.comで入手できる。
Recent breakthroughs in text-to-image diffusion models have significantly advanced the generation of high-fidelity, photo-realistic images from textual descriptions. Yet, these models often struggle with interpreting spatial arrangements from text, hindering their ability to produce images with precise spatial configurations. To bridge this gap, layout-to-image generation has emerged as a promising direction. However, training-based approaches are limited by the need for extensively annotated datasets, leading to high data acquisition costs and a constrained conceptual scope. Conversely, training-free methods face challenges in accurately locating and generating semantically similar objects within complex compositions. This paper introduces a novel training-free approach designed to overcome adversarial semantic intersections during the diffusion conditioning phase. By refining intra-token loss with selective sampling and enhancing the diffusion process with attention redistribution, we propose two innovative constraints: 1) an inter-token constraint that resolves token conflicts to ensure accurate concept synthesis; and 2) a self-attention constraint that improves pixel-to-pixel relationships. Our evaluations confirm the effectiveness of leveraging layout information for guiding the diffusion process, generating content-rich images with enhanced fidelity and complexity. Code is available at https://github.com/Papple-F/csg.git. | 翻訳日:2024-07-19 14:51:10 公開日:2024-07-18 |
# パススライシング戦略を用いたトラベリングセールスマン問題の量子局所探索
Quantum Local Search for Traveling Salesman Problem with Path-Slicing Strategy ( http://arxiv.org/abs/2407.13616v1 ) ライセンス: Link先を確認 | Chen-Yu Liu, Hiromichi Matsuyama, Wei-hao Huang, Yu Yamashiro, | (参考訳) 本稿では,現在のノイズ中規模量子(NISQ)技術の限界に対処するため,トラベリングセールスマン問題(TSP)の解を最適化するために,量子局所探索と統合された新しいパススライシング戦略を提案する。
我々のハイブリッド量子古典的アプローチは、古典経路の初期化と量子最適化を利用して、TSPがもたらす計算課題を効果的に管理する。
我々は、TSPを管理可能なサブプロブレムに分割するために、k平均とアンチk平均クラスタリングを含む様々なパススライシング手法を探索する。
これらは量子や古典的な解法を用いて解かれる。
TSPlib の複数の TSP インスタンスで実施した分析では, ほぼ最適解を効率的に実現し, 解法効率と資源利用効率の大幅な向上が示される。
このアプローチは、より大規模な組合せ最適化シナリオにおける将来の応用の道を開き、量子最適化の分野を前進させる。
We present novel path-slicing strategies integrated with quantum local search to optimize solutions for the Traveling Salesman Problem (TSP), addressing the limitations of current Noisy Intermediate-Scale Quantum (NISQ) technologies. Our hybrid quantum-classical approach leverages classical path initialization and quantum optimization to effectively manage the computational challenges posed by the TSP. We explore various path slicing methods, including k-means and anti-k-means clustering, to divide the TSP into manageable subproblems. These are then solved using quantum or classical solvers. Our analysis, performed on multiple TSP instances from the TSPlib, demonstrates the ability of our strategies to achieve near-optimal solutions efficiently, highlighting significant improvements in solving efficiency and resource utilization. This approach paves the way for future applications in larger combinatorial optimization scenarios, advancing the field of quantum optimization. | 翻訳日:2024-07-19 14:51:10 公開日:2024-07-18 |
# ニューラルタンジェントカーネル回帰における差分プライバシー機構
Differential Privacy Mechanisms in Neural Tangent Kernel Regression ( http://arxiv.org/abs/2407.13621v1 ) ライセンス: Link先を確認 | Jiuxiang Gu, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, | (参考訳) データプライバシのトレーニングは、顔認識、レコメンデーションシステム、言語生成など、現代の人工知能(AI)アプリケーションにおける基本的な問題である。
AIアプリケーションにおけるプライバシメカニズムの動作を根本的に理解するために、我々は、統計学習下でのプライバシを測定する最も強力なツールの1つであるNural Tangent Kernel(NTK)レグレッションセッティングセッティングにおいて、差分プライバシ(DP)を研究する。
我々の研究では、NTK回帰の差分プライバシーとテスト精度の両方の証明可能な保証を示すことができる。
さらに,基本画像分類データセット CIFAR10 を用いて,NTK の回帰が適度なプライバシ予算下で良好な精度を維持し,解析の有効性を実証する実験を行った。
我々の知る限り、NTKレグレッションに対するDP保証を提供する最初の取り組みである。
Training data privacy is a fundamental problem in modern Artificial Intelligence (AI) applications, such as face recognition, recommendation systems, language generation, and many others, as it may contain sensitive user information related to legal issues. To fundamentally understand how privacy mechanisms work in AI applications, we study differential privacy (DP) in the Neural Tangent Kernel (NTK) regression setting, where DP is one of the most powerful tools for measuring privacy under statistical learning, and NTK is one of the most popular analysis frameworks for studying the learning mechanisms of deep neural networks. In our work, we can show provable guarantees for both differential privacy and test accuracy of our NTK regression. Furthermore, we conduct experiments on the basic image classification dataset CIFAR10 to demonstrate that NTK regression can preserve good accuracy under a modest privacy budget, supporting the validity of our analysis. To our knowledge, this is the first work to provide a DP guarantee for NTK regression. | 翻訳日:2024-07-19 14:51:10 公開日:2024-07-18 |
# Sparse Linear Function Approximation による不特定$Q$-earning: 近似誤差のタイト境界
Misspecified $Q$-Learning with Sparse Linear Function Approximation: Tight Bounds on Approximation Error ( http://arxiv.org/abs/2407.13622v1 ) ライセンス: Link先を確認 | Ally Yalei Du, Lin F. Yang, Ruosong Wang, | (参考訳) Dong & Yang (2023) による最近の研究は、不特定なスパース線形包帯に対して、空間が定数であるときにサンプルの多項式数を用いて$O\left(\epsilon\right)$-最適化ポリシーを得ることができ、そこで$\epsilon$は不特定誤差である。
この結果は、スパーシティーのない不特定線形バンドレットと鋭い対比であり、同じ保証を得るためには指数的な数のサンプルを必要とする。
強化学習環境でアナログ結果が可能であるかどうかを調べるために、最適$Q$-函数がスパーシティ$k$と不特定誤差$\epsilon$を持つ$d$次元線型関数であると仮定すると、特徴次元$d$に多項式的なサンプル数を用いた$O\left(\epsilon\right)$-最適ポリシーが得られるかどうかという問題を考える。
まず,ベルマンバックアップに基づく標準手法やOLIVE (Jiang et al , 2017) のような既存の楽観的値関数除去手法が,この問題に対する準最適保証を実現する理由を示す。
そこで我々は,特徴次元$d$と計画的地平$H$の多項式を持つ$O\left(H\epsilon\right)$-optimal Policyが得られることを示す新しい除去アルゴリズムを設計する。
最後に、上界を$\widetilde{\Omega}\left(H\epsilon\right)$ suboptimality lower boundで補い、この問題の完全な図面を与える。
The recent work by Dong & Yang (2023) showed for misspecified sparse linear bandits, one can obtain an $O\left(\epsilon\right)$-optimal policy using a polynomial number of samples when the sparsity is a constant, where $\epsilon$ is the misspecification error. This result is in sharp contrast to misspecified linear bandits without sparsity, which require an exponential number of samples to get the same guarantee. In order to study whether the analog result is possible in the reinforcement learning setting, we consider the following problem: assuming the optimal $Q$-function is a $d$-dimensional linear function with sparsity $k$ and misspecification error $\epsilon$, whether we can obtain an $O\left(\epsilon\right)$-optimal policy using number of samples polynomially in the feature dimension $d$. We first demonstrate why the standard approach based on Bellman backup or the existing optimistic value function elimination approach such as OLIVE (Jiang et al., 2017) achieves suboptimal guarantees for this problem. We then design a novel elimination-based algorithm to show one can obtain an $O\left(H\epsilon\right)$-optimal policy with sample complexity polynomially in the feature dimension $d$ and planning horizon $H$. Lastly, we complement our upper bound with an $\widetilde{\Omega}\left(H\epsilon\right)$ suboptimality lower bound, giving a complete picture of this problem. | 翻訳日:2024-07-19 14:51:10 公開日:2024-07-18 |
# 語彙によるスケーリング法則:より大きなモデルはより大きな語彙を保存する
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies ( http://arxiv.org/abs/2407.13623v1 ) ライセンス: Link先を確認 | Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong, | (参考訳) 大規模言語モデル(LLM)のスケーリングに関する研究は、主に、語彙サイズの役割を見越して、モデルパラメータとトレーニングデータサイズに重点を置いている。
% 直感的には、より大きな語彙は、少ないトークンで文を表現することでより効率的なトークン化を可能にするが、希少トークンに不適合な表現のリスクも増大させる。
語彙サイズがLLMスケーリング法にどう影響するかを,最大500B文字における33Mから3Bパラメータのトレーニングモデルを用いて検討した。
本稿では,IsoFLOPs解析,微分推定,損失関数のパラメトリック適合という,計算-最適語彙サイズを予測するための3つの補完的手法を提案する。
我々のアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルはより大きな語彙に値するという同じ結果に収束する。
しかし、ほとんどのLLMは語彙サイズが小さすぎる。
例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであり、32Kの語彙の7倍である。
FLOPの予算の異なる3Bパラメータのトレーニングモデルを用いて予測を実証的に検証する。
予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流のパフォーマンスが一貫して向上する。
従来の32Kから43Kへの語彙サイズ拡大により、同じ2.3e21 FLOPでARC-Challengeの性能を29.1から32.0に改善した。
本研究は,効率的なスケーリングのために,モデルパラメータと語彙サイズを共同で検討する必要があることを強調する。
Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 交差するワッサースタインボールによる分布的および逆ロバストなロジスティック回帰
Distributionally and Adversarially Robust Logistic Regression via Intersecting Wasserstein Balls ( http://arxiv.org/abs/2407.13625v1 ) ライセンス: Link先を確認 | Aras Selvi, Eleonora Kreacic, Mohsen Ghassemi, Vamsi Potluru, Tucker Balch, Manuela Veloso, | (参考訳) 実証的なリスク最小化は、テストデータにおける敵の攻撃に対して堅牢性を提供することがしばしば失敗し、サンプル外のパフォーマンスが低下する。
そのため、ARO(Adversarially robust optimization)は、このような攻撃に対してヘッジするモデルを得るためのデファクトスタンダードとして登場した。
しかしながら、これらのモデルは敵の攻撃に対して堅牢であるが、過度に適合する傾向にある。
このロジスティック回帰の問題に対処するため、我々はワッサーシュタインのAROの分布安定度(DR)について検討し、この問題がトラクタブルな再構成を許容していることを示す。
さらに,この問題の保存性を低減するための枠組みとして,データセット(例えば,合成データ,外部データ,ドメイン外データなど)を利用可能なときに利用し,非識別的だが関連する真理から独立してサンプル化した。
特に、DR問題の曖昧性集合と補助的データセットを用いて構築された別のワッサーシュタイン曖昧性集合とを交差する。
基礎となる最適化問題の性質を分析し,効率的な解法を開発し,提案手法が実世界のデータセットのベンチマーク手法より一貫して優れていることを示す。
Empirical risk minimization often fails to provide robustness against adversarial attacks in test data, causing poor out-of-sample performance. Adversarially robust optimization (ARO) has thus emerged as the de facto standard for obtaining models that hedge against such attacks. However, while these models are robust against adversarial attacks, they tend to suffer severely from overfitting. To address this issue for logistic regression, we study the Wasserstein distributionally robust (DR) counterpart of ARO and show that this problem admits a tractable reformulation. Furthermore, we develop a framework to reduce the conservatism of this problem by utilizing an auxiliary dataset (e.g., synthetic, external, or out-of-domain data), whenever available, with instances independently sampled from a nonidentical but related ground truth. In particular, we intersect the ambiguity set of the DR problem with another Wasserstein ambiguity set that is built using the auxiliary dataset. We analyze the properties of the underlying optimization problem, develop efficient solution algorithms, and demonstrate that the proposed method consistently outperforms benchmark approaches on real-world datasets. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# データ錬金術:テスト時間データ校正によるクロスサイトモデルの変動の軽減
Data Alchemy: Mitigating Cross-Site Model Variability Through Test Time Data Calibration ( http://arxiv.org/abs/2407.13632v1 ) ライセンス: Link先を確認 | Abhijeet Parida, Antonia Alomar, Zhifan Jiang, Pooneh Roshanitabrizi, Austin Tapp, Maria Ledesma-Carbayo, Ziyue Xu, Syed Muhammed Anwar, Marius George Linguraru, Holger R. Roth, | (参考訳) 様々な臨床現場にディープラーニングベースの画像ツールを配置することは、固有のドメインシフトと、サイト固有の微調整に関連する規制上のハードルにより、大きな課題となる。
病理組織学では、染色正規化技術は相違を緩和するが、サイト間変異を排除できないことが多い。
そこで,本研究では,テンプレート学習フレームワークによるテスト時間データ校正と組み合わせたステンレス正規化手法であるData Alchemyを提案し,クロスサイト解析における障壁を克服する。
Data Alchemyは、マルチサイトデータ固有のシフトを処理し、正規化や分類器ネットワークの重みを変更することなく、それを最小化する。
我々のアプローチは、データ領域の相違が不明な様々な臨床環境において、見当たらない部位にまで及んでいる。
ヘマトキシリンおよびエオシン染色パッチの腫瘍分類における枠組みの有効性について検討した。
説明可能な正規化法は,精度-リコール曲線(AUPR)における分類タスクの面積を0.165,0.545,0.710に向上させる。
さらに、Data Alchemyは、0.710 AUPRを0.142に改良し、0.545から0.852に分類性能を向上することで、マルチサイト分類領域のギャップをさらに減らした。
我々のData Alchemyフレームワークは、トレーニング済みのディープラーニングベースの臨床ツールを複数のサイトにわたってシームレスに統合することで、最小限の運用オーバーヘッドで精度の高い医療を普及させることができる。
Deploying deep learning-based imaging tools across various clinical sites poses significant challenges due to inherent domain shifts and regulatory hurdles associated with site-specific fine-tuning. For histopathology, stain normalization techniques can mitigate discrepancies, but they often fall short of eliminating inter-site variations. Therefore, we present Data Alchemy, an explainable stain normalization method combined with test time data calibration via a template learning framework to overcome barriers in cross-site analysis. Data Alchemy handles shifts inherent to multi-site data and minimizes them without needing to change the weights of the normalization or classifier networks. Our approach extends to unseen sites in various clinical settings where data domain discrepancies are unknown. Extensive experiments highlight the efficacy of our framework in tumor classification in hematoxylin and eosin-stained patches. Our explainable normalization method boosts classification tasks' area under the precision-recall curve(AUPR) by 0.165, 0.545 to 0.710. Additionally, Data Alchemy further reduces the multisite classification domain gap, by improving the 0.710 AUPR an additional 0.142, elevating classification performance further to 0.852, from 0.545. Our Data Alchemy framework can popularize precision medicine with minimal operational overhead by allowing for the seamless integration of pre-trained deep learning-based clinical tools across multiple sites. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 複雑な構成でソフトウェアを設計する
Designing Software with Complex Configurations ( http://arxiv.org/abs/2407.13633v1 ) ライセンス: Link先を確認 | Alcino Cunha, | (参考訳) 本稿では,ソフトウェアを複雑な構成(例えば,特定のネットワーク構成で動作する分散プロトコル)で特定し,検証するために,軽量な形式的メソッドをどのように利用できるかについて議論する。
より具体的には、TLA+ と Alloy という2つの一般的な形式的手法を簡潔に紹介し、この文脈で両方の長所と短所について論じます。
In this paper I discuss how can lightweight formal methods be used to specify and verify software with complex configurations (for example, distributed protocols that work on specific network configurations). More specifically, I briefly present two popular formal methods - TLA+ and Alloy - and discuss the pros and cons of both in this particular context. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 説明性を考慮した医療用文字の自動符号化法の比較検討
A Comparative Study on Automatic Coding of Medical Letters with Explainability ( http://arxiv.org/abs/2407.13638v1 ) ライセンス: Link先を確認 | Jamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic, | (参考訳) 本研究では,NLP(Natural Language Processing)と機械学習(ML)による医用文字の自動符号化の実現を,視覚的説明可能性と軽量なローカルコンピュータ設定を用いて検討することを目的とする。
現在、臨床環境では、コーディングは、患者の書類(例えば、SNOMED CTコードを用いた56265001心臓病)のそれぞれの状態、手順、薬品にコードを割り当てる手作業である。
この分野では、最先端のMLモデルを用いた自動コーディングに関する予備的な研究があるが、モデルの複雑さとサイズのため、実際の展開は達成されていない。
自動コーディングの実施可能性をさらに促進するために,我々は,局所的なコンピュータ環境におけるいくつかのソリューションを探究するとともに,AIモデルの透明性に関する説明可能性機能についても検討する。
利用可能なMIMIC-IIIデータベースとHAN/HLANネットワークモデルをICDコード予測のために使用した。
また,ICDとSNOMED CTの知識ベース間のマッピング実験を行った。
実験では、97.98 %のコードに対して有用な情報を提供した。
本研究の結果は, 臨床医が使用するローカルコンピュータ上で, 病院設定, プロジェクトページ \url{https://github.com/Glenj01/Medical-Coding} などにおいて, 臨床検査の実施に光を当てることができる。
This study aims to explore the implementation of Natural Language Processing (NLP) and machine learning (ML) techniques to automate the coding of medical letters with visualised explainability and light-weighted local computer settings. Currently in clinical settings, coding is a manual process that involves assigning codes to each condition, procedure, and medication in a patient's paperwork (e.g., 56265001 heart disease using SNOMED CT code). There are preliminary research on automatic coding in this field using state-of-the-art ML models; however, due to the complexity and size of the models, the real-world deployment is not achieved. To further facilitate the possibility of automatic coding practice, we explore some solutions in a local computer setting; in addition, we explore the function of explainability for transparency of AI models. We used the publicly available MIMIC-III database and the HAN/HLAN network models for ICD code prediction purposes. We also experimented with the mapping between ICD and SNOMED CT knowledge bases. In our experiments, the models provided useful information for 97.98\% of codes. The result of this investigation can shed some light on implementing automatic clinical coding in practice, such as in hospital settings, on the local computers used by clinicians , project page \url{https://github.com/Glenj01/Medical-Coding}. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 拡張を超えて - 極端捕獲環境下でのモデルロバストネスの強化
Beyond Augmentation: Empowering Model Robustness under Extreme Capture Environments ( http://arxiv.org/abs/2407.13640v1 ) ライセンス: Link先を確認 | Yunpeng Gong, Yongjie Hou, Chuangliang Zhang, Min Jiang, | (参考訳) コンピュータビジョンにおける人物再識別(re-ID)は、異なるカメラで個人を認識し追跡することを目的としている。
これまでの研究は主に、ポーズのバリエーションや照明の変化といった課題に焦点を当ててきたが、極端な捕獲条件の影響はしばしば適切に対処されていない。
様々な照明、カメラスタイル、角度、画像歪みなどの極端な条件は、データの分布と再ID精度に大きな影響を与える可能性がある。
現在の研究は、通常射撃条件下でのモデル一般化を、明るさやコントラストの調整などのデータ拡張技術によって改善している。
しかし、これらの手法は極端な射撃条件下でのモデルの堅牢性にはあまり注意を払わない。
そこで本研究では,マルチモード同期学習(MMSL)戦略を提案する。
このアプローチでは、画像をグリッドに分割し、グリッドブロックをランダムに選択し、コントラストや明るさ調整のようなデータ拡張手法を適用する。
このプロセスは、オリジナルの画像構造を変更することなく多様な変換を導入し、モデルが極端な変化に適応するのに役立つ。
この手法は、極端な条件下でのモデルの一般化を改善し、多様な特徴の学習を可能にし、re-IDの課題に対処する。
極端条件下でのシミュレーション実験により,本手法の有効性を実証した。
このアプローチは、実世界のシナリオにおけるモデル堅牢性と適応性の向上に不可欠であり、個人再識別技術の今後の発展をサポートする。
Person Re-identification (re-ID) in computer vision aims to recognize and track individuals across different cameras. While previous research has mainly focused on challenges like pose variations and lighting changes, the impact of extreme capture conditions is often not adequately addressed. These extreme conditions, including varied lighting, camera styles, angles, and image distortions, can significantly affect data distribution and re-ID accuracy. Current research typically improves model generalization under normal shooting conditions through data augmentation techniques such as adjusting brightness and contrast. However, these methods pay less attention to the robustness of models under extreme shooting conditions. To tackle this, we propose a multi-mode synchronization learning (MMSL) strategy . This approach involves dividing images into grids, randomly selecting grid blocks, and applying data augmentation methods like contrast and brightness adjustments. This process introduces diverse transformations without altering the original image structure, helping the model adapt to extreme variations. This method improves the model's generalization under extreme conditions and enables learning diverse features, thus better addressing the challenges in re-ID. Extensive experiments on a simulated test set under extreme conditions have demonstrated the effectiveness of our method. This approach is crucial for enhancing model robustness and adaptability in real-world scenarios, supporting the future development of person re-identification technology. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# テキストと画像の拡散モデルを用いたオープンボキャブラリ3次元セマンティックセマンティックセグメンテーション
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.13642v1 ) ライセンス: Link先を確認 | Xiaoyu Zhu, Hao Zhou, Pengfei Xing, Long Zhao, Hao Xu, Junwei Liang, Alexander Hauptmann, Ting Liu, Andrew Gallagher, | (参考訳) 本稿では,大規模画像カプセルペア上で事前学習した拡散モデルを用いて,オープンな3Dセマンティック理解を実現する。
オープンな3次元セマンティックセマンティックセグメンテーションと視覚的接地作業のために,テキスト画像生成モデルからの凍結表現と,有意な認識マスクと幾何学的認識マスクを併用した新しい手法Diff2Sceneを提案する。
Diff2Sceneはラベル付き3Dデータを取り除き、オブジェクト、外観、素材、場所、およびそれらの構成物を3Dシーンで効果的に識別する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
特にDiff2Sceneでは、ScanNet200の最先端メソッドを12%改善している。
In this paper, we investigate the use of diffusion models which are pre-trained on large-scale image-caption pairs for open-vocabulary 3D semantic understanding. We propose a novel method, namely Diff2Scene, which leverages frozen representations from text-image generative models, along with salient-aware and geometric-aware masks, for open-vocabulary 3D semantic segmentation and visual grounding tasks. Diff2Scene gets rid of any labeled 3D data and effectively identifies objects, appearances, materials, locations and their compositions in 3D scenes. We show that it outperforms competitive baselines and achieves significant improvements over state-of-the-art methods. In particular, Diff2Scene improves the state-of-the-art method on ScanNet200 by 12%. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# ドロップアウトを超えて:局所的な特徴マスキングに基づくロバストな畳み込みニューラルネットワーク
Beyond Dropout: Robust Convolutional Neural Networks Based on Local Feature Masking ( http://arxiv.org/abs/2407.13646v1 ) ライセンス: Link先を確認 | Yunpeng Gong, Chuangliang Zhang, Yongjie Hou, Lifei Chen, Min Jiang, | (参考訳) そこで本研究では,両面での畳み込みニューラルネットワーク(CNN)の性能向上を目的とした,進化的局所特徴マスキング(LFM)戦略を導入する。
トレーニング期間中、我々はCNNの浅い層にランダムな特徴マスキングを戦略的に組み込み、オーバーフィッティング問題を効果的に軽減し、モデルの一般化能力を高め、敵攻撃に対するレジリエンスを高める。
LFMは、ある意味的特徴の欠如を補うために残りの特徴を活用することで、ネットワークを補完し、より弾力的な特徴学習メカニズムを育む。
LFMの有効性は、CNNの一般化能力と敵の攻撃に対する抵抗の一貫性と顕著な改善を示す一連の定量的および質的な評価を通じて実証されている。
LFMの確立したCNNフレームワークへのシームレスな統合は、ディープラーニングパラダイムにおける一般化と敵の堅牢性の両方を前進させる可能性を示している。
強靭な人物再同定ベースライン一般化実験や敵攻撃実験を含む包括的実験を通じて、上記の課題に対処する上で、LFMがもたらす実質的な拡張を実証する。
この貢献は、堅牢なニューラルネットワークアーキテクチャを進化させる上で、注目すべき一歩である。
In the contemporary of deep learning, where models often grapple with the challenge of simultaneously achieving robustness against adversarial attacks and strong generalization capabilities, this study introduces an innovative Local Feature Masking (LFM) strategy aimed at fortifying the performance of Convolutional Neural Networks (CNNs) on both fronts. During the training phase, we strategically incorporate random feature masking in the shallow layers of CNNs, effectively alleviating overfitting issues, thereby enhancing the model's generalization ability and bolstering its resilience to adversarial attacks. LFM compels the network to adapt by leveraging remaining features to compensate for the absence of certain semantic features, nurturing a more elastic feature learning mechanism. The efficacy of LFM is substantiated through a series of quantitative and qualitative assessments, collectively showcasing a consistent and significant improvement in CNN's generalization ability and resistance against adversarial attacks--a phenomenon not observed in current and prior methodologies. The seamless integration of LFM into established CNN frameworks underscores its potential to advance both generalization and adversarial robustness within the deep learning paradigm. Through comprehensive experiments, including robust person re-identification baseline generalization experiments and adversarial attack experiments, we demonstrate the substantial enhancements offered by LFM in addressing the aforementioned challenges. This contribution represents a noteworthy stride in advancing robust neural network architectures. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# Weak-to-Strong Reasoning
Weak-to-Strong Reasoning ( http://arxiv.org/abs/2407.13647v1 ) ライセンス: Link先を確認 | Yuqing Yang, Yan Ma, Pengfei Liu, | (参考訳) 大規模言語モデル(LLM)が人間レベルの能力を超えると、これらのモデルに対してより大規模かつ正確な監視を提供することがますます困難になる。
弱強学習(Weak-to-strong learning)は、より能力の低いモデルを利用して、強いモデルの潜在能力を解き放つ。
しかし、複雑な推論タスクに対するこのアプローチの有効性はまだ検証されていない。
さらに、現在、弱強条件下での推論タスクに対処するには、エラーを含む弱いスーパーバイザーを盲目的に模倣するのを避けるための効率的な方法が欠如している。
本稿では,より高度なモデルや人手による注釈付きデータからの入力を必要とせず,強力なモデルを自律的に訓練データを洗練させるための,進歩的学習フレームワークを提案する。
このフレームワークは、選択的に小さいが高品質なデータセットの教師付き微調整から始まり、続いて強いモデル自体によって識別される対照的なサンプルの優先順位最適化を行う。
GSM8KとMATHデータセットの大規模な実験により、3つの弱いモデルを用いてLlama2-70bの推論能力を著しく向上することが示された。
この方法は、Llama3-8b-instructが、高度に挑戦するオリンピックアリーナのデータセット上で、Llama3-70bを効果的に監督する、前方的な実験装置でさらに検証されている。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
すべての関連コードとリソースは \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning} で利用可能である。
When large language models (LLMs) exceed human-level capabilities, it becomes increasingly challenging to provide full-scale and accurate supervisions for these models. Weak-to-strong learning, which leverages a less capable model to unlock the latent abilities of a stronger model, proves valuable in this context. Yet, the efficacy of this approach for complex reasoning tasks is still untested. Furthermore, tackling reasoning tasks under the weak-to-strong setting currently lacks efficient methods to avoid blindly imitating the weak supervisor including its errors. In this paper, we introduce a progressive learning framework that enables the strong model to autonomously refine its training data, without requiring input from either a more advanced model or human-annotated data. This framework begins with supervised fine-tuning on a selective small but high-quality dataset, followed by preference optimization on contrastive samples identified by the strong model itself. Extensive experiments on the GSM8K and MATH datasets demonstrate that our method significantly enhances the reasoning capabilities of Llama2-70b using three separate weak models. This method is further validated in a forward-looking experimental setup, where Llama3-8b-instruct effectively supervises Llama3-70b on the highly challenging OlympicArena dataset. This work paves the way for a more scalable and sophisticated strategy to enhance AI reasoning powers. All relevant code and resources are available in \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning}. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# COMCAT: 自動文書化と要約を改善するために人間の判断を活用する
COMCAT: Leveraging Human Judgment to Improve Automatic Documentation and Summarization ( http://arxiv.org/abs/2407.13648v1 ) ライセンス: Link先を確認 | Skyler Grandel, Scott Thomas Andersen, Yu Huang, Kevin Leach, | (参考訳) ソフトウェアのメンテナンスは、ソフトウェアの総寿命コストのかなりの部分を占めており、コードの理解に起因している。
ソフトウェアの理解は、コードを要約し、説明するコメントのようなドキュメントによって容易になる。
我々は,言語モデル (LLM) を専門知識を持つ文脈で拡張することで,コメントの自動生成手法であるCOMCATを提案する。
提案手法により,ソースコードを含むスニペットやファイルに対して,最も関連性の高い情報的コメントの選択が可能になる。
C/C++ファイルにコメントを付けるためのCOMCATパイプラインを開発し、(1)コメントを配置する適切な場所を自動的に識別し、(2)各場所について最も有用なタイプのコメントを予測し、(3)選択した場所とコメントタイプに基づいてコメントを生成する。
被験者の87%に対して,COMCATが生成したコメントは,3つの指示的ソフトウェアエンジニアリングタスクにおける開発者のコード理解を最大12%向上させることを示した。
さらに,COMCATで生成したコメントは人間で生成したコメントと同じくらい正確で読みやすく,標準のChatGPTで生成したコメントよりも最大92%のコードスニペットの方が好ましいことを示す。
さらに、ソースコードスニペット、人書きコメント、人書きコメントカテゴリを含むデータセットを開発し、リリースする。
COMCATはLLMを活用して、さまざまなヒューマンソフトウェアエンジニアリングタスクにわたるコード理解を大幅に改善する。
Software maintenance constitutes a substantial portion of the total lifetime costs of software, with a significant portion attributed to code comprehension. Software comprehension is eased by documentation such as comments that summarize and explain code. We present COMCAT, an approach to automate comment generation by augmenting Large Language Models (LLMs) with expertise-guided context to target the annotation of source code with comments that improve comprehension. Our approach enables the selection of the most relevant and informative comments for a given snippet or file containing source code. We develop the COMCAT pipeline to comment C/C++ files by (1) automatically identifying suitable locations in which to place comments, (2) predicting the most helpful type of comment for each location, and (3) generating a comment based on the selected location and comment type. In a human subject evaluation, we demonstrate that COMCAT-generated comments significantly improve developer code comprehension across three indicative software engineering tasks by up to 12% for 87% of participants. In addition, we demonstrate that COMCAT-generated comments are at least as accurate and readable as human-generated comments and are preferred over standard ChatGPT-generated comments for up to 92% of snippets of code. Furthermore, we develop and release a dataset containing source code snippets, human-written comments, and human-annotated comment categories. COMCAT leverages LLMs to offer a significant improvement in code comprehension across a variety of human software engineering tasks. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 全光損失耐性分散量子センシング
All-optical Loss-tolerant Distributed Quantum Sensing ( http://arxiv.org/abs/2407.13654v1 ) ライセンス: Link先を確認 | Rajveer Nehra, Changhun Oh, Liang Jiang, Alireza Marandi, | (参考訳) 分散量子センシング(DQS)は、量子資源を利用して、古典的な限界を超えたネットワーク化された量子センサーの未知のグローバルな特性を推定する。
次世代DQSシステムのための全光学的資源効率スキームを提案し,解析する。
本手法は位相感度光パラメトリック増幅器と線形干渉計を用い, 絡み合った資源状態の量子フィッシャー情報によって決定される最適限界に近い感度を実現する。
さらに、高利得OPAアシスト検出を利用して、帯域幅の増大と損失耐性の重要な利点を提供するが、従来の平衡ホモダイン検出(BHD)法とは対照的である。
提案手法の有効性を示すとともに,光子損失に対する損失耐性を示すとともに,現在のBHD法における大きな障害を回避できることを示す。
私たちのアーキテクチャ分析は、現在の量子フォトニクス技術で我々のスキームが実現可能であることを示している
Distributed quantum sensing (DQS) leverages quantum resources to estimate an unknown global property of a networked quantum sensor beyond the classical limit. We propose and analyze an all-optical resource-efficient scheme for the next-generation DQS systems. Our method utilizes phase-sensitive optical parametric amplifiers and linear interferometers and achieves the sensitivity close to the optimal limit, as determined by the quantum Fisher information of the entangled resource state. Furthermore, it utilizes high-gain OPA-assisted detection, offering critical advantages of increased bandwidth and loss tolerance, in contrast to conventional methods employing balanced homodyne detection (BHD). We show the efficacy of our proposal for displacement sensing and show its loss tolerance against high levels of photon loss, thus circumventing the major obstacle in current BHD-based approaches. Our architectural analysis shows that our scheme can be realized with current quantum photonic technology | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# FuLG: 言語モデル事前トレーニングのためのルーマニア語コーパス150B
FuLG: 150B Romanian Corpus for Language Model Pretraining ( http://arxiv.org/abs/2407.13657v1 ) ライセンス: Link先を確認 | Vlad-Andrei Bădoiu, Mihai-Valentin Dumitru, Alexandru M. Gherghescu, Alexandru Agache, Costin Raiciu, | (参考訳) 言語モデルの研究は急速に進展しており、多くのオープンモデルが一般に公開されている。
オープンで利用可能な事前学習コーパスは、通常は少数の言語にのみフォーカスするが、他の多くの言語は完全に欠落しているか、非常に不足している。
本報告では,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。
本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
Research in the field of language models is rapidly evolving, with many open models being released to the public. Openly available pretraining corpora usually focus on only a handful of languages, with many others either missing completely or extremely underrepresented. In this report, we introduce FuLG, a hundred-fifty-billion-token Romanian corpus extracted from CommonCrawl. We present our methodology for filtering FuLG and compare it via ablation studies against existing Romanian corpora. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 投射探索用ゼリーフィッシュサーチオプティマイザの性能に関する研究
Studying the Performance of the Jellyfish Search Optimiser for the Application of Projection Pursuit ( http://arxiv.org/abs/2407.13663v1 ) ライセンス: Link先を確認 | H. Sherry Zhang, Dianne Cook, Nicolas Langrené, Jessica Wai Yin Leung, | (参考訳) プロジェクション追跡(PP)ガイド付きツアーは、PPインデックスとして知られる基準関数を対話的に最適化し、興味深いプロジェクションを明らかにすることで高次元データを探索する。
PPの最適化は非滑らかな関数を含む非自明なものであり、近距離からのみ検出できる小さなスキント角度のオプティマを含む。
これらの課題に対処するため,最近導入されたSwarmベースのアルゴリズムであるJellyfish Search Optimiser(JSO)の性能について検討した。
データを可視化するためのJSOの性能は、様々なハイパーパラメータ設定で評価され、既存のオプティマイザと比較される。
さらに、PP最適化問題に固有の複雑さを捉えるために、PP指数の2つの性質、滑らかさ、およびスクインタビリティを定量化する新しい手法を提案する。
これら2つの指標をJSOハイパーパラメータとともに評価し、JSO成功率に与える影響を判定する。
以上の結果から,これらの指標がJSO成功率に有意な影響を与えることが確認された。
JSOアルゴリズムはトレーサパッケージで実装されており、スムーズさとスキンタビリティを計算する関数がファーンパッケージで利用可能である。
The projection pursuit (PP) guided tour interactively optimises a criteria function known as the PP index, to explore high-dimensional data by revealing interesting projections. The optimisation in PP can be non-trivial, involving non-smooth functions and optima with a small squint angle, detectable only from close proximity. To address these challenges, this study investigates the performance of a recently introduced swarm-based algorithm, Jellyfish Search Optimiser (JSO), for optimising PP indexes. The performance of JSO for visualising data is evaluated across various hyper-parameter settings and compared with existing optimisers. Additionally, this work proposes novel methods to quantify two properties of the PP index, smoothness and squintability that capture the complexities inherent in PP optimisation problems. These two metrics are evaluated along with JSO hyper-parameters to determine their effects on JSO success rate. Our numerical results confirm the positive impact of these metrics on the JSO success rate, with squintability being the most significant. The JSO algorithm has been implemented in the tourr package and functions to calculate smoothness and squintability are available in the ferrn package. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 直接対物マーケティング最適化のための因果学習に着目した意思決定
Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization ( http://arxiv.org/abs/2407.13664v1 ) ライセンス: Link先を確認 | Hao Zhou, Rongxiao Huang, Shaoming Li, Guibin Jiang, Jiaqi Zheng, Bing Cheng, Wei Lin, | (参考訳) マーケティング最適化は、オンラインインターネットプラットフォームにおけるユーザエンゲージメントを高める上で重要な役割を果たす。
既存の研究は通常、この問題を予算配分問題として定式化し、2つの完全に分離された段階、すなわち機械学習(ML)と運用研究(OR)を利用して解決する。
しかし、MLの学習目的は、ORの下流最適化タスクを考慮していないため、MLの予測精度が判定品質に肯定的な関係がない可能性がある。
決定集中学習(DFL)は、MLとORをエンドツーエンドのフレームワークに統合し、下流タスクの目的を意思決定損失関数として捉え、MLとOR間の最適化方向の整合性を保証する。
しかし、DFLをマーケティングに展開するのは、複数の技術的課題のために簡単ではない。
第一に、マーケティングにおける予算配分問題は0-1整数確率的プログラミングの問題であり、予算は不確実であり、DFLの一般的な問題背景を超越した現実的な設定で大きく変動する。
第二に、マーケティングにおける反事実は、決定損失を直接計算できず、最適解が得られない原因であり、どちらもDFLの一般的な勾配推定アプローチを無効にしている。
第3に、ORソルバは、DFLにおけるモデルトレーニング中の決定損失を計算するために頻繁に呼ばれるが、これは膨大な計算コストを発生させ、大規模なトレーニングデータをサポートできない。
本稿では,このような技術的課題を克服する,直接対実的マーケティング最適化のための意思決定中心因果学習フレームワーク(DFCL)を提案する。
オフライン実験とオンラインA/Bテストの両方が、最先端の手法に対するDFCLの有効性を示している。
DFCLは現在、世界最大のオンラインフードデリバリープラットフォームの1つであるMeituanで、いくつかのマーケティングシナリオにデプロイされている。
Marketing optimization plays an important role to enhance user engagement in online Internet platforms. Existing studies usually formulate this problem as a budget allocation problem and solve it by utilizing two fully decoupled stages, i.e., machine learning (ML) and operation research (OR). However, the learning objective in ML does not take account of the downstream optimization task in OR, which causes that the prediction accuracy in ML may be not positively related to the decision quality. Decision Focused Learning (DFL) integrates ML and OR into an end-to-end framework, which takes the objective of the downstream task as the decision loss function and guarantees the consistency of the optimization direction between ML and OR. However, deploying DFL in marketing is non-trivial due to multiple technological challenges. Firstly, the budget allocation problem in marketing is a 0-1 integer stochastic programming problem and the budget is uncertain and fluctuates a lot in real-world settings, which is beyond the general problem background in DFL. Secondly, the counterfactual in marketing causes that the decision loss cannot be directly computed and the optimal solution can never be obtained, both of which disable the common gradient-estimation approaches in DFL. Thirdly, the OR solver is called frequently to compute the decision loss during model training in DFL, which produces huge computational cost and cannot support large-scale training data. In this paper, we propose a decision focused causal learning framework (DFCL) for direct counterfactual marketing optimization, which overcomes the above technological challenges. Both offline experiments and online A/B testing demonstrate the effectiveness of DFCL over the state-of-the-art methods. Currently, DFCL has been deployed in several marketing scenarios in Meituan, one of the largest online food delivery platform in the world. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# 高次元学習における非漸近不確かさの定量化
Non-Asymptotic Uncertainty Quantification in High-Dimensional Learning ( http://arxiv.org/abs/2407.13666v1 ) ライセンス: Link先を確認 | Frederik Hoppe, Claudio Mayrink Verdun, Hannah Laus, Felix Krahmer, Holger Rauhut, | (参考訳) 不確実性定量化(英: Uncertainty Quantification, UQ)は、多くの高次元回帰問題や学習問題において、与えられた予測子の信頼性を高めるために重要な課題である。
我々は、LASSOのような古典的回帰アプローチとニューラルネットワークの両方に適用可能な、回帰におけるUQのための新しいデータ駆動アプローチを開発した。
最も重要なUQ手法の1つは脱バイアスLASSO(英語版)であり、これは、推定誤差をガウスと漸近的に消滅するバイアス成分に分解することで、漸近的な信頼区間を構築するためにLASSOを変更するものである。
しかし、有限次元データを持つ実世界の問題では、バイアス項は無視されるには重要すぎることが多く、過度に信頼区間が狭くなる。
我々の研究は、この問題に厳格に対処し、トレーニングデータからバイアス項の手段と分散を推定し、高次元濃度現象を利用して、大規模な予測器の信頼区間を補正するデータ駆動調整を導出する。
これにより、非漸近的な信頼区間が生まれ、MRI診断のような重要な応用における不確実性を過度に見積もることを避けることができる。
重要なことは、ニューラルネットワークのようなデータ駆動予測器へのスパースレグレッションを超えて、モデルベースのディープラーニングの信頼性を高めることです。
本研究は,確立された理論と,そのような偏りのある手法の実践的適用性とのギャップを埋めるものである。
Uncertainty quantification (UQ) is a crucial but challenging task in many high-dimensional regression or learning problems to increase the confidence of a given predictor. We develop a new data-driven approach for UQ in regression that applies both to classical regression approaches such as the LASSO as well as to neural networks. One of the most notable UQ techniques is the debiased LASSO, which modifies the LASSO to allow for the construction of asymptotic confidence intervals by decomposing the estimation error into a Gaussian and an asymptotically vanishing bias component. However, in real-world problems with finite-dimensional data, the bias term is often too significant to be neglected, resulting in overly narrow confidence intervals. Our work rigorously addresses this issue and derives a data-driven adjustment that corrects the confidence intervals for a large class of predictors by estimating the means and variances of the bias terms from training data, exploiting high-dimensional concentration phenomena. This gives rise to non-asymptotic confidence intervals, which can help avoid overestimating uncertainty in critical applications such as MRI diagnosis. Importantly, our analysis extends beyond sparse regression to data-driven predictors like neural networks, enhancing the reliability of model-based deep learning. Our findings bridge the gap between established theory and the practical applicability of such debiased methods. | 翻訳日:2024-07-19 14:41:26 公開日:2024-07-18 |
# MeshSegmenter: テクスチャ合成によるゼロショットメッシュセマンティックセマンティックセグメンテーション
MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis ( http://arxiv.org/abs/2407.13675v1 ) ライセンス: Link先を確認 | Ziming Zhong, Yanxu Xu, Jing Li, Jiale Xu, Zhengxin Li, Chaohui Yu, Shenghua Gao, | (参考訳) ゼロショット3Dセマンティックセグメンテーション用に設計されたシンプルで効果的なフレームワークであるMeshSegmenterを提案する。
このモデルは、2Dセグメンテーションモデルの強力な能力を3Dメッシュに拡張し、さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを実現する。
具体的には,Segment Anything Model(SAM)モデルを用いて,対象領域を3次元形状から描画した画像から分割する。
セグメンテーションにおけるテクスチャの重要性を鑑み,事前訓練した安定拡散モデルを用いて3次元形状のテクスチャ画像を生成し,SAMを利用してテクスチャ画像からターゲット領域をセグメンテーションする。
テクスチャはセグメンテーションの形状を補い、カーメッシュ内の車のドアをセグメンテーションするなど、幾何学的に不明瞭な領域でも正確な3Dセグメンテーションを促進する。
3Dセグメントを実現するために、異なるビューから2D画像を描画し、テクスチャ化された画像と非テクスチャ化された画像の両方に対してセグメンテーションを行う。
最後に,2次元セグメンテーション結果と様々なビューからの信頼スコアを3次元メッシュに統合し,セグメンテーション結果の3次元一貫性を確保し,特定の視点からの不正確さを解消する多視点リボッティング手法を開発した。
これらのイノベーションを通じて、MeshSegmenterは安定的で信頼性の高い3Dセグメンテーションの結果を定量的かつ質的に提供し、3Dゼロショットセグメンテーションの分野におけるトランスフォーメーションツールとしての可能性を強調している。
コードは \url{https://github.com/zimingzhong/MeshSegmenter} で公開されている。
We present MeshSegmenter, a simple yet effective framework designed for zero-shot 3D semantic segmentation. This model successfully extends the powerful capabilities of 2D segmentation models to 3D meshes, delivering accurate 3D segmentation across diverse meshes and segment descriptions. Specifically, our model leverages the Segment Anything Model (SAM) model to segment the target regions from images rendered from the 3D shape. In light of the importance of the texture for segmentation, we also leverage the pretrained stable diffusion model to generate images with textures from 3D shape, and leverage SAM to segment the target regions from images with textures. Textures supplement the shape for segmentation and facilitate accurate 3D segmentation even in geometrically non-prominent areas, such as segmenting a car door within a car mesh. To achieve the 3D segments, we render 2D images from different views and conduct segmentation for both textured and untextured images. Lastly, we develop a multi-view revoting scheme that integrates 2D segmentation results and confidence scores from various views onto the 3D mesh, ensuring the 3D consistency of segmentation results and eliminating inaccuracies from specific perspectives. Through these innovations, MeshSegmenter offers stable and reliable 3D segmentation results both quantitatively and qualitatively, highlighting its potential as a transformative tool in the field of 3D zero-shot segmentation. The code is available at \url{https://github.com/zimingzhong/MeshSegmenter}. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# PASTA:自己回帰変換器を用いた制御可能な部品認識形状生成
PASTA: Controllable Part-Aware Shape Generation with Autoregressive Transformers ( http://arxiv.org/abs/2407.13677v1 ) ライセンス: Link先を確認 | Songlin Li, Despoina Paschalidou, Leonidas Guibas, | (参考訳) 3Dコンテンツ作成プロセスを自動化するツールの需要の増加は、多種多様な高忠実度な3Dオブジェクトを生成できる深層生成モデルの大幅な進歩につながった。
本稿では,高品質な3次元形状を生成する自動回帰トランスアーキテクチャであるPASTAを提案する。
PASTAは、立方体プリミティブのシーケンスとしてオブジェクトを生成する自己回帰トランスフォーマーと、立方体のシーケンスを構成するトランスフォーマーデコーダで実装され、各オブジェクトに対して高品質なメッシュを合成するブレンディングネットワークである。
まず、アノテートされた立方体部分のみを監督として自動回帰生成モデルを訓練し、次に、明快な3D監視を用いて水密メッシュの形でブレンディングネットワークを訓練する。
様々なShapeNetオブジェクトに対する評価では、オブジェクトの境界を定義するバウンディングボックスを明示的に条件付けすることで、テキストや画像から、部分オブジェクトから、そしてサイズ誘導生成から、スクラッチから、多様な入力から、形状生成を行うモデルの能力を示す。
さらに,本モデルでは,3次元オブジェクトの基盤となる部分構造を考慮し,特定の部分を選択し,この部分の有意義なバリエーションで形状を生成できる。
実験によって証明されたように、我々のモデルは既存のパートベースおよび非パートベース手法よりも現実的で多様な3D形状を生成すると同時に、実装とトレーニングも簡単である。
The increased demand for tools that automate the 3D content creation process led to tremendous progress in deep generative models that can generate diverse 3D objects of high fidelity. In this paper, we present PASTA, an autoregressive transformer architecture for generating high quality 3D shapes. PASTA comprises two main components: An autoregressive transformer that generates objects as a sequence of cuboidal primitives and a blending network, implemented with a transformer decoder that composes the sequences of cuboids and synthesizes high quality meshes for each object. Our model is trained in two stages: First we train our autoregressive generative model using only annotated cuboidal parts as supervision and next, we train our blending network using explicit 3D supervision, in the form of watertight meshes. Evaluations on various ShapeNet objects showcase the ability of our model to perform shape generation from diverse inputs \eg from scratch, from a partial object, from text and images, as well size-guided generation, by explicitly conditioning on a bounding box that defines the object's boundaries. Moreover, as our model considers the underlying part-based structure of a 3D object, we are able to select a specific part and produce shapes with meaningful variations of this part. As evidenced by our experiments, our model generates 3D shapes that are both more realistic and diverse than existing part-based and non part-based methods, while at the same time is simpler to implement and train. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# HPix:衛星画像からベクトルマップを生成する
HPix: Generating Vector Maps from Satellite Images ( http://arxiv.org/abs/2407.13680v1 ) ライセンス: Link先を確認 | Aditya Taparia, Keshab Nath, | (参考訳) ベクトルマップは、蓄積するだけでなく、建物のフットプリント、災害影響分析、デジタル化、都市計画、ロケーションポイント、交通リンクなど、個々のデータ境界を表現しているため、多様な領域にまたがる幅広いユーティリティを見出す。
衛星画像から建物の足跡や道路タイプを特定するための広範な研究は存在するが、そのような画像からベクトルマップを生成することは、限られた探索領域のままである。
さらに、従来の地図生成技術は、労働集約的な手動特徴抽出やルールに基づくアプローチに依存しており、固有の制限を課している。
これらの制約を克服するため、衛星画像からベクトルタイルマップを生成するためにGAN(Generative Adversarial Networks)を改良したHPixと呼ばれる新しい手法を提案する。
HPixには,グローバルレベルで運用するフレームワークと,ローカルレベルで運用するフレームワークの2つが組み込まれている。
実験により,衛星画像から得られたベクトルタイルマップを高精度かつ視覚的に捕食する手法の有効性を示した。
さらに、道路交差点のマッピングや、その面積に基づいたフットプリントクラスタの構築など、我々の研究の応用を拡大する。
Vector maps find widespread utility across diverse domains due to their capacity to not only store but also represent discrete data boundaries such as building footprints, disaster impact analysis, digitization, urban planning, location points, transport links, and more. Although extensive research exists on identifying building footprints and road types from satellite imagery, the generation of vector maps from such imagery remains an area with limited exploration. Furthermore, conventional map generation techniques rely on labor-intensive manual feature extraction or rule-based approaches, which impose inherent limitations. To surmount these limitations, we propose a novel method called HPix, which utilizes modified Generative Adversarial Networks (GANs) to generate vector tile map from satellite images. HPix incorporates two hierarchical frameworks: one operating at the global level and the other at the local level, resulting in a comprehensive model. Through empirical evaluations, our proposed approach showcases its effectiveness in producing highly accurate and visually captivating vector tile maps derived from satellite images. We further extend our study's application to include mapping of road intersections and building footprints cluster based on their area. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# 証券貸出市場における動的価格設定:エージェント・レンダー・ポートフォリオの収益最適化への応用
Dynamic Pricing in Securities Lending Market: Application in Revenue Optimization for an Agent Lender Portfolio ( http://arxiv.org/abs/2407.13687v1 ) ライセンス: Link先を確認 | Jing Xu, Yung Cheng Hsu, William Biscarri, | (参考訳) 証券貸付は金融市場構造の重要な部分であり、エージェント・貸し手は長期の機関投資家が貸付手数料と引き換えに短期の売り手に証券を貸し出すのを助ける。
市場のエージェント・貸し手は、できるだけ高いレートで証券を貸し出すことで収益を最適化しようとしている。
通常、このレートはハードコードされたビジネスルールまたは標準的な教師付き機械学習モデルによって設定される。
これらのアプローチはスケールが難しく、市場の状況の変化に適応できないことが多い。
中央集権的なリミット・オーダー・ブックを持つ伝統的な証券取引所とは異なり、証券貸出市場は、エージェント・貸し手や借り手が合意された価格で取引できる電子商取引市場と同様に組織されている。
この類似性から、電子商取引における動的価格問題に対処する典型的な手法は、証券融資市場において有効である可能性が示唆されている。
証券貸出市場では,既存の文脈的バンディットの枠組みをうまく活用できることが示されている。
実履歴データをオフラインで評価することにより、コンテキスト的バンディットアプローチは、総収益の少なくとも15%以上の典型的なアプローチを一貫して上回り得ることを示す。
Securities lending is an important part of the financial market structure, where agent lenders help long term institutional investors to lend out their securities to short sellers in exchange for a lending fee. Agent lenders within the market seek to optimize revenue by lending out securities at the highest rate possible. Typically, this rate is set by hard-coded business rules or standard supervised machine learning models. These approaches are often difficult to scale and are not adaptive to changing market conditions. Unlike a traditional stock exchange with a centralized limit order book, the securities lending market is organized similarly to an e-commerce marketplace, where agent lenders and borrowers can transact at any agreed price in a bilateral fashion. This similarity suggests that the use of typical methods for addressing dynamic pricing problems in e-commerce could be effective in the securities lending market. We show that existing contextual bandit frameworks can be successfully utilized in the securities lending market. Using offline evaluation on real historical data, we show that the contextual bandit approach can consistently outperform typical approaches by at least 15% in terms of total revenue generated. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# アクティブセグメンテーションによるシェードルート計画と衛星画像の同定
Shaded Route Planning Using Active Segmentation and Identification of Satellite Images ( http://arxiv.org/abs/2407.13689v1 ) ライセンス: Link先を確認 | Longchao Da, Rohan Chhibba, Rushabh Jaiswal, Ariane Middel, Hua Wei, | (参考訳) 熱波は特に夏の高温への長期曝露により、重大な健康リスクを引き起こす。
特に日光を浴びた歩道の歩行者やサイクリストは、日光比を考慮した体温効果を取り入れた経路計画法の開発を動機付けている。
本稿では,高解像度衛星画像からシェード領域を抽出するためのセグメンテーション基礎モデルを用いたパイプラインを初めて導入する。
これらのエリアは多層道路マップに統合され、ユーザーは距離と日陰の露出のバランスに基づいてルートをカスタマイズできる。
具体的には、リンクが接続性を示し、動的経路計画のためのシェード比データで更新される道路地図のグラフベース表現を構築する。
このシステムは、すでにオンラインで実装されており、デモビデオが公開されている。
Heatwaves pose significant health risks, particularly due to prolonged exposure to high summer temperatures. Vulnerable groups, especially pedestrians and cyclists on sun-exposed sidewalks, motivate the development of a route planning method that incorporates somatosensory temperature effects through shade ratio consideration. This paper is the first to introduce a pipeline that utilizes segmentation foundation models to extract shaded areas from high-resolution satellite images. These areas are then integrated into a multi-layered road map, enabling users to customize routes based on a balance between distance and shade exposure, thereby enhancing comfort and health during outdoor activities. Specifically, we construct a graph-based representation of the road map, where links indicate connectivity and are updated with shade ratio data for dynamic route planning. This system is already implemented online, with a video demonstration, and will be specifically adapted to assist travelers during the 2024 Olympic Games in Paris. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# Prover-Verifier Games は LLM 出力の可視性を向上する
Prover-Verifier Games improve legibility of LLM outputs ( http://arxiv.org/abs/2407.13692v1 ) ライセンス: Link先を確認 | Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda, | (参考訳) LLMs(Large Language Models)のアウトプットに対する信頼性を高めるひとつの方法は、明確で、簡単にチェックできるという理由から、それらをサポートすることです。
小学校数学の問題を解く文脈における正当性について検討し、解答の正当性のみにチェーン・オブ・プリート・ソリューションを最適化することは、それらの正当性を損なうことを示す。
本稿では,Anil et al (2021) の Prover-Verifier Game に触発された学習アルゴリズムを提案する。
我々のアルゴリズムは、解の正確性を予測するために小さな検証器を反復的に訓練し、検証器が受け入れる正しい解を生成するために「ヘルプフル」プローバーと、検証器を騙す誤った解を生成するために「スネーク」プローバーを作成した。
その結果, 有効証明者の精度と検証者の対人攻撃に対する堅牢性は, 訓練期間中に増大することがわかった。
さらに, 解の正当性を検証した時間制約型人間に対して, 正当性訓練を施すことを示す。
LLMトレーニングの過程で、有効な証明者の解をチェックすると人間の精度が増加し、スニージーな証明者の解をチェックすると減少する。
したがって、小検証器による検証可能性の訓練は、出力の正当性を高めるための妥当な手法である。
本研究は,人間に対するLLMの妥当性を高めるための実践的方法として,小検証器に対する妥当性訓練を行うことを示唆し,超人的モデルの整合性向上に寄与する可能性が示唆された。
One way to increase confidence in the outputs of Large Language Models (LLMs) is to support them with reasoning that is clear and easy to check -- a property we call legibility. We study legibility in the context of solving grade-school math problems and show that optimizing chain-of-thought solutions only for answer correctness can make them less legible. To mitigate the loss in legibility, we propose a training algorithm inspired by Prover-Verifier Game from Anil et al. (2021). Our algorithm iteratively trains small verifiers to predict solution correctness, "helpful" provers to produce correct solutions that the verifier accepts, and "sneaky" provers to produce incorrect solutions that fool the verifier. We find that the helpful prover's accuracy and the verifier's robustness to adversarial attacks increase over the course of training. Furthermore, we show that legibility training transfers to time-constrained humans tasked with verifying solution correctness. Over course of LLM training human accuracy increases when checking the helpful prover's solutions, and decreases when checking the sneaky prover's solutions. Hence, training for checkability by small verifiers is a plausible technique for increasing output legibility. Our results suggest legibility training against small verifiers as a practical avenue for increasing legibility of large LLMs to humans, and thus could help with alignment of superhuman models. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# ベンチマーク合意テストが正しい - LLMベンチマーク評価のガイド
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation ( http://arxiv.org/abs/2407.13696v1 ) ライセンス: Link先を確認 | Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen, | (参考訳) 言語モデル(LM)の最近の進歩は、これらのモデルの一般的な能力を評価するために設計された複数のベンチマークの作成を触媒している。
しかし重要な課題は、ベンチマーク自体の有効性を評価することだ。
ベンチマークコンセンサステスト(BAT)では、いくつかの合意基準(ランク相関など)を使用して、確立したベンチマークに対して、新たなベンチマークが検証される。
ベンチマークビルダーやコンシューマーにとって、BATは重要な役割を担っているが、そのような合意テストのための標準化された手順は存在しない。
この欠陥は、無効な結論を導き、ベンチマークにおける不信を育み、適切なベンチマークを適切に選択する能力を高めます。
40以上の著名なベンチマークを解析することにより、見過ごされた方法論の選択がBATの結果に大きく影響し、結論の妥当性を損なう可能性を実証する。
これらの不整合に対処するために,BATのベストプラクティスのセットを提案し,これらの手法を用いることで,BATの堅牢性と妥当性が大幅に向上することを示す。
採用の促進と今後の研究を促進するため,BAT用のピソンパッケージであるBenchBenchを導入し,ベンチマーク評価を目的としたメタベンチマークであるBenchBench- Leaderboardをリリースする。
本研究は,言語モデル研究の進化過程におけるベンチマーク評価の堅牢性と妥当性を保証するため,標準化されたBATの必要性を強調した。
BenchBench Package: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench
Recent advancements in Language Models (LMs) have catalyzed the creation of multiple benchmarks, designed to assess these models' general capabilities. A crucial task, however, is assessing the validity of the benchmarks themselves. This is most commonly done via Benchmark Agreement Testing (BAT), where new benchmarks are validated against established ones using some agreement metric (e.g., rank correlation). Despite the crucial role of BAT for benchmark builders and consumers, there are no standardized procedures for such agreement testing. This deficiency can lead to invalid conclusions, fostering mistrust in benchmarks and upending the ability to properly choose the appropriate benchmark to use. By analyzing over 40 prominent benchmarks, we demonstrate how some overlooked methodological choices can significantly influence BAT results, potentially undermining the validity of conclusions. To address these inconsistencies, we propose a set of best practices for BAT and demonstrate how utilizing these methodologies greatly improves BAT robustness and validity. To foster adoption and facilitate future research,, we introduce BenchBench, a python package for BAT, and release the BenchBench-leaderboard, a meta-benchmark designed to evaluate benchmarks using their peers. Our findings underscore the necessity for standardized BAT, ensuring the robustness and validity of benchmark evaluations in the evolving landscape of language model research. BenchBench Package: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# 総合的なレコメンダシステムのレビュー:理論から実践へ
A Comprehensive Review of Recommender Systems: Transitioning from Theory to Practice ( http://arxiv.org/abs/2407.13699v1 ) ライセンス: Link先を確認 | Shaina Raza, Mizanur Rahman, Safiullah Kamawal, Armin Toroghi, Ananya Raval, Farshad Navah, Amirmohammad Kazemeini, | (参考訳) Recommender Systems(RS)は、パーソナライズされたアイテムの提案を提供することで、ユーザーエクスペリエンスを高める上で重要な役割を果たす。
この調査は、2017年から2024年までのRSの進歩を包括的にレビューし、理論的進歩と実践的応用を効果的に結びつけるものである。
我々は、コンテンツベースや協調フィルタリングといった従来のRS技術から、ディープラーニング、グラフベースモデル、強化学習、大規模言語モデルを含む高度な手法まで、開発について検討する。
また、コンテキスト認識、レビューベース、フェアネス認識RSなどの専門システムについても論じる。
この調査の第一の目的は、理論を実践と橋渡しすることである。
それは、eコマース、ヘルスケア、金融など、さまざまな分野の課題に対処し、スケーラブルでリアルタイムで信頼できるソリューションの必要性を強調している。
本調査を通じて,学術研究と産業実践の連携を深める。
本調査から得られた知見は,産業専門家のRS展開の最適化と今後の研究の方向性,特に新興技術・社会のトレンドへの対応を導くことを目的としている。
Recommender Systems (RS) play an integral role in enhancing user experiences by providing personalized item suggestions. This survey reviews the progress in RS inclusively from 2017 to 2024, effectively connecting theoretical advances with practical applications. We explore the development from traditional RS techniques like content-based and collaborative filtering to advanced methods involving deep learning, graph-based models, reinforcement learning, and large language models. We also discuss specialized systems such as context-aware, review-based, and fairness-aware RS. The primary goal of this survey is to bridge theory with practice. It addresses challenges across various sectors, including e-commerce, healthcare, and finance, emphasizing the need for scalable, real-time, and trustworthy solutions. Through this survey, we promote stronger partnerships between academic research and industry practices. The insights offered by this survey aim to guide industry professionals in optimizing RS deployment and to inspire future research directions, especially in addressing emerging technological and societal trends | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# クロスタスクアタック:アテンションシフトに基づくセルフスーパービジョン生成フレームワーク
Cross-Task Attack: A Self-Supervision Generative Framework Based on Attention Shift ( http://arxiv.org/abs/2407.13700v1 ) ライセンス: Link先を確認 | Qingyuan Zeng, Yunpeng Gong, Min Jiang, | (参考訳) 人工知能(AI)システムに対する敵攻撃の研究は、モデルの欠点を発見するのに役立ち、より堅牢なシステムの構築を可能にする。
既存の攻撃手法の多くは、人工知能システムのマルチタスク特性を見越して、シングルタスク・シングルモデルまたはシングルタスク・クロスモデルシナリオのみに焦点を当てている。
その結果、既存の攻撃のほとんどは、包括的で協調的なAIシステムに現実的な脅威を与えない。
しかし、異なるタスクの実際のラベルの取得が困難であり、異なるタスク間での損失関数の調和が難しいため、クロスタスク攻撃の実装は非常に要求され、困難である。
この問題に対処するために,コアテンションマップとアンチアテンションマップを用いた自己教師型クロスタスクアタックフレームワーク(CTA)を提案する。
特に、コアテンションマップは異なる視覚的タスクモデルが注目する領域を反映し、反アテンションマップは異なる視覚的タスクモデルが無視する領域を反映している。
CTAは、サンプルの注意領域をコアテンションマップから、アンチアテンションマップに近づけることで、クロスタスク摂動を生成する。
本研究では,複数の視覚課題に対する広範囲な実験を行い,提案手法の有効性を検証した。
Studying adversarial attacks on artificial intelligence (AI) systems helps discover model shortcomings, enabling the construction of a more robust system. Most existing adversarial attack methods only concentrate on single-task single-model or single-task cross-model scenarios, overlooking the multi-task characteristic of artificial intelligence systems. As a result, most of the existing attacks do not pose a practical threat to a comprehensive and collaborative AI system. However, implementing cross-task attacks is highly demanding and challenging due to the difficulty in obtaining the real labels of different tasks for the same picture and harmonizing the loss functions across different tasks. To address this issue, we propose a self-supervised Cross-Task Attack framework (CTA), which utilizes co-attention and anti-attention maps to generate cross-task adversarial perturbation. Specifically, the co-attention map reflects the area to which different visual task models pay attention, while the anti-attention map reflects the area that different visual task models neglect. CTA generates cross-task perturbations by shifting the attention area of samples away from the co-attention map and closer to the anti-attention map. We conduct extensive experiments on multiple vision tasks and the experimental results confirm the effectiveness of the proposed design for adversarial attacks. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# ANHALTEN:ドイツ語トーケンレベル参照フリー幻覚検出のための言語間変換
ANHALTEN: Cross-Lingual Transfer for German Token-Level Reference-Free Hallucination Detection ( http://arxiv.org/abs/2407.13702v1 ) ライセンス: Link先を確認 | Janek Herrlein, Chia-Chien Hung, Goran Glavaš, | (参考訳) トークンレベルの参照なし幻覚検出の研究は、主に英語に焦点を当てている。
これにより、この重要なNLPアプリケーションに対する言語間移動の有効性に関する体系的な研究が妨げられている。
このギャップに対処するために、英語の幻覚検出データセットをドイツ語に拡張する新しい評価データセットであるANHALTENを導入する。
我々の知る限りでは、トークンレベルの参照なし幻覚検出のための言語間移動を探求する最初の研究である。
ANHALTENは、ドイツ語で平行な金のアノテーションを含んでいる(つまり、元の英語のインスタンスと直接に匹敵する)。
そこで我々は,言語間移動のアプローチをいくつかの顕著なベンチマークで評価し,より大きな文脈長が,文脈を成功させることなく,ドイツ語の幻覚検出の精度を向上させることを示した。
重要なことは、ほとんどのセットアップにおいて、サンプル効率のよい少数ショット転送が最も効果的なアプローチであることを示している。
これは、参照なし幻覚検出のためのターゲット言語における最小限のアノテーションの取り組みの実践的メリットを強調している。
トークンレベルの参照なし幻覚検出に関する将来の研究を触媒することを目的として、ANHALTENを一般公開する。
Research on token-level reference-free hallucination detection has predominantly focused on English, primarily due to the scarcity of robust datasets in other languages. This has hindered systematic investigations into the effectiveness of cross-lingual transfer for this important NLP application. To address this gap, we introduce ANHALTEN, a new evaluation dataset that extends the English hallucination detection dataset to German. To the best of our knowledge, this is the first work that explores cross-lingual transfer for token-level reference-free hallucination detection. ANHALTEN contains gold annotations in German that are parallel (i.e., directly comparable to the original English instances). We benchmark several prominent cross-lingual transfer approaches, demonstrating that larger context length leads to better hallucination detection in German, even without succeeding context. Importantly, we show that the sample-efficient few-shot transfer is the most effective approach in most setups. This highlights the practical benefits of minimal annotation effort in the target language for reference-free hallucination detection. Aiming to catalyze future research on cross-lingual token-level reference-free hallucination detection, we make ANHALTEN publicly available: https://github.com/janekh24/anhalten | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# 加速度のみの測定による構造力学における支配方程式の発見
Discovering governing equation in structural dynamics from acceleration-only measurements ( http://arxiv.org/abs/2407.13704v1 ) ライセンス: Link先を確認 | Calvin Alvares, Souvik Chakraborty, | (参考訳) 過去数年間、方程式発見は科学と工学の様々な分野で人気を博してきた。
しかし、既存の方程式探索アルゴリズムは状態変数(つまり変位と速度)のノイズ測定の可用性に依存している。
これは構造力学における大きなボトルネックであり、加速度測定にしかアクセスできないことが多い。
そこで本研究では,加速度のみの測定から力学系の支配方程式を探索する新しい方程式探索アルゴリズムを提案する。
提案アルゴリズムは,方程式探索にライブラリベースのアプローチを用いる。
加速度のみの測定から方程式の発見を可能にするために,近似ベイズ計算(ABC)モデルを提案する。
提案アルゴリズムの有効性は, 線形力学系と非線形力学系の両方を含む, {four} 構造力学の例を用いて示される。
ケーススタディでは、加速のみの測定から力学系の方程式発見への提案手法の適用の可能性を示した。
Over the past few years, equation discovery has gained popularity in different fields of science and engineering. However, existing equation discovery algorithms rely on the availability of noisy measurements of the state variables (i.e., displacement {and velocity}). This is a major bottleneck in structural dynamics, where we often only have access to acceleration measurements. To that end, this paper introduces a novel equation discovery algorithm for discovering governing equations of dynamical systems from acceleration-only measurements. The proposed algorithm employs a library-based approach for equation discovery. To enable equation discovery from acceleration-only measurements, we propose a novel Approximate Bayesian Computation (ABC) model that prioritizes parsimonious models. The efficacy of the proposed algorithm is illustrated using {four} structural dynamics examples that include both linear and nonlinear dynamical systems. The case studies presented illustrate the possible application of the proposed approach for equation discovery of dynamical systems from acceleration-only measurements. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# デジタル病理におけるアウト・オブ・ディストリビューション検出の準備はできているか?
Are We Ready for Out-of-Distribution Detection in Digital Pathology? ( http://arxiv.org/abs/2407.13708v1 ) ライセンス: Link先を確認 | Ji-Hun Oh, Kianoush Falahkheirkhah, Rohit Bhargava, | (参考訳) デジタル病理学 (DP) において, 意味的および共変量外分布 (OOD) の例の検出は, 重要かつ見落とされがちな課題である。
近年,OOD検出に関する重要な知見や手法がMLコミュニティによって提示されているが,DPアプリケーションではどのように活用されるのか?
この目的のために、私たちはベンチマーク研究を確立しました。
1)適切な評価プロトコルの採用
2【単モデル・多モデル双方における多様な検出器の比較】
3)トランスファーラーニング(イメージネット対DP事前トレーニング)やアーキテクチャの選択(CNN対トランスフォーマー)といった高度なML設定の探索。
総合的な実験を通じて、我々は新たな洞察とガイドラインを提供し、今後の研究と議論の道を開く。
The detection of semantic and covariate out-of-distribution (OOD) examples is a critical yet overlooked challenge in digital pathology (DP). Recently, substantial insight and methods on OOD detection were presented by the ML community, but how do they fare in DP applications? To this end, we establish a benchmark study, our highlights being: 1) the adoption of proper evaluation protocols, 2) the comparison of diverse detectors in both a single and multi-model setting, and 3) the exploration into advanced ML settings like transfer learning (ImageNet vs. DP pre-training) and choice of architecture (CNNs vs. transformers). Through our comprehensive experiments, we contribute new insights and guidelines, paving the way for future research and discussion. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# 直接参照最適化における参照ポリシーの理解
Understanding Reference Policies in Direct Preference Optimization ( http://arxiv.org/abs/2407.13709v1 ) ライセンス: Link先を確認 | Yixin Liu, Pengfei Liu, Arman Cohan, | (参考訳) 直接選好最適化(DPO)は,大規模言語モデル(LLM)の命令微調整のための訓練手法として広く用いられている。
本稿では,参照モデルやポリシーへの依存という,DPOの未検討の側面について考察する。
このような参照ポリシーは、DPOの有効性に上限を課すことができるため、より微調整されたモデルとしてインスタンス化されることが多い。
そこで本研究では,3つの研究課題に対処する。
まず, DPOにおけるKL偏差制約の最適強度について検討し, DPOがこの強度に敏感であることを示す。
次に、DPOと関連する学習目標の理論的および実証的な比較を行ない、DPOの優越性を実証することにより、指導微調整のための参照ポリシーの必要性を検討する。
さらに、DPOがより強力な参照ポリシーの恩恵を受けるかどうかを考察し、より強力な参照ポリシーが性能向上につながることを見出したが、それはモデルが微調整されたときのみである。
本研究は,DPOにおける参照政策の役割の相違と,ベストプラクティスに対する洞察の提供に加えて,今後の研究に向けたオープンな研究課題の明確化を目的としている。
Direct Preference Optimization (DPO) has become a widely used training method for the instruction fine-tuning of large language models (LLMs). In this work, we explore an under-investigated aspect of DPO - its dependency on the reference model or policy. Such reference policies, typically instantiated as the model to be further fine-tuned, are important since they can impose an upper limit on DPO's effectiveness. Therefore, we address three related research questions in this work. First, we explore the optimal strength of the KL-divergence constraint in DPO, which penalizes deviations from the reference policy, and find that DPO is sensitive to this strength. Next, we examine the necessity of reference policies for instruction fine-tuning by providing both theoretical and empirical comparisons between DPO and related learning objectives, demonstrating DPO's superiority. Additionally, we investigate whether DPO benefits from stronger reference policies, finding that a stronger reference policy can lead to improved performance, but only when it is similar to the model being fine-tuned. Our findings highlight the confounding role of reference policies in DPO and offer insights for best practices, while also identifying open research questions for future studies. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# FSP-Laplace:ベイズ深層学習におけるラプラス近似の関数空間優先
FSP-Laplace: Function-Space Priors for the Laplace Approximation in Bayesian Deep Learning ( http://arxiv.org/abs/2407.13711v1 ) ライセンス: Link先を確認 | Tristan Cinquin, Marvin Pförtner, Vincent Fortuin, Philipp Hennig, Robert Bamler, | (参考訳) ラプラス近似(Laplace approximation)は、ニューラルネットワークの予測を変更することなく適用可能な、てんかん性不確実性推定を伴うディープネットワークを実現するための一般的なテクニックであり、大きなモデルやデータセットにスケールする。
事前の選択は、結果として生じる後続分布、計算的トラクタビリティ、およびウェイト空間の解釈可能性の欠如に強く影響するが、一般にラプラス近似は、深さが増加するにつれて病理的な振る舞いを引き起こすことが知られている等方的ガウス事前に制限される。
救済策として、関数空間に事前を直接配置する。
より正確には、ルベーグ密度は無限次元函数空間に存在しないので、ニューラルネットワークで表現できる函数の空間に制限されるガウス過程(GP)の下で、後測度のいわゆる弱モードを見つけるようにトレーニングをリキャストする必要がある。
GP事前を通じて、正規性や周期性などの構造的かつ解釈可能な帰納バイアスを関数空間で直接表現でき、深いネットワークを一般化できる暗黙の帰納バイアスを利用することができる。
モデル線形化後、トレーニング目的は負の対数-後続密度を誘導し、ラプラス近似を適用し、行列自由線型代数からの高度にスケーラブルな手法を利用する。
提案手法は,多くの科学的推論タスクにおいて,事前知識が豊富であるような改善された結果を提供する。
同時に、ニューラルネットワークが一般的に優れているブラックボックスの回帰や分類タスクにも競争力がある。
Laplace approximations are popular techniques for endowing deep networks with epistemic uncertainty estimates as they can be applied without altering the predictions of the neural network, and they scale to large models and datasets. While the choice of prior strongly affects the resulting posterior distribution, computational tractability and lack of interpretability of weight space typically limit the Laplace approximation to isotropic Gaussian priors, which are known to cause pathological behavior as depth increases. As a remedy, we directly place a prior on function space. More precisely, since Lebesgue densities do not exist on infinite-dimensional function spaces, we have to recast training as finding the so-called weak mode of the posterior measure under a Gaussian process (GP) prior restricted to the space of functions representable by the neural network. Through the GP prior, one can express structured and interpretable inductive biases, such as regularity or periodicity, directly in function space, while still exploiting the implicit inductive biases that allow deep networks to generalize. After model linearization, the training objective induces a negative log-posterior density to which we apply a Laplace approximation, leveraging highly scalable methods from matrix-free linear algebra. Our method provides improved results where prior knowledge is abundant, e.g., in many scientific inference tasks. At the same time, it stays competitive for black-box regression and classification tasks where neural networks typically excel. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# オープンワールド構成ゼロショット学習のための注意ベース簡易プリミティブ
Attention Based Simple Primitives for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2407.13715v1 ) ライセンス: Link先を確認 | Ans Munir, Faisal Z. Qureshi, Muhammad Haris Khan, Mohsen Ali, | (参考訳) 合成ゼロショット学習(CZSL)は属性とオブジェクトペアからなる未知の合成を予測することを目的としている。
トレーニング中に見つからない構成を予測することは、難しい作業です。
この研究では、私たちのテストスペースが属性とオブジェクトの潜在的な組み合わせをすべて包含するオープンワールド構成ゼロショット学習(OW-CZSL)を探求しています。
提案手法では, 属性とオブジェクト間の自己認識機構を利用して, 目に見えるものから見えないものまで, より優れた一般化を実現する。
自己認識メカニズムを利用することで、モデルが属性とオブジェクトの関係を識別することが可能になる。
その後、自己認識されたテキストと視覚的特徴の類似性を計算し、推論フェーズ中に予測を生成する。
潜在的なテスト空間は、制限されない属性-オブジェクトのペアリングから生じる不可解なオブジェクト-属性の組み合わせを包含することができる。
この問題を軽減するために、ConceptNetの外部知識を活用して、テストスペースを現実的な構成に制限します。
提案モデルであるASP(Attention-based Simple Primitives)は競争性能を示し,最先端技術に匹敵する結果を得る。
Compositional Zero-Shot Learning (CZSL) aims to predict unknown compositions made up of attribute and object pairs. Predicting compositions unseen during training is a challenging task. We are exploring Open World Compositional Zero-Shot Learning (OW-CZSL) in this study, where our test space encompasses all potential combinations of attributes and objects. Our approach involves utilizing the self-attention mechanism between attributes and objects to achieve better generalization from seen to unseen compositions. Utilizing a self-attention mechanism facilitates the model's ability to identify relationships between attribute and objects. The similarity between the self-attended textual and visual features is subsequently calculated to generate predictions during the inference phase. The potential test space may encompass implausible object-attribute combinations arising from unrestricted attribute-object pairings. To mitigate this issue, we leverage external knowledge from ConceptNet to restrict the test space to realistic compositions. Our proposed model, Attention-based Simple Primitives (ASP), demonstrates competitive performance, achieving results comparable to the state-of-the-art. | 翻訳日:2024-07-19 14:31:41 公開日:2024-07-18 |
# CoDefeater: 保証ケースのデフェータを見つけるためにLLMを使用する
CoDefeater: Using LLMs To Find Defeaters in Assurance Cases ( http://arxiv.org/abs/2407.13717v1 ) ライセンス: Link先を確認 | Usman Gohar, Michael C. Hunter, Robyn R. Lutz, Myra B. Cohen, | (参考訳) 保証ケースの構築は、安全クリティカルなシステムが計画された環境で安全に動作することを示すために広く使われ、時には必要となるプロセスである。
エラーやエッジケースの欠落のリスクを軽減するため、アシュアランスケースにおける主張に異議を唱える議論や証拠といった、敗者の概念が導入された。
決定者は議論の弱点をタイムリーに検出し、さらなる調査とタイムリーな軽減を促すことができる。
しかし、敗者の捕獲は専門家の判断、経験、創造性に依存しており、要求と規則の進化のために反復的に行う必要がある。
本稿では,大言語モデル (LLM) を利用して敗者を見つける自動化プロセスであるCoDefeaterを提案する。
2つのシステムでの最初の結果は、LLMが安全アナリストを支援するために、既知の、予期せぬ破滅者を見つけ、保証事例の完全性と信頼性を高めることができることを示している。
Constructing assurance cases is a widely used, and sometimes required, process toward demonstrating that safety-critical systems will operate safely in their planned environment. To mitigate the risk of errors and missing edge cases, the concept of defeaters - arguments or evidence that challenge claims in an assurance case - has been introduced. Defeaters can provide timely detection of weaknesses in the arguments, prompting further investigation and timely mitigations. However, capturing defeaters relies on expert judgment, experience, and creativity and must be done iteratively due to evolving requirements and regulations. This paper proposes CoDefeater, an automated process to leverage large language models (LLMs) for finding defeaters. Initial results on two systems show that LLMs can efficiently find known and unforeseen feasible defeaters to support safety analysts in enhancing the completeness and confidence of assurance cases. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# HazeCLIP: 言語ガイドによる実世界のイメージデハージングを目指す
HazeCLIP: Towards Language Guided Real-World Image Dehazing ( http://arxiv.org/abs/2407.13719v1 ) ライセンス: Link先を確認 | Ruiyi Wang, Wenhao Li, Xiaohong Liu, Chunyi Li, Zicheng Zhang, Xiongkuo Min, Guangtao Zhai, | (参考訳) 既存の手法は、特に合成データセットにおいて、単一画像のデハージングにおいて顕著な性能を達成した。
しかし、ドメインシフトによって現実のぼやけたイメージに苦しむことが多く、実用性は制限される。
本稿では,事前学習型デハジングネットワークの性能向上を目的とした言語誘導適応フレームワークHazeCLIPを紹介する。
Contrastive Language-Image Pre-Training (CLIP) モデルに触発され,ハジーイメージとクリーンイメージの区別が可能となった。
CLIPモデルは、地域固有のデハージング技術と調整されたプロンプトセットを組み合わせることで、ヘイジーな領域を正確に識別し、事前訓練されたネットワークの微調整プロセスをガイドする高品質な人間のような事前を提供する。
広汎な実験により,HazeCLIPは実単語画像のデハージングにおいて,視覚的品質と非参照的品質の両面から評価され,最先端のパフォーマンスを達成することが示された。
コードは、https://github.com/Troivyn/HazeCLIP で入手できる。
Existing methods have achieved remarkable performance in single image dehazing, particularly on synthetic datasets. However, they often struggle with real-world hazy images due to domain shift, limiting their practical applicability. This paper introduces HazeCLIP, a language-guided adaptation framework designed to enhance the real-world performance of pre-trained dehazing networks. Inspired by the Contrastive Language-Image Pre-training (CLIP) model's ability to distinguish between hazy and clean images, we utilize it to evaluate dehazing results. Combined with a region-specific dehazing technique and tailored prompt sets, CLIP model accurately identifies hazy areas, providing a high-quality, human-like prior that guides the fine-tuning process of pre-trained networks. Extensive experiments demonstrate that HazeCLIP achieves the state-of-the-art performance in real-word image dehazing, evaluated through both visual quality and no-reference quality assessments. The code is available: https://github.com/Troivyn/HazeCLIP . | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 拡張$H$-consistency 境界
Enhanced $H$-Consistency Bounds ( http://arxiv.org/abs/2407.13722v1 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 近年の研究は、損失を補うために$H$-consistency boundsという重要な概念を導入している。
これらの境界は有限サンプル保証を提供し、ゼロワン推定誤差(または他の目標損失)と特定の仮説集合に対する代理損失推定誤差の関係を定量化する。
しかし, 先行境界は, 代理損失条件付き後悔の下位境界が, 目標条件付き後悔の凸関数として与えられることを条件として導出された。
より微細でより好ましい$H$一貫性境界を導出できるだろうか?
本研究では、この条件を緩和し、条件付き後悔に関するより一般的な不等式に基づいて、拡張された$H$一貫性境界を確立するための一般的な枠組みを示す。
我々の定理は、既存の結果を特別な場合として仮定するだけでなく、様々なシナリオにおいてより好ましい境界の導出を可能にする。
これには、標準のマルチクラス分類、Tsybakovノイズ条件下でのバイナリクラスとマルチクラス分類、二部分類が含まれる。
Recent research has introduced a key notion of $H$-consistency bounds for surrogate losses. These bounds offer finite-sample guarantees, quantifying the relationship between the zero-one estimation error (or other target loss) and the surrogate loss estimation error for a specific hypothesis set. However, previous bounds were derived under the condition that a lower bound of the surrogate loss conditional regret is given as a convex function of the target conditional regret, without non-constant factors depending on the predictor or input instance. Can we derive finer and more favorable $H$-consistency bounds? In this work, we relax this condition and present a general framework for establishing enhanced $H$-consistency bounds based on more general inequalities relating conditional regrets. Our theorems not only subsume existing results as special cases but also enable the derivation of more favorable bounds in various scenarios. These include standard multi-class classification, binary and multi-class classification under Tsybakov noise conditions, and bipartite ranking. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# ブラウン運動下で進化する系に対する空間モード多重化に基づく超解光定規
Superresolving optical ruler based on spatial mode demultiplexing for systems evolving under Brownian motion ( http://arxiv.org/abs/2407.13723v1 ) ライセンス: Link先を確認 | Konrad Schlichtholz, | (参考訳) レイリー限界以下での効率的な分解を可能にする超解像技術の開発は、現代光学やメトロジーにおいて重要な分野の一つとなった。
近年の研究では、パーフェクト空間モードデマルチプレクシング(SPADE)がハーマイト・ガウスモードに続き、光子計数により、サブレイリー系における2つの弱い定常源の分離を推定するタスクにおいて、精度の量子限界に達することが示されている。
手法の限界を確認するため,モード間の誤りやクロストークなど,様々な欠陥が検討された。
測定系の位置が経時的に変化し、非無視的な不整合を引き起こすため、この手法の顕微鏡的応用は適応的な測定方式を呼び起こす可能性がある。
本稿では,任意の相対輝度を持つ2つの弱非コヒーレント光源の系中心におけるブラウン運動が適応SPADE測定精度に及ぼす影響について検討する。
解析はFisher情報を用いて行われ、そこからCram\'er-Rao境界によって精度の限界を求めることができる。
その結果,レイリーの呪いがこのようなシナリオに存在することが判明した。
さらに、アライメント間の測定時間を適切に調整することで、ほぼ最適精度で測定することができる。
The development of superresolution techniques, i.e., allowing for efficient resolution below the Rayleigh limit, became one of the important branches in contemporary optics and metrology. Recent findings show that perfect spatial mode demultiplexing (SPADE) into Hermite-Gauss modes followed by photon counting enables one to reach the quantum limit of precision in the task of estimation of separation between two weak stationary sources in the sub-Rayleigh regime. In order to check the limitations of the method, various imperfections such as misalignment or crosstalk between the modes were considered. Possible applications of the method in microscopy call for the adaptive measurement scheme, as the position of the measured system can evolve in time, causing non-negligible misalignment. In this paper, we examine the impact of Brownian motion of the center of the system of two weak incoherent sources of arbitrary relative brightness on adaptive SPADE measurement precision limits. The analysis is carried out using Fisher information, from which the limit of precision can be obtained by Cram\'er-Rao bound. As a result, we find that Rayleigh's curse is present in such a scenario; however, SPADE measurement can outperform perfect direct imaging. What is more, a suitable adjustment of the measurement time between alignments allows measurement with near-optimal precision. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# ババ:AIはベンチマークに勝つためのルールを破る
Baba Is AI: Break the Rules to Beat the Benchmark ( http://arxiv.org/abs/2407.13729v1 ) ライセンス: Link先を確認 | Nathan Cloos, Meagan Jens, Michelangelo Naim, Yen-Ling Kuo, Ignacio Cases, Andrei Barbu, Christopher J. Cueva, | (参考訳) 人間は既存のルールや手順に従うことで問題を解決し、創造性の飛躍によってこれらのルールや目的を再定義する。
そこでは,エージェントが環境とルールの両オブジェクトを操作し,それらに単語が書かれた可動タイルで表現し,特定のゴールに到達してゲームに勝つという,ババ・イズ・ユー(Baba Is You)というゲームに基づく新しいベンチマークを開発した。
我々は、最先端のマルチモーダル言語モデル(OpenAI GPT-4o、Google Gemini-1.5-Pro、Gemini-1.5-Flash)を3つテストし、ゲームのルールを操作・組み合わせなければならない場合、それらが劇的に失敗することを発見した。
Humans solve problems by following existing rules and procedures, and also by leaps of creativity to redefine those rules and objectives. To probe these abilities, we developed a new benchmark based on the game Baba Is You where an agent manipulates both objects in the environment and rules, represented by movable tiles with words written on them, to reach a specified goal and win the game. We test three state-of-the-art multi-modal large language models (OpenAI GPT-4o, Google Gemini-1.5-Pro and Gemini-1.5-Flash) and find that they fail dramatically when generalization requires that the rules of the game must be manipulated and combined. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 部分観測による予測的低ランク行列学習:混合投影ADMM
Predictive Low Rank Matrix Learning under Partial Observations: Mixed-Projection ADMM ( http://arxiv.org/abs/2407.13731v1 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Nicholas A. G. Johnson, | (参考訳) 本研究では, 真基底行列に線形に依存する完全観測側情報の存在下で, 低階の仮定の下で部分的に観測された行列を学習する問題について検討する。
この問題は、統計学、オペレーションリサーチ、機械学習における中心的な問題であるマトリックスコンプリート問題の重要な一般化から成り、レコメンデーションシステム、信号処理、システム識別、画像デノーミングなどのアプリケーションで発生する。
この問題を最適化問題として定式化し, 得られた項目に対する再構成の適合性の強さと, サイド情報の予測能力とをバランスさせる目的を定式化する。
我々は、結果の最適化問題の混合射影再構成を導出し、強い半定値円錐緩和を示す。
興味のある問題に対する高品質な実現可能な解を生成する乗算器アルゴリズムの効率的でスケーラブルな交互方向法を設計する。
数値計算の結果, 提案手法では, 平均目標値が79.%, 目標値が9.0.1.%, 目標値が9.0.1.%, 最小値が9.5%, 最小値が9.5%, 最小値が9.5%, 最小値が9.5%, 最小値が9.5%, 最小値が9.5%, 最小値が9.5%であった。
我々のアルゴリズムのランタイムは、ベンチマークメソッドのランタイムと競合し、しばしば優れている。
我々のアルゴリズムは、$n = 10000$行と$m = 10000$列を1分以内で解くことができる。
We study the problem of learning a partially observed matrix under the low rank assumption in the presence of fully observed side information that depends linearly on the true underlying matrix. This problem consists of an important generalization of the Matrix Completion problem, a central problem in Statistics, Operations Research and Machine Learning, that arises in applications such as recommendation systems, signal processing, system identification and image denoising. We formalize this problem as an optimization problem with an objective that balances the strength of the fit of the reconstruction to the observed entries with the ability of the reconstruction to be predictive of the side information. We derive a mixed-projection reformulation of the resulting optimization problem and present a strong semidefinite cone relaxation. We design an efficient, scalable alternating direction method of multipliers algorithm that produces high quality feasible solutions to the problem of interest. Our numerical results demonstrate that in the small rank regime ($k \leq 15$), our algorithm outputs solutions that achieve on average $79\%$ lower objective value and $90.1\%$ lower $\ell_2$ reconstruction error than the solutions returned by the experiment-wise best performing benchmark method. The runtime of our algorithm is competitive with and often superior to that of the benchmark methods. Our algorithm is able to solve problems with $n = 10000$ rows and $m = 10000$ columns in less than a minute. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# Realizable $H$-Consistent and Bayes-Consistent Loss Function for Learning to Defer
Realizable $H$-Consistent and Bayes-Consistent Loss Functions for Learning to Defer ( http://arxiv.org/abs/2407.13732v1 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 本稿では,遅延学習のためのサロゲート損失関数の総合的研究について述べる。
非増加関数$\Psi$によってパラメータ化され、穏やかな条件下で実現可能な$H$一貫性を確立する。
分類誤差に基づくコスト関数について、これらの損失は、仮説セットが対称かつ完全であるときに$H$-consistency boundsを許容し、共通のニューラルネットワークと線形関数仮説セットによって満たされる特性を示す。
また,従来の研究 (Mozannar et al , 2023) で提起されたオープンな疑問も解決し, 特定のサロゲート損失の実現可能な$H$一貫性とBayes-Consistencyを証明した。
さらに、一般的なコスト関数に対して$H$-consistent surrogate損失をもたらす$\Psi$の選択を識別し、ベイズ一貫性、実現可能な$H$-consistency、および$H$-consistency境界を同時に達成する。
また、標準分類との大きな違いを浮き彫りにして、$H$-consistency境界と$H$-consistency学習における実現可能な$H$-consistencyの関係についても検討する。
最後に,提案したサロゲート損失を実証的に評価し,既存のベースラインと比較した。
We present a comprehensive study of surrogate loss functions for learning to defer. We introduce a broad family of surrogate losses, parameterized by a non-increasing function $\Psi$, and establish their realizable $H$-consistency under mild conditions. For cost functions based on classification error, we further show that these losses admit $H$-consistency bounds when the hypothesis set is symmetric and complete, a property satisfied by common neural network and linear function hypothesis sets. Our results also resolve an open question raised in previous work (Mozannar et al., 2023) by proving the realizable $H$-consistency and Bayes-consistency of a specific surrogate loss. Furthermore, we identify choices of $\Psi$ that lead to $H$-consistent surrogate losses for any general cost function, thus achieving Bayes-consistency, realizable $H$-consistency, and $H$-consistency bounds simultaneously. We also investigate the relationship between $H$-consistency bounds and realizable $H$-consistency in learning to defer, highlighting key differences from standard classification. Finally, we empirically evaluate our proposed surrogate losses and compare them with existing baselines. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 強化学習に基づく拡散モデルの微調整を理解する:チュートリアルとレビュー
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review ( http://arxiv.org/abs/2407.13734v1 ) ライセンス: Link先を確認 | Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, Sergey Levine, | (参考訳) このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
拡散モデルは優れた生成的モデリング能力を提供するために広く知られているが、生物学のような領域における実践的な応用には、所望の計量を最大化するサンプルを生成する必要がある(例えば、RNAの翻訳効率、分子のドッキングスコア、タンパク質の安定性)。
これらの場合、拡散モデルは現実的なサンプルを生成するだけでなく、興味の測度を明示的に最大化するために最適化することができる。
このような手法は強化学習(RL)の概念に基づいている。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
本研究の目的は,RLに基づく様々な微調整アルゴリズムの強みと限界,RLに基づく微調整の利点と非RLに基づくアプローチ,RLに基づく微調整(ターゲット分布)の形式的目的などの基本的側面を検討することである。
さらに,分類器ガイダンスやGflownet,フローベース拡散モデル,経路積分制御理論,MCMCなどの非正規分布からのサンプリングなど,関連するトピックとの関連性を検討することを目的とする。
このチュートリアルのコードはhttps://github.com/masa-ue/RLfinetuning_Diffusion_Bioseqで公開されている。
This tutorial provides a comprehensive survey of methods for fine-tuning diffusion models to optimize downstream reward functions. While diffusion models are widely known to provide excellent generative modeling capability, practical applications in domains such as biology require generating samples that maximize some desired metric (e.g., translation efficiency in RNA, docking score in molecules, stability in protein). In these cases, the diffusion model can be optimized not only to generate realistic samples but also to explicitly maximize the measure of interest. Such methods are based on concepts from reinforcement learning (RL). We explain the application of various RL algorithms, including PPO, differentiable optimization, reward-weighted MLE, value-weighted sampling, and path consistency learning, tailored specifically for fine-tuning diffusion models. We aim to explore fundamental aspects such as the strengths and limitations of different RL-based fine-tuning algorithms across various scenarios, the benefits of RL-based fine-tuning compared to non-RL-based approaches, and the formal objectives of RL-based fine-tuning (target distributions). Additionally, we aim to examine their connections with related topics such as classifier guidance, Gflownets, flow-based diffusion models, path integral control theory, and sampling from unnormalized distributions such as MCMC. The code of this tutorial is available at https://github.com/masa-ue/RLfinetuning_Diffusion_Bioseq | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# グラファイトコードのモデルを128Kコンテキストにスケーリングする
Scaling Granite Code Models to 128K Context ( http://arxiv.org/abs/2407.13739v1 ) ライセンス: Link先を確認 | Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda, | (参考訳) 本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。
2K/4Kから128KまでのGranite 3B/8Bコードモデルのコンテキスト長のスケーリングソリューションは,リポジトリレベルのファイルパッキングと長サンプル長コンテキストデータを用いて,RoPEベース周波数を徐々に増加させることにより,軽量な継続事前トレーニングで構成されている。
また、長文サポート付き命令調整モデルもリリースし、長いコンテキストベースモデルをパーミッシブライセンスの短文と長文の命令応答ペアの組み合わせで微調整する。
従来のショートコンテクストのGraniteコードモデルと比較しながら、私たちの長期コンテキストモデルは、通常のコード補完ベンチマーク(HumanEvalなど)で顕著なパフォーマンス劣化を伴わずに、長期コンテキストタスクにおいて大幅な改善を実現しています。
私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# CellularLint: セルラーネットワーク仕様における一貫性のない動作を同定するための体系的アプローチ
CellularLint: A Systematic Approach to Identify Inconsistent Behavior in Cellular Network Specifications ( http://arxiv.org/abs/2407.13742v1 ) ライセンス: Link先を確認 | Mirza Masfiqur Rahman, Imtiaz Karim, Elisa Bertino, | (参考訳) 近年、セルラーネットワークのセキュリティの精査に焦点が当てられ、基盤となるプロトコル設計記述の問題にセキュリティ上の脆弱性が原因となっていることが多い。
これらのプロトコル設計仕様(典型的には数千ページに及ぶ広範囲なドキュメント)は、不正確さ、不明確さ、暗黙の仮定、内部の不整合を収容することができる。
本稿では,4G と 5G の標準内での不整合検出を行うための半自動フレームワークである CellularLint を紹介する。
提案手法は,ドメイン適応型大規模言語モデルに対して,改良された数ショット学習機構を用いる。
携帯電話ネットワークプロトコルの膨大なコーパスを事前訓練することにより,CellularLintは,さまざまなレベルのセマンティクスや実用的なユースケースにおける不整合を同時に検出することができる。
こうすることでCellularLintは、スケーラブルな方法でプロトコル仕様の自動解析を大幅に進歩させる。
調査では,Non-Access Stratum (NAS)と4Gおよび5Gネットワークのセキュリティ仕様に注目し,最終的に82.67%の精度で157の矛盾を発見した。
オープンソース実装と17の商用デバイスに関するこれらの矛盾を検証した後、設計決定に重大な影響があることを確認し、おそらくはプライバシ、完全性、可用性、相互運用性に関する懸念につながります。
In recent years, there has been a growing focus on scrutinizing the security of cellular networks, often attributing security vulnerabilities to issues in the underlying protocol design descriptions. These protocol design specifications, typically extensive documents that are thousands of pages long, can harbor inaccuracies, underspecifications, implicit assumptions, and internal inconsistencies. In light of the evolving landscape, we introduce CellularLint--a semi-automatic framework for inconsistency detection within the standards of 4G and 5G, capitalizing on a suite of natural language processing techniques. Our proposed method uses a revamped few-shot learning mechanism on domain-adapted large language models. Pre-trained on a vast corpus of cellular network protocols, this method enables CellularLint to simultaneously detect inconsistencies at various levels of semantics and practical use cases. In doing so, CellularLint significantly advances the automated analysis of protocol specifications in a scalable fashion. In our investigation, we focused on the Non-Access Stratum (NAS) and the security specifications of 4G and 5G networks, ultimately uncovering 157 inconsistencies with 82.67% accuracy. After verification of these inconsistencies on open-source implementations and 17 commercial devices, we confirm that they indeed have a substantial impact on design decisions, potentially leading to concerns related to privacy, integrity, availability, and interoperability. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 平均報酬とエピソード強化学習のための最適Q-ラーニング
Optimistic Q-learning for average reward and episodic reinforcement learning ( http://arxiv.org/abs/2407.13743v1 ) ライセンス: Link先を確認 | Priyank Agrawal, Shipra Agrawal, | (参考訳) 平均報酬強化学習において, 平均報酬強化学習において, 平均報酬強化学習を最小化するための楽観的なQ-ラーニングアルゴリズムを提案し, 全ての政策において, 頻繁な状態である $s_0$ を訪問する所要時間が有限で, 上限値が$H$となることを仮定した。
我々の設定は、エピソード設定を厳密に一般化し、平均報酬設定におけるモデルフリーアルゴリズムに関するこれまでのほとんどの文献によってなされた有界ヒット時間 {\it} の仮定よりも著しく制限的ではない。
ここでは、$S$と$A$は状態と行動の数であり、$T$は地平線である。
我々の研究の重要な技術的特徴は、$\overline{L}$演算子を$\overline{L} v = \frac{1}{H} \sum_{h=1}^H L^h v$と定義することである。
与えられた仮定の下では、$\overline{L}$演算子は平均的な報酬設定でさえ厳密な収縮(スパン)を持つことを示す。
アルゴリズム設計では, エピソードなQ-ラーニングのアイデアを用いて, この演算子を反復的に推定し, 適用する。
そこで我々は,無関心なエピソード的・非エピソード的設定における後悔の最小化の統一的見解を提供する。
We present an optimistic Q-learning algorithm for regret minimization in average reward reinforcement learning under an additional assumption on the underlying MDP that for all policies, the expected time to visit some frequent state $s_0$ is finite and upper bounded by $H$. Our setting strictly generalizes the episodic setting and is significantly less restrictive than the assumption of bounded hitting time {\it for all states} made by most previous literature on model-free algorithms in average reward settings. We demonstrate a regret bound of $\tilde{O}(H^5 S\sqrt{AT})$, where $S$ and $A$ are the numbers of states and actions, and $T$ is the horizon. A key technical novelty of our work is to introduce an $\overline{L}$ operator defined as $\overline{L} v = \frac{1}{H} \sum_{h=1}^H L^h v$ where $L$ denotes the Bellman operator. We show that under the given assumption, the $\overline{L}$ operator has a strict contraction (in span) even in the average reward setting. Our algorithm design then uses ideas from episodic Q-learning to estimate and apply this operator iteratively. Therefore, we provide a unified view of regret minimization in episodic and non-episodic settings that may be of independent interest. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 機能近似器としてのLCM--ターミノロジー、分類学、評価のための質問
LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation ( http://arxiv.org/abs/2407.13744v1 ) ライセンス: Link先を確認 | David Schlangen, | (参考訳) 自然言語処理は、特定のタスクをモデル化することから、より一般的な事前訓練されたモデルに移行し、特定のタスクを微調整するようになる。
本稿では,これらのモデルモデルが持つ明瞭さの喪失が,その強みや弱さを評価するのに役に立たない「人工的な一般知性」のようなメタファーにつながることを論じる。
この提案は、自然言語仕様に基づいて専門関数を近似する能力において、それらの一般化と潜在的な価値を見出すことである。
このフレーミングは近似の質に関する前向きな疑問をもたらすが、それ以上に、これらの関数の発見可能性、安定性、保護性に関する疑問もある。
本稿が示すように、このフレーミングは、実践的、理論的両面から評価の様々な側面と、しばしば二次的な状態(例えば、"prompt Injection" や "jailbreaking" など)に還元される質問を、一つの概念的な枠組みでまとめる。
Natural Language Processing has moved rather quickly from modelling specific tasks to taking more general pre-trained models and fine-tuning them for specific tasks, to a point where we now have what appear to be inherently generalist models. This paper argues that the resultant loss of clarity on what these models model leads to metaphors like "artificial general intelligences" that are not helpful for evaluating their strengths and weaknesses. The proposal is to see their generality, and their potential value, in their ability to approximate specialist function, based on a natural language specification. This framing brings to the fore questions of the quality of the approximation, but beyond that, also questions of discoverability, stability, and protectability of these functions. As the paper will show, this framing hence brings together in one conceptual framework various aspects of evaluation, both from a practical and a theoretical perspective, as well as questions often relegated to a secondary status (such as "prompt injection" and "jailbreaking"). | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# MaRINeR:レンダリング画像と近接参照とのマッチングによる新しいビューの強化
MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References ( http://arxiv.org/abs/2407.13745v1 ) ライセンス: Link先を確認 | Lukas Bösiger, Mihai Dusmanu, Marc Pollefeys, Zuria Bauer, | (参考訳) 3D再構成から現実的なイメージをレンダリングすることは、多くのコンピュータビジョンとロボティクスのパイプラインにとって、特に混成現実の応用や、シミュレーション環境における自律エージェントの訓練に欠かせない作業である。
しかし、新奇な観念の質は、しばしばノイズや外観の欠如により不完全であるソースの復元に大きく依存している。
近年の参照型超解像ネットワークの成功に触発されて,近距離マッピング画像の情報を活用し,対象視点のレンダリングを改善する改良手法であるMaRINeRを提案する。
まず、ターゲット視点から、シーン幾何学の生レンダリング画像と、深い特徴に基づく近隣参照とを一致させ、次いで階層的な詳細転送を行う。
暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
提案手法は, 擬似地下構造検証, 合成データ拡張, ディテールリカバリの下流作業に応用する。
Rendering realistic images from 3D reconstruction is an essential task of many Computer Vision and Robotics pipelines, notably for mixed-reality applications as well as training autonomous agents in simulated environments. However, the quality of novel views heavily depends of the source reconstruction which is often imperfect due to noisy or missing geometry and appearance. Inspired by the recent success of reference-based super-resolution networks, we propose MaRINeR, a refinement method that leverages information of a nearby mapping image to improve the rendering of a target viewpoint. We first establish matches between the raw rendered image of the scene geometry from the target viewpoint and the nearby reference based on deep features, followed by hierarchical detail transfer. We show improved renderings in quantitative metrics and qualitative examples from both explicit and implicit scene representations. We further employ our method on the downstream tasks of pseudo-ground-truth validation, synthetic data enhancement and detail recovery for renderings of reduced 3D reconstructions. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# より強い一貫性保証によるマルチラベル学習
Multi-Label Learning with Stronger Consistency Guarantees ( http://arxiv.org/abs/2407.13746v1 ) ライセンス: Link先を確認 | Anqi Mao, Mehryar Mohri, Yutao Zhong, | (参考訳) 本稿では,複数ラベル学習におけるサロゲート損失とアルゴリズムについて詳細に検討し,その差分を$H$-consistency boundsで表す。
まず、最も単純なマルチラベル損失(ハミング損失)に対して、よく知られた一貫したバイナリ関連サロゲートは、ロジスティック損失などのスムーズな損失を使用する場合、ラベル数にサブ最適に依存することが示される。
さらに、この損失関数はラベル相関を考慮できない。
これらの欠点に対処するために,ラベルに依存しない$H$一貫性境界の利点とラベル相関を考慮に入れた,新しいサロゲート損失,マルチラベルロジスティック損失を導入する。
解析を拡大して、より広範な多ラベル損失の族をカバーし、すべての共通な損失と、混乱行列に関して線形屈折関数に基づいて定義される新しい拡張を含む。
また,マルチラベルのロジスティックな損失を,より包括的なマルチラベルのcomp-sum損失に拡張し,標準分類からマルチラベル学習へのcomp-sum損失を適応させる。
我々は、このサロゲート損失の族が、一般的なマルチラベル損失よりも、$H$一貫性境界、すなわちベイズ一貫性から恩恵を受けていることを証明した。
そこで本研究では,ベイズ一貫性と特定の損失関数の確立のみを前提とした従来よりも大幅に拡張した,マルチラベル損失に対する強い整合性保証を活かした統一的なサロゲート損失フレームワークを提案する。
さらに,標準分類による制約付き損失とマルチラベル制約付き損失とを同様の方法で適用し,これもまた$H$一貫性境界の恩恵を受けるため,任意のマルチラベル損失に対してベイズ整合性が期待できる。
さらに,多ラベルロジスティック損失を最小化するための効率的な勾配計算アルゴリズムについて述べる。
We present a detailed study of surrogate losses and algorithms for multi-label learning, supported by $H$-consistency bounds. We first show that, for the simplest form of multi-label loss (the popular Hamming loss), the well-known consistent binary relevance surrogate suffers from a sub-optimal dependency on the number of labels in terms of $H$-consistency bounds, when using smooth losses such as logistic losses. Furthermore, this loss function fails to account for label correlations. To address these drawbacks, we introduce a novel surrogate loss, multi-label logistic loss, that accounts for label correlations and benefits from label-independent $H$-consistency bounds. We then broaden our analysis to cover a more extensive family of multi-label losses, including all common ones and a new extension defined based on linear-fractional functions with respect to the confusion matrix. We also extend our multi-label logistic losses to more comprehensive multi-label comp-sum losses, adapting comp-sum losses from standard classification to the multi-label learning. We prove that this family of surrogate losses benefits from $H$-consistency bounds, and thus Bayes-consistency, across any general multi-label loss. Our work thus proposes a unified surrogate loss framework benefiting from strong consistency guarantees for any multi-label loss, significantly expanding upon previous work which only established Bayes-consistency and for specific loss functions. Additionally, we adapt constrained losses from standard classification to multi-label constrained losses in a similar way, which also benefit from $H$-consistency bounds and thus Bayes-consistency for any multi-label loss. We further describe efficient gradient computation algorithms for minimizing the multi-label logistic loss. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 一般形状認識による3次元物体検出
General Geometry-aware Weakly Supervised 3D Object Detection ( http://arxiv.org/abs/2407.13748v1 ) ライセンス: Link先を確認 | Guowen Zhang, Junsong Fan, Liyi Chen, Zhaoxiang Zhang, Zhen Lei, Lei Zhang, | (参考訳) 3Dオブジェクト検出はシーン理解に必要なコンポーネントである。
しかし、大規模な3Dデータセットのアノテーションは、かなりの努力を必要とする。
この問題に対処するために、多くの手法が2Dボックスとシーン/クラス固有の先行情報を利用して3Dボックスを推定する弱教師付き3Dオブジェクト検出を採用している。
しかし、これらのアプローチは一般的には、新しいカテゴリやシーンへの一般化が難しい高度な手作業の先行に頼っている。
本稿では,新しいシーンやクラスに容易に適応できる汎用的なアプローチを提案する。
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
具体的には、LLMモデルから一般的なオブジェクトの幾何学的先行値を得るための事前注入モジュール、投影された3Dボックスの境界と画像平面上の対応する2Dボックスとの差を最小限に抑えるための2D空間投影制約、推定された3Dボックスのポーズをさらに洗練するためのポイント・ツー・ボックスアライメント・ロスを構築するための3D空間幾何学制約、の3つの一般的なコンポーネントを提案する。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
ソースコードはhttps://github.com/gwenzhang/GGAで公開されている。
3D object detection is an indispensable component for scene understanding. However, the annotation of large-scale 3D datasets requires significant human effort. To tackle this problem, many methods adopt weakly supervised 3D object detection that estimates 3D boxes by leveraging 2D boxes and scene/class-specific priors. However, these approaches generally depend on sophisticated manual priors, which is hard to generalize to novel categories and scenes. In this paper, we are motivated to propose a general approach, which can be easily adapted to new scenes and/or classes. A unified framework is developed for learning 3D object detectors from RGB images and associated 2D boxes. In specific, we propose three general components: prior injection module to obtain general object geometric priors from LLM model, 2D space projection constraint to minimize the discrepancy between the boundaries of projected 3D boxes and their corresponding 2D boxes on the image plane, and 3D space geometry constraint to build a Point-to-Box alignment loss to further refine the pose of estimated 3D boxes. Experiments on KITTI and SUN-RGBD datasets demonstrate that our method yields surprisingly high-quality 3D bounding boxes with only 2D annotation. The source code is available at https://github.com/gwenzhang/GGA. | 翻訳日:2024-07-19 14:21:47 公開日:2024-07-18 |
# 運転者行動認識のための姿勢誘導型マルチタスクビデオトランス
Pose-guided multi-task video transformer for driver action recognition ( http://arxiv.org/abs/2407.13750v1 ) ライセンス: Link先を確認 | Ricardo Pizarro, Roberto Valle, Luis Miguel Bergasa, José M. Buenaposada, Luis Baumela, | (参考訳) 本研究は,車内ビデオの分析を通じて,注意散らされた運転状況を特定するタスクについて検討する。
この課題に対処するために、邪魔されたアクションとドライバーのポーズの両方を予測するマルチタスクビデオトランスフォーマーを導入します。
提案手法は,大規模な事前学習型アーキテクチャであるVideoMAEv2を活用することで,人間のキーポイント位置からの意味情報を組み込んで,時空間トークン数の最小化による行動認識と計算オーバーヘッドの低減を図る。
ポーズとクラス情報でトークンの選択を導くことにより、ベースライン精度を維持しながら、モデルの計算要求を顕著に削減する。
提案手法は,現行のビデオトランスフォーマーを用いた手法に比べて,運転者の行動認識に優れた効率性を示しながら,既存の最先端技術よりも優れている。
We investigate the task of identifying situations of distracted driving through analysis of in-car videos. To tackle this challenge we introduce a multi-task video transformer that predicts both distracted actions and driver pose. Leveraging VideoMAEv2, a large pre-trained architecture, our approach incorporates semantic information from human keypoint locations to enhance action recognition and decrease computational overhead by minimizing the number of spatio-temporal tokens. By guiding token selection with pose and class information, we notably reduce the model's computational requirements while preserving the baseline accuracy. Our model surpasses existing state-of-the art results in driver action recognition while exhibiting superior efficiency compared to current video transformer-based approaches. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 株式類似性のための時間的表現学習とその投資管理への応用
Temporal Representation Learning for Stock Similarities and Its Applications in Investment Management ( http://arxiv.org/abs/2407.13751v1 ) ライセンス: Link先を確認 | Yoontae Hwang, Stefan Zohren, Yongjae Lee, | (参考訳) 急速なグローバル化とデジタル化の時代には、金融市場の非定常性や従来の地域・セクター分類の曖昧さにより、類似株の正確な識別がますます困難になっている。
これらの課題に対処するために,自己教師付き学習(SSL)と時間領域一般化の技法を組み合わせて,財務時系列データの堅牢かつ情報的表現を学習する,新しい時間的自己教師型学習フレームワークであるSimStockについて検討する。
本研究の主な焦点は、世界的な金融情勢の複雑なダイナミクスを考慮して、より広い視点から株式間の類似性を理解することである。
我々は、何千ものストックを持つ現実世界の4つのデータセットに関する広範な実験を行い、SimStockが類似のストックを見つけるのに有効であることを実証し、既存の手法より優れていることを示す。
SimStockの実用性は、ペアトレーディング、インデックストラッキング、ポートフォリオ最適化といった様々な投資戦略に適用することで示され、従来の方法よりも優れたパフォーマンスをもたらす。
本研究は、グローバルな金融環境の変化に直面して、時間的自己監督学習の力を活用して、投資意思決定とリスクマネジメントの実践を強化するためのデータ駆動型アプローチの可能性について実証的に検討した。
In the era of rapid globalization and digitalization, accurate identification of similar stocks has become increasingly challenging due to the non-stationary nature of financial markets and the ambiguity in conventional regional and sector classifications. To address these challenges, we examine SimStock, a novel temporal self-supervised learning framework that combines techniques from self-supervised learning (SSL) and temporal domain generalization to learn robust and informative representations of financial time series data. The primary focus of our study is to understand the similarities between stocks from a broader perspective, considering the complex dynamics of the global financial landscape. We conduct extensive experiments on four real-world datasets with thousands of stocks and demonstrate the effectiveness of SimStock in finding similar stocks, outperforming existing methods. The practical utility of SimStock is showcased through its application to various investment strategies, such as pairs trading, index tracking, and portfolio optimization, where it leads to superior performance compared to conventional methods. Our findings empirically examine the potential of data-driven approach to enhance investment decision-making and risk management practices by leveraging the power of temporal self-supervised learning in the face of the ever-changing global financial landscape. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# LogoSticker: カスタマイズ生成のための拡散モデルにログを挿入する
LogoSticker: Inserting Logos into Diffusion Models for Customized Generation ( http://arxiv.org/abs/2407.13752v1 ) ライセンス: Link先を確認 | Mingkang Zhu, Xi Chen, Zhongdao Wang, Hengshuang Zhao, Jiaya Jia, | (参考訳) テキスト・ツー・イメージ・モデルのカスタマイズの最近の進歩は、新しい概念をいくつかの例と統合することの重要性を浮き彫りにしている。
しかし、これらの進歩は広く認知されている主題に限られており、モデルが適切に共有した事前知識を通じて比較的容易に学習することができる。
対照的に、ユニークなパターンとテキスト要素を特徴とするロゴは、拡散モデル内で共有知識を確立するのが難しいため、ユニークな課題が提示される。
このギャップを埋めるために,ロゴ挿入の課題を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
まず, モデルによるロゴの空間的位置認識の非自明なギャップと, 他物体との相互作用に対処するアクタ-批評家関係事前学習アルゴリズムを提案する。
第2に,ロゴの正確な位置化と同一性抽出を可能にする分離ID学習アルゴリズムを提案する。
LogoStickerは、さまざまな状況下で正確に調和してロゴを生成することができる。
カスタマイズ法や DALLE などの大規模モデルに対する LogoSticker の有効性を総合的に検証する。
\href{https://mingkangz.github.io/logosticker}{Project page}
Recent advances in text-to-image model customization have underscored the importance of integrating new concepts with a few examples. Yet, these progresses are largely confined to widely recognized subjects, which can be learned with relative ease through models' adequate shared prior knowledge. In contrast, logos, characterized by unique patterns and textual elements, are hard to establish shared knowledge within diffusion models, thus presenting a unique challenge. To bridge this gap, we introduce the task of logo insertion. Our goal is to insert logo identities into diffusion models and enable their seamless synthesis in varied contexts. We present a novel two-phase pipeline LogoSticker to tackle this task. First, we propose the actor-critic relation pre-training algorithm, which addresses the nontrivial gaps in models' understanding of the potential spatial positioning of logos and interactions with other objects. Second, we propose a decoupled identity learning algorithm, which enables precise localization and identity extraction of logos. LogoSticker can generate logos accurately and harmoniously in diverse contexts. We comprehensively validate the effectiveness of LogoSticker over customization methods and large models such as DALLE~3. \href{https://mingkangz.github.io/logosticker}{Project page}. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 行動単位の時間的分析による抑うつのための顔バイオマーカーの探索
Exploring Facial Biomarkers for Depression through Temporal Analysis of Action Units ( http://arxiv.org/abs/2407.13753v1 ) ライセンス: Link先を確認 | Aditya Parikh, Misha Sadeghi, Bjorn Eskofier, | (参考訳) うつ病の特徴は、永続的な悲しみと関心の喪失であり、日々の機能に著しく障害があり、現在では広範囲の精神障害となっている。
従来の診断法は主観的評価に依存しており、正確な診断には客観的アプローチが必要である。
本研究では,うつ病のバイオマーカーとしての顔行動単位(AU)と感情について検討した。
抑うつの有無で分類された被験者の映像データから表情を分析した。
提案手法では,詳細な特徴抽出,キーAUの平均強度比較,時系列分類モデルの適用について検討した。
さらに、感情表現パターンの変動性を調べるために、主成分分析(PCA)と様々なクラスタリングアルゴリズムを用いた。
その結果, うつ病評価における顔分析の可能性を明らかにするとともに, 悲しみと幸福に関連するAUの強度に有意な差があることが示唆された。
Depression is characterized by persistent sadness and loss of interest, significantly impairing daily functioning and now a widespread mental disorder. Traditional diagnostic methods rely on subjective assessments, necessitating objective approaches for accurate diagnosis. Our study investigates the use of facial action units (AUs) and emotions as biomarkers for depression. We analyzed facial expressions from video data of participants classified with or without depression. Our methodology involved detailed feature extraction, mean intensity comparisons of key AUs, and the application of time series classification models. Furthermore, we employed Principal Component Analysis (PCA) and various clustering algorithms to explore the variability in emotional expression patterns. Results indicate significant differences in the intensities of AUs associated with sadness and happiness between the groups, highlighting the potential of facial analysis in depression assessment. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 深部強化学習のためのランダム潜時探索
Random Latent Exploration for Deep Reinforcement Learning ( http://arxiv.org/abs/2407.13755v1 ) ライセンス: Link先を確認 | Srinath Mahankali, Zhang-Wei Hong, Ayush Sekhari, Alexander Rakhlin, Pulkit Agrawal, | (参考訳) 高次元状態空間を効率的に探索する能力は、深層強化学習(RL)の実践的な成功に不可欠である。
本稿では,RLE(Random Latent Exploration)と呼ばれる新しい探査手法を提案する。
RLEは、環境の特定の(ランダムな)状態において、元のタスク報酬に構造化されたランダムな報酬を加えることにより、エージェントがトレーニング中に環境を探索するように促すことによって、摂動報酬の考え方を活用する。
RLEは実装が簡単で、実際はうまく機能します。
RLEの実用性を示すため、AtariとIsaacGymのベンチマークを用いて評価を行い、RLEは他の手法よりも全タスクの総合的なスコアが高いことを示す。
The ability to efficiently explore high-dimensional state spaces is essential for the practical success of deep Reinforcement Learning (RL). This paper introduces a new exploration technique called Random Latent Exploration (RLE), that combines the strengths of bonus-based and noise-based (two popular approaches for effective exploration in deep RL) exploration strategies. RLE leverages the idea of perturbing rewards by adding structured random rewards to the original task rewards in certain (random) states of the environment, to encourage the agent to explore the environment during training. RLE is straightforward to implement and performs well in practice. To demonstrate the practical effectiveness of RLE, we evaluate it on the challenging Atari and IsaacGym benchmarks and show that RLE exhibits higher overall scores across all the tasks than other approaches. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 大規模言語モデル検索のためのブラックボックスオピニオン操作攻撃
Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2407.13757v1 ) ライセンス: Link先を確認 | Zhuo Chen, Jiawei Liu, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu, | (参考訳) Retrieval-Augmented Generation (RAG) は、大規模な言語モデルの幻覚的問題やリアルタイムな制約を解決するために応用されるが、また、悪用に対する脆弱性も引き起こす。
既存の研究は主に、ホワイトボックスおよびクローズドドメインQAタスクにおけるRAGの信頼性の欠如について調査している。
本稿では、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成モデル(RAG)の脆弱性を明らかにすることを目的とする。
本稿では,RAGモデルの信頼性と安全性を高めるための新たな洞察を提供するとともに,ユーザ認知と意思決定に対する攻撃の影響について検討する。
我々は、RAGにおける検索モデルのランキング結果を命令で操作し、これらの結果をデータとして使用して代理モデルのトレーニングを行う。
代理モデルに敵対的検索攻撃手法を適用することにより、RAGに対するブラックボックス転送攻撃がさらに実現される。
複数のトピックにまたがる意見データセットを用いて行った実験により、RAGが生成したコンテンツの意見の極性を大きく変えることができることが示された。
これはモデルの脆弱性を示し、さらに重要なのは、ユーザの認識と意思決定に対する潜在的なネガティブな影響を明らかにします。
Retrieval-Augmented Generation (RAG) is applied to solve hallucination problems and real-time constraints of large language models, but it also induces vulnerabilities against retrieval corruption attacks. Existing research mainly explores the unreliability of RAG in white-box and closed-domain QA tasks. In this paper, we aim to reveal the vulnerabilities of Retrieval-Enhanced Generative (RAG) models when faced with black-box attacks for opinion manipulation. We explore the impact of such attacks on user cognition and decision-making, providing new insight to enhance the reliability and security of RAG models. We manipulate the ranking results of the retrieval model in RAG with instruction and use these results as data to train a surrogate model. By employing adversarial retrieval attack methods to the surrogate model, black-box transfer attacks on RAG are further realized. Experiments conducted on opinion datasets across multiple topics show that the proposed attack strategy can significantly alter the opinion polarity of the content generated by RAG. This demonstrates the model's vulnerability and, more importantly, reveals the potential negative impact on user cognition and decision-making, making it easier to mislead users into accepting incorrect or biased information. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 街路景観:自己回帰ビデオ拡散を用いた大規模一貫したストリートビュー生成
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion ( http://arxiv.org/abs/2407.13759v1 ) ライセンス: Link先を確認 | Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein, | (参考訳) そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
私たちの世代は、言語入力(例えば、都市名、天気)と、所望の軌跡をホストするマップ/レイアウトによって条件付けられています。
近年の映像生成モデルや3Dビュー合成モデルと比較して,映像品質と一貫性を維持しつつ,複数の都市ブロックにまたがるより長い範囲のカメラトラジェクトリにスケールすることができる。
この目的を達成するために、我々は、ビデオ拡散に関する最近の研究に基づいて、長いシーケンスに容易にスケールできる自動回帰フレームワークを用いて構築した。
特に,現実的な都市イメージの分布から自己回帰的アプローチが漂流することを防ぐ新しい時間的計算手法を提案する。
われわれのストリートスケープシステムは、Googleストリートビューの魅力的な画像ソースとコンテキストマップデータに基づいて訓練されており、ユーザーは任意の都市レイアウトで設定された都市ビューを、コントロール可能なカメラのポーズで生成することができる。
詳細はプロジェクトのページhttps://boyangdeng.com/streetscapes.comで確認してください。
We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 自動ドリフトのためのニューラルネットワークタイヤ力モデリング
Neural Network Tire Force Modeling for Automated Drifting ( http://arxiv.org/abs/2407.13760v1 ) ライセンス: Link先を確認 | Nicholas Drake Broadbent, Trey Weber, Daiki Mori, J. Christian Gerdes, | (参考訳) 自動ドリフトは、摩擦限界で非線形に結合されたタイヤ力を正確に扱えるモデルと制御アルゴリズムを必要とする、車両制御の課題となる。
本稿では,物理に基づくアプローチの代替として,前輪横力を予測するニューラルネットワークアーキテクチャを提案する。
ドリフトアプリケーションのためのフルスケールの自動走行車を用いて,参照ドリフト軌道を追従する非線形モデル予測制御器にこれらのモデルを配置し,モデル性能の直接比較を行う。
ニューラルネットワークタイヤモデルでは、前軸制動力を適用した場合のブラシタイヤモデルに対するパストラッキング性能が大幅に向上し、ドリフト条件下での未モデル化潜時ダイナミクスをニューラルネットワークが表現できることが示唆された。
Automated drifting presents a challenge problem for vehicle control, requiring models and control algorithms that can precisely handle nonlinear, coupled tire forces at the friction limits. We present a neural network architecture for predicting front tire lateral force as a drop-in replacement for physics-based approaches. With a full-scale automated vehicle purpose-built for the drifting application, we deploy these models in a nonlinear model predictive controller tuned for tracking a reference drifting trajectory, for direct comparisons of model performance. The neural network tire model exhibits significantly improved path tracking performance over the brush tire model in cases where front-axle braking force is applied, suggesting the neural network's ability to express previously unmodeled, latent dynamics in the drifting condition. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# SegPoint: 大規模言語モデルによる任意のポイントクラウドのセグメンテーション
SegPoint: Segment Any Point Cloud via Large Language Model ( http://arxiv.org/abs/2407.13761v1 ) ライセンス: Link先を確認 | Shuting He, Henghui Ding, Xudong Jiang, Bihan Wen, | (参考訳) 3Dポイントクラウドセグメンテーションの大幅な進歩にもかかわらず、既存のメソッドは主に特定のタスクに対処し、ターゲットを特定するための明示的な命令に依存している。
本研究では,多モーダル大規模言語モデル(LLM)の推論機能を利用して,多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointというモデルを提案する。
1)3次元命令セグメンテーション
2)3D参照セグメンテーション
3)3次元セマンティックセグメンテーション,及び
4)3次元オープン語彙セマンティックセマンティックセグメンテーション。
本研究では,2,565点のクラウド・インストラクションペアを特徴とする,複雑な命令文と暗黙的な命令文からセグメンテーション性能を評価するための新しいベンチマークであるInstruct3Dを提案する。
ScanReferはセグメンテーションに,ScanNetはセグメンテーションに,ScanNetはセグメンテーションのセグメンテーションに,ScanPointはInstruct3Dデータセットに優れた結果をもたらす。
私たちの知る限り、SegPointは、これらの様々なセグメンテーションタスクを単一のフレームワークで対処する最初のモデルであり、良好なパフォーマンスを実現しています。
Despite significant progress in 3D point cloud segmentation, existing methods primarily address specific tasks and depend on explicit instructions to identify targets, lacking the capability to infer and understand implicit user intentions in a unified framework. In this work, we propose a model, called SegPoint, that leverages the reasoning capabilities of a multi-modal Large Language Model (LLM) to produce point-wise segmentation masks across a diverse range of tasks: 1) 3D instruction segmentation, 2) 3D referring segmentation, 3) 3D semantic segmentation, and 4) 3D open-vocabulary semantic segmentation. To advance 3D instruction research, we introduce a new benchmark, Instruct3D, designed to evaluate segmentation performance from complex and implicit instructional texts, featuring 2,565 point cloud-instruction pairs. Our experimental results demonstrate that SegPoint achieves competitive performance on established benchmarks such as ScanRefer for referring segmentation and ScanNet for semantic segmentation, while delivering outstanding outcomes on the Instruct3D dataset. To our knowledge, SegPoint is the first model to address these varied segmentation tasks within a single framework, achieving satisfactory performance. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 動きの形状:シングルビデオからの4D再構成
Shape of Motion: 4D Reconstruction from a Single Video ( http://arxiv.org/abs/2407.13764v1 ) ライセンス: Link先を確認 | Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa, | (参考訳) 単分子的動的再構成は、タスクの極めて不適切な性質のため、困難で長期にわたる視覚問題である。
既存のアプローチはテンプレートに依存するか、準静的なシーンでのみ有効か、3Dモーションを明示的にモデル化できないという点で制限されている。
本研究では,カジュアルにキャプチャーされたモノクロビデオから,全連続3D動画を特徴付ける,ジェネリックな動的シーンを再構築する手法を提案する。
まず,シーンの動きをコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
各点の動きはこれらの基底の線形結合として表現され、シーンを複数の厳密な運動群に分解するのに役立つ。
第2に,単眼深度マップや長距離2Dトラックなどの包括的データ駆動先行情報を用いて,これらのノイズの多い監視信号を効果的に統合する方法を考案し,ダイナミックシーンを一貫した表現を実現する。
実験により, ダイナミックなシーンにおける3次元2次元動き推定と新しいビュー合成の両面において, 最先端の性能を実現することができた。
Project Page: https://shape-of-motion.github.io/
Monocular dynamic reconstruction is a challenging and long-standing vision problem due to the highly ill-posed nature of the task. Existing approaches are limited in that they either depend on templates, are effective only in quasi-static scenes, or fail to model 3D motion explicitly. In this work, we introduce a method capable of reconstructing generic dynamic scenes, featuring explicit, full-sequence-long 3D motion, from casually captured monocular videos. We tackle the under-constrained nature of the problem with two key insights: First, we exploit the low-dimensional structure of 3D motion by representing scene motion with a compact set of SE3 motion bases. Each point's motion is expressed as a linear combination of these bases, facilitating soft decomposition of the scene into multiple rigidly-moving groups. Second, we utilize a comprehensive set of data-driven priors, including monocular depth maps and long-range 2D tracks, and devise a method to effectively consolidate these noisy supervisory signals, resulting in a globally consistent representation of the dynamic scene. Experiments show that our method achieves state-of-the-art performance for both long-range 3D/2D motion estimation and novel view synthesis on dynamic scenes. Project Page: https://shape-of-motion.github.io/ | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 潜在因果探索:データ因果モデルによる因果探索の形式的視点
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data ( http://arxiv.org/abs/2407.13765v1 ) ライセンス: Link先を確認 | Charles Jin, | (参考訳) 言語モデル(LM)は、様々なNLPタスクにおいてパフォーマンスが向上するにつれて、内部動作をよりよく理解するために、分類器の探索は必須の手法となっている。
典型的な設定では、(1)ラベルに注釈付けされたテキストのデータセットからなる補助タスクを定義し、(2)データセットを処理する際に、事前訓練されたLMの表現からラベルを予測するための小さな分類器を監督する。
高い探索精度は、LMが元の事前訓練対象の教師なし副産物として補助タスクを実行することを学習した証拠として解釈される。
しかし、プローブが広く使われているにもかかわらず、探査実験の頑健な設計と分析は依然として課題である。
構造因果モデル (SCM) を用いた探索の形式的視点を開発する。
具体的には、トレーニング中に観測されたトークンの分布を説明するSCMを考慮し、LMがSCMの潜伏変数を表すことを学習したかどうかを中心仮説とする。
実験により,本研究は,基礎となる因果構造の正確なモデルを持つことで,探索実験の結果から強い推論を導き出すことができる,合成グリッドワールドナビゲーションタスクの文脈における最近のLMの研究を拡張した。
本手法は,LMがテキストの根底にある因果的概念を学習できることを示す,堅牢な実証的証拠を提供する。
As language models (LMs) deliver increasing performance on a range of NLP tasks, probing classifiers have become an indispensable technique in the effort to better understand their inner workings. A typical setup involves (1) defining an auxiliary task consisting of a dataset of text annotated with labels, then (2) supervising small classifiers to predict the labels from the representations of a pretrained LM as it processed the dataset. A high probing accuracy is interpreted as evidence that the LM has learned to perform the auxiliary task as an unsupervised byproduct of its original pretraining objective. Despite the widespread usage of probes, however, the robust design and analysis of probing experiments remains a challenge. We develop a formal perspective on probing using structural causal models (SCM). Specifically, given an SCM which explains the distribution of tokens observed during training, we frame the central hypothesis as whether the LM has learned to represent the latent variables of the SCM. Empirically, we extend a recent study of LMs in the context of a synthetic grid-world navigation task, where having an exact model of the underlying causal structure allows us to draw strong inferences from the result of probing experiments. Our techniques provide robust empirical evidence for the ability of LMs to learn the latent causal concepts underlying text. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# Visual Haystacks: 画像セットに関する難しい質問に答える
Visual Haystacks: Answering Harder Questions About Sets of Images ( http://arxiv.org/abs/2407.13766v1 ) ライセンス: Link先を確認 | Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan, | (参考訳) 近年のLMM(Large Multimodal Models)の進歩は、単一画像の視覚的質問応答の分野で大きな進歩を遂げている。
しかし、これらのモデルは、大規模な写真アルバムを検索したり、インターネット上で特定の情報を見つけたり、衛星画像を通して環境変化を監視したりといった現実世界のシナリオと同様、大量の画像にまたがるクエリーを扱う場合、重大な課題に直面している。
本稿では,画像の集合と自然言語クエリが与えられた場合,関連性のある応答を生成することが目的である,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
我々は,視覚的検索と無関係な画像の集合に対する推論におけるLMMの能力を評価するために,"Visual Haystacks (VHs)"と呼ばれる新しい公開ベンチマークを提案する。
MIRAGE(Multi-Image Retrieval Augmented Generation)は,MIRAGE(Multi-Image Retrieval Augmented Generation)をベースライン法よりも効率と精度を向上したMIQAの課題に対処する,LMMに適した新しい検索/QAフレームワークである。
評価の結果、MIRAGEはVHsベンチマークで最大11%のクローズドソースGPT-4oモデルを超え、テキスト中心のマルチステージアプローチよりも最大3.4倍の効率向上を実現している。
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# 医用画像分類における授業増分学習の不均衡への対処
Addressing Imbalance for Class Incremental Learning in Medical Image Classification ( http://arxiv.org/abs/2407.13768v1 ) ライセンス: Link先を確認 | Xuze Hao, Wenqian Ni, Xuhao Jiang, Weimin Tan, Bo Yan, | (参考訳) 深層畳み込みニューラルネットワークは、すべてのクラスからのトレーニングサンプルが同時に利用可能であるという前提の下で、医療画像分類において大きなブレークスルーをもたらした。
しかし、現実の医療シナリオでは、新しい病気について継続的に学ぶ必要があることが一般的であり、医学領域におけるクラスインクリメンタルラーニング(CIL)の新たな分野へと繋がる。
典型的には、CILは、新しいクラスで訓練された時に破滅的な忘れ込みに悩まされる。
この現象は、主に古いクラスと新しいクラスの不均衡によって引き起こされ、不均衡な医療データセットではさらに困難になる。
本研究では,不均衡の悪影響を軽減するために,シンプルかつ効果的な2つのプラグイン手法を提案する。
まず、ロジット調整により、多数クラスに対する分類器バイアスを軽減するために、CILバランスの取れた分類損失を提案する。
第2に,組込み空間におけるクラス間重複を緩和するだけでなく,クラス内コンパクト性も緩和する分布マージン損失を提案する。
提案手法の有効性を3つのベンチマークデータセット(CCH5000, HAM10000, EyePACS)で評価した。
その結果,本手法は最先端手法よりも優れていることがわかった。
Deep convolutional neural networks have made significant breakthroughs in medical image classification, under the assumption that training samples from all classes are simultaneously available. However, in real-world medical scenarios, there's a common need to continuously learn about new diseases, leading to the emerging field of class incremental learning (CIL) in the medical domain. Typically, CIL suffers from catastrophic forgetting when trained on new classes. This phenomenon is mainly caused by the imbalance between old and new classes, and it becomes even more challenging with imbalanced medical datasets. In this work, we introduce two simple yet effective plug-in methods to mitigate the adverse effects of the imbalance. First, we propose a CIL-balanced classification loss to mitigate the classifier bias toward majority classes via logit adjustment. Second, we propose a distribution margin loss that not only alleviates the inter-class overlap in embedding space but also enforces the intra-class compactness. We evaluate the effectiveness of our method with extensive experiments on three benchmark datasets (CCH5000, HAM10000, and EyePACS). The results demonstrate that our approach outperforms state-of-the-art methods. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# マルチターゲットドメイン適応のための学習自由モデルマージ
Training-Free Model Merging for Multi-target Domain Adaptation ( http://arxiv.org/abs/2407.13771v1 ) ライセンス: Link先を確認 | Wenyi Li, Huan-ang Gao, Mingju Gao, Beiwen Tian, Rong Zhi, Hao Zhao, | (参考訳) 本稿では,シーン理解モデルのマルチターゲット領域適応について検討する。
従来の手法はドメイン間の整合性を失うことで圧縮可能な結果を得たが、多くの場合、データ転送帯域幅の制限やデータプライバシの懸念といった制約を見越して、すべてのドメインからのイメージへの非現実的な同時アクセスを前提としていた。
トレーニングデータに直接アクセスする必要を回避しながら、異なるドメインに独立して適応したモデルをマージする方法?
この問題に対する我々の解決策は、モデルパラメータをマージする2つのコンポーネントとモデルバッファをマージする(すなわち正規化層統計量)ことである。
モデルパラメータをマージする場合、モード接続性の実験的解析により、異なるモデルに適応するために、同じ事前訓練されたバックボーン重みを用いる場合、線形マージサフィスを驚くほど明らかにする。
モデルバッファをマージするためには、ガウス先行モデルを用いて実世界の分布をモデル化し、個別に訓練されたモデルのバッファから新しい統計を推定する。
本手法は単純かつ効果的であり,データ組み合わせトレーニングベースラインと同等の性能を実現すると同時に,トレーニングデータへのアクセスも不要である。
プロジェクトページ: https://air-discover.github.io/ModelMerging
In this paper, we study multi-target domain adaptation of scene understanding models. While previous methods achieved commendable results through inter-domain consistency losses, they often assumed unrealistic simultaneous access to images from all target domains, overlooking constraints such as data transfer bandwidth limitations and data privacy concerns. Given these challenges, we pose the question: How to merge models adapted independently on distinct domains while bypassing the need for direct access to training data? Our solution to this problem involves two components, merging model parameters and merging model buffers (i.e., normalization layer statistics). For merging model parameters, empirical analyses of mode connectivity surprisingly reveal that linear merging suffices when employing the same pretrained backbone weights for adapting separate models. For merging model buffers, we model the real-world distribution with a Gaussian prior and estimate new statistics from the buffers of separately trained models. Our method is simple yet effective, achieving comparable performance with data combination training baselines, while eliminating the need for accessing training data. Project page: https://air-discover.github.io/ModelMerging | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# GroupMamba: パラメータ効率が高く正確なグループ状態空間モデル
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model ( http://arxiv.org/abs/2407.13772v1 ) ライセンス: Link先を確認 | Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan, | (参考訳) 状態空間モデル(SSM)の最近の進歩は、二次的複雑性を伴う長距離依存をモデル化する上で、効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
そこで本研究では,入力チャネルを4つのグループに分割し,SSMに基づく効率的な視覚単選択走査(VSSS)ブロックを各グループに独立して適用し,各VSSSブロックを4つの空間方向のいずれかに走査する変調グループマンバ層を提案する。
変調グループマンバ層は、4つのVSSSブロックをチャネル変調演算子にラップし、チャネル間通信を改善する。
さらに,大規模モデルのトレーニングを安定させるため,蒸留をベースとしたトレーニング目標を導入し,一貫した性能向上を実現した。
提案したコントリビューションのメリットを総合的に検証し,ImageNet-1K上の画像分類手法,オブジェクト検出,MS-COCO上のインスタンスセグメント,ADE20K上のセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなどよりも優れた性能を示した。
23Mパラメータを持つ我々の小さな変種は、ImageNet-1Kで83.3%の精度で最先端のパフォーマンスを達成し、同じモデルサイズのMamba設計よりも26%効率が良い。
私たちのコードとモデルは、https://github.com/Amshaker/GroupMamba.comで利用可能です。
Recent advancements in state-space models (SSMs) have showcased effective performance in modeling long-range dependencies with subquadratic complexity. However, pure SSM-based models still face challenges related to stability and achieving optimal performance on computer vision tasks. Our paper addresses the challenges of scaling SSM-based models for computer vision, particularly the instability and inefficiency of large model sizes. To address this, we introduce a Modulated Group Mamba layer which divides the input channels into four groups and applies our proposed SSM-based efficient Visual Single Selective Scanning (VSSS) block independently to each group, with each VSSS block scanning in one of the four spatial directions. The Modulated Group Mamba layer also wraps the four VSSS blocks into a channel modulation operator to improve cross-channel communication. Furthermore, we introduce a distillation-based training objective to stabilize the training of large models, leading to consistent performance gains. Our comprehensive experiments demonstrate the merits of the proposed contributions, leading to superior performance over existing methods for image classification on ImageNet-1K, object detection, instance segmentation on MS-COCO, and semantic segmentation on ADE20K. Our tiny variant with 23M parameters achieves state-of-the-art performance with a classification top-1 accuracy of 83.3% on ImageNet-1K, while being 26% efficient in terms of parameters, compared to the best existing Mamba design of same model size. Our code and models are available at: https://github.com/Amshaker/GroupMamba. | 翻訳日:2024-07-19 14:12:02 公開日:2024-07-18 |
# PriPL-Tree: 局所微分プライバシー下での任意分布の正確なレンジクエリ
PriPL-Tree: Accurate Range Query for Arbitrary Distribution under Local Differential Privacy ( http://arxiv.org/abs/2407.13532v1 ) ライセンス: Link先を確認 | Leixia Wang, Qingqing Ye, Haibo Hu, Xiaofeng Meng, | (参考訳) 局所微分プライバシー(LDP)の文脈における範囲クエリの回答は、オンライン分析処理(OLAP)において広く研究されている問題である。
既存のLCPソリューションはすべて、各ドメインパーティション内の均一なデータ分散を前提としており、データの分散が変化している現実のシナリオと一致しない可能性があるため、不正確な見積もりをもたらす。
この問題に対処するために、任意の分布に対する範囲クエリに答えるために、階層木構造とPL関数を組み合わせた新しいデータ構造であるPriPL-Treeを導入する。
PriPL-Treeは、いくつかの行セグメントで基礎となるデータ分散を正確にモデル化し、レンジクエリのより正確な結果をもたらす。
さらに、新しいデータ認識適応グリッドを用いた多次元ケースに拡張する。
これらのグリッドは、PriPL-Treesを通して得られた限界分布からの洞察を利用してグリッドを適応的に分割し、基礎となる分布の密度に適応する。
実データと合成データの両方に対する広範な実験により、任意のデータ分布にまたがる範囲クエリに応答する最先端のソリューションに対するPriPL-Treeの有効性と優位性を示した。
Answering range queries in the context of Local Differential Privacy (LDP) is a widely studied problem in Online Analytical Processing (OLAP). Existing LDP solutions all assume a uniform data distribution within each domain partition, which may not align with real-world scenarios where data distribution is varied, resulting in inaccurate estimates. To address this problem, we introduce PriPL-Tree, a novel data structure that combines hierarchical tree structures with piecewise linear (PL) functions to answer range queries for arbitrary distributions. PriPL-Tree precisely models the underlying data distribution with a few line segments, leading to more accurate results for range queries. Furthermore, we extend it to multi-dimensional cases with novel data-aware adaptive grids. These grids leverage the insights from marginal distributions obtained through PriPL-Trees to partition the grids adaptively, adapting the density of underlying distributions. Our extensive experiments on both real and synthetic datasets demonstrate the effectiveness and superiority of PriPL-Tree over state-of-the-art solutions in answering range queries across arbitrary data distributions. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# EnergyDiff:拡散モデルを用いたユニバーサル時系列エネルギーデータ生成
EnergyDiff: Universal Time-Series Energy Data Generation using Diffusion Models ( http://arxiv.org/abs/2407.13538v1 ) ライセンス: Link先を確認 | Nan Lin, Peter Palensky, Pedro P. Vergara, | (参考訳) 高解像度時系列データは、電力システムや暖房システムなどのエネルギーシステムの運用と計画に不可欠である。
しかし、データ収集コストとプライバシー上の懸念のため、そのようなデータはダウンストリームタスクでは利用できないか、あるいは不十分であることが多い。
データ合成は、このデータ不足の潜在的な解決策である。
生成AIの最近の発展に伴い,エネルギー時系列データのための汎用データ生成フレームワークであるEnergyDiffを提案する。
EnergyDiffは最先端のデノナイズ拡散確率モデルを構築し、高分解能時系列データ専用のデノナイズネットワークを提案し、新しいMarginal Calibration技術を導入した。
大規模な実験結果から,エネルギディフは,特に1分間の分解能において,ベースラインに比べて時間的依存性と限界分布を捕捉し,大幅な改善を達成できることが示唆された。
さらに、EnergyDiffは、様々なエネルギー領域、時間分解能、および計算の必要性を減らした顧客レベルとトランスフォーマーレベルで、高品質な時系列データを一貫して生成する。
High-resolution time series data are crucial for operation and planning in energy systems such as electrical power systems and heating systems. However, due to data collection costs and privacy concerns, such data is often unavailable or insufficient for downstream tasks. Data synthesis is a potential solution for this data scarcity. With the recent development of generative AI, we propose EnergyDiff, a universal data generation framework for energy time series data. EnergyDiff builds on state-of-the-art denoising diffusion probabilistic models, utilizing a proposed denoising network dedicated to high-resolution time series data and introducing a novel Marginal Calibration technique. Our extensive experimental results demonstrate that EnergyDiff achieves significant improvement in capturing temporal dependencies and marginal distributions compared to baselines, particularly at the 1-minute resolution. Additionally, EnergyDiff consistently generates high-quality time series data across diverse energy domains, time resolutions, and at both customer and transformer levels with reduced computational need. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# SecScale: サーバのスケーラブルでセキュアな実行環境
SecScale: A Scalable and Secure Trusted Execution Environment for Servers ( http://arxiv.org/abs/2407.13572v1 ) ライセンス: Link先を確認 | Ani Sunny, Nivedita Shrivastava, Smruti R. Sarangi, | (参考訳) 信頼された実行環境(TEE)は、現代のセキュアプロセッサの不可欠な部分である。
彼らは、アプリケーションとコードページが秘密であり、証拠を改ざんし、さまざまな種類の攻撃に免疫することを保証する。
2021年、Intelは第11世代と第12世代のプロセッサで最も信頼できるエンクレーブSGXを非推奨にする計画を発表した。
その理由は、ハードウェアのオーバーヘッドが利点を上回るため、エンクレーブ(サンドボックス)を256MBを超えるスケールが困難であったことに由来する。
Intelや他のベンダによる競合ソリューションは、はるかにスケーラブルだが、SGXが特にリプレイアタック保護を提供するために使用した重要なセキュリティ保証は多く提供していない。
過去3年間で、業界や学界からの提案は、スケーラビリティ(緩やかな減速を伴う)と汎用ハードウェア(私たちの知る限りでは)のリプレイ保護の両方を提供することができませんでした。
提案するSecScaleは、投機的実行を中心にした新しいアイデア(最初に読み出し、後で検証)を用いて、MACの森(カウンタのツリーではなく)を作成し、完全なメモリ暗号化(汎用的アンセキュア領域ではない)を提供することによって、この問題を解決する。
私たちは、最も近い競合相手よりも10%高速です。
Trusted execution environments (TEEs) are an integral part of modern secure processors. They ensure that their application and code pages are confidential, tamper proof and immune to diverse types of attacks. In 2021, Intel suddenly announced its plans to deprecate its most trustworthy enclave, SGX, on its 11th and 12th generation processors. The reasons stemmed from the fact that it was difficult to scale the enclaves (sandboxes) beyond 256 MB as the hardware overheads outweighed the benefits. Competing solutions by Intel and other vendors are much more scalable, but do not provide many key security guarantees that SGX used to provide notably replay attack protection. In the last three years, no proposal from industry or academia has been able to provide both scalability (with a modest slowdown) as well as replay-protection on generic hardware (to the best of our knowledge). We solve this problem by proposing SecScale that uses some new ideas centered around speculative execution (read first, verify later), creating a forest of MACs (instead of a tree of counters) and providing complete memory encryption (no generic unsecure regions). We show that we are 10% faster than the nearest competing alternative. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 置換の有無 : フーリエイメージングの信頼性向上
With or Without Replacement? Improving Confidence in Fourier Imaging ( http://arxiv.org/abs/2407.13575v1 ) ライセンス: Link先を確認 | Frederik Hoppe, Claudio Mayrink Verdun, Felix Krahmer, Marion I. Menzel, Holger Rauhut, | (参考訳) 近年,機械学習やデータサイエンスにおける高次元問題に対する厳密な信頼区間を確立するために,偏りのある推定器が提案されている。
中心的な議論は、基底真理に関するこれらの推定子の誤差は、問題の次元が十分高い限り消える残りの項をガウス変数として表すことができるということである。
したがって、ガウスモデルを利用して不確実量化(UQ)を行うことができる。
しかし、磁気共鳴イメージング(MRI)のような特定の構造化された測定シナリオにおいて、他の項は中等次元の多くの現実的な状況では無視できない。
これにより、標準的なLASSOのような非UQアプローチと比較して、UQ手法の利点を下げることができる。
本稿では, 置換を伴わないサンプリングにより, 劣化推定器を改良する手法を提案する。
提案手法は, あるサンプリング方式のランダムな構造に関する最近の結果を利用して, サンプリング方式と交換なし方式との遷移が, 標準LASSOの性能を向上した重み付き再構成方式にどのように結びつくかを示す。
本稿では、この再加重サンプリングのアイデアがデバイアス推定器をどう改善するかを説明し、その結果、フーリエイメージングにおけるUQのより良い方法を提供する。
Over the last few years, debiased estimators have been proposed in order to establish rigorous confidence intervals for high-dimensional problems in machine learning and data science. The core argument is that the error of these estimators with respect to the ground truth can be expressed as a Gaussian variable plus a remainder term that vanishes as long as the dimension of the problem is sufficiently high. Thus, uncertainty quantification (UQ) can be performed exploiting the Gaussian model. Empirically, however, the remainder term cannot be neglected in many realistic situations of moderately-sized dimensions, in particular in certain structured measurement scenarios such as Magnetic Resonance Imaging (MRI). This, in turn, can downgrade the advantage of the UQ methods as compared to non-UQ approaches such as the standard LASSO. In this paper, we present a method to improve the debiased estimator by sampling without replacement. Our approach leverages recent results of ours on the structure of the random nature of certain sampling schemes showing how a transition between sampling with and without replacement can lead to a weighted reconstruction scheme with improved performance for the standard LASSO. In this paper, we illustrate how this reweighted sampling idea can also improve the debiased estimator and, consequently, provide a better method for UQ in Fourier imaging. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 境界での高速スクランブル
Fast Scrambling at the Boundary ( http://arxiv.org/abs/2407.13617v1 ) ライセンス: Link先を確認 | Ancel Larzul, Anirvan M. Sengupta, Antoine Georges, Marco Schirò, | (参考訳) カオス上の量子境界を飽和させる多体系は、幅広い分野の関心を集めている。
有名な例としては、Sachdev-Ye-Kitaevモデルとそのバリエーションがある。
ここでは,非Fermi-Liquid物理の量子不純物モデルにおける多体量子カオスについて検討する。
時間外秩序相関器の低温挙動を, 一定比$\gamma=K/N$で, 大容量の$N$および多数のチャネル$K$の極限で正確に計算する。
不純物サイトにおける強い相関のため、スピンは補助フェルミオンやボソンで分画する。
我々は、我々の理論のすべての自由度が、温度が$T\rightarrow 0$と線形なリャプノフ指数(英語版)(Lyapunov exponent)を得ることを示した。
注目すべきは、$N=K$の場合、不純物スピンは最大カオスを示し、ボソンとフェルミオンは最大リアプノフ指数の最大半分しか得られないことである。
この結果は, 境界における強い相関関係と量子カオスの分数化により, 最大カオスとなる非秩序モデルという2つの新しい特徴を浮き彫りにしている。
Many-body systems which saturate the quantum bound on chaos are attracting interest across a wide range of fields. Notable examples include the Sachdev-Ye-Kitaev model and its variations, all characterised by some form or randomness and all to all couplings. Here we study many-body quantum chaos in a quantum impurity model showing Non-Fermi-Liquid physics, the overscreened multichannel $SU(N)$ Kondo model. We compute exactly the low-temperature behavior of the out-of time order correlator in the limit of large $N$ and large number of channels $K$, at fixed ratio $\gamma=K/N$. Due to strong correlations at the impurity site the spin fractionalizes in auxiliary fermions and bosons. We show that all the degrees of freedom of our theory acquire a Lyapunov exponent which is linear in temperature as $T\rightarrow 0$, with a prefactor that depends on $\gamma$. Remarkably, for $N=K$ the impurity spin displays maximal chaos, while bosons and fermions only get up to half of the maximal Lyapunov exponent. Our results highlights two new features: a non-disordered model which is maximally chaotic due to strong correlations at its boundary and a fractionalization of quantum chaos. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# Unruh-DeWitt量子コンピューティング:量子場を用いた量子シャノン理論の実現
Unruh-DeWitt Quantum Computing: Realizing Quantum Shannon Theory With Quantum Fields ( http://arxiv.org/abs/2407.13628v1 ) ライセンス: Link先を確認 | Eric W. Aspling, | (参考訳) 量子ビットフィールド量子トランスダクションは、デバイス固有のエラー訂正符号、効率的なスケーラビリティ、効率的な絡み合い生成など、量子コンピューティングに多くの利点をもたらす。
トポロジカル絶縁体の外周に埋め込まれた全接続された量子ビットバスは、エッジ状態との相互作用が可能であるが、飛来するフェルミオン量子ビットとの変換には有望なアリーナである。
Unruh--DeWitt検出器は、量子情報科学者が相対論的量子情報(RQI)と呼ばれる分野における多くの設定における量子場相互作用の絡み合い特性をモデル化することを可能にする。
Unruh--DeWitt検出器は、量子通信理論のサブセットである量子シャノン理論を実現するのに有用なツールである。
これらのシステムは、ボゾン場とフェルミオン場のコヒーレント状態を利用する量子材料における通信の定量的測定を提供する。
この論文では、ヘリカルルッティンガー液体のボゾン化がフェルミオン系のRQIチャネルを構築するためのペダゴジカルアリーナを提供するため、友長・ラッティンガー液体のよく研究された理論に重点を置いている。
複数の実験的に実現可能なシステムを提案し,最大チャネル容量を確保するために設計制約を構築した。
さらに、コヒーレント情報、形式性、ダイヤモンド距離、Unruh-DeWitt量子論理ゲートの普遍性といった量子シャノン理論からの測定値を用いて、これらの量子チャネルの強度を解明する。
Qubit-field quantum transduction provides numerous advantages to quantum computing, such as device-specific error-correcting codes, efficient scalability, and effective entanglement generation. An all-to-all connected bus of qubits implanted around the outside of a topological insulator, allowed to interact with the edge state, is a promising arena for transduction with flying fermionic qubits. Unruh--DeWitt detectors have allowed quantum information scientists to model entanglement properties of qubit-field interactions in many settings in a field known as Relativistic Quantum Information (RQI). Unruh--DeWitt detectors are useful tools to realize quantum Shannon theory, a subset of the theory of quantum communication, in condensed matter systems, aptly named Unruh--DeWitt quantum computers. These systems will provide quantitative measurements of communication in quantum materials that utilize coherent states for bosonic and fermionic fields. In this thesis, emphasis is placed on the well-studied theory of Tomonaga-Luttinger liquids, as the bosonization of a helical Luttinger liquid provides a pedagogical arena to construct RQI channels of fermionic systems. Multiple experimentally realizable systems are proposed, and design constraints are constructed to ensure maximum channel capacity. Furthermore, we elucidate the strength of these quantum channels using measurements from quantum Shannon theory such as coherent information, dephasing formalism, diamond distance and universality of Unruh--DeWitt quantum logic gates. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# ジョセフソンジャンクションスイッチング電流検出器による初期宇宙探査
Exploration to early universe by Josephson Junction Switching Current Detector ( http://arxiv.org/abs/2407.13630v1 ) ライセンス: Link先を確認 | Dan Kondo, | (参考訳) 本稿では,Josephson Junction Switching Current Detector (JJSCD) を用いた確率重力波背景(SGWB)の探索手法を提案する。
せん断の感度はh\simeq 10^{-19}$、現実的には10^{-21}$、近い将来は10^{-24}$、楽観的には10^{-24}$に達する。
エンハンスメント係数を周波数の比から利用すれば、ビッグバン核合成(BBN)の限界以下に到達することができる。
新しい物理学の足跡を見つけるために、この地域にアクセスできれば興味深いだろう。
In this paper, we propose a method to probe a Stochastic Gravitational Wave Background (SGWB) with Josephson Junction Switching Current Detector (JJSCD). The sensitivity for the shear can reach $h\simeq 10^{-19}$ realistically, $10^{-21}$ in the near future, $10^{-24}$ optimistically. If we utilize the enhancement factor from the ratio of the frequency, it is possible to reach further below the Big Bang Nucleosynthesis (BBN) bound. It will be interesting if we can access the region to discover a footprint of new physics. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 放散は多体局在状態と熱状態の遷移を引き起こすか?
Can dissipation induce a transition between many-body localized and thermal states? ( http://arxiv.org/abs/2407.13655v1 ) ライセンス: Link先を確認 | Yutao Hu, Chao Yang, Yucheng Wang, | (参考訳) 熱状態と多体局在(MBL)状態とを分離するエネルギーの多体移動エッジ(MBME)は、多体系において批判的だが議論を呼んでいる概念である。
本稿では,移動エッジを特徴とする準周期的$t_1-t_2$モデルについて検討する。
最寄りの相互作用が加わったことにより、MBMEの存在の可能性を示す。
次に, 安定状態密度行列を計算し, 輸送挙動を解析することにより, 多体系への結合散逸の影響について検討し, 初期状態に関わらず, 熱領域あるいはMBL領域のいずれにおいても, 散逸が支配的となることを示す。
最後に,システムサイズの増加の影響について論じる。
以上の結果から, 放散は熱状態とMBL状態の遷移を誘導し, MBMEの存在を実験的に決定する新たなアプローチをもたらすことが示唆された。
The many-body mobility edge (MBME) in energy, which separates thermal states from many-body localization (MBL) states, is a critical yet controversial concept in many-body systems. Here we examine the quasiperiodic $t_1-t_2$ model that features a mobility edge. With the addition of nearest-neighbor interactions, we demonstrate the potential existence of a MBME. Then we investigate the impact of a type of bond dissipation on the many-body system by calculating the steady-state density matrix and analyzing the transport behavior, and demonstrate that dissipation can cause the system to predominantly occupy either the thermal region or the MBL region, irrespective of the initial state. Finally, we discuss the effects of increasing system size. Our results indicate that dissipation can induce transitions between thermal and MBL states, providing a new approach for experimentally determining the existence of the MBME. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# CogniVoice:自然発話による軽度認知障害評価のための多モーダル・多言語融合ネットワーク
CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech ( http://arxiv.org/abs/2407.13660v1 ) ライセンス: Link先を確認 | Jiali Cheng, Mohamed Elgaar, Nidhi Vakil, Hadi Amiri, | (参考訳) 軽度認知障害 (MCI) は、記憶力や認知能力の顕著な低下が特徴で、個人の日常生活に影響を及ぼす可能性がある。
本稿では,MCIを検出する新しい多言語・マルチモーダルフレームワークであるCogniVoiceを紹介し,音声データとそのテキストの書き起こしを分析し,MMSE(Mini-Mental State Examination)スコアを推定する。
CogniVoiceの重要なコンポーネントは、ショートカットソリューションへの依存を緩和する ``Product of Experts'' に基づくアンサンブルマルチモーダルおよびマルチ言語ネットワークである。
TAUKADIALチャレンジから英語と中国語の両方を含む包括的なデータセットを用いて、CogniVoiceは、MCI分類およびMMSE回帰タスクにおいて、それぞれF1およびRMSEの2.8ポイントと4.1ポイントの最高のパフォーマンスベースラインモデルより優れており、異なる言語グループ間のパフォーマンスギャップをF1の0.7ポイントに効果的に低減することができる。
Mild Cognitive Impairment (MCI) is a medical condition characterized by noticeable declines in memory and cognitive abilities, potentially affecting individual's daily activities. In this paper, we introduce CogniVoice, a novel multilingual and multimodal framework to detect MCI and estimate Mini-Mental State Examination (MMSE) scores by analyzing speech data and its textual transcriptions. The key component of CogniVoice is an ensemble multimodal and multilingual network based on ``Product of Experts'' that mitigates reliance on shortcut solutions. Using a comprehensive dataset containing both English and Chinese languages from TAUKADIAL challenge, CogniVoice outperforms the best performing baseline model on MCI classification and MMSE regression tasks by 2.8 and 4.1 points in F1 and RMSE respectively, and can effectively reduce the performance gap across different language groups by 0.7 points in F1. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 量子ウォークによる多ボソンハミルトニアンの体系的入力方式
Systematic input scheme for many-boson Hamiltonians via quantum walk ( http://arxiv.org/abs/2407.13672v1 ) ライセンス: Link先を確認 | Weijie Du, James P. Vary, | (参考訳) 我々は、量子コンピューティングによる光フロントハミルトン形式論における場の理論問題を解くために、多くのボソンハミルトン多様体に対して、新しい体系的な入力方式を開発する。
この入力スキームの議論は、2次元の$\phi ^4$理論の光フロントハミルトニアンに基づく。
入力方式では、各レジスタは異なるボソンモードの占有をバイナリとしてエンコードする量子レジスタの集合を用いる。
各モードのボソン作用素を圧縮し、圧縮されたボソン作用素のユニークな組み合わせの観点からハミルトン作用素を提示する。
これらのユニークな組み合わせのための回路モジュールを設計する。
これらの回路モジュールに基づいて、量子ウォークというアイデアを用いて、多くのボソンハミルトニアンを符号化する。
我々は,IBM Qiskit量子シミュレータを用いて,ハミルトニアンの低次スペクトルを解くことで,入力方式を実証する。
この研究に入力スキームを多くのフェルミオンハミルトニアンに対する入力スキームに組み込むことができ、将来のフォールトトレラント量子コンピュータにおける場の理論問題の構造と力学を解くための新しい経路を共同で提供する。
We develop a novel, systematic input scheme for many-boson Hamiltonians in order to solve field theory problems within the light-front Hamiltonian formalism via quantum computing. We present our discussion of this input scheme based on the light-front Hamiltonian of the two-dimensional $\phi ^4$ theory. In our input scheme, we employ a set of quantum registers, where each register encodes the occupation of a distinct boson mode as binaries. We squeeze the boson operators of each mode and present the Hamiltonian in terms of unique combinations of the squeezed boson operators. We design the circuit modules for these unique combinations. Based on these circuit modules, we block encode the many-boson Hamiltonian utilizing the idea of quantum walk. We demonstrate our input scheme by solving the low-lying spectra of the Hamiltonian utilizing the IBM Qiskit quantum simulator. We can incorporate the input scheme in this work with the input scheme for many-fermion Hamiltonians; they jointly offer new pathways to solving the structure and dynamics of field theory problems on future fault-tolerant quantum computers. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 視線と音の調整:オーディオ・ビジュアル・アライメントによる高度な音源定位
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment ( http://arxiv.org/abs/2407.13676v1 ) ライセンス: Link先を確認 | Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung, | (参考訳) 学習に基づく音源定位に関する最近の研究は、主に音像定位性能の観点に焦点を当てている。
しかし、事前の作業と既存のベンチマークは、インタラクティブな音源定位に不可欠なクロスモーダル相互作用という重要な側面を見落としている。
クロスモーダル相互作用は、サイレントオブジェクトやオフスクリーンサウンドなど、意味的に一致した、あるいは一致していないオーディオ視覚イベントを理解するために不可欠である。
本稿ではまず,既存の手法,ベンチマーク,評価指標,モーダル間理解タスクの相互相互作用を総合的に検討する。
そして,過去の研究の限界を特定し,その限界を克服するためのいくつかの貢献を行う。
まず,対話型音源定位のための新しい合成ベンチマークを提案する。
第2に、音源定位法を厳格に評価するための新しい評価指標を導入し、局所化性能とモード間相互作用能力の両方を正確に評価することに焦点を当てた。
第3に、モーダル間相互作用を強化するために、モーダル間アライメント戦略を用いた学習フレームワークを提案する。
最後に,モーダル間相互作用機能とベンチマーク競合手法を徹底的に評価するために,インタラクティブな音源定位と補助的なモーダル間検索タスクを併用して評価する。
我々の新しいベンチマークと評価指標は、これまで見過ごされていた音源定位研究の問題点を明らかにした。
提案手法は,クロスモーダルアライメントが向上し,音源定位性能が向上した。
この研究は、これまでで最も包括的な音源定位解析を提供し、新しい評価基準と標準評価指標を用いて、既存のベンチマークと新しいベンチマークの両方で競合する手法を広範囲に検証する。
Recent studies on learning-based sound source localization have mainly focused on the localization performance perspective. However, prior work and existing benchmarks overlook a crucial aspect: cross-modal interaction, which is essential for interactive sound source localization. Cross-modal interaction is vital for understanding semantically matched or mismatched audio-visual events, such as silent objects or off-screen sounds. In this paper, we first comprehensively examine the cross-modal interaction of existing methods, benchmarks, evaluation metrics, and cross-modal understanding tasks. Then, we identify the limitations of previous studies and make several contributions to overcome the limitations. First, we introduce a new synthetic benchmark for interactive sound source localization. Second, we introduce new evaluation metrics to rigorously assess sound source localization methods, focusing on accurately evaluating both localization performance and cross-modal interaction ability. Third, we propose a learning framework with a cross-modal alignment strategy to enhance cross-modal interaction. Lastly, we evaluate both interactive sound source localization and auxiliary cross-modal retrieval tasks together to thoroughly assess cross-modal interaction capabilities and benchmark competing methods. Our new benchmarks and evaluation metrics reveal previously overlooked issues in sound source localization studies. Our proposed novel method, with enhanced cross-modal alignment, shows superior sound source localization performance. This work provides the most comprehensive analysis of sound source localization to date, with extensive validation of competing methods on both existing and new benchmarks using new and standard evaluation metrics. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 局所的位置情報プライバシーのためのスケーラブルな最適化
Scalable Optimization for Locally Relevant Geo-Location Privacy ( http://arxiv.org/abs/2407.13725v1 ) ライセンス: Link先を確認 | Chenxi Qiu, Ruiyao Liu, Primal Pappachan, Anna Squicciarini, Xinpeng Xie, | (参考訳) 地理的難読化機能は位置プライバシー保護機構(LPPM)として機能し、モバイルユーザーは正確な位置ではなく、難読化された場所をサーバと共有することができる。
この技術は、難読化処理が不可逆であるため、サーバ側のデータ漏洩時にユーザの位置情報のプライバシを保護する。
データ難読化によるユーティリティ損失を最小限に抑えるため、線形プログラミング(LP)が広く使われている。
しかし、LPは決定変数の多項式爆発に直面するため、大規模な地球難読化には実用的ではない。
本稿では, 局所関連地球難読化 (LR-Geo) と呼ばれる新しいLPPMを提案する。
これは、各ユーザの地理的難読化計算を、ユーザの実際の位置に近い局所的関連(LR)ロケーションに制限することで達成される。
LR位置がユーザの真の位置を不注意に明らかにすることを防止するため、ユーザはローカルでLP係数を計算し、LR位置自体ではなく、これらの係数のみをサーバにアップロードする。
次に、サーバは、供給された係数を用いてLP問題を解く。
さらに,指数的難読化機構によりLPフレームワークを強化し,複数のユーザ間で難読化分布が識別不能であることを保証する。
LP定式化の制約構造を利用して,Bendersの分解を適用し,計算効率をさらに向上する。
理論的解析により, 地理的難読化は各ユーザごとに独立に計算されているものの, 高い確率で複数のユーザ間での地理的不識別性制約に固執していることが確認された。
最後に、実世界のデータセットを用いた実験結果から、LR-Geoは計算時間、データユーティリティ、プライバシ保護の点で、既存の測地難読化手法よりも優れていることが示された。
Geo-obfuscation functions as a location privacy protection mechanism (LPPM), enabling mobile users to share obfuscated locations with servers instead of their exact locations. This technique protects users' location privacy during server-side data breaches since the obfuscation process is irreversible. To minimize the utility loss caused by data obfuscation, linear programming (LP) is widely used. However, LP can face a polynomial explosion in decision variables, making it impractical for large-scale geo-obfuscation applications. In this paper, we propose a new LPPM called Locally Relevant Geo-obfuscation (LR-Geo) to optimize geo-obfuscation using LP more efficiently. This is accomplished by restricting the geo-obfuscation calculations for each user to locally relevant (LR) locations near the user's actual location. To prevent LR locations from inadvertently revealing a user's true whereabouts, users compute the LP coefficients locally and upload only these coefficients to the server, rather than the LR locations themselves. The server then solves the LP problem using the provided coefficients. Additionally, we enhance the LP framework with an exponential obfuscation mechanism to ensure that the obfuscation distribution is indistinguishable across multiple users. By leveraging the constraint structure of the LP formulation, we apply Benders' decomposition to further boost computational efficiency. Our theoretical analysis confirms that, even though geo-obfuscation is calculated independently for each user, it still adheres to geo-indistinguishability constraints across multiple users with high probability. Finally, experimental results using a real-world dataset demonstrate that LR-Geo outperforms existing geo-obfuscation methods in terms of computational time, data utility, and privacy protection. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 圧縮構造テンソル代数
Compressing Structured Tensor Algebra ( http://arxiv.org/abs/2407.13726v1 ) ライセンス: Link先を確認 | Mahdi Ghorbani, Emilien Bauer, Tobias Grosser, Amir Shaikhha, | (参考訳) テンソル代数は、機械学習や科学計算のようなデータ集約型ワークロードにとって重要なコンポーネントである。
データの複雑さが増大するにつれて、科学者はしばしば、高度に特殊化されたテンソル代数とスパーステンソル代数によって提供される効率的な構造認識アルゴリズムの間のジレンマに遭遇する。
本稿では,自動データレイアウト圧縮,多面解析,アフィンコード生成などの手法を取り入れて,テンソルが捕捉した高レベル構造を低レベルコード生成に伝達するフレームワークであるDASTACを紹介する。
本手法は,最適なデータレイアウトを自動的に検出することでメモリフットプリントを低減し,多面体最適化の利点を大いに生かし,さらなる最適化を活用し,MLIRによる並列化を可能にする。
実験により,DASTACは,最先端のスパーステンソルコンパイラであるTACOと,最先端の構造化テンソル代数コンパイラであるStructTensorより1~2桁の高速化を実現し,メモリフットプリントを著しく低減した。
Tensor algebra is a crucial component for data-intensive workloads such as machine learning and scientific computing. As the complexity of data grows, scientists often encounter a dilemma between the highly specialized dense tensor algebra and efficient structure-aware algorithms provided by sparse tensor algebra. In this paper, we introduce DASTAC, a framework to propagate the tensors's captured high-level structure down to low-level code generation by incorporating techniques such as automatic data layout compression, polyhedral analysis, and affine code generation. Our methodology reduces memory footprint by automatically detecting the best data layout, heavily benefits from polyhedral optimizations, leverages further optimizations, and enables parallelization through MLIR. Through extensive experimentation, we show that DASTAC achieves 1 to 2 orders of magnitude speedup over TACO, a state-of-the-art sparse tensor compiler, and StructTensor, a state-of-the-art structured tensor algebra compiler, with a significantly lower memory footprint. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 量子仮説排他的誤差指数上のバリー中心境界
Barycentric bounds on the error exponents of quantum hypothesis exclusion ( http://arxiv.org/abs/2407.13728v1 ) ライセンス: Link先を確認 | Kaiyuan Ji, Hemant K. Mishra, Milán Mosonyi, Mark M. Wilde, | (参考訳) 量子状態排除(Quantum state exclusion)は、量子論の解釈に関する基礎的な問題を研究する上で重要な操作課題である。
そのようなタスクでは、状態が有限集合からランダムに選択された系が与えられ、その目的はシステムの真の状態ではない集合から状態を特定することである。
エラー(英: error、すなわち、失敗に終わった除外)は、特定された状態が真の状態である場合にのみ発生する。
本稿では、情報理論の観点から、量子状態排除の最適誤差確率とその誤差指数(漸近的に誤差確率が減衰する速度)について検討する。
我々の主な発見は、多変量対ユークリッド・チェルノフ発散によって与えられる状態排他誤差指数の単一文字上界であり、これが最もよく知られている上界に改善されることを証明している。
また、我々は、量子チャネル排除のより複雑なタスクに分析を拡張し、適応戦略を用いたとしても、単一文字で効率よく計算可能な上限を誤差指数に設定する。
我々は,一ショット解析に基づいて,状態とチャネルの除外の上限を導出し,バリ中心チャーノフ発散と呼ばれる多変量発散尺度として定式化する。
さらに,チャネル排除効果は,2つの重要な症例に影響を及ぼすと考えられた。
第一に、2つの仮説の特別な場合、上界は対称二項チャネル判別の誤差指数に、既知の最初の効率的な計算可能な上界を与える。
第二に、古典的チャネルの特殊な場合において、上界は非適応的戦略により達成可能であることを示し、古典的チャネル排除の正確な誤差指数を解き、対称二項古典的チャネル識別に関して同様の結果を一般化する。
Quantum state exclusion is an operational task that has significance in studying foundational questions related to interpreting quantum theory. In such a task, one is given a system whose state is randomly selected from a finite set, and the goal is to identify a state from the set that is not the true state of the system. An error, i.e., an unsuccessful exclusion, occurs if and only if the state identified is the true state. In this paper, we study the optimal error probability of quantum state exclusion and its error exponent -- the rate at which the error probability decays asymptotically -- from an information-theoretic perspective. Our main finding is a single-letter upper bound on the error exponent of state exclusion given by the multivariate log-Euclidean Chernoff divergence, and we prove that this improves upon the best previously known upper bound. We also extend our analysis to the more complicated task of quantum channel exclusion, and we establish a single-letter and efficiently computable upper bound on its error exponent, even assuming the use of adaptive strategies. We derive both upper bounds, for state and channel exclusion, based on one-shot analysis and formulate them as a type of multivariate divergence measure called a barycentric Chernoff divergence. Moreover, our result on channel exclusion has implications in two important special cases. First, for the special case of two hypotheses, our upper bound provides the first known efficiently computable upper bound on the error exponent of symmetric binary channel discrimination. Second, for the special case of classical channels, we show that our upper bound is achievable by a nonadaptive strategy, thus solving the exact error exponent of classical channel exclusion and generalising a similar result on symmetric binary classical channel discrimination. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# 可変フェルミ流体中の音の発生
Emergence of Sound in a Tunable Fermi Fluid ( http://arxiv.org/abs/2407.13769v1 ) ライセンス: Link先を確認 | Songtao Huang, Yunpeng Ji, Thomas Repplinger, Gabriel G. T. Assumpção, Jianyi Chen, Grant L. Schumacher, Franklin J. Vivanco, Hadrien Kurkjian, Nir Navon, | (参考訳) ランダウのフェルミ液(Fermi-Liquid、FL)理論は、多くの異なるフェルミ系の正常相の現象学的記述において成功している。
可変相互作用を持つ希薄原子フェルミ流体を用いて、第一原理から説明可能なシステムを用いてランダウ理論の微視的基礎を研究する。
本研究では, 相互作用するフェルミガスの輸送特性について, 周期的外乱に対する密度応答の測定により検討した。
理想的なフェルミ気体では、祝福されたリンドハルト函数が初めて測定される。
システムは衝突のない状態から流体力学状態へと導かれるので,音の出現を観察し,実験結果がFLの第一原理輸送方程式で定量的に理解されていることを確認する。
システムがより強く相互作用する場合、そのような予測から逸脱する。
最後に、運動量空間トモグラフィーから直接準粒子励起の形状を観察し、衝突のない状態から衝突状態へどのように進化するかを観察する。
本研究は,ランダウのFL理論を研究するためのクリーンなプラットフォームとして確立し,非線形力学やFLなどよりエキゾチックな条件に拡張するための道を開く。
Landau's Fermi-liquid (FL) theory has been successful at the phenomenological description of the normal phase of many different Fermi systems. Using a dilute atomic Fermi fluid with tunable interactions, we investigate the microscopic basis of Landau's theory with a system describable from first principles. We study transport properties of an interacting Fermi gas by measuring its density response to a periodic external perturbation. In an ideal Fermi gas, we measure for the first time the celebrated Lindhard function. As the system is brought from the collisionless to the hydrodynamic regime, we observe the emergence of sound, and find that the experimental observations are quantitatively understood with a first-principle transport equation for the FL. When the system is more strongly interacting, we find deviations from such predictions. Finally, we observe the shape of the quasiparticle excitations directly from momentum-space tomography and see how it evolves from the collisionless to the collisional regime. Our study establishes this system as a clean platform for studying Landau's theory of the FL and paves the way for extending the theory to more exotic conditions, such as nonlinear dynamics and FLs with strong correlations in versatile settings. | 翻訳日:2024-07-19 14:02:17 公開日:2024-07-18 |
# RoboGolf: 反射型多モードビジョンランゲージモデルによる実世界のミニゴルフのマスタリング
RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model ( http://arxiv.org/abs/2406.10157v4 ) ライセンス: Link先を確認 | Hantao Zhou, Tianying Ji, Lukas Sommerhalder, Michael Goerner, Norman Hendrich, Jianwei Zhang, Fuchun Sun, Huazhe Xu, | (参考訳) ミニゴルフ(Minigolf)は、エンボディインテリジェンスを調べるための模範的な現実世界のゲームであり、ボールを置くには空間的およびキノダイナミックな理解が必要である。
さらに、課題の実現可能性が保証されない場合には、リフレクティブ推論が必要である。
本稿では,双対カメラ認識と閉ループ動作改善を組み合わせたVLMベースのフレームワークであるRoboGolfを紹介する。
両方のループのコアは微調整されたVLMによって駆動される。
オフラインの推論設定でフレームワークの機能を解析し、記録されたトラジェクトリの広範なセットに依存する。
分析された問題領域の例示はhttps://jity16.github.io/RoboGolf/で公開されている。
Minigolf is an exemplary real-world game for examining embodied intelligence, requiring challenging spatial and kinodynamic understanding to putt the ball. Additionally, reflective reasoning is required if the feasibility of a challenge is not ensured. We introduce RoboGolf, a VLM-based framework that combines dual-camera perception with closed-loop action refinement, augmented by a reflective equilibrium loop. The core of both loops is powered by finetuned VLMs. We analyze the capabilities of the framework in an offline inference setting, relying on an extensive set of recorded trajectories. Exemplary demonstrations of the analyzed problem domain are available at https://jity16.github.io/RoboGolf/ | 翻訳日:2024-07-19 13:52:17 公開日:2024-07-18 |
# 言葉を超えて: ミッションクリティカルリスク分析における大規模言語モデルでの行動可能性
Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis ( http://arxiv.org/abs/2406.10273v4 ) ライセンス: Link先を確認 | Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi, | (参考訳) コンテキスト。
リスク分析は特定のシナリオにおける潜在的なリスクを評価する。
リスク分析の原則は、コンテキストレスであり、同じ方法論を、健康や情報技術のセキュリティに関連するリスクに適用することができる。
リスク分析には、国内外の規制や基準に関する膨大な知識が必要であり、時間と努力が集中している。
大きな言語モデルは、人間よりも少ない時間で情報を素早く要約することができ、特定のタスクに微調整することができる。
エイム。
本研究は,リスク分析における検索・拡張世代と微調整LDMの有効性を検討することを目的とした実証研究である。
我々の知る限り、リスク分析の能力について事前の研究は行われていない。
方法。
過去5年間に産業状況チームによってアーカイブされた50以上のミッションクリティカルな分析から、1283のサンプルに導かれる193のシナリオを手作業でキュレートしました。
基本モデルであるGPT-3.5とGPT-4とRetrieval-Augmented Generationおよび微調整モデルを比較した。
我々は、モデルと以前の人間の専門家の分析をレビューするために、モデルの競合相手として2人の人間専門家と、他の3人の人間専門家を雇います。
審査員は5000のシナリオ分析を行った。
結果と結論。
人間の専門家は高い精度を示したが、LSMはより速く、より実用的なものである。
さらに,RAG支援LSMが最も低い幻覚率を示し,隠れたリスクを効果的に発見し,人間の専門知識を補完することを示した。
したがって、モデルの選択は、正確性のためのFTM、隠れたリスク発見のためのRAG、包括性と行動可能性のためのベースモデルなど、特定のニーズに依存する。
したがって、専門家は、凝縮した時間枠内でのリスク分析において、LSMを効果的な補完コンパニオンとして活用することができる。
また、不当な対策の実施に伴う不要な費用を回避することでコストを削減できる。
Context. Risk analysis assesses potential risks in specific scenarios. Risk analysis principles are context-less; the same methodology can be applied to a risk connected to health and information technology security. Risk analysis requires a vast knowledge of national and international regulations and standards and is time and effort-intensive. A large language model can quickly summarize information in less time than a human and can be fine-tuned to specific tasks. Aim. Our empirical study aims to investigate the effectiveness of Retrieval-Augmented Generation and fine-tuned LLM in risk analysis. To our knowledge, no prior study has explored its capabilities in risk analysis. Method. We manually curated 193 unique scenarios leading to 1283 representative samples from over 50 mission-critical analyses archived by the industrial context team in the last five years. We compared the base GPT-3.5 and GPT-4 models versus their Retrieval-Augmented Generation and fine-tuned counterparts. We employ two human experts as competitors of the models and three other human experts to review the models and the former human experts' analysis. The reviewers analyzed 5,000 scenario analyses. Results and Conclusions. Human experts demonstrated higher accuracy, but LLMs are quicker and more actionable. Moreover, our findings show that RAG-assisted LLMs have the lowest hallucination rates, effectively uncovering hidden risks and complementing human expertise. Thus, the choice of model depends on specific needs, with FTMs for accuracy, RAG for hidden risks discovery, and base models for comprehensiveness and actionability. Therefore, experts can leverage LLMs as an effective complementing companion in risk analysis within a condensed timeframe. They can also save costs by averting unnecessary expenses associated with implementing unwarranted countermeasures. | 翻訳日:2024-07-19 13:52:17 公開日:2024-07-18 |
# 実行フィードバックによるセルフプレイ:大規模言語モデルの指示追従能力の向上
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models ( http://arxiv.org/abs/2406.13542v3 ) ライセンス: Link先を確認 | Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou, | (参考訳) 大規模言語モデル(LLM)のコア機能のひとつは、自然言語命令に従うことだ。
しかし、手動のアノテーションを使わずにLLMの複雑な命令追従能力を高めるために、高品質なトレーニングデータを自動的に構築するという問題は未解決のままである。
本稿では,命令追従学習データを自動的に生成する最初のスケーラブルで信頼性の高い手法であるAutoIFを紹介する。
AutoIFは命令追従データ品質の検証をコード検証に変換し、命令を生成するためにLCM、命令応答の正しさをチェックするための対応するコード、コードの正しさを検証するための単体テストサンプルを生成する。
そして、実行フィードバックに基づく拒否サンプリングにより、監視された微調整(SFT)と人間フィードバック(RLHF)トレーニングからの強化学習のためのデータを生成することができる。
AutoIFは、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズムにおいて、自己調整と強弱蒸留設定において、トップオープンソースLLM、Qwen2、LLaMA3に適用することで、大幅な改善を実現している。
私たちのコードはhttps://github.com/QwenLM/AutoIF.comで公開されています。
One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF. | 翻訳日:2024-07-19 13:52:17 公開日:2024-07-18 |
# SpeechBrain 1.0によるオープンソースの会話AI
Open-Source Conversational AI with SpeechBrain 1.0 ( http://arxiv.org/abs/2407.00463v4 ) ライセンス: Link先を確認 | Mirco Ravanelli, Titouan Parcollet, Adel Moumen, Sylvain de Langen, Cem Subakan, Peter Plantinga, Yingzhi Wang, Pooneh Mousavi, Luca Della Libera, Artem Ploujnikov, Francesco Paissan, Davide Borra, Salah Zaiem, Zeyu Zhao, Shucong Zhang, Georgios Karakasidis, Sung-Lin Yeh, Pierre Champion, Aku Rouhe, Rudolf Braun, Florian Mai, Juan Zuluaga-Gomez, Seyed Mahed Mousavi, Andreas Nautsch, Xuechen Liu, Sangeet Sagar, Jarod Duret, Salima Mdhaffar, Gaelle Laperriere, Mickael Rouvier, Renato De Mori, Yannick Esteve, | (参考訳) SpeechBrainは、PyTorchをベースとしたオープンソースの会話型AIツールキットで、音声認識、音声強調、話者認識、音声合成など、特に音声処理タスクに重点を置いている。
事前トレーニングされたモデルと、トレーニングに必要なコードとアルゴリズムの完全な“レシピ”の両方をリリースすることで、透明性と複製性を促進する。
本稿では,SpeechBrain 1.0について述べる。このツールキットは,200以上の音声,音声,言語処理タスクのレシピと,Hugging Faceで利用可能な100以上のモデルを備えている。
SpeechBrain 1.0では、多様な学習モダリティ、Large Language Model(LLM)統合、新しいモデル、タスク、モダリティとともに高度なデコード戦略をサポートする新しい技術が導入されている。
また、新しいベンチマークレポジトリが含まれており、研究者がさまざまなタスクでモデルを評価するための統一されたプラットフォームを提供する。
SpeechBrain is an open-source Conversational AI toolkit based on PyTorch, focused particularly on speech processing tasks such as speech recognition, speech enhancement, speaker recognition, text-to-speech, and much more. It promotes transparency and replicability by releasing both the pre-trained models and the complete "recipes" of code and algorithms required for training them. This paper presents SpeechBrain 1.0, a significant milestone in the evolution of the toolkit, which now has over 200 recipes for speech, audio, and language processing tasks, and more than 100 models available on Hugging Face. SpeechBrain 1.0 introduces new technologies to support diverse learning modalities, Large Language Model (LLM) integration, and advanced decoding strategies, along with novel models, tasks, and modalities. It also includes a new benchmark repository, offering researchers a unified platform for evaluating models across diverse tasks. | 翻訳日:2024-07-19 13:52:17 公開日:2024-07-18 |
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v4 ) ライセンス: Link先を確認 | Yang Liu, Weixing Chen, Yongjie Bai, Jingzhou Luo, Xinshuai Song, Kaixuan Jiang, Zhida Li, Ganlong Zhao, Junyi Lin, Guanbin Li, Wen Gao, Liang Lin, | (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。
近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。
しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。
そして、主な研究対象を4つ分析する。
1)知覚の具体化。
2) 相互作用の具体化。
3)具体化剤、及び
4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。
さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。
最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。
この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。
関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。
Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# Microsoft Copilotによるセキュリティ運用センターのためのAI駆動ガイド応答
AI-Driven Guided Response for Security Operation Centers with Microsoft Copilot for Security ( http://arxiv.org/abs/2407.09017v2 ) ライセンス: Link先を確認 | Scott Freitas, Jovan Kalajdjieski, Amir Gharib, Robert McCann, | (参考訳) セキュリティオペレーションセンターは、単純なものから非常に複雑なものまで、セキュリティインシデントの絶え間ないストリームと競合する。
この問題を解決するために、業界規模のMLアーキテクチャであるCopilot Guided Response(CGR)を開発した。これは、(1)類似のインシデントを特定することによって、セキュリティアナリストを調査、必須の歴史的コンテキストを提供する、(2)真のポジティブ、偽陽性、良心的ポジティブ、(3)修正された封じ込めアクションを推奨する、という3つの重要なタスクにわたって、セキュリティアナリストをガイドするものだ。
CGRはMicrosoft Defender XDR製品に統合され、世界中でデプロイされ、何千もの顧客に対して数百万のレコメンデーションを生成する。
内部評価、セキュリティ専門家とのコラボレーション、顧客からのフィードバックを取り入れた大規模な評価は、CGRが3つのタスクすべてにわたって高品質なレコメンデーションを提供することを示すものです。
我々は、CGRアーキテクチャの概要を包括的に紹介し、このような詳細でこれらの機能をオープンに議論した最初のサイバーセキュリティ企業として、先例を定めている。
さらに、現実のセキュリティインシデントに関する最大の公開コレクションであるGUIDEは、100万件の注釈付きインシデントにまたがる13万件のエビデンスにまたがっています。
研究者や実践者が現実世界のデータの研究を行うことで、GUIDEはサイバーセキュリティの状態を前進させ、次世代の機械学習システムの開発をサポートする。
Security operation centers contend with a constant stream of security incidents, ranging from straightforward to highly complex. To address this, we developed Copilot Guided Response (CGR), an industry-scale ML architecture that guides security analysts across three key tasks -- (1) investigation, providing essential historical context by identifying similar incidents; (2) triaging to ascertain the nature of the incident -- whether it is a true positive, false positive, or benign positive; and (3) remediation, recommending tailored containment actions. CGR is integrated into the Microsoft Defender XDR product and deployed worldwide, generating millions of recommendations across thousands of customers. Our extensive evaluation, incorporating internal evaluation, collaboration with security experts, and customer feedback, demonstrates that CGR delivers high-quality recommendations across all three tasks. We provide a comprehensive overview of the CGR architecture, setting a precedent as the first cybersecurity company to openly discuss these capabilities in such depth. Additionally, we GUIDE, the largest public collection of real-world security incidents, spanning 13M evidences across 1M annotated incidents. By enabling researchers and practitioners to conduct research on real-world data, GUIDE advances the state of cybersecurity and supports the development of next-generation machine learning systems. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# Flashアテンションによるパッケージングによるトレーニング効率の向上
Enhancing Training Efficiency Using Packing with Flash Attention ( http://arxiv.org/abs/2407.09105v2 ) ライセンス: Link先を確認 | Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra, | (参考訳) パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。
これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。
一方、Hugging Face SFTトレーナーは、最大シーケンス長まで複数のトレーニング例を組み合わせるためにパッキングを使用するオプションを提供する。
これにより、GPUリソースの最大活用が可能になる。
しかし、各充填トレーニング例の適切なマスキングがなければ、SFTトレーナーを使用する場合、注意は正しく計算されない。
私たちは、各例の適切な注意マスクで、パッキングとFlashアテンションを有効化し、分析し、このトレーニングパラダイムの利点を示します。
Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. On the other hand, the Hugging Face SFT trainer offers the option to use packing to combine multiple training examples up to the maximum sequence length. This allows for maximal utilization of GPU resources. However, without proper masking of each packed training example, attention will not be computed correctly when using SFT trainer. We enable and then analyse packing and Flash Attention with proper attention masking of each example and show the benefits of this training paradigm. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# マルチモーダル大言語モデルによる発音評価
Pronunciation Assessment with Multi-modal Large Language Models ( http://arxiv.org/abs/2407.09209v2 ) ライセンス: Link先を確認 | Kaiqi Fu, Linkai Peng, Nan Yang, Shuran Zhou, | (参考訳) 大きな言語モデル(LLM)は、強力な対話能力で知られており、特に言語学習のための自動化インテリジェントな教育システムにおいて、教育分野における例外的なツールとして広く認識されている。
本稿では,テキスト関連スコアリングタスクに対する肯定的な影響を動機として,LLMに基づくスコアリングシステムを提案する。
具体的には、まず学習者の発話を文脈的特徴にマッピングする。
アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
評価タスク固有のプレフィックスおよびプロンプトテキストは、モダリティアダプタ層によって生成された特徴に埋め込み、連結され、LCMが精度および流速スコアを予測する。
実験により,提案したスコアリングシステムは,Speechocean762データセットのベースラインと比較して,競争力のある結果が得られることを示した。
また,提案したスコアリングシステムにおいて,迅速なテキストとトレーニング戦略の貢献をより深く理解するために,アブレーション調査を行った。
Large language models (LLMs), renowned for their powerful conversational abilities, are widely recognized as exceptional tools in the field of education, particularly in the context of automated intelligent instruction systems for language learning. In this paper, we propose a scoring system based on LLMs, motivated by their positive impact on text-related scoring tasks. Specifically, the speech encoder first maps the learner's speech into contextual features. The adapter layer then transforms these features to align with the text embedding in latent space. The assessment task-specific prefix and prompt text are embedded and concatenated with the features generated by the modality adapter layer, enabling the LLMs to predict accuracy and fluency scores. Our experiments demonstrate that the proposed scoring systems achieve competitive results compared to the baselines on the Speechocean762 datasets. Moreover, we also conducted an ablation study to better understand the contributions of the prompt text and training strategy in the proposed scoring system. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# 連続的なテスト時間適応のためのオンラインデータバッファリングと編成機構の再構築
Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation ( http://arxiv.org/abs/2407.09367v2 ) ライセンス: Link先を確認 | Zhilin Zhu, Xiaopeng Hong, Zhiheng Ma, Weijun Zhuang, Yaohui Ma, Yong Dai, Yaowei Wang, | (参考訳) 継続的テスト時間適応(CTTA)では、トレーニング済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
本稿では、オンライン環境、教師なしの自然、および連続的なドメインシフトの下でのエラー蓄積や破滅的な忘れのリスクについて、その課題を体系的に分析する。
これらの課題に対処するため、CTTAのオンラインデータバッファリングと整理機構を再構成する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
そこで我々は,破滅的な忘れを克服するために,グラフに基づくクラス関係保存制約を提案する。
さらに、エラー蓄積を軽減するために擬似ターゲット再生目的を用いる。
大規模な実験により,CTTAタスクのセグメンテーションと分類の両方において,本手法の優位性が示された。
コードはhttps://github.com/z1358/OBAOで入手できる。
Continual Test-Time Adaptation (CTTA) involves adapting a pre-trained source model to continually changing unsupervised target domains. In this paper, we systematically analyze the challenges of this task: online environment, unsupervised nature, and the risks of error accumulation and catastrophic forgetting under continual domain shifts. To address these challenges, we reshape the online data buffering and organizing mechanism for CTTA. We propose an uncertainty-aware buffering approach to identify and aggregate significant samples with high certainty from the unsupervised, single-pass data stream. Based on this, we propose a graph-based class relation preservation constraint to overcome catastrophic forgetting. Furthermore, a pseudo-target replay objective is used to mitigate error accumulation. Extensive experiments demonstrate the superiority of our method in both segmentation and classification CTTA tasks. Code is available at https://github.com/z1358/OBAO. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# Open-Canopy: 極高分解能におけるキャノピー高さ推定のためのカントリースケールベンチマーク
Open-Canopy: A Country-Scale Benchmark for Canopy Height Estimation at Very High Resolution ( http://arxiv.org/abs/2407.09392v2 ) ライセンス: Link先を確認 | Fajwel Fogel, Yohann Perron, Nikola Besic, Laurent Saint-André, Agnès Pellissier-Tanon, Martin Schwartz, Thomas Boudras, Ibrahim Fayad, Alexandre d'Aspremont, Loic Landrieu, Philippe Ciais, | (参考訳) 衛星画像からのキャノピー高さとキャノピー高さの変化を推定すると、森林の健康、伐採活動、木材資源、炭素在庫などの多くの応用がある。
しかし、既存の森林データセットの多くは、商業的または閉鎖的なデータソースに基づいており、新しいアプローチの再現性と評価を制限している。
このギャップに対処するために、我々は、非常に高解像度(1.5m)のキャノピー高さ推定のための最初のオープンアクセスおよびカントリースケールのベンチマークであるOpen-Canopyを紹介した。
フランス全体で87,000 km$^2$以上をカバーするOpen-Canopyは、SPOT衛星画像と高解像度のLiDARデータを組み合わせている。
Open-Canopy-$\Delta$は、異なる年に撮影された2つの画像間のキャノピー高さ変化検出のための最初のベンチマークであり、最近のモデルにおいても特に難しい課題である。
これらのベンチマークのロバストな基盤を確立するため、我々は、キャノピー高さ推定のための最先端コンピュータビジョンモデルの包括的リストを評価する。
データセットと関連するコードはhttps://github.com/fajwel/Open-Canopy.comからアクセスすることができる。
Estimating canopy height and canopy height change at meter resolution from satellite imagery has numerous applications, such as monitoring forest health, logging activities, wood resources, and carbon stocks. However, many existing forest datasets are based on commercial or closed data sources, restricting the reproducibility and evaluation of new approaches. To address this gap, we introduce Open-Canopy, the first open-access and country-scale benchmark for very high resolution (1.5 m) canopy height estimation. Covering more than 87,000 km$^2$ across France, Open-Canopy combines SPOT satellite imagery with high resolution aerial LiDAR data. We also propose Open-Canopy-$\Delta$, the first benchmark for canopy height change detection between two images taken at different years, a particularly challenging task even for recent models. To establish a robust foundation for these benchmarks, we evaluate a comprehensive list of state-of-the-art computer vision models for canopy height estimation. The dataset and associated codes can be accessed at https://github.com/fajwel/Open-Canopy. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# 高品質伝送線路共振器を用いた2次元超伝導体の運動インダクタンスと超流動剛性の測定
Measuring kinetic inductance and superfluid stiffness of two-dimensional superconductors using high-quality transmission-line resonators ( http://arxiv.org/abs/2407.09916v2 ) ライセンス: Link先を確認 | Mary Kreidel, Xuanjing Chu, Jesse Balgley, Nishchhal Verma, Julian Ingham, Leonardo Ranzani, Raquel Queiroz, Robert M. Westervelt, James Hone, Kin Chung Fong, | (参考訳) 近年のファンデルワールス超伝導体の発見は、新しいペアリング機構に多くの興奮をもたらした。
しかし、それらの典型的な原子スケールの厚さとミクロスケールの側方寸法は、従来の方法によるペアリング対称性の研究に深刻な課題を課している。
本稿では, 高温超伝導共振器を用いて, 運動インダクタンス(最大100万分の1) とファンデルワールス超伝導体の損失を測定する新しい手法について述べる。
等価回路モデルを用いて, 運動インダクタンス, 超流動剛性, 浸透深さ, 複素導電率の虚部と実部の比を抽出する。
アルミニウムを計測し,BCS理論と比較した場合の0温度超伝導ギャップと複素導電率データの両方において優れた一致を見出すことにより,この技術の有効性を検証した。
次に,多層窒化ニオブの運動インダクタンスを測定し,試料の遷移温度が7.06KのNbSe$_2$,8.59KのNbプローブ共振器に近づくと,その精度の限界を議論する。この手法は超伝導回路成分のキャラクタリゼーションや,層状2次元材料やヘテロ構造に生じる新しい超伝導状態のペアリング機構の研究の手段として,超伝導物理,材料科学,量子センシングの分野における実践者にとって有用である。
The discovery of van der Waals superconductors in recent years has generated a lot of excitement for their potentially novel pairing mechanisms. However, their typical atomic-scale thickness and micrometer-scale lateral dimensions impose severe challenges to investigations of pairing symmetry by conventional methods. In this report we demonstrate a new technique that employs high-quality-factor superconducting resonators to measure the kinetic inductance -- up to a part per million -- and loss of a van der Waals superconductor. We analyze the equivalent circuit model to extract the kinetic inductance, superfluid stiffness, penetration depth, and ratio of imaginary and real parts of the complex conductivity. We validate the technique by measuring aluminum and finding excellent agreement in both the zero-temperature superconducting gap as well as the complex conductivity data when compared with BCS theory. We then demonstrate the utility of the technique by measuring the kinetic inductance of multi-layered niobium diselenide and discuss the limits to the accuracy of our technique when the transition temperature of the sample, NbSe$_2$ at 7.06 K, approaches our Nb probe resonator at 8.59 K. Our method will be useful for practitioners in the growing fields of superconducting physics, materials science, and quantum sensing, as a means of characterizing superconducting circuit components and studying pairing mechanisms of the novel superconducting states which arise in layered 2D materials and heterostructures. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# CodeV:マルチレベル要約によるVerilog生成のためのLLMの強化
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization ( http://arxiv.org/abs/2407.10424v3 ) ライセンス: Link先を確認 | Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen, | (参考訳) プロセッサ設計の複雑さとコストの増大により、プロセッサ設計の自動化に対する需要が急増した。
命令調整型大規模言語モデル(LLM)は、Pythonのような汎用プログラミング言語のコードを自動的に生成する際、顕著な性能を示している。
しかし、GPT-3.5のような先進的なLCMでさえ、Verilog生成において限られた性能を示すため、高品質な命令チューニングデータが不足しているため、これらの手法はVerilogのようなハードウェア記述言語(HDL)では失敗する。
この問題に関して,(1)実世界から収集したVerilogコードは,LLMが生成したコードよりも高品質であることを示す。
2) GPT-3.5 のような LLM は、生成するのではなく、Verilog コードの要約に優れている。
そこで本研究では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。
まず、先進的なLLMから対応するコードを生成する代わりに、VerilogコードでLLMをプロンプトし、多レベル要約により対応する自然言語記述を生成する。
実験の結果、CodeVは以前のオープンソースSOTAの14.4%(VerilogEvalのBetterV)と11.3%(RTLCoderのRTLCoder)を比較的上回り、またVerilogEvalの商用SOTA GPT-4の22.1%を上回った。
The increasing complexity and high costs associated with modern processor design have led to a surge in demand for processor design automation. Instruction-tuned large language models (LLMs) have demonstrated remarkable performance in automatically generating code for general-purpose programming languages like Python. However, these methods fail on hardware description languages (HDLs) like Verilog due to the scarcity of high-quality instruction tuning data, as even advanced LLMs like GPT-3.5 exhibit limited performance on Verilog generation. Regarding this issue, we observe that (1) Verilog code collected from the real world has higher quality than those generated by LLMs. (2) LLMs like GPT-3.5 excel in summarizing Verilog code rather than generating it. Based on these observations, this paper introduces CodeV, a series of open-source instruction-tuned Verilog generation LLMs. Instead of generating descriptions first and then getting the corresponding code from advanced LLMs, we prompt the LLM with Verilog code and let the LLM generate the corresponding natural language description by multi-level summarization. Experimental results show that CodeV relatively surpasses the previous open-source SOTA by 14.4% (BetterV in VerilogEval) and 11.3% (RTLCoder in RTLLM) respectively, and also relatively outperforms previous commercial SOTA GPT-4 by 22.1% in VerilogEval. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# AccDiffusion:高分解能画像生成のための高精度手法
AccDiffusion: An Accurate Method for Higher-Resolution Image Generation ( http://arxiv.org/abs/2407.10738v2 ) ライセンス: Link先を確認 | Zhihang Lin, Mingbao Lin, Meng Zhao, Rongrong Ji, | (参考訳) 本稿では,パッチワイド高解像度画像生成におけるオブジェクト繰り返し問題に対処する。
AccDiffusionは、パッチワイドの高解像度画像生成をトレーニングなしで正確に行う方法である。
本稿では,異なるパッチに対する同一のテキストプロンプトが繰り返しオブジェクト生成を引き起こすことを明らかにする。
そこで,我々のAccDiffusionは,バニラ画像認識プロンプトをパッチコンテンツ認識プロンプトの集合に分離することを提案し,それぞれがより正確な画像パッチ記述として機能する。
さらに、AccDiffusionはウィンドウインタラクションによる拡張サンプリングを導入し、高解像度画像生成におけるグローバル一貫性を改善した。
既存の手法との比較実験により,AccDiffusionは繰り返しオブジェクト生成の問題に効果的に対処し,高分解能画像生成の性能向上につながることが示された。
This paper attempts to address the object repetition issue in patch-wise higher-resolution image generation. We propose AccDiffusion, an accurate method for patch-wise higher-resolution image generation without training. An in-depth analysis in this paper reveals an identical text prompt for different patches causes repeated object generation, while no prompt compromises the image details. Therefore, our AccDiffusion, for the first time, proposes to decouple the vanilla image-content-aware prompt into a set of patch-content-aware prompts, each of which serves as a more precise description of an image patch. Besides, AccDiffusion also introduces dilated sampling with window interaction for better global consistency in higher-resolution image generation. Experimental comparison with existing methods demonstrates that our AccDiffusion effectively addresses the issue of repeated object generation and leads to better performance in higher-resolution image generation. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# 文化理解のための視覚言語モデルのベンチマーク
Benchmarking Vision Language Models for Cultural Understanding ( http://arxiv.org/abs/2407.10920v2 ) ライセンス: Link先を確認 | Shravan Nayak, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stańczak, Aishwarya Agrawal, | (参考訳) 基礎モデルと視覚言語事前訓練は、視覚および言語データのマルチモーダル処理を可能にする高度なビジョン言語モデル(VLM)を備えている。
しかし、そのパフォーマンスは一般的に、文化的な理解よりも、一般的な場面理解(物体、属性、行動を認識すること)に基づいて評価されてきた。
本稿では,VLMの地理的多様性の文化的理解を評価するための視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
GPT-4V や Gemini など文化VQA に関する VLM のベンチマークでは,北米の文化理解能力は高いが,アフリカにおける文化理解能力は著しく低下している。
私たちは、衣服、儀式、伝統によって、食事や飲み物よりも高いパフォーマンスを示す文化的な面でも、彼らのパフォーマンスの格差を観察します。
これらの格差は、VLMが文化的理解を欠いている地域を識別し、VLMの多様性を理解するための総合的な評価セットとしてカルチャーVQAの可能性を示すのに役立つ。
Foundation models and vision-language pre-training have notably advanced Vision Language Models (VLMs), enabling multimodal processing of visual and linguistic data. However, their performance has been typically assessed on general scene understanding - recognizing objects, attributes, and actions - rather than cultural comprehension. This study introduces CulturalVQA, a visual question-answering benchmark aimed at assessing VLM's geo-diverse cultural understanding. We curate a collection of 2,378 image-question pairs with 1-5 answers per question representing cultures from 11 countries across 5 continents. The questions probe understanding of various facets of culture such as clothing, food, drinks, rituals, and traditions. Benchmarking VLMs on CulturalVQA, including GPT-4V and Gemini, reveals disparity in their level of cultural understanding across regions, with strong cultural understanding capabilities for North America while significantly lower performance for Africa. We observe disparity in their performance across cultural facets too, with clothing, rituals, and traditions seeing higher performances than food and drink. These disparities help us identify areas where VLMs lack cultural understanding and demonstrate the potential of CulturalVQA as a comprehensive evaluation set for gauging VLM progress in understanding diverse cultures. | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# ジョージア・サバンナの空き地・放棄地・荒廃地を識別する人間-ループ型機械学習アプローチからの教訓
Lessons from a human-in-the-loop machine learning approach for identifying vacant, abandoned, and deteriorated properties in Savannah, Georgia ( http://arxiv.org/abs/2407.11138v2 ) ライセンス: Link先を確認 | Xiaofan Liang, Brian Brainerd, Tara Hicks, Clio Andris, | (参考訳) 健全なコミュニティを維持するためには,空き地,放棄地,荒廃地(VAD)の管理戦略が重要である。
しかし、これらの性質を識別する過程は困難である。
そこで我々は、VADecideと呼ばれるHuman-in-the-loop Machine Learning(HITLML)モデルを作成し、ジョージア州サバンナのパーセルレベルのケーススタディに適用する。
その結果,人間の入力を伴わない機械学習モデルを用いた場合よりも,予測精度が高いことがわかった。
HITLMLアプローチはまた、マシンと人為的な結果の違いも明らかにしている。
本研究は,都市計画におけるHITLMLのメリットと課題に関する知見に寄与する。
[『ピアレビュー』誌に掲載される]
Addressing strategies for managing vacant, abandoned, and deteriorated (VAD) properties is important for maintaining healthy communities. Yet, the process of identifying these properties can be difficult. Here, we create a human-in-the-loop machine learning (HITLML) model called VADecide and apply it to a parcel-level case study in Savannah, Georgia. The results show a higher prediction accuracy than was achieved when using a machine learning model without human input in the training. The HITLML approach also reveals differences between machine vs. human-generated results. Our findings contribute to knowledge about the advantages and challenges of HITLML in urban planning. [Accepted for Publication at a Peer Review Journal] | 翻訳日:2024-07-19 13:52:16 公開日:2024-07-18 |
# 自動車組織における欧州データとAI規制の分析
An Analysis of European Data and AI Regulations for Automotive Organizations ( http://arxiv.org/abs/2407.11271v2 ) ライセンス: Link先を確認 | Charlotte A. Shahlaei, Nicholas Berente, | (参考訳) このレポートは、欧州連合の一連のデータおよびAI規制を要約し、それらを自動車製造組織のマネージャのために分析する。
特に、以前の法律にルーツを見出す方法、相互に矛盾し補完する方法、そしてこれらの規制が提供するビジネスチャンスなど、規制の関連する考え方を強調します。
報告書の構成は以下の通りである。
まず、GDPRを、他の規制の要件を考慮し、合法化するための基盤として扱う。
第2に、民間企業のIoT(Internet of Things)を直接対応し、自動車メーカーなどの大規模データ生成装置に厳格な要件を課しているため、EUデータ法について説明する。
製造業者にとって、EUデータ法への準拠は、その後の法律、特にEU AI法に必須である。
第3に、データガバナンス法、デジタルサービス法、デジタル市場法、EUAI法を時系列順に説明する。
全体として、我々は欧州連合のデータ規制を、歴史的先例に根ざした波の集合として特徴づけ、自動車産業に重要な意味を持つ。
This report summarizes the European Union's series of data and AI regulations and analyzes them for managers in automotive vehicle manufacturing organizations. In particular, we highlight the relevant ideas of the regulations, including how they find their roots in earlier legislation, how they contradict and complement each other, as well as the business opportunities that these regulations offer. The structure of the report is as follows. First, we address the GDPR as the cornerstone against which the requirements of other regulations are weighed and legislated. Second, we explain the EU Data Act since it directly addresses Internet of Things (IoT) for businesses in the private sector and imposes strict requirements on large data generators such as vehicle manufacturers. For manufacturers, compliance with the EU Data Act is a prerequisite for the subsequent legislation, in particular the EU AI Act. Third, we explain the Data Governance Act, Digital Services Act, Digital Markets Act, and EU AI Act in chronological order. Overall, we characterize European Union data regulations as a wave set, rooted in historical precedent, with important implications for the automotive industry. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# LaMI-DETR:言語モデル命令による開語彙検出
LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction ( http://arxiv.org/abs/2407.11335v2 ) ライセンス: Link先を確認 | Penghui Du, Yu Wang, Yifan Sun, Luting Wang, Yue Liao, Gang Zhang, Errui Ding, Yan Wang, Jingdong Wang, Si Liu, | (参考訳) 既存の手法では、CLIPのような視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクトの検出が向上するが、概念表現の欠如により、CLIPのテキスト空間内のカテゴリ名がテキストや視覚的知識を欠いている。
2) VLM から検出器への移動において,基本カテゴリに偏りを呈するオープン語彙の過剰適合傾向に対処するため,視覚的概念間の関係を生かした言語モデル命令 (LaMI) 戦略を提案する。LaMI-DETR.LaMI は GPT を利用して視覚的概念を構築し,カテゴリ間の類似性を調査する。これらのカテゴリ間関係は,概念表現を洗練し,基本カテゴリへの過度な適合を回避するとともに,我々のアプローチが,外部トレーニングリソースに依存しないような厳密な方法で,既存の手法よりも優れたパフォーマンスを実証する。LaMI-DETR は,AP 43 の OV 43 のレアボックスを達成している。
Existing methods enhance open-vocabulary object detection by leveraging the robust open-vocabulary recognition capabilities of Vision-Language Models (VLMs), such as CLIP.However, two main challenges emerge:(1) A deficiency in concept representation, where the category names in CLIP's text space lack textual and visual knowledge.(2) An overfitting tendency towards base categories, with the open vocabulary knowledge biased towards base categories during the transfer from VLMs to detectors.To address these challenges, we propose the Language Model Instruction (LaMI) strategy, which leverages the relationships between visual concepts and applies them within a simple yet effective DETR-like detector, termed LaMI-DETR.LaMI utilizes GPT to construct visual concepts and employs T5 to investigate visual similarities across categories.These inter-category relationships refine concept representation and avoid overfitting to base categories.Comprehensive experiments validate our approach's superior performance over existing methods in the same rigorous setting without reliance on external training resources.LaMI-DETR achieves a rare box AP of 43.4 on OV-LVIS, surpassing the previous best by 7.8 rare box AP. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# TinyMLセキュリティの強化: 敵攻撃伝達性の検討
Enhancing TinyML Security: Study of Adversarial Attack Transferability ( http://arxiv.org/abs/2407.11599v2 ) ライセンス: Link先を確認 | Parin Shah, Yuvaraj Govindarajulu, Pavan Kulkarni, Manojkumar Parmar, | (参考訳) 人工知能(AI)と機械学習(ML)の最近の進歩は、クラウド接続に依存することなく、エッジでのAI計算を可能にするパラダイムであるTinyMLの台頭を促している。
TinyMLは、さまざまなアプリケーションにとって重要なリアルタイムデータ分析と迅速なレスポンスを提供するが、そのデバイス固有のリソース制限は、セキュリティリスクを露呈する。
この研究は、リソースに制限された組み込みハードウェア上のAIモデルの敵対的脆弱性を深く掘り下げ、モデル抽出と侵入攻撃に焦点をあてる。
以上の結果から,強力なホストマシンからの敵攻撃は,ESP32やRaspberry Piなど,より小型で安全性の低いデバイスに転送される可能性が示唆された。
このことは、敵対的攻撃が小さなデバイスに拡張され、脆弱性が強調され、TinyMLデプロイメントにおける強化されたセキュリティ対策の必要性を強調していることを示している。
この調査は、TinyMLのセキュリティ課題の理解を強化し、センシティブなデータを保護し、AIによるエッジコンピューティング設定におけるデバイス依存性を保証するための洞察を提供する。
The recent strides in artificial intelligence (AI) and machine learning (ML) have propelled the rise of TinyML, a paradigm enabling AI computations at the edge without dependence on cloud connections. While TinyML offers real-time data analysis and swift responses critical for diverse applications, its devices' intrinsic resource limitations expose them to security risks. This research delves into the adversarial vulnerabilities of AI models on resource-constrained embedded hardware, with a focus on Model Extraction and Evasion Attacks. Our findings reveal that adversarial attacks from powerful host machines could be transferred to smaller, less secure devices like ESP32 and Raspberry Pi. This illustrates that adversarial attacks could be extended to tiny devices, underscoring vulnerabilities, and emphasizing the necessity for reinforced security measures in TinyML deployments. This exploration enhances the comprehension of security challenges in TinyML and offers insights for safeguarding sensitive data and ensuring device dependability in AI-powered edge computing settings. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 動的次元ラッピング(DDW: Dynamic Dimension Wrapping)アルゴリズム:動的多次元空間における効率的なクロス次元探索のための新しいアプローチ
Dynamic Dimension Wrapping (DDW) Algorithm: A Novel Approach for Efficient Cross-Dimensional Search in Dynamic Multidimensional Spaces ( http://arxiv.org/abs/2407.11626v2 ) ライセンス: Link先を確認 | Dongnan Jin, Yali Liu, Qiuzhi Song, Xunju Ma, Yue Liu, Dehao Wu, | (参考訳) 現実の世界では、最適化問題の複雑さが増大し続けており、より効率的な最適化方法の研究が急務である。
現在の最適化アルゴリズムは、一定次元の問題を解くのに優れている。
しかし、動的多次元空間の探索における効率性は不十分である。
次元の異なる多次元空間におけるクロス次元探索の課題に対して,本研究では,新しい最適化アルゴリズムである動的次元ラッピング(DDW)アルゴリズムを提案する。
まず、動的時間ウォーピング(DTW)アルゴリズムとユークリッド距離を利用して、次元の異なる時系列間のマッピング関係を確立することにより、次元の動的多次元空間に適した適合関数を作成する。
さらに、DDWは動的多次元空間に対してより効率的で効率的なクロス次元探索機構を導入している。
最後に、動的多次元空間探索における31の最適化アルゴリズムを用いた比較試験により、DDWは優れた探索効率を示し、実際の最適解に最も近い検索結果を提供することを示した。
In the real world, as the complexity of optimization problems continues to increase, there is an urgent need to research more efficient optimization methods. Current optimization algorithms excel in solving problems with a fixed number of dimensions. However, their efficiency in searching dynamic multi-dimensional spaces is unsatisfactory. In response to the challenge of cross-dimensional search in multi-dimensional spaces with varying numbers of dimensions, this study proposes a new optimization algorithm-Dynamic Dimension Wrapping (DDW) algorithm. Firstly, by utilizing the Dynamic Time Warping (DTW) algorithm and Euclidean distance, a mapping relationship between different time series across dimensions is established, thus creating a fitness function suitable for dimensionally dynamic multi-dimensional space. Additionally, DDW introduces a novel, more efficient cross-dimensional search mechanism for dynamic multidimensional spaces. Finally, through comparative tests with 31 optimization algorithms in dynamic multidimensional space search, the results demonstrate that DDW exhibits outstanding search efficiency and provides search results closest to the actual optimal solution. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# IPA-NeRF:Illusory Poisoning attacks against Neural Radiance Fields
IPA-NeRF: Illusory Poisoning Attack Against Neural Radiance Fields ( http://arxiv.org/abs/2407.11921v2 ) ライセンス: Link先を確認 | Wenxiang Jiang, Hanwei Zhang, Shuo Zhao, Zhongwen Guo, Hao Wang, | (参考訳) Neural Radiance Field(NeRF)は、暗黙のニューラルネットワークに基づくシーン表現と、新しいビュー合成機能を提供するコンピュータビジョンの大幅な進歩を表している。
その応用分野は、ロボット工学、都市マッピング、自律ナビゲーション、仮想現実/拡張現実など多岐にわたる。
しかし、広く採用されているにもかかわらず、NeRFの堅牢性とセキュリティはいまだに未解明のままである。
本研究では,Illusory Poisoning Attack against Neural Radiance Fields (IPA-NeRF)を導入した。
この攻撃は、隠れたバックドアビューをNeRFに埋め込むことで、標準的な入力で通常のパフォーマンスを維持しつつ、特定のバックドアビューで提示された場合に、所定の出力を生成することができる。
我々の攻撃は、特定の位置でユーザーや下流のモデルを騙し、NeRFの異常が他の視点では検出できないことを確実にするように設計されています。
実験結果から,所望の照準を所望の視点で提示し,他の視点に影響を及ぼすことなく有効性を示すことができた。
特に、トレーニングセットのみに小さな摂動を導入することで、この攻撃を実現する。
コードはhttps://github.com/jiang-wenxiang/IPA-NeRFで見ることができる。
Neural Radiance Field (NeRF) represents a significant advancement in computer vision, offering implicit neural network-based scene representation and novel view synthesis capabilities. Its applications span diverse fields including robotics, urban mapping, autonomous navigation, virtual reality/augmented reality, etc., some of which are considered high-risk AI applications. However, despite its widespread adoption, the robustness and security of NeRF remain largely unexplored. In this study, we contribute to this area by introducing the Illusory Poisoning Attack against Neural Radiance Fields (IPA-NeRF). This attack involves embedding a hidden backdoor view into NeRF, allowing it to produce predetermined outputs, i.e. illusory, when presented with the specified backdoor view while maintaining normal performance with standard inputs. Our attack is specifically designed to deceive users or downstream models at a particular position while ensuring that any abnormalities in NeRF remain undetectable from other viewpoints. Experimental results demonstrate the effectiveness of our Illusory Poisoning Attack, successfully presenting the desired illusory on the specified viewpoint without impacting other views. Notably, we achieve this attack by introducing small perturbations solely to the training set. The code can be found at https://github.com/jiang-wenxiang/IPA-NeRF. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 単分子動的人体モデリングのための運動指向型合成ニューラルラディアンス場
Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling ( http://arxiv.org/abs/2407.11962v2 ) ライセンス: Link先を確認 | Jaehyeok Kim, Dongyoon Wee, Dan Xu, | (参考訳) 本稿では,新しい非剛性モーションモデリング手法を用いて,モノクロ映像の自由視点レンダリングを実現するフレームワークであるMoCo-NeRFについて紹介する。
動的布地人の文脈では、複雑な布地力学は、骨格の関節と本質的に異なる非剛体運動を生成し、レンダリング品質に重要な意味を持つ。
従来のアプローチでは、非剛体運動を骨格変換に加えて空間的(3次元)偏差としてモデル化している。
しかし、直接の監督なしに、学習の複雑さのために最適な品質を達成するのに時間がかかるか難しいかのどちらかである。
そこで本研究では,非剛性運動をレイディアンス残差場としてモデル化し,レンダリングにおけるより直接的な色監督の利点を生かし,厳密なレイディアンス場を事前利用することにより,学習過程の複雑さを低減させる手法を提案する。
本手法では, 単一多重分解能ハッシュ符号化(MHE)を用いて, 剛性骨格運動と非剛性運動に対する放射残留場から標準T位置表現を同時に学習する。
さらに、トレーニング効率とユーザビリティの両方を改善するために、我々はMoCo-NeRFを拡張して、1つのフレームワーク内で複数の被験者の同時トレーニングをサポートする。
このスケーラビリティは、グローバルなMHEと学習可能なアイデンティティコードと、複数のローカルなMHEを統合することで実現されている。
ZJU-MoCap と MonoCap について,単一オブジェクトと多オブジェクトの両方で最先端性能を実証した。
コードとモデルはプロジェクトのページで公開されている。
This paper introduces Motion-oriented Compositional Neural Radiance Fields (MoCo-NeRF), a framework designed to perform free-viewpoint rendering of monocular human videos via novel non-rigid motion modeling approach. In the context of dynamic clothed humans, complex cloth dynamics generate non-rigid motions that are intrinsically distinct from skeletal articulations and critically important for the rendering quality. The conventional approach models non-rigid motions as spatial (3D) deviations in addition to skeletal transformations. However, it is either time-consuming or challenging to achieve optimal quality due to its high learning complexity without a direct supervision. To target this problem, we propose a novel approach of modeling non-rigid motions as radiance residual fields to benefit from more direct color supervision in the rendering and utilize the rigid radiance fields as a prior to reduce the complexity of the learning process. Our approach utilizes a single multiresolution hash encoding (MHE) to concurrently learn the canonical T-pose representation from rigid skeletal motions and the radiance residual field for non-rigid motions. Additionally, to further improve both training efficiency and usability, we extend MoCo-NeRF to support simultaneous training of multiple subjects within a single framework, thanks to our effective design for modeling non-rigid motions. This scalability is achieved through the integration of a global MHE and learnable identity codes in addition to multiple local MHEs. We present extensive results on ZJU-MoCap and MonoCap, clearly demonstrating state-of-the-art performance in both single- and multi-subject settings. The code and model will be made publicly available at the project page: https://stevejaehyeok.github.io/publications/moco-nerf. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 拡散モデルを用いた量子近似最適化アルゴリズムのパラメータ生成
Parameter Generation of Quantum Approximate Optimization Algorithm with Diffusion Model ( http://arxiv.org/abs/2407.12242v2 ) ライセンス: Link先を確認 | Fanxu Meng, Xiangzhen Zhou, | (参考訳) 量子コンピューティングは、重ね合わせや絡み合いのような量子力学のユニークな特性により、組合せ最適化の分野に革命をもたらす可能性を示している。
変分型ハイブリッド量子古典アルゴリズムである量子近似最適化アルゴリズム(QAOA)は、組合せ最適化の代表的な例であるMax-Cut問題を効率的に解くための主要な提案である。
しかし、その約束された利点はパラメータの初期化戦略に強く依存しており、これは低品質の局所ミニマ問題によって特徴づけられる非凸および複雑な最適化の展望による重要な側面である。
そこで,本研究では,生成機械学習モデル,特に認知拡散確率モデル(DDPM)を訓練し,QAOAの初期パラメータを高い性能で生成する生成タスクとして,優れた初期パラメータを求める問題を定式化する。
拡散モデルは、高性能パラメータの分布を学習し、次に最適なパラメータに近い新しいパラメータを合成することができる。
種々のMax-Cut問題インスタンスを用いた実験により,我々の拡散過程はランダムパラメータの初期化と比較してQAOAの有効性を一貫して向上することを示した。
さらに,本フレームワークは,大規模インスタンスへの外挿による量子計算資源のオーバーヘッド低減を目的とした,小型で古典的にシミュラブルな問題インスタンスのトレーニング能力を示す。
Quantum computing presents a compelling prospect for revolutionizing the field of combinatorial optimization, in virtue of the unique attributes of quantum mechanics such as superposition and entanglement. The Quantum Approximate Optimization Algorithm (QAOA), which is a variational hybrid quantum-classical algorithm, stands out as leading proposals to efficiently solve the Max-Cut problem, a representative example of combinatorial optimization. However, its promised advantages strongly rely on parameters initialization strategy, a critical aspect due to the non-convex and complex optimization landscapes characterized by low-quality local minima issues. Therefore, in this work, we formulate the problem of finding good initial parameters as a generative task in which the generative machine learning model, specifically the denoising diffusion probabilistic model (DDPM), is trained to generate high-performing initial parameters for QAOA. The diffusion model is capable of learning the distribution of high-performing parameters and then synthesizing new parameters closer to optimal ones. Experiments with various sized Max-Cut problem instances demonstrate that our diffusion process consistently enhances QAOA effectiveness compared to random parameters initialization. Moreover, our framework indicates the capacity of training on small, classically simulatable problem instances, aiming at extrapolating to larger instances to reduce quantum computational resource overhead. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 生成モデルを退避させる - データポジショニング攻撃の力
Turning Generative Models Degenerate: The Power of Data Poisoning Attacks ( http://arxiv.org/abs/2407.12281v2 ) ライセンス: Link先を確認 | Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Farhan Ahmed, Ling Cai, Nathalie Baracaldo, | (参考訳) サードパーティによってトレーニングされた大規模言語モデル(LLM)の使用の増加は、重大なセキュリティ上の懸念を提起する。
特に、悪意のあるアクターは、有害な攻撃を通じてバックドアを導入し、望ましくないアウトプットを生成することができる。
このような攻撃は画像領域や分類タスクで広く研究されているが、自然言語生成(NLG)タスクには未熟である。
このギャップに対処するため, プレフィックスチューニング (PEFT) 法を用いて, LLMの微調整フェーズを標的とした各種毒検査手法について検討を行った。
我々は、テキスト要約とテキスト補完という2つの生成タスクにおけるそれらの効果を評価し、また、このようなNLG中毒攻撃の成功とステルスネスを定量化するための新しい指標も導入する。
実験の結果,プレフィックス調整型ハイパーパラメータとトリガー設計が,攻撃の成功とステルスネスに影響を与える最も重要な要因であることが判明した。
さらに, 既存の防犯対策は, 毒殺攻撃に対して効果がないことを示す。
本研究は,広範囲のトリガおよび攻撃設定を横断するPEFTによる微調整において,NLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチを提案する。
私たちの発見は、AIセキュリティコミュニティがこのような脅威に対する効果的な防御を開発するのに役立つことを願っています。
The increasing use of large language models (LLMs) trained by third parties raises significant security concerns. In particular, malicious actors can introduce backdoors through poisoning attacks to generate undesirable outputs. While such attacks have been extensively studied in image domains and classification tasks, they remain underexplored for natural language generation (NLG) tasks. To address this gap, we conduct an investigation of various poisoning techniques targeting the LLM's fine-tuning phase via prefix-tuning, a Parameter Efficient Fine-Tuning (PEFT) method. We assess their effectiveness across two generative tasks: text summarization and text completion; and we also introduce new metrics to quantify the success and stealthiness of such NLG poisoning attacks. Through our experiments, we find that the prefix-tuning hyperparameters and trigger designs are the most crucial factors to influence attack success and stealthiness. Moreover, we demonstrate that existing popular defenses are ineffective against our poisoning attacks. Our study presents the first systematic approach to understanding poisoning attacks targeting NLG tasks during fine-tuning via PEFT across a wide range of triggers and attack settings. We hope our findings will aid the AI security community in developing effective defenses against such threats. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 機械学習のための情報理論の基礎
Information-Theoretic Foundations for Machine Learning ( http://arxiv.org/abs/2407.12288v2 ) ライセンス: Link先を確認 | Hong Jun Jeon, Benjamin Van Roy, | (参考訳) 過去10年間の機械学習の驚くべき進歩は、注目に値するものとなっている。
振り返ってみれば、これらのマイルストーンが実験を導くための厳密な理論をほとんど、あるいは全く持たなかったことは、目覚ましいことと不安である。
この事実にもかかわらず、実践者は以前の大規模な実証実験の観察を通して将来の実験を導くことができた。
しかし、プラトンの洞窟のアレゴリー(英語版)に言及すると、フィールドの現実の概念を形成する観察は、その現実の断片を表す影である可能性が高い。
本研究では,洞窟外に存在する問題に答えようとする理論的枠組みを提案する。
理論家にとって、我々は数学的に厳密なフレームワークを提供し、将来の探索のために多くの興味深いアイデアを開放する。
実践者には、結果が非常に直感的で、一般的に、将来の調査を導くための原則を形成するのに役立つフレームワークを提供する。
具体的には、ベイズ統計とシャノンの情報理論に根ざした理論的枠組みを提供する。
本フレームワークは,情報の基本的限界を考慮した最適なベイズ学習者の性能を特徴付ける。
この研究を通じて、非常に一般的な理論的結果を導出し、未知の分布下で独立に分布するデータから、連続的なデータ、メタラーニングに適する階層構造を示すデータまで、設定に特異的な洞察を導出する。
我々は、不特定アルゴリズムの性能を特徴付けるセクションを締めくくる。
これらの結果はエキサイティングで、この無限に複雑な世界でますます困難な機械学習の課題を克服しようと努めている。
The staggering progress of machine learning in the past decade has been a sight to behold. In retrospect, it is both remarkable and unsettling that these milestones were achievable with little to no rigorous theory to guide experimentation. Despite this fact, practitioners have been able to guide their future experimentation via observations from previous large-scale empirical investigations. However, alluding to Plato's Allegory of the cave, it is likely that the observations which form the field's notion of reality are but shadows representing fragments of that reality. In this work, we propose a theoretical framework which attempts to answer what exists outside of the cave. To the theorist, we provide a framework which is mathematically rigorous and leaves open many interesting ideas for future exploration. To the practitioner, we provide a framework whose results are very intuitive, general, and which will help form principles to guide future investigations. Concretely, we provide a theoretical framework rooted in Bayesian statistics and Shannon's information theory which is general enough to unify the analysis of many phenomena in machine learning. Our framework characterizes the performance of an optimal Bayesian learner, which considers the fundamental limits of information. Throughout this work, we derive very general theoretical results and apply them to derive insights specific to settings ranging from data which is independently and identically distributed under an unknown distribution, to data which is sequential, to data which exhibits hierarchical structure amenable to meta-learning. We conclude with a section dedicated to characterizing the performance of misspecified algorithms. These results are exciting and particularly relevant as we strive to overcome increasingly difficult machine learning challenges in this endlessly complex world. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# PersLLM: 大規模言語モデルの個人化トレーニングアプローチ
PersLLM: A Personified Training Approach for Large Language Models ( http://arxiv.org/abs/2407.12393v2 ) ライセンス: Link先を確認 | Zheni Zeng, Jiayi Chen, Huimin Chen, Yukun Yan, Yuxuan Chen, Zhiyuan Liu, Maosong Sun, | (参考訳) 大規模言語モデルは、社会シミュレーション、人間と機械の相互作用、協調的なマルチエージェントシステムといった分野において、人間のようなエージェントとしての応用を触媒する人間レベルの知能の側面を示す。
しかし,不整合性,不整合性,一様応答パターンなどの個性が欠如しているため,実用面でのLCMの有用性は低下する。
これに対応するために、LSMにおける性格特性の発達は、潜伏する潜在能力を解き放つための重要な研究領域として現れている。
LLMをパーソナライズする既存の手法は、典型化されたトレーニングデータを用いて指導訓練を行ったり、異なる個人性をシミュレートするためにプロンプトエンジニアリングを使用したりといった戦略が一般的である。
これらの手法は、人格のコアではなく、表面言語的なスタイルを捉えているだけであり、したがって安定していない。
本研究では,社会実践,一貫性,動的発達といった心理学的根拠に基づく個性原則を包括的学習方法論に統合するPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
単一エージェント評価は,他の手法と比較して,基準的個性に適合した応答を生成できるので,本手法の優位性を評価する。
多エージェントコミュニケーションのケーススタディは、個々のエージェントにおける意見整合性を高め、対話コンテキストにおける複数のエージェント間の協調的創造性を促進することの利点を強調し、人間のシミュレーションやマルチエージェント協力の恩恵を受ける可能性がある。
さらに、人間とエージェントの相互作用評価は、我々の擬人化モデルが対話的体験を著しく向上させ、我々の研究の実践的意義を裏付けていることを示している。
Large language models exhibit aspects of human-level intelligence that catalyze their application as human-like agents in domains such as social simulations, human-machine interactions, and collaborative multi-agent systems. However, the absence of distinct personalities, such as displaying ingratiating behaviors, inconsistent opinions, and uniform response patterns, diminish LLMs utility in practical applications. Addressing this, the development of personality traits in LLMs emerges as a crucial area of research to unlock their latent potential. Existing methods to personify LLMs generally involve strategies like employing stylized training data for instruction tuning or using prompt engineering to simulate different personalities. These methods only capture superficial linguistic styles instead of the core of personalities and are therefore not stable. In this study, we propose PersLLM, integrating psychology-grounded principles of personality: social practice, consistency, and dynamic development, into a comprehensive training methodology. We incorporate personality traits directly into the model parameters, enhancing the model's resistance to induction, promoting consistency, and supporting the dynamic evolution of personality. Single-agent evaluation validates our method's superiority, as it produces responses more aligned with reference personalities compared to other approaches. Case studies for multi-agent communication highlight its benefits in enhancing opinion consistency within individual agents and fostering collaborative creativity among multiple agents in dialogue contexts, potentially benefiting human simulation and multi-agent cooperation. Additionally, human-agent interaction evaluations indicate that our personified models significantly enhance interactive experiences, underscoring the practical implications of our research. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# すべての周波数が等しくなるわけではない:時系列予測における周波数の動的融合に向けて
Not All Frequencies Are Created Equal:Towards a Dynamic Fusion of Frequencies in Time-Series Forecasting ( http://arxiv.org/abs/2407.12415v2 ) ライセンス: Link先を確認 | Xingyu Zhang, Siyu Zhao, Zeen Song, Huijie Guo, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, | (参考訳) 長期の時系列予測は、様々なアプリケーションにおいて長年の課題である。
時系列予測における中心的な問題は、メソッドが長期依存を表現的にキャプチャする必要があることである。
さらに、異なるシナリオに適用する場合、時系列予測手法は柔軟であるべきである。
フーリエ分析は、異なるシナリオで長期予測を達成するために、再利用可能なパターンと周期的なパターンを効果的にキャプチャする代替手段を提供するが、既存の手法では、高周波成分がノイズを表現し、時系列予測で破棄されるべきであると仮定することが多い。
しかし、一連のモチベーション実験を行い、特定の周波数の役割がシナリオによって異なることを発見した。
いくつかのシナリオでは、元の時系列から高周波成分を取り除くことで予測性能が向上する一方、他のシナリオでは、それらを取り除くことは予測性能にとって有害である。
したがって、特定のシナリオに応じて周波数を別々に扱う必要がある。
そこで本研究では,まず時系列予測問題をフーリエ領域の各周波数の転送関数の学習として再検討する。
さらに、各フーリエ成分を個別に予測し、異なる周波数の出力を動的に融合する周波数動的融合(FreDF)を設計する。
さらに,時系列予測の一般化能力に関する新たな知見を提供し,時系列予測の一般化境界を提案する。
すると、FreDFのバウンドが低いことを証明し、FreDFがより優れた一般化能力を持つことを示す。
複数のベンチマークデータセットとアブレーション研究で実施された大規模な実験は、FreDFの有効性を実証している。
Long-term time series forecasting is a long-standing challenge in various applications. A central issue in time series forecasting is that methods should expressively capture long-term dependency. Furthermore, time series forecasting methods should be flexible when applied to different scenarios. Although Fourier analysis offers an alternative to effectively capture reusable and periodic patterns to achieve long-term forecasting in different scenarios, existing methods often assume high-frequency components represent noise and should be discarded in time series forecasting. However, we conduct a series of motivation experiments and discover that the role of certain frequencies varies depending on the scenarios. In some scenarios, removing high-frequency components from the original time series can improve the forecasting performance, while in others scenarios, removing them is harmful to forecasting performance. Therefore, it is necessary to treat the frequencies differently according to specific scenarios. To achieve this, we first reformulate the time series forecasting problem as learning a transfer function of each frequency in the Fourier domain. Further, we design Frequency Dynamic Fusion (FreDF), which individually predicts each Fourier component, and dynamically fuses the output of different frequencies. Moreover, we provide a novel insight into the generalization ability of time series forecasting and propose the generalization bound of time series forecasting. Then we prove FreDF has a lower bound, indicating that FreDF has better generalization ability. Extensive experiments conducted on multiple benchmark datasets and ablation studies demonstrate the effectiveness of FreDF. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 検索エンジン, LLM, あるいはその両方 : 健康問題への回答のための情報検索戦略の評価
Search Engines, LLMs or Both? Evaluating Information Seeking Strategies for Answering Health Questions ( http://arxiv.org/abs/2407.12468v2 ) ライセンス: Link先を確認 | Marcos Fernández-Pichel, Juan C. Pichel, David E. Losada, | (参考訳) 検索エンジンは伝統的に情報検索の主要なツールとして機能してきた。
しかし、新しいLarge Language Models (LLM) は、最近、複数のタスクにおいて顕著な機能を示しており、特に、質問応答システムとしての採用が増えている。
LLMベースの対話システムと従来のウェブエンジンは今後も共存し続け、エンドユーザーを様々な形でサポートしていくことが期待されている。
しかし、正確な情報検索を容易にするために、両方のタイプのシステムの有効性についてより科学的に研究する必要がある。
本研究では,健康問題に答えることのメリットに焦点をあてる。
我々は、異なるWeb検索エンジン、LLM、検索強化(RAG)アプローチを比較し、広範囲にわたる研究を行った。
私たちの研究は興味深い結論を浮き彫りにしている。
例えば、健康問題に対処する可能性のあるWebページの品質は、ランク付けされたリストをさらに下回るにつれて低下しない。
しかし,本評価の結果,Web エンジンは健康問題に対する正しい回答を見出す上での LLM よりも精度が低いことがわかった。
一方、LSMは入力プロンプトに非常に敏感であり、RAGが高効率な情報探索手法をもたらすことも判明した。
Search engines have traditionally served as primary tools for information seeking. However, the new Large Language Models (LLMs) have recently demonstrated remarkable capabilities in multiple tasks and, specifically, their adoption as question answering systems is becoming increasingly prevalent. It is expected that LLM-based conversational systems and traditional web engines will continue to coexist in the future, supporting end users in various ways. But there is a need for more scientific research on the effectiveness of both types of systems in facilitating accurate information seeking. In this study, we focus on their merits in answering health questions. We conducted an extensive study comparing different web search engines, LLMs and retrieval-augmented (RAG) approaches. Our research reveals intriguing conclusions. For example, we observed that the quality of webpages potentially responding to a health question does not decline as we navigate further down the ranked lists. However, according to our evaluation, web engines are less accurate than LLMs in finding correct answers to health questions. On the other hand, LLMs are quite sensitive to the input prompts, and we also found out that RAG leads to highly effective information seeking methods. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# AIを利用したサッカー用ビデオアシスタント・レフェリーシステム(VARS)の実現に向けて
Towards AI-Powered Video Assistant Referee System (VARS) for Association Football ( http://arxiv.org/abs/2407.12483v2 ) ライセンス: Link先を確認 | Jan Held, Anthony Cioppa, Silvio Giancola, Abdullah Hamdi, Christel Devue, Bernard Ghanem, Marc Van Droogenbroeck, | (参考訳) 過去10年間で、サッカーの審判が使用する技術は大幅に改善され、決定の公平さと正確さが向上した。
この進歩は、バックステージレフェリーがピッチ上のインシデントを複数の視点からレビューできるイノベーションであるVAR(Video Assistant Referee)の実装において頂点に達した。
しかしながら、VARは現在、高価なインフラと世界中の審判の欠如のために、プロリーグに限られている。
本稿では,多視点ビデオ解析における最新の知見を活用する半自動ビデオアシスタント参照システム(VARS)を提案する。
VARSはサッカーファウルのマルチビュービデオデータセットである SoccerNet-MVFoul データセットに新たな最先端技術を設定する。
VARSは,50%のインスタンスでファウルのタイプを認識し,46%のケースで適切な制裁をすることで,サッカーネット-MVFoulデータセットの新たな最先端化を実現している。
最後に, ファールとそれに対応する重症度を分類し, VARSと比較した。
その結果,VARSが人間のパフォーマンスに到達し,プロとアマチュアのあらゆるレベルのサッカー審判を支援する可能性を強調した。
Over the past decade, the technology used by referees in football has improved substantially, enhancing the fairness and accuracy of decisions. This progress has culminated in the implementation of the Video Assistant Referee (VAR), an innovation that enables backstage referees to review incidents on the pitch from multiple points of view. However, the VAR is currently limited to professional leagues due to its expensive infrastructure and the lack of referees worldwide. In this paper, we present the semi-automated Video Assistant Referee System (VARS) that leverages the latest findings in multi-view video analysis. VARS sets a new state-of-the-art on the SoccerNet-MVFoul dataset, a multi-view video dataset of football fouls. Our VARS achieves a new state-of-the-art on the SoccerNet-MVFoul dataset by recognizing the type of foul in 50% of instances and the appropriate sanction in 46% of cases. Finally, we conducted a comparative study to investigate human performance in classifying fouls and their corresponding severity and compared these findings to our VARS. The results of our study highlight the potential of our VARS to reach human performance and support football refereeing across all levels of professional and amateur federations. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# ダウンストリームタスク間のロバストな自己教師付き学習のベンチマーク
Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks ( http://arxiv.org/abs/2407.12588v2 ) ライセンス: Link先を確認 | Antoni Kowalczuk, Jan Dubiński, Atiyeh Ashari Ghomi, Yi Sui, George Stein, Jiapeng Wu, Jesse C. Cresswell, Franziska Boenisch, Adam Dziedzic, | (参考訳) 大規模ビジョンモデルは、ダウンストリームタスクにおける前例のない性能と汎用性のために、多くのアプリケーションにおいて不可欠なものになっている。
しかし、これらの基礎モデルの堅牢性は、主に単一のタスク、すなわち画像分類のために研究されてきた。
セマンティックセグメンテーションや深さ推定といった他の一般的な視覚タスクの脆弱性はほとんど不明である。
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
どちらの場合も、現在の最先端の対人微調整技術は、分類のためにのみテストされ、他のタスクにおけるクリーンでロバストなパフォーマンスは著しく低下する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
私たちのコードは${github.com/layer6ai-labs/ssl-robustness}$で利用可能です。
Large-scale vision models have become integral in many applications due to their unprecedented performance and versatility across downstream tasks. However, the robustness of these foundation models has primarily been explored for a single task, namely image classification. The vulnerability of other common vision tasks, such as semantic segmentation and depth estimation, remains largely unknown. We present a comprehensive empirical evaluation of the adversarial robustness of self-supervised vision encoders across multiple downstream tasks. Our attacks operate in the encoder embedding space and at the downstream task output level. In both cases, current state-of-the-art adversarial fine-tuning techniques tested only for classification significantly degrade clean and robust performance on other tasks. Since the purpose of a foundation model is to cater to multiple applications at once, our findings reveal the need to enhance encoder robustness more broadly. Our code is available at ${github.com/layer6ai-labs/ssl-robustness}$. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# TransCAD:ポイントクラウドからのCADシーケンス推論のための階層変換器
TransCAD: A Hierarchical Transformer for CAD Sequence Inference from Point Clouds ( http://arxiv.org/abs/2407.12702v2 ) ライセンス: Link先を確認 | Elona Dupont, Kseniya Cherenkova, Dimitrios Mallis, Gleb Gusev, Anis Kacem, Djamila Aouada, | (参考訳) 物理物体の3次元スキャンによりCADモデルを推定する3次元リバースエンジニアリングは、多くの有望な実用的な応用を提供する研究方向である。
本稿では,ポイントクラウドからCADシーケンスを予測するエンドツーエンドトランスフォーマーアーキテクチャであるTransCADを提案する。
TransCADは階層的な学習戦略を用いてCADシーケンスの構造を利用する。
スケッチプリミティブパラメータを回帰するためにループリファインダーも導入されている。
DeepCADとFusion360データセットの厳密な実験は、TransCADが最先端の結果を達成することを示している。
結果解析はCADシーケンスの平均精度であるCADシーケンスの平均値を用いて,既存のメトリクスの限界に対処する。
3D reverse engineering, in which a CAD model is inferred given a 3D scan of a physical object, is a research direction that offers many promising practical applications. This paper proposes TransCAD, an end-to-end transformer-based architecture that predicts the CAD sequence from a point cloud. TransCAD leverages the structure of CAD sequences by using a hierarchical learning strategy. A loop refiner is also introduced to regress sketch primitive parameters. Rigorous experimentation on the DeepCAD and Fusion360 datasets show that TransCAD achieves state-of-the-art results. The result analysis is supported with a proposed metric for CAD sequence, the mean Average Precision of CAD Sequence, that addresses the limitations of existing metrics. | 翻訳日:2024-07-19 13:41:46 公開日:2024-07-18 |
# 強化学習技術によるゲノムの革新
Revolutionizing Genomics with Reinforcement Learning Techniques ( http://arxiv.org/abs/2302.13268v4 ) ライセンス: Link先を確認 | Mohsen Karami, Khadijeh, Jahanian, Roohallah Alizadehsani, Ahmadreza Argha, Iman Dehzangi, Juan M Gorriz, Yu-Dong Zhang, Min Yang, Hamid Alinejad-Rokny, | (参考訳) 近年、強化学習(Reinforcement Learning, RL)は、意思決定やゲノム学など、幅広い問題を解決する強力なツールとして出現している。
過去20年間の生ゲノムデータの指数的増加は手動解析の能力を超え、自動データ解析と処理への関心が高まっている。
RLアルゴリズムは、人間の監督を最小限にした経験から学ぶことができ、ゲノムデータ分析と解釈に適している。
RLを使用することの大きな利点の1つは、教師あり学習に必要なラベル付きトレーニングデータ収集に伴うコスト削減である。
ゲノミクスにおける機械学習(ML)の応用について多くの研究がなされているが、本調査は遺伝子制御ネットワーク(GRN)、ゲノム組立、配列アライメントなど、さまざまなゲノム研究分野におけるRLの利用に焦点を当てている。
本稿では,RLのゲノム学への応用に関する既存研究の技術的概要を概観し,これらのアプローチの強みと限界を明らかにする。
次に、RLが報酬関数の精度に大きく依存するため、より洗練された報酬関数の開発、RLと他の機械学習技術の統合、新しいゲノム研究分野へのRLの適用など、将来の探索にふさわしい研究の方向性について論じる。
最後に,本研究の成果を概説し,領域の現況とゲノム学におけるRLの将来展望を要約して結論を導いた。
In recent years, Reinforcement Learning (RL) has emerged as a powerful tool for solving a wide range of problems, including decision-making and genomics. The exponential growth of raw genomic data over the past two decades has exceeded the capacity of manual analysis, leading to a growing interest in automatic data analysis and processing. RL algorithms are capable of learning from experience with minimal human supervision, making them well-suited for genomic data analysis and interpretation. One of the key benefits of using RL is the reduced cost associated with collecting labeled training data, which is required for supervised learning. While there have been numerous studies examining the applications of Machine Learning (ML) in genomics, this survey focuses exclusively on the use of RL in various genomics research fields, including gene regulatory networks (GRNs), genome assembly, and sequence alignment. We present a comprehensive technical overview of existing studies on the application of RL in genomics, highlighting the strengths and limitations of these approaches. We then discuss potential research directions that are worthy of future exploration, including the development of more sophisticated reward functions as RL heavily depends on the accuracy of the reward function, the integration of RL with other machine learning techniques, and the application of RL to new and emerging areas in genomics research. Finally, we present our findings and conclude by summarizing the current state of the field and the future outlook for RL in genomics. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |
# Qwen2テクニカルレポート
Qwen2 Technical Report ( http://arxiv.org/abs/2407.10671v3 ) ライセンス: Link先を確認 | An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, Zhihao Fan, | (参考訳) 本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。
我々は、0.5から72億までのパラメータを包含し、高密度モデルとMixture-of-Expertsモデルを備えた、基礎的および命令調整型言語モデルの包括的スイートをリリースする。
Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超えており、言語理解、生成、多言語習熟、コーディング、数学、推論に関する様々なベンチマークにおいて、プロプライエタリなモデルと比較して競争力のある性能を示している。
フラッグシップモデルであるQwen2-72Bは、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで84.2、ベース言語モデルで82.4など、優れた性能を発揮した。
命令調整型であるQwen2-72B-InstructはMT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7に達した。
さらにQwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
コミュニティのイノベーションとアクセシビリティを促進するため、私たちは、Hugging FaceとModelScopeのQwen2モデルウェイトと、GitHubのサンプルコードを含む追加資料を公開しました。
これらのプラットフォームには、量子化、微調整、デプロイメントのためのリソースが含まれており、幅広いアプリケーションや研究の取り組みを容易にしている。
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face and ModelScope, and the supplementary materials including example code on GitHub. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |
# GPUによるHGNNトレーニングの特性と理解
Characterizing and Understanding HGNN Training on GPUs ( http://arxiv.org/abs/2407.11790v2 ) ライセンス: Link先を確認 | Dengke Han, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Ninghui Sun, | (参考訳) 不均一グラフデータに対する顕著な表現能力のため、ヘテロジニアスグラフニューラルネットワーク(HGNN)は、レコメンデーションシステムや医療分析など、多くの重要な現実世界領域で広く採用されている。
実践的な応用に先立ち、広範囲なトレーニングを通じて特定のタスクに適した最適なHGNNモデルパラメータを特定することは、時間とコストのかかるプロセスである。
HGNNトレーニングの効率を高めるためには、トレーニングプロセス内の実行セマンティクスとパターンを特徴づけて分析し、パフォーマンスボトルネックを特定することが不可欠である。
本研究では,シングルGPUとマルチGPU分散トレーニングを含む2つの主流HGNNトレーニングシナリオの詳細な定量化と分析を行う。
評価結果に基づいて,異なるHGNNトレーニングシナリオにおける性能ボトルネックとその根本原因を明らかにし,ソフトウェアとハードウェアの両方の観点から最適化ガイドラインを提供する。
Owing to their remarkable representation capabilities for heterogeneous graph data, Heterogeneous Graph Neural Networks (HGNNs) have been widely adopted in many critical real-world domains such as recommendation systems and medical analysis. Prior to their practical application, identifying the optimal HGNN model parameters tailored to specific tasks through extensive training is a time-consuming and costly process. To enhance the efficiency of HGNN training, it is essential to characterize and analyze the execution semantics and patterns within the training process to identify performance bottlenecks. In this study, we conduct an in-depth quantification and analysis of two mainstream HGNN training scenarios, including single-GPU and multi-GPU distributed training. Based on the characterization results, we disclose the performance bottlenecks and their underlying causes in different HGNN training scenarios and provide optimization guidelines from both software and hardware perspectives. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |
# 画像分類による自己監督型事前学習のベンチマーク
A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification ( http://arxiv.org/abs/2407.12210v2 ) ライセンス: Link先を確認 | Markus Marks, Manuel Knott, Neehar Kondapaneni, Elijah Cole, Thijs Defraeye, Fernando Perez-Cruz, Pietro Perona, | (参考訳) 自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
モデルは、プリテキストタスクを解くことで、データ構造やコンテキストについて学ぶことを余儀なくされます。
SSLによって、モデルは豊富で安価なラベル付きデータから学ぶことができ、ラベルが高価でアクセス不能なトレーニングモデルのコストを大幅に削減できる。
コンピュータビジョンでは、SSLは事前トレーニングや、教師付き転送、より小さなラベル付きデータセットでの少数ショット学習、および/または教師なしクラスタリングといったダウンストリームタスクとして広く使用されている。
残念ながら、すべてのダウンストリームタスクに対してSSLメソッドを評価し、学習した表現の質を客観的に測定することは不可能である。
代わりに、SSLメソッドは、細調整、線形探索、k-nearest neighbors(kNN)などのドメイン内評価プロトコルを用いて評価される。
しかし、これらの評価プロトコルが、データセット、メートル法、モデルアーキテクチャといった異なる条件下で、異なる下流タスクに対する事前訓練されたモデルの表現品質をどのように評価するかはよく分かっていない。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
我々の研究には、11の一般的なイメージデータセットと26のモデルが含まれており、それらは異なるSSLメソッドまたは異なるモデルバックボーンで事前トレーニングされた。
ドメイン内線形/kNN探索プロトコルは,平均してドメイン外性能の予測器として最適であることがわかった。
さらに、バッチ正規化の重要性について検討し、異なる種類のデータセットドメインシフトに対するロバストな相関性を評価する。
識別的自己管理手法と生成的自己管理手法の関係に関する仮定に挑戦し,その性能差の大部分は,モデルバックボーンの変更によって説明できることを示した。
Self-supervised learning (SSL) is a machine learning approach where the data itself provides supervision, eliminating the need for external labels. The model is forced to learn about the data structure or context by solving a pretext task. With SSL, models can learn from abundant and cheap unlabeled data, significantly reducing the cost of training models where labels are expensive or inaccessible. In Computer Vision, SSL is widely used as pre-training followed by a downstream task, such as supervised transfer, few-shot learning on smaller labeled data sets, and/or unsupervised clustering. Unfortunately, it is infeasible to evaluate SSL methods on all possible downstream tasks and objectively measure the quality of the learned representation. Instead, SSL methods are evaluated using in-domain evaluation protocols, such as fine-tuning, linear probing, and k-nearest neighbors (kNN). However, it is not well understood how well these evaluation protocols estimate the representation quality of a pre-trained model for different downstream tasks under different conditions, such as dataset, metric, and model architecture. We study how classification-based evaluation protocols for SSL correlate and how well they predict downstream performance on different dataset types. Our study includes eleven common image datasets and 26 models that were pre-trained with different SSL methods or have different model backbones. We find that in-domain linear/kNN probing protocols are, on average, the best general predictors for out-of-domain performance. We further investigate the importance of batch normalization and evaluate how robust correlations are for different kinds of dataset domain shifts. We challenge assumptions about the relationship between discriminative and generative self-supervised methods, finding that most of their performance differences can be explained by changes to model backbones. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |
# Cabin: 秘密のVM内で信頼できないプログラムを精査する
Cabin: Confining Untrusted Programs within Confidential VMs ( http://arxiv.org/abs/2407.12334v2 ) ライセンス: Link先を確認 | Benshan Mei, Saisai Xia, Wenhao Wang, Dongdai Lin, | (参考訳) Confidential Virtual Machines (CVM)はゲストOSのセキュアな環境を提供する。
しかし、CVMは大規模で脆弱なオペレーティングシステムカーネルを伴い、カーネルの弱点を悪用する攻撃を受けやすい。
ページテーブルの読み取り/書き込みアクセスに対する不正確な制御により、攻撃者は脆弱性を悪用できるようになった。
セキュリティ階層の欠如により、信頼できないアプリケーションとゲストOSの分離が不十分になり、カーネルは信頼できないプログラムからの直接の脅威を受けにくくなった。
本研究では、最新のAMD SEV-SNP技術を利用したゲストVM内での独立した実行フレームワークであるCabinを提案する。
Cabinは、制限されたプロセスとゲストOSの間にプロキシカーネルを導入することにより、信頼できないプロセスを低い仮想マシン特権レベル(VMPL)のユーザ空間に保護する。
さらに、脆弱なプログラムに対するVMPL特権の細かい制御と、攻撃面を最小限に抑えるためのプロキシカーネルに基づく実行保護機構を提案する。
非同期転送機構と匿名メモリ管理を導入し、性能への影響を低減する。
評価結果から,CabinフレームワークはNbenchベンチマークとWolfSSLベンチマークにおいて,わずかにオーバーヘッド(平均5%)を発生していることがわかった。
Confidential computing safeguards sensitive computations from untrusted clouds, with Confidential Virtual Machines (CVMs) providing a secure environment for guest OS. However, CVMs often come with large and vulnerable operating system kernels, making them susceptible to attacks exploiting kernel weaknesses. The imprecise control over the read/write access in the page table has allowed attackers to exploit vulnerabilities. The lack of security hierarchy leads to insufficient separation between untrusted applications and guest OS, making the kernel susceptible to direct threats from untrusted programs. This study proposes Cabin, an isolated execution framework within guest VM utilizing the latest AMD SEV-SNP technology. Cabin shields untrusted processes to the user space of a lower virtual machine privilege level (VMPL) by introducing a proxy-kernel between the confined processes and the guest OS. Furthermore, we propose execution protection mechanisms based on fine-gained control of VMPL privilege for vulnerable programs and the proxy-kernel to minimize the attack surface. We introduce asynchronous forwarding mechanism and anonymous memory management to reduce the performance impact. The evaluation results show that the Cabin framework incurs a modest overhead (5% on average) on Nbench and WolfSSL benchmarks. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |
# SlimFlow: より小さな1ステップ拡散モデル
SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow ( http://arxiv.org/abs/2407.12718v2 ) ライセンス: Link先を確認 | Yuanzhi Zhu, Xingchao Liu, Qiang Liu, | (参考訳) 拡散モデルは高品質な生成では優れているが、反復サンプリングによる推論が遅い。
最近の手法は拡散モデルをワンステップジェネレータに変換することに成功したが、モデルサイズ削減を無視し、計算制約のあるシナリオで適用性を制限する。
本稿では,推論ステップとモデルサイズの共同圧縮を探索し,強力な整流フローの枠組みに基づく小型かつ効率的な1段階拡散モデルの構築を目的とする。
修正フローフレームワークは、リフローと蒸留という2つの操作を使用して、一段階の生成モデルを訓練する。
原型フレームワークと比較して,モデルサイズを絞った場合,(1)大学生と小学生のリフローにおける初期化ミスマッチ,(2)小学生モデルにおけるナイーブ蒸留の過小評価,という2つの新たな課題が生じる。
これらの問題を克服するために、私たちはSlimFlowフレームワークを構成するAnnealing ReflowとFlow-Guided Distillationを提案します。
CIFAR10の1段階拡散モデル(FID=6.47, 19.4Mパラメータ)よりも優れたFIDと15.7Mパラメータのワンステップ拡散モデルをトレーニングした。
ImageNet 64$\times$64 と FFHQ 64$\times$64 では,より大規模なモデルに匹敵する小さな1ステップ拡散モデルが得られる。
Diffusion models excel in high-quality generation but suffer from slow inference due to iterative sampling. While recent methods have successfully transformed diffusion models into one-step generators, they neglect model size reduction, limiting their applicability in compute-constrained scenarios. This paper aims to develop small, efficient one-step diffusion models based on the powerful rectified flow framework, by exploring joint compression of inference steps and model size. The rectified flow framework trains one-step generative models using two operations, reflow and distillation. Compared with the original framework, squeezing the model size brings two new challenges: (1) the initialization mismatch between large teachers and small students during reflow; (2) the underperformance of naive distillation on small student models. To overcome these issues, we propose Annealing Reflow and Flow-Guided Distillation, which together comprise our SlimFlow framework. With our novel framework, we train a one-step diffusion model with an FID of 5.02 and 15.7M parameters, outperforming the previous state-of-the-art one-step diffusion model (FID=6.47, 19.4M parameters) on CIFAR10. On ImageNet 64$\times$64 and FFHQ 64$\times$64, our method yields small one-step diffusion models that are comparable to larger models, showcasing the effectiveness of our method in creating compact, efficient one-step diffusion models. | 翻訳日:2024-07-19 11:38:46 公開日:2024-07-18 |