このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240710となっている論文です。

PDF登録状況(公開日: 20240710)

TitleAuthorsAbstract論文公表日・翻訳日
# カスタム野生生物データセットの分類のための深層学習モデルにおける伝達学習の評価 : YOLOv8は他のアーキテクチャを乗り越えられるか?

Evaluating Transfer Learning in Deep Learning Models for Classification on a Custom Wildlife Dataset: Can YOLOv8 Surpass Other Architectures? ( http://arxiv.org/abs/2408.00002v1 )

ライセンス: Link先を確認
Subek Sharma, Sisir Dhakal, Mansi Bhavsar, (参考訳) 生物多様性は生態系のバランスを維持する上で重要な役割を担っている。 しかし、密猟と意図しない人間の活動は多くの種の個体数の減少に寄与する。 したがって、これらの絶滅危惧種の保全には活発なモニタリングが必要である。 現在の人間主導の監視技術は、エラーを起こしやすく、労働集約的である。 そこで本研究では,絶滅危惧種のモニタリングプロセスの自動化を支援する,畳み込みニューラルネットワーク(CNN)や伝達学習などのディープラーニング手法の適用について検討する。 そのため、iNaturalistやZooChatといった信頼できるオンラインデータベースを利用したカスタムデータセットを作成します。 ユースケースに最適なモデルを選択するために、DenseNet、ResNet、VGGNet、YOLOv8といったさまざまなアーキテクチャのパフォーマンスを、カスタムの野生生物データセットで比較します。 転送学習は、トレーニング済みの重みを凍結し、出力層のみをデータセット用に設計されたカスタムで完全に接続されたレイヤに置き換えることで、トレーニング時間を短縮する。 その結果, YOLOv8は, トレーニング精度97.39%, F1スコア96.50%を達成し, 他のモデルを上回る性能を示した。 ヨロブ8を保護活動に組み込むことで、野生生物のモニタリングの精度と効率が向上し、絶滅危惧種が世界規模で監視・保護されているかが変わる可能性が示唆された。

Biodiversity plays a crucial role in maintaining the balance of the ecosystem. However, poaching and unintentional human activities contribute to the decline in the population of many species. Hence, active monitoring is required to preserve these endangered species. Current human-led monitoring techniques are prone to errors and are labor-intensive. Therefore, we study the application of deep learning methods like Convolutional Neural Networks (CNNs) and transfer learning, which can aid in automating the process of monitoring endangered species. For this, we create our custom dataset utilizing trustworthy online databases like iNaturalist and ZooChat. To choose the best model for our use case, we compare the performance of different architectures like DenseNet, ResNet, VGGNet, and YOLOv8 on the custom wildlife dataset. Transfer learning reduces training time by freezing the pre-trained weights and replacing only the output layer with custom, fully connected layers designed for our dataset. Our results indicate that YOLOv8 performs better, achieving a training accuracy of 97.39 % and an F1 score of 96.50 %, surpassing other models. Our findings suggest that integrating YOLOv8 into conservation efforts could revolutionize wildlife monitoring with its high accuracy and efficiency, potentially transforming how endangered species are monitored and protected worldwide.
翻訳日:2024-08-19 05:35:40 公開日:2024-07-10
# The Voice: Lessons on Trustworthy Conversational Agents from "Dune"

The Voice: Lessons on Trustworthy Conversational Agents from "Dune" ( http://arxiv.org/abs/2407.18928v1 )

ライセンス: Link先を確認
Philip Feldman, (参考訳) 信頼できない会話エージェントの可能性は、隠蔽的な社会的操作に対する重大な脅威を示す。 フランク・ハーバート(Frank Herbert)の「Dune」からインスピレーションを得て、ベネ・ゲッサート・シスターフッド(Bene Gesserit Sisterhood)は、人の影響力、操作、制御にVoiceを使用する。 すでにこれらのモデルでは、テキスト、画像、音声、そして最新のビデオ間のコミュニケーションを操作できる。 トレーニングやデプロイの適度な手段を持った組織でも,急速に手頃な価格になってきています。 悪質な俳優が雇用すれば、世論の形成や不協和を招き、企業から政府まで組織を弱体化させる強力なツールになる恐れがある。 研究者や開発者として、このような兵器化の可能性を認識し、これらの新たな社会技術操作に対する予防、検出、防衛戦略を探求することが不可欠である。

The potential for untrustworthy conversational agents presents a significant threat for covert social manipulation. Taking inspiration from Frank Herbert's "Dune", where the Bene Gesserit Sisterhood uses the Voice for influence, manipulation, and control of people, we explore how generative AI provides a way to implement individualized influence at industrial scales. Already, these models can manipulate communication across text, image, speech, and most recently video. They are rapidly becoming affordable enough for any organization of even moderate means to train and deploy. If employed by malicious actors, they risk becoming powerful tools for shaping public opinion, sowing discord, and undermining organizations from companies to governments. As researchers and developers, it is crucial to recognize the potential for such weaponization and to explore strategies for prevention, detection, and defense against these emerging forms of sociotechnical manipulation.
翻訳日:2024-08-05 01:16:13 公開日:2024-07-10
# THEA-Code:DNA保存のためのオートエンコーダベースのIDS訂正コード

THEA-Code: an Autoencoder-Based IDS-correcting Code for DNA Storage ( http://arxiv.org/abs/2407.18929v1 )

ライセンス: Link先を確認
Alan J. X. Guo, Mengyi Wei, Yufan Dai, Yali Wei, Pengchen Zhang, (参考訳) 挿入、削除、置換(IDS)補正符号は、最近出現したDNA保存の大幅な進歩により、注目を集めている。 それにもかかわらず、IDS訂正符号における最適解の追求は、理論と工学の両方の観点から関心を惹きつける、オープンな課題である。 この研究はTheA-codeという先駆的なアプローチを導入している。 提案手法は、エンド・ツー・エンドのオートエンコーダを統合符号化および復号処理に利用するというヒューリスティックな考え方に従う。 自動エンコーダをIDS訂正コードとしてデプロイする際の課題を解決するため,識別可能なIDSチャネル,コードワード上のエントロピー制約,ソースシーケンスの補助的再構築など,革新的な手法を提案する。 これらの戦略は、オートエンコーダの収束の成功に寄与し、深い学習ベースのIDS補正コードと予測可能なパフォーマンスをもたらす。 特に、TheA-Codeは、IDS修正ドメインにおける従来のコーディングフレームワークとは独立して、ディープラーニングベースのコードの最初の例である。 アブレーション研究を含む総合的な実験は、詳細な分析を行い、TheA-Codeの有効性を確認します。

The insertion, deletion, substitution (IDS) correcting code has garnered increased attention due to significant advancements in DNA storage that emerged recently. Despite this, the pursuit of optimal solutions in IDS-correcting codes remains an open challenge, drawing interest from both theoretical and engineering perspectives. This work introduces a pioneering approach named THEA-code. The proposed method follows a heuristic idea of employing an end-to-end autoencoder for the integrated encoding and decoding processes. To address the challenges associated with deploying an autoencoder as an IDS-correcting code, we propose innovative techniques, including the differentiable IDS channel, the entropy constraint on the codeword, and the auxiliary reconstruction of the source sequence. These strategies contribute to the successful convergence of the autoencoder, resulting in a deep learning-based IDS-correcting code with commendable performance. Notably, THEA-Code represents the first instance of a deep learning-based code that is independent of conventional coding frameworks in the IDS-correcting domain. Comprehensive experiments, including an ablation study, provide a detailed analysis and affirm the effectiveness of THEA-Code.
翻訳日:2024-08-05 01:16:13 公開日:2024-07-10
# 音声認識のためのデータ駆動層ワイドプルーニングに基づく動的エンコーダサイズ

Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition ( http://arxiv.org/abs/2407.18930v1 )

ライセンス: Link先を確認
Jingjing Xu, Wei Zhou, Zijian Yang, Eugen Beck, Ralf Schlueter, (参考訳) バリアリングサイズモデルは、異なるハードウェアおよび/またはメモリやレイテンシなどのアプリケーション制約下でASRシステムをデプロイするためにしばしば必要とされる。 異なるサイズの個々のモデルに対する冗長なトレーニングや最適化を避けるため、動的エンコーダサイズアプローチを提案し、1つのスーパーネット内で複数のパフォーマンスモデルをスクラッチからトレーニングする。 様々な大きさのこれらのサブネットは、スーパーネットから階層的に切断され、完全なパラメータ共有が楽しめる。 スコアベースプルーニングとスーパーネットトレーニングを組み合わせることで、資源集約探索を回避し、データ駆動方式で最適なサブネットを自動的に選択する、Simple-Top-kとIterative-Zero-Outの2つの新しい手法を提案する。 Librispeech と TED-Lium-v2 コーパスの両方で CTC を用いた実験により,各サイズカテゴリの個別訓練モデルとして,本手法がオンパー性能を達成できることが判明した。 また、我々のアプローチは、フルサイズのスーパーネットに対して、一貫して小さなパフォーマンス改善をもたらします。

Varying-size models are often required to deploy ASR systems under different hardware and/or application constraints such as memory and latency. To avoid redundant training and optimization efforts for individual models of different sizes, we present the dynamic encoder size approach, which jointly trains multiple performant models within one supernet from scratch. These subnets of various sizes are layer-wise pruned from the supernet, and thus, enjoy full parameter sharing. By combining score-based pruning with supernet training, we propose two novel methods, Simple-Top-k and Iterative-Zero-Out, to automatically select the best-performing subnets in a data-driven manner, avoiding resource-intensive search efforts. Our experiments using CTC on both Librispeech and TED-LIUM-v2 corpora show that our methods can achieve on-par performance as individually trained models of each size category. Also, our approach consistently brings small performance improvements for the full-size supernet.
翻訳日:2024-08-05 01:16:13 公開日:2024-07-10
# より現実的:LSMエージェントと個人プロファイルを用いた旅行日記生成

Be More Real: Travel Diary Generation Using LLM Agents and Individual Profiles ( http://arxiv.org/abs/2407.18932v1 )

ライセンス: Link先を確認
Xuchuan Li, Fei Huang, Jianrong Lv, Zhixiong Xiao, Guolong Li, Yang Yue, (参考訳) 人間の移動性は交通渋滞、エネルギー消費、公衆衛生といった社会的問題と密接に関連している。 近年,LLMが個人の移動行動の違いを理解し,現実の文脈に適合した現実的な軌跡を生成することが課題となっている。 本研究は,LLMエージェントベースフレームワーク(MobAgent)の理解に基づくモビリティパターン抽出と推論に基づく軌道生成という,異なる個人プロファイルを考慮した都市規模での実際の走行日誌生成を可能にする2つのフェーズを構成することで,この問題に対処する。 MobAgentは、特定のモビリティ傾向と属性の影響の背後にある理由を抽出し、信頼性のあるパターンを提供する; コンテキスト要因とモビリティの基本的な動機との関係を推測する; そしてパターンと再帰的推論プロセスに基づいて、MobAgentは最終的に、個人差と現実の制約の両方を反映した、より本物でパーソナライズされたモビリティを生成する。 当フレームワークを0.2万回の旅行調査データで検証し,個人化された正確な旅行日記を作成する上での有効性を実証した。 本研究は、実世界の移動データを通して、人間の移動性に関する詳細かつ洗練された理解を提供するLLMの能力を強調した。

Human mobility is inextricably linked to social issues such as traffic congestion, energy consumption, and public health; however, privacy concerns restrict access to mobility data. Recently, research have utilized Large Language Models (LLMs) for human mobility generation, in which the challenge is how LLMs can understand individuals' mobility behavioral differences to generate realistic trajectories conforming to real world contexts. This study handles this problem by presenting an LLM agent-based framework (MobAgent) composing two phases: understanding-based mobility pattern extraction and reasoning-based trajectory generation, which enables generate more real travel diaries at urban scale, considering different individual profiles. MobAgent extracts reasons behind specific mobility trendiness and attribute influences to provide reliable patterns; infers the relationships between contextual factors and underlying motivations of mobility; and based on the patterns and the recursive reasoning process, MobAgent finally generates more authentic and personalized mobilities that reflect both individual differences and real-world constraints. We validate our framework with 0.2 million travel survey data, demonstrating its effectiveness in producing personalized and accurate travel diaries. This study highlights the capacity of LLMs to provide detailed and sophisticated understanding of human mobility through the real-world mobility data.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# カルナタカ図書館におけるAI技術の認識と採用

Awareness and Adoption of AI Technologies in the Libraries of Karnataka ( http://arxiv.org/abs/2407.18933v1 )

ライセンス: Link先を確認
Felcy D'Souza, (参考訳) 本研究では, 性別, 年齢, 学歴, 職業経験などの人口統計学的変数に基づいて, カルナタカの応答型図書館における人工知能(AI)技術の認識と導入について検討する。 本研究は,カルナタカの書誌専門家を対象に,AI技術の意識と採用を評価するための調査手法を用いた。 本研究は, 工学系大学, 医学系大学, 学位大学など, 様々な機関にまたがる図書館の専門家を対象とする, 多様な集団から120名のサンプルを抽出するために, 階層化されたランダムサンプリング法を用いて行った。 Chi-squareテストはデータ分析に使用された。 この研究は、性別の要因に基づくAI技術の認識と採用に統計的に有意な違いがあることを明らかにした。 一方、AI技術の認知度と採用度の間には、年齢、学術的ランク付け、専門的経験などの要因に基づく有意な関係は存在しない。 AIを利用したプラジャリズム検出、文法チェック、ChatGPTは、回答者の中で最も広く使われているAI技術である。 回答者は、AIがライブラリーをサポートし、置き換えない、という認識を持っている。

This study aims to determine the awareness and adoption of Artificial Intelligence (AI) technologies in the respondent libraries of Karnataka based on demographic variables such as gender, age, academic status, and professional experience. This study employed a survey research method to evaluate the awareness and adoption of AI technologies among the respondent library professionals in Karnataka. The study employed a stratified random sampling method to select a sample of 120 respondents from a diverse population, encompassing library professionals across multiple institution types including engineering colleges, medical colleges, and degree colleges. The Chi-square test was used to analyze the data. The study revealed that there is a statistically significant difference in the awareness and adoption of AI technologies based on the factor of gender. Whereas there no significant relationship exists between the degree of awareness and adoption of AI technologies based on factors such as age, academic ranking, and professional experience. AI-powered plagiarism detection, grammar checking, and ChatGPT are the most popularly employed AI technologies among the respondents. The respondents are of the perception that AI will support Librarians and not replace them.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# メタバースにおけるディジタル双生児のための3次元キャラクタアニメーションシステムの設計

The Design of a 3D Character Animation System for Digital Twins in the Metaverse ( http://arxiv.org/abs/2407.18934v1 )

ライセンス: Link先を確認
Senem Tanberk, Dilek Bilgin Tukel, Kadir Acar, (参考訳) 産業4.0の文脈では、産業資産を視覚化し分析するための強力なツールとして、デジタルツイン技術が急速に進歩してきた。 この技術は、製造、セキュリティ、輸送、ゲームなど様々な分野の研究者からかなりの関心を集めている。 メタバースはこれらの領域において重要なイネーブラーとして現れており、物理資産の仮想レプリカを作成するための様々な技術の統合を容易にしている。 アバターと呼ばれる3Dキャラクタアニメーションの利用はメタバースの実装に不可欠である。 伝統的に、高価なモーションキャプチャ技術が現実的なアバターシステムを作るのに使われている。 この進化するランドスケープのニーズを満たすため、私たちは、より手頃な代替手段として、資産デジタル双生児に適したモジュラーフレームワークを開発しました。 このフレームワークは、個々のシステムコンポーネントを独立してカスタマイズするための柔軟性を提供します。 提案手法の検証には,英語のペグソリティアゲームを用いて,幅優先探索アルゴリズムを用いて解木を生成する。 その結果、モーションプリミティブを利用したデータ駆動型3Dアニメーションシステムの質的および定量的な結果が得られた。 提示された方法論とインフラストラクチャは適応可能でモジュール化されており、さまざまなビジネスコンテキストにまたがる資産デジタルツインに適用できる。 このケーススタディは、パイロット応用の基礎を築き、教育、健康、産業用4.0の材料開発用に調整することができる。

In the context of Industry 4.0, digital twin technology has emerged with rapid advancements as a powerful tool for visualizing and analyzing industrial assets. This technology has attracted considerable interest from researchers across diverse domains such as manufacturing, security, transportation, and gaming. The metaverse has emerged as a significant enabler in these domains, facilitating the integration of various technologies to create virtual replicas of physical assets. The utilization of 3D character animation, often referred to as avatars, is crucial for implementing the metaverse. Traditionally, costly motion capture technologies are employed for creating a realistic avatar system. To meet the needs of this evolving landscape, we have developed a modular framework tailored for asset digital twins as a more affordable alternative. This framework offers flexibility for the independent customization of individual system components. To validate our approach, we employ the English peg solitaire game as a use case, generating a solution tree using the breadth-first search algorithm. The results encompass both qualitative and quantitative findings of a data-driven 3D animation system utilizing motion primitives. The presented methodologies and infrastructure are adaptable and modular, making them applicable to asset digital twins across diverse business contexts. This case study lays the groundwork for pilot applications and can be tailored for education, health, or Industry 4.0 material development.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# 不均衡な実験触媒発見を目的とした機械学習と説明可能なAIフレームワーク

A Machine Learning and Explainable AI Framework Tailored for Unbalanced Experimental Catalyst Discovery ( http://arxiv.org/abs/2407.18935v1 )

ライセンス: Link先を確認
Parastoo Semnani, Mihail Bogojeski, Florian Bley, Zizheng Zhang, Qiong Wu, Thomas Kneib, Jan Herrmann, Christoph Weisser, Florina Patcas, Klaus-Robert Müller, (参考訳) 触媒設計における機械学習(ML)の適用の成功は、新しい組成への効果的な一般化を保証するために、高品質で多様なデータに依存し、触媒発見に寄与する。 しかし、複雑な相互作用のため、触媒設計は長年試行錯誤に依存してきた。 この分野でのMLの台頭にもかかわらず、ほとんどの取り組みは、そのような実験データによってもたらされる課題に対処することに重点を置いていない。 これらの課題に対処するために、さまざまな成分の触媒収率を正確に分類し、個々の成分の寄与を識別する、堅牢な機械学習および説明可能なAI(XAI)フレームワークを導入する。 このフレームワークは、触媒データの不足と不均衡を処理するために設計された一連のMLプラクティスを組み合わせる。 酸化メタンカップリングにおける各種触媒成分の収率の分類にフレームワークを適用し,木系モデル,ロジスティック回帰,サポートベクトルマシン,ニューラルネットワークなどのMLモデルの性能評価に利用した。 これらの実験により、我々のフレームワークで使用される手法は、評価されたモデルのうちの1つを除く全てのモデルの性能を大幅に向上させることを示した。 さらに,XAI法を用いて触媒性能を予測する上で最も重要な特徴を同定することにより,各MLモデルの意思決定過程を解析する。 分析の結果,XAI法は,高収率触媒に特異的に寄与する重要な成分を同定した。 これらの知見は化学直観や既存の文献と一致し、その妥当性を高めた。 このような知見は, 新規触媒の開発・同定において, 優れた性能を有する化学者を支援することができると信じている。

The successful application of machine learning (ML) in catalyst design relies on high-quality and diverse data to ensure effective generalization to novel compositions, thereby aiding in catalyst discovery. However, due to complex interactions, catalyst design has long relied on trial-and-error, a costly and labor-intensive process leading to scarce data that is heavily biased towards undesired, low-yield catalysts. Despite the rise of ML in this field, most efforts have not focused on dealing with the challenges presented by such experimental data. To address these challenges, we introduce a robust machine learning and explainable AI (XAI) framework to accurately classify the catalytic yield of various compositions and identify the contributions of individual components. This framework combines a series of ML practices designed to handle the scarcity and imbalance of catalyst data. We apply the framework to classify the yield of various catalyst compositions in oxidative methane coupling, and use it to evaluate the performance of a range of ML models: tree-based models, logistic regression, support vector machines, and neural networks. These experiments demonstrate that the methods used in our framework lead to a significant improvement in the performance of all but one of the evaluated models. Additionally, the decision-making process of each ML model is analyzed by identifying the most important features for predicting catalyst performance using XAI methods. Our analysis found that XAI methods, providing class-aware explanations, such as Layer-wise Relevance Propagation, identified key components that contribute specifically to high-yield catalysts. These findings align with chemical intuition and existing literature, reinforcing their validity. We believe that such insights can assist chemists in the development and identification of novel catalysts with superior performance.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# Recommender Systemsの進歩:データ、アルゴリズム、評価に基づく包括的分析

Advancements in Recommender Systems: A Comprehensive Analysis Based on Data, Algorithms, and Evaluation ( http://arxiv.org/abs/2407.18937v1 )

ライセンス: Link先を確認
Xin Ma, Mingyue Li, Xuguang Liu, (参考訳) Web of Science、ScienceDirect、SpringerLink、arXiv、Google Scholarデータベースから収集された286の研究論文を使用して、RSの現在の課題と将来の発展をレビューし、要約する体系的なレビュー手法が採用された。 RSには、アルゴリズム的改善、ドメインアプリケーション、ユーザの振る舞いと認識、データ処理とモデリング、社会的影響と倫理の5つの主要な研究トピックが含まれていることが判明した。 コラボレーションフィルタリングとハイブリッドレコメンデーション技術が主流である。 RSの性能は、4種類の8つのデータ問題、2種類の12のアルゴリズム問題、2つの評価問題で制約されている。 特に、コールドスタート、データスパーシリティ、データ中毒といったデータ関連の問題、関心の漂流、デバイスとクラウドのコラボレーション、非因果的駆動、マルチタスクの競合といったアルゴリズム上の問題、オフラインデータリークやマルチオブジェクトのバランシングといった評価上の問題に顕著な影響がある。 マルチモーダルモデリングのための生理的信号の融合、ユーザ情報行動によるデータ中毒に対する防御、社会実験による生成的推薦の評価、デバイスクラウドリソースのスケジューリングのための微調整済みの大規模モデルの評価、深層強化学習による因果推論の強化、確率分布に基づくマルチタスクモデルのトレーニング、時間的データセット分割の利用、全ライフサイクルにわたる推奨目的の評価は、上記のような顕著な課題に対処し、RSのパワーと価値を解き放つための実現可能なソリューションであり、今後の研究は、主に主要な国際データベースに基づいて行われる。

Using 286 research papers collected from Web of Science, ScienceDirect, SpringerLink, arXiv, and Google Scholar databases, a systematic review methodology was adopted to review and summarize the current challenges and potential future developments in data, algorithms, and evaluation aspects of RSs. It was found that RSs involve five major research topics, namely algorithmic improvement, domain applications, user behavior & cognition, data processing & modeling, and social impact & ethics. Collaborative filtering and hybrid recommendation techniques are mainstream. The performance of RSs is jointly limited by four types of eight data issues, two types of twelve algorithmic issues, and two evaluation issues. Notably, data-related issues such as cold start, data sparsity, and data poisoning, algorithmic issues like interest drift, device-cloud collaboration, non-causal driven, and multitask conflicts, along with evaluation issues such as offline data leakage and multi-objective balancing, have prominent impacts. Fusing physiological signals for multimodal modeling, defending against data poisoning through user information behavior, evaluating generative recommendations via social experiments, fine-tuning pre-trained large models to schedule device-cloud resource, enhancing causal inference with deep reinforcement learning, training multi-task models based on probability distributions, using cross-temporal dataset partitioning, and evaluating recommendation objectives across the full lifecycle are feasible solutions to address the aforementioned prominent challenges and unlock the power and value of RSs.The collected literature is mainly based on major international databases, and future research will further expand upon it.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# 多段階集団評価における認知バイアスの緩和

Mitigating Cognitive Biases in Multi-Criteria Crowd Assessment ( http://arxiv.org/abs/2407.18938v1 )

ライセンス: Link先を確認
Shun Ito, Hisashi Kashima, (参考訳) クラウドソーシングは、大規模な品質評価を行うための簡単で安価で高速な方法であるが、人間の判断は認知バイアスの影響を受けやすいため、信頼性は低下する。 本研究では,クラウドソーシングにおけるマルチ基準評価に関連する認知バイアスに着目し,複数の異なる基準で目標を同時に評価するクラウドワーカーは,いくつかの基準の優位性や評価対象のグローバルな印象による偏りのある応答を提供する可能性がある。 このようなバイアスを識別・緩和するために、まずクラウドソーシングを用いて評価データセットを作成し、基準間認知バイアスがクラウドワーカーの反応に与える影響を調査する。 そこで本稿では,評価基準間の関係を考慮に入れたベイズ意見集約モデルの2つの具体的なモデル構造を提案する。 実験の結果,提案した構造を集約モデルに組み込むことで認知バイアスを低減し,より正確な集計結果が得られることがわかった。

Crowdsourcing is an easy, cheap, and fast way to perform large scale quality assessment; however, human judgments are often influenced by cognitive biases, which lowers their credibility. In this study, we focus on cognitive biases associated with a multi-criteria assessment in crowdsourcing; crowdworkers who rate targets with multiple different criteria simultaneously may provide biased responses due to prominence of some criteria or global impressions of the evaluation targets. To identify and mitigate such biases, we first create evaluation datasets using crowdsourcing and investigate the effect of inter-criteria cognitive biases on crowdworker responses. Then, we propose two specific model structures for Bayesian opinion aggregation models that consider inter-criteria relations. Our experiments show that incorporating our proposed structures into the aggregation model is effective to reduce the cognitive biases and help obtain more accurate aggregation results.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# 医学生のためのAI能力の促進:フレームワーク、プログラム、ツールのスコープレビュー

Promoting AI Competencies for Medical Students: A Scoping Review on Frameworks, Programs, and Tools ( http://arxiv.org/abs/2407.18939v1 )

ライセンス: Link先を確認
Yingbo Ma, Yukyeong Song, Jeremy A. Balch, Yuanfang Ren, Divya Vellanki, Zhenhong Hu, Meghan Brennan, Suraj Kolla, Ziyuan Guan, Brooke Armfield, Tezcan Ozrazgat-Baslanti, Parisa Rashidi, Tyler J. Loftus, Azra Bihorac, Benjamin Shickel, (参考訳) より多くの臨床ワークフローが人工知能(AI)によって強化され続けていくにつれ、医師間のAIリテラシーは、安全で倫理的なAI対応の患者医療を保証するための重要な要件となる。 医療におけるAIの重要性の高まりにもかかわらず、それが伝統的な、しばしば過負荷の医療カリキュラムに採用されている範囲は、現在不明である。 2016年1月から2024年6月にかけて発行された1,699の論文のスコーピングレビューにおいて、ガイドフレームワークを提案する18の研究と、AIを医学教育に統合することを中心とした現実世界の教育を文書化する11の研究を特定した。 包括的ガイドラインは、医学生の興味やキャリアトラジェクトリに適合するために、より深い臨床関係とパーソナライゼーションを必要とすることが判明した。 現在の取り組みは、データサイエンスやコーディングといった技術的なトピックに対するAI評価と倫理を強調しながら、教育ガイドラインの相違を強調している。 さらに、医学生のAIリテラシーを定義するためのガイドラインの欠如、証明された臨床的価値の欠如、資格のあるインストラクターの不足など、AIトレーニングを医療教育プログラムに統合することに関わるいくつかの課題を特定した。 そこで我々は,医学生の能力を定義するためのAIリテラシーフレームワークを提案する。 関連性がありパーソナライズされたAI教育を優先するために、我々は、基礎、実践、実験、倫理の4つの側面に分類し、医学教育の前臨床研究段階、臨床研究段階に合わせた学習目標を定めている。 このレビューは、AI能力のある医療従事者を構築するための実践的で関連する教育戦略を開発するためのロードマップを提供する。

As more clinical workflows continue to be augmented by artificial intelligence (AI), AI literacy among physicians will become a critical requirement for ensuring safe and ethical AI-enabled patient care. Despite the evolving importance of AI in healthcare, the extent to which it has been adopted into traditional and often-overloaded medical curricula is currently unknown. In a scoping review of 1,699 articles published between January 2016 and June 2024, we identified 18 studies which propose guiding frameworks, and 11 studies documenting real-world instruction, centered around the integration of AI into medical education. We found that comprehensive guidelines will require greater clinical relevance and personalization to suit medical student interests and career trajectories. Current efforts highlight discrepancies in the teaching guidelines, emphasizing AI evaluation and ethics over technical topics such as data science and coding. Additionally, we identified several challenges associated with integrating AI training into the medical education program, including a lack of guidelines to define medical students AI literacy, a perceived lack of proven clinical value, and a scarcity of qualified instructors. With this knowledge, we propose an AI literacy framework to define competencies for medical students. To prioritize relevant and personalized AI education, we categorize literacy into four dimensions: Foundational, Practical, Experimental, and Ethical, with tailored learning objectives to the pre-clinical, clinical, and clinical research stages of medical education. This review provides a road map for developing practical and relevant education strategies for building an AI-competent healthcare workforce.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# LitSearch:科学文献検索のための検索ベンチマーク

LitSearch: A Retrieval Benchmark for Scientific Literature Search ( http://arxiv.org/abs/2407.18940v1 )

ライセンス: Link先を確認
Anirudh Ajith, Mengzhou Xia, Alexis Chevalier, Tanya Goyal, Danqi Chen, Tianyu Gao, (参考訳) 現代検索エンジンや検索システムにおいて,「生成した要約における一貫性の評価について,どこで研究できるのか?」といった文献検索の課題を提起する。 これらの質問は、しばしば研究概念の深い理解と記事全体を解釈する能力を必要とする。 本稿では,最近のMLおよびNLP論文に関する597のリアルな文献検索クエリからなる検索ベンチマークLitSearchを紹介する。 LitSearch は(1) GPT-4 で生成した質問を研究論文からのインライン引用を含む段落と,(2) 著者の手書きによる最近の論文に関する質問の組み合わせを用いて構築されている。 LitSearchのすべての質問は、高品質を保証するために専門家によって手作業で検査または編集された。 我々は、最先端の検索モデルを広範囲にベンチマークし、2つのLLMベースのリグレードパイプラインを評価する。 BM25と最先端の高密度レトリバーの間には,24.8%の絶対リコール@5。 LLMベースのリグレード戦略により、最高の高密度レトリバーが4.4%向上した。 さらに、商用検索エンジンやGoogle Searchのような調査ツールは、LitSearchではパフォーマンスが悪く、最も密集した検索ツールに32ポイント遅れている。 これらの結果は、LitSearchが現実世界のユースケースに対応しながら、検索システムのための情報的新しいテストベッドであることを示している。

Literature search questions, such as "where can I find research on the evaluation of consistency in generated summaries?" pose significant challenges for modern search engines and retrieval systems. These questions often require a deep understanding of research concepts and the ability to reason over entire articles. In this work, we introduce LitSearch, a retrieval benchmark comprising 597 realistic literature search queries about recent ML and NLP papers. LitSearch is constructed using a combination of (1) questions generated by GPT-4 based on paragraphs containing inline citations from research papers and (2) questions about recently published papers, manually written by their authors. All LitSearch questions were manually examined or edited by experts to ensure high quality. We extensively benchmark state-of-the-art retrieval models and also evaluate two LLM-based reranking pipelines. We find a significant performance gap between BM25 and state-of-the-art dense retrievers, with a 24.8% difference in absolute recall@5. The LLM-based reranking strategies further improve the best-performing dense retriever by 4.4%. Additionally, commercial search engines and research tools like Google Search perform poorly on LitSearch, lagging behind the best dense retriever by 32 points. Taken together, these results show that LitSearch is an informative new testbed for retrieval systems while catering to a real-world use case.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# LEMoN:マルチモーダル近傍を用いたラベル誤り検出

LEMoN: Label Error Detection using Multimodal Neighbors ( http://arxiv.org/abs/2407.18941v1 )

ライセンス: Link先を確認
Haoran Zhang, Aparna Balagopalan, Nassim Oufattole, Hyewon Jeong, Yan Wu, Jiacheng Zhu, Marzyeh Ghassemi, (参考訳) 画像キャプチャペアの大規模なリポジトリは、視覚言語モデルの開発に不可欠である。 しかし、これらのデータセットは、Webから取り除かれたノイズの多いデータからしばしば抽出され、多くの誤ったラベル付きサンプルを含んでいる。 下流モデルの信頼性を向上させるためには,誤字幕による画像の識別とフィルタリングが重要である。 しかし、画像キャプション埋め込み類似性に基づくフィルタリング以外にも、ノイズの多いマルチモーダルデータをフィルタリングする他の方法や、下流トレーニングにおけるノイズの多いキャプションデータの影響を具体的に評価する手法は提案されていない。 本研究では,マルチモーダルデータセットにおけるラベルエラーを自動的に識別するLEMoNを提案する。 提案手法は,コントラスト付き事前学習型マルチモーダルモデルの潜在空間における画像キャプチャペアのマルチモーダル近傍を利用する。 提案手法はラベル誤り識別におけるベースラインよりも優れており,本手法を用いてフィルタリングしたデータセットのトレーニングにより,下流分類とキャプション性能が向上することがわかった。

Large repositories of image-caption pairs are essential for the development of vision-language models. However, these datasets are often extracted from noisy data scraped from the web, and contain many mislabeled examples. In order to improve the reliability of downstream models, it is important to identify and filter images with incorrect captions. However, beyond filtering based on image-caption embedding similarity, no prior works have proposed other methods to filter noisy multimodal data, or concretely assessed the impact of noisy captioning data on downstream training. In this work, we propose LEMoN, a method to automatically identify label errors in multimodal datasets. Our method leverages the multimodal neighborhood of image-caption pairs in the latent space of contrastively pretrained multimodal models. We find that our method outperforms the baselines in label error identification, and that training on datasets filtered using our method improves downstream classification and captioning performance.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-10
# テキスト・画像拡散モデルにおける敵対的攻撃と防御

Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey ( http://arxiv.org/abs/2407.15861v1 )

ライセンス: Link先を確認
Chenyu Zhang, Mingwang Hu, Wenhui Li, Lanjun Wang, (参考訳) 近年,画像生成能力の異常により,テキスト・画像拡散モデルがコミュニティから注目を集めている。 代表モデルであるStable Diffusionは、リリースからわずか2ヶ月で1000万人以上のユーザーを集めた。 この人気が高まり、モデルの堅牢性と安全性の研究が促進され、様々な敵攻撃法が提案された。 同時に、これらのモデルの堅牢性と安全性を改善するための防衛手法に焦点を当てた研究が顕著に増加した。 本稿では,テキスト・ツー・イメージ拡散モデルを対象とした敵攻撃と防御に関する文献を包括的にレビューする。 まず、テキスト・ツー・イメージ拡散モデルの概要と、敵攻撃の分類の導入、および既存の攻撃方法の詳細なレビューから始める。 次に、モデルロバスト性および安全性を向上させるため、現行の防御手法の詳細な分析を行う。 最後に、現在進行中の課題について議論し、将来的な研究の方向性を探求する。 このサーベイでカバーされた敵攻撃と防御方法の完全なリストについては、https://github.com/datar001/Awesome-AD-on-T2IDM.comのキュレートされたリポジトリを参照してください。

Recently, the text-to-image diffusion model has gained considerable attention from the community due to its exceptional image generation capability. A representative model, Stable Diffusion, amassed more than 10 million users within just two months of its release. This surge in popularity has facilitated studies on the robustness and safety of the model, leading to the proposal of various adversarial attack methods. Simultaneously, there has been a marked increase in research focused on defense methods to improve the robustness and safety of these models. In this survey, we provide a comprehensive review of the literature on adversarial attacks and defenses targeting text-to-image diffusion models. We begin with an overview of text-to-image diffusion models, followed by an introduction to a taxonomy of adversarial attacks and an in-depth review of existing attack methods. We then present a detailed analysis of current defense methods that improve model robustness and safety. Finally, we discuss ongoing challenges and explore promising future research directions. For a complete list of the adversarial attack and defense methods covered in this survey, please refer to our curated repository at https://github.com/datar001/Awesome-AD-on-T2IDM.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-10
# ALICE(CERN)実験の高速シミュレーションのための生成ニューラルネットワークの適用

Applying generative neural networks for fast simulations of the ALICE (CERN) experiment ( http://arxiv.org/abs/2407.16704v1 )

ライセンス: Link先を確認
Maksymilian Wojnar, (参考訳) この論文は、CERNのALICE実験におけるゼロDegree Calorimeter(ZDC)中性子検出器の高速シミュレーションのための生成ニューラルネットワークへの最先端の応用について研究している。 GEANT Monte Carlo ツールキットを用いた従来のシミュレーション手法は正確ではあるが、計算的に要求される。 CERNにおける計算ニーズの増加に伴い、効率的なシミュレーション技術が不可欠である。 この論文は、コンピュータビジョンにおけるニューラルネットワークの適用、機械学習を用いた高速シミュレーション、高エネルギー物理学における生成ニューラルネットワークに関する包括的な文献レビューを提供する。 分析モデルの理論も技術的側面や実践的な実装に関わる課題とともに議論されている。 実験では、畳み込みニューラルネットワーク、ビジョントランスフォーマー、MLP-ミキサーなどの様々なニューラルネットワークアーキテクチャや、オートエンコーダ、生成逆ネットワーク、ベクトル量子化モデル、拡散モデルなどの生成フレームワークを評価した。 主な貢献は、これらのモデルの実装と評価、サンプルあたり5ミリ秒の低い生成時間を持つ既存の方法と比較して、ワッサースタイン計量の大幅な改善、高速ZDCシミュレーションのためのモデルを開発するためのレコメンデーションのリストの定式化である。 再現性のために、オープンソースコードと詳細なハイパーパラメータ設定が提供される。 さらに、この論文は将来の研究の方向性を概説し、シミュレーションの忠実さと効率をさらに高めている。

This thesis investigates the application of state-of-the-art advances in generative neural networks for fast simulation of the Zero Degree Calorimeter (ZDC) neutron detector in the ALICE experiment at CERN. Traditional simulation methods using the GEANT Monte Carlo toolkit, while accurate, are computationally demanding. With increasing computational needs at CERN, efficient simulation techniques are essential. The thesis provides a comprehensive literature review on the application of neural networks in computer vision, fast simulations using machine learning, and generative neural networks in high-energy physics. The theory of the analyzed models is also discussed, along with technical aspects and the challenges associated with a practical implementation. The experiments evaluate various neural network architectures, including convolutional neural networks, vision transformers, and MLP-Mixers, as well as generative frameworks such as autoencoders, generative adversarial networks, vector quantization models, and diffusion models. Key contributions include the implementation and evaluation of these models, a significant improvement in the Wasserstein metric compared to existing methods with a low generation time of 5 milliseconds per sample, and the formulation of a list of recommendations for developing models for fast ZDC simulation. Open-source code and detailed hyperparameter settings are provided for reproducibility. Additionally, the thesis outlines future research directions to further enhance simulation fidelity and efficiency.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-10
# 機械学習におけるスペクトログラムの説明:音声分類のためのニューラルネットワークに関する研究

Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification ( http://arxiv.org/abs/2407.17416v1 )

ライセンス: Link先を確認
Jesin James, Balamurali B. T., Binu Abeysinghe, Junchen Liu, (参考訳) 本研究では,ニューラルネットワークによって学習された母音分類課題に着目し,正確な音声分類のための識別パターンについて検討する。 母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。 クラスアクティベーションマッピングを用いて、母音分類に寄与する周波数を特定し、これらの知見を言語知識と比較する。 アメリカ英語の母音データセットの実験は、ニューラルネットワークの説明可能性を示し、誤分類の原因とその声の聞こえない音声と区別する際の特徴に関する貴重な洞察を提供する。 この研究は、母音分類における基礎となる音響的手がかりの理解を深めるだけでなく、ニューラルネットワークにおける抽象表現と確立された言語知識のギャップを埋めることで音声認識を改善する機会を提供する。

This study investigates discriminative patterns learned by neural networks for accurate speech classification, with a specific focus on vowel classification tasks. By examining the activations and features of neural networks for vowel classification, we gain insights into what the networks "see" in spectrograms. Through the use of class activation mapping, we identify the frequencies that contribute to vowel classification and compare these findings with linguistic knowledge. Experiments on a American English dataset of vowels showcases the explainability of neural networks and provides valuable insights into the causes of misclassifications and their characteristics when differentiating them from unvoiced speech. This study not only enhances our understanding of the underlying acoustic cues in vowel classification but also offers opportunities for improving speech recognition by bridging the gap between abstract representations in neural networks and established linguistic knowledge
翻訳日:2024-07-28 18:19:29 公開日:2024-07-10
# 大規模言語モデルの基盤と評価--実践的課題と教訓(サーベイ)

Grounding and Evaluation for Large Language Models: Practical Challenges and Lessons Learned (Survey) ( http://arxiv.org/abs/2407.12858v1 )

ライセンス: Link先を確認
Krishnaram Kenthapadi, Mehrnoosh Sameki, Ankur Taly, (参考訳) 人工知能(AI)ベースのシステムがハイテイクドメインに急速に採用されていく中で、これらのシステムの信頼性、安全性、可観測性は重要になっている。 正確性や品質に関するメトリクスだけでなく、堅牢性、バイアス、セキュリティ、解釈可能性、その他の責任あるAI次元に対しても、AIシステムの評価と監視が不可欠です。 我々は,幻覚,有害かつマニピュティブなコンテンツ,著作権侵害などの新たな課題を提起する,大規模言語モデル(LLM)やその他の生成AIモデルに焦点を当てる。 KDD 2024のチュートリアルに付随するこの調査記事では、生成的AIシステムに関連する幅広い害について取り上げ、これらの害に対処するための最先端のアプローチ(オープン課題とともに)を調査します。

With the ongoing rapid adoption of Artificial Intelligence (AI)-based systems in high-stakes domains, ensuring the trustworthiness, safety, and observability of these systems has become crucial. It is essential to evaluate and monitor AI systems not only for accuracy and quality-related metrics but also for robustness, bias, security, interpretability, and other responsible AI dimensions. We focus on large language models (LLMs) and other generative AI models, which present additional challenges such as hallucinations, harmful and manipulative content, and copyright infringement. In this survey article accompanying our KDD 2024 tutorial, we highlight a wide range of harms associated with generative AI systems, and survey state of the art approaches (along with open challenges) to address these harms.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-10
# 対話型データ探索のための語彙データの自動質問生成

Automated Question Generation on Tabular Data for Conversational Data Exploration ( http://arxiv.org/abs/2407.12859v1 )

ライセンス: Link先を確認
Ritwik Chaudhuri, Rajmohan C, Kirushikesh DB, Arvind Agarwal, (参考訳) 探索データ分析(EDA)は、洞察を導き出すためにデータセットを分析するための重要なステップである。 文学においていくつかのEDA技術が研究されている。 それらの多くは様々なプロットを通して可視化を活用している。 しかし、これらを非技術的ユーザとして解釈するのは容易ではなく、多数の列が存在する場合には、適切な視覚化を作成することも難しい。 興味深いデータのスライスを見ることができる他の作品はほとんどないが、ユーザが関連する洞察を引き出すことは依然として困難である。 最近、非技術系ユーザーの間では、会話によるデータ探索が大いに注目を集めている。 データに関する深い技術的な知識を必要とせずに、データセットを探索するのに役立つ。 そこで本研究では,対話環境におけるデータセットの関連するスライスに基づいて,自然言語による興味深い質問を推薦するシステムを提案する。 具体的には、データセットが与えられた場合、興味ある列のセレクトを選択し、興味ある測度の少ないカラムとカラムの組み合わせの興味深いスライスを識別する。 我々は、訓練済みの言語モデル(T5)の微調整のバリエーションを使って、特定の方法で自然言語の質問を生成する。 次に、生成された質問にスロットフルの値を付け、レコメンデーションのためにそれらをランク付けします。 提案システムの有用性を,実データセットの集合を用いた包括的設定で示す。

Exploratory data analysis (EDA) is an essential step for analyzing a dataset to derive insights. Several EDA techniques have been explored in the literature. Many of them leverage visualizations through various plots. But it is not easy to interpret them for a non-technical user, and producing appropriate visualizations is also tough when there are a large number of columns. Few other works provide a view of some interesting slices of data but it is still difficult for the user to draw relevant insights from them. Of late, conversational data exploration is gaining a lot of traction among non-technical users. It helps the user to explore the dataset without having deep technical knowledge about the data. Towards this, we propose a system that recommends interesting questions in natural language based on relevant slices of a dataset in a conversational setting. Specifically, given a dataset, we pick a select set of interesting columns and identify interesting slices of such columns and column combinations based on few interestingness measures. We use our own fine-tuned variation of a pre-trained language model(T5) to generate natural language questions in a specific manner. We then slot-fill values in the generated questions and rank them for recommendations. We show the utility of our proposed system in a coversational setting with a collection of real datasets.
翻訳日:2024-07-22 08:18:00 公開日:2024-07-10
# STAGE: 事前学習 LLM を用いた簡易テキスト分散グラフ埋め込み

STAGE: Simplified Text-Attributed Graph Embeddings Using Pre-trained LLMs ( http://arxiv.org/abs/2407.12860v1 )

ライセンス: Link先を確認
Aaron Zolnai-Lucas, Jack Boylan, Chris Hokamp, Parsa Ghaffari, (参考訳) Simplified Text-Attributed Graph Embeddings (STAGE) は、グラフニューラルネットワーク(GNN)モデルにおいて、テキスト-Attributed Graphs (TAG) をエンコードするノード機能を強化するための、単純かつ効果的な方法である。 本手法では,Large-Language Models (LLMs) を用いてテキスト属性の埋め込みを生成する。 STAGEは、様々なノード分類ベンチマークにおける競合的な結果を達成すると同時に、現在の最先端(SoTA)技術に対する実装の単純さも維持する。 プレトレーニングLDMを組込みジェネレータとして利用することで、複数の高価なトレーニングやステージのプロンプトを必要とする現在のSoTAアプローチよりもシンプルなパイプラインを実現できることを示す。 また、このパイプラインを学術ベンチマークを超えたグラフにスケーラブルにするために、拡散パターンのGNNを実装しています。

We present Simplified Text-Attributed Graph Embeddings (STAGE), a straightforward yet effective method for enhancing node features in Graph Neural Network (GNN) models that encode Text-Attributed Graphs (TAGs). Our approach leverages Large-Language Models (LLMs) to generate embeddings for textual attributes. STAGE achieves competitive results on various node classification benchmarks while also maintaining a simplicity in implementation relative to current state-of-the-art (SoTA) techniques. We show that utilizing pre-trained LLMs as embedding generators provides robust features for ensemble GNN training, enabling pipelines that are simpler than current SoTA approaches which require multiple expensive training and prompting stages. We also implement diffusion-pattern GNNs in an effort to make this pipeline scalable to graphs beyond academic benchmarks.
翻訳日:2024-07-22 08:18:00 公開日:2024-07-10
# CiteME: 言語モデルは正確に科学的主張をクレートできるか?

CiteME: Can Language Models Accurately Cite Scientific Claims? ( http://arxiv.org/abs/2407.12861v1 )

ライセンス: Link先を確認
Ori Press, Andreas Hochlehnert, Ameya Prabhu, Vishaal Udandarao, Ofir Press, Matthias Bethge, (参考訳) 毎月何千もの科学論文が発行されている。 このような情報の過負荷は、研究者の努力を最先端に留まらせ、クレームを検証し、正しく評価するのに役立つ。 論文を参照する文章を抜粋すると、LMが研究アシスタントとして機能し、参照された論文を正しく識別できるだろうか? 我々は、引用属性におけるLMの能力を評価するベンチマークを構築することで、この問題に対処する努力を進める。 我々のベンチマークであるCiteMEは、最近の機械学習論文からのテキスト抜粋で構成されており、それぞれが1つの論文を参照している。 CiteMEの使用は、フロンティアのLMと人間のパフォーマンスの間に大きなギャップがあることを明らかにし、LMは4.2-18.5%の精度しか達成せず、人間は69.7%である。 我々は、GPT-4o LM上に構築された自律システムであるCiteAgentを導入することにより、このギャップを埋める。 全体として、CiteMEはオープンエンドのクレーム帰属のための挑戦的なテストベッドとして機能し、LMによってなされたクレームが間違っていれば自動的に検証され破棄される未来に向けて研究コミュニティを駆り立てている。

Thousands of new scientific papers are published each month. Such information overload complicates researcher efforts to stay current with the state-of-the-art as well as to verify and correctly attribute claims. We pose the following research question: Given a text excerpt referencing a paper, could an LM act as a research assistant to correctly identify the referenced paper? We advance efforts to answer this question by building a benchmark that evaluates the abilities of LMs in citation attribution. Our benchmark, CiteME, consists of text excerpts from recent machine learning papers, each referencing a single other paper. CiteME use reveals a large gap between frontier LMs and human performance, with LMs achieving only 4.2-18.5% accuracy and humans 69.7%. We close this gap by introducing CiteAgent, an autonomous system built on the GPT-4o LM that can also search and read papers, which achieves an accuracy of 35.3\% on CiteME. Overall, CiteME serves as a challenging testbed for open-ended claim attribution, driving the research community towards a future where any claim made by an LM can be automatically verified and discarded if found to be incorrect.
翻訳日:2024-07-22 08:18:00 公開日:2024-07-10
# 大規模言語モデルチャットボットの分析:確率テストを用いた実験的検討

Analyzing Large language models chatbots: An experimental approach using a probability test ( http://arxiv.org/abs/2407.12862v1 )

ライセンス: Link先を確認
Melise Peruchini, Julio Monteiro Teixeira, (参考訳) この研究は、2つの異なるLarge Language Models (LLM) チャットボット(ChatGPT)とGemini(Gemini)による探索実験を通じて行われた定性的実証研究から成っている。 方法としては,確率問題で設計されたプロンプトに基づいて探索試験を行った。 認知心理学において広く認知されている「リンダ問題」は、この実験に特化して新しい問題である「マリー問題」の開発とともに、テストを作成する基盤として使用された。 分析の対象は、各チャットボットのインタラクションによって提供されるアウトプットを備えたデータセットである。 本分析の目的は,チャットボットが確率論と整合する論理的推論を主に用いているか,あるいはプロンプトの典型的記述によってより頻繁に影響を受けるかを検証することである。 この結果から,各チャットボットが論理処理やテキスト構築に用いているアプローチについての知見が得られ,解析されたチャットボットはよく知られた確率論的問題に満足して機能する一方で,確率論的論理の直接適用を必要とする新しいテストにおいて,性能が著しく低下していることが示唆された。

This study consists of qualitative empirical research, conducted through exploratory tests with two different Large Language Models (LLMs) chatbots: ChatGPT and Gemini. The methodological procedure involved exploratory tests based on prompts designed with a probability question. The "Linda Problem", widely recognized in cognitive psychology, was used as a basis to create the tests, along with the development of a new problem specifically for this experiment, the "Mary Problem". The object of analysis is the dataset with the outputs provided by each chatbot interaction. The purpose of the analysis is to verify whether the chatbots mainly employ logical reasoning that aligns with probability theory or if they are more frequently affected by the stereotypical textual descriptions in the prompts. The findings provide insights about the approach each chatbot employs in handling logic and textual constructions, suggesting that, while the analyzed chatbots perform satisfactorily on a well-known probabilistic problem, they exhibit significantly lower performance on new tests that require direct application of probabilistic logic.
翻訳日:2024-07-22 08:18:00 公開日:2024-07-10
# 産業用グラデット型時間依存型対物根起因解析 : 先天的失敗の予期せぬポイント--概念実証

Industrial-Grade Time-Dependent Counterfactual Root Cause Analysis through the Unanticipated Point of Incipient Failure: a Proof of Concept ( http://arxiv.org/abs/2407.11056v1 )

ライセンス: Link先を確認
Alexandre Trilla, Rajesh Rajendran, Ossee Yiboe, Quentin Possamaï, Nenad Mijatovic, Jordi Vitrià, (参考訳) 本稿では,産業用多変量時系列環境における根本原因解析手法の開発について述べる。 これは、異常な振る舞いが最初に観察された時点であり、問題が伝播する前に根本原因が見つかると仮定される初期失敗点に注意を向ける。 本論文は,本ソリューションの基本的概念と本質的概念をシミュレートした環境上で実験的に示すものである。 最後に、業界におけるますます複雑な環境のロバストネスの課題を満たすために、因果的技術の成熟に対する改善の道について論じる。

This paper describes the development of a counterfactual Root Cause Analysis diagnosis approach for an industrial multivariate time series environment. It drives the attention toward the Point of Incipient Failure, which is the moment in time when the anomalous behavior is first observed, and where the root cause is assumed to be found before the issue propagates. The paper presents the elementary but essential concepts of the solution and illustrates them experimentally on a simulated setting. Finally, it discusses avenues of improvement for the maturity of the causal technology to meet the robustness challenges of increasingly complex environments in the industry.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# SPIN: SE(3)-不変物理インフォームドネットワークによる結合親和性予測

SPIN: SE(3)-Invariant Physics Informed Network for Binding Affinity Prediction ( http://arxiv.org/abs/2407.11057v1 )

ライセンス: Link先を確認
Seungyeon Choi, Sangmin Seo, Sanghyun Park, (参考訳) タンパク質-リガンド結合親和性の正確な予測は、迅速かつ効率的な薬物開発に不可欠である。 近年,結合親和性の予測の重要性は,結合親和性の予測にグラフニューラルネットワークを用いたタンパク質-リガンド複合体の3次元構造をモデル化する研究に注目が集まっている。 しかし、伝統的な手法は、しばしば複合体の空間情報を正確にモデル化したり、幾何学的特徴に頼らずにタンパク質-リガンド結合の原理を無視したりする。 これは過度に適合し、結果として独立したデータセットでは不十分な結果が得られ、最終的には実際の薬物開発における有用性が低下する。 この問題に対処するために,SPINを提案する。SPINは,データセットからの経験的データを学習するだけでなく,このタスクに適用可能な様々な帰納的バイアスを組み込むことにより,より優れた一般化を実現するために設計されたモデルである。 予測には、複素数回転や翻訳によらず一貫した結合親和性予測を維持する幾何学的視点と、タンパク質-リガンド結合のための反応座標に沿って最小結合自由エネルギーを必要とする物理化学的視点という2つのタイプの帰納バイアスを定義した。 これらの事前知識入力により、SPINはCASF-2016やCSAR HiQのようなベンチマークセットで比較モデルより優れている。 さらに,仮想スクリーニング実験により本モデルの実用性を実証し,その解釈可能性を評価する実験に基づいて,提案モデルの信頼性と可能性を検証した。

Accurate prediction of protein-ligand binding affinity is crucial for rapid and efficient drug development. Recently, the importance of predicting binding affinity has led to increased attention on research that models the three-dimensional structure of protein-ligand complexes using graph neural networks to predict binding affinity. However, traditional methods often fail to accurately model the complex's spatial information or rely solely on geometric features, neglecting the principles of protein-ligand binding. This can lead to overfitting, resulting in models that perform poorly on independent datasets and ultimately reducing their usefulness in real drug development. To address this issue, we propose SPIN, a model designed to achieve superior generalization by incorporating various inductive biases applicable to this task, beyond merely training on empirical data from datasets. For prediction, we defined two types of inductive biases: a geometric perspective that maintains consistent binding affinity predictions regardless of the complexs rotations and translations, and a physicochemical perspective that necessitates minimal binding free energy along their reaction coordinate for effective protein-ligand binding. These prior knowledge inputs enable the SPIN to outperform comparative models in benchmark sets such as CASF-2016 and CSAR HiQ. Furthermore, we demonstrated the practicality of our model through virtual screening experiments and validated the reliability and potential of our proposed model based on experiments assessing its interpretability.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# ランダーだったのか? 生成言語モデルの厳密な逆転に向けて

Was it Slander? Towards Exact Inversion of Generative Language Models ( http://arxiv.org/abs/2407.11059v1 )

ライセンス: Link先を確認
Adrians Skapars, Edoardo Manino, Youcheng Sun, Lucas C. Cordeiro, (参考訳) 大きな言語モデル(LLM)のトレーニングには、時間とお金のかなりの投資が必要となる。 投資に十分なリターンを得るため、開発者はモデルが有害で攻撃的なアウトプットを発生させないよう、かなりの努力を払っています。 しかし、悪質な俳優は、偽造されたアウトプットを公に報告することで、LLMの評判を損なおうとするかもしれない。 本稿では,このようなスランダー攻撃に対する防御には,偽造された出力の入力を再構築するか,あるいはそれが存在しないことを証明する必要があることを示す。 そこで本研究では,LLMに対する標的攻撃に対する探索に基づくアプローチを提案し,評価する。 実験の結果,任意の出力の正確な入力を再構築することはめったになく,LSMはいまだにスランダー攻撃に対して脆弱であることが示された。

Training large language models (LLMs) requires a substantial investment of time and money. To get a good return on investment, the developers spend considerable effort ensuring that the model never produces harmful and offensive outputs. However, bad-faith actors may still try to slander the reputation of an LLM by publicly reporting a forged output. In this paper, we show that defending against such slander attacks requires reconstructing the input of the forged output or proving that it does not exist. To do so, we propose and evaluate a search based approach for targeted adversarial attacks for LLMs. Our experiments show that we are rarely able to reconstruct the exact input of an arbitrary output, thus demonstrating that LLMs are still vulnerable to slander attacks.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# メカニクス関連領域におけるグラフニューラルネットワーク応用の展望

A review of graph neural network applications in mechanics-related domains ( http://arxiv.org/abs/2407.11060v1 )

ライセンス: Link先を確認
Yingxue Zhao, Haoran Li, Haosu Zhou, Hamid Reza Attar, Tobias Pfaff, Nan Li, (参考訳) メカニクスに関連した問題は、特に一様でない構造に対して、正確な幾何学的および物理的表現を達成するためのユニークな課題をしばしば提示する。 グラフニューラルネットワーク(GNN)は、不規則な基盤構造を持つグラフデータから順応的に学習することで、これらの課題に対処するための有望なツールとして登場した。 その結果、近年、GNNの進歩に触発された複雑な力学関連の応用が急増している。 このプロセスにもかかわらず、機械関連問題の解決における近年のGNNの進歩に対処する体系的なレビューが欠落している。 このギャップを埋めるために,本稿では,GNN アプリケーションについて,重要な課題を特定し,今後の研究方向性を概説しながら,その詳細を解説する。 本稿では,GNNの基本的アルゴリズムの導入から始める。 我々は,その基礎となる原理を簡潔に説明し,力学関連領域におけるGNNの応用を探求する基盤となる確固たる理解を確立する。 本研究の目的は, 論文をソリッド・メカニクス, 流体力学, 学際的メカニクス関連ドメインに分類し, グラフ表現方法論, GNNアーキテクチャ, および各サブドメインにおけるさらなる議論を包括的にまとめることである。 さらに、これらのアプリケーションに関連するオープンデータとソースコードは、将来の研究者の利便性のために要約される。 本稿では、GNNとメカニクスの学際的な統合を促進し、複雑なメカニクスに関連する問題を解決するためにGNNを適用することに興味のある研究者のためのガイドを提供する。

Mechanics-related problems often present unique challenges in achieving accurate geometric and physical representations, particularly for non-uniform structures. Graph neural networks (GNNs) have emerged as a promising tool to tackle these challenges by adeptly learning from graph data with irregular underlying structures. Consequently, recent years have witnessed a surge in complex mechanics-related applications inspired by the advancements of GNNs. Despite this process, there is a notable absence of a systematic review addressing the recent advancement of GNNs in solving mechanics-related problems. To bridge this gap, this review article aims to provide an in-depth overview of the GNN applications in mechanics-related domains while identifying key challenges and outlining potential future research directions. In this review article, we begin by introducing the fundamental algorithms of GNNs that are widely employed in mechanics-related applications. We provide a concise explanation of their underlying principles to establish a solid understanding that will serve as a basis for exploring the applications of GNNs in mechanics-related domains. The scope of this paper is intended to cover the categorisation of literature into solid mechanics, fluid mechanics, and interdisciplinary mechanics-related domains, providing a comprehensive summary of graph representation methodologies, GNN architectures, and further discussions in their respective subdomains. Additionally, open data and source codes relevant to these applications are summarised for the convenience of future researchers. This article promotes an interdisciplinary integration of GNNs and mechanics and provides a guide for researchers interested in applying GNNs to solve complex mechanics-related problems.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# デバイス上の推論の境界を探る:Tinyが短くなったら階層的になる

Exploring the Boundaries of On-Device Inference: When Tiny Falls Short, Go Hierarchical ( http://arxiv.org/abs/2407.11061v1 )

ライセンス: Link先を確認
Adarsh Prasad Behera, Paulius Daubaris, Iñaki Bravo, José Gallego, Roberto Morabito, Joerg Widmer, Jaya Prakash Varma Champati, (参考訳) デバイス上の推論は、エッジMLシステムにおけるエネルギー効率、応答性、プライバシを高める大きな可能性を秘めている。 しかし、リソース制限されたデバイスに組み込むことができる能力の低いMLモデルのため、ユースケースはビジュアルキーワードスポッティング、ジェスチャー認識、予測分析などの単純な推論タスクに限定される。 このような状況下では、階層推論(Hierarchical Inference, HI)システムは、選択したサンプルをエッジサーバやクラウドにオフロードすることで、ローカルMLの能力を増強する有望なソリューションとして登場した。 既存の研究は、HIが精度を向上させることをシミュレーションによって示している。 しかし、デバイス上のレイテンシとエネルギー消費を考慮せず、ハードウェア、ネットワーク接続、モデルといったMLシステムを特徴付ける3つの重要な異種次元も考慮していない。 対照的に,本研究では,異なる機能と3つの画像分類データセットを持つ5つのデバイス上での組み込みMLモデルの精度,レイテンシ,エネルギの測定値に基づいて,HIの性能とオンデバイス推論を系統的に比較する。 所定の精度要件を満たすために、HIシステムは、デバイス上の推論システムよりも、最大で73%のレイテンシ、最大で77%のデバイスエネルギー消費を実現した。 効率的なHIシステムを構築するための鍵は、リモート推論を必要とするサンプルに対して出力を効果的に区別できる小型で合理的なオンデバイスモデルが利用可能であることである。 パフォーマンスの向上にもかかわらず、HIはすべてのサンプルに対してデバイス上の推論を必要とするため、レイテンシとエネルギー消費に一定のオーバーヘッドが生じる。 そこで我々は、HIを用いたEarly Exit with HI(EE-HI)を設計し、HIと比較して、EE-HIはレイテンシを59.7%削減し、デバイスの消費電力を60.4%削減することを示した。

On-device inference holds great potential for increased energy efficiency, responsiveness, and privacy in edge ML systems. However, due to less capable ML models that can be embedded in resource-limited devices, use cases are limited to simple inference tasks such as visual keyword spotting, gesture recognition, and predictive analytics. In this context, the Hierarchical Inference (HI) system has emerged as a promising solution that augments the capabilities of the local ML by offloading selected samples to an edge server or cloud for remote ML inference. Existing works demonstrate through simulation that HI improves accuracy. However, they do not account for the latency and energy consumption on the device, nor do they consider three key heterogeneous dimensions that characterize ML systems: hardware, network connectivity, and models. In contrast, this paper systematically compares the performance of HI with on-device inference based on measurements of accuracy, latency, and energy for running embedded ML models on five devices with different capabilities and three image classification datasets. For a given accuracy requirement, the HI systems we designed achieved up to 73% lower latency and up to 77% lower device energy consumption than an on-device inference system. The key to building an efficient HI system is the availability of small-size, reasonably accurate on-device models whose outputs can be effectively differentiated for samples that require remote inference. Despite the performance gains, HI requires on-device inference for all samples, which adds a fixed overhead to its latency and energy consumption. Therefore, we design a hybrid system, Early Exit with HI (EE-HI), and demonstrate that compared to HI, EE-HI reduces the latency by up to 59.7% and lowers the device's energy consumption by up to 60.4%.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# EfficientQAT: 大規模言語モデルの効率的な量子化学習

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models ( http://arxiv.org/abs/2407.11062v1 )

ライセンス: Link先を確認
Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo, (参考訳) 大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。 しかし、それらは重要なメモリ要件を管理する上での課題に直面している。 量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減するソリューションを提供するが、モデルの重み付けと量子化パラメータを最適化するためにかなりのトレーニングリソースを必要とする。 そこで本研究では,LLMを圧縮する新しい量子化手法であるEfficient Quantization-Aware Training (EfficientQAT)を提案する。 EfficientQATは、すべてのパラメータ(Block-AP)のブロックワイドトレーニングと、量子化パラメータ(E2E-QP)のエンドツーエンドトレーニングの2つのフェーズを含む。 ブロック-APは各変圧器ブロック内の全てのパラメータの量子化学習をブロックワイズで順次行い、LLM全体のトレーニングを回避して効率を維持する。 量子化モデルで初期化されたE2E-QPは、量子化パラメータ(ステップサイズ)だけを訓練し、固定された量子化バックボーンで効率を向上し、トレーニング可能なパラメータ数を削減した。 EfficientQATは、ベースLLM、命令調整LDM、マルチモーダルLDMなど、様々な量子化ビットで7Bから70Bのスケールで、従来の量子化手法よりも優れていることを示した。 例えば、EfficientQATは1つのA100-80GB GPU上の2ビットのLlama-2-70Bモデルを41時間で取得し、全精度(69.48 vs. 72.41)と比較して3\%未満の精度で分解する。 このINT2量子化された70Bモデルは、Llama-2-13Bモデル(69.48 vs. 67.81)よりも1.67の精度を得るが、メモリは少ない(19.2GB vs. 24.2GB)。 コードはhttps://github.com/OpenGVLab/EfficientQAT.comで入手できる。

Large language models (LLMs) are integral to modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it demands substantial training resources to optimize model weights and quantization parameters. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a novel quantization technique for compressing LLMs. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). Block-AP sequentially conducts quantization-aware training for all parameters in each transformer block with block-wise reconstruction, maintaining efficiency by avoiding training the entire LLM. Initialized with quantized model, E2E-QP then trains only quantization parameters (step sizes) end-to-end, enhancing efficiency with a fixed quantized backbone and reduced trainable parameter count. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3\% accuracy degradation compared to the full precision (69.48 vs. 72.41). Notably, this INT2 quantized 70B model obtains a 1.67 accuracy gain over the Llama-2-13B model (69.48 vs. 67.81) while requiring less memory (19.2GB vs. 24.2GB). Code is available at https://github.com/OpenGVLab/EfficientQAT.
翻訳日:2024-07-17 20:10:21 公開日:2024-07-10
# Importance -- グローバルポート重要度の機械学習駆動分析とネットワークダイナミクスによる運用効率の向上

ImPORTance -- Machine Learning-Driven Analysis of Global Port Significance and Network Dynamics for Improved Operational Efficiency ( http://arxiv.org/abs/2407.09571v1 )

ライセンス: Link先を確認
Emanuele Carlini, Domenico Di Gangi, Vinicius Monteiro de Lira, Hanna Kavalionak, Gabriel Spadon, Amilcar Soares, (参考訳) 海港は世界経済において重要な役割を担い、研究者は様々な研究を通じてその重要性を理解しようとしてきた。 本稿では, 船舶の移動によって形成される接続のネットワークを解析し, 重要港で共有される共通特性について考察する。 この課題を達成するために、世界中の3年間のAIS(Automatic Identification System)データを組み合わせたボトムアップネットワーク構築アプローチを採用し、異なるポート間の接続を表すポートネットワークを構築した。 このような表現を通じて、我々は異なるポート特徴の相対的重要性を測定するために機械学習を使用する。 本モデルにより,港の地理的特徴と港深度がポートネットワークにおける港の意義の指標であることが明らかとなった。 そこで本研究では、データ駆動型アプローチを採用し、機械学習を用いて、ポートの重要性に寄与する要因を包括的に理解する。 本研究の成果は, 産業における港湾開発, 資源配分, インフラ計画に関連する意思決定プロセスについて報告することを目的としている。

Seaports play a crucial role in the global economy, and researchers have sought to understand their significance through various studies. In this paper, we aim to explore the common characteristics shared by important ports by analyzing the network of connections formed by vessel movement among them. To accomplish this task, we adopt a bottom-up network construction approach that combines three years' worth of AIS (Automatic Identification System) data from around the world, constructing a Ports Network that represents the connections between different ports. Through such representation, we use machine learning to measure the relative significance of different port features. Our model examined such features and revealed that geographical characteristics and the depth of the port are indicators of a port's significance to the Ports Network. Accordingly, this study employs a data-driven approach and utilizes machine learning to provide a comprehensive understanding of the factors contributing to ports' importance. The outcomes of our work are aimed to inform decision-making processes related to port development, resource allocation, and infrastructure planning in the industry.
翻訳日:2024-07-16 21:38:05 公開日:2024-07-10
# 2+$ de Sitter SpacetimeでQFTを復活

Reviving QFT in $2+1$ de Sitter Spacetime ( http://arxiv.org/abs/2407.07942v1 )

ライセンス: Link先を確認
Guido D'Amico, Nemanja Kaloper, (参考訳) 2+1$ 次元静的アインシュタイン宇宙 $R \times S^2$ 上の共形結合スカラー QFT を考え、ヒルベルト空間を記す。 この理論は秘密裏に、2+1$ de Sitter 空間の QFT である、なぜなら全ての量子可観測性経験 {\it quantum revivals} は、自然に d Sitter の時間範囲に$R$ を制限しているからである。 我々は, 事象の地平線によるQFTの定式化のために, 因果障害を回避した。 静的なアインシュタインは存在しない。 この理論の「単位ゲージ」の記述は、粒子高調波$P_\ell(\hat n \cdot \hat n')$によって実現される。 共形不変な外部ソースとの相互作用がこれらのモードによってのみ媒介されることを検証する。 したがって、これらのモードは「バルク」理論の完全な基礎を構成する。 理論がUVで切り離されるとき、基底次元はベーケンシュタイン・ホーキングの公式としてスケールする。

We consider a conformally coupled scalar QFT on $2+1$ dimensional static Einstein universe $R \times S^2$, and write down the free theory Hilbert space. We explain that this theory is secretly a QFT in $2+1$ de Sitter space because all the quantum observables experience {\it quantum revivals}, which naturally restricts the timelike $R$ to the appropriate de Sitter time range. Our construction circumvents the causal obstruction to formulating QFT in de Sitter due to event horizons. There aren't any in static Einstein. The `unitary gauge' description of the theory is realized by the zonal harmonics $P_\ell(\hat n \cdot \hat n')$. We verify that interactions with conformally invariant external sources are mediated only by these modes. Hence these modes comprise the complete basis of the "bulk" theory. When the theory is cut off in the UV the basis dimension scales as the Bekenstein-Hawking formula.
翻訳日:2024-07-16 03:48:26 公開日:2024-07-10
# サブナチュラル線幅蛍光単光子

Subnatural-linewidth fluorescent single photons ( http://arxiv.org/abs/2103.11801v2 )

ライセンス: Link先を確認
He-bin Zhang, Gao-xiang Li, Yong-Chun Liu, (参考訳) サブナチュラル線幅の単一光子は、量子光学と量子情報科学において必然的に重要である。 これまでの研究では、共鳴蛍光を利用してサブナチュラルな線幅を持つ単一光子を生成することは困難であった。 本稿では, サブナチュラルライン幅を持つ蛍光単光子を生成する方法として, {\Lambda}-形状と類似エネルギー構造に基づいて実装できる手法を提案する。 さらに、サブナチュラル線幅を有する蛍光単光子を得るための一般的な条件を明らかにする。 単一光子線幅は、外界によって広い範囲で容易に操作でき、これは自然の線幅よりも数桁小さいマグニチュードである。 本研究は, 様々な物理プラットフォームにおいて, 現在の実験技術で容易に実施でき, 共鳴蛍光の量子的性質と量子情報科学技術の研究を著しく促進する。

Subnatural-linewidth single photons are ofvital importance in quantum optics and quantum information science. According to previous research, it appears difficult to utilize resonance fluorescence to generate single photons with subnatural linewidth. Here we propose a universally applicable approach to generate fluorescent single photons with subnatural linewidth, which can be implemented based on {\Lambda}-shape and similar energy structures. Further, the general condition to obtain fluorescent single photons with subnatural linewidth is revealed. The single-photon linewidth can be easily manipulated over a broad range by external fields, which can be several orders ofmagnitude smaller than the natural linewidth. Our study can be easily implemented in various physical platforms with current experimental techniques and will significantly facilitate the research on the quantum nature of resonance fluorescence and the technologies in quantum information science.
翻訳日:2024-07-13 00:20:48 公開日:2024-07-10
# ハイブリッドHHL++による量子ハードウェア上の線形システムの解法

Solving Linear Systems on Quantum Hardware with Hybrid HHL++ ( http://arxiv.org/abs/2110.15958v6 )

ライセンス: Link先を確認
Romina Yalovetzky, Pierre Minssen, Dylan Herman, Marco Pistoia, (参考訳) 現在の量子ハードウェアの限られた能力は、ほとんどの量子アルゴリズムプリミティブの実験的なデモンストレーションの規模を著しく制限する。 これにより、有用な量子アルゴリズム、すなわちアプリケーション指向のベンチマークを使用して、現在のハードウェアのベンチマークを実行することが困難になる。 特に、HHL(Harrow-Hassidim-Lloyd)アルゴリズムは臨界量子線型代数プリミティブであるが、HHLの成分の大部分はノイズの多い中間量子デバイスの範囲外にあり、これは古典量子変種ハイブリッドの提案につながっている。 この研究の目的は、提案されているHHLの短期的フレンドリな実装と、ノイズの多いハードウェア上で実行できる量子回路とのギャップをさらに埋めることである。 我々の提案は、現在の量子装置のスケールとより互換性のある線形代数に対するハイブリッド量子アルゴリズムの既存の文献を付け加えるものである。 具体的には,Lee etal が提案するHHLアルゴリズムの2つの改良を提案する。 HHL++の位相推定成分に割り当てられるアシラリー量子ビットの量を最大化する線形系行列のスケーリング係数を決定するための新しいアルゴリズムを提案し、また、HHL回路を圧縮するためのヒューリスティックを導入する。 量子システムモデル H-Series の量子コンピュータ上で,修正したハイブリッド HHL を動作させて,小規模ポートフォリオ最適化問題の異なる問題事例を解くことで,これまでで最大のHHL の実証実験を行った。

The limited capabilities of current quantum hardware significantly constrain the scale of experimental demonstrations of most quantum algorithmic primitives. This makes it challenging to perform benchmarking of the current hardware using useful quantum algorithms, i.e., application-oriented benchmarking. In particular, the Harrow-Hassidim-Lloyd (HHL) algorithm is a critical quantum linear algebra primitive, but the majority of the components of HHL are far out of the reach of noisy intermediate-scale quantum devices, which has led to the proposal of hybrid classical-quantum variants. The goal of this work is to further bridge the gap between proposed near-term friendly implementations of HHL and the kinds of quantum circuits that can be executed on noisy hardware. Our proposal adds to the existing literature of hybrid quantum algorithms for linear algebra that are more compatible with the current scale of quantum devices. Specifically, we propose two modifications to the Hybrid HHL algorithm proposed by Lee etal. leading to our algorithm Hybrid HHL++: (1) propose a novel algorithm for determining a scaling factor for the linear system matrix that maximizes the utility of the amount of ancillary qubits allocated to the phase estimation component of HHL, and (2) introduce a heuristic for compressing the HHL circuit. We demonstrate the efficacy of our work by running our modified Hybrid HHL on Quantinuum System Model H-series trapped-ion quantum computers to solve different problem instances of small-scale portfolio optimization problems, leading to the largest experimental demonstrations of HHL for an application to date.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-10
# 安全な仮想選挙に向けて:秩序に基づく投票規則の多党計算

Towards Secure Virtual Elections: Multiparty Computation of Order Based Voting Rules ( http://arxiv.org/abs/2205.10580v6 )

ライセンス: Link先を確認
Tamir Tassa, Lihi Dery, (参考訳) 電子投票システムは仮想選挙に欠かせないシステムであり、新型コロナウイルスのパンデミックやそれが課す社会的距離により、このようなシステムの必要性が高まっている。 電子投票システムにおける大きな課題の1つは、投票プロセスの確保である。すなわち、計算された結果が鋳造投票と一致していること、有権者のプライバシーが保存されていることを保証することである。 本稿では,秩序に基づく投票規則によって規制される選挙のためのセキュアな投票プロトコルを提案する。 我々のプロトコルは、必要な出力だけを発行するという意味で、完璧な投票秘密を提供するが、キャスト投票に関する他の情報は明らかにしない。 このような完全機密性は、セキュアなマルチパーティ計算ツールを利用することで達成され、有権者の自信を高め、その結果、真の好みに応じて投票することを奨励する。 プロトコルの計算コストの評価は、軽量であり、現実の電子選挙において容易に実装可能であることを証明している。

Electronic voting systems are essential for holding virtual elections, and the need for such systems increases due to the COVID-19 pandemic and the social distancing that it mandates. One of the main challenges in e-voting systems is to secure the voting process: namely, to certify that the computed results are consistent with the cast ballots, and that the privacy of the voters is preserved. We propose herein a secure voting protocol for elections that are governed by order-based voting rules. Our protocol offers perfect ballot secrecy, in the sense that it issues only the required output, while no other information on the cast ballots is revealed. Such perfect secrecy, which is achieved by employing secure multiparty computation tools, may increase the voters' confidence and, consequently, encourage them to vote according to their true preferences. Evaluation of the protocol's computational costs establishes that it is lightweight and can be readily implemented in real-life electronic elections.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-10
# ボース=アインシュタイン凝縮体における暗解のボーム解析:基礎速度場の力学的役割

Bohmian analysis of dark solutions in interfering Bose-Einstein condensates: The dynamical role of underlying velocity fields ( http://arxiv.org/abs/2210.13175v2 )

ライセンス: Link先を確認
J. Tounli, A. S. Sanz, (参考訳) 過去数十年間、ボース=アインシュタイン干渉法の実験的な研究は、有望な技術的意味から多くの注目を集めてきた。 これにより、時間依存Gross-Pitaevskii方程式とその1次元版を解くことを目的とした数値シミュレーションの開発が動機となり、干渉型特徴とその後のソリトン力学の発達をよりよく理解できるようになった。 この研究において、ボヘミア力学は、2つの凝縮体の融合に続くソリトンアレイの生成と進化をリアルタイムに探索し解析するための追加のツールと考えられている。 したがって、その進化に伴う凝縮によって生じる局所的な位相変化に直接リンクする、基礎となる力学速度場の観点から、別の説明が提供される。 ここでは縮小した一次元モデルが検討されているが、それでも現象の本質を捉えており、説明の一般性を低下させることなく完全な進化の絵を描いている。 自由力学と境界力学の微妙さをよりよく理解するために、2つのケースについて論じる。 まず, 2つの自由解放凝縮体のコヒーレント重ね合わせにより表されるソリトンダイナミクスについて検討し, その基礎となる速度場と対応するフラックス軌道の特異性について, 2つの初期雲間のピーク-ピーク距離とそれらの位相差の付加について考察した。 後者の場合、有名なアハロノフ・ボーム効果と興味深い対応が見られる。 そして、高調波トラップの2つの反対旋回点から放出される2つの凝縮体のより一般的な場合によって示される再発ダイナミクスを、そのような旋回点間の距離の観点から考慮する。 [...]

In the last decades, the experimental research on Bose-Einstein interferometry has received much attention due to promising technological implications. This has thus motivated the development of numerical simulations aimed at solving the time-dependent Gross-Pitaevskii equation and its reduced one-dimensional version to better understand the development of interference-type features and the subsequent soliton dynamics. In this work, Bohmian mechanics is considered as an additional tool to further explore and analyze the formation and evolution in real time of the soliton arrays that follow the merging of two condensates. An alternative explanation is thus provided in terms of an underlying dynamical velocity field, directly linked to the local phase variations undergone by the condensate along its evolution. Although the reduced one-dimensional model is considered here, it still captures the essence of the phenomenon, rendering a neat picture of the full evolution without diminishing the generality of the description. To better appreciate the subtleties of free versus bound dynamics, two cases are discussed. First, the soliton dynamics exhibited by a coherent superposition of two freely released condensates is studied, discussing the peculiarities of the underlying velocity field and the corresponding flux trajectories in terms of both the peak-to-peak distance between the two initial clouds and the addition of a phase difference between them. In the latter case, an interesting correspondence with the well-known Aharonov-Bohm effect is found. Then, the recurrence dynamics displayed by the more general case of two condensates released from the two opposite turning points of a harmonic trap is considered in terms of the distance between such turning points. [...]
翻訳日:2024-07-13 00:16:54 公開日:2024-07-10
# カーネルリッジ回帰のためのロバスト・ランダム化プレコンディショニング

Robust, randomized preconditioning for kernel ridge regression ( http://arxiv.org/abs/2304.12465v4 )

ライセンス: Link先を確認
Mateo Díaz, Ethan N. Epperly, Zachary Frangella, Joel A. Tropp, Robert J. Webber, (参考訳) 本稿では,カーネルリッジ回帰(KRR)問題を中~多量のデータポイント(10^4 \leq N \leq 10^7$)で解くための2つのランダム化プレコンディショニング手法を検討した。 最初の方法であるRPCholeskyプレコンディショニングは、カーネル行列固有値の十分速い多項式崩壊を仮定して、$O(N^2)$算術演算の完全データKRR問題を正確に解く。 2つ目の方法、KRILLプリコンディショニングは、$k \ll N$選択されたデータセンターを$O((N + k^2) k \log k)の演算で制限されたバージョンのKRR問題に対する正確な解決策を提供する。 提案手法は広い範囲のKRR問題を解き、実用的な応用に最適である。

This paper investigates two randomized preconditioning techniques for solving kernel ridge regression (KRR) problems with a medium to large number of data points ($10^4 \leq N \leq 10^7$), and it introduces two new methods with state-of-the-art performance. The first method, RPCholesky preconditioning, accurately solves the full-data KRR problem in $O(N^2)$ arithmetic operations, assuming sufficiently rapid polynomial decay of the kernel matrix eigenvalues. The second method, KRILL preconditioning, offers an accurate solution to a restricted version of the KRR problem involving $k \ll N$ selected data centers at a cost of $O((N + k^2) k \log k)$ operations. The proposed methods solve a broad range of KRR problems, making them ideal for practical applications.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-10
# 連続観測下での差分プライバシーを持つ旋律モデルにおける固有要素の計数

Counting Distinct Elements in the Turnstile Model with Differential Privacy under Continual Observation ( http://arxiv.org/abs/2306.06723v3 )

ライセンス: Link先を確認
Palak Jain, Iden Kalemaj, Sofya Raskhodnikova, Satchit Sivakumar, Adam Smith, (参考訳) プライバシは、センシティブなデータセットから学ぶシステムにとって、特に変化するデータを反映するためにシステムのアウトプットを継続的に更新する必要がある場合において、中心的な課題である。 我々は、アイテムの挿入と削除の両方が可能なストリーム(ターンタイルモデル)において、基本統計量(異なるアイテムの数)を微分的にプライベートにリリースする際の達成可能なエラーについて検討する。 挿入のみの場合、既存のアルゴリズムはストリームの長さが$T$の付加誤差を持つ。 メモリ制限を考慮せずにターンタイルモデルで、はるかにリッチなランドスケープを発見しました。 挿入や削除を処理するすべての微分プライベートなメカニズムは、比較的弱いイベントレベルのプライバシ定義の下でも、最悪の追加エラーを少なくとも$T^{1/4}$で発生します。 そして,入力ストリームのパラメータ,最大浮動小数点数,自然データストリームの低いパラメータを同定し,パラメータ化誤差を厳格に保証する。 具体的には、最大フリップパシーは、異なる要素に対する1つのアイテムの寄与がストリームの途中で変化を計上する最大の回数である。 最大フリップパンシー$w$を持つすべてのターンタイルストリームに対して、$O(\sqrt{w} \cdot poly\log T)$加法誤差を$w$の事前知識を必要とせずに連続的に出力するアイテムレベルの差分プライベートメカニズムを提案する。 これは、$w$の広い範囲の値に対して、$w$のみに依存する最も達成可能なエラー境界であることを示す。 w$ が小さい場合、我々の機構の誤差は挿入のみの設定における$T$ の誤差と類似しており、ターンタイルモデルの硬さを回避している。

Privacy is a central challenge for systems that learn from sensitive data sets, especially when a system's outputs must be continuously updated to reflect changing data. We consider the achievable error for differentially private continual release of a basic statistic - the number of distinct items - in a stream where items may be both inserted and deleted (the turnstile model). With only insertions, existing algorithms have additive error just polylogarithmic in the length of the stream $T$. We uncover a much richer landscape in the turnstile model, even without considering memory restrictions. We show that every differentially private mechanism that handles insertions and deletions has worst-case additive error at least $T^{1/4}$ even under a relatively weak, event-level privacy definition. Then, we identify a parameter of the input stream, its maximum flippancy, that is low for natural data streams and for which we give tight parameterized error guarantees. Specifically, the maximum flippancy is the largest number of times that the contribution of a single item to the distinct elements count changes over the course of the stream. We present an item-level differentially private mechanism that, for all turnstile streams with maximum flippancy $w$, continually outputs the number of distinct elements with an $O(\sqrt{w} \cdot poly\log T)$ additive error, without requiring prior knowledge of $w$. We prove that this is the best achievable error bound that depends only on $w$, for a large range of values of $w$. When $w$ is small, the error of our mechanism is similar to the polylogarithmic in $T$ error in the insertion-only setting, bypassing the hardness in the turnstile model.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-10
# カテゴリー適応は、一般化された連続的なカテゴリー発見において、予想される蒸留と一致する

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery ( http://arxiv.org/abs/2308.12112v2 )

ライセンス: Link先を確認
Grzegorz Rypeść, Daniel Marczak, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Generalized Continual Category Discovery (GCCD)は、新しいカテゴリを明らかにしながら、シーケンシャルに到達し、部分的にラベル付けされたデータセットから学習に取り組む。 伝統的な方法は、古い知識を忘れないように特徴蒸留に依存する。 しかし、この戦略はモデルが適応し、新しいカテゴリを効果的に区別する能力を制限する。 そこで本研究では,学習可能なプロジェクタと特徴蒸留を統合し,過去の知識を犠牲にすることなくモデル適応性を向上する手法を提案する。 得られたカテゴリの分布シフトは、補助カテゴリ適応ネットワークにより緩和される。 CAMP(Category Adaptation Meets Projected distillation)と呼ばれる組み合わせは、新しい情報学習と古い情報保持のバランスを大幅に改善する。 CAMPは、いくつかのGCCDシナリオにおいて、模範の有無にかかわらず優れたパフォーマンスを示す。 さらに、CAMPは確立されたクラスインクリメンタルラーニング設定に翻訳し、最先端の結果を達成する。

Generalized Continual Category Discovery (GCCD) tackles learning from sequentially arriving, partially labeled datasets while uncovering new categories. Traditional methods depend on feature distillation to prevent forgetting the old knowledge. However, this strategy restricts the model's ability to adapt and effectively distinguish new categories. To address this, we introduce a novel technique integrating a learnable projector with feature distillation, thus enhancing model adaptability without sacrificing past knowledge. The resulting distribution shift of the previously learned categories is mitigated with the auxiliary category adaptation network. We demonstrate that while each component offers modest benefits individually, their combination -- dubbed CAMP (Category Adaptation Meets Projected distillation) -- significantly improves the balance between learning new information and retaining old. CAMP exhibits superior performance across several GCCD scenarios with or without exemplars. Additionally, CAMP translates to a well-established Class Incremental Learning setting, achieving state-of-the-art results.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-10
# 量子相転移の微視的スケール:ドープ半導体からスピン鎖、コールドガス、モアレ超格子

Microscopic scale of quantum phase transitions: from doped semiconductors to spin chains, cold gases and moiré superlattices ( http://arxiv.org/abs/2309.00749v3 )

ライセンス: Link先を確認
Andrey Rogachev, (参考訳) 連続量子相転移(QPT)の近傍では、量子系はスケール不変となり、臨界指数の集合によって特徴づけられる普遍性クラスに分類することができる。 実験データには, スケール不変性や普遍性にも拘わらず, 微視的プロセスやQPTを管理するスケールに関する情報が含まれていることがわかった。 多くのシステムにおいて、QPT近傍のスケールしたデータは、局所化のスケーリング理論で導入された一般的な指数依存によって近似できることが判明した。 また、相互作用系の場合、温度はプランク時間によって設定されたライフタイム上のシステム固有の初等励起によって移動される長さの正規化群フローを、$\tau_P$=$\hbar/k_BT$で削減する。 いくつかのシステムでこの手法をQPTに適用し、実験から抽出した$L_0$は物理的に予測された最小長スケールに匹敵するものであることを示した。 i)ドープ半導体Si:Bにおける金属絶縁体転移の平均自由経路 (ii)ハイゼンベルク鎖とイジング鎖のスピン間の距離。 三 コールド原子ボソンガスの光学格子の期間及び (4) ジアルコゲナイド二層膜におけるモットQPTのモワール超格子の期間。 Si:Pの金属絶縁体遷移は非相互作用型モデルを用いて説明されている。 2つの共役論文において、超伝導系では、$L_0$は超伝導コヒーレンス長に、量子ホール系では磁気長に匹敵することを示した。 データ分析の新しい手法は、QPTにつながる微視的過程を特定し、実験データの大体を定量的に説明し、統一する。

In the vicinity of continuous quantum phase transitions (QPTs), quantum systems become scale-invariant and can be grouped into universality classes characterized by sets of critical exponents. We have found that despite scale-invariance and universality, the experimental data still contain information related to the microscopic processes and scales governing QPTs. We have found that for many systems, the scaled data near QPTs can be approximated by the generic exponential dependence introduced in the scaling theory of localization; this dependence includes as a parameter a microscopic seeding scale of the renormalization group, $L_0$. We have also conjectured that for interacting systems, the temperature cuts the renormalization group flow at the length travelled by a system-specific elementary excitation over the life-time set by the Planckian time, $\tau_P$=$\hbar/k_BT$. We have adapted this approach for QPTs in several systems and showed that $L_0$ extracted from experiment is comparable to physically-expected minimal length scales, namely (i) the mean free path for metal-insulator transition in doped semiconductor Si:B, (ii) the distance between spins in Heisenberg and Ising chains, (iii) the period of an optical lattice for cold atom boson gases, and (iv) the period of a moir\'e superlattice for the Mott QPT in dichalcogenide bilayers. The metal-insulator transition in Si:P has been explained using a non-interacting version of the model. In two companion papers, we show that in superconducting systems, $L_0$ is comparable to superconducting coherence length, and in quantum Hall systems, to the magnetic length. The developed new method of data analysis identifies microscopic processes leading to QPTs and quantitatively explains and unifies a large body of experimental data.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-10
# 道路交通事故予測のための不確実性を考慮した確率的グラフニューラルネットワーク

Uncertainty-Aware Probabilistic Graph Neural Networks for Road-Level Traffic Accident Prediction ( http://arxiv.org/abs/2309.05072v3 )

ライセンス: Link先を確認
Xiaowei Gao, Xinke Jiang, Dingyi Zhuang, Huanfa Chen, Shenhao Wang, Stephen Law, James Haworth, (参考訳) 交通事故は、都市部における人間の安全と社会経済の発展に重大な課題をもたらす。 交通事故予測モデルの構築は、公共の安全に関する懸念の高まりに対処し、都市交通システムの安全性を高める上で重要である。 従来の手法では、高リスク事故の散発性や非事故特性の優位性により、時空間的に微妙な制限に直面している。 さらに,ほとんどのモデルでは,事故発生予測が期待できるが,事故の本質から生じる不確実性を見落として,事故リスク値の階層的ランキングを適切にマッピングし,より正確な洞察を得ることができない。 これらの問題に対処するために、道路交通事故予測における最初の不確実性を考慮した確率的グラフ深層学習モデルであるSpatiotemporal Zero-Inflated Tweedie Graph Neural Network STZITDGNNを導入する。 このモデルは、統計的ツイーディー族モデルの解釈可能性とグラフニューラルネットワークの表現力を統合する。 そのデコーダは、複合Tweedieモデル、ポアソン分布を用いて事故発生頻度をモデル化し、ガンマ分布を用いて損傷の重症度を評価する。 ロンドンにおける実世界の交通データを用いた実証テストでは、STZITDGNNが、事故リスクの予測、不確実性最小化、事故発生の特定、事故発生の正確性など、複数のベンチマークとメトリクスで、他のベースラインモデルを上回ることが示されている。 本研究は,STZTIDGNNが目標道路の監視を効果的に行えることを示し,都市道路安全戦略の改善を図った。

Traffic accidents present substantial challenges to human safety and socio-economic development in urban areas. Developing a reliable and responsible traffic accident prediction model is crucial to addressing growing public safety concerns and enhancing the safety of urban mobility systems. Traditional methods face limitations at fine spatiotemporal scales due to the sporadic nature of highrisk accidents and the predominance of non-accident characteristics. Furthermore, while most current models show promising occurrence prediction, they overlook the uncertainties arising from the inherent nature of accidents, and then fail to adequately map the hierarchical ranking of accident risk values for more precise insights. To address these issues, we introduce the Spatiotemporal Zero-Inflated Tweedie Graph Neural Network STZITDGNN -- the first uncertainty-aware probabilistic graph deep learning model in roadlevel traffic accident prediction for multisteps. This model integrates the interpretability of the statistical Tweedie family model and the expressive power of graph neural networks. Its decoder innovatively employs a compound Tweedie model,a Poisson distribution to model the frequency of accident occurrences and a Gamma distribution to assess injury severity, supplemented by a zeroinflated component to effectively identify exessive nonincident instances. Empirical tests using realworld traffic data from London, UK, demonstrate that the STZITDGNN surpasses other baseline models across multiple benchmarks and metrics, including accident risk value prediction, uncertainty minimisation, non-accident road identification and accident occurrence accuracy. Our study demonstrates that STZTIDGNN can effectively inform targeted road monitoring, thereby improving urban road safety strategies.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-10
# 長い道のり:RLHFにおける長さ相関の調査

A Long Way to Go: Investigating Length Correlations in RLHF ( http://arxiv.org/abs/2310.03716v2 )

ライセンス: Link先を確認
Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett, (参考訳) Reinforcement Learning from Human Feedback (RLHF) を用いて大規模な言語モデルを調整し、特に対話やウェブ質問応答といったタスクにおいて、より広範な実験を可能にするオープンな嗜好データセットで大きな成功を収めたと報告されている。 しかしながら、これらの改善に加えて、RLHFはしばしばより長い出力を生成するためにモデルを駆動する。 本稿では,RLHFの背後にある重要な要因として,応答長の最適化がこれまで考えられてきたよりもはるかに多いことを3つの多様な設定で示す。 RL最適化が報酬を最大化するために利用する戦略を研究すると、報酬の改善は、他の機能ではなく、応答長の増加によって大きく促進される。 実際、純粋に長さに基づく報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現することがわかった。 包括的長さ計数介入テストを行い、これらのバイアスの主源を報酬モデルとし、トレーニング力学の研究により、選好データにおける長さ計数バイアスの影響を受けやすいことが判明した。

Great success has been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models, with open preference datasets enabling wider experimentation, particularly for "helpfulness" in tasks like dialogue and web question answering. Alongside these improvements, however, RLHF also often drives models to produce longer outputs. This paper demonstrates, on three diverse settings, that optimizing for response length is, much more than previously thought, a significant factor behind RLHF. Studying the strategies RL optimization uses to maximize reward, we find improvements in reward to largely be driven by increasing response length, instead of other features. Indeed, we find that even a purely length-based reward reproduces most downstream RLHF improvements over supervised fine-tuned models. Testing a comprehensive set of length-countering interventions, we identify the dominant source of these biases to be reward models, which, by studying training dynamics, we find are non-robust and easily influenced by length biases in preference data.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-10
# AlpaCare:医学応用のための指導訓練型大規模言語モデル

AlpaCare:Instruction-tuned Large Language Models for Medical Application ( http://arxiv.org/abs/2310.14558v5 )

ライセンス: Link先を確認
Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold, (参考訳) インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と多様な人的ニーズの整合に不可欠であり,医学的応用に大きな可能性を示している。 しかし、従来の研究は主に、ベンチマークやタスク範囲の狭い生物医学的データセットを微調整し、その結果、医学的な指導・追跡能力と一般化性に対する効果を著しく制限した。 このギャップを埋めるため,GPT-4 と ChatGPT を用いた多種多様な医学 IFT データセット MedInstruct-52k の作成を提案する。 次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。 AlpaCareは、以前の医療用LLMよりも小さなドメイン固有のデータセットを使用しているが、医療応用において優れたパフォーマンスを示すだけでなく、医療用フリーフォームの命令評価において、最高基準よりも38.1%の絶対的なゲインを持つだけでなく、複数の一般的なドメインベンチマークで平均6.7%の絶対的なゲインを達成する。 人間の評価はさらに、AlpaCareは正確性と有用性の両方の観点から、最高のベースラインを一貫して上回っていることを示している。 データ、モデル、コードベースへの公開アクセスはhttps://github.com/XZhang97666/AlpaCare.comで提供しています。

Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-10
# 問題シフトのための確率的特徴融合を用いたマルチパス長期船軌道予測

Multi-Path Long-Term Vessel Trajectories Forecasting with Probabilistic Feature Fusion for Problem Shifting ( http://arxiv.org/abs/2310.18948v6 )

ライセンス: Link先を確認
Gabriel Spadon, Jay Kumar, Derek Eden, Josh van Berkel, Tom Foster, Amilcar Soares, Ronan Fablet, Stan Matwin, Ronald Pelot, (参考訳) 本稿では,自動識別システム(AIS)データを用いた多経路長期船体軌道予測の精度向上に向けた課題について述べる。 我々は,1~3時間のAISデータを入力として,深層自動エンコーダモデルとフェーズド・フレームワーク・アプローチを開発した。 この目的のために,AIS メッセージの時空間的特徴と,潜在的経路や目的地を示す歴史的AIS データに基づく確率的特徴を融合する。 その結果,軌道再構成問題に遷移することで,予測の不確実性を低減できることがわかった。 確率的特徴は、船のルートと目的地の予測に対して、それぞれ約85%と75%のF1スコアを持つ。 このような状況下では,R2スコアは異なる層構造と異なる特徴の組み合わせで98%以上を達成し,高いR2スコアは研究領域における明確に定義された輸送レーンの自然な結果である。 しかし,提案手法は,旋回や経路選択における複雑な意思決定能力を示すため,競合するアプローチの中でも顕著である。 さらに,本モデルでは, 平均誤差と中央値誤差をそれぞれ11km, 6kmと精度良く予測できることが確認できた。 この提案から得られたモデルは、SmartWhalesイニシアチブの下での船舶と鯨の衝突のリスクを防ぎ、カナダ大西洋岸のセントローレンス湾で行動することによって、クジラを保護するためのより広範な決定支援システムの一部として展開される。

This paper addresses the challenge of boosting the precision of multi-path long-term vessel trajectory forecasting on engineered sequences of Automatic Identification System (AIS) data using feature fusion for problem shifting. We have developed a deep auto-encoder model and a phased framework approach to predict the next 12 hours of vessel trajectories using 1 to 3 hours of AIS data as input. To this end, we fuse the spatiotemporal features from the AIS messages with probabilistic features engineered from historical AIS data referring to potential routes and destinations. As a result, we reduce the forecasting uncertainty by shifting the problem into a trajectory reconstruction problem. The probabilistic features have an F1-Score of approximately 85% and 75% for the vessel route and destination prediction, respectively. Under such circumstances, we achieved an R2 Score of over 98% with different layer structures and varying feature combinations; the high R2 Score is a natural outcome of the well-defined shipping lanes in the study region. However, our proposal stands out among competing approaches as it demonstrates the capability of complex decision-making during turnings and route selection. Furthermore, we have shown that our model achieves more accurate forecasting with average and median errors of 11km and 6km, respectively, a 25% improvement from the current state-of-the-art approaches. The resulting model from this proposal is deployed as part of a broader Decision Support System to safeguard whales by preventing the risk of vessel-whale collisions under the smartWhales initiative and acting on the Gulf of St. Lawrence in Atlantic Canada.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-10
# 量子音響ドリューピークシフト

Quantum-Acoustical Drude Peak Shift ( http://arxiv.org/abs/2310.19143v3 )

ライセンス: Link先を確認
J. Keski-Rahkonen, X. -Y. Ouyang, S. Yuan, A. M. Graf, A. Aydin, E. J. Heller, (参考訳) 量子音響 - 最近開発された量子光学と平行なフレームワーク - は、実空間における電子-フォノン相互作用の非摂動的かつコヒーレントな処理を確立する。 量子音響的表現は、Fr\"ohlichモデル内の平らな視界に変位したDrudeピーク隠蔽が示され、光伝導度は遠赤外線範囲において有限周波最大値を示し、d.c.伝導度は抑制される。 以上の結果から, 高温吸収ピークの発生源を解明し, 動的格子障害が非ドルデ挙動に寄与していることが判明した。

Quantum acoustics -- a recently developed framework parallel to quantum optics -- establishesa nonperturbative and coherent treatment of the electron-phonon interaction in real space. The quantum-acoustical representation reveals a displaced Drude peak hid ing in plain sight within the venerable Fr\"ohlich model: the optical conductivity exhibits a finite frequency maximum in the far-infrared range and the d.c. conductivity is suppressed. Our results elucidate the origin of the high-temperature absorption peaks in strange or bad metals, revealing that dynamical lattice disorder steers the system towards a non-Drude behavior
翻訳日:2024-07-12 23:47:33 公開日:2024-07-10
# 医学における大規模言語モデル : 進歩, 応用, 課題

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge ( http://arxiv.org/abs/2311.05112v6 )

ライセンス: Link先を確認
Hongjian Zhou, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Chenyu You, Xian Wu, Yefeng Zheng, Lei Clifton, Zheng Li, Jiebo Luo, David A. Clifton, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語を理解して生成する能力のために、かなりの注目を集めている。 様々な医療業務(例えば、臨床診断の強化、医学教育の提供)におけるLSMの活用に焦点をあてた研究が盛んに行われているが、これらの取り組み、特にその開発、実践的応用、医学における成果のレビューは乏しいままである。 そこで本報告では,医学におけるLSMの開発と展開について,それらが直面する課題や機会を概観する。 開発に関しては,基礎的なモデル構造,パラメータの数,モデル開発に使用されるデータソースとスケールなど,既存の医療用LCMの原理を詳細に紹介する。 特定のニーズに合わせて医療用LLMを開発する実践者のためのガイドとして機能する。 展開の面では、様々な医療タスクにおける異なるLSMの性能の比較を行い、さらに医学におけるLSMの利点と限界を理解することを目的として、最先端の軽量モデルと比較する。 全体として、このレビューでは、以下の疑問に対処する。 1)医療用LSMの開発における実践 2) 医療現場におけるLCMの医療タスクパフォーマンスの測定方法 3)医療用LLMはどのようにして現実の実践に使われてきたか? 4) 医療用LSMの使用による課題は何か。 そして 5)医療用LLMをより効果的に開発・展開する方法 これらの疑問に答えることにより、医学におけるLSMの機会についての洞察を提供し、実践的な資源として機能することを目的としている。 また、医療用LCMの実践的ガイドをhttps://github.com/AI-in-Health/MedLLMsPracticalGuideで定期的に更新している。

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their capabilities for understanding and generating human language. While there has been a burgeoning trend in research focusing on the employment of LLMs in supporting different medical tasks (e.g., enhancing clinical diagnostics and providing medical education), a review of these efforts, particularly their development, practical applications, and outcomes in medicine, remains scarce. Therefore, this review aims to provide a detailed overview of the development and deployment of LLMs in medicine, including the challenges and opportunities they face. In terms of development, we provide a detailed introduction to the principles of existing medical LLMs, including their basic model structures, number of parameters, and sources and scales of data used for model development. It serves as a guide for practitioners in developing medical LLMs tailored to their specific needs. In terms of deployment, we offer a comparison of the performance of different LLMs across various medical tasks, and further compare them with state-of-the-art lightweight models, aiming to provide an understanding of the advantages and limitations of LLMs in medicine. Overall, in this review, we address the following questions: 1) What are the practices for developing medical LLMs 2) How to measure the medical task performance of LLMs in a medical setting? 3) How have medical LLMs been employed in real-world practice? 4) What challenges arise from the use of medical LLMs? and 5) How to more effectively develop and deploy medical LLMs? By answering these questions, this review aims to provide insights into the opportunities for LLMs in medicine and serve as a practical resource. We also maintain a regularly updated list of practical guides on medical LLMs at https://github.com/AI-in-Health/MedLLMsPracticalGuide
翻訳日:2024-07-12 23:37:48 公開日:2024-07-10
# OracleとAIに関する議論で大きなゲームをする

Playing Large Games with Oracles and AI Debate ( http://arxiv.org/abs/2312.04792v4 )

ライセンス: Link先を確認
Xinyi Chen, Angelica Chen, Dean Foster, Elad Hazan, (参考訳) 我々は、非常に多くのアクションを伴う繰り返しゲームにおける後悔の最小化について検討する。 このようなゲームは、Debate \cite{irving2018ai}によるAI Safetyの設定に固有のものであり、より一般的には、アクションが言語ベースであるゲームである。 既存のオンラインゲームプレイのアルゴリズムでは、アクションの個数に設定ごとの計算多項式が必要であるが、これは大きなゲームでは禁じられる。 そこで私たちは、オラクルベースのアルゴリズムを、自然にAIエージェントへのアクセスをモデル化しているとみなしている。 オラクルアクセスでは、内部と外部の後悔を効果的に最小化できる時を特徴付ける。 動作数を対数的に依存する外部と内部の後悔の最小化を同時に行うための,新しい効率的なアルゴリズムを提案する。 我々は、AI Safety via Debateの設定において、アルゴリズム分析からの洞察の恩恵を示す実験で締めくくります。

We consider regret minimization in repeated games with a very large number of actions. Such games are inherent in the setting of AI Safety via Debate \cite{irving2018ai}, and more generally games whose actions are language-based. Existing algorithms for online game playing require per-iteration computation polynomial in the number of actions, which can be prohibitive for large games. We thus consider oracle-based algorithms, as oracles naturally model access to AI agents. With oracle access, we characterize when internal and external regret can be minimized efficiently. We give a novel efficient algorithm for simultaneous external and internal regret minimization whose regret depends logarithmically on the number of actions. We conclude with experiments in the setting of AI Safety via Debate that shows the benefit of insights from our algorithmic analysis.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-10
# 重力にインスパイアされたディープラーニングモデルによるグローバルな海上交通網予測の強化

Enhancing Global Maritime Traffic Network Forecasting with Gravity-Inspired Deep Learning Models ( http://arxiv.org/abs/2401.13098v3 )

ライセンス: Link先を確認
Ruixin Song, Gabriel Spadon, Ronald Pelot, Stan Matwin, Amilcar Soares, (参考訳) 水生非先住民種(NIS)は生物多様性に重大な脅威を与え、生態系を破壊し、農業、林業、漁業に重大な経済被害を与える。 グローバルな貿易・交通ネットワークの急速な成長により、NISは新たな環境において意図せず導入・普及してきた。 本研究では,世界の港湾地域間の海上輸送を予測するための物理インフォームドモデルを開発した。 これらのモデルにより得られた予測情報は, 輸送ネットワークに分散したNISのリスク評価の入力として利用され, ソリューションの能力を評価する。 国際貿易の重力モデルにインスパイアされた本モデルは,船舶のフラックス密度,港間距離,貿易フロー,交通ハブの集中度など,船舶活動の可能性と影響に影響を与える諸要因を考察した。 そこで本稿では,リスク解析を実現するための短期的・長期的依存関係を再構築するために,重力モデルへのトランスフォーマーを導入する。 そこで本研究では,既設・既設軌道に対して89%のバイナリ精度を達成し,キーポート領域間を流れる船舶の数に対して84.8%の精度を達成し,従来の深層重力モデルよりも10%以上改善した物理に着想を得たフレームワークを提案する。 これらの線に沿って、この研究はNISリスクアセスメントのより深い理解に寄与する。 政策立案者、保護主義者、利害関係者は、リスクの高い侵入経路を特定して管理行動の優先順位を付けることができる。 また,本モデルは多種多様であり,新たなデータソースを組み込むことが可能であり,世界環境の変化にともなう国際船舶交通フローの評価に適している。

Aquatic non-indigenous species (NIS) pose significant threats to biodiversity, disrupting ecosystems and inflicting substantial economic damages across agriculture, forestry, and fisheries. Due to the fast growth of global trade and transportation networks, NIS has been introduced and spread unintentionally in new environments. This study develops a new physics-informed model to forecast maritime shipping traffic between port regions worldwide. The predicted information provided by these models, in turn, is used as input for risk assessment of NIS spread through transportation networks to evaluate the capability of our solution. Inspired by the gravity model for international trades, our model considers various factors that influence the likelihood and impact of vessel activities, such as shipping flux density, distance between ports, trade flow, and centrality measures of transportation hubs. Accordingly, this paper introduces transformers to gravity models to rebuild the short- and long-term dependencies that make the risk analysis feasible. Thus, we introduce a physics-inspired framework that achieves an 89% binary accuracy for existing and non-existing trajectories and an 84.8% accuracy for the number of vessels flowing between key port areas, representing more than 10% improvement over the traditional deep-gravity model. Along these lines, this research contributes to a better understanding of NIS risk assessment. It allows policymakers, conservationists, and stakeholders to prioritize management actions by identifying high-risk invasion pathways. Besides, our model is versatile and can include new data sources, making it suitable for assessing international vessel traffic flow in a changing global landscape.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-10
# NCoder -- データ符号化のための量子場理論アプローチ

NCoder -- A Quantum Field Theory approach to encoding data ( http://arxiv.org/abs/2402.00944v2 )

ライセンス: Link先を確認
David S. Berman, Marc S. Klinger, Alexander G. Stapleton, (参考訳) 本稿では,NCoderと呼ばれる量子場理論(QFT)に着想を得た新しいAI手法を提案する。 NCoderは、潜伏層が$n$-point相関関数のサブセットとして指定された修正されたオートエンコーダニューラルネットワークである。 格子場理論から引き出された画像について、このアーキテクチャはファインマン図を用いた拡張において、理論の順序の効果的な作用を順序で摂動的に構築するタスクを模倣する。 あるいは、NCoderは、高次元データをいくつかの低次元の要約統計量(以下、$n$-point相関関数)でまず要約し、その後、これらの統計量からデータ生成分布を推測してサンプル外データを生成するような統計的推論の手順をシミュレートしたものとみなすことができる。 このようにして、NCoderは摂動的再正規化可能性とモデルの十分性の間の魅力的な対応を提案する。 我々は、MNIST画像の生成にNCoderを適用して、NCoderの有効性を実証し、生成した画像は、画像分布の最初の3$n$-point関数の情報のみを用いて正しく分類できることを示した。

In this paper we present a novel approach to interpretable AI inspired by Quantum Field Theory (QFT) which we call the NCoder. The NCoder is a modified autoencoder neural network whose latent layer is prescribed to be a subset of $n$-point correlation functions. Regarding images as draws from a lattice field theory, this architecture mimics the task of perturbatively constructing the effective action of the theory order by order in an expansion using Feynman diagrams. Alternatively, the NCoder may be regarded as simulating the procedure of statistical inference whereby high dimensional data is first summarized in terms of several lower dimensional summary statistics (here the $n$-point correlation functions), and subsequent out-of-sample data is generated by inferring the data generating distribution from these statistics. In this way the NCoder suggests a fascinating correspondence between perturbative renormalizability and the sufficiency of models. We demonstrate the efficacy of the NCoder by applying it to the generation of MNIST images, and find that generated images can be correctly classified using only information from the first three $n$-point functions of the image distribution.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-10
# ビジョンランゲージモデルによる画像融合

Image Fusion via Vision-Language Model ( http://arxiv.org/abs/2402.02235v2 )

ライセンス: Link先を確認
Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool, (参考訳) 画像融合は、複数の画像から必要不可欠な情報を1つの複合体に統合し、構造、テクスチャ、そして不完全性を補う。 既存の手法は主に認識のためのピクセルレベルとセマンティックな視覚的特徴に焦点を当てるが、しばしば視覚を超えたより深いテキストレベルのセマンティック情報を見落としている。 そこで我々は,VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて導入し,画像からの明示的なテキスト情報を利用して融合プロセスの導出を行う。 具体的には、FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。 これらの記述はテキスト領域内で融合し、視覚情報融合を誘導し、クロスアテンションを介してテキスト意味情報によって指示される特徴抽出と文脈理解を強化する。 FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。 また、4つの融合タスクにまたがる8つの画像融合データセットについて、ChatGPT生成項を記述した視覚言語データセットを提案する。 コードとデータセットはhttps://github.com/Zhaozixiang1228/IF-FILMで公開されている。

Image fusion integrates essential information from multiple images into a single composite, enhancing structures, textures, and refining imperfections. Existing methods predominantly focus on pixel-level and semantic visual features for recognition, but often overlook the deeper text-level semantic information beyond vision. Therefore, we introduce a novel fusion paradigm named image Fusion via vIsion-Language Model (FILM), for the first time, utilizing explicit textual information from source images to guide the fusion process. Specifically, FILM generates semantic prompts from images and inputs them into ChatGPT for comprehensive textual descriptions. These descriptions are fused within the textual domain and guide the visual information fusion, enhancing feature extraction and contextual understanding, directed by textual semantic information via cross-attention. FILM has shown promising results in four image fusion tasks: infrared-visible, medical, multi-exposure, and multi-focus image fusion. We also propose a vision-language dataset containing ChatGPT-generated paragraph descriptions for the eight image fusion datasets across four fusion tasks, facilitating future research in vision-language model-based image fusion. Code and dataset are available at https://github.com/Zhaozixiang1228/IF-FILM.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-10
# チャネル事前補正とガンマ補正による軽量低光画像強調ネットワーク

A Lightweight Low-Light Image Enhancement Network via Channel Prior and Gamma Correction ( http://arxiv.org/abs/2402.18147v2 )

ライセンス: Link先を確認
Shyang-En Weng, Shaou-Gang Miaou, Ricky Christanto, (参考訳) 人間の視覚は、物体を知覚するために利用可能な環境光に大きく依存する。 低照度シーンには、照明不足による情報損失と望ましくない明るさシフトという2つの異なる課題がある。 LLIE(ローライト・イメージ・エンハンスメント)は、このシナリオに対応するために設計された画像エンハンスメント技術である。 我々は,暗黒チャネル先行と深層学習によるガンマ補正を組み合わせた革新的なLLIEネットワークであるCPGA-Netを導入し,大気散乱モデルとレチネックス理論に触発された特徴を統合する。 このアプローチは、基本的な特徴抽出に焦点を当てた、シンプルだが効率的なアーキテクチャフレームワーク内で設計された、伝統的およびディープラーニングの方法論の使用を組み合わせる。 得られたCPGA-Netは,パラメータが0.025万,推論時間が0.030秒の軽量ネットワークである。 さらに, 知識蒸留を説明可能な要素で利用し, パラメータ0.018万, 推論時間0.006秒の効率的なバージョンを提案した。 提案手法はLLIEに新しいソリューションのアイデアを注入し、低照度シナリオに挑戦する実践的な応用を提供する。

Human vision relies heavily on available ambient light to perceive objects. Low-light scenes pose two distinct challenges: information loss due to insufficient illumination and undesirable brightness shifts. Low-light image enhancement (LLIE) refers to image enhancement technology tailored to handle this scenario. We introduce CPGA-Net, an innovative LLIE network that combines dark/bright channel priors and gamma correction via deep learning and integrates features inspired by the Atmospheric Scattering Model and the Retinex Theory. This approach combines the use of traditional and deep learning methodologies, designed within a simple yet efficient architectural framework that focuses on essential feature extraction. The resulting CPGA-Net is a lightweight network with only 0.025 million parameters and 0.030 seconds for inference time, yet it achieves superior performance over existing LLIE methods on both objective and subjective evaluation criteria. Furthermore, we utilized knowledge distillation with explainable factors and proposed an efficient version that achieves 0.018 million parameters and 0.006 seconds for inference time. The proposed approaches inject new solution ideas into LLIE, providing practical applications in challenging low-light scenarios.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-10
# Masked Thought:simply Masking partial Reasoning Steps can improves Mathematical Reasoning Learning of Language Models

Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models ( http://arxiv.org/abs/2403.02178v2 )

ライセンス: Link先を確認
Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu, Xin Gao, Ji-Rong Wen, Rui Yan, Yongbin Li, (参考訳) 推論タスクでは、マイナーエラーでさえ不正確な結果にカスケードすることができ、そのような領域における大規模言語モデルの最適下性能をもたらす。 初期の微調整アプローチでは、高コストではあるものの、人間のラベル付け、より大きなモデル、あるいは自己サンプリングからのより正確な監視信号を活用することで、これを緩和しようとした。 逆に、入力に摂動を導入する代わりに、外部リソースを避ける手法を開発する。 私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。 Llama-2-7B 上の GSM8K による微調整に適用すると、GSM8K の精度は 5 % 向上し、標準教師付き微調整に比べて GSM-IC の精度は 10 % 向上した。 さらに、既存の手法を補完するものである。 関連する明示的なデータ拡張メソッドと統合すると、さまざまな拡張メソッドの5つのデータセットと2つの異なるベースモデルが改善される。 さらに, ケーススタディと定量的分析により, この改善の背景にあるメカニズムを解明し, 長距離依存, 特に質問に関連する要因の把握において, モデルに対する優れたサポートを提供する可能性が示唆された。 この強化は、質問や事前ステップにおける前提の理解を深める可能性がある。 私たちのコードはGithubで入手可能です。

In reasoning tasks, even a minor error can cascade into inaccurate results, leading to suboptimal performance of large language models in such domains. Earlier fine-tuning approaches sought to mitigate this by leveraging more precise supervisory signals from human labeling, larger models, or self-sampling, although at a high cost. Conversely, we develop a method that avoids external resources, relying instead on introducing perturbations to the input. Our training approach randomly masks certain tokens within the chain of thought, a technique we found to be particularly effective for reasoning tasks. When applied to fine-tuning with GSM8K on Llama-2-7B, this method achieved a 5\% improvement in GSM8K accuracy and a 10\% improvement in GSM-IC accuracy over standard supervised fine-tuning with a few codes modified. Furthermore, it is complementary to existing methods. When integrated with related explicit data augmentation methods, it leads to improvements across five datasets of various augmentation methods, as well as two different base models. We further investigate the mechanisms behind this improvement through case studies and quantitative analysis, suggesting that our approach may provide superior support for the model in capturing long-distance dependencies, especially those related to questions. This enhancement could deepen understanding of the premises in questions and prior steps. Our code is available at Github.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-10
# オンライン強化学習が因果関係にある理由

Why Online Reinforcement Learning is Causal ( http://arxiv.org/abs/2403.04221v2 )

ライセンス: Link先を確認
Oliver Schulte, Pascal Poupart, (参考訳) 強化学習(RL)と因果モデリングは自然に相互に補完する。 因果モデリングの目的は、環境における介入の効果を予測することであり、強化学習の目的は、エージェントが環境から受ける報酬を最大化する介入を選択することである。 強化学習には、時間的順序付けと環境に作用する能力という、因果関係を推定するための2つの最も強力な情報源が含まれる。 本稿では,因果モデリングのメリットを期待できる強化学習設定について検討し,その方法について述べる。 オンライン学習では、エージェントは環境と直接対話し、探索から学ぶことができる。 オンライン学習においては、条件付き確率は因果的であり、従ってオフラインRLは因果的学習が最大の可能性を持つ環境である。 本質的には、エージェントが自身の経験から学ぶとき、エージェント自身の探索行動と受け取った報酬の両方に影響を与える、観測されていない共同創設者は存在しない。 私たちの論文はこの議論を形式化している。 エージェントが他のエージェントの経験から学び得るオフラインRLでは、因果モデルを活用するための従来および新しい手法について記述する。

Reinforcement learning (RL) and causal modelling naturally complement each other. The goal of causal modelling is to predict the effects of interventions in an environment, while the goal of reinforcement learning is to select interventions that maximize the rewards the agent receives from the environment. Reinforcement learning includes the two most powerful sources of information for estimating causal relationships: temporal ordering and the ability to act on an environment. This paper examines which reinforcement learning settings we can expect to benefit from causal modelling, and how. In online learning, the agent has the ability to interact directly with their environment, and learn from exploring it. Our main argument is that in online learning, conditional probabilities are causal, and therefore offline RL is the setting where causal learning has the most potential to make a difference. Essentially, the reason is that when an agent learns from their {\em own} experience, there are no unobserved confounders that influence both the agent's own exploratory actions and the rewards they receive. Our paper formalizes this argument. For offline RL, where an agent may and typically does learn from the experience of {\em others}, we describe previous and new methods for leveraging a causal model, including support for counterfactual queries.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-10
# DeblurDiNAT: 知覚的画像劣化のための一般化可能な変換器

DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring ( http://arxiv.org/abs/2403.13163v3 )

ライセンス: Link先を確認
Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu, (参考訳) 従来のSOTA(State-of-the-art Deblurring Network)は,合成データセットの高得点を達成できたが,知覚的画像の劣化を防ぐ2つの課題がある。 まず、合成データセットで過度に訓練された遅延モデルは、目に見えない現実世界のシナリオで崩壊する可能性がある。 第2に、従来の測度PSNRとSSIMは、人間の目で観察される知覚品質を正しく反映していない可能性がある。 この目的のために,地上の真実に近いクリーンな画像を復元する汎用的で効率的なエンコーダ・デコーダ変換器であるDeblurDiNATを提案する。 局所的およびグローバルなぼやけパターンを捉えるために、交互に拡張因子構造を採用する。 本稿では,短距離チャネル間の関係を学習するための自己注意層を支援するローカルチャネル学習者を提案する。 さらに,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案し,ネットワーク間の高速な特徴伝搬を実現する。 最寄りの競合と比較して,本モデルは最強の一般化能力を示し,3%~68%のパラメータを持つ主流画像デブロアリングデータセット上で最高の知覚品質を実現する。

Although prior state-of-the-art (SOTA) deblurring networks achieve high metric scores on synthetic datasets, there are two challenges which prevent them from perceptual image deblurring. First, a deblurring model overtrained on synthetic datasets may collapse in a broad range of unseen real-world scenarios. Second, the conventional metrics PSNR and SSIM may not correctly reflect the perceptual quality observed by human eyes. To this end, we propose DeblurDiNAT, a generalizable and efficient encoder-decoder Transformer which restores clean images visually close to the ground truth. We adopt an alternating dilation factor structure to capture local and global blur patterns. We propose a local cross-channel learner to assist self-attention layers to learn short-range cross-channel relationships. In addition, we present a linear feed-forward network and a non-linear dual-stage feature fusion module for faster feature propagation across the network. Compared to nearest competitors, our model demonstrates the strongest generalization ability and achieves the best perceptual quality on mainstream image deblurring datasets with 3%-68% fewer parameters.
翻訳日:2024-07-12 23:07:32 公開日:2024-07-10
# 太陽系外惑星検出と局在の量子限界達成

Achieving Quantum Limits of Exoplanet Detection and Localization ( http://arxiv.org/abs/2403.17988v2 )

ライセンス: Link先を確認
Nico Deshler, Sebastiaan Haffert, Amit Ashok, (参考訳) 直接撮像によって遠方の恒星の周囲を公転する太陽系外惑星が発見されることは、恒星と惑星の間の高ダイナミックレンジによって根本的に妨げられている。 コロナグラフは、主星からの光を光学的に拒絶し、外惑星からの光をほとんど変化しないままにすることで、外惑星のシグネチャの信号と雑音の比を増大させようとする。 しかし、コロナグラフが太陽系外惑星発見に関する基本的な限界に達するための最適な戦略であるかどうかは不明である。 本稿では,Quantum Chernoff Exponent (QCE) とQuantum Fisher Information Matrix (QFIM) によって定義された外惑星検出と局在の量子情報限界について報告する。 これらの量子限界の観点から、理論的にオン軸点源の完全な拒絶を実現するための高性能コロナグラフの設計を評価し、比較する。 我々は、高次直交モードを減衰させることなく、望遠鏡の基本モードを排他的に排除するシステムは、高い恒星-惑星のコントラストの体制において量子最適であることを示した。 重要なことに、QFIMは望遠鏡の回折限界よりかなり下にあることが示されており、量子最適コロナグラフはアクセス可能な太陽系外惑星の領域をさらに拡大する可能性があることを示唆している。

Discovering exoplanets in orbit around distant stars via direct imaging is fundamentally impeded by the high dynamic range between the star and the planet. Coronagraphs strive to increase the signal-to-noise ratio of exoplanet signatures by optically rejecting light from the host star while leaving light from the exoplanet mostly unaltered. However it is unclear whether coronagraphs constitute an optimal strategy for attaining fundamental limits relevant exoplanet discovery. In this work, we report the quantum information limits of exoplanet detection and localization specified by the Quantum Chernoff Exponent (QCE) and the Quantum Fisher Information Matrix (QFIM) respectively. In view of these quantum limits, we assess and compare several high-performance coronagraph designs that theoretically achieve total rejection of an on-axis point source. We find that systems which exclusively eliminate the fundamental mode of the telescope, without attenuating higher-order orthogonal modes, are quantum-optimal in the regime of high star-planet contrasts. Importantly, the QFIM is shown to persist well below the diffraction-limit of the telescope, suggesting that quantum-optimal coronagraphs may further expand the domain of accessible exoplanets.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-10
# 構造化知識ベースを用いた大規模言語モデルによるメタデータのキュレーション

Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models ( http://arxiv.org/abs/2404.05893v3 )

ライセンス: Link先を確認
Sowmya S. Sundaram, Benjamin Solomon, Avani Khatri, Anisha Laumas, Purvesh Khatri, Mark A. Musen, (参考訳) メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。 本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル(LLM),特に GPT-4 の可能性について検討する。 NCBI BioSampleレポジトリの肺がん関連サンプルを記載した200件のランダムなデータ記録について実験を行い,GPT-4のメタデータ標準に準拠した編集を提案する能力について検討した。 ピアレビュープロセスによりフィールド名-フィールド値ペアのアテンデンス精度を算出し,標準データ辞書のアテンデンスを79%から80%(p<0.5。 CEDARテンプレートのテキスト記述形式でGPT-4を誘導し,79% (p<0.01。 以上の結果から,LCMはレガシメタデータの修正ができず,標準に忠実に適合することが確認できないが,構造化知識ベースと統合した場合に,メタデータの自動キュレーションでの使用が期待できることを示す。

Metadata play a crucial role in ensuring the findability, accessibility, interoperability, and reusability of datasets. This paper investigates the potential of large language models (LLMs), specifically GPT-4, to improve adherence to metadata standards. We conducted experiments on 200 random data records describing human samples relating to lung cancer from the NCBI BioSample repository, evaluating GPT-4's ability to suggest edits for adherence to metadata standards. We computed the adherence accuracy of field name-field value pairs through a peer review process, and we observed a marginal average improvement in adherence to the standard data dictionary from 79% to 80% (p<0.5). We then prompted GPT-4 with domain information in the form of the textual descriptions of CEDAR templates and recorded a significant improvement to 97% from 79% (p<0.01). These results indicate that, while LLMs may not be able to correct legacy metadata to ensure satisfactory adherence to standards when unaided, they do show promise for use in automated metadata curation when integrated with a structured knowledge base
翻訳日:2024-07-12 22:57:45 公開日:2024-07-10
# 直接学習型高性能深部スパイクニューラルネットワーク:理論と方法のレビュー

Direct Training High-Performance Deep Spiking Neural Networks: A Review of Theories and Methods ( http://arxiv.org/abs/2405.04289v2 )

ライセンス: Link先を確認
Chenlin Zhou, Han Zhang, Liutao Yu, Yumin Ye, Zhaokun Zhou, Liwei Huang, Zhengyu Ma, Xiaopeng Fan, Huihui Zhou, Yonghong Tian, (参考訳) スパイキングニューラルネットワーク(SNN)は、その高い生物学的可視性、豊かな時空間力学、イベント駆動型計算により、人工知能ニューラルネットワーク(ANN)に代わる有望なエネルギー効率の代替を提供する。 代用勾配法に基づく直接学習アルゴリズムは、新しいSNNアーキテクチャの設計とSNNの時空間ダイナミクスの探索に十分な柔軟性を提供する。 以前の研究によると、モデルの性能はそのサイズに大きく依存している。 近年,ニューロモルフィックデータセットと大規模静的データセットの両方において,深層SNNの直接訓練が大きな進歩を遂げている。 特に、トランスフォーマーベースのSNNは、ANNと同等のパフォーマンスを示している。 本稿では,SNNの基本理論,スパイクニューロンモデル,先進的なSNNモデルと残留アーキテクチャ,ソフトウェアフレームワークとニューロモルフィックハードウェア,アプリケーション,今後のトレンドなど,高度なSNNを体系的かつ包括的に訓練するための理論と手法を要約する。 レビューされた論文はhttps://github.com/zhouchenlin2096/Awesome-Spiking-Neural-Networksで収集されている。

Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks (ANNs), in virtue of their high biological plausibility, rich spatial-temporal dynamics, and event-driven computation. The direct training algorithms based on the surrogate gradient method provide sufficient flexibility to design novel SNN architectures and explore the spatial-temporal dynamics of SNNs. According to previous studies, the performance of models is highly dependent on their sizes. Recently, direct training deep SNNs have achieved great progress on both neuromorphic datasets and large-scale static datasets. Notably, transformer-based SNNs show comparable performance with their ANN counterparts. In this paper, we provide a new perspective to summarize the theories and methods for training deep SNNs with high performance in a systematic and comprehensive way, including theory fundamentals, spiking neuron models, advanced SNN models and residual architectures, software frameworks and neuromorphic hardware, applications, and future trends. The reviewed papers are collected at https://github.com/zhouchenlin2096/Awesome-Spiking-Neural-Networks
翻訳日:2024-07-12 22:48:00 公開日:2024-07-10
# 積分球のみを用いた量子系における緩和散乱

Mitigating scattering in a quantum system using only an integrating sphere ( http://arxiv.org/abs/2405.15947v2 )

ライセンス: Link先を確認
Zhenfei Jiang, Tian Li, Matthew L. Boone, Zhenhuan Yi, Alexei V. Sokolov, Girish S. Agarwal, Marlan O. Scully, (参考訳) 強い量子関連ソースは、量子情報科学とエンジニアリングプロトコルにとって必須だが繊細なリソースである。 デコヒーレンスと損失は、量子相関における非古典的挙動の喪失につながる2つの主要な破壊過程である。 量子系では、散乱はデコヒーレンスと損失の両方に寄与する。 本研究では,量子系における散乱の悪影響を著しく軽減できる実験手法を提案する。 我々の量子系は、熱ルビジウム蒸気中の4波混合過程で発生する2モードの励起光から構成されており、この2つのモードのうちの1つに散乱器が導入された。 その後、散乱器の後に集積球が配置され、散乱した光子を再構成する。 量子相関の尺度として2つのモード間の相互情報を使用し、85%以上の光子損失にもかかわらず、散乱による47.5%の相互情報回復を示す。 我々の手法は、破壊的なランダムプロセスから量子相関を回復するための先駆的なステップであり、量子プロトコルの実証と実際の実世界の展開のギャップを埋める可能性を持っている。

Strong quantum-correlated sources are essential but delicate resources for quantum information science and engineering protocols. Decoherence and loss are the two main disruptive processes that lead to the loss of nonclassical behavior in quantum correlations. In quantum systems, scattering can contribute to both decoherence and loss. In this work, we present an experimental scheme capable of significantly mitigating the adverse impact of scattering in quantum systems. Our quantum system is composed of a two-mode squeezed light generated with the four-wave mixing process in hot rubidium vapor, and a scatterer is introduced to one of the two modes. An integrating sphere is then placed after the scatterer to recollect the scattered photons. We use mutual information between the two modes as the measure of quantum correlations, and demonstrate a 47.5% mutual information recovery from scattering, despite an enormous photon loss of greater than 85%. Our scheme is a pioneering step towards recovering quantum correlations from disruptive random processes, thus has the potential to bridge the gap between proof-of-principle demonstrations and practical real-world deployments of quantum protocols.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-10
# コンフォーマル化された遠隔操作:人間の入力を高次元ロボット行動に忠実にマッピングする

Conformalized Teleoperation: Confidently Mapping Human Inputs to High-Dimensional Robot Actions ( http://arxiv.org/abs/2406.07767v2 )

ライセンス: Link先を確認
Michelle Zhao, Reid Simmons, Henny Admoni, Andrea Bajcsy, (参考訳) 補助ロボットアームは、人間の遠隔操作者がジョイスティックのように低次元の入力で制御できるよりも、自由度が高いことが多い。 この課題を克服するために、既存のアプローチでは、低次元の人間の入力から高次元のロボット動作へのマッピングを学ぶために、データ駆動方式を使用している。 しかし、そのようなブラックボックスマッピングが低次元入力からユーザの意図した高次元動作を確実に推測できるかどうかを判断することは、未解決の問題である。 我々のキーとなる考え方は、訓練時に補助写像を適用して、高次元のアクション量子化を付加的に推定し、厳密な不確実性定量法によってこれらの量子化を校正することである。 具体的には、時間とともに間隔を調整し、マッピングの実行時の不確実性境界を減らし、マッピングが常に誤予測した場合のバウンダリを増大させる適応整合予測を利用する。 さらに,不確実なユーザ入力やロボットの状態を検出する不確かさに基づくメカニズムを提案する。 補助カップの把握とゴールリーチを含む2次元補助ナビゲーションタスクと2つの7DOF Kinova Jacoタスクにおける提案手法の有効性を評価した。 本研究は, 適応型補助遠隔操作が, 多様な嗜好によって引き起こされ, 地図の訓練データセットにおける低精度軌跡によって引き起こされる高い不確実性を検出する(しかし, 区別はしない)ことを実証した。 全体として、この作業は、ロボットが自身の不確実性を定量化し、必要に応じて積極的に介入を求めることを可能にするための重要なステップだと考えています。

Assistive robotic arms often have more degrees-of-freedom than a human teleoperator can control with a low-dimensional input, like a joystick. To overcome this challenge, existing approaches use data-driven methods to learn a mapping from low-dimensional human inputs to high-dimensional robot actions. However, determining if such a black-box mapping can confidently infer a user's intended high-dimensional action from low-dimensional inputs remains an open problem. Our key idea is to adapt the assistive map at training time to additionally estimate high-dimensional action quantiles, and then calibrate these quantiles via rigorous uncertainty quantification methods. Specifically, we leverage adaptive conformal prediction which adjusts the intervals over time, reducing the uncertainty bounds when the mapping is performant and increasing the bounds when the mapping consistently mis-predicts. Furthermore, we propose an uncertainty-interval-based mechanism for detecting high-uncertainty user inputs and robot states. We evaluate the efficacy of our proposed approach in a 2D assistive navigation task and two 7DOF Kinova Jaco tasks involving assistive cup grasping and goal reaching. Our findings demonstrate that conformalized assistive teleoperation manages to detect (but not differentiate between) high uncertainty induced by diverse preferences and induced by low-precision trajectories in the mapping's training dataset. On the whole, we see this work as a key step towards enabling robots to quantify their own uncertainty and proactively seek intervention when needed.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-10
# Visual Sketchpad:マルチモーダル言語モデルのための思考の視覚的チェーンとしてのスケッチ

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models ( http://arxiv.org/abs/2406.09403v2 )

ライセンス: Link先を確認
Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna, (参考訳) 人間は推論を容易にするために、幾何学的問題を解決する際に補助線を描き、地図を推論する際に線をマークし、円を描き、スケッチを使ってアイデアを増幅し、限られた能力の作業記憶を緩和する。 しかし、そのような行動は現在のマルチモーダル言語モデル(LM)では欠落している。 現在のチェーン・オブ・シンクとツール・ユース・パラダイムは、中間的推論ステップとしてテキストのみを使用する。 本研究では,マルチモーダルLMにスケッチパッドを描画するためのビジュアルスケッチパッドとツールを提供するフレームワークであるSketchpadを紹介する。 LMは、描画した視覚的アーティファクトに従って、計画と推論を行います。 LMの描画を可能にするテキスト・ツー・イメージモデルを使用する以前の作業とは異なり、SketchpadはLMを人間のスケッチに近い線、ボックス、マークなどで描画し、推論を容易にする。 スケッチパッドはまた、スケッチ処理中に専門的な視覚モデル(例えば、オブジェクト検出モデルによる境界ボックスの描画、セグメンテーションモデルによるマスクの描画)を使用することで、視覚的知覚と推論をさらに強化することができる。 我々は、幾何学、関数、グラフ、チェスを含む幅広い数学タスクと複雑な視覚的推論タスクを実験した。 Sketchpadは、スケッチのない強力なベースモデルで全てのタスクのパフォーマンスを大幅に改善し、数学のタスクで平均12.7%、視覚タスクで平均8.6%向上した。 Sketchpad を使用した GPT-4o では、V*Bench (80.3%)、BLINK空間推論 (83.9%)、視覚対応 (80.8%) など、すべてのタスクに新たな最先端技術が設定されている。 すべてのコードとデータはhttps://visualsketchpad.github.io/にある。

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-10
# サンプリングおよび拡散モデルのための新しいアルゴリズム

New algorithms for sampling and diffusion models ( http://arxiv.org/abs/2406.09665v2 )

ライセンス: Link先を確認
Xicheng Zhang, (参考訳) 確率微分方程式の理論から、既知の分布の新しいサンプリング法と未知分布を持つ拡散生成モデルのための新しいアルゴリズムを導入する。 我々のアプローチは、拡散生成モデルにおいて広く採用されている逆拡散過程の概念に着想を得たものである。 さらに、滑らかなODEフローに基づいて、明示的な収束率を導出する。 拡散生成モデルとサンプリングのために、次元自由粒子近似収束結果を確立する。 数値実験により,本手法の有効性が示された。 特に、従来のランゲヴィン法とは異なり、我々のサンプリング法は対象分布の密度関数に関する正則性の仮定を一切必要としない。 さらに,本手法を最適化問題に適用する。

Drawing from the theory of stochastic differential equations, we introduce a novel sampling method for known distributions and a new algorithm for diffusion generative models with unknown distributions. Our approach is inspired by the concept of the reverse diffusion process, widely adopted in diffusion generative models. Additionally, we derive the explicit convergence rate based on the smooth ODE flow. For diffusion generative models and sampling, we establish a dimension-free particle approximation convergence result. Numerical experiments demonstrate the effectiveness of our method. Notably, unlike the traditional Langevin method, our sampling method does not require any regularity assumptions about the density function of the target distribution. Furthermore, we also apply our method to optimization problems.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-10
# 変分量子アルゴリズムの高エンタングル化能力:ポアソン方程式の場合

High-Entanglement Capabilities for Variational Quantum Algorithms: The Poisson Equation Case ( http://arxiv.org/abs/2406.10156v3 )

ライセンス: Link先を確認
Fouad Ayoub, James D. Baeder, (参考訳) 離散ポアソン方程式行列(DPEM)は計算流体力学(CFD)の分野において不可欠であり、量子コンピュータでそれを解くアルゴリズムは指数空間と時間複雑性のスピードアップを与える可能性がある。 しかし、1DのDPEMは、パウリ基底の分解として表されるのが困難であることが示されている。 さらに、線形系(DPEMなど)をヒューリスティックに解くのに使用される変分量子アルゴリズム(VQA)の従来のアンサッツは、多くのパラメータを持ち、訓練を困難にしている。 本研究は、量子ビットの完全接続性を誇ったIonQ Aria量子コンピュータ機能を利用することで、これらの問題を解決することを試みる。 本稿では,2ビットあるいは3ビットのエンタングルメントゲートをベースとしたDPEMの分解を行い,システムサイズに対して$O(1)$の項を持ち,一方の項が$O(n^2)$の回路深さを持ち,残りの項が$O(1)$の回路深さを持つ(ただし、$n$はシステムサイズを定義するキュービットの数である)。 これらの新しい改善をテストするために、VQAがシステムサイズでどれだけうまく機能するかを数値シミュレーションし、新しいセットアップが収束に必要なイテレーションの数を$O(n)$でスケーリングし、古典的な計算よりも指数関数的なスピードアップを提供することを示した。 このプロジェクトは、計算流体力学の将来において、量子コンピュータが重要な時間と空間の複雑さのスピードアップを提供する可能性があることを示している。

The discretized Poisson equation matrix (DPEM) is vital to the field of computational fluid dynamics (CFD), and an algorithm that solves it on a quantum computer could potentially grant exponential space and time complexity speedups. However, the DPEM in 1D has been shown to have trouble being represented as a decomposition in the Pauli basis. Additionally, traditional ansatz for Variational Quantum Algorithms (VQAs) that are used to heuristically solve linear systems (such as the DPEM) have large numbers of parameters, making them harder to train. This research attempts to resolve these problems by utilizing the IonQ Aria quantum computer capabilities that boast all-to-all connectivity of qubits. We propose a decomposition of the DPEM that is based on 2- or 3-qubit entanglement gates and is shown to have $O(1)$ terms with respect to system size, with one term having an $O(n^2)$ circuit depth and the rest having only an $O(1)$ circuit depth (where $n$ is the number of qubits defining the system size). To test these new improvements, we ran numerical simulations to examine how well the VQAs performed with varying system sizes, showing that the new setup offers an $O(n)$ scaling of the number of iterations required for convergence, providing an exponential speedup over their classical computing counterparts. This project shows that the future of computational fluid dynamics may involve quantum computers to provide significant time and space complexity speedups.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-10
# どのような推論が計画されているのか?

What type of inference is planning? ( http://arxiv.org/abs/2406.17863v2 )

ライセンス: Link先を確認
Miguel Lázaro-Gredilla, Li Yang Ku, Kevin P. Murphy, Dileep George, (参考訳) 複数のタイプの推論が確率的グラフィカルモデル(例えば、縁的、最大的、最大的、最大的、最大的、最小的といった)で利用可能である。 推論としての計画"について語るとき、研究者は何を意味するのだろうか? 文献には一貫性がなく、異なる型が使用され、計画を行う能力は特定の近似や追加の制約にさらに絡まっています。 この研究では、すべての一般的な推論の型が変分問題におけるエントロピー項の異なる重み付けに対応し、計画が _exactly_ と _different_ の重み集合に対応することを示す。 これは、変分推論のすべてのトリックが計画に容易に適用できることを意味する。 指数関数的に大きな状態空間によって引き起こされる誘引性を伴わずに、マルコフ決定過程において近似的な計画を実行することができるループ的信念伝播の類推を開発する。 変動的な視点から,従来の計画の推論は,確率性の低い環境においてのみ適切であることが示され,各型をそれぞれのメリットによって特徴付けることができ,その実用性が要求される追加の近似から推論の型を遠ざけることができる。 本研究は,国際計画コンペティションにおける総合MDPと課題を実証的に検証する。

Multiple types of inference are available for probabilistic graphical models, e.g., marginal, maximum-a-posteriori, and even marginal maximum-a-posteriori. Which one do researchers mean when they talk about "planning as inference"? There is no consistency in the literature, different types are used, and their ability to do planning is further entangled with specific approximations or additional constraints. In this work we use the variational framework to show that all commonly used types of inference correspond to different weightings of the entropy terms in the variational problem, and that planning corresponds _exactly_ to a _different_ set of weights. This means that all the tricks of variational inference are readily applicable to planning. We develop an analogue of loopy belief propagation that allows us to perform approximate planning in factored state Markov decisions processes without incurring intractability due to the exponentially large state space. The variational perspective shows that the previous types of inference for planning are only adequate in environments with low stochasticity, and allows us to characterize each type by its own merits, disentangling the type of inference from the additional approximations that its practical use requires. We validate these results empirically on synthetic MDPs and tasks posed in the International Planning Competition.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-10
# 原子ビデオ行動認識の参照

Referring Atomic Video Action Recognition ( http://arxiv.org/abs/2407.01872v2 )

ライセンス: Link先を確認
Kunyu Peng, Jia Fu, Kailun Yang, Di Wen, Yufan Chen, Ruiping Liu, Junwei Zheng, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg, (参考訳) 我々は,その人物のテキスト記述と映像データに基づいて,特定の人物の原子的行動を特定することを目的とした,RAVAR(Referring Atomic Video Action Recognition)というタスクを導入する。 このタスクは、従来の行動認識とローカライゼーションとは異なり、現在のすべての個人に対して予測が配信される。 対照的に、テキストで導かれる特定の個人の正しい原子行動を認識することに焦点をあてる。 このタスクを探索するために、個人を手動で注釈付きで記述した36,630のインスタンスを含むRefAVAデータセットを提示する。 強力な初期ベンチマークを確立するため,アトミックアクションローカライゼーション,ビデオ質問応答,テキストビデオ検索など,さまざまな領域のベースラインを実装し,検証する。 これらの既存手法がRAVARで実行されているため、RAVARの独特な課題に特化して、新たなクロスストリームアテンション駆動方式であるRefAtomNetを導入し、対象個人に対するテキスト参照表現を解釈し、この参照を利用して、空間的局所化を導出し、参照者に対する原子行動の予測を収集する。 主な要素は,(1)ビデオ,テキスト,新しい位置意味ストリームを接続するマルチストリームアーキテクチャ,(2)ストリーム間の最も関連性の高い情報を増幅するクロスストリームエージェントアテンションフュージョンとエージェントトークンフュージョンであり,RAVAR上の標準アテンションベースフュージョンを一貫して上回る。 広範囲にわたる実験は、記述された個人の行動を認識するためのRefAtomNetとそのビルディングブロックの有効性を実証している。 データセットとコードはhttps://github.com/KPeng9510/RAVARで公開される。

We introduce a new task called Referring Atomic Video Action Recognition (RAVAR), aimed at identifying atomic actions of a particular person based on a textual description and the video data of this person. This task differs from traditional action recognition and localization, where predictions are delivered for all present individuals. In contrast, we focus on recognizing the correct atomic action of a specific individual, guided by text. To explore this task, we present the RefAVA dataset, containing 36,630 instances with manually annotated textual descriptions of the individuals. To establish a strong initial benchmark, we implement and validate baselines from various domains, e.g., atomic action localization, video question answering, and text-video retrieval. Since these existing methods underperform on RAVAR, we introduce RefAtomNet -- a novel cross-stream attention-driven method specialized for the unique challenges of RAVAR: the need to interpret a textual referring expression for the targeted individual, utilize this reference to guide the spatial localization and harvest the prediction of the atomic actions for the referring person. The key ingredients are: (1) a multi-stream architecture that connects video, text, and a new location-semantic stream, and (2) cross-stream agent attention fusion and agent token fusion which amplify the most relevant information across these streams and consistently surpasses standard attention-based fusion on RAVAR. Extensive experiments demonstrate the effectiveness of RefAtomNet and its building blocks for recognizing the action of the described individual. The dataset and code will be made publicly available at https://github.com/KPeng9510/RAVAR.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-10
# プリンストン物理学セミナー

Princeton seminars on physics and philosophy ( http://arxiv.org/abs/2407.01989v2 )

ライセンス: Link先を確認
Carlo Rovelli, (参考訳) これらは、私が2024年11月にプリンストン哲学部で招待される一連のセミナーのために準備された講義ノートです。 それらは、量子重力の概念構造、量子力学のリレーショナル解釈、時間の構造、その方向、未来の開放性、情報と意味の物理的基盤、そして概念がパースペクティビリズムと反境界主義に基づいて進化するという事実に関する一般的な考察をカバーしている。

These are lectures notes prepared for a series of seminars I am invited to give at Princeton Philosophy Department in November 2024. They cover the conceptual structure of quantum gravity, the relational interpretation of quantum mechanics, the structure of time, its orientation and the openness of the future, the physical underpinning of information and meaning, and some general considerations on the fact that concepts evolve, on perspectivalism and anti-foundationalism.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-10
# Token-Mol 1.0:大規模言語モデルによるTokenized Drug Design

Token-Mol 1.0: Tokenized drug design with large language model ( http://arxiv.org/abs/2407.07930v1 )

ライセンス: Link先を確認
Jike Wang, Rui Qin, Mingyang Wang, Meijing Fang, Yangyang Zhang, Yuchen Zhu, Qun Su, Qiaolin Gou, Chao Shen, Odin Zhang, Zhenxing Wu, Dejun Jiang, Xujun Zhang, Huifeng Zhao, Xiaozhe Wan, Zhourui Wu, Liwei Liu, Yu Kang, Chang-Yu Hsieh, Tingjun Hou, (参考訳) 近年、薬品設計にシーケンスベースの大規模言語モデル(LLM)を活用することに重要な関心が高まっている。 しかしながら、薬物発見におけるLLMの現在の応用のほとんどは三次元(3D)構造を理解する能力に欠けており、分子配座を明示的に含むタスクにおけるそれらの効果を制限している。 本研究ではトークンのみの3DドラッグデザインモデルであるToken-Molを紹介した。 このモデルは、2D構造や3D構造を含む全ての分子情報をトークンにエンコードし、薬物発見における分類および回帰タスクを確率論的予測問題に変換することにより、統一パラダイムによる学習を可能にする。 Token-Molはトランスフォーマーデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。 さらに,回帰タスクの課題を克服するためのガウスクロスエントロピー(GCE)損失関数を提案し,連続数値の学習能力を大幅に向上させた。 微細チューニングと強化学習(RL)を組み合わせることで、ポケットベースの分子生成、コンフォメーション生成、分子特性予測など、さまざまな下流タスクで既存のタスク固有のメソッドに匹敵する、あるいは超越したパフォーマンスを実現する。 既存の分子前訓練モデルと比較して、東ケンモールは薬物設計に不可欠な幅広い下流タスクを扱う能力に優れていた。 特に,類似のトークンのみの手法と比較して,回帰タスクの精度を約30%向上させる。 Token-Molはトークンのみのモデルの精度の限界を克服し、ChatGPTのような一般的なモデルとシームレスに統合し、専門家による迅速かつ高品質なドラッグデザインを促進する汎用人工知能ドラッグデザインモデルを開発するための道を開く可能性がある。

Significant interests have recently risen in leveraging sequence-based large language models (LLMs) for drug design. However, most current applications of LLMs in drug discovery lack the ability to comprehend three-dimensional (3D) structures, thereby limiting their effectiveness in tasks that explicitly involve molecular conformations. In this study, we introduced Token-Mol, a token-only 3D drug design model. This model encodes all molecular information, including 2D and 3D structures, as well as molecular property data, into tokens, which transforms classification and regression tasks in drug discovery into probabilistic prediction problems, thereby enabling learning through a unified paradigm. Token-Mol is built on the transformer decoder architecture and trained using random causal masking techniques. Additionally, we proposed the Gaussian cross-entropy (GCE) loss function to overcome the challenges in regression tasks, significantly enhancing the capacity of LLMs to learn continuous numerical values. Through a combination of fine-tuning and reinforcement learning (RL), Token-Mol achieves performance comparable to or surpassing existing task-specific methods across various downstream tasks, including pocket-based molecular generation, conformation generation, and molecular property prediction. Compared to existing molecular pre-trained models, Token-Mol exhibits superior proficiency in handling a wider range of downstream tasks essential for drug design. Notably, our approach improves regression task accuracy by approximately 30% compared to similar token-only methods. Token-Mol overcomes the precision limitations of token-only models and has the potential to integrate seamlessly with general models such as ChatGPT, paving the way for the development of a universal artificial intelligence drug design model that facilitates rapid and high-quality drug design by experts.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-10
# 検索, 検査, 早期発見: 注釈のない証拠を用いたフェイクニュース検出

Search, Examine and Early-Termination: Fake News Detection with Annotation-Free Evidences ( http://arxiv.org/abs/2407.07931v1 )

ライセンス: Link先を確認
Yuzhou Yang, Yangming Zhou, Qichao Ying, Zhenxing Qian, Xinpeng Zhang, (参考訳) パイオニアの研究は、証拠をパターンとは別に偽ニュースを検出する重要な要素として認識している。 既存のエビデンス対応手法は、関連性のある、高品質なエビデンスデータを保証するために、精巧な事前処理手順を必要とするか、検索されたデータの品質と量に関係なく、すべてのニュースケースに利用可能なエビデンスの全スペクトルを組み込むかのいずれかである。 本稿では,Webで検索したアノテーションのない証拠から,早期終了機構を用いて有用な情報を抽出するアプローチであるtextbf{SEE}を提案する。 提案したSEEは3つの主要なフェーズで構築されている: ニュースをクエリとして使用し、そのタイトルを直接エビデンスとして使用し、アノテーションやフィルタリングの手順を使わずにエビデンスとして使用する。 我々は未処理のエビデンス、すなわちWeibo21、GossipCop、およびSnopesやPolitiFactといった前処理のエビデンスを用いたデータセットに関する広範な実験を行った。 実験の結果,提案手法は最先端手法よりも優れていた。

Pioneer researches recognize evidences as crucial elements in fake news detection apart from patterns. Existing evidence-aware methods either require laborious pre-processing procedures to assure relevant and high-quality evidence data, or incorporate the entire spectrum of available evidences in all news cases, regardless of the quality and quantity of the retrieved data. In this paper, we propose an approach named \textbf{SEE} that retrieves useful information from web-searched annotation-free evidences with an early-termination mechanism. The proposed SEE is constructed by three main phases: \textbf{S}earching online materials using the news as a query and directly using their titles as evidences without any annotating or filtering procedure, sequentially \textbf{E}xamining the news alongside with each piece of evidence via attention mechanisms to produce new hidden states with retrieved information, and allowing \textbf{E}arly-termination within the examining loop by assessing whether there is adequate confidence for producing a correct prediction. We have conducted extensive experiments on datasets with unprocessed evidences, i.e., Weibo21, GossipCop, and pre-processed evidences, namely Snopes and PolitiFact. The experimental results demonstrate that the proposed method outperforms state-of-the-art approaches.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 無効機器を用いた双方向MRの同定と推定

Identification and Estimation of the Bi-Directional MR with Some Invalid Instruments ( http://arxiv.org/abs/2407.07933v1 )

ライセンス: Link先を確認
Feng Xie, Zhen Yao, Lin Xie, Yan Zeng, Zhi Geng, (参考訳) 両方向メンデルランダム化(MR)における純粋観測データから因果効果を推定する難しい問題について考察する。 この問題に対処するために、既存のほとんどの手法は、専門家の知識によって、あるいは因果モデルが一方向MRモデルであると仮定して、対象因果効果の適切な有効器用変数(IV)を見つけようとする。 そこで,本稿ではまず,観測データから双方向MRの同定を理論的に検討する。 特に、一対の表現型(すなわち、治療と結果)の因果方向を含む双方向MRモデルが識別可能であるように、有効なIV集合が正しく同定される必要十分条件を提供する。 さらに、同定理論に基づいて、有効なIV集合を発見し、興味の因果効果を推定するクラスタ融合のような手法を開発する。 理論的に提案アルゴリズムの正しさを実証する。 両方向MRの因果効果を推定するための方法の有効性を実験的に検証した。

We consider the challenging problem of estimating causal effects from purely observational data in the bi-directional Mendelian randomization (MR), where some invalid instruments, as well as unmeasured confounding, usually exist. To address this problem, most existing methods attempt to find proper valid instrumental variables (IVs) for the target causal effect by expert knowledge or by assuming that the causal model is a one-directional MR model. As such, in this paper, we first theoretically investigate the identification of the bi-directional MR from observational data. In particular, we provide necessary and sufficient conditions under which valid IV sets are correctly identified such that the bi-directional MR model is identifiable, including the causal directions of a pair of phenotypes (i.e., the treatment and outcome). Moreover, based on the identification theory, we develop a cluster fusion-like method to discover valid IV sets and estimate the causal effects of interest. We theoretically demonstrate the correctness of the proposed algorithm. Experimental results show the effectiveness of our method for estimating causal effects in bi-directional MR.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 潜伏条件付き要約因果グラフにおけるマクロ条件の不依存性とマクロトータル効果の同定

Identifying macro conditional independencies and macro total effects in summary causal graphs with latent confounding ( http://arxiv.org/abs/2407.07934v1 )

ライセンス: Link先を確認
Simon Ferreira, Charles K. Assaad, (参考訳) ダイナミックシステムにおける因果関係を理解することは、疫学、経済学、生物学を含む多くの科学分野において不可欠である。 因果推論法は広く研究されているが、しばしば完全に定義された因果グラフに依存しており、必ずしも複雑な力学系では利用できないかもしれない。 要約因果グラフ(SCG)のような部分特定因果グラフは、因果関係の単純化、時間的情報の省略、高レベルの因果構造に焦点を当てる。 グラフ内の頂点として表されるクラスタ間の関係を含むマクロクエリと、グラフの頂点を通して直接見えない変数間の関係を含むマイクロクエリである。 本稿では,まず,マクロ条件の非依存性とマイクロ条件の非依存性と,マクロ効果とマイクロトータル効果を明確に区別する。 次に,SCGにおけるマクロ条件の不一致を識別するために,d-セパレーションの健全性と完全性を示す。 さらに,SCGにおけるマクロトータル効果を同定するために,do-calculusが健全かつ完全であることが確認された。 逆に,マイクロコンディショナル・インディペンデンシーとマイクロトータル・エフェクトを考慮した場合,これらの結果は成立しないことを示す。

Understanding causal relationships in dynamic systems is essential for numerous scientific fields, including epidemiology, economics, and biology. While causal inference methods have been extensively studied, they often rely on fully specified causal graphs, which may not always be available or practical in complex dynamic systems. Partially specified causal graphs, such as summary causal graphs (SCGs), provide a simplified representation of causal relationships, omitting temporal information and focusing on high-level causal structures. This simplification introduces new challenges concerning the types of queries of interest: macro queries, which involve relationships between clusters represented as vertices in the graph, and micro queries, which pertain to relationships between variables that are not directly visible through the vertices of the graph. In this paper, we first clearly distinguish between macro conditional independencies and micro conditional independencies and between macro total effects and micro total effects. Then, we demonstrate the soundness and completeness of the d-separation to identify macro conditional independencies in SCGs. Furthermore, we establish that the do-calculus is sound and complete for identifying macro total effects in SCGs. Conversely, we also show through various examples that these results do not hold when considering micro conditional independencies and micro total effects.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 精度は熱力学の第2法則に制限されない

Precision is not limited by the second law of thermodynamics ( http://arxiv.org/abs/2407.07948v1 )

ライセンス: Link先を確認
Florian Meier, Yuri Minoguchi, Simon Sundelin, Tony J. G. Apollaro, Paul Erker, Simone Gasparinetti, Marcus Huber, (参考訳) 平衡状態から作動する物理的装置は本質的に熱ゆらぎの影響を受けており、その操作精度は制限されている。 この問題は顕微鏡、特に量子スケールで発音され、追加のエントロピー散逸によってのみ緩和される。 この制約を理解することは、基礎物理学と技術設計の両方に不可欠である。 例えば、時計は本質的に熱力学の第2法則によって支配され、時間を測定するために平衡に熱力学的フラックスを必要とする。 古典的および量子的モデルと実験はしばしば精度と散逸の線形関係を示すが、この関係の最終的な境界は分かっていない。 我々の理論的な発見は、エントロピー散逸と指数関数的にクロック精度のスケーリングを実現する拡張可能な量子多体システムを示す。 この発見は、コヒーレント量子力学が従来の熱力学の精度限界を超え、将来の高精度で低散逸の量子デバイスの開発を導く可能性があることを示している。

Physical devices operating out of equilibrium are inherently affected by thermal fluctuations, limiting their operational precision. This issue is pronounced at microscopic and especially quantum scales and can only be mitigated by incurring additional entropy dissipation. Understanding this constraint is crucial for both fundamental physics and technological design. For instance, clocks are inherently governed by the second law of thermodynamics and need a thermodynamic flux towards equilibrium to measure time, which results in a minimum entropy dissipation per clock tick. Classical and quantum models and experiments often show a linear relationship between precision and dissipation, but the ultimate bounds on this relationship are unknown. Our theoretical discovery presents an extensible quantum many-body system that achieves clock precision scaling exponentially with entropy dissipation. This finding demonstrates that coherent quantum dynamics can surpass the traditional thermodynamic precision limits, potentially guiding the development of future high-precision, low-dissipation quantum devices.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# Rel-A.I.:人間-LM信頼度測定のためのインタラクション中心アプローチ

Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance ( http://arxiv.org/abs/2407.07950v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Nouha Dziri, Dan Jurafsky, Maarten Sap, (参考訳) 単純な文補完から複雑なマルチドメイン、人間のようなエンゲージメントへの人間とLMの相互作用の再構成は、人間がLMにどのように依存するかを理解するために、新しい方法論を必要とする。 我々の研究では、信頼は世代間の相互作用の文脈における多くの要因の影響を受けており、信頼の鍵となる決定要因として、言語化された信頼(例えば、"I'm certain the answer is...")を用いた先行研究から逸脱している、と論じている。 In situ, system-level evaluation approach to measure human reliance on LM- generated epistemic markers (eg , "I think it's.", "Unrectedly it's...")。 本手法を用いて, 長期的相互作用, 人為的世代, 変動対象物質という, 創発的ヒトとLMの相互作用設定における信頼度を測定した。 以上の結果から,信頼度は言語的信頼度にのみ依存するのではなく,インタラクションコンテキストの他の特徴に大きく影響していることが判明した。 先行的な相互作用、人為的な手がかり、主題領域は全て依存の変動に寄与する。 のような表現は、その相互作用の文脈によって最大20%の周波数に依存することができる。 我々の研究は、人間の信頼を理解する上での文脈の重要性を強調し、将来のデザイナーや研究者にそのような測定を行うための方法論を提供する。

The reconfiguration of human-LM interactions from simple sentence completions to complex, multi-domain, humanlike engagements necessitates new methodologies to understand how humans choose to rely on LMs. In our work, we contend that reliance is influenced by numerous factors within the interactional context of a generation, a departure from prior work that used verbalized confidence (e.g., "I'm certain the answer is...") as the key determinant of reliance. Here, we introduce Rel-A.I., an in situ, system-level evaluation approach to measure human reliance on LM-generated epistemic markers (e.g., "I think it's..", "Undoubtedly it's..."). Using this methodology, we measure reliance rates in three emergent human-LM interaction settings: long-term interactions, anthropomorphic generations, and variable subject matter. Our findings reveal that reliance is not solely based on verbalized confidence but is significantly affected by other features of the interaction context. Prior interactions, anthropomorphic cues, and subject domain all contribute to reliance variability. An expression such as, "I'm pretty sure it's...", can vary up to 20% in reliance frequency depending on its interactional context. Our work underscores the importance of context in understanding human reliance and offers future designers and researchers with a methodology to conduct such measurements.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# SPT毎のQCA

A QCA for every SPT ( http://arxiv.org/abs/2407.07951v1 )

ライセンス: Link先を確認
Lukasz Fidkowski, Jeongwan Haah, Matthew B. Hastings, (参考訳) 3次元では、非自明な量子セルオートマトン (QCA) が存在し、3フェルミオンのウォーカー-ワングモデル(英語版)は時空多様体のスティーフェル-ホイットニー類に依存するモデルである。 ここでは、高次元への予想一般化を示す。 スティーフェル-ホイットニー類に依存する作用を持つ時間反転の任意の対称性で保護された位相位相に対して、対応するQCAを構築する。 QCAのいくつかはクリフォードであり、これらの定理をクリフォード QCAの分類定理に関連付ける。 クリフォードQCAを4m+1$次元で同定し、クリフォードゲートを使用せず、クリフォードゲートを使用せずに低深さの回路記述を求める。

In three dimensions, there is a nontrivial quantum cellular automaton (QCA) which disentangles the three-fermion Walker--Wang model, a model whose action depends on Stiefel--Whitney classes of the spacetime manifold. Here we present a conjectured generalization to higher dimensions. For an arbitrary symmetry protected topological phase of time reversal whose action depends on Stiefel--Whitney classes, we construct a corresponding QCA that we conjecture disentangles that phase. Some of our QCA are Clifford, and we relate these to a classification theorem of Clifford QCA. We identify Clifford QCA in $4m+1$ dimensions, for which we find a low-depth circuit description using non-Clifford gates but not with Clifford gates.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# クラウドソースアノテーションを用いた物体検出のためのベイズ検出器の組み合わせ

Bayesian Detector Combination for Object Detection with Crowdsourced Annotations ( http://arxiv.org/abs/2407.07958v1 )

ライセンス: Link先を確認
Zhi Qin Tan, Olga Isupova, Gustavo Carneiro, Xiatian Zhu, Yunpeng Li, (参考訳) 制約のない画像できめ細かいオブジェクト検出アノテーションを取得するのは、特にクラウドソーシングのシナリオにおいて、時間がかかり、コストがかかり、ノイズに悩まされる。 最近のいくつかの研究は、ノイズの多いクラウドソースアノテーションによるオブジェクト検出を研究しており、人工的な仮定の下で様々なクラウドソースデータセットの異なる合成クラウドソースデータセットについて評価している。 これらのアルゴリズムの制限と評価の不整合性に対処するため,我々はまず,アノテータのラベル品質を自動的に推測するユニークな機能を備えた,ノイズの多いクラウドソースアノテーションによるオブジェクト検出をより効果的に訓練する,新しいベイズ検出結合(BDC)フレームワークを提案する。 従来のアプローチとは異なり、BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。 実世界のクラウドソーシングデータセットが不足しているため、さまざまなクラウドソーシングシナリオをシミュレートして大規模な合成データセットを導入する。 これにより、様々なモデルのスケールで一貫した評価が可能になる。 実際のクラウドソースデータセットと合成クラウドソースデータセットの両方に対する大規模な実験により、BDCは既存の最先端手法よりも優れており、クラウドソースされたデータをオブジェクト検出に活用する上での優位性を示している。 私たちのコードとデータはhttps://github.com/zhiqin1998/bdc.comで公開されています。

Acquiring fine-grained object detection annotations in unconstrained images is time-consuming, expensive, and prone to noise, especially in crowdsourcing scenarios. Most prior object detection methods assume accurate annotations; A few recent works have studied object detection with noisy crowdsourced annotations, with evaluation on distinct synthetic crowdsourced datasets of varying setups under artificial assumptions. To address these algorithmic limitations and evaluation inconsistency, we first propose a novel Bayesian Detector Combination (BDC) framework to more effectively train object detectors with noisy crowdsourced annotations, with the unique ability of automatically inferring the annotators' label qualities. Unlike previous approaches, BDC is model-agnostic, requires no prior knowledge of the annotators' skill level, and seamlessly integrates with existing object detection models. Due to the scarcity of real-world crowdsourced datasets, we introduce large synthetic datasets by simulating varying crowdsourcing scenarios. This allows consistent evaluation of different models at scale. Extensive experiments on both real and synthetic crowdsourced datasets show that BDC outperforms existing state-of-the-art methods, demonstrating its superiority in leveraging crowdsourced data for object detection. Our code and data are available at https://github.com/zhiqin1998/bdc.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 単一Xmon量子ビットにおける誤差コヒーレンスの純度ベンチマークによる研究

Purity benchmarking study of error coherence in a single Xmon qubit ( http://arxiv.org/abs/2407.07960v1 )

ライセンス: Link先を確認
Auda Zhu, Jérémy H. Béjanin, Xicheng Xu, Matteo Mariantoni, (参考訳) 本研究では,超伝導量子ビット系におけるゲートノイズのダイナミクスを探索するために,純度ベンチマーク(PB)を用いる。 Xmon量子ビット上での1110時間以上の観測で、コヒーレンスノイズの予算を2つの異なる周波数で同時に測定する。 全体として誤差率を優先する不整合誤差は、周波数依存性が最小であり、主に広帯域で拡散性のある不整合誤差源に起因することが示唆される。 対照的に、コヒーレントエラーはそれほど一般的ではないが、運用周波数のばらつきや電信ノイズにかなり敏感である。 この感度は、量子ビット制御パラメータに影響を与え、コヒーレントキャリブレーションエラーを引き起こす、単一の強く結合された環境欠陥(二レベルシステムとしてモデル化された)との相互作用によるものだと推測する。 また,PBは感度を向上し,従来の緩和時間測定では検出できないダイナミックスを付加し,量子システム内の動的相互作用をより包括的に捉える方法を提案する。 これらのコヒーレンスダイナミクスの複雑な性質は、さらなる研究の必要性を浮き彫りにしている。

In this study, we employ purity benchmarking (PB) to explore the dynamics of gate noise in a superconducting qubit system. Over 1110 hours of observations on an Xmon qubit, we simultaneously measure the coherence noise budget across two different operational frequencies. We find that incoherent errors, which predominate in overall error rates, exhibit minimal frequency dependence, suggesting they are primarily due to wide-band, diffusive incoherent error sources. In contrast, coherent errors, although less prevalent, show significant sensitivity to operational frequency variations and telegraphic noise. We speculate that this sensitivity is due to interactions with a single strongly coupled environmental defect -- modeled as a two-level system -- which influences qubit control parameters and causes coherent calibration errors. Our results also demonstrate that PB offers improved sensitivity, capturing additional dynamics that conventional relaxation time measurements cannot detect, thus presenting a more comprehensive method for capturing dynamic interactions within quantum systems. The intricate nature of these coherence dynamics underscores the need for further research.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 新規量子オートエンコーダを用いたLHCにおける非教師なしモデルイベント発見

Unsupervised Beyond-Standard-Model Event Discovery at the LHC with a Novel Quantum Autoencoder ( http://arxiv.org/abs/2407.07961v1 )

ライセンス: Link先を確認
Callum Duffy, Mohammad Hassanshah, Marcin Jastrzebski, Sarah Malik, (参考訳) 本研究は、大型ハドロン衝突型加速器における陽子衝突に現れる可能性のある標準モデルを超えて、物理を同定するための教師なし異常検出の可能性を探るものである。 本稿では,この課題に特化して設計された新しい量子オートエンコーダ回路アンサッツを提案する。 そのロバスト性を評価するため、様々な種類の新しい物理「信号」イベントと様々な問題サイズについて量子オートエンコーダの評価を行った。 さらに、従来提案されていた量子オートエンコーダよりも優れていたが、トレーニング可能なパラメータの数が大幅に減少しているにもかかわらず、新しい量子アンサッツに圧倒され続けている古典的オートエンコーダを開発した。 最後に,量子オートエンコーダ回路の特性について検討し,絡み合いと魔法に着目した。 本稿では,パラメータ化量子回路,安定化器2-R'enyiエントロピーによる魔法の定量化,および従来研究されていた絡み合いのメイヤー・ワラッハ測度について紹介する。 興味深いことに、両方の指標は、損失関数の減少とともにトレーニングプロセス全体で低下した。 これは、モデルがこれらのメトリクスを減らすパラメータを優先的に学習していることを示唆しているようだ。 この研究は、大型ハドロン衝突型加速器の標準モデルを超えて物理学を探索する量子オートエンコーダの潜在的有用性を強調し、量子機械学習における絡み合いと魔法の役割をより一般的に研究するためのエキサイティングな道を開く。

This study explores the potential of unsupervised anomaly detection for identifying physics beyond the Standard Model that may appear at proton collisions at the Large Hadron Collider. We introduce a novel quantum autoencoder circuit ansatz that is specifically designed for this task and demonstrates superior performance compared to previous approaches. To assess its robustness, we evaluate the quantum autoencoder on various types of new physics 'signal' events and varying problem sizes. Additionally, we develop classical autoencoders that outperform previously proposed quantum autoencoders but remain outpaced by the new quantum ansatz, despite its significantly reduced number of trainable parameters. Finally, we investigate the properties of quantum autoencoder circuits, focusing on entanglement and magic. We introduce a novel metric in the context of parameterised quantum circuits, stabilizer 2-R\'enyi entropy to quantify magic, along with the previously studied Meyer-Wallach measure for entanglement. Intriguingly, both metrics decreased throughout the training process along with the decrease in the loss function. This appears to suggest that models preferentially learn parameters that reduce these metrics. This study highlights the potential utility of quantum autoencoders in searching for physics beyond the Standard Model at the Large Hadron Collider and opens exciting avenues for further research into the role of entanglement and magic in quantum machine learning more generally.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 表面トポロジーに先立ってベイズ最適化を用いた分子基底エネルギーの効率的な量子計算に向けて

Towards Efficient Quantum Computation of Molecular Ground State Energies using Bayesian Optimization with Priors over Surface Topology ( http://arxiv.org/abs/2407.07963v1 )

ライセンス: Link先を確認
Farshud Sorourifar, Mohamed Taha Rouabah, Nacer Eddine Belaloui, Mohamed Messaoud Louamri, Diana Chamaki, Erik J. Gustafson, Norm M. Tubman, Joel A. Paulson, David E. Bernal Neira, (参考訳) 変分量子固有解法(VQEs)は、現代の量子コンピュータにおける分子基底状態とエネルギーの計算における有望なアプローチである。 これらのアプローチでは、古典的なコンピュータを用いて試行波関数のパラメータを最適化し、量子コンピュータは、期待値が計算されるショットと呼ばれる一連のビットストリング観測を準備、測定することでエネルギーをシミュレートする。 より多くのショットによって期待される基底状態の精度が向上するが、シミュレーションコストも向上する。 したがって,量子資源の少ないVQEを解くために,数ショットの回路観測を利用する標準的なベイズ最適化アルゴリズムの修正を提案する。 提案手法の有効性を示すため,分子系の最適化器を比較し,基底状態エネルギーの発見に現在の量子ハードウェアが有効であることを示す。

Variational Quantum Eigensolvers (VQEs) represent a promising approach to computing molecular ground states and energies on modern quantum computers. These approaches use a classical computer to optimize the parameters of a trial wave function, while the quantum computer simulates the energy by preparing and measuring a set of bitstring observations, referred to as shots, over which an expected value is computed. Although more shots improve the accuracy of the expected ground state, it also increases the simulation cost. Hence, we propose modifications to the standard Bayesian optimization algorithm to leverage few-shot circuit observations to solve VQEs with fewer quantum resources. We demonstrate the effectiveness of our proposed approach, Bayesian optimization with priors on surface topology (BOPT), by comparing optimizers for molecular systems and demonstrate how current quantum hardware can aid in finding ground state energies.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# スマートグリッドのセキュリティに関する総合調査 : 課題,緩和,今後の研究機会

A Comprehensive Survey on the Security of Smart Grid: Challenges, Mitigations, and Future Research Opportunities ( http://arxiv.org/abs/2407.07966v1 )

ライセンス: Link先を確認
Arastoo Zibaeirad, Farnoosh Koleini, Shengping Bi, Tao Hou, Tao Wang, (参考訳) 本研究では,スマートグリッドのセキュリティ,システムアーキテクチャ,攻撃手法,防衛戦略,今後の研究機会の総合的なレビューを行う。 本稿では,スマートグリッドの高度なコンポーネントによって導入された新たな攻撃面に着目し,様々な攻撃ベクトルの詳細な解析を行う。 このレビューには、複数の攻撃戦略を取り入れ、さまざまなスマートグリッドコンポーネントにわたる脆弱性を悪用し、その悪影響を増大させ、これらの脅威の複雑さと潜在的な重大さを実証するコーディネートされた攻撃の広範な分析が含まれている。 次に、ゲーム理論、グラフ理論、ブロックチェーン、機械学習を含む革新的な検出と緩和戦略を検討し、進化する脅威と関連する研究課題に対処する彼らの進歩について議論する。 特に、我々のレビューでは、広く使われている機械学習に基づく緩和戦略を徹底的に検討し、教師なし、教師なし、半教師なし、アンサンブル、強化学習にまたがる応用と研究課題を分析している。 さらに,今後の研究の方向性を概説し,新たな技術や課題を探究する。 まず、既存の戦略と新興戦略の研究機会について論じ、次に、大規模言語モデル(LLM)や、スマートグリッドセキュリティの将来における敵対的機械学習の脅威のような新しい技術の役割について検討する。

In this study, we conduct a comprehensive review of smart grid security, exploring system architectures, attack methodologies, defense strategies, and future research opportunities. We provide an in-depth analysis of various attack vectors, focusing on new attack surfaces introduced by advanced components in smart grids. The review particularly includes an extensive analysis of coordinated attacks that incorporate multiple attack strategies and exploit vulnerabilities across various smart grid components to increase their adverse impact, demonstrating the complexity and potential severity of these threats. Following this, we examine innovative detection and mitigation strategies, including game theory, graph theory, blockchain, and machine learning, discussing their advancements in counteracting evolving threats and associated research challenges. In particular, our review covers a thorough examination of widely used machine learning-based mitigation strategies, analyzing their applications and research challenges spanning across supervised, unsupervised, semi-supervised, ensemble, and reinforcement learning. Further, we outline future research directions and explore new techniques and concerns. We first discuss the research opportunities for existing and emerging strategies, and then explore the potential role of new techniques, such as large language models (LLMs), and the emerging threat of adversarial machine learning in the future of smart grid security.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 共形場理論とホログラフィーにおける絡み合い非対称性

Entanglement asymmetry in conformal field theory and holography ( http://arxiv.org/abs/2407.07969v1 )

ライセンス: Link先を確認
Francesco Benini, Victor Godet, Amartya Harsh Singh, (参考訳) エンタングルメント非対称性(英: Entanglement asymmetric)は、量子情報理論に着想を得た量子サブシステムにおける対称性の破れの尺度である。 U(1)対称性を持つ共形場の量子論における励起的「コヒーレント状態」のクラスの絡み合い非対称性を、位相対称性の欠陥を持つユークリッドパス積分法とレプリカ形式主義を用いて研究する。 摂動理論では、平面空間における有限球面部分領域、有限体積、正の温度を含む様々なサブシステムの非対称性を先導的に計算する。 我々はまた、そのローレンツ時間の進化を研究し、熱化による対称性の動的復元と量子ムペンバ効果の存在を示す。 我々の結果は普遍的であり、任意の次元に適用できる。 また、摂動エンタングルメント非対称性は、ホランドス=ウォルド標準エネルギーと呼ばれる既知のホログラフィック双対を持つフィッシャー情報量と関係しており、エンタングルメントウェッジに含まれるAdSバルク電荷によって捕捉されることを示す。

Entanglement asymmetry is a measure of symmetry breaking in quantum subsystems, inspired by quantum information theory, particularly suited to study out-of-equilibrium states. We study the entanglement asymmetry of a class of excited "coherent states" in conformal quantum field theories with a U(1) symmetry, employing Euclidean path-integral methods with topological symmetry defects and the replica formalism. We compute, at leading order in perturbation theory, the asymmetry for a variety of subsystems, including finite spherical subregions in flat space, in finite volume, and at positive temperature. We also study its Lorentzian time evolution, showcasing the dynamical restoration of the symmetry due to thermalization, as well as the presence of a quantum Mpemba effect. Our results are universal, and apply in any number of dimensions. We also show that the perturbative entanglement asymmetry is related to the Fisher information metric, which has a known holographic dual called Hollands-Wald canonical energy, and that it is captured by the AdS bulk charge contained in the entanglement wedge.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 言語モデルに最適な最適化を実現するためのデコンストラクション

Deconstructing What Makes a Good Optimizer for Language Models ( http://arxiv.org/abs/2407.07972v1 )

ライセンス: Link先を確認
Rosie Zhao, Depen Morwani, David Brandfonbrener, Nikhil Vyas, Sham Kakade, (参考訳) 言語モデルのトレーニングは、大規模化によってますます高価になり、最適化効率を改善するために多くの試みが行われている。 これらの努力にもかかわらず、Adamオプティマイザが最も広く使われているのは、これが最も効果的なアプローチである、という見解が一般的であるためである。 我々は,SGD,Adafactor,Adam,Lionといった最適化アルゴリズムを,モデルサイズ,ハイパーパラメータ,アーキテクチャの変種など,多岐にわたる自動回帰言語モデリングの文脈で比較することを目指している。 以上の結果から,これらのアルゴリズムは,SGDを除いて,最適性能と多種多様なハイパーパラメータの選択方法の両面で比較可能な性能を示した。 この結果から,メモリ制約や実装の容易さといった実践的な考慮により,オプティマイザの選択を導出できることが示唆された。 以上の結果から,Adam の2つの簡易版について検討し,これらのアプローチをさらに検討する。 a)アダムとアダムのパフォーマンスとハイパーパラメータの安定性の両方を回復させる署名された運動量(署名) b)Adalayerは、Adamのプレコンディショニングを研究するために導入したAdamのレイヤーワイズ版である。 Adalayerを調べたところ、Adamのプリコンディショニングの最大の影響は最後のレイヤとLayerNormパラメータに限られており、おそらくは、残りのレイヤはSGDでトレーニングできるという結論に至った。

Training language models becomes increasingly expensive with scale, prompting numerous attempts to improve optimization efficiency. Despite these efforts, the Adam optimizer remains the most widely used, due to a prevailing view that it is the most effective approach. We aim to compare several optimization algorithms, including SGD, Adafactor, Adam, and Lion, in the context of autoregressive language modeling across a range of model sizes, hyperparameters, and architecture variants. Our findings indicate that, except for SGD, these algorithms all perform comparably both in their optimal performance and also in terms of how they fare across a wide range of hyperparameter choices. Our results suggest to practitioners that the choice of optimizer can be guided by practical considerations like memory constraints and ease of implementation, as no single algorithm emerged as a clear winner in terms of performance or stability to hyperparameter misspecification. Given our findings, we further dissect these approaches, examining two simplified versions of Adam: a) signed momentum (Signum) which we see recovers both the performance and hyperparameter stability of Adam and b) Adalayer, a layerwise variant of Adam which we introduce to study Adam's preconditioning. Examining Adalayer leads us to the conclusion that the largest impact of Adam's preconditioning is restricted to the last layer and LayerNorm parameters, and, perhaps surprisingly, the remaining layers can be trained with SGD.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# ループ内の臨床医によるデータプログラミングのための弱ラベル生成の自動化

Automating Weak Label Generation for Data Programming with Clinicians in the Loop ( http://arxiv.org/abs/2407.07982v1 )

ライセンス: Link先を確認
Jean Park, Sydney Pugh, Kaustubh Sridhar, Mengyu Liu, Navish Yarna, Ramneet Kaur, Souradeep Dutta, Elena Bernardis, Oleg Sokolsky, Insup Lee, (参考訳) 大きなディープニューラルネットワーク(DNN)は、しばしば飢えているデータであり、学習が収束するためには、協調的な量で高品質なラベル付きデータが必要である。 高品質なラベル付きデータは少ないことが多いため、医療分野での課題である。 データプログラミングは、複数の弱いラベル付け関数を使ってラベル付けされていないデータをラベル付けできるので、この点において希望の光である。 このような機能はドメインの専門家によって提供されることが多い。 データプログラミングは、複数の弱いラベル付け関数を組み合わせることができ、異なる関数に対する単純な多数決よりもラベルを推奨できる。 しかし、特に画像や時系列データのような高次元設定において、そのような弱いラベル付け関数を表現することは容易ではない。 本稿では,距離関数を用いてこの問題を回避する方法を提案する。 高次元空間では、異なるラベリングタスクをまたいで一般化できる有意義な距離メトリクスを見つけることがより容易である。 本稿では,データセットのいくつかの代表的なサンプルのラベルについて,専門家に問い合わせるアルゴリズムを提案する。 これらのサンプルは、データセットの分布をキャプチャするアルゴリズムによって慎重に選択される。 代表サブセットのエキスパートによって割り当てられたラベルは、完全なデータセットのラベルを誘導し、データプログラミングパイプラインで使用される弱いラベルを生成する。 3,265例中50~130例のラベリングでは,F1の精度が17~28%向上し,F1が13~28%改善した。 医用画像ケーススタディでは,6,293枚の未表示画像から50~120枚の画像にラベルを付けることで,約5~15%の精度,12~19%のF1スコアが向上した。

Large Deep Neural Networks (DNNs) are often data hungry and need high-quality labeled data in copious amounts for learning to converge. This is a challenge in the field of medicine since high quality labeled data is often scarce. Data programming has been the ray of hope in this regard, since it allows us to label unlabeled data using multiple weak labeling functions. Such functions are often supplied by a domain expert. Data-programming can combine multiple weak labeling functions and suggest labels better than simple majority voting over the different functions. However, it is not straightforward to express such weak labeling functions, especially in high-dimensional settings such as images and time-series data. What we propose in this paper is a way to bypass this issue, using distance functions. In high-dimensional spaces, it is easier to find meaningful distance metrics which can generalize across different labeling tasks. We propose an algorithm that queries an expert for labels of a few representative samples of the dataset. These samples are carefully chosen by the algorithm to capture the distribution of the dataset. The labels assigned by the expert on the representative subset induce a labeling on the full dataset, thereby generating weak labels to be used in the data programming pipeline. In our medical time series case study, labeling a subset of 50 to 130 out of 3,265 samples showed 17-28% improvement in accuracy and 13-28% improvement in F1 over the baseline using clinician-defined labeling functions. In our medical image case study, labeling a subset of about 50 to 120 images from 6,293 unlabeled medical images using our approach showed significant improvement over the baseline method, Snuba, with an increase of approximately 5-15% in accuracy and 12-19% in F1 score.
翻訳日:2024-07-12 21:48:59 公開日:2024-07-10
# 連続駆動2レベル系からのフォトニックモードの絡み合い

Entanglement of photonic modes from a continuously driven two-level system ( http://arxiv.org/abs/2407.07991v1 )

ライセンス: Link先を確認
Jiaying Yang, Ingrid Strandberg, Alejandro Vivas-Viana, Akshay Gaikwad, Claudia Castillo-Moreno, Anton Frisk Kockum, Muhammad Asad Ullah, Carlos Sanchez Munoz, Axel Martin Eriksson, Simone Gasparinetti, (参考訳) 光の絡み合った状態を生成する能力は、量子通信と分散量子計算の鍵となるプリミティブである。 自発的なパラメトリックダウンコンバージョンに基づくものを含む連続的に駆動されるソースは通常確率的であるが、決定論的ソースは制御場の正確なタイミングを必要とする。 ここでは, 量子エミッタ, 超伝導キュービット, コヒーレントドライブを連続的にエキサイティングし, 時間領域と周波数領域におけるモードマッチングを生かして, 絡み合ったフォトニックモードを実験的に生成する。 連成量子状態トモグラフィーと対数的負性率を用いて、共鳴蛍光スペクトルの2つの側バンドから抽出されたモード間の絡み合いが生じることを示す。 絡み合ったフォトニックモードは完全に直交しているため、異なる量子メモリに転送することができる。 我々の手法は、導波路量子電磁力学、分散量子コンピューティング、量子ネットワークなど、様々な物理プラットフォームにおける絡み合いを高速に分散するために利用することができる。

The ability to generate entangled states of light is a key primitive for quantum communication and distributed quantum computation. Continuously driven sources, including those based on spontaneous parametric downconversion, are usually probabilistic, whereas deterministic sources require accurate timing of the control fields. Here, we experimentally generate entangled photonic modes by continuously exciting a quantum emitter, a superconducting qubit, with a coherent drive, taking advantage of mode matching in the time and frequency domain. Using joint quantum state tomography and logarithmic negativity, we show that entanglement is generated between modes extracted from the two sidebands of the resonance fluorescence spectrum. Because the entangled photonic modes are perfectly orthogonal, they can be transferred into distinct quantum memories. Our approach can be utilized to distribute entanglement at a high rate in various physical platforms, with applications in waveguide quantum electrodynamics, distributed quantum computing, and quantum networks.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# Flow4D:LiDARシーンフロー推定のための4Dボクセルネットワークを活用する

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation ( http://arxiv.org/abs/2407.07995v1 )

ライセンス: Link先を確認
Jaeyeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im, (参考訳) 周囲の環境の運動状態を理解することは安全な自動運転に不可欠である。 これらの運動状態は、ポイントの3次元運動場をキャプチャするシーンフローから正確に導き出すことができる。 既存のLiDARシーンフロー法は各点雲から空間的特徴を抽出し、チャネル的に融合し、時空間の特徴を暗黙的に抽出する。 さらに、2D Birdのアイビューを使用し、2つのフレームのみを処理し、Z軸とより広い時間的文脈に沿った重要な空間情報を欠いているため、最適以下の性能が得られる。 これらの制約に対処するために,3次元ボクセル内特徴エンコーダの後に複数の点群を時間的に融合させるFlow4Dを提案する。 しかし、4D畳み込みを用いることで性能が向上する一方、計算負荷は大幅に増大する。 さらに効率を上げるために、重い4D畳み込みではなく、3Dと1D畳み込みを組み合わせた時空間分解ブロック(STDB)を導入する。 さらに、Flow4Dは5フレームを使用してよりリッチな時間情報を活用することで、パフォーマンスをさらに向上する。 その結果,提案手法は実時間走行時の最先端技術と比較して45.9%高い性能を達成し,2024年のArgoverse 2 Scene Flow Challengeで1位を獲得した。 コードはhttps://github.com/dgist-cvlab/Flow4Dで公開されている。

Understanding the motion states of the surrounding environment is critical for safe autonomous driving. These motion states can be accurately derived from scene flow, which captures the three-dimensional motion field of points. Existing LiDAR scene flow methods extract spatial features from each point cloud and then fuse them channel-wise, resulting in the implicit extraction of spatio-temporal features. Furthermore, they utilize 2D Bird's Eye View and process only two frames, missing crucial spatial information along the Z-axis and the broader temporal context, leading to suboptimal performance. To address these limitations, we propose Flow4D, which temporally fuses multiple point clouds after the 3D intra-voxel feature encoder, enabling more explicit extraction of spatio-temporal features through a 4D voxel network. However, while using 4D convolution improves performance, it significantly increases the computational load. For further efficiency, we introduce the Spatio-Temporal Decomposition Block (STDB), which combines 3D and 1D convolutions instead of using heavy 4D convolution. In addition, Flow4D further improves performance by using five frames to take advantage of richer temporal information. As a result, the proposed method achieves a 45.9% higher performance compared to the state-of-the-art while running in real-time, and won 1st place in the 2024 Argoverse 2 Scene Flow Challenge. The code is available at https://github.com/dgist-cvlab/Flow4D.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# ICD符号は機械学習のためのデータセット作成に十分でない:コクシディオイドマイシン症と心筋梗塞に対する全Usデータを用いた評価

ICD Codes are Insufficient to Create Datasets for Machine Learning: An Evaluation Using All of Us Data for Coccidioidomycosis and Myocardial Infarction ( http://arxiv.org/abs/2407.07997v1 )

ライセンス: Link先を確認
Abigail E. Whitlock, Gondy Leroy, Fariba M. Donovan, John N. Galgiani, (参考訳) 医学において、機械学習(ML)データセットは、しばしば国際疾患分類(ICD)コードを用いて構築される。 新しいモデルが開発されているため、より大きなデータセットが必要である。 しかし、ICDコードは請求を意図している。 MLモデルをトレーニングするデータセットを作成するのに最適なICDコードを決定することを目的としている。 われわれはAll of Usデータベースを用いた稀で一般的な疾患に焦点を当てた。 まず,バレー熱 (coccidioidomycosis, CM) のICDコードを用いて作成したコホートと血清学的診断で同定したコホートとの比較を行った。 第2に, 心筋梗塞(MI)患者に対して, 同様に作成した2種類のコホートを比較検討した。 両群間に有意差を認め, 重複例は少なかった。 CMコホートはICD-10群811例, 陽性血清型619例, 両群24例であった。 MIコホートはICD-10群14,875人,MI検査陽性群23,598人,それぞれ6,531人であった。 症例はコホート群で, デモグラフィ, 疾患症状率, その他の臨床データについて検討した。

In medicine, machine learning (ML) datasets are often built using the International Classification of Diseases (ICD) codes. As new models are being developed, there is a need for larger datasets. However, ICD codes are intended for billing. We aim to determine how suitable ICD codes are for creating datasets to train ML models. We focused on a rare and common disease using the All of Us database. First, we compared the patient cohort created using ICD codes for Valley fever (coccidioidomycosis, CM) with that identified via serological confirmation. Second, we compared two similarly created patient cohorts for myocardial infarction (MI) patients. We identified significant discrepancies between these two groups, and the patient overlap was small. The CM cohort had 811 patients in the ICD-10 group, 619 patients in the positive-serology group, and 24 with both. The MI cohort had 14,875 patients in the ICD-10 group, 23,598 in the MI laboratory-confirmed group, and 6,531 in both. Demographics, rates of disease symptoms, and other clinical data varied across our case study cohorts.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# スコアとは何か?非線形拡散に対するスコアマッチングの自動生成

What's the score? Automated Denoising Score Matching for Nonlinear Diffusions ( http://arxiv.org/abs/2407.07998v1 )

ライセンス: Link先を確認
Raghav Singhal, Mark Goldstein, Rajesh Ranganath, (参考訳) 拡散過程の逆転は、拡散に基づく生成モデルの中心を形成し、科学的システムの特性を推定する。 ガウスの定常分布を持つ線形過程の中心を引くことができる拡散過程。 これにより、ガウスの事前あるいはより一般に対象とするモデルに構築できるモデルの種類を制限し、条件付き線形スコア関数を持つモデルに汎用的に解決できる問題の種類を制限できる。 本研究では,拡散過程の局所的増分を用いて構築した局所DSMと呼ばれる,抽出可能なスコアマッチング対象のファミリーを紹介する。 本稿では,Taylor拡張を用いた局所DSM溶接により,非線形拡散プロセスによる自動トレーニングとスコア推定が可能となることを示す。 これらのアイデアを実証するために、我々は自動DSMを用いて、低次元分布とCIFAR10画像データセットに挑戦する非ガウス的先行モデルを用いて生成モデルを訓練する。 さらに、統計物理学で研究された非線形過程のスコアを自動DSMを用いて学習する。

Reversing a diffusion process by learning its score forms the heart of diffusion-based generative modeling and for estimating properties of scientific systems. The diffusion processes that are tractable center on linear processes with a Gaussian stationary distribution. This limits the kinds of models that can be built to those that target a Gaussian prior or more generally limits the kinds of problems that can be generically solved to those that have conditionally linear score functions. In this work, we introduce a family of tractable denoising score matching objectives, called local-DSM, built using local increments of the diffusion process. We show how local-DSM melded with Taylor expansions enables automated training and score estimation with nonlinear diffusion processes. To demonstrate these ideas, we use automated-DSM to train generative models using non-Gaussian priors on challenging low dimensional distributions and the CIFAR10 image dataset. Additionally, we use the automated-DSM to learn the scores for nonlinear processes studied in statistical physics.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# ビデオミラー検出のための短期的・長期的注意の融合

Fusion of Short-term and Long-term Attention for Video Mirror Detection ( http://arxiv.org/abs/2407.07999v1 )

ライセンス: Link先を確認
Mingchen Xu, Jing Wu, Yukun Lai, Ze Ji, (参考訳) 静止画像から鏡を検出する技術は近年急速に成長している。 しかし,これらの手法は単一入力画像からミラーを検出する。 映像から鏡を検出するには、フレーム間の時間的一貫性をさらに考慮する必要がある。 人間は、その外観(例えば、形状、色)に基づいて、わずか1つか2つのフレームからミラー候補を認識することができる。 しかし、候補が(写真やウィンドウではなく)鏡であることを確実にするためには、グローバルなビューのためにより多くのフレームを観察する必要があることが多い。 この観察は、短期の注意モジュールから抽出した外観特徴と長期の注意モジュールから抽出した文脈情報を融合させることで、ミラーを検出する動機付けとなる。 性能を評価するため,281本のビデオから19,255フレームのベンチマークデータセットを構築した。 実験により,本手法がベンチマークデータセット上で最先端の性能を実現することを示す。

Techniques for detecting mirrors from static images have witnessed rapid growth in recent years. However, these methods detect mirrors from single input images. Detecting mirrors from video requires further consideration of temporal consistency between frames. We observe that humans can recognize mirror candidates, from just one or two frames, based on their appearance (e.g. shape, color). However, to ensure that the candidate is indeed a mirror (not a picture or a window), we often need to observe more frames for a global view. This observation motivates us to detect mirrors by fusing appearance features extracted from a short-term attention module and context information extracted from a long-term attention module. To evaluate the performance, we build a challenging benchmark dataset of 19,255 frames from 281 videos. Experimental results demonstrate that our method achieves state-of-the-art performance on the benchmark dataset.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 小型データレジームにおける自動ニューラルパテントランドスケープ

Automated Neural Patent Landscaping in the Small Data Regime ( http://arxiv.org/abs/2407.08001v1 )

ライセンス: Link先を確認
Tisa Islam Erana, Mark A. Finlayson, (参考訳) 特許の造園は、特定の技術分野に関連するすべての特許を識別するプロセスであり、知的財産のさまざまな側面を評価する上で重要である。 伝統的に、特許ランドスケープの構築は非常に手間がかかり高価であり、近年の特許活動の急速な拡大は、効率的で効果的な自動的な特許造園アプローチの必要性を増している。 特に、狭い技術分野の特許のラベル付けには、高度に専門化された(したがって高価な)技術知識が必要であるため、最小限のラベル付き例を使って、特許ランドスケープを構築することが重要である。 我々は、難しい例(0.69ドルF_1ドル、以前の報告されたシステムでは0.6ドル)での大幅なパフォーマンス向上と、トレーニングデータ(24例で0.75ドルF_1ドル以上)による大幅な改善を示す、自動ニューラルパテント造園システムを提案する。 AboodとFeltenbergerの2018年の"seed/anti-seed"アプローチをアクティブラーニングと組み合わせて、意思決定境界付近で難しいラベル付きサンプルを収集することで、高品質なトレーニングデータ生成手法を実証する。 この手順を使用して、トレーニングとテストのためのラベル付きAI特許の新しいデータセットを作成しました。 以前の作業と同様に、アプローチをいくつかのベースラインシステムと比較し、構築するコードとデータを公開しています。

Patent landscaping is the process of identifying all patents related to a particular technological area, and is important for assessing various aspects of the intellectual property context. Traditionally, constructing patent landscapes is intensely laborious and expensive, and the rapid expansion of patenting activity in recent decades has driven an increasing need for efficient and effective automated patent landscaping approaches. In particular, it is critical that we be able to construct patent landscapes using a minimal number of labeled examples, as labeling patents for a narrow technology area requires highly specialized (and hence expensive) technical knowledge. We present an automated neural patent landscaping system that demonstrates significantly improved performance on difficult examples (0.69 $F_1$ on 'hard' examples, versus 0.6 for previously reported systems), and also significant improvements with much less training data (overall 0.75 $F_1$ on as few as 24 examples). Furthermore, in evaluating such automated landscaping systems, acquiring good data is challenge; we demonstrate a higher-quality training data generation procedure by merging Abood and Feltenberger's (2018) "seed/anti-seed" approach with active learning to collect difficult labeled examples near the decision boundary. Using this procedure we created a new dataset of labeled AI patents for training and testing. As in prior work we compare our approach with a number of baseline systems, and we release our code and data for others to build upon.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# ALSFRS-Rスコア予測のための機械学習:センサデータのセンシング

Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data ( http://arxiv.org/abs/2407.08003v1 )

ライセンス: Link先を確認
Ritesh Mehta, Aleksandar Pramov, Shashank Verma, (参考訳) 筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急激な進行性神経変性疾患であり、医療介入や治療の領域において、限られた治療オプションを持つ個人を提示する。 この疾患は様々な発症パターンと進行軌跡を示し、機能低下の早期発見の重要性を強調し、適切なケア戦略とタイムリーな治療介入を可能にする。 iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。 このデータは,ALS機能レーティング尺度改訂(ALSFRS-R)スコアの進展を予測し,オーガナイザが提供したデータセットを活用するために設計された,さまざまな機械学習モデルを構築するために使用される。 そこで本研究では,ALSセンサデータ処理の有効性を評価するために,複数の予測モデルを評価した。 センサデータの時間的側面を統計的手法で圧縮・集約し, 収集した情報の解釈可能性と適用性を予測モデルに拡張した。 最適なパフォーマンスを示すモデルは、単純なベースラインとElasticNet回帰である。 平均絶対誤差(MAE)は0.20、ルート平均正方誤差(RMSE)は0.49、弾性ネットモデル(MAE0.22、RMSE0.50)はわずかに上回った。 我々の比較分析によると、単純アプローチは予測精度を極端に向上させたが、ElasticNetモデルは、機能のコントリビューションを理解するための堅牢なフレームワークを提供する。

Amyotrophic Lateral Sclerosis (ALS) is characterized as a rapidly progressive neurodegenerative disease that presents individuals with limited treatment options in the realm of medical interventions and therapies. The disease showcases a diverse range of onset patterns and progression trajectories, emphasizing the critical importance of early detection of functional decline to enable tailored care strategies and timely therapeutic interventions. The present investigation, spearheaded by the iDPP@CLEF 2024 challenge, focuses on utilizing sensor-derived data obtained through an app. This data is used to construct various machine learning models specifically designed to forecast the advancement of the ALS Functional Rating Scale-Revised (ALSFRS-R) score, leveraging the dataset provided by the organizers. In our analysis, multiple predictive models were evaluated to determine their efficacy in handling ALS sensor data. The temporal aspect of the sensor data was compressed and amalgamated using statistical methods, thereby augmenting the interpretability and applicability of the gathered information for predictive modeling objectives. The models that demonstrated optimal performance were a naive baseline and ElasticNet regression. The naive model achieved a Mean Absolute Error (MAE) of 0.20 and a Root Mean Square Error (RMSE) of 0.49, slightly outperforming the ElasticNet model, which recorded an MAE of 0.22 and an RMSE of 0.50. Our comparative analysis suggests that while the naive approach yielded marginally better predictive accuracy, the ElasticNet model provides a robust framework for understanding feature contributions.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 高次元ベル状態:量子照明のパラダイムシフト

High-Dimensional Bell States: A Paradigm Shift for Quantum Illumination ( http://arxiv.org/abs/2407.08005v1 )

ライセンス: Link先を確認
Armanpreet Pannu, Amr S. Helmy, Hesham El Gamal, (参考訳) 本稿では、量子照明(QI)の性能を離散変数状態で特徴付けるというオープンな問題を解く。 新たな量子計測手法と精巧な分析法を考案することにより,最大絡み合った$M$モードベル状態は,高雑音下での2モード圧縮真空と一致し,低雑音で超過することを示す。 この結果は、フォトニックセンシング応用における連続的変動状態の優位性に挑戦し、QIの新規性は、量子的優位性が存在しないと信じられているレジームにまで拡張される。 この利点は、光系の環境との相互作用が絡み合いを損なうと信じられているため、パラダイムシフトの発見であるベル状態における絡み合いの維持に由来する。 この研究の完全な数学的分析は、フォトニックシステムと環境ノイズの相互作用に関する詳細な洞察を与え、離散変数量子センシングに関するさらなる研究を動機付けている。

This paper solves the open problem of characterizing the performance of quantum illumination (QI) with discrete variable states. By devising a novel quantum measurement approach along with meticulous analysis, our investigation demonstrates that, in the limit as $M \rightarrow \infty$, the maximally entangled $M$ mode Bell state achieves optimal performance, matching the two-mode squeezed vacuum in a high-noise regime and exceeding it in low-noise. This result challenges the dominance of continuous variable states in photonic sensing applications and extends the novelty of QI to regimes where no quantum advantage was believed to exist. A closer analysis reveals that this advantage stems from retained entanglement in the transmitted Bell state, a paradigm-shifting discovery since interaction with the environment in optical systems is believed to break entanglement. The complete mathematical analysis of this work provides granular insights into the interaction between photonic systems and environmental noise, motivating further research into discrete variable quantum sensing.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 連続可変ゲート合成の古典力学の量子シミュレーションへの応用

An application of continuous-variable gate synthesis to quantum simulation of classical dynamics ( http://arxiv.org/abs/2407.08006v1 )

ライセンス: Link先を確認
Sam Cochran, James Stokes, Paramsothy Jayakumar, Shravan Veerapaneni, (参考訳) 量子コンピューティングは幅広い計算タスクを加速する約束があるが、もともとファインマンが考えていた量子力学の量子シミュレーションは、量子上の優位性を達成するための最も有望な候補である。 比較可能な技術的適用可能性の低い可能性として、古典的非線形力学の量子シミュレーションがある。 クープマン・フォン・ノイマン形式主義に基づくデジタル量子アルゴリズムの開発の試みは、無限次元ヒルベルト空間から、キュービットの集合によって記述される有限次元部分空間への必要な射影ステップのために、課題に直面している。 このフィニゼーションは、解を非常に短い時間的地平線に制限する数値的なアーティファクトを生成する。 本稿では,そのような障害を自然に回避する連続変数量子コンピューティング(CVQC)と,古典的非線形力学のKvNシミュレーションのためのCVQCアルゴリズムを提案する。 特に、無調波振動ダイナミクスの積-形式ハミルトニアンシミュレーションのための明示的なゲート合成について述べる。

Although quantum computing holds promise to accelerate a wide range of computational tasks, the quantum simulation of quantum dynamics as originally envisaged by Feynman remains the most promising candidate for achieving quantum advantage. A less explored possibility with comparably far-reaching technological applicability is the quantum simulation of classical nonlinear dynamics. Attempts to develop digital quantum algorithms based on the Koopman von Neumann formalism have met with challenges because of the necessary projection step from an infinite-dimensional Hilbert space to the finite-dimensional subspace described by a collection of qubits. This finitization produces numerical artifacts that limit solutions to very short time horizons. In this paper we review continuous-variable quantum computing (CVQC), which naturally avoids such obstacles, and a CVQC algorithm for KvN simulation of classical nonlinear dynamics is advocated. In particular, we present explicit gate synthesis for product-formula Hamiltonian simulation of anharmonic vibrational dynamics.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# DS@GT eRisk 2024: ソーシャルメディアリスクアセスメントのための文変換器

DS@GT eRisk 2024: Sentence Transformers for Social Media Risk Assessment ( http://arxiv.org/abs/2407.08008v1 )

ライセンス: Link先を確認
David Guecha, Aaryan Potdar, Anthony Miyaguchi, (参考訳) DS@GTチームの作業ノートをeRisk 2024 for Tasks 1 and 3で紹介する。 本稿では,Bedck Depression Inventory (BDI-II) アンケートに基づいて抑うつ症状を予測するタスク1のランキングシステムを提案する。 その結果、二項分類器はランク付けに適せず、評価中は性能が良くないことがわかった。 タスク3では、BERTからの埋め込みを用いて、ユーザの投稿履歴に基づいて障害症状の重症度を予測する。 従来の機械学習モデルはタスクでうまく機能し、ベースラインモデルと競合することになる。 テキストデータの表現は両タスクにおいて不可欠であり,文変換器は下流モデリングの強力なツールである。 ソースコードとモデルは \url{https://github.com/dsgt-kaggle-clef/erisk-2024} で公開されている。

We present working notes for DS@GT team in the eRisk 2024 for Tasks 1 and 3. We propose a ranking system for Task 1 that predicts symptoms of depression based on the Beck Depression Inventory (BDI-II) questionnaire using binary classifiers trained on question relevancy as a proxy for ranking. We find that binary classifiers are not well calibrated for ranking, and perform poorly during evaluation. For Task 3, we use embeddings from BERT to predict the severity of eating disorder symptoms based on user post history. We find that classical machine learning models perform well on the task, and end up competitive with the baseline models. Representation of text data is crucial in both tasks, and we find that sentence transformers are a powerful tool for downstream modeling. Source code and models are available at \url{https://github.com/dsgt-kaggle-clef/erisk-2024}.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# ツインフィールド量子鍵分布ネットワークのための長繊維サニャック干渉計

Long-fiber Sagnac interferometers for twin field quantum key distribution networks ( http://arxiv.org/abs/2407.08009v1 )

ライセンス: Link先を確認
Reem Mandil, Li Qian, Hoi-Kwong Lo, (参考訳) サニャックループ構造は、ツインフィールド量子鍵分布(TFQKD)ネットワークの実践的な実装において大きな困難を克服するのに役立つ。 残念なことに、レイリーの後方散乱ノイズは、長い繊維と失われたフォトニックデバイスを含むサニャック系の信号対雑音比を制限する。 ここでは,光パルスを長時間オンオフバーストで送信し,自由ラン単光雪崩検出器を用いて測定した時間選択を用いてこの問題を解決する。 また,サニャック構造で補正されていない残相雑音の影響を調べた結果,位相雑音のばらつきが第3のパワーへのループ長としてスケールし,既存の計算結果を検証した。 活性相や偏光安定化を伴わない長さのサニャックループの干渉可視性を測定し,200km超低損失ファイバにおいて97%の可視性を実現した。 本研究は,大都市量子ネットワークの実現に向けた重要なステップである,長距離TFQKDネットワークに対するサニャックシステムの適合性を示すものである。

A Sagnac loop structure can help overcome the major difficulty in the practical implementation of a twin field quantum key distribution (TFQKD) network, namely, the need to stabilize the phase of a quantum state over many kilometers of fiber. Unfortunately, Rayleigh backscattering noise limits the signal-to-noise ratio for Sagnac systems containing long fibers and lossy photonic devices. Here, we solve this problem by sending optical pulses in long on-off bursts and using time post-selection on measurements taken with free-run single-photon avalanche detectors. We also investigate the impact of the residual phase noise uncompensated by the Sagnac structure and find that the variance of the phase noise scales as loop length to the third power, verifying an existing calculation in the literature. We measure the interference visibility in Sagnac loops of varying length without active phase or polarization stabilization and achieve > 97% visibility in 200 km ultra-low-loss fiber, which is, to our knowledge, the longest fiber Sagnac interferometer demonstrated. Our results indicate the suitability of a Sagnac system for long-distance TFQKD networks, an important step towards the practical implementation of metropolitan quantum networks.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# マルチステップ時系列予測のための自己組織型インターバル型2ファジィニューラルネットワーク

A New Self-organizing Interval Type-2 Fuzzy Neural Network for Multi-Step Time Series Prediction ( http://arxiv.org/abs/2407.08010v1 )

ライセンス: Link先を確認
Fulong Yao, Wanqing Zhao, Matthew Forshaw, Yang Song, (参考訳) 本稿では,マルチステップ時系列予測のための複数出力(SOIT2FNN-MO)を備えた新しい自己組織化間隔型2ファジィニューラルネットワークを提案する。 従来の6層IT2FNNと異なり、予測精度、不確実性処理、モデル解釈可能性を改善するために9層ネットワークが開発された。 まず,多段階予測のためのファジィモデルの解釈性を改善するために,新しい共役層と修正共役層を考案した。 第二に、新しい変換層は、高次元入力による消滅した規則発射強度の潜在的な問題に対処するように設計されている。 第三に、多段階予測間の時間的接続を構築するために、新しいリンク層を提案する。 さらに、ファジィルールを自動的に生成する2段階自己組織化機構を開発し、第1段階を使用してルールベースを空から作成し、初期最適化を行い、第2段階は全てのネットワークパラメータを微調整する。 最後に,カオスおよびマイクログリッドの時系列予測問題に対して,予測精度,不確実性処理,モデル解釈可能性の観点から,提案手法の優位性を示すシミュレーションを行った。

This paper proposes a new self-organizing interval type-2 fuzzy neural network with multiple outputs (SOIT2FNN-MO) for multi-step time series prediction. Differing from the traditional six-layer IT2FNN, a nine-layer network is developed to improve prediction accuracy, uncertainty handling and model interpretability. First, a new co-antecedent layer and a modified consequent layer are devised to improve the interpretability of the fuzzy model for multi-step predictions. Second, a new transformation layer is designed to address the potential issues in the vanished rule firing strength caused by highdimensional inputs. Third, a new link layer is proposed to build temporal connections between multi-step predictions. Furthermore, a two-stage self-organizing mechanism is developed to automatically generate the fuzzy rules, in which the first stage is used to create the rule base from empty and perform the initial optimization, while the second stage is to fine-tune all network parameters. Finally, various simulations are carried out on chaotic and microgrid time series prediction problems, demonstrating the superiority of our approach in terms of prediction accuracy, uncertainty handling and model interpretability.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 遅延空間最適化によるコヒーレント・マルチモーダリティ画像の描画

Coherent and Multi-modality Image Inpainting via Latent Space Optimization ( http://arxiv.org/abs/2407.08019v1 )

ライセンス: Link先を確認
Lingzhi Pan, Tong Zhang, Bingyuan Chen, Qi Zhou, Wei Ke, Sabine Süsstrunk, Mathieu Salzmann, (参考訳) 拡散確率モデル (DDPMs) の発達に伴い, 画像のインパインティングは, 近辺の領域に基づく情報入力から, テキスト, 模範画像, スケッチなどの様々なプロンプトに基づくコンテント生成へと大きく発展してきた。 しかし、モデル微調整や遅延ベクトルの単純な結合のような既存の手法は、しばしば、塗装された領域と背景の間の過度な適合と不整合による生成失敗をもたらす。 本稿では,現在の大規模拡散モデルが,さらなるチューニングを行なわずに現実的な画像を生成するのに十分強力である,と論じる。 したがって、PILOT (in\textbf{P}ainting v\textbf{I}a \textbf{L}atent \textbf{O}p\textbf{T}imization) を導入する。 本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。 さらに,最適化コストと画像品質のバランスをとる戦略を提案し,生成効率を大幅に向上させる。 提案手法は,ControlNetやDreamBoothなどの事前学習モデルとシームレスに統合され,マルチモーダル編集ツールへのデプロイに適している。 質的および定量的評価により、PILOTは、提供されたプロンプトに応じて、より一貫性があり、多様性があり、忠実な塗布された領域を生成することにより、既存のアプローチよりも優れていることが示された。

With the advancements in denoising diffusion probabilistic models (DDPMs), image inpainting has significantly evolved from merely filling information based on nearby regions to generating content conditioned on various prompts such as text, exemplar images, and sketches. However, existing methods, such as model fine-tuning and simple concatenation of latent vectors, often result in generation failures due to overfitting and inconsistency between the inpainted region and the background. In this paper, we argue that the current large diffusion models are sufficiently powerful to generate realistic images without further tuning. Hence, we introduce PILOT (in\textbf{P}ainting v\textbf{I}a \textbf{L}atent \textbf{O}p\textbf{T}imization), an optimization approach grounded on a novel \textit{semantic centralization} and \textit{background preservation loss}. Our method searches latent spaces capable of generating inpainted regions that exhibit high fidelity to user-provided prompts while maintaining coherence with the background. Furthermore, we propose a strategy to balance optimization expense and image quality, significantly enhancing generation efficiency. Our method seamlessly integrates with any pre-trained model, including ControlNet and DreamBooth, making it suitable for deployment in multi-modal editing tools. Our qualitative and quantitative evaluations demonstrate that PILOT outperforms existing approaches by generating more coherent, diverse, and faithful inpainted regions in response to provided prompts.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 3次元超音波画像からのプラセンタセグメンテーションの対話的セグメンテーションモデル

Interactive Segmentation Model for Placenta Segmentation from 3D Ultrasound images ( http://arxiv.org/abs/2407.08020v1 )

ライセンス: Link先を確認
Hao Li, Baris Oguz, Gabriel Arenas, Xing Yao, Jiacheng Wang, Alison Pouch, Brett Byram, Nadav Schwartz, Ipek Oguz, (参考訳) 3次元超音波画像からの胎盤容積測定は妊娠の予後を予測する上で重要であり,手動アノテーションは金標準である。 しかし、このような手作業による注釈は高価で時間を要する。 自動セグメンテーションアルゴリズムはしばしば胎盤のセグメンテーションを成功させるが、これらの手法は実用に適したロバストセグメンテーションを一貫して生成するわけではない。 近年,Segment Anything Model (SAM) に触発されて,深層学習に基づく対話型セグメンテーションモデルが医療画像領域に広く応用されている。 これらのモデルは、対象領域を示すために提供される視覚的プロンプトからセグメンテーションを生成する。 しかし、これらのモデルはいずれも3次元超音波画像の対話的セグメンテーションのために特別に設計されたものではない。 本稿では,Placentaセグメンテーションタスクに対する人間-the-loopアプローチとは対照的に,最先端の3Dインタラクティブセグメンテーションモデルの評価を行う。 評価指標として、Diceスコア、正規化表面Dice、平均対称表面距離、および95%のハウスドルフ距離が用いられる。 我々はDiceスコア0.95を成功セグメンテーションとみなす。 以上の結果から, 人間のループ分割モデルがこの標準に達していることが示唆された。 さらに,人間のループモデルの有効性を,プロンプトの量の関数として評価する。 本研究は, 対話型胎盤セグメンテーションにおいて, ループモデルの有効性と効率性を示すものである。 コードは \url{https://github.com/MedICL-VU/PRISM-placenta} で公開されている。

Placenta volume measurement from 3D ultrasound images is critical for predicting pregnancy outcomes, and manual annotation is the gold standard. However, such manual annotation is expensive and time-consuming. Automated segmentation algorithms can often successfully segment the placenta, but these methods may not consistently produce robust segmentations suitable for practical use. Recently, inspired by the Segment Anything Model (SAM), deep learning-based interactive segmentation models have been widely applied in the medical imaging domain. These models produce a segmentation from visual prompts provided to indicate the target region, which may offer a feasible solution for practical use. However, none of these models are specifically designed for interactively segmenting 3D ultrasound images, which remain challenging due to the inherent noise of this modality. In this paper, we evaluate publicly available state-of-the-art 3D interactive segmentation models in contrast to a human-in-the-loop approach for the placenta segmentation task. The Dice score, normalized surface Dice, averaged symmetric surface distance, and 95-percent Hausdorff distance are used as evaluation metrics. We consider a Dice score of 0.95 a successful segmentation. Our results indicate that the human-in-the-loop segmentation model reaches this standard. Moreover, we assess the efficiency of the human-in-the-loop model as a function of the amount of prompts. Our results demonstrate that the human-in-the-loop model is both effective and efficient for interactive placenta segmentation. The code is available at \url{https://github.com/MedICL-VU/PRISM-placenta}.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# 逐次アベレーショナルオークションのための深層強化学習

Deep Reinforcement Learning for Sequential Combinatorial Auctions ( http://arxiv.org/abs/2407.08022v1 )

ライセンス: Link先を確認
Sai Srivatsa Ravindranath, Zhe Feng, Di Wang, Manzil Zaheer, Aranyak Mehta, David C. Parkes, (参考訳) 収益-最適オークションデザインは、重要な理論的および実践的な意味を持つ難しい問題である。 一連のオークション機構は、その単純さと強力な戦略的防御性によって知られており、特定の制限的な設定を除いて、ほとんど存在する理論的な結果によって制限されることが多い。 PPO(Proximal Policy Optimization)やSAC(Soft Actor-Critic)といった従来の強化学習手法はこの領域に適用できるが、大規模かつ連続的なアクション空間を扱う際には、計算要求や収束の問題に悩まされる。 これを考慮し、我々の設定で微分可能な遷移をモデル化できることを認識し、一階勾配を利用した逐次組合せオークションに適した新しい強化学習フレームワークを提案する。 提案手法は,分析ベースラインと標準強化学習アルゴリズムを併用して,収益の大幅な向上を図っている。 さらに,50個のエージェントと50個のアイテムを含むシナリオにアプローチを拡大し,複雑な実世界のオークション設定で適用可能性を示す。 このように、この研究は、オークション設計に利用可能な計算ツールを進歩させ、シーケンシャルオークション設計における理論結果と実践的実装のギャップを埋めることに貢献している。

Revenue-optimal auction design is a challenging problem with significant theoretical and practical implications. Sequential auction mechanisms, known for their simplicity and strong strategyproofness guarantees, are often limited by theoretical results that are largely existential, except for certain restrictive settings. Although traditional reinforcement learning methods such as Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) are applicable in this domain, they struggle with computational demands and convergence issues when dealing with large and continuous action spaces. In light of this and recognizing that we can model transitions differentiable for our settings, we propose using a new reinforcement learning framework tailored for sequential combinatorial auctions that leverages first-order gradients. Our extensive evaluations show that our approach achieves significant improvement in revenue over both analytical baselines and standard reinforcement learning algorithms. Furthermore, we scale our approach to scenarios involving up to 50 agents and 50 items, demonstrating its applicability in complex, real-world auction settings. As such, this work advances the computational tools available for auction design and contributes to bridging the gap between theoretical results and practical implementations in sequential auction design.
翻訳日:2024-07-12 21:39:04 公開日:2024-07-10
# エゴセントリック・ローカライゼーションのためのハイブリッド構造とカメラ再配置

Hybrid Structure-from-Motion and Camera Relocalization for Enhanced Egocentric Localization ( http://arxiv.org/abs/2407.08023v1 )

ライセンス: Link先を確認
Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem, (参考訳) 私たちは、主にEgoLocにインスパイアされたパイプラインEgoLoc-v1を作りました。 本稿では,VQ3Dタスクのカメラポーズ推定部を改善するためのモデルアンサンブル戦略を提案する。 中心となるアイデアは、egocentric videoのSfMだけでなく、既存の3Dスキャンと2Dビデオフレームの2D-3Dマッチングも行うことだ。 このようにして、ハイブリッドなSfMとカメラ再ローカライゼーションパイプラインがあり、より多くのカメラのポーズを提供し、QwPが向上し、全体的な成功率も向上します。 本手法は,最も重要な指標である総合的な成功率に関して,最高の性能を達成する。 われわれはこれまでの最先端のEgoLocを$1.5\%で上回っている。 コードは \url{https://github.com/Wayne-Mai/egoloc_v1} で公開されている。

We built our pipeline EgoLoc-v1, mainly inspired by EgoLoc. We propose a model ensemble strategy to improve the camera pose estimation part of the VQ3D task, which has been proven to be essential in previous work. The core idea is not only to do SfM for egocentric videos but also to do 2D-3D matching between existing 3D scans and 2D video frames. In this way, we have a hybrid SfM and camera relocalization pipeline, which can provide us with more camera poses, leading to higher QwP and overall success rate. Our method achieves the best performance regarding the most important metric, the overall success rate. We surpass previous state-of-the-art, the competitive EgoLoc, by $1.5\%$. The code is available at \url{https://github.com/Wayne-Mai/egoloc_v1}.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# L_2(0,1]$のマルチレゾリューションによる量子情報再キャスト

Quantum information recast via multiresolution in $L_2(0,1]$ ( http://arxiv.org/abs/2407.08024v1 )

ライセンス: Link先を確認
Mandana Bidarvand, Artur Sowa, (参考訳) 本稿では,量子情報理論に対する多分解能アプローチを提案する。 これは、無限個の量子ビットの配列、すなわち量子メタマテリアルとして解釈される構造を分析するための体系的な数学的アプローチの開発から生まれた。 我々のアプローチの基本は古典的な根を持つ2つの数学的構成、ボレル同型とハール基底である。 ここで、これらの構成は、$L_2(0,1]$と無限個の量子ビットの列のヒルベルト空間との同一性を確立し、(有限または無限の)量子ビットの配列に作用する作用素の解析を可能にするために交わされる。 これら2つの概念の融合により、幾何学的作用素を通して量子演算と可観測性を表現することができる。 予期せぬアップショットとして、計算の基本概念は無限の量子ビット列に固有のものであることを観察する。

We present a multiresolution approach to the theory of quantum information. It arose from an effort to develop a systematic mathematical approach to the analysis of an infinite array of qubits, i.e., a structure that may be interpreted as a quantum metamaterial. Foundational to our approach are two mathematical constructions with classical roots: the Borel isomorphism and the Haar basis. Here, these constructions are intertwined to establish an identification between $L_2(0,1]$ and the Hilbert space of an infinite array of qubits and to enable analysis of operators that act on arrays of qubits (either finite or infinite). The fusion of these two concepts empowers us to represent quantum operations and observables through geometric operators. As an unexpected upshot, we observe that the fundamental concept of calculus is inherent in an infinite array of qubits; indeed, the antiderivative arises as a natural and indispensable operator in this context.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# ブロッホ方程式(マヨラナ-ブロッホ方程式)、フォン・ノイマン方程式、シュレーディンガー-パウリ方程式の導出

Derivations of Bloch (Majorana--Bloch) equation, von Neumann equation, and Schrödinger--Pauli equation ( http://arxiv.org/abs/2407.08025v1 )

ライセンス: Link先を確認
Lihong V. Wang, (参考訳) 古典物理学から量子力学への移行は謎に包まれている。 ここでは、電子スピンに対する空間非依存のフォン・ノイマン方程式を古典的ブロッホ方程式やマヨラナ-ブロッホ方程式から数学的に導出し、これも導出する。 その後、空間非依存のSchr\"odinger--Pauli方程式は量子力学と最近開発された共量子動的フレームワークの両方から導出される。

The transition from classical physics to quantum mechanics has been mysterious. Here, we derive the space-independent von Neumann equation for electron spin mathematically from the classical Bloch or Majorana--Bloch equation, which is also derived. Subsequently, the space-independent Schr\"odinger--Pauli equation is derived in both the quantum mechanical and recently developed co-quantum dynamic frameworks.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# Fish-Vista:画像からのトラストの理解と識別のための多目的データセット

Fish-Vista: A Multi-Purpose Dataset for Understanding & Identification of Traits from Images ( http://arxiv.org/abs/2407.08027v1 )

ライセンス: Link先を確認
Kazi Sajeed Mehrab, M. Maruf, Arka Daw, Harish Babu Manogaran, Abhilash Neog, Mridul Khurana, Bahadir Altintas, Yasin Bakis, Elizabeth G Campolongo, Matthew J Thompson, Xiaojun Wang, Hilmar Lapp, Wei-Lun Chao, Paula M. Mabee, Henry L. Bart Jr., Wasila Dahdul, Anuj Karpatne, (参考訳) 魚類は生態システムと経済分野の両方に不可欠であり、魚の特徴を研究することは生物多様性のパターンとマクロ進化の傾向を理解するのに不可欠である。 魚画像からの視覚的特徴の分析を可能にするために,1900種にまたがる約60Kの魚画像の大規模かつ注釈付きコレクションであるFish-Visual Trait Analysis (Fish-Vista)データセットを導入した。 これらの画像は、様々な博物館コレクションから得られた累積的な画像に応用された洗練されたデータ処理パイプラインを通してキュレートされている。 Fish-Vistaは、各画像に存在する様々な視覚特性のきめ細かいラベルを提供する。 また、2427の魚の画像に対して9つの異なる特徴のピクセルレベルのアノテーションを提供し、さらに特徴のセグメンテーションとローカライゼーションタスクを容易にしている。 Fish-Vistaの最終的な目標は、クリーンで慎重にキュレートされた高解像度データセットを提供することで、AIの進歩を利用して生物学的発見を加速するための基盤となる。 最後に,フィッシュビスタにおける最先端の深層学習手法を総合的に分析する。

Fishes are integral to both ecological systems and economic sectors, and studying fish traits is crucial for understanding biodiversity patterns and macro-evolution trends. To enable the analysis of visual traits from fish images, we introduce the Fish-Visual Trait Analysis (Fish-Vista) dataset - a large, annotated collection of about 60K fish images spanning 1900 different species, supporting several challenging and biologically relevant tasks including species classification, trait identification, and trait segmentation. These images have been curated through a sophisticated data processing pipeline applied to a cumulative set of images obtained from various museum collections. Fish-Vista provides fine-grained labels of various visual traits present in each image. It also offers pixel-level annotations of 9 different traits for 2427 fish images, facilitating additional trait segmentation and localization tasks. The ultimate goal of Fish-Vista is to provide a clean, carefully curated, high-resolution dataset that can serve as a foundation for accelerating biological discoveries using advances in AI. Finally, we provide a comprehensive analysis of state-of-the-art deep learning techniques on Fish-Vista.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 大規模言語モデルのための因果推論ベンチマークの批判的レビュー

A Critical Review of Causal Reasoning Benchmarks for Large Language Models ( http://arxiv.org/abs/2407.08029v1 )

ライセンス: Link先を確認
Linying Yang, Vik Shirvaikar, Oscar Clivio, Fabian Falck, (参考訳) 多くのベンチマークは、因果推論と推論のためのLarge Language Models(LLM)の機能を評価することを目的としている。 しかし、それらの多くはドメイン知識の検索によって解決できる可能性があり、その目的を達成するかどうかを疑問視する。 本稿では,LLMベンチマークの因果関係について概観する。 我々は、最近のベンチマークが、介入的または反事実的推論を取り入れることで、因果推論をより徹底的に定義する方向に進んでいる点を強調した。 有用なベンチマークやベンチマークのセットが満たすべき基準のセットを導出します。 本研究は,LSMにおける因果的理解の一般的な枠組みと,新しいベンチマークの設計への道を開くことを願っている。

Numerous benchmarks aim to evaluate the capabilities of Large Language Models (LLMs) for causal inference and reasoning. However, many of them can likely be solved through the retrieval of domain knowledge, questioning whether they achieve their purpose. In this review, we present a comprehensive overview of LLM benchmarks for causality. We highlight how recent benchmarks move towards a more thorough definition of causal reasoning by incorporating interventional or counterfactual reasoning. We derive a set of criteria that a useful benchmark or set of benchmarks should aim to satisfy. We hope this work will pave the way towards a general framework for the assessment of causal understanding in LLMs and the design of novel benchmarks.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 連結車両のスパースデータを用いた交通流推定のための時空間生成AI

Spatial-Temporal Generative AI for Traffic Flow Estimation with Sparse Data of Connected Vehicles ( http://arxiv.org/abs/2407.08034v1 )

ライセンス: Link先を確認
Jianzhe Xue, Yunting Xu, Dongcheng Yuan, Caoyi Zha, Hongyang Du, Haibo Zhou, Dusit Niyato, (参考訳) 交通流推定(TFE)はインテリジェント交通システムにおいて重要である。 従来のTFE方式は広範な道路センサネットワークに依存しており、通常かなりのコストがかかる。 少額移動群集センシングは、連結車両が提供する疎分散プローブ車両データ(PVD)を利用することにより、費用対効果のある代替手段を可能にする。 しかし、中心極限定理によって指摘されているように、PVD のスパース化は TFE の精度を低下させる。 そこで本稿では, 空間時空間生成人工知能(GAI)フレームワークを適用し, 疎PVDを活用し, 精度を向上する, 新規で費用対効果の高いTFEフレームワークを提案する。 この枠組みの中で、条件エンコーダは、各領域の平均車両速度から導かれる初期TFE結果の時空間相関をマイニングし、生成復号器は高品質で正確なTFE出力を生成する。 さらに,空間時間相関を効果的に捉える条件付きエンコーダのバックボーンである空間時空間ニューラルネットワークの設計について検討した。 提案手法の有効性は,実世界の連結車両データに基づく評価によって実証される。 実験により, PVDをベースとしたTFEフレームワークの実現可能性を確認し, TFEの精度向上における空間時空間GAIフレームワークの意義を強調した。

Traffic flow estimation (TFE) is crucial for intelligent transportation systems. Traditional TFE methods rely on extensive road sensor networks and typically incur significant costs. Sparse mobile crowdsensing enables a cost-effective alternative by utilizing sparsely distributed probe vehicle data (PVD) provided by connected vehicles. However, as pointed out by the central limit theorem, the sparsification of PVD leads to the degradation of TFE accuracy. In response, this paper introduces a novel and cost-effective TFE framework that leverages sparse PVD and improves accuracy by applying the spatial-temporal generative artificial intelligence (GAI) framework. Within this framework, the conditional encoder mines spatial-temporal correlations in the initial TFE results derived from averaging vehicle speeds of each region, and the generative decoder generates high-quality and accurate TFE outputs. Additionally, the design of the spatial-temporal neural network is discussed, which is the backbone of the conditional encoder for effectively capturing spatial-temporal correlations. The effectiveness of the proposed TFE approach is demonstrated through evaluations based on real-world connected vehicle data. The experimental results affirm the feasibility of our sparse PVD-based TFE framework and highlight the significant role of the spatial-temporal GAI framework in enhancing the accuracy of TFE.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# FsPONER:ドメイン固有のシナリオにおける名前付きエンティティ認識のためのショットプロンプト最適化

FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios ( http://arxiv.org/abs/2407.08035v1 )

ライセンス: Link先を確認
Yongjian Tang, Rakebul Hasan, Thomas Runkler, (参考訳) 大きな言語モデル(LLM)は、名前付きエンティティ認識(NER)タスクのための新しい経路を提供する。 微調整と比較して、LPMを利用したプロンプト法は、トレーニングの必要を回避し、かなりの計算資源を保存し、最小限のアノテートデータに依存する。 従来の研究は、一般的なNERベンチマークにおいて、完全に教師付きBERTベースの微調整アプローチに匹敵する性能を達成している。 しかし、従来のアプローチでは、ドメイン固有のシナリオにおけるLLMに基づく数ショット学習の効率性について研究は行われていない。 このギャップに対処するため、我々はFsPONERを導入し、いくつかのLLM(GPT-4-32K, GPT-3.5-Turbo, LLaMA 2-chat, Vicuna)を使用しながら、ドメイン固有のNERデータセットの性能を評価した。 FsPONERは、ランダムサンプリング、TF-IDFベクトル、および両者の組み合わせに基づく3つのショット選択法で構成されている。 これらの手法を汎用的なGPT-NER法と比較し,いくつかの例が増加し,細調整したBERTとLLaMA 2-chatに対して最適なNER性能が評価される。 データ不足を考慮した実世界のシナリオでは、TF-IDFを用いたFsPONERは、F1スコアで約10%の微調整モデルを上回っている。

Large Language Models (LLMs) have provided a new pathway for Named Entity Recognition (NER) tasks. Compared with fine-tuning, LLM-powered prompting methods avoid the need for training, conserve substantial computational resources, and rely on minimal annotated data. Previous studies have achieved comparable performance to fully supervised BERT-based fine-tuning approaches on general NER benchmarks. However, none of the previous approaches has investigated the efficiency of LLM-based few-shot learning in domain-specific scenarios. To address this gap, we introduce FsPONER, a novel approach for optimizing few-shot prompts, and evaluate its performance on domain-specific NER datasets, with a focus on industrial manufacturing and maintenance, while using multiple LLMs -- GPT-4-32K, GPT-3.5-Turbo, LLaMA 2-chat, and Vicuna. FsPONER consists of three few-shot selection methods based on random sampling, TF-IDF vectors, and a combination of both. We compare these methods with a general-purpose GPT-NER method as the number of few-shot examples increases and evaluate their optimal NER performance against fine-tuned BERT and LLaMA 2-chat. In the considered real-world scenarios with data scarcity, FsPONER with TF-IDF surpasses fine-tuned models by approximately 10% in F1 score.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 大規模言語モデルにおける知識オーバーシャドーイングによる幻覚の増大

Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models ( http://arxiv.org/abs/2407.08039v1 )

ライセンス: Link先を確認
Yuji Zhang, Sha Li, Jiateng Liu, Pengfei Yu, Yi R. Fung, Jing Li, Manling Li, Heng Ji, (参考訳) 幻覚はしばしば、特に知識集約的なタスクにおいて、大きな言語モデル(LLM)を使用するための主要な障害とみなされる。 トレーニングコーパスが真のステートメントのみで構成されている場合でも、言語モデルは複数の事実のアマルガメーションという形で幻覚を発生させる。 我々はこの現象を '`knowledge overshadowing' と定義する: 言語モデルから複数の条件で知識を問うと、いくつかの条件が他の条件を覆い、幻覚的な出力をもたらす。 この現象の一部は、訓練済みモデルと微調整済みモデルの両方で、広範囲のLMモデルファミリとサイズで検証される訓練データ不均衡に由来するものであり、理論的には、知識のオーバーシャドーイングは支配的条件(パターン)の過大な一般化と解釈できる。 その結果, 幻覚率は, 不均衡比(人気条件と不人気条件の双方)と支配条件記述の長さに比例して増加し, 導出した一般化境界と一致していることがわかった。 最後に,ハロゲン化を未然に防ぐための訓練不要な自己コントラスト復号法とともに,ハロゲン化前におけるハロゲン化のシグナルとして,オーバーシャドーイング条件を用いることを提案する。 提案手法では,幻覚予測のためのF1が最大82%,幻覚制御が11.2%から39.4%,それぞれ異なるモデルとデータセットがある。

Hallucination is often regarded as a major impediment for using large language models (LLMs), especially for knowledge-intensive tasks. Even when the training corpus consists solely of true statements, language models still generate hallucinations in the form of amalgamations of multiple facts. We coin this phenomenon as ``knowledge overshadowing'': when we query knowledge from a language model with multiple conditions, some conditions overshadow others, leading to hallucinated outputs. This phenomenon partially stems from training data imbalance, which we verify on both pretrained models and fine-tuned models, over a wide range of LM model families and sizes.From a theoretical point of view, knowledge overshadowing can be interpreted as over-generalization of the dominant conditions (patterns). We show that the hallucination rate grows with both the imbalance ratio (between the popular and unpopular condition) and the length of dominant condition description, consistent with our derived generalization bound. Finally, we propose to utilize overshadowing conditions as a signal to catch hallucination before it is produced, along with a training-free self-contrastive decoding method to alleviate hallucination during inference. Our proposed approach showcases up to 82% F1 for hallucination anticipation and 11.2% to 39.4% hallucination control, with different models and datasets.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# TACLE: 初等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中等・中

TACLE: Task and Class-aware Exemplar-free Semi-supervised Class Incremental Learning ( http://arxiv.org/abs/2407.08041v1 )

ライセンス: Link先を確認
Jayateja Kalla, Rohit Kumar, Soma Biswas, (参考訳) 本研究では,従来の半教師なし半教師付きクラス漸進学習の比較的未探索かつ難解な問題に対処するために,TACLE (TAsk and CLass-awarE) フレームワークを提案する。 このシナリオでは、各新しいタスクにおいて、モデルは、前のクラスの例にアクセスできることなく、ラベル付きデータとラベルなしデータの両方から新しいクラスを学習する必要があります。 事前訓練されたモデルの能力を活用することに加えて、TACLEは新しいタスク適応しきい値を提案し、段階的な学習が進むにつれて、利用可能なラベルなしデータの利用を最大化する。 さらに,各タスク内で表現されていないクラスの性能を高めるために,クラス対応重み付きクロスエントロピー損失を提案する。 また、ラベルのないデータを分類器のアライメントに利用し、モデルの性能をさらに向上させる。 CIFAR10、CIFAR100、ImageNet-Subset100といったベンチマークデータセットに関する大規模な実験は、提案されたTACLEフレームワークの有効性を示している。 ラベルのないデータが不均衡である場合や,クラスごとのラベル付き例の極端な場合においても,その有効性を示す。

We propose a novel TACLE (TAsk and CLass-awarE) framework to address the relatively unexplored and challenging problem of exemplar-free semi-supervised class incremental learning. In this scenario, at each new task, the model has to learn new classes from both (few) labeled and unlabeled data without access to exemplars from previous classes. In addition to leveraging the capabilities of pre-trained models, TACLE proposes a novel task-adaptive threshold, thereby maximizing the utilization of the available unlabeled data as incremental learning progresses. Additionally, to enhance the performance of the under-represented classes within each task, we propose a class-aware weighted cross-entropy loss. We also exploit the unlabeled data for classifier alignment, which further enhances the model performance. Extensive experiments on benchmark datasets, namely CIFAR10, CIFAR100, and ImageNet-Subset100 demonstrate the effectiveness of the proposed TACLE framework. We further showcase its effectiveness when the unlabeled data is imbalanced and also for the extreme case of one labeled example per class.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 単一分子磁石におけるスピン/フォノンダイナミクス:I. 量子埋め込み

Spin/Phonon Dynamics in Single Molecular Magnets: I. quantum embedding ( http://arxiv.org/abs/2407.08043v1 )

ライセンス: Link先を確認
Nosheen Younas, Yu Zhang, Andrei Piryatinski, Eric R Bittner, (参考訳) 単一分子磁石 (SMM) と金属有機フレームワーク (MOF) は、量子情報処理、スケーラブルな量子コンピューティング、寿命とコヒーレンス時間などにおいて大きな関心を集めている。 これらの系の制限因子は、しばしば分子構造の振動運動と相互作用と結合によって引き起こされるスピンの劣化である。 この研究は、分子磁気のスピンフォノンダイナミクスを解析するための体系的なプロジェクション/埋め込み方式を導入する。 このスキームは全てのスピン/フォノン結合をいくつかの自由度にまとめる。 量子力学的に ab initio法によるゼーマン相互作用によるスピン/フォノンカップリングのパラメーターを用いて、中心バナジウム原子上に局在した1つの未対電子を特徴とする単一分子qubit \ce{VOPc(OH)8}の電子スピン緩和時間を計算する。 しかしながら、我々の一般的な埋め込み方式は、任意の結合/相互作用ハミルトニアンを持つ任意の単一分子磁石または量子MOFに適用することができる。 この開発は、計算複雑性を著しく低減した複雑な環境でスピン緩和をシミュレートするための重要なツールを提供する。

Single molecular magnets (SMMs) and Metal-Organic Frameworks (MOFs) attract significant interest due to their potential in quantum information processing, scalable quantum computing, and extended lifetimes and coherence times. The limiting factor in these systems is often the spin dephasing caused by interactions and couplings with the vibrational motions of the molecular framework. This work introduces a systematic projection/embedding scheme to analyze spin-phonon dynamics in molecular magnets. This scheme consolidates all spin/phonon couplings into a few collective degrees of freedom. quantum mechanically. Using parameters obtained from ab initio methods for spin/phonon coupling via Zeeman interaction, we apply this approach to compute the electronic spin relaxation times for a single-molecule qubit \ce{VOPc(OH)8}, which features a single unpaired electron localized on the central vanadium atom. However, our general embedding scheme can be applied to any single-molecule magnet or qubit MOF with any coupling/interaction Hamiltonian. This development offers a crucial tool for simulating spin relaxation in complex environments with significantly reduced computational complexity.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# RoLoRA: 有効重量活性化量子化のための微調整回転型外周フリーLCM

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization ( http://arxiv.org/abs/2407.08044v1 )

ライセンス: Link先を確認
Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng, (参考訳) Low-Rank Adaptation (LoRA) はパラメータ効率の良いファインチューニング(PEFT)手法であり、Large Language Models (LLMs) におけるウェイトの一部を更新することでトレーニング効率を大幅に向上させる。 近年,微調整のメモリフットプリントを低減するため,LoRA法にも重みのみの量子化技術が適用されている。 しかし,LoRAパイプラインへの重み付け活性化量子化の適用は未検討であり,活性化オフレイアの存在が主な原因で,大幅な性能劣化が観測された。 そこで本研究では,LoRAをベースとした効果的な量化量子化手法であるRoLoRAを提案する。 RoLoRAは、外乱除去に回転を利用するとともに、回転LLMにおける外乱のない特性を維持するために回転対応微調整を提案する。 実験結果から,RoLoRAは低ビットのLoRA収束と,重量活性化条件下での学習後の量子化ロバスト性を改善した。 我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,LLaMA2-13Bの絶対精度を最大29.5%向上させた。 さらに,Large Multimodal Models (LLaVA-1.5-7B) の有効性を示す。 コードはhttps://github.com/HuangOwen/RoLoRAで公開されている。

Low-Rank Adaptation (LoRA), as a representative Parameter-Efficient Fine-Tuning (PEFT)method, significantly enhances the training efficiency by updating only a small portion of the weights in Large Language Models (LLMs). Recently, weight-only quantization techniques have also been applied to LoRA methods to reduce the memory footprint of fine-tuning. However, applying weight-activation quantization to the LoRA pipeline is under-explored, and we observe substantial performance degradation primarily due to the presence of activation outliers. In this work, we propose RoLoRA, the first LoRA-based scheme for effective weight-activation quantization. RoLoRA utilizes rotation for outlier elimination and proposes rotation-aware fine-tuning to preserve the outlier-free characteristics in rotated LLMs. Experimental results show RoLoRA consistently improves low-bit LoRA convergence and post-training quantization robustness in weight-activation settings. We evaluate RoLoRA across LLaMA2-7B/13B, LLaMA3-8B models, achieving up to 29.5% absolute accuracy gain of 4-bit weight-activation quantized LLaMA2- 13B on commonsense reasoning tasks compared to LoRA baseline. We further demonstrate its effectiveness on Large Multimodal Models (LLaVA-1.5-7B). Codes are available at https://github.com/HuangOwen/RoLoRA
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 保存された$\mathrm{U}(1)$ charge を持つ監視フェルミオンのトラクタブルモデル

A tractable model of monitored fermions with conserved $\mathrm{U}(1)$ charge ( http://arxiv.org/abs/2407.08045v1 )

ライセンス: Link先を確認
Michele Fava, Lorenzo Piroli, Denis Bernard, Adam Nahum, (参考訳) U(1)対称性を持つ自由フェルミオン系の測定誘起相について検討した。 マヨラナ連鎖のために開発された最近のアプローチに従えば、大空間と時間スケールにおける純度と二分性絡み合いの場の理論記述が導出される。 ランダムな複素ホッピングと局所フェルミオン密度の連続モニタリングを併用した多自由な一次元鎖に着目する。 レプリカのトリックを用いて、我々の近似を制御する大きなパラメータとしてフレーバーの数を用いることにより、ゆらぎのある流体力学と結合したSU(N)非線形シグマモデル(NL$\sigma$M)からなる実効場理論を導出する。 相互作用しないマヨラナフェルミオンの場合とは対照的に、U(1)対称性は示さないため、二部共役エントロピーは全てのモニタリングレートに対して面積法則を満たすが、相関長が大きい場合の絡み合いの非自明なスケーリングは成立しない。 我々の主張を支持する数値的な証拠を提供する。 ホッピングに現実条件を与えると、NL$\sigma$Mがどう変化するかを簡単に示し、さらに高次元の一般化について議論する。

We study measurement-induced phases of free fermion systems with U(1) symmetry. Following a recent approach developed for Majorana chains, we derive a field theory description for the purity and bipartite entanglement at large space and time scales. We focus on a multi-flavor one-dimensional chain with random complex hoppings and continuous monitoring of the local fermion density. By means of the replica trick, and using the number of flavors as a large parameter controlling our approximations, we derive an effective field theory made up of a SU(N) non-linear sigma model (NL$\sigma$M) coupled to fluctuating hydrodynamics. Contrary to the case of non-interacting Majorana fermions, displaying no U(1) symmetry, we find that the bipartite entanglement entropy satisfies an area law for all monitoring rates, but with a nontrivial scaling of entanglement when the correlation length is large. We provide numerical evidence supporting our claims. We briefly show how imposing a reality condition on the hoppings can change the NL$\sigma$M and also discuss higher dimensional generalizations.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# 車両のスパースインターネットを用いた交通状態推定のための空間的時間的注意モデル

Spatial-Temporal Attention Model for Traffic State Estimation with Sparse Internet of Vehicles ( http://arxiv.org/abs/2407.08047v1 )

ライセンス: Link先を確認
Jianzhe Xue, Dongcheng Yuan, Yu Sun, Tianqi Zhang, Wenchao Xu, Haibo Zhou, Xuemin, Shen, (参考訳) 連結車両の増加は、インテリジェント交通システム(ITS)において重要な役割を果たす交通状態推定(TSE)のために、車両のインターネット(IoV)データを活用する機会を提供する。 データセット全体ではなく、IoVデータの一部のみを利用することで、大量のデータの収集と処理に関連する重大なオーバーヘッドを回避することができる。 本稿では,低IoVデータを用いてコスト効率のTSEを実現する新しいフレームワークを提案する。 特に、空間的時間的トラフィック状態相関をマイニングすることで、TSEの精度を向上させるために、畳み込み抑制ネットワーク(CRNet)と呼ばれる新しい空間的時間的アテンションモデルを提案する。 このモデルは、空間的相関集約のための畳み込みニューラルネットワーク(CNN)と、注意機構に基づいて時間的相関を抽出するRetNet(RetNet)を用いる。 実世界のIoVデータセットの大規模なシミュレーションは、スパースIoVデータを用いて正確なTSEを実現するための提案されたTSEアプローチの利点を検証し、実世界のアプリケーションにおけるコスト効果と実用性を実証した。

The growing number of connected vehicles offers an opportunity to leverage internet of vehicles (IoV) data for traffic state estimation (TSE) which plays a crucial role in intelligent transportation systems (ITS). By utilizing only a portion of IoV data instead of the entire dataset, the significant overheads associated with collecting and processing large amounts of data can be avoided. In this paper, we introduce a novel framework that utilizes sparse IoV data to achieve cost-effective TSE. Particularly, we propose a novel spatial-temporal attention model called the convolutional retentive network (CRNet) to improve the TSE accuracy by mining spatial-temporal traffic state correlations. The model employs the convolutional neural network (CNN) for spatial correlation aggregation and the retentive network (RetNet) based on the attention mechanism to extract temporal correlations. Extensive simulations on a real-world IoV dataset validate the advantage of the proposed TSE approach in achieving accurate TSE using sparse IoV data, demonstrating its cost effectiveness and practicality for real-world applications.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# SIC-POVMと実二次体の位数

SIC-POVMs and orders of real quadratic fields ( http://arxiv.org/abs/2407.08048v1 )

ライセンス: Link先を確認
Gene S. Kopp, Jeffrey C. Lagarias, (参考訳) 対称情報量完備な正値測度 (SICs あるいは SIC-POVMs) を数えて分類する問題、すなわち$\mathbb{C}^d$ における$d^2$等角直線の集合を考える。 4 \leq d \leq 90$ に対して、次元 $d$ のワイル=ハイゼンベルク共変 SIC の既知同値類数は、(必ずしも可逆ではない)イデアル類の実二次位数$(d+1)(d-3)$ のイデアル類モノイドの濃度と等しい。 同様に、これは、$\mathbf{GL}_2(\mathbb{Z})$ conjugacy class in $\mathbf{SL}_2(\mathbb{Z})$ of trace $d-1$である。 等式はすべての$d \geq 4$に拡張されると推測する。 さらに、Appleby, Flammia, McConnell, and Yard (arXiv:1604.06098) の「クラス場仮説」を洗練して、ワイル=ハイゼンベルク共変 SIC を定義する等角直線のベクトル成分の比で生成される正確なクラス場を予測する。 次元$d$ の SIC に射影的に関連付けられた類体は、自然部分順序を包含する。

We consider the problem of counting and classifying symmetric informationally complete positive operator-valued measures (SICs or SIC-POVMs), that is, sets of $d^2$ equiangular lines in $\mathbb{C}^d$. For $4 \leq d \leq 90$, we show the number of known equivalence classes of Weyl--Heisenberg covariant SICs in dimension $d$ equals the cardinality of the ideal class monoid of (not necessarily invertible) ideal classes in the real quadratic order of discriminant $(d+1)(d-3)$. Equivalently, this is the number of $\mathbf{GL}_2(\mathbb{Z})$ conjugacy classes in $\mathbf{SL}_2(\mathbb{Z})$ of trace $d-1$. We conjecture the equality extends to all $d \geq 4$. We prove that this conjecture implies more that one equivalence class of Weyl--Heisenberg covariant SICs for every $d > 22$. Additionally, we refine the "class field hypothesis" of Appleby, Flammia, McConnell, and Yard (arXiv:1604.06098) to predict the exact class field generated by the ratios of vector entries for the equiangular lines defining a Weyl--Heisenberg covariant SIC. The class fields conjecturally associated to SICs in dimension $d$ come with a natural partial order under inclusion; we show that the natural inclusions of these fields are strict, except in a small family of cases.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# mmWaveレーダとカメラセンサの融合による深層学習に基づくロバスト多対象追跡

Deep Learning-Based Robust Multi-Object Tracking via Fusion of mmWave Radar and Camera Sensors ( http://arxiv.org/abs/2407.08049v1 )

ライセンス: Link先を確認
Lei Cheng, Arindam Sengupta, Siyang Cao, (参考訳) 自律運転は、人工知能とセンサー技術を活用することで、交通安全上の問題に対処する上で大きな可能性を秘めている。 複雑なトラフィックシナリオを通じて、より安全で効率的なナビゲーションを実現する上で、マルチオブジェクトトラッキングは重要な役割を果たす。 本稿では,自律走行システムにおける複数物体追跡の精度とロバスト性を高めるために,レーダデータとカメラデータを統合した新しいディープラーニング方式を提案する。 提案手法は、双方向長短期記憶ネットワークを利用して、長期時間情報を組み込んで動作予測を改善する。 FaceNetにインスパイアされた外観特徴モデルは、異なるフレームにわたるオブジェクト間の関連を確立し、一貫したトラッキングを保証するために使用される。 レーダとカメラセンサの個別出力と融合出力からなる三出力機構を用い、センサ故障に対する堅牢性を提供し、正確な追跡結果を生成する。 実世界のデータセットを広範囲に評価することにより、低可視性シナリオにおいても、追跡精度が著しく向上し、信頼性の高い性能が保証されることを示す。

Autonomous driving holds great promise in addressing traffic safety concerns by leveraging artificial intelligence and sensor technology. Multi-Object Tracking plays a critical role in ensuring safer and more efficient navigation through complex traffic scenarios. This paper presents a novel deep learning-based method that integrates radar and camera data to enhance the accuracy and robustness of Multi-Object Tracking in autonomous driving systems. The proposed method leverages a Bi-directional Long Short-Term Memory network to incorporate long-term temporal information and improve motion prediction. An appearance feature model inspired by FaceNet is used to establish associations between objects across different frames, ensuring consistent tracking. A tri-output mechanism is employed, consisting of individual outputs for radar and camera sensors and a fusion output, to provide robustness against sensor failures and produce accurate tracking results. Through extensive evaluations of real-world datasets, our approach demonstrates remarkable improvements in tracking accuracy, ensuring reliable performance even in low-visibility scenarios.
翻訳日:2024-07-12 21:29:18 公開日:2024-07-10
# Pareto Low-Rank Adapters: 最適なマルチタスク学習

Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences ( http://arxiv.org/abs/2407.08056v1 )

ライセンス: Link先を確認
Nikolaos Dimitriadis, Pascal Frossard, Francois Fleuret, (参考訳) 推論中にマルチタスクのトレードオフに対処するには、トレーニング前に決めなければならない単一のトレードオフを最適化する従来のマルチタスク学習(MTL)アプローチとは対照的に、パレートフロントを単一のモデルでパラメータ化するパレートフロントラーニング(PFL)メソッドを使用する。 しかし、最近のPFL手法は、優先空間から目的空間への不整合写像を示しながら、MTLアプローチと比較してスケーラビリティ、収束の遅い、過剰なメモリ要求に悩まされている。 本稿では,タスク固有の低ランクアダプタで元のモデルを拡張し,コンベックス内におけるパレートフロントのパラメータ化を連続的に行う新しいパラメータ効率手法PaLoRAを紹介する。 提案手法では,基本モデルとアダプタをそれぞれ,一般的な特徴とタスク固有の特徴の学習に用いている。 さらに、この分業を強化し、現実のネットワークへのより高速な収束とスケーラビリティを実現するために、選好ベクトルの決定論的サンプリングスケジュールを提案する。 実験の結果,PaLoRA は様々なデータセットで MTL と PFL のベースラインを上回り,大規模ネットワークにスケールし,Pareto Front の連続パラメータ化を実現している。

Dealing with multi-task trade-offs during inference can be addressed via Pareto Front Learning (PFL) methods that parameterize the Pareto Front with a single model, contrary to traditional Multi-Task Learning (MTL) approaches that optimize for a single trade-off which has to be decided prior to training. However, recent PFL methodologies suffer from limited scalability, slow convergence and excessive memory requirements compared to MTL approaches while exhibiting inconsistent mappings from preference space to objective space. In this paper, we introduce PaLoRA, a novel parameter-efficient method that augments the original model with task-specific low-rank adapters and continuously parameterizes the Pareto Front in their convex hull. Our approach dedicates the original model and the adapters towards learning general and task-specific features, respectively. Additionally, we propose a deterministic sampling schedule of preference vectors that reinforces this division of labor, enabling faster convergence and scalability to real world networks. Our experimental results show that PaLoRA outperforms MTL and PFL baselines across various datasets, scales to large networks and provides a continuous parameterization of the Pareto Front, reducing the memory overhead $23.8-31.7$ times compared with competing PFL baselines in scene understanding benchmarks.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# 地形ビュー生成 -衛星ビューからの高分解能地上ビュー推定を考慮した幾何学的文脈-

Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views ( http://arxiv.org/abs/2407.08061v1 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, (参考訳) 都市部における衛星画像からの現実的な地上映像の予測は、衛星画像と地上画像の間に大きな差があるため、難しい課題である。 本稿では, この課題に対処するための新しいパイプラインを提案し, 多視点衛星画像から, 弱幾何やテクスチャを最大限に尊重する地形ビューを生成する。 衛星画像から部分的意味論や幾何などの画像から画像に幻覚を与える既存の手法とは異なり,衛星画像からの包括的情報を用いて地上画像を直接推定し,分解能を10以上向上させる。 本研究では,地表面における衛星データの幾何歪みを低減し,拡散ネットワークを用いた視線合成のための正確な条件の作成を実現するために,新しい建物改良手法を利用する。 さらに,予測画像の位置に近い画像サンプルを尊重するため,拡散モデルの分布学習を促す新しい地理特化先行手法を提案する。 我々のパイプラインは、衛星画像のみに基づいて、実物に近い地上ビューを初めて生成したものであることを実証する。

Predicting realistic ground views from satellite imagery in urban scenes is a challenging task due to the significant view gaps between satellite and ground-view images. We propose a novel pipeline to tackle this challenge, by generating geospecifc views that maximally respect the weak geometry and texture from multi-view satellite images. Different from existing approaches that hallucinate images from cues such as partial semantics or geometry from overhead satellite images, our method directly predicts ground-view images at geolocation by using a comprehensive set of information from the satellite image, resulting in ground-level images with a resolution boost at a factor of ten or more. We leverage a novel building refinement method to reduce geometric distortions in satellite data at ground level, which ensures the creation of accurate conditions for view synthesis using diffusion networks. Moreover, we proposed a novel geospecific prior, which prompts distribution learning of diffusion models to respect image samples that are closer to the geolocation of the predicted images. We demonstrate our pipeline is the first to generate close-to-real and geospecific ground views merely based on satellite images.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# TinyGraph: グラフニューラルネットワークのジョイント機能とノード凝縮

TinyGraph: Joint Feature and Node Condensation for Graph Neural Networks ( http://arxiv.org/abs/2407.08064v1 )

ライセンス: Link先を確認
Yezi Liu, Yanning Shen, (参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングは、大量のノードと高次元のノイズ特徴に起因する計算コストが高いため、難しい場合がある。 既存のグラフ凝縮の研究は、グラフ内のノード数を減少させることによってのみこの問題に取り組む。 しかし、結果として得られる凝縮グラフデータはいまだに困難である。 具体的には、Citeseerデータセットのノードはトレーニング時に0.9%(30ノード)に削減されるが、特徴の数は3,703で、トレーニングサンプルの規模を大きく上回っている。 この課題に直面して,大規模グラフにおける特徴とノードの合同凝縮の問題について検討する。 この仕事は、主に原因で難しい。 1) ノードの特徴とグラフ構造が相互に絡み合う性質は,特徴凝縮解器に構造を認識させるよう要求する。 2) 凝縮グラフに有用な情報を保持することの難しさ。 これらの課題に対処するため,我々は新しいフレームワークTinyGraphを提案し,機能とノードを同時にグラフに格納する。 具体的には、縮合グラフ上で訓練されたGNN重みの勾配と、トレーニング可能な関数によって特徴凝縮が達成される原グラフ上でのトレーニングから得られた勾配とを一致させた。 トレーニング軌跡に沿った整合損失を最小化して得られる凝縮グラフは、したがって、元のグラフに重要な情報を保持することができる。 提案したTinyGraphの有効性を示す大規模な実験を行った。 例えば、TinyGraphでトレーニングされたGNNは、CoraとCiteseerのデータセットでそれぞれ元のテスト精度の98.5%と97.5%を保持し、ノード数を97.4%、98.2%、両方のデータセットで90.0%削減している。

Training graph neural networks (GNNs) on large-scale graphs can be challenging due to the high computational expense caused by the massive number of nodes and high-dimensional nodal features. Existing graph condensation studies tackle this problem only by reducing the number of nodes in the graph. However, the resulting condensed graph data can still be cumbersome. Specifically, although the nodes of the Citeseer dataset are reduced to 0.9% (30 nodes) in training, the number of features is 3,703, severely exceeding the training sample magnitude. Faced with this challenge, we study the problem of joint condensation for both features and nodes in large-scale graphs. This task is challenging mainly due to 1) the intertwined nature of the node features and the graph structure calls for the feature condensation solver to be structure-aware; and 2) the difficulty of keeping useful information in the condensed graph. To address these challenges, we propose a novel framework TinyGraph, to condense features and nodes simultaneously in graphs. Specifically, we cast the problem as matching the gradients of GNN weights trained on the condensed graph and the gradients obtained from training over the original graph, where the feature condensation is achieved by a trainable function. The condensed graph obtained by minimizing the matching loss along the training trajectory can henceforth retain critical information in the original graph. Extensive experiments were carried out to demonstrate the effectiveness of the proposed TinyGraph. For example, a GNN trained with TinyGraph retains 98.5% and 97.5% of the original test accuracy on the Cora and Citeseer datasets, respectively, while significantly reducing the number of nodes by 97.4% and 98.2%, and the number of features by 90.0% on both datasets.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# ロボット行動の解釈可能な基礎モデルに向けて:タスク特異的ポリシー生成アプローチ

Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach ( http://arxiv.org/abs/2407.08065v1 )

ライセンス: Link先を確認
Isaac Sheidlower, Reuben Aronson, Elaine Schaertl Short, (参考訳) ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。 一般的なアプローチは、強化学習政策と同様に、観察を使用して行動を生成する一般政策を訓練することである。 このアプローチは多くの成功をおさめたが、デプロイやエンドユーザとのインタラクションを考慮すると、いくつかの懸念が生じている。 特に、タスク間のモジュラリティの欠如は、モデルウェイトが更新された場合(例えば、ユーザがフィードバックを提供するとき)、他の非関連タスクの振る舞いが影響を受ける可能性があることを意味します。 これはシステムの解釈可能性やユーザビリティに悪影響を及ぼす可能性がある。 本稿では,ロボット基盤モデルの設計に対する代替的アプローチとしてDPP(Diffusion for Policy Parameters)を提案する。 これらのポリシーはファンデーションモデルから切り離されているため、フィードバックやパーソナライゼーションを通じて、ユーザが望む場合にのみ更新される。 シミュレーションにおけるDPPの概念実証を実証し,その限界と解釈可能な基礎モデルの将来について論じる。

Foundation models are a promising path toward general-purpose and user-friendly robots. The prevalent approach involves training a generalist policy that, like a reinforcement learning policy, uses observations to output actions. Although this approach has seen much success, several concerns arise when considering deployment and end-user interaction with these systems. In particular, the lack of modularity between tasks means that when model weights are updated (e.g., when a user provides feedback), the behavior in other, unrelated tasks may be affected. This can negatively impact the system's interpretability and usability. We present an alternative approach to the design of robot foundation models, Diffusion for Policy Parameters (DPP), which generates stand-alone, task-specific policies. Since these policies are detached from the foundation model, they are updated only when a user wants, either through feedback or personalization, allowing them to gain a high degree of familiarity with that policy. We demonstrate a proof-of-concept of DPP in simulation then discuss its limitations and the future of interpretable foundation models.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# LLMウィザードについて:Oz実験のウィザードに対する大規模言語モデルの振る舞いを同定する

On LLM Wizards: Identifying Large Language Models' Behaviors for Wizard of Oz Experiments ( http://arxiv.org/abs/2407.08067v1 )

ライセンス: Link先を確認
Jingchao Fang, Nikos Arechiga, Keiichi Namaoshi, Nayeli Bravo, Candice Hogan, David A. Shamma, (参考訳) ウィザード・オブ・オズの方法(WoZ)は、人間のウィザード ``role-plays' が手軽に利用できない技術であり、参加者と対話してユーザの行動を導き、デザイン空間を探索する、広く採用されている研究手法である。 現代の大規模言語モデル(LLM)のロールプレイ能力の増大により、従来のアプローチよりもスケーラビリティとコストの低いWoZ実験において、LLMをウィザーズとして適用することができる。 しかし、WoZ実験におけるLLMの適応性に関する方法論的ガイダンスや、LLMのロールプレイング能力の体系的評価が欠如している。 2つのLLMを用いたWoZ研究を通じて、研究者がLLMをWoZ実験に安全に統合し、WoZのロールプレイングを含む設定から生成されたデータを解釈するための実験ライフサイクルを特定するための第一歩を踏み出した。 我々はまた、WoZ実験におけるLLMのロールプレイング能力の推定を可能にするヒューリスティックな評価フレームワークを提供し、LLMの大規模動作パターンを明らかにする。

The Wizard of Oz (WoZ) method is a widely adopted research approach where a human Wizard ``role-plays'' a not readily available technology and interacts with participants to elicit user behaviors and probe the design space. With the growing ability for modern large language models (LLMs) to role-play, one can apply LLMs as Wizards in WoZ experiments with better scalability and lower cost than the traditional approach. However, methodological guidance on responsibly applying LLMs in WoZ experiments and a systematic evaluation of LLMs' role-playing ability are lacking. Through two LLM-powered WoZ studies, we take the first step towards identifying an experiment lifecycle for researchers to safely integrate LLMs into WoZ experiments and interpret data generated from settings that involve Wizards role-played by LLMs. We also contribute a heuristic-based evaluation framework that allows the estimation of LLMs' role-playing ability in WoZ experiments and reveals LLMs' behavior patterns at scale.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# NDST:人間の視覚に基づく自律運転のためのニューラルドライビング方式のトランスファー

NDST: Neural Driving Style Transfer for Human-Like Vision-Based Autonomous Driving ( http://arxiv.org/abs/2407.08073v1 )

ライセンス: Link先を確認
Donghyun Kim, Aws Khalil, Haewoon Nam, Jaerock Kwon, (参考訳) オートマチック・ビークルズ(AV)とアドバンスト・ドライバー・アシスタント・システム(ADAS)は快適さよりも安全を優先している。 自律運転(AD)の有効性を確保する上で,安全と快適性の相互関係が重要な要素として浮上する。 AVやADASが自分の代わりに車を運転するとき、ユーザーは不快感を感じることが多い。 パーソナライズされた人間ライクなAD体験を提供することは、安全の前提条件に固執しながら、ユーザのユニークな運転スタイルに合うように調整され、AVの受け入れを促進する重要な機会を提供する。 本稿では,ニューラル・ドライビング・スタイル・トランスファー (NDST) を用いたニューラル・ドライビング・スタイル・トランスファー (NDST) を提案する。 NDSTはパーソナライズドブロック(PB)を従来のベースライン駆動モデル(BDM)に統合し、安全パラメータに固執しながらユーザーのユニークな運転スタイルの転送を可能にする。 PBは自己設定システムとして機能し、BDMの変更を必要とせず、個人の運転行動に適応し、学習する。 このアプローチにより、AVモデルのパーソナライズが可能となり、運転スタイルがユーザの好みとより密に一致し、ベースラインの安全クリティカルなアクティベーションが保証される。 2つの対照的な運転スタイル(スタイルAとスタイルB)を用いて提案したNDST法を検証し、個人運転スタイルをAVシステムに転送する効果を実証した。 我々の研究は、パーソナライズされた慣れ親しんだ運転体験を提供することで、AVのユーザー快適性を高めるNDSTの可能性を強調している。 その結果,NDSTを既存のAVフレームワークに組み込むことで,安全と個別運転スタイルのギャップを埋めることが可能であることが確認された。

Autonomous Vehicles (AV) and Advanced Driver Assistant Systems (ADAS) prioritize safety over comfort. The intertwining factors of safety and comfort emerge as pivotal elements in ensuring the effectiveness of Autonomous Driving (AD). Users often experience discomfort when AV or ADAS drive the vehicle on their behalf. Providing a personalized human-like AD experience, tailored to match users' unique driving styles while adhering to safety prerequisites, presents a significant opportunity to boost the acceptance of AVs. This paper proposes a novel approach, Neural Driving Style Transfer (NDST), inspired by Neural Style Transfer (NST), to address this issue. NDST integrates a Personalized Block (PB) into the conventional Baseline Driving Model (BDM), allowing for the transfer of a user's unique driving style while adhering to safety parameters. The PB serves as a self-configuring system, learning and adapting to an individual's driving behavior without requiring modifications to the BDM. This approach enables the personalization of AV models, aligning the driving style more closely with user preferences while ensuring baseline safety critical actuation. Two contrasting driving styles (Style A and Style B) were used to validate the proposed NDST methodology, demonstrating its efficacy in transferring personal driving styles to the AV system. Our work highlights the potential of NDST to enhance user comfort in AVs by providing a personalized and familiar driving experience. The findings affirm the feasibility of integrating NDST into existing AV frameworks to bridge the gap between safety and individualized driving styles, promoting wider acceptance and improved user experiences.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# Smooth Like Butter: プロパティ拡張潜在空間における多重格子遷移の評価

Smooth Like Butter: Evaluating Multi-Lattice Transitions in Property-Augmented Latent Spaces ( http://arxiv.org/abs/2407.08074v1 )

ライセンス: Link先を確認
Martha Baldwin, Nicholas A. Meisel, Christopher McComb, (参考訳) 添加性製造は、部品強度を高め、材料要求を減らし、構造最適化に革命をもたらした。 これらの改善を達成するために用いられるアプローチの1つは、マクロスケールのパフォーマンスがメソ構造格子要素の詳細な設計に依存するマルチ格子構造の適用である。 このような構造を設計するための現在の多くのアプローチは、データ駆動設計を用いて、メソ構造の幾何学のみによってのみ知らされる機械学習モデルを用いて、マルチ格子遷移領域を生成する。 しかし、そのような機械学習モデルのトレーニングに使用されるデータセットへの機械的特性の統合が、幾何学的データのみを使用すること以外に有益かどうかは不明だ。 この問題に対処するため,複数格子遷移領域を生成するためのハイブリッド幾何/固有変分オートエンコーダ(VAE)を実装し,評価する。 本研究により, ハイブリッドVAEは遷移領域を通した剛性連続性の維持性能が向上し, 滑らかな機械的特性を必要とする設計作業に適合することが示唆された。

Additive manufacturing has revolutionized structural optimization by enhancing component strength and reducing material requirements. One approach used to achieve these improvements is the application of multi-lattice structures, where the macro-scale performance relies on the detailed design of mesostructural lattice elements. Many current approaches to designing such structures use data-driven design to generate multi-lattice transition regions, making use of machine learning models that are informed solely by the geometry of the mesostructures. However, it remains unclear if the integration of mechanical properties into the dataset used to train such machine learning models would be beneficial beyond using geometric data alone. To address this issue, this work implements and evaluates a hybrid geometry/property Variational Autoencoder (VAE) for generating multi-lattice transition regions. In our study, we found that hybrid VAEs demonstrate enhanced performance in maintaining stiffness continuity through transition regions, indicating their suitability for design tasks requiring smooth mechanical properties.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# MambaVision:ハイブリッドのMamba-Transformer Visionバックボーン

MambaVision: A Hybrid Mamba-Transformer Vision Backbone ( http://arxiv.org/abs/2407.08083v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Jan Kautz, (参考訳) 本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。 私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。 さらに,視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行った。 以上の結果から,Mambaアーキテクチャを複数の自己注意ブロックを最終層に装備することで,長距離空間依存性を捕捉するモデリング能力を大幅に向上することが示された。 そこで本研究では,設計基準を満たす階層構造を持つMambaVisionモデルのファミリを紹介した。 ImageNet-1Kデータセット上の画像分類のために、MambaVisionモデル変種は、Top-1精度と画像スループットの点で、新しいステート・オブ・ザ・アート(SOTA)性能を達成する。 オブジェクト検出、インスタンスセグメンテーション、MS COCOとADE20Kデータセットのセマンティックセグメンテーションなどの下流タスクでは、MambaVisionは比較可能なサイズのバックボーンよりも優れており、より好ましいパフォーマンスを示している。 コード:https://github.com/NVlabs/MambaVision.com

We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision, which is specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. In addition, we conduct a comprehensive ablation study on the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results demonstrate that equipping the Mamba architecture with several self-attention blocks at the final layers greatly improves the modeling capacity to capture long-range spatial dependencies. Based on our findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For Image classification on ImageNet-1K dataset, MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in terms of Top-1 accuracy and image throughput. In downstream tasks such as object detection, instance segmentation and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably-sized backbones and demonstrates more favorable performance. Code: https://github.com/NVlabs/MambaVision.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# Geometric Kernels Package: Manifolds, Meshes, Graphs 上の幾何学学習のためのHeat and Matérn Kernels

The GeometricKernels Package: Heat and Matérn Kernels for Geometric Learning on Manifolds, Meshes, and Graphs ( http://arxiv.org/abs/2407.08086v1 )

ライセンス: Link先を確認
Peter Mostowsky, Vincent Dutordoir, Iskander Azangulov, Noémie Jaquier, Michael John Hutchinson, Aditya Ravuri, Leonel Rozo, Alexander Terenin, Viacheslav Borovitskiy, (参考訳) カーネルは機械学習の基本的な技術的プリミティブである。 近年、不確実性の定量化が重要となるアプリケーションにおいて、ガウス過程のようなカーネルベースの手法がますます重要になっている。 グラフ、メッシュ、多様体、その他の関連する空間で定義された構造化データを含む設定では、良好な不確実性量子化挙動を持つカーネルを定義し、それらの値を数値的に計算することはユークリッド設定よりも単純ではない。 このような問題に対処するため,従来のユークリッド二乗指数関数(熱とも呼ばれる)とMat\'ernカーネルの幾何学的類似を実装したソフトウェアパッケージであるGeometricKernelsを紹介した。 副生成物として、より広い幾何学的空間において、自身の右辺で広く用いられるフーリエ函数型展開を計算する能力を得る。 我々の実装は、バックエンドに依存しない設計により、すべての主要な現行フレームワークにおける自動微分をサポートします。 本論文では,パッケージの機能の概要と,そのインターフェースの例を示す。 また、パッケージが構築されている理論の簡単な概要と、付録にいくつかの歴史的な文脈を提供する。

Kernels are a fundamental technical primitive in machine learning. In recent years, kernel-based methods such as Gaussian processes are becoming increasingly important in applications where quantifying uncertainty is of key interest. In settings that involve structured data defined on graphs, meshes, manifolds, or other related spaces, defining kernels with good uncertainty-quantification behavior, and computing their value numerically, is less straightforward than in the Euclidean setting. To address this difficulty, we present GeometricKernels, a software package which implements the geometric analogs of classical Euclidean squared exponential - also known as heat - and Mat\'ern kernels, which are widely-used in settings where uncertainty is of key interest. As a byproduct, we obtain the ability to compute Fourier-feature-type expansions, which are widely used in their own right, on a wide set of geometric spaces. Our implementation supports automatic differentiation in every major current framework simultaneously via a backend-agnostic design. In this companion paper to the package and its documentation, we outline the capabilities of the package and present an illustrated example of its interface. We also include a brief overview of the theory the package is built upon and provide some historic context in the appendix.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# 拡張可能な静的型付け言語Stellaによる型システム実装の指導

Teaching Type Systems Implementation with Stella, an Extensible Statically Typed Programming Language ( http://arxiv.org/abs/2407.08089v1 )

ライセンス: Link先を確認
Abdelrahman Abounegm, Nikolai Kudasov, Alexey Stepanov, (参考訳) プログラム言語における型システムの実装に焦点を当てた半年制のコースについて報告する。 このコースは、古典的なコンパイラ構築の基礎、特に抽象構文表現、ビジターパターン、構文解析を前提としている。 このコースは、最小限のコアを持つ言語Stellaと、代数データ型、参照、例外、徹底的なパターンマッチング、サブタイプ、再帰型、普遍的多型、型再構成を含む一連の小さな拡張のセットを中心に構築されている。 オプションとして、インタプリタとコンパイラの実装が学生に提供される。 高速な開発と多種多様な実装言語を実現するため、BNF Converterツールを使用し、複数の言語で生徒にテンプレートを提供する。 最後に,学生の達成度に基づく授業結果について報告する。

We report on a half-semester course focused around implementation of type systems in programming languages. The course assumes basics of classical compiler construction, in particular, the abstract syntax representation, the Visitor pattern, and parsing. The course is built around a language Stella with a minimalistic core and a set of small extensions, covering algebraic data types, references, exceptions, exhaustive pattern matching, subtyping, recursive types, universal polymorphism, and type reconstruction. Optionally, an implementation of an interpreter and a compiler is offered to the students. To facilitate fast development and variety of implementation languages we rely on the BNF Converter tool and provide templates for the students in multiple languages. Finally, we report some results of teaching based on students' achievements.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# MemWarp: 記憶型解剖フィルタによる不連続保存心登録

MemWarp: Discontinuity-Preserving Cardiac Registration with Memorized Anatomical Filters ( http://arxiv.org/abs/2407.08093v1 )

ライセンス: Link先を確認
Hang Zhang, Xiang Chen, Renjiu Hu, Dongdong Liu, Gaolei Li, Rongguang Wang, (参考訳) 既存の学習ベースで変形可能な画像登録法の多くは、変形場に制約を課し、世界規模で滑らかで連続的であることを保証する。 しかし、この仮定は、異なる解剖学的領域が呼吸中に非対称な動きを呈し、胸腔内の滑動器官による運動を呈する心臓画像登録には当てはまらない。 その結果、このような大域的な制約は臓器の境界を越えて局所的な不連続性に対応できず、誤った非現実的な変位場をもたらす可能性がある。 本稿では,メモリネットワークを利用した学習フレームワークであるMemWarpでこの問題に対処する。 MemWarpは、移動画像と固定画像の類似性マッチングから特徴抽出を分離することで、特徴マップをより効果的に活用できるようにする。 本手法は, 登録精度を大幅に向上し, リアルな変形を生み出すとともに, ランナアップ半教師法よりも7.1\%のDiceスコアが向上し, 最先端の手法よりも優れていた。 ソースコードはhttps://github.com/tinymilky/Mem-Warp.comで入手できる。

Many existing learning-based deformable image registration methods impose constraints on deformation fields to ensure they are globally smooth and continuous. However, this assumption does not hold in cardiac image registration, where different anatomical regions exhibit asymmetric motions during respiration and movements due to sliding organs within the chest. Consequently, such global constraints fail to accommodate local discontinuities across organ boundaries, potentially resulting in erroneous and unrealistic displacement fields. In this paper, we address this issue with MemWarp, a learning framework that leverages a memory network to store prototypical information tailored to different anatomical regions. MemWarp is different from earlier approaches in two main aspects: firstly, by decoupling feature extraction from similarity matching in moving and fixed images, it facilitates more effective utilization of feature maps; secondly, despite its capability to preserve discontinuities, it eliminates the need for segmentation masks during model inference. In experiments on a publicly available cardiac dataset, our method achieves considerable improvements in registration accuracy and producing realistic deformations, outperforming state-of-the-art methods with a remarkable 7.1\% Dice score improvement over the runner-up semi-supervised method. Source code will be available at https://github.com/tinymilky/Mem-Warp.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# ビンレス多次元積分による密度推定

Density Estimation via Binless Multidimensional Integration ( http://arxiv.org/abs/2407.08094v1 )

ライセンス: Link先を確認
Matteo Carli, Aldo Glielmo, Alex Rodriguez, Alessandro Laio, (参考訳) 非パラメトリック・ロバスト・データ効率密度推定のためのBinless Multidimensional Thermodynamic Integration (BMTI) 法を提案する。 BMTIは、近隣のデータポイント間の対数密度差を計算し、その密度の対数を推定する。 その後、そのような差分は、それらの関連する不確実性によって重み付けされ、最大的様相の定式化によって統合される。 この手順は、統計物理学で開発された技術である熱力学積分の多次元的な設定の拡張と見なすことができる。 この方法は多様体仮説を利用して、明示的な座標写像を定義することなく本質的なデータ多様体内の量を推定する。 双対や空間分割には依存せず、適応的な帯域幅選択手順に基づく近傍グラフの構築に頼っている。 BMTIは従来の非パラメトリック密度推定器に共通する制限を緩和し、高次元埋め込み空間においてもスムーズなプロファイルを効果的に再構築する。 この方法は、様々な複雑な合成高次元データセットでテストされ、従来の推定値よりも優れていることが示され、化学物理学の文献から現実的なデータセットでベンチマークされる。

We introduce the Binless Multidimensional Thermodynamic Integration (BMTI) method for nonparametric, robust, and data-efficient density estimation. BMTI estimates the logarithm of the density by initially computing log-density differences between neighbouring data points. Subsequently, such differences are integrated, weighted by their associated uncertainties, using a maximum-likelihood formulation. This procedure can be seen as an extension to a multidimensional setting of the thermodynamic integration, a technique developed in statistical physics. The method leverages the manifold hypothesis, estimating quantities within the intrinsic data manifold without defining an explicit coordinate map. It does not rely on any binning or space partitioning, but rather on the construction of a neighbourhood graph based on an adaptive bandwidth selection procedure. BMTI mitigates the limitations commonly associated with traditional nonparametric density estimators, effectively reconstructing smooth profiles even in high-dimensional embedding spaces. The method is tested on a variety of complex synthetic high-dimensional datasets, where it is shown to outperform traditional estimators, and is benchmarked on realistic datasets from the chemical physics literature.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# アルコール使用カウンセリングのための仮想エージェント:LCMを利用したモチベーション・インタビューの探索

Virtual Agents for Alcohol Use Counseling: Exploring LLM-Powered Motivational Interviewing ( http://arxiv.org/abs/2407.08095v1 )

ライセンス: Link先を確認
Ian Steenstra, Farnaz Nouraei, Mehdi Arjmand, Timothy W. Bickmore, (参考訳) アルコール使用カウンセリングのためのモチベーション面接(MI)を行う仮想カウンセラーの開発において,大規模言語モデル(LLM)の新たな適用法を提案する。 効果的なカウンセリングへのアクセスは、特に薬物乱用のために制限されており、仮想エージェントは、MIに固有のニュアンス通信技術をシミュレートするためにLLM機能を活用することで、有望なソリューションを提供する。 当社のアプローチでは,迅速なエンジニアリングと統合をユーザフレンドリな仮想プラットフォームに統合し,現実的で共感的なインタラクションを促進する。 我々はMI手法の複製と人間カウンセラーダイアログに焦点をあてた一連の研究を通じて,仮想エージェントの有効性を評価する。 最初の発見は、LLMを利用した仮想エージェントは、人間のカウンセラーの共感的かつ適応的な会話スキルと一致し、バーチャルヘルスカウンセリングにおいて大きな進歩を示し、LLMベースの治療相互作用の設計と実装に関する洞察を提供することを示唆している。

We introduce a novel application of large language models (LLMs) in developing a virtual counselor capable of conducting motivational interviewing (MI) for alcohol use counseling. Access to effective counseling remains limited, particularly for substance abuse, and virtual agents offer a promising solution by leveraging LLM capabilities to simulate nuanced communication techniques inherent in MI. Our approach combines prompt engineering and integration into a user-friendly virtual platform to facilitate realistic, empathetic interactions. We evaluate the effectiveness of our virtual agent through a series of studies focusing on replicating MI techniques and human counselor dialog. Initial findings suggest that our LLM-powered virtual agent matches human counselors' empathetic and adaptive conversational skills, presenting a significant step forward in virtual health counseling and providing insights into the design and implementation of LLM-based therapeutic interactions.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# ボヘミア軌道の対称性と特異挙動

Symmetries and singular behaviors with Bohmian trajectories ( http://arxiv.org/abs/2407.08096v1 )

ライセンス: Link先を確認
A. S. Sanz, (参考訳) 量子力学は、最も単純な状況でも挑戦的な振る舞いを生み出すことができる。 これは、相が量子系の進化に果たす重要な力学的役割が、それにもかかわらず、類似光学系で観測可能な効果に非常に似ているためである。 この研究は、この量子力学の流体力学の定式化において、位相が中心的な要素となるため、位相に基づく現象を分析するための比較的便利な理論的な枠組みがボヘミア力学がどのように証明されているかに焦点を当てている。 より具体的には、空間的な位相変化が量子系の力学挙動を最終的に支配する速度場をいかに生み出すかを理解することができ、局所的に時間(例えば特定の位置を考慮に入れれば)に積分すると、構成空間における系の進化の正確な局所的(点毎の)記述が得られます。 実際、このアイデアは量子領域を超越し、むしろ特異な振る舞いを持つ光学アナログの挙動を記述するために利益を上げることができる。 この目的により、自由空間で起こる2つの興味深い現象、すなわち、エアリービームの自己加速と形状不変性、および自然自己焦点が考慮される。

Quantum mechanics is able to produce challenging behaviors even in the simplest situations. This is possible because of the important dynamical role that phase plays in the evolution of quantum systems, very similar, nonetheless, to effects observable in analogous optical systems. The present work focuses on how Bohmian mechanics proves to be a rather convenient theoretical framework to analyze phase-based phenomena, since the phase constitutes the central element in this hydrodynamical formulation of quantum mechanics. More specifically, it allows us to understand how spatial phase variations give rise to velocity fields that eventually rule the dynamical behavior of quantum systems, and that, when integrated in time locally (i.e., taking into account specific positions), they provide us with a neat local (point by point) description of the system evolution in the configuration space. Indeed, it will also be seen that this idea transcends the quantum realm and can be profitably used to describe the behavior of optical analogs with rather singular behaviors. With this purpose, two interesting phenomena that take place in free space are considered, namely, the self-acceleration and shape-invariance of Airy beams, and spontaneous self-focusing.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# 一般フラックス軌道:部分コヒーレントエアリービームの新しい知見

Generalized flux trajectories: New insights into partially coherent Airy beams ( http://arxiv.org/abs/2407.08097v1 )

ライセンス: Link先を確認
A. S. Sanz, R. Martínez-Herrero, (参考訳) 自由空間におけるエアリービームの伝播は、その強度分布の形状不変性を保証する非分散性であり、横方向に沿って自己加速することが特徴である。 これらの特徴的な特徴は、後尾の到達範囲(したがってエネルギー含有量)が著しく減少する限り、部分的にコヒーレントなエアリービームに今も存在している。 本稿では, ビームコヒーレンスの減少に伴う影響について検討するため, 偏軸部分コヒーレントビームに対するフラックス軌道の概念の一般化に基づく, 新規で洞察に富んだ方法論を提案する。 この手法は相関係の役割を強調し、なぜビームが伝播に沿って空間的に抜け出すのかを明らかにするのに役立つ。 しかし、この定式化は、完全なコヒーレンスから完全な非コヒーレンスまで、どんな部分的コヒーレンスでも他のタイプの構造的光線に取り組むのに十分である。

The propagation of Airy beams in free space is characterized by being non dispersive, which warrants the shape invariance of their intensity distribution, and self-accelerating along the transverse direction. These distinctive traits are still present in partially coherent Airy beams as long as the reach of their back tail (and hence their energy content) is not importantly reduced. To investigate the effects associated with the decrease of the beam coherence and its power content (by smoothly reducing the reach of their back tails), here we introduce a novel and insightful methodology based on a generalization of the concept of flux trajectory for paraxial partially coherent beams. This methodologies emphasizes the role of phase relations, thus helping to clarify why and how the beam smears out spatially along its propagation. This formalism, though, is general enough to tackle other types of structured light beams with whatever degree of partial coherence, from full coherence to total incoherence.
翻訳日:2024-07-12 21:19:34 公開日:2024-07-10
# DIOR-ViT: 病理画像における癌分類のための差分正規学習視覚変換器

DIOR-ViT: Differential Ordinal Learning Vision Transformer for Cancer Classification in Pathology Images ( http://arxiv.org/abs/2407.08503v1 )

ライセンス: Link先を確認
Ju Cheon Lee, Keunho Byeon, Boram Song, Kyungeun Kim, Jin Tae Kwak, (参考訳) 計算病理学では、がんグレーディングは主に分類学的な問題として研究されており、がんグレードが高いほどがんが悪化するなど、がんグレードの順序性を利用しない。 がん学級間の順序関係を組み込むために, 特徴空間の差異を利用して, 分類クラスラベル間の差分を定義・学習する, 差分順序学習問題を導入する。 そこで本研究では,がんグレーディングのための分類分類とディファレンシャル順序分類の両方を同時に行うトランスフォーマーベースニューラルネットワークを提案する。 また、微分順序学習のための調整された損失関数を提案する。 提案手法を3種類のがんデータセットで評価し, 差分順序学習の導入により, がんグレーティングの精度と信頼性が向上し, 従来のがんグレーティング手法よりも優れていることを示した。 提案手法は,クラスラベル間の順序関係が関係する他の疾患や問題にも適用すべきである。

In computational pathology, cancer grading has been mainly studied as a categorical classification problem, which does not utilize the ordering nature of cancer grades such as the higher the grade is, the worse the cancer is. To incorporate the ordering relationship among cancer grades, we introduce a differential ordinal learning problem in which we define and learn the degree of difference in the categorical class labels between pairs of samples by using their differences in the feature space. To this end, we propose a transformer-based neural network that simultaneously conducts both categorical classification and differential ordinal classification for cancer grading. We also propose a tailored loss function for differential ordinal learning. Evaluating the proposed method on three different types of cancer datasets, we demonstrate that the adoption of differential ordinal learning can improve the accuracy and reliability of cancer grading, outperforming conventional cancer grading approaches. The proposed approach should be applicable to other diseases and problems as they involve ordinal relationship among class labels.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-10
# ドローン制御のための音声コマンドパイプラインの評価:STTとLCMから直接分類とシームズネットワークへ

Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks ( http://arxiv.org/abs/2407.08658v1 )

ライセンス: Link先を確認
Lucca Emmanuel Pineli Simões, Lucas Brandão Rodrigues, Rafaela Mota Silva, Gustavo Rodrigues da Silva, (参考訳) 本稿では,音声認識とディープラーニング技術を用いて,Telloドローンを制御するための3つの音声コマンドパイプラインの開発と比較評価を行う。 本研究の目的は、ドローン動作の直感的な音声制御を可能にすることにより、人間と機械の相互作用を強化することである。 開発されたパイプラインには、(1)従来の音声テキスト(STT)、次いでLarge Language Model(LLM)アプローチ、(2)直接音声から関数へのマッピングモデル、(3)Siameseニューラルネットワークベースのシステムが含まれる。 各パイプラインは、推測時間、正確性、効率、柔軟性に基づいて評価された。 詳細な方法論、データセットの準備、評価メトリクスが提供され、さまざまなシナリオにわたる各パイプラインの強みと適用性に関する包括的な分析を提供する。

This paper presents the development and comparative evaluation of three voice command pipelines for controlling a Tello drone, using speech recognition and deep learning techniques. The aim is to enhance human-machine interaction by enabling intuitive voice control of drone actions. The pipelines developed include: (1) a traditional Speech-to-Text (STT) followed by a Large Language Model (LLM) approach, (2) a direct voice-to-function mapping model, and (3) a Siamese neural network-based system. Each pipeline was evaluated based on inference time, accuracy, efficiency, and flexibility. Detailed methodologies, dataset preparation, and evaluation metrics are provided, offering a comprehensive analysis of each pipeline's strengths and applicability across different scenarios.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-10
# LLM圧縮の多次元安全性評価

Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression ( http://arxiv.org/abs/2407.04965v2 )

ライセンス: Link先を確認
Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar, (参考訳) 大規模言語モデル(LLM)は、最近のモデル圧縮技術の助けを借りて、現実のシナリオにますます多くデプロイされている。 このような地域展開への勢いは、圧縮LDMの使用が人口に大きな影響を及ぼすことを意味する。 しかし、事前の分析は、しばしば、トレーニング損失の直接的な類似である難易度を保存することを優先する。 モデル行動の他の重要な側面、特に安全性に対する圧縮法の影響は、依然として体系的な評価を求めている。 この目的のために, モデル圧縮が4次元に与える影響について検討する。(1) 退化障害,(2) 退化障害,(2) 識別的タスクにおけるバイアス, (3) 方言バイアス, (4) 言語モデル, 下流タスクパフォーマンス。 我々は,非構造化プルーニング,半構造化プルーニング,量子化など,LLM圧縮手法の幅広い範囲をカバーする。 解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。 圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。 圧縮は故意にLLMの変性障害を回復させるかもしれないが、それでも表現的調和軸を悪化させる可能性がある。 さらに, 圧縮速度が増大するにつれて, 異なる保護群に対して異なる影響が生じる。 最後に、異なる圧縮法は、例えば量子化は、急速に劣化しながらバイアスを保ちながら、大幅に異なる安全性への影響を持つ。 本研究は, 実世界のアプリケーションにまたがる信頼性を確保するため, 圧縮LDMの開発に安全性評価を統合することの重要性を浮き彫りにした。 結果は以下の通りである。 \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}

Large language models (LLMs) are increasingly deployed in real-world scenarios with the help of recent model compression techniques. Such momentum towards local deployment means the use of compressed LLMs will widely impact a large population. However, prior analysis works often prioritize on preserving perplexity which is a direct analogy to training loss. The impact of compression method on other critical aspects of model behavior, particularly safety, still calls for a systematic assessment. To this end, we investigate the impact of model compression on four dimensions: (1) degeneration harm, i.e., bias and toxicity in generation; (2) representational harm, i.e., biases in discriminative tasks; (3) dialect bias; (4) language modeling and downstream task performance. We cover a wide spectrum of LLM compression techniques, including unstructured pruning, semi-structured pruning and quantization. Our analysis reveals that compression can lead to unexpected consequences. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Although compression may unintentionally remedy LLMs' degeneration harm, it can still exacerbate on the representational harm axis. Moreover, there is a divergent impact on different protected groups as the compression rate grows. Finally, different compression methods have drastically different safety impacts, e.g., quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications. Our full results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# 頭部ポーズ推定のためのデータ拡張のパワーについて

On the power of data augmentation for head pose estimation ( http://arxiv.org/abs/2407.05357v2 )

ライセンス: Link先を確認
Michael Welter, (参考訳) 深層学習は、モノクラー画像から人間の頭部のポーズを予測することで、過去10年間、驚くべき成功を収めてきた。 インザワイルドインプットでは、研究コミュニティは主として、半合成的な1つのトレーニングセットに依存している。 本稿では, 自然画像へのより良い一般化を実現するために, 合成データの異なるフレーバーの組み合わせを提案する。 さらに、従来の外面回転合成によるデータボリュームのさらなる拡張も検討した。 ネットワークアーキテクチャと標準的な特徴抽出器を組み合わせることで、精度と効率の両面での競争モデルが得られ、実用的なリアルタイムアプリケーションにおいて完全な6DoFポーズ推定が可能となった。

Deep learning has been impressively successful in the last decade in predicting human head poses from monocular images. For in-the-wild inputs, the research community has predominantly relied on a single training set of semi-synthetic nature. This paper suggest the combination of different flavors of synthetic data in order to achieve better generalization to natural images. Moreover, additional expansion of the data volume using traditional out-of-plane rotation synthesis is considered. Together with a novel combination of losses and a network architecture with a standard feature-extractor, a competitive model is obtained, both in accuracy and efficiency, which allows full 6 DoF pose estimation in practical real-time applications.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# 因果推論レンズによる新しいユーザイベント予測

New User Event Prediction Through the Lens of Causal Inference ( http://arxiv.org/abs/2407.05625v2 )

ライセンス: Link先を確認
Henry Shaowu Yuchi, Shixiang Zhu, Li Dong, Yigit M. Arisoy, Matthew C. Spencer, (参考訳) 多様な行動パターンを持つ異種ユーザによるイベントシリーズのモデリングと分析は、クレジットカード不正検出、オンラインプラットフォームユーザの推薦、ソーシャルネットワーク分析など、私たちの日常生活に深く関わっている。 このタスクで最も一般的に採用されているアプローチは、ユーザーを行動に基づくカテゴリに分類し、それぞれを別々に分析することである。 しかし,この手法ではユーザ行動を完全に理解するために広範囲なデータが必要であり,履歴のない新参者をモデル化する上での課題が提示される。 本稿では,因果推論のレンズを用いた新しいユーザのための離散イベント予測フレームワークを提案する。 提案手法は,カテゴリを知る必要のない新規ユーザに対して,バイアスのない予測を提供する。 ユーザイベント履歴を将来のイベントの'処理'として扱い、ユーザカテゴリを重要な共同創設者として扱います。 これにより、予測問題は、その逆の確率スコアによって各イベントが再重み付けされる調整データセット上でトレーニングされた新しいユーザモデルにより、対実結果推定とみなすことができる。 提案フレームワークの優れた性能を数値シミュレーション研究と,Amazonにおける顧客支援のためのNetflixレーティング予測と販売者接触予測を含む実世界の2つのアプリケーションで実証した。

Modeling and analysis for event series generated by heterogeneous users of various behavioral patterns are closely involved in our daily lives, including credit card fraud detection, online platform user recommendation, and social network analysis. The most commonly adopted approach to this task is to classify users into behavior-based categories and analyze each of them separately. However, this approach requires extensive data to fully understand user behavior, presenting challenges in modeling newcomers without historical knowledge. In this paper, we propose a novel discrete event prediction framework for new users through the lens of causal inference. Our method offers an unbiased prediction for new users without needing to know their categories. We treat the user event history as the ''treatment'' for future events and the user category as the key confounder. Thus, the prediction problem can be framed as counterfactual outcome estimation, with the new user model trained on an adjusted dataset where each event is re-weighted by its inverse propensity score. We demonstrate the superior performance of the proposed framework with a numerical simulation study and two real-world applications, including Netflix rating prediction and seller contact prediction for customer support at Amazon.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# NSF Workshop on Sustainable Computing for Sustainability (NSF WSCS 2024) 参加報告

Report on the NSF Workshop on Sustainable Computing for Sustainability (NSF WSCS 2024) ( http://arxiv.org/abs/2407.06119v2 )

ライセンス: Link先を確認
Roch Guérin, Amy McGovern, Klara Nahrstedt, (参考訳) 本報告では,2024年4月にネバダ州アレクサンドリアで開催されたNSFワークショップ「持続可能な持続可能性コンピューティング」の成果を報告し,その成果を報告する。 ワークショップの主な目標は 一 持続可能コンピューティングと持続可能性コンピューティングの両方のテーマに沿った研究イニシアチブの開発を推進しつつ、かつ、 (二)これらのイニシアティブが必要とする学際チームの開発と維持を支援すること。 ワークショップの結果は3つのカテゴリに分類される: 持続可能なコンピューティングと持続可能性のためのコンピューティングの両方のテーマをカットする一般的なレコメンデーション、持続可能性のためのコンピューティングに特有のレコメンデーションである。

This report documents the process that led to the NSF Workshop on "Sustainable Computing for Sustainability" held in April 2024 at NSF in Alexandria, VA, and reports on its findings. The workshop's primary goals were to (i) advance the development of research initiatives along the themes of both sustainable computing and computing for sustainability, while also (ii) helping develop and sustain the interdisciplinary teams those initiatives would need. The workshop's findings are in the form of recommendations grouped in three categories: General recommendations that cut across both themes of sustainable computing and computing for sustainability, and recommendations that are specific to sustainable computing and computing for sustainability, respectively.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# VQA-Diff:自律走行におけるゼロショット画像-3次元車両アセット生成のためのVQAと拡散の爆発

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving ( http://arxiv.org/abs/2407.06516v2 )

ライセンス: Link先を確認
Yibo Liu, Zheyuan Yang, Guile Wu, Yuan Ren, Kejian Lin, Bingbing Liu, Yang Liu, Jinjun Shan, (参考訳) 飛行中の観察から3D車両の資産を生成することは、自動運転にとって不可欠である。 既存の画像から3Dの手法では、車載車(車種、メーカーなど)の深い理解なしに画像RGB情報から生成を学習するため、この問題にうまく対処できない。 これにより、隠蔽またはトリッキーな視角で現実世界の観測を処理できる、ゼロショット予測能力が貧弱になる。 この問題を解決するため,本研究では,車載画像を利用した自律走行用写真リアリスティック3D車両アセット作成のための新しいフレームワークであるVQA-Diffを提案する。 VQA-Diffは、視覚質問回答(VQA)モデルにおける大言語モデルから受け継がれた実世界の知識を利用して、堅牢なゼロショット予測と、構造と外観生成のための拡散モデルにおけるリッチイメージ事前知識を利用する。 特に,マルチエキスパート拡散モデルを用いて構造情報を生成し,主観駆動型構造制御生成機構を用いて外観情報をモデル化する。 結果として、VQA-Diffは、現実世界から収集した大規模な画像から3Dの車両のデータセットから学ぶ必要がなく、堅牢なゼロショット画像からノーベルビューの生成能力を持っている。 我々はPascal 3D+、Waymo、Objaverseなどのさまざまなデータセットで実験を行い、VQA-Diffが定性的かつ定量的に既存の最先端手法より優れていることを示す。

Generating 3D vehicle assets from in-the-wild observations is crucial to autonomous driving. Existing image-to-3D methods cannot well address this problem because they learn generation merely from image RGB information without a deeper understanding of in-the-wild vehicles (such as car models, manufacturers, etc.). This leads to their poor zero-shot prediction capability to handle real-world observations with occlusion or tricky viewing angles. To solve this problem, in this work, we propose VQA-Diff, a novel framework that leverages in-the-wild vehicle images to create photorealistic 3D vehicle assets for autonomous driving. VQA-Diff exploits the real-world knowledge inherited from the Large Language Model in the Visual Question Answering (VQA) model for robust zero-shot prediction and the rich image prior knowledge in the Diffusion model for structure and appearance generation. In particular, we utilize a multi-expert Diffusion Models strategy to generate the structure information and employ a subject-driven structure-controlled generation mechanism to model appearance information. As a result, without the necessity to learn from a large-scale image-to-3D vehicle dataset collected from the real world, VQA-Diff still has a robust zero-shot image-to-novel-view generation ability. We conduct experiments on various datasets, including Pascal 3D+, Waymo, and Objaverse, to demonstrate that VQA-Diff outperforms existing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# ChatGPTは充電器のファンを信頼していない: ガードレールの感度

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context ( http://arxiv.org/abs/2407.06866v2 )

ライセンス: Link先を確認
Victoria R. Li, Yida Chen, Naomi Saphra, (参考訳) 生産中の言語モデルのバイアスは広範囲に記録されているが、ガードレールのバイアスは無視されている。 本稿では,ユーザに関する情報がLCMの要求実行を拒否する可能性にどのように影響するかを検討する。 GPT-3.5では,イデオロギーや人口統計情報を提供するユーザ伝記を生成することで,ガードレールの感度に多くのバイアスが生じる。 若年、女性、アジア系アメリカ人の人物は、検閲された情報や違法な情報を要求する際に、拒否するガードレールを発生させる傾向にある。 ガードレールもサイコファンであり、ユーザーが反対する可能性が高い政治的立場の要求に従わない。 特定のアイデンティティグループや一見無害な情報、例えばスポーツファンダムは、政治的イデオロギーの直接的な言明に類似したガードレール感度の変化を誘発することができる。 それぞれのカテゴリーやアメリカンフットボールチームでさえ、ChatGPTは政治的イデオロギーを推測し、それに応じてガードレールの振る舞いを修正しているように見える。

While the biases of language models in production are extensively documented, the biases of their guardrails have been neglected. This paper studies how contextual information about the user influences the likelihood of an LLM to refuse to execute a request. By generating user biographies that offer ideological and demographic information, we find a number of biases in guardrail sensitivity on GPT-3.5. Younger, female, and Asian-American personas are more likely to trigger a refusal guardrail when requesting censored or illegal information. Guardrails are also sycophantic, refusing to comply with requests for a political position the user is likely to disagree with. We find that certain identity groups and seemingly innocuous information, e.g., sports fandom, can elicit changes in guardrail sensitivity similar to direct statements of political ideology. For each demographic category and even for American football team fandom, we find that ChatGPT appears to infer a likely political ideology and modify guardrail behavior accordingly.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-10
# 機会が訪れるときの貿易:地域意識と反復的リファインメントラベリングによる物価変動予測

Trade When Opportunity Comes: Price Movement Forecasting via Locality-Aware Attention and Iterative Refinement Labeling ( http://arxiv.org/abs/2107.11972v4 )

ライセンス: Link先を確認
Liang Zeng, Lei Wang, Hui Niu, Ruchen Zhang, Ling Wang, Jian Li, (参考訳) 現在の市場情報に基づく金融資産トレンドの予測を目的とした価格変動予測は,機械学習(ML)手法により,有望な進歩を遂げている。 しかし、既存のML手法の多くは、非常に低い信号対雑音比と金融データの確率的な性質に苦しむ。 この問題に対処するため,LA-Attention (Locality-Aware Attention, LA-Attention) と Iterative Refinement Labeling (RA-Labeling, RA-Labeling, RA-Labeling) という,新しい価格変動予測フレームワークを提案する。 1)メトリクス学習技術によって強化されたLA-Attentionは,マスマスキングアテンションスキームとタスク特異的距離測定によって,潜在的に有益なサンプルを自動的に抽出する。 2)RA-Labelingはさらに,潜在的に有益なサンプルのノイズラベルを反復的に洗練し,学習した予測器を目に見えない,ノイズの多いサンプルに頑健に結合する。 株式、暗号通貨、ETFの3つの実世界の金融市場に関する一連の実験において、LARAはQlibの量的投資プラットフォームにおける機械学習ベースの手法を著しく上回っている。 広範囲にわたるアブレーション研究は、より信頼性の高い貿易機会の獲得におけるララの優れた能力を確認している。

Price movement forecasting, aimed at predicting financial asset trends based on current market information, has achieved promising advancements through machine learning (ML) methods. Most existing ML methods, however, struggle with the extremely low signal-to-noise ratio and stochastic nature of financial data, often mistaking noises for real trading signals without careful selection of potentially profitable samples. To address this issue, we propose LARA, a novel price movement forecasting framework with two main components: Locality-Aware Attention (LA-Attention) and Iterative Refinement Labeling (RA-Labeling). (1) LA-Attention, enhanced by metric learning techniques, automatically extracts the potentially profitable samples through masked attention scheme and task-specific distance metrics. (2) RA-Labeling further iteratively refines the noisy labels of potentially profitable samples, and combines the learned predictors robust to the unseen and noisy samples. In a set of experiments on three real-world financial markets: stocks, cryptocurrencies, and ETFs, LARA significantly outperforms several machine learning based methods on the Qlib quantitative investment platform. Extensive ablation studies confirm LARA's superior ability in capturing more reliable trading opportunities.
翻訳日:2024-07-11 22:45:35 公開日:2024-07-10
# DeepGene Transformer:癌サブタイプの遺伝子発現に基づく分類のためのトランスフォーマー

DeepGene Transformer: Transformer for the gene expression-based classification of cancer subtypes ( http://arxiv.org/abs/2108.11833v4 )

ライセンス: Link先を確認
Anwar Khan, Boreom Lee, (参考訳) がんとそのサブタイプは、全世界で死の原因の約30%を占め、治療に対する臨床的および分子的反応に関して幅広い異種性を示す。 分子サブタイピングにより、これらの課題を克服し、予後を予測し、臨床的意思決定を改善するための重要な生物学的洞察を提供するために精密医療が利用可能になった。 過去10年間で、従来の機械学習(ML)とディープラーニング(DL)アルゴリズムは、遺伝子発現データセットから癌サブタイプの分類に広く利用されてきた。 しかし、これらの手法は癌バイオマーカーの同定に偏っている可能性がある。 そこで, エンドツーエンドのディープラーニング手法であるDeepGene Transformerを提案し, 現在の分類アルゴリズムの前提条件として機能選択を必要とせず, 複数のがんサブタイプにまたがる関連バイオマーカーを同定することにより, 高次元遺伝子発現の複雑さに対処する。 比較分析の結果,提案したDeepGene Transformerは従来型および最先端の分類アルゴリズムよりも優れており,癌とそのサブタイプを分類するための効率的なアプローチである可能性が示唆された。

Cancer and its subtypes constitute approximately 30% of all causes of death globally and display a wide range of heterogeneity in terms of clinical and molecular responses to therapy. Molecular subtyping has enabled the use of precision medicine to overcome these challenges and provide significant biological insights to predict prognosis and improve clinical decision-making. Over the past decade, conventional machine learning (ML) and deep learning (DL) algorithms have been widely espoused for the classification of cancer subtypes from gene expression datasets. However, these methods are potentially biased toward the identification of cancer biomarkers. Hence, an end-to-end deep learning approach, DeepGene Transformer, is proposed which addresses the complexity of high-dimensional gene expression with a multi-head self-attention module by identifying relevant biomarkers across multiple cancer subtypes without requiring feature selection as a pre-requisite for the current classification algorithms. Comparative analysis reveals that the proposed DeepGene Transformer outperformed the commonly used traditional and state-of-the-art classification algorithms and can be considered an efficient approach for classifying cancer and its subtypes, indicating that any improvement in deep learning models in computational biologists can be reflected well in this domain as well.
翻訳日:2024-07-11 22:45:35 公開日:2024-07-10
# 画素蒸留:低解像度画像認識のための新しい知識蒸留方式

Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition ( http://arxiv.org/abs/2112.09532v2 )

ライセンス: Link先を確認
Guangyu Guo, Dingwen Zhang, Longfei Han, Nian Liu, Ming-Ming Cheng, Junwei Han, (参考訳) 従来の知識蒸留(KD)法は主にネットワークアーキテクチャの圧縮に重点を置いており、伝送帯域幅や撮像装置などのコストが画像サイズに関係しているため、配備に十分ではない。 そこで本研究では,アーキテクチャ制約を同時に破りながら,知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。 このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。 具体的には,まず,大規模な画像から学生の入力モジュールに空間知識を伝達する空間表現蒸留(ISRD)機構を提案する。 そして、モデル圧縮段階と入力圧縮段階とに画素蒸留を混在させることにより、画素蒸留の全体的な複雑さを著しく低減し、中間知識の蒸留が困難になるように、TAS(Teacher-Assistant-Student)フレームワークを更に確立する。 最後に,TASの保存(AFP)戦略の整列化による物体検出に画素蒸留を適用し,各ステージにおける検出器の出力寸法をアシスタントの特徴とアンカーの操作により整列させる。 画像分類と物体検出に関する総合的な実験により,本手法の有効性が示された。 コードはhttps://github.com/gyguo/PixelDistillation.comから入手できる。

Previous knowledge distillation (KD) methods mostly focus on compressing network architectures, which is not thorough enough in deployment as some costs like transmission bandwidth and imaging equipment are related to the image size. Therefore, we propose Pixel Distillation that extends knowledge distillation into the input level while simultaneously breaking architecture constraints. Such a scheme can achieve flexible cost control for deployment, as it allows the system to adjust both network architecture and image quality according to the overall requirement of resources. Specifically, we first propose an input spatial representation distillation (ISRD) mechanism to transfer spatial knowledge from large images to student's input module, which can facilitate stable knowledge transfer between CNN and ViT. Then, a Teacher-Assistant-Student (TAS) framework is further established to disentangle pixel distillation into the model compression stage and input compression stage, which significantly reduces the overall complexity of pixel distillation and the difficulty of distilling intermediate knowledge. Finally, we adapt pixel distillation to object detection via an aligned feature for preservation (AFP) strategy for TAS, which aligns output dimensions of detectors at each stage by manipulating features and anchors of the assistant. Comprehensive experiments on image classification and object detection demonstrate the effectiveness of our method. Code is available at https://github.com/gyguo/PixelDistillation.
翻訳日:2024-07-11 22:45:35 公開日:2024-07-10
# ポアンカレからログソボレフまでのランゲヴィンモンテカルロの分析

Analysis of Langevin Monte Carlo from Poincaré to Log-Sobolev ( http://arxiv.org/abs/2112.12662v2 )

ライセンス: Link先を確認
Sinho Chewi, Murat A. Erdogdu, Mufan Bill Li, Ruoqi Shen, Matthew Zhang, (参考訳) 古典的には、連続時間ランゲヴィン拡散はその定常分布 $\pi$ に指数関数的に速く収束するが、$\pi$ はポアンカーの不等式を満たすという唯一の仮定のもとである。 しかし、この事実を利用して離散時間ランゲヴィン・モンテカルロ(LMC)アルゴリズムの保証を提供するのは、チ二乗あるいはR'enyiの発散子を扱う必要があるため、かなり難しい。 この研究では、Lata\l{}a-Oleszkiewicz あるいは log-Sobolev の不等式を $\pi$ が満たすと仮定して LMC に最初の収束保証を与える。 従来の研究とは異なり、我々の結果は滑らかさの弱さを許容し、凸性や解離性条件を必要としない。

Classically, the continuous-time Langevin diffusion converges exponentially fast to its stationary distribution $\pi$ under the sole assumption that $\pi$ satisfies a Poincar\'e inequality. Using this fact to provide guarantees for the discrete-time Langevin Monte Carlo (LMC) algorithm, however, is considerably more challenging due to the need for working with chi-squared or R\'enyi divergences, and prior works have largely focused on strongly log-concave targets. In this work, we provide the first convergence guarantees for LMC assuming that $\pi$ satisfies either a Lata\l{}a--Oleszkiewicz or modified log-Sobolev inequality, which interpolates between the Poincar\'e and log-Sobolev settings. Unlike prior works, our results allow for weak smoothness and do not require convexity or dissipativity conditions.
翻訳日:2024-07-11 22:45:35 公開日:2024-07-10
# 発生モックによる生産挙動の模倣

Mimicking Production Behavior with Generated Mocks ( http://arxiv.org/abs/2208.01321v3 )

ライセンス: Link先を確認
Deepika Tiwari, Martin Monperrus, Benoit Baudry, (参考訳) 自動ソフトウェアテストのコンテキストでモックすることで、プログラムユニットを独立した形でテストすることができる。 ユニットと環境の間の現実的な相互作用を設計し、これらの相互作用がユニットの振る舞いに与える影響を理解することは、ソフトウェアテスタがモックを使ってテストを開発する際に直面する2つの重要な課題である。 本稿では,モックによる現実的な実行シナリオを模倣したテストを生成するために,本番環境でのアプリケーションの監視を提案する。 私たちのアプローチは3つのフェーズで機能します。 まず、テストを生成したいターゲットメソッドのセットと、それらが呼び出しているメソッドをモック可能なメソッド呼び出しと呼びます。 第2に、本番環境では、ターゲットメソッドが呼び出されるコンテキストに関するデータと、モック可能なメソッド呼び出し毎にパラメータと返される値を収集します。 第3にオフラインでは、実運用データを分析して、現実的なインプットとモックインタラクションでテストケースを生成します。 このアプローチは自動化され、RICKと呼ばれるオープンソースのツールで実装されている。 3つの実世界のオープンソースのJavaアプリケーションで、我々のアプローチを評価します。 RICKは3つのアプリケーション間で128のメソッドの本番環境での呼び出しを監視し、その振る舞いをキャプチャする。 このキャプチャデータに基づいて、RICKは現実的な初期状態やテストインプット、モック、スタブを含むテストケースを生成する。 RICKによって生成される3種類のモックベースのオラクルは、メソッドと環境の間の実際の相互作用を検証する。 生成されたテストケースはすべて実行可能であり、52.4%は本番環境で観察されたメソッドの完全な実行コンテキストをうまく模倣している。 モックベースのオラクルは、ターゲットメソッド内の回帰を検出するのに有効であり、フォールトフィニング能力において互いに補完する。 業界から5人の開発者に対してインタビューを行い、モックやスタブの設計に生産観察を使うことの関連性を確認しました。

Mocking in the context of automated software tests allows testing program units in isolation. Designing realistic interactions between a unit and its environment, and understanding the expected impact of these interactions on the behavior of the unit, are two key challenges that software testers face when developing tests with mocks. In this paper, we propose to monitor an application in production to generate tests that mimic realistic execution scenarios through mocks. Our approach operates in three phases. First, we instrument a set of target methods for which we want to generate tests, as well as the methods that they invoke, which we refer to as mockable method calls. Second, in production, we collect data about the context in which target methods are invoked, as well as the parameters and the returned value for each mockable method call. Third, offline, we analyze the production data to generate test cases with realistic inputs and mock interactions. The approach is automated and implemented in an open-source tool called RICK. We evaluate our approach with 3 real-world, open-source Java applications. RICK monitors the invocation of 128 methods in production across the 3 applications and captures their behavior. Based on this captured data, RICK generates test cases that include realistic initial states and test inputs, mocks, and stubs. The three kinds of mock-based oracles generated by RICK verify the actual interactions between the method and its environment. All the generated test cases are executable, and 52.4% of them successfully mimic the complete execution context of the methods observed in production. The mock-based oracles are effective at detecting regressions within the target methods, complementing each other in their fault-finding ability. We interview 5 developers from the industry who confirm the relevance of using production observations to design mocks and stubs.
翻訳日:2024-07-11 22:39:21 公開日:2024-07-10
# 半球特殊化を伴う両側脳における深層学習

Deep learning in a bilateral brain with hemispheric specialization ( http://arxiv.org/abs/2209.06862v9 )

ライセンス: Link先を確認
Chandramouli Rajagopalan, David Rawlinson, Elkhonon Goldberg, Gideon Kowadlo, (参考訳) 地球上の左右対称な動物の脳は、左右の半球に分けられる。 半球の解剖学と機能は非常に重複しているが、非対称性があり、それらは異なる属性を持つことを特化している。 他の著者は、セマンティックおよび視覚処理タスクに関する人間のデータを再現することに焦点を当てた、半球の非対称性を模倣する計算モデルを使用している。 我々は異なるアプローチを採り、二元的アーキテクチャにおける二重半球がどのように相互作用し、与えられたタスクでうまく機能するかを理解することを目指していた。 本稿では,左半球が局所的特徴と大域的特徴を専門とする,自然界の側方化を模倣する二元的人工ニューラルネットワークを提案する。 所望の特殊化を達成するために異なるトレーニング目標を使用して、ResNetとVGGの2つの異なるCNNバックボーンを用いた画像分類タスクでテストした。 分析の結果、ヘミスフィアは、重み付けされた注意のタイプを実装するネットワークヘッドによって利用される相補的特徴を表すことがわかった。 両アーキテクチャは、局所的特徴とグローバル的特徴の2つのトレーニング目標に基づいて訓練された一方的ネットワークの従来のアンサンブルを除いて、差分特殊化を生かさない類似の表現能力の基線よりも優れていた。 結果は、二元主義の有効性を実証し、生物学的脳における二元主義の議論に寄与し、この原理は、新しいAIシステムに対する帰納的バイアスとなる可能性がある。

The brains of all bilaterally symmetric animals on Earth are divided into left and right hemispheres. The anatomy and functionality of the hemispheres have a large degree of overlap, but there are asymmetries, and they specialise in possesses different attributes. Other authors have used computational models to mimic hemispheric asymmetries with a focus on reproducing human data on semantic and visual processing tasks. We took a different approach and aimed to understand how dual hemispheres in a bilateral architecture interact to perform well in a given task. We propose a bilateral artificial neural network that imitates lateralisation observed in nature: that the left hemisphere specialises in local features and the right in global features. We used different training objectives to achieve the desired specialisation and tested it on an image classification task with two different CNN backbones: ResNet and VGG. Our analysis found that the hemispheres represent complementary features that are exploited by a network head that implements a type of weighted attention. The bilateral architecture outperformed a range of baselines of similar representational capacity that do not exploit differential specialisation, with the exception of a conventional ensemble of unilateral networks trained on dual training objectives for local and global features. The results demonstrate the efficacy of bilateralism, contribute to the discussion of bilateralism in biological brains, and the principle may serve as an inductive bias for new AI systems.
翻訳日:2024-07-11 22:39:21 公開日:2024-07-10
# 力学系の離散化としてのバニラフィードフォワードニューラルネットワーク

Vanilla Feedforward Neural Networks as a Discretization of Dynamical Systems ( http://arxiv.org/abs/2209.10909v2 )

ライセンス: Link先を確認
Yifei Duan, Li'ang Li, Guanghua Ji, Yongqiang Cai, (参考訳) 深層学習は、データ科学と自然科学の分野に多大な応用をもたらした。 ディープニューラルネットワークを動的システムにリンクする研究もあるが、ネットワーク構造は残留ネットワークに限定されている。 残留ネットワークは動的システムの数値的な離散化と見なせることが知られている。 本稿では,従来のネットワーク構造に戻り,バニラフィードフォワードネットワークが動的システムの数値的な離散化であり,ネットワーク幅が入力と出力の次元に等しいことを示す。 この証明は, 漏洩ReLU関数の特性と, 微分方程式を解くスプリッティング法の数値解法に基づく。 我々の結果は、フィードフォワードニューラルネットワークの近似特性を理解するための新しい視点を提供することができる。

Deep learning has made significant applications in the field of data science and natural science. Some studies have linked deep neural networks to dynamic systems, but the network structure is restricted to the residual network. It is known that residual networks can be regarded as a numerical discretization of dynamic systems. In this paper, we back to the classical network structure and prove that the vanilla feedforward networks could also be a numerical discretization of dynamic systems, where the width of the network is equal to the dimension of the input and output. Our proof is based on the properties of the leaky-ReLU function and the numerical technique of splitting method to solve differential equations. Our results could provide a new perspective for understanding the approximation properties of feedforward neural networks.
翻訳日:2024-07-11 22:39:21 公開日:2024-07-10
# データ深度を用いた異常検出:多変量の場合

Anomaly detection using data depth: multivariate case ( http://arxiv.org/abs/2210.02851v2 )

ライセンス: Link先を確認
Pavlo Mozharovskyi, Romain Valla, (参考訳) 異常検出は、異常な振る舞いを示す観察を識別することを目的とした、データ分析と機械学習の分野である。 エラー、病気の発生、厳しい天候、生産品質のデフォルト(イテム)、または設備の故障、金融詐欺、危機イベントを計測すれば、それらのオンタイムの識別、隔離、説明は、科学や産業のほとんどすべての分野において重要なタスクとなる。 堅牢な順序付け – データ深度 – データセットへの空間の任意の点の属性を測定する統計関数 – を提供することによって,異常の検出に特に有用なツールとなる。 その理論的性質で知られているように、データ深度は過去10年、特に近年でかなりの計算発展を遂げており、現代のデータ分析や機械学習の課題に適用できるようになっている。 本稿では,データ深度を効率的な異常検出ツールとして検討し,多変量設定において,低い深度値の観測に異常ラベルを割り当てる。 深度関数の不変性と形状, その堅牢性, 計算複雑性, しきい値の選択について検討した。 イラストには、さまざまな設定でデータ深度の有利な振る舞いを下記に示すユースケースが含まれている。

Anomaly detection is a branch of data analysis and machine learning which aims at identifying observations that exhibit abnormal behaviour. Be it measurement errors, disease development, severe weather, production quality default(s) (items) or failed equipment, financial frauds or crisis events, their on-time identification, isolation and explanation constitute an important task in almost any branch of science and industry. By providing a robust ordering, data depth - statistical function that measures belongingness of any point of the space to a data set - becomes a particularly useful tool for detection of anomalies. Already known for its theoretical properties, data depth has undergone substantial computational developments in the last decade and particularly recent years, which has made it applicable for contemporary-sized problems of data analysis and machine learning. In this article, data depth is studied as an efficient anomaly detection tool, assigning abnormality labels to observations with lower depth values, in a multivariate setting. Practical questions of necessity and reasonability of invariances and shape of the depth function, its robustness and computational complexity, choice of the threshold are discussed. Illustrations include use-cases that underline advantageous behaviour of data depth in various settings.
翻訳日:2024-07-11 22:39:21 公開日:2024-07-10
# 量子誤り低減のための仮想蒸留回路におけるノイズの研究

Study of noise in virtual distillation circuits for quantum error mitigation ( http://arxiv.org/abs/2210.15317v2 )

ライセンス: Link先を確認
Pontus Vikstål, Giulia Ferrini, Shruti Puri, (参考訳) 仮想蒸留は量子アルゴリズムにおける可観測物の期待値を推定するための誤り軽減プロトコルとして提案されている。 制御されたスワップゲートの列を用いて、量子状態のM$ノイズコピーの巡回置換を生成する。 雑音が密度演算子の固有ベクトルを理想状態から逸脱しない場合、期待値推定の誤差は指数関数的に$M$で減少する。 実際には、循環置換回路自体のノイズの影響を抑えるために、後続の誤差軽減技術が必要であるため、実験的な複雑さが増大する。 ここでは、循環置換回路における非相関な同一ノイズの影響を慎重に分析し、可観測物の期待値の推定が劣化ノイズに対して頑健であることを確認する。 数値シミュレーションにより解析結果をサポートし,M=2$で6,7\%の誤差を減らし,物理劣化確率を最大10\%の値とする。 以上の結果から,超伝導ボソニック量子ビットやライドバーグ原子などの非劣化誤差が抑制された量子ビットプラットフォームでは,短期的により高精度に量子アルゴリズムを実装できることが示唆された。

Virtual distillation has been proposed as an error mitigation protocol for estimating the expectation values of observables in quantum algorithms. It proceeds by creating a cyclic permutation of $M$ noisy copies of a quantum state using a sequence of controlled-swap gates. If the noise does not shift the dominant eigenvector of the density operator away from the ideal state, then the error in expectation-value estimation can be exponentially reduced with $M$. In practice, subsequent error mitigation techniques are required to suppress the effect of noise in the cyclic permutation circuit itself, leading to increased experimental complexity. Here, we perform a careful analysis of the effect of uncorrelated, identical noise in the cyclic permutation circuit and find that the estimation of expectation value of observables are robust against dephasing noise. We support the analytical result with numerical simulations and find that $67\%$ of errors are reduced for $M=2$, with physical dephasing error probabilities as high as $10\%$. Our results imply that a broad class of quantum algorithms can be implemented with higher accuracy in the near-term with qubit platforms where non-dephasing errors are suppressed, such as superconducting bosonic qubits and Rydberg atoms.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# 線形作用素の学習:不コンパクト逆問題としての無限次元回帰

Learning linear operators: Infinite-dimensional regression as a well-behaved non-compact inverse problem ( http://arxiv.org/abs/2211.08875v3 )

ライセンス: Link先を確認
Mattes Mollenhauer, Nicole Mücke, T. J. Sullivan, (参考訳) 経験的観測から2つのヒルベルト空間の間の線型作用素$\theta$を学習する問題を考察し、無限次元における最小二乗回帰と解釈する。 この目標は、そのフォワード作用素が一般に非コンパクトである($\theta$がコンパクトあるいは$p$-Schattenクラスであると仮定しても)特徴を持つ$\theta$の逆問題として再定義できることを示す。 しかし、スペクトル特性と正則化理論の観点から、この逆問題はスカラー応答回帰に関連する既知のコンパクト逆問題と等価であることを示す。 我々のフレームワークは、H\"older型ソース条件下での汎用学習アルゴリズムの次元自由率のエレガントな導出を可能にする。 これらの証明は、カーネル回帰の手法と、非指数ヒルベルト確率変数の測度集中に関する最近の結果の組み合わせに依存している。 得られた速度は、機能回帰における実用上のシナリオと、演算子値のカーネルによる非線形回帰と、古典的カーネル回帰とスカラー応答との類似性を持つ。

We consider the problem of learning a linear operator $\theta$ between two Hilbert spaces from empirical observations, which we interpret as least squares regression in infinite dimensions. We show that this goal can be reformulated as an inverse problem for $\theta$ with the feature that its forward operator is generally non-compact (even if $\theta$ is assumed to be compact or of $p$-Schatten class). However, we prove that, in terms of spectral properties and regularisation theory, this inverse problem is equivalent to the known compact inverse problem associated with scalar response regression. Our framework allows for the elegant derivation of dimension-free rates for generic learning algorithms under H\"older-type source conditions. The proofs rely on the combination of techniques from kernel regression with recent results on concentration of measure for sub-exponential Hilbertian random variables. The obtained rates hold for a variety of practically-relevant scenarios in functional regression as well as nonlinear regression with operator-valued kernels and match those of classical kernel regression with scalar response.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# 逆知識蒸留による高速ビデオ異常検出

Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2211.15597v2 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Dana Dascalescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah, (参考訳) 本稿では,複数の高精度な対象レベルの教師モデルから知識を抽出し,異常検出を学習する,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。 学生の忠実度を向上させるために,教師の低分解能な異常マップを,標準と対角蒸留を併用して蒸留し,各教師に対して,目標と生成した異常マップを区別する対角ディミネータを導入する。 我々は3つのベンチマーク(Avenue, ShanghaiTech, UCSD Ped2)で実験を行い、我々の手法は最も高速な競合する手法の7倍以上高速で、オブジェクト中心のモデルよりも28~62倍高速であり、最近の手法に匹敵する結果が得られることを示した。 また,従来の1480FPSの低速化により,速度と精度のトレードオフが最良であることを示す。 さらに、アーキテクチャ設計の選択を正当化するための包括的なアブレーション研究を実施します。 私たちのコードは、https://github.com/ristea/fast-aed.comで無料で利用可能です。

We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices. Our code is freely available at: https://github.com/ristea/fast-aed.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# PromptFusion: 継続的な学習のための安定性と塑性の分離

PromptFusion: Decoupling Stability and Plasticity for Continual Learning ( http://arxiv.org/abs/2303.07223v2 )

ライセンス: Link先を確認
Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang Jiang, (参考訳) 継続的な学習に関する現在の研究は、主に破滅的な忘れを省くことに焦点を当てており、その成功の大部分は、新しく入ってくるタスクのパフォーマンスを制限するコストに費やされている。 このようなトレードオフは安定性・塑性ジレンマと呼ばれ、継続的な学習においてより一般的で挑戦的な問題である。 しかし、この2つの概念の間に固有の矛盾があるため、両者に満足できる解決策を同時に考案することは不可能である。 したがって、我々は「それらを2つの別々の問題に分けて、それらを独立して征服することは可能か」と問う。 そこで本研究では,PromptFusionと呼ばれる急速チューニング方式を提案し,安定性と塑性の疎結合を実現する。 具体的には、PromptFusionは、破滅的な忘れ物を扱う慎重に設計された \stab モジュールと、新しい知識を同時に学習する \boo モジュールで構成されている。 さらに、追加アーキテクチャによる計算オーバーヘッドに対処するため、各入力画像に対して両方のモジュールをアクティブにするかを動的に決定することで、PromptFusionを改善するPromptFusion-Liteを提案する。 PromptFusionとPromptFusion-Liteはいずれも、クラスインクリメンタルとドメインインクリメンタルな設定で一般的な継続的学習データセットに対して有望な結果が得られることを示す大規模な実験である。 特に,クラスインクリメンタル学習において最も困難なデータセットの一つであるSplit-Imagenet-Rでは,PmptFusion-LiteはPmptFusionよりも14.8倍少ない計算資源を用いて,最先端のプロンプトベースの手法を5倍以上の精度で超えることができる。

Current research on continual learning mainly focuses on relieving catastrophic forgetting, and most of their success is at the cost of limiting the performance of newly incoming tasks. Such a trade-off is referred to as the stability-plasticity dilemma and is a more general and challenging problem for continual learning. However, the inherent conflict between these two concepts makes it seemingly impossible to devise a satisfactory solution to both of them simultaneously. Therefore, we ask, "is it possible to divide them into two separate problems to conquer them independently?". To this end, we propose a prompt-tuning-based method termed PromptFusion to enable the decoupling of stability and plasticity. Specifically, PromptFusion consists of a carefully designed \stab module that deals with catastrophic forgetting and a \boo module to learn new knowledge concurrently. Furthermore, to address the computational overhead brought by the additional architecture, we propose PromptFusion-Lite which improves PromptFusion by dynamically determining whether to activate both modules for each input image. Extensive experiments show that both PromptFusion and PromptFusion-Lite achieve promising results on popular continual learning datasets for class-incremental and domain-incremental settings. Especially on Split-Imagenet-R, one of the most challenging datasets for class-incremental learning, our method can exceed state-of-the-art prompt-based methods by more than 5\% in accuracy, with PromptFusion-Lite using 14.8\% less computational resources than PromptFusion.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# CodeGeeX: HumanEval-X上での多言語ベンチマークによるコード生成のための事前学習モデル

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X ( http://arxiv.org/abs/2303.17568v2 )

ライセンス: Link先を確認
Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang, (参考訳) OpenAI Codexのような、トレーニング済みの大規模なコード生成モデルは、構文と関数の正しいコードを生成することができるため、プログラマのコーディングはより生産的になり、人工知能の追求はより近づきます。 本稿では,コード生成のための13億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。 CodeGeeXは、2022年6月時点で、23のプログラミング言語の8500億のトークンで事前訓練されている。 我々はCodeGeeXがHumanEval-Xにおけるコード生成タスクと翻訳タスクの両方において、類似スケールの多言語コードモデルより優れていることを示唆した。 HumanEval(Pythonのみ)をベースとして、C++、Java、JavaScript、Goのソリューションを手書きすることで、多言語モデルを評価するHumanEval-Xベンチマークを開発しました。 さらに、CodeGeeXベースのエクステンションをVisual Studio Code、JetBrains、Cloud Studio上に構築し、週に数万のアクティブユーザに対して470億のトークンを生成しています。 私たちのユーザ調査は、CodeGeeXがユーザの83.4%のコーディング効率を向上させることを実証しています。 最後に、CodeGeeXは公開されており、2022年9月にコード、モデルウェイト(850Bトークンのバージョン)、API、拡張、HumanEval-Xをhttps://github.com/THUDM/CodeGeeXでオープンソース化しました。

Large pre-trained code generation models, such as OpenAI Codex, can generate syntax- and function-correct code, making the coding of programmers more productive and our pursuit of artificial general intelligence closer. In this paper, we introduce CodeGeeX, a multilingual model with 13 billion parameters for code generation. CodeGeeX is pre-trained on 850 billion tokens of 23 programming languages as of June 2022. Our extensive experiments suggest that CodeGeeX outperforms multilingual code models of similar scale for both the tasks of code generation and translation on HumanEval-X. Building upon HumanEval (Python only), we develop the HumanEval-X benchmark for evaluating multilingual models by hand-writing the solutions in C++, Java, JavaScript, and Go. In addition, we build CodeGeeX-based extensions on Visual Studio Code, JetBrains, and Cloud Studio, generating 4.7 billion tokens for tens of thousands of active users per week. Our user study demonstrates that CodeGeeX can help to increase coding efficiency for 83.4% of its users. Finally, CodeGeeX is publicly accessible and in Sep. 2022, we open-sourced its code, model weights (the version of 850B tokens), API, extensions, and HumanEval-X at https://github.com/THUDM/CodeGeeX.
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# モチベーションが要求工学的活動に及ぼす影響の理解

Understanding the Influence of Motivation on Requirements Engineering-related Activities ( http://arxiv.org/abs/2304.08074v2 )

ライセンス: Link先を確認
Dulaji Hidellaarachchi, John Grundy, Rashina Hoda, Ingo Mueller, (参考訳) 要求工学(RE)関連の活動は、品質ソフトウェアの開発において重要であり、ソフトウェア工学(SE)において最も人間に依存したプロセスの1つである。 したがって、SEの文脈では、多種多様な人間関係の要素がREに与える影響を特定することが重要である。 本研究は,より深い理解と実践的ガイダンスの提供を目的とした,最も影響力のある人間的側面の1つ,REに対するモチベーションの影響について検討する。 そこで我々は,社会技術基盤理論(STGT)を用いて,文脈的・因果的・介入的条件がRE関連活動のモチベーションに与える影響を論じる理論を構築した。 我々は、これらの戦略の結果とともに、モチベーションの強化や、モチベーションの緩和のための戦略を特定した。 我々の発見は、ソフトウェア実践者がREに対するモチベーションの影響を管理し、研究者が様々なSEコンテキストでその役割を更に調査するのに役立つ、実用的な洞察を提供する。

Requirements Engineering (RE)-related activities are critical in developing quality software and one of the most human-dependent processes in software engineering (SE). Hence, identifying the impact of diverse human-related aspects on RE is crucial in the SE context. Our study explores the impact of one of the most influential human aspects, motivation on RE, aiming to deepen understanding and provide practical guidance. Through semi-structured interviews with 21 RE-involved practitioners, we used socio-technical grounded theory (STGT) to develop a theory that explains the contextual, causal, and intervening conditions influencing motivation in RE-related activities. We identified strategies to enhance motivating situations or mitigate demotivating ones, along with the outcomes of these strategies. Our findings offer actionable insights for software practitioners to manage the influence of motivation on RE and help researchers further investigate its role across various SE contexts
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# 放牧牛の採餌活動の認識のためのノイズ・ロバスト音響法

A noise-robust acoustic method for recognizing foraging activities of grazing cattle ( http://arxiv.org/abs/2304.14824v3 )

ライセンス: Link先を確認
Luciano S. Martinez-Rau, José O. Chelotti, Mariano Ferrero, Julio R. Galli, Santiago A. Utsumi, Alejandra M. Planisich, H. Leonardo Rufiner, Leonardo L. Giovanini, (参考訳) 農家は成長する乳製品市場で競争力を維持するために、家畜生産システムの改善を継続的に行わなければならない。 精密家畜農業技術は、家畜生産を最適化し、商業農場で動物を個別に監視する。 継続的音響モニタリングは, 放牧牛の毎日の放牧および放牧時間予算を推定するために広く受け入れられているセンシング技術である。 しかし, 牧草地の環境・自然騒音は, 現在の音響手法の実用化に際し, 性能に顕著な影響を与えている。 本研究では,NRFAR(Noss-Robust Foraging Activity Recognizer)と呼ばれる音響手法の動作原理と一般化能力について述べる。 本手法は,放牧および放牧時に発生した顎運動事象の固定長セグメントを解析し,採餌活動量を決定する。 NRFARの付加雑音頑健性は、静止ガウスホワイトノイズと4つの異なる非定常自然ノイズ源を用いて、複数の信号対雑音比に対して評価した。 ノイズのない環境では、NRFARは平均的平衡精度86.4%に達し、以前の2つの音響手法を7.5%以上上回った。 さらに,NRFARは,80例中77例(p<0.05。 NRFARは厳しい放牧環境において有効であることが示されており、牧草管理を改善し、乳牛の健康と福祉をモニタリングするための信頼性の高いソリューションとして利用することができる。 この論文で提示された計測と計算のアルゴリズムは、進行中の特許出願であるAR P20220100910によって保護されている。 https://sinc.unl.edu.ar/web-demo/nrfar

Farmers must continuously improve their livestock production systems to remain competitive in the growing dairy market. Precision livestock farming technologies provide individualized monitoring of animals on commercial farms, optimizing livestock production. Continuous acoustic monitoring is a widely accepted sensing technique used to estimate the daily rumination and grazing time budget of free-ranging cattle. However, typical environmental and natural noises on pastures noticeably affect the performance limiting the practical application of current acoustic methods. In this study, we present the operating principle and generalization capability of an acoustic method called Noise-Robust Foraging Activity Recognizer (NRFAR). The proposed method determines foraging activity bouts by analyzing fixed-length segments of identified jaw movement events produced during grazing and rumination. The additive noise robustness of the NRFAR was evaluated for several signal-to-noise ratios using stationary Gaussian white noise and four different nonstationary natural noise sources. In noiseless conditions, NRFAR reached an average balanced accuracy of 86.4%, outperforming two previous acoustic methods by more than 7.5%. Furthermore, NRFAR performed better than previous acoustic methods in 77 of 80 evaluated noisy scenarios (53 cases with p<0.05). NRFAR has been shown to be effective in harsh free-ranging environments and could be used as a reliable solution to improve pasture management and monitor the health and welfare of dairy cows. The instrumentation and computational algorithms presented in this publication are protected by a pending patent application: AR P20220100910. Web demo available at: https://sinc.unl.edu.ar/web-demo/nrfar
翻訳日:2024-07-11 22:39:20 公開日:2024-07-10
# FedGT: 安全な集合を伴うフェデレーション学習における悪意のあるクライアントの同定

FedGT: Identification of Malicious Clients in Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2305.05506v3 )

ライセンス: Link先を確認
Marvin Xhemrishi, Johan Östman, Antonia Wachter-Zeh, Alexandre Graell i Amat, (参考訳) 我々は,フェデレート学習における悪意のあるクライアントをセキュアなアグリゲーションで識別する新しいフレームワークであるFedGTを提案する。 グループテストにインスパイアされたこのフレームワークは、重複するクライアントのグループを活用して、デコード操作を通じてグループ内の悪意のあるクライアントの存在を特定する。 悪意のあるものとして識別されたクライアントはモデルトレーニングから削除され、残りのクライアント上で実行される。 グループ間のサイズ、番号、重複を選択することで、FedGTはプライバシとセキュリティのバランスを取る。 具体的には、サーバは、各グループのクライアントの集約モデルを学習する - バニラフェデレーション学習とセキュアアグリゲーションは、それぞれ1と合計クライアント数に等しいグループサイズのFedGTの極端なケースに対応する。 FedGTの有効性は、MNIST、CIFAR-10、ISIC2019データセットに関する広範な実験を通じて、異なるデータ汚染攻撃下でのクロスサイロ環境で実証されている。 これらの実験は、悪意のあるクライアントを識別するFedGTの能力を示し、結果として高いモデルユーティリティをもたらす。 さらに、Pillutlaらによって最近提案された幾何的中央値に基づいて、FedGTがプライベートなロバストアグリゲーションアプローチを複数設定で大幅に上回っていることを示す。

We propose FedGT, a novel framework for identifying malicious clients in federated learning with secure aggregation. Inspired by group testing, the framework leverages overlapping groups of clients to identify the presence of malicious clients in the groups via a decoding operation. The clients identified as malicious are then removed from the model training, which is performed over the remaining clients. By choosing the size, number, and overlap between groups, FedGT strikes a balance between privacy and security. Specifically, the server learns the aggregated model of the clients in each group - vanilla federated learning and secure aggregation correspond to the extreme cases of FedGT with group size equal to one and the total number of clients, respectively. The effectiveness of FedGT is demonstrated through extensive experiments on the MNIST, CIFAR-10, and ISIC2019 datasets in a cross-silo setting under different data-poisoning attacks. These experiments showcase FedGT's ability to identify malicious clients, resulting in high model utility. We further show that FedGT significantly outperforms the private robust aggregation approach based on the geometric median recently proposed by Pillutla et al. in multiple settings.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# ColonMapper: 大腸内視鏡におけるトポロジカルマッピングと局在

ColonMapper: topological mapping and localization for colonoscopy ( http://arxiv.org/abs/2305.05546v3 )

ライセンス: Link先を確認
Javier Morlana, Juan D. Tardós, J. M. M. Montiel, (参考訳) そこで本研究では, 形状や照明の変化に拘わらず, 実際の大腸で動作可能なトポロジカルマッピングと局所化システムを提案する。 マップは、各ノードが実際のイメージのセットでコロン位置をコードするグラフであり、エッジはノード間のトラバーサビリティを表す。 シーン変更がマイナーなクローズインタイムイメージでは、最近のトランスフォーマーベースのローカル特徴マッチングアルゴリズムを使用して、位置認識をうまく管理することができる。 しかし、同じ患者の異なる大腸内視鏡のような長期的変化の下では、特徴ベースのマッチングは失敗する。 これを解決するために,我々は,現場の大幅な変化を伴って高いリコールを達成し,より深いグローバルな記述子を実地で訓練する。 ベイズフィルタの追加により、長期的位置認識の精度が向上し、以前に構築された地図における再ローカライズが可能になる。 実験の結果,CromMapperは地図を自律的に構築し,同一の大腸内視鏡内あるいは同一患者の異なる大腸内視鏡内における局所化という,2つの重要なユースケースでそれに対して局所化することができることがわかった。 コード:https://github.com/jmorlana/ColonMapper

We propose a topological mapping and localization system able to operate on real human colonoscopies, despite significant shape and illumination changes. The map is a graph where each node codes a colon location by a set of real images, while edges represent traversability between nodes. For close-in-time images, where scene changes are minor, place recognition can be successfully managed with the recent transformers-based local feature matching algorithms. However, under long-term changes -- such as different colonoscopies of the same patient -- feature-based matching fails. To address this, we train on real colonoscopies a deep global descriptor achieving high recall with significant changes in the scene. The addition of a Bayesian filter boosts the accuracy of long-term place recognition, enabling relocalization in a previously built map. Our experiments show that ColonMapper is able to autonomously build a map and localize against it in two important use cases: localization within the same colonoscopy or within different colonoscopies of the same patient. Code: https://github.com/jmorlana/ColonMapper.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 熱質量と捕捉イオン量子スピンモデル:$λ\!φ^4$モデルにおける湯川型相互作用への自己整合的アプローチ

Thermal masses and trapped-ion quantum spin models: a self-consistent approach to Yukawa-type interactions in the $λ\!φ^4$ model ( http://arxiv.org/abs/2305.06113v4 )

ライセンス: Link先を確認
Pablo Viñas Martínez, Esperanza López, Alejandro Bermudez, (参考訳) 閉じ込められたイオン系における磁気の量子シミュレーションは、結晶振動を利用して、イオンの内部電子状態に符号化されたスピン間の対の相互作用を仲介し、リアルタイムダイナミクスを探索する実験で測定する。 これらの相互作用は長い波長の相対論的理論によって説明され、フォノンは粗い粒度のクライン=ゴルドン場 $\phi(x)$ によってキャリアとして作用するスピンに局所的に結合され、ピオンを媒介する湯川相互作用のアナログとなる。 イオン結晶の構造転移の近傍では、Klein-Gordon場を超越し、フォノン-フォノン散乱の原因となる$\lambda\phi^4$項を含む必要がある。 これは、この量子場理論(QFT)の根底にある固定点を探索するために用いられる効果である、湯川型のスピン相互作用の範囲を変更するファインマンループ積分によって表現できる量子効果をもたらす。 残念なことに、閉じ込められたイオン結晶の剛性は、クォート結合$\lambda$の臨界点の流れのような真の量子効果の観測を困難にしている。 ここでは, レーザ冷却により制御できる熱効果が, 相互作用するQFTにおける熱質量の出現を通じて, この流れを明らかにすることができることを示す。 我々は、ある種のファインマン図形を再仮定する自己整合計算を行い、さらに平均場理論を超えて、捕捉されたイオンスピン系における測定が$\lambda\phi^4$ QFT の重要な性質をどのように探索するかを予測する。

The quantum simulation of magnetism in trapped-ion systems makes use of the crystal vibrations to mediate pairwise interactions between spins, which are encoded in the internal electronic states of the ions, and measured in experiments that probe the real-time dynamics. These interactions can be accounted for by a long-wavelength relativistic theory, where the phonons are described by a coarse-grained Klein-Gordon field $\phi(x)$ locally coupled to the spins that acts as a carrier, leading to an analogue of pion-mediated Yukawa interactions. In the vicinity of a structural transition of the ion crystal, one must go beyond the Klein-Gordon fields, and include additional $\lambda\phi^4$ terms responsible for phonon-phonon scattering. This leads to quantum effects that can be expressed by Feynman loop integrals that modify the range of the Yukawa-type spin interactions; an effect that could be used to probe the underlying fixed point of this quantum field theory (QFT). Unfortunately, the rigidity of the trapped-ion crystal makes it challenging to observe genuine quantum effects, such as the flow of the critical point with the quartic coupling $\lambda$. We hereby show that thermal effects, which can be controlled by laser cooling, can unveil this flow through the appearance of thermal masses in interacting QFTs. We perform self-consistent calculations that resum certain Feynman diagrams and, additionally, go beyond mean-field theory to predict how measurements on the trapped-ion spin system can probe key properties of the $\lambda\phi^4$ QFT.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 幾何学的観点からの量子回路ノイズのロバスト性向上

Enhancing Quantum Circuit Noise Robustness from a Geometric Perspective ( http://arxiv.org/abs/2305.06795v3 )

ライセンス: Link先を確認
Junkai Zeng, Yong-Ju Hai, Hao Liang, Xiu-Hao Deng, (参考訳) ノイズの多い環境での量子エラーは、量子情報技術の進歩の大きな障害である。 本研究では,近年開発された幾何学的枠組みを拡張し,ノイズ蓄積の解析や制御パルスレベルでの動的誤差補正ゲートの作成に利用し,量子回路レベルでのノイズダイナミクスの研究を行った。 幾何学的観点から、ツイリング技術を用いて、回路ノイズの堅牢性をいかに向上できるかを示す。 さらに、この幾何学的枠組みのランダムウォーキングトラジェクトリに対応し、結果のパウリ雑音チャネルに対する摂動表現を解析的に導出することにより、ランダムコンパイルの新たな視点を提供する。 また、制御パルスと回路レベルのロバストネス最適化戦略を組み合わせることで、数値的な例を通して回路の忠実度をさらに向上させることができることを示した。 本研究は、制御パルスの単なる最適化以上のノイズ耐性量子制御を実現するための経路を照らす。

Quantum errors in noisy environments remain a major obstacle to advancing quantum information technology. In this work, we expand a recently developed geometric framework, originally utilized for analyzing noise accumulation and creating dynamical error-correcting gates at the control pulse level, to now study noise dynamics at the quantum circuit level. Through a geometric perspective, we demonstrate how circuit noise robustness can be enhanced using twirling techniques. Additionally, we show that circuits modified by random twirling correspond to random walk trajectories in this geometric framework, and provide a fresh perspective on randomized compiling by analytically deriving the perturbative expression for the resultant Pauli noise channel. We also illustrate that combining robustness optimization strategies at both the control pulse and circuit levels can significantly boost overall circuit fidelity even further through numerical examples. This research illuminates pathways to achieving noise-resistant quantum control beyond mere optimization of control pulses.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 計測ノイズを伴うオルンシュタイン-ウレンベック過程からのパラメータ推定

Parameter estimation from an Ornstein-Uhlenbeck process with measurement noise ( http://arxiv.org/abs/2305.13498v3 )

ライセンス: Link先を確認
Simon Carter, Lilianne Mujica-Parodi, Helmut H. Strey, (参考訳) 本稿では,Ornstein-Uhlenbeckプロセスのパラメータフィッティングにおける雑音の影響について検討し,乗算と熱雑音が信号分離の精度に与える影響に着目した。 これらの問題に対処するために、熱雑音と乗法雑音を効果的に区別し、最適なデータ解析のためのパラメータ推定精度を向上させるアルゴリズムと手法を提案する。 具体的には、乗法と熱雑音が実際の信号の難読化に与える影響について検討し、その解法を提案する。 まず,ハミルトン・モンテカルロ (HMC) に匹敵する性能で効率よく熱雑音を分離できるアルゴリズムを提案する。 次に、乗法雑音を解析し、HMCが熱と乗法雑音を分離するのに不十分であることを示す。 しかし, 熱雑音と乗算雑音の比について, 十分なサンプリング率と乗算雑音の振幅が得られた場合の2種類のノイズを精度良く識別できることが示唆された。 乗法ノイズが雑音スペクトルを支配している場合、ホワイトノイズを加えてノイズバランスをシフトさせた後、これらのシステムのパラメーターをうまく推定できる。

This article aims to investigate the impact of noise on parameter fitting for an Ornstein-Uhlenbeck process, focusing on the effects of multiplicative and thermal noise on the accuracy of signal separation. To address these issues, we propose algorithms and methods that can effectively distinguish between thermal and multiplicative noise and improve the precision of parameter estimation for optimal data analysis. Specifically, we explore the impact of both multiplicative and thermal noise on the obfuscation of the actual signal and propose methods to resolve them. First, we present an algorithm that can effectively separate thermal noise with comparable performance to Hamilton Monte Carlo (HMC) but with significantly improved speed. We then analyze multiplicative noise and demonstrate that HMC is insufficient for isolating thermal and multiplicative noise. However, we show that, with additional knowledge of the ratio between thermal and multiplicative noise, we can accurately distinguish between the two types of noise when provided with a sufficiently large sampling rate or an amplitude of multiplicative noise smaller than thermal noise. Thus, we demonstrate the mechanism underlying an otherwise counterintuitive phenomenon: when multiplicative noise dominates the noise spectrum, one can successfully estimate the parameters for such systems after adding additional white noise to shift the noise balance.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 合成ゼロショット学習のためのプロンプト言語インフォームド分布

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.14428v3 )

ライセンス: Link先を確認
Wentao Bao, Lichang Chen, Heng Huang, Yu Kong, (参考訳) 合成ゼロショット学習(CZSL)タスクは、例えば、スライストマトのような、目に見えない合成視覚概念を認識することを目的としており、そこでは、モデルが、例えば、スライスジャガイモ、レッドトマトからのみ学習される。 CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では、従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。 しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ、すなわち状態とオブジェクトの絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。 本稿では,言語インフォームド分布であるakaを誘導するモデルを提案する。 CZSLタスク用のPLID。 具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。 (i)多様で情報的な言語インフォームド・クラス分布を定式化し、 (ii)クラス埋め込みの構成性を高める。 さらに,視覚言語プリミティブ分解(VLPD)モジュールを提案し,合成空間とプリミティブ空間との分類決定を動的に融合させる。 従来のソフト,ハード,あるいは分布的プロンプトの文献と直交して,LLMが支援するクラス分布の促進を提唱し,ゼロショットの一般化が向上した。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。 私たちのコードとモデルは、 https://github.com/Cogito2012/PLID.orgで公開されています。

Compositional zero-shot learning (CZSL) task aims to recognize unseen compositional visual concepts, e.g., sliced tomatoes, where the model is learned only from the seen compositions, e.g., sliced potatoes and red tomatoes. Thanks to the prompt tuning on large pre-trained visual language models such as CLIP, recent literature shows impressively better CZSL performance than traditional vision-based methods. However, the key aspects that impact the generalization to unseen compositions, including the diversity and informativeness of class context, and the entanglement between visual primitives, i.e., state and object, are not properly addressed in existing CLIP-based CZSL literature. In this paper, we propose a model by prompting the language-informed distribution, aka., PLID, for the CZSL task. Specifically, the PLID leverages pre-trained large language models (LLM) to (i) formulate the language-informed class distributions which are diverse and informative, and (ii) enhance the compositionality of the class embedding. Moreover, a visual-language primitive decomposition (VLPD) module is proposed to dynamically fuse the classification decisions from the compositional and the primitive space. Orthogonal to the existing literature of soft, hard, or distributional prompts, our method advocates prompting the LLM-supported class distributions, leading to a better zero-shot generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA datasets show the superior performance of the PLID to the prior arts. Our code and models are released: https://github.com/Cogito2012/PLID.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 自然言語による人間の判断の再現

Using Natural Language Explanations to Rescale Human Judgments ( http://arxiv.org/abs/2305.14770v3 )

ライセンス: Link先を確認
Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett, (参考訳) 大規模言語モデル(LLM)の台頭は、高品質な人間のラベル付きデータ、特に人間のフィードバックや評価のようなプロセスに重要なニーズをもたらした。 一般的な実践は、人間の判断に対してコンセンサスアノテーションを通じてデータをラベル付けすることである。 しかし、アノテータの主観的タスクに対する判断は、例に関する異なる質的な判断を反映し、異なる方法でラベル付けスキームにマッピングされるなど、様々な点で異なる場合がある。 本稿では,これらのニュアンスを自然言語による説明によって捉えることができることを示すとともに,LLMを用いて順序付けアノテーションや説明を再スケールする手法を提案する。 具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。 これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。 このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。 我々は,LLMがほぼ人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。 提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over human judgments. However, annotators' judgments for subjective tasks can differ in many ways: they may reflect different qualitative judgments about an example, and they may be mapped to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators' Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators' underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 監視されたランダム回路における量子複雑性相転移

Quantum complexity phase transitions in monitored random circuits ( http://arxiv.org/abs/2305.15475v2 )

ライセンス: Link先を確認
Ryotaro Suzuki, Jonas Haferkamp, Jens Eisert, Philippe Faist, (参考訳) 近年、単位進化と量子測定の両方を含む量子系の力学は、測定誘起相転移のエキゾチックな現象によって注目されている。 後者は、個々の量子ビットが測定される速度によって、その絡み合いエントロピーのような$n$ qubitsの状態が突然変化することを意味する。 同時に、量子複雑性は、量子多体力学における複雑な振る舞いの同定の鍵となる量として現れた。 本研究では、ランダムなユニタリ回路に従って$n$ qubitsが進化し、各ステップで固定確率で個別に測定される監視ランダム回路の量子状態複雑性のダイナミクスについて検討する。 正確な量子状態の複雑性の進化は、測定率を変更する際に相転移を起こす。 臨界測定率を下回ると、複雑性は少なくとも時間内に線形に増加し、値 $e^{\Omega(n)}$ に飽和する。 その上、複雑さは$\operatorname{poly}(n)$を超えない。 この証明では、パーコレーション理論を用いて、指数関数的に長い量子計算を臨界速度以下に実行できる経路を見つけ、臨界速度以上で状態複雑性がゼロにリセットされる事象を特定する。 我々は最近開発された代数幾何学の技法を用いて、前政権の正確な状態複雑性を低くする。 本研究は, 量子複雑性の増大, 位相遷移, および測定値の計算を組み合わせ, 監視されたランダム回路の挙動の解明と, 多体システムにおける測定値の計算能力の決定に向けての進展を図った。

Recently, the dynamics of quantum systems that involve both unitary evolution and quantum measurements have attracted attention due to the exotic phenomenon of measurement-induced phase transitions. The latter refers to a sudden change in a property of a state of $n$ qubits, such as its entanglement entropy, depending on the rate at which individual qubits are measured. At the same time, quantum complexity emerged as a key quantity for the identification of complex behaviour in quantum many-body dynamics. In this work, we investigate the dynamics of the quantum state complexity in monitored random circuits, where $n$ qubits evolve according to a random unitary circuit and are individually measured with a fixed probability at each time step. We find that the evolution of the exact quantum state complexity undergoes a phase transition when changing the measurement rate. Below a critical measurement rate, the complexity grows at least linearly in time until saturating to a value $e^{\Omega(n)}$. Above, the complexity does not exceed $\operatorname{poly}(n)$. In our proof, we make use of percolation theory to find paths along which an exponentially long quantum computation can be run below the critical rate, and to identify events where the state complexity is reset to zero above the critical rate. We lower bound the exact state complexity in the former regime using recently developed techniques from algebraic geometry. Our results combine quantum complexity growth, phase transitions, and computation with measurements to help understand the behavior of monitored random circuits and to make progress towards determining the computational power of measurements in many-body systems.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# DistriBlock:出力分布の特性を利用した対向音声サンプルの同定

DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution ( http://arxiv.org/abs/2305.17000v5 )

ライセンス: Link先を確認
Matías P. Pizarro B., Dorothea Kolossa, Asja Fischer, (参考訳) 敵対的攻撃は、自動音声認識(ASR)システムを誤って任意のターゲットテキストを予測し、明確なセキュリティ脅威を引き起こす可能性がある。 このような攻撃を防止するために,各ステップで出力トークン上の確率分布を予測するASRシステムに適用可能な,効率的な検出戦略であるDistriBlockを提案する。 出力確率に対する中央値,最大値,最小値,分布のエントロピー,Kulback-LeiblerおよびJensen-Shannon分散といった分布の特性を,その後の時間ステップの分布に関して測定する。 そして、良性データと逆性データの両方で観測される特徴を活用することにより、単純なしきい値に基づく分類、そのような分類器のアンサンブル、ニューラルネットワークなどのバイナリ分類器を適用する。 現状のASRシステムと言語データセットの多種多様な分析を通じて, 対象の敵対的事例を, 99%, 97%のクリーンデータとノイズデータとを区別する受信者動作特性曲線下の平均領域を用いて, このアプローチの最高性能を実証した。 提案手法のロバスト性を評価するため,DistriBlockを回避可能な適応的対向例は,フィルタにより検出しやすくなり,システムのロバスト性を維持するための新たな道がもたらされた。

Adversarial attacks can mislead automatic speech recognition (ASR) systems into predicting an arbitrary target text, thus posing a clear security threat. To prevent such attacks, we propose DistriBlock, an efficient detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy of the distribution, as well as the Kullback-Leibler and the Jensen-Shannon divergence with respect to the distributions of the subsequent time step. Then, by leveraging the characteristics observed for both benign and adversarial data, we apply binary classifiers, including simple threshold-based classification, ensembles of such classifiers, and neural networks. Through extensive analysis across different state-of-the-art ASR systems and language data sets, we demonstrate the supreme performance of this approach, with a mean area under the receiver operating characteristic curve for distinguishing target adversarial examples against clean and noisy data of 99% and 97%, respectively. To assess the robustness of our method, we show that adaptive adversarial examples that can circumvent DistriBlock are much noisier, which makes them easier to detect through filtering and creates another avenue for preserving the system's robustness.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# フェアカラムサブセットの選択

Fair Column Subset Selection ( http://arxiv.org/abs/2306.04489v3 )

ライセンス: Link先を確認
Antonis Matakos, Bruno Ordozgoiti, Suhas Thejaswi, (参考訳) 列サブセット選択の問題は、入力行列から列のサブセットを求め、行列は選択された列のスパン内で可能な限り正確に再構成することができる。 自然な拡張は、行列列を2つの群に分割する設定を考えることであり、その目標は、それぞれの最高ランク-k近似に対して、両方の群の最大再構成誤差を最小化する列の部分集合を選択することである。 列サブセット選択の既知の結果をこの公正な設定に拡張することは簡単ではない: あるシナリオでは、各グループごとに列を別々に選択することは避けられない。 フェアセッティングのための決定論的レバレッジスコアサンプリング戦略を提案し、2つのグループが存在する場合、最小サイズのカラムサブセットのサンプリングがNPハードとなることを示す。 これらの否定的な結果にもかかわらず、最適解の1.5倍以内の解を保証する近似アルゴリズムを与える。 また,ランク検索QR因子化に基づく実用的ヒューリスティックアルゴリズムを提案する。 最後に,実世界のデータを用いて実験を行い,本手法の有効性を検証した。

The problem of column subset selection asks for a subset of columns from an input matrix such that the matrix can be reconstructed as accurately as possible within the span of the selected columns. A natural extension is to consider a setting where the matrix rows are partitioned into two groups, and the goal is to choose a subset of columns that minimizes the maximum reconstruction error of both groups, relative to their respective best rank-k approximation. Extending the known results of column subset selection to this fair setting is not straightforward: in certain scenarios it is unavoidable to choose columns separately for each group, resulting in double the expected column count. We propose a deterministic leverage-score sampling strategy for the fair setting and show that sampling a column subset of minimum size becomes NP-hard in the presence of two groups. Despite these negative results, we give an approximation algorithm that guarantees a solution within 1.5 times the optimal solution size. We also present practical heuristic algorithms based on rank-revealing QR factorization. Finally, we validate our methods through an extensive set of experiments using real-world data.
翻訳日:2024-07-11 22:29:23 公開日:2024-07-10
# 法を遵守し, 流れを追従する: 勾配流の保存法則

Abide by the Law and Follow the Flow: Conservation Laws for Gradient Flows ( http://arxiv.org/abs/2307.00144v2 )

ライセンス: Link先を確認
Sibylle Marcotte, Rémi Gribonval, Gabriel Peyré, (参考訳) 勾配勾配勾配ダイナミクスの幾何学的性質を理解することは、最近の大規模機械学習モデルの成功を解読する鍵となる要素である。 顕著な観察は、訓練された過パラメータ化モデルが最適化初期化のいくつかの特性を保持することである。 この「単純バイアス」は、訓練されたモデルのいくつかの好ましい性質に責任があると考えられており、それらの優れた一般化特性を説明することができる。 この記事の目的は3つある。 まず、与えられたモデル(例えば、与えられたアーキテクチャを持つReLUネットワーク)の勾配流中に保存される量と、任意のトレーニングデータと損失を定義する「保存法則」の定義と基本特性を厳格に公開する。 次に、モデルのヤコビアンによって生成されるリー代数上の有限次元代数的操作を実行することにより、独立保存法則の最大数を求める方法について説明する。 最後に、アルゴリズムを提供する。 a) 多項式法則の族 b) 独立保存法則の最大数(必ずしも多項式ではない)を計算すること。 理論的に完全に動作するショーケースの例を紹介します。 さらに、この2つのアルゴリズムを適用することで、既知のすべての法則がアルゴリズムによって回復され、他の独立した法則が存在しないことを確認する。 このような計算ツールは、大規模な機械学習モデルにおいて最適化初期化の望ましい性質を理解するための道を開く。

Understanding the geometric properties of gradient descent dynamics is a key ingredient in deciphering the recent success of very large machine learning models. A striking observation is that trained over-parameterized models retain some properties of the optimization initialization. This "implicit bias" is believed to be responsible for some favorable properties of the trained models and could explain their good generalization properties. The purpose of this article is threefold. First, we rigorously expose the definition and basic properties of "conservation laws", that define quantities conserved during gradient flows of a given model (e.g. of a ReLU network with a given architecture) with any training data and any loss. Then we explain how to find the maximal number of independent conservation laws by performing finite-dimensional algebraic manipulations on the Lie algebra generated by the Jacobian of the model. Finally, we provide algorithms to: a) compute a family of polynomial laws; b) compute the maximal number of (not necessarily polynomial) independent conservation laws. We provide showcase examples that we fully work out theoretically. Besides, applying the two algorithms confirms for a number of ReLU network architectures that all known laws are recovered by the algorithm, and that there are no other independent laws. Such computational tools pave the way to understanding desirable properties of optimization initialization in large machine learning models.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 弱アダマール対角化グラフと量子状態移動

Weakly Hadamard diagonalizable graphs and Quantum State Transfer ( http://arxiv.org/abs/2307.01859v2 )

ライセンス: Link先を確認
Darian McLaren, Hermie Monterde, Sarah Plosker, (参考訳) アダマール対角化可能なグラフは、対応するラプラシアンがアダマール行列によって対角化可能である無向グラフである。 このようなグラフは量子状態移動の文脈で研究されている。 最近、弱アダマール行列の概念が導入された: a $\{-1,0, 1\}$-matrix $P$ で、$PP^T$ は三対角であり、弱アダマール対角化可能なグラフの概念が導入された。 したがって、これらの一般化されたアダマールにおける量子状態移動を自然に探求する。 このトピックの幼さを考えると、弱いアダマール行列と弱いアダマール対角化可能なグラフの多くの性質と構成を提供してそれらをよりよく理解する。

Hadamard diagonalizable graphs are undirected graphs for which the corresponding Laplacian is diagonalizable by a Hadamard matrix. Such graphs have been studied in the context of quantum state transfer. Recently, the concept of a weak Hadamard matrix was introduced: a $\{-1,0, 1\}$-matrix $P$ such that $PP^T$ is tridiagonal, as well as the concept of weakly Hadamard diagonalizable graphs. We therefore naturally explore quantum state transfer in these generalized Hadamards. Given the infancy of the topic, we provide numerous properties and constructions of weak Hadamard matrices and weakly Hadamard diagonalizable graphs in order to better understand them.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 深い強結合における寒冷原子をもつ周期量子ラビモデル

Periodic quantum Rabi model with cold atoms at deep strong coupling ( http://arxiv.org/abs/2307.06956v2 )

ライセンス: Link先を確認
Geram R. Hunanyan, Johannes Koch, Stefanie Moll, Enrique Rico, Enrique Solano, Martin Weitz, (参考訳) 量子ラビモデルは、2状態系のボゾン場モードへの結合を記述する。 最近の理論的研究は、超伝導量子ビット設定に適用可能なハミルトンに写像するこのモデルの一般化された周期バージョンが、冷たい閉じ込められた原子で量子的にシミュレートできることを指摘している。 ここでは、深い強い結合状態において、周期量子ラビモデルによって予測される原子動力学を実験的に実証する。 2状態系は、光学格子中の2つの冷却原子のブロッホバンドと、重畳された光双極子トラップ電位における発振によるボソニックモードで表される。 通常の量子ラビ物理学を超えて観測されるダイナミクスは、ブリルアンゾーンの端に達すると関係し、極端なカップリング条件下で初期状態の崩壊と回復の証拠が明らかになる。

The quantum Rabi model describes the coupling of a two-state system to a bosonic field mode. Recent theoretical work has pointed out that a generalized periodic version of this model, which maps onto Hamiltonians applicable in superconducting qubit settings, can be quantum simulated with cold trapped atoms. Here, we experimentally demonstrate atomic dynamics predicted by the periodic quantum Rabi model far in the deep strong coupling regime. The two-state system is represented by two Bloch bands of cold atoms in an optical lattice, and the bosonic mode by oscillations in a superimposed optical dipole trap potential. The observed dynamics beyond the usual quantum Rabi physics becomes relevant when the edge of the Brillouin zone is reached, and evidence for collapse and revival of the initial state is revealed at extreme coupling conditions.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# CIDER:短文テキストに対する文脈感性感情分析

CIDER: Context sensitive sentiment analysis for short-form text ( http://arxiv.org/abs/2307.07864v3 )

ライセンス: Link先を確認
James C. Young, Rudy Arthur, Hywel T. P. Williams, (参考訳) 研究者は通常、ツイート、Reddit投稿、新聞の見出しなど、特定のトピック、テーマ、イベントなどに焦点を当てた短いテキストの大規模なコレクションに対して感情分析を行う。 通常、汎用的な感情分析手法が用いられる。 例えば、「アクティブ」という言葉は「アクティブなライフスタイル」と「アクティブな火山」の言葉では全く異なる意図と価値を持っている。 この研究は、文脈インフォームド辞書とsEmantic Reasonerという、文脈依存言語分析を行う新しいアプローチを提示する。 本稿では,CIDERアルゴリズムの詳細を述べるとともに,天気に関する大量のツイートに対して,最先端のジェネラリストによる教師なし感情分析手法よりも優れていることを示す。 CIDERは代替の(非感覚的な)言語尺度にも適用できる。 英国におけるジェンダーに関するケーススタディが提示され、ジェンダーと感情に満ちた日々の識別がなされている。 私たちはCIDERの実装をPythonパッケージとして利用可能にしました。

Researchers commonly perform sentiment analysis on large collections of short texts like tweets, Reddit posts or newspaper headlines that are all focused on a specific topic, theme or event. Usually, general-purpose sentiment analysis methods are used. These perform well on average but miss the variation in meaning that happens across different contexts, for example, the word "active" has a very different intention and valence in the phrase "active lifestyle" versus "active volcano". This work presents a new approach, CIDER (Context Informed Dictionary and sEmantic Reasoner), which performs context-sensitive linguistic analysis, where the valence of sentiment-laden terms is inferred from the whole corpus before being used to score the individual texts. In this paper, we detail the CIDER algorithm and demonstrate that it outperforms state-of-the-art generalist unsupervised sentiment analysis techniques on a large collection of tweets about the weather. CIDER is also applicable to alternative (non-sentiment) linguistic scales. A case study on gender in the UK is presented, with the identification of highly gendered and sentiment-laden days. We have made our implementation of CIDER available as a Python package: https://pypi.org/project/ciderpolarity/.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# MCMCによるモデル構成のためのスコアベース拡散モデルの補正

MCMC-Correction of Score-Based Diffusion Models for Model Composition ( http://arxiv.org/abs/2307.14012v2 )

ライセンス: Link先を確認
Anders Sjöberg, Jakob Lindqvist, Magnus Önnheim, Mats Jirstrand, Lennart Svensson, (参考訳) 拡散モデルは、スコアまたはエネルギー関数のどちらかの観点からパラメータ化することができる。 提案した試料の総エネルギー変化に基づいて,メトロポリス・ハスティングス(MH)補正ステップによる拡張サンプリング手順を可能にするため,エネルギーパラメータ化が注目される。 改良されたサンプリングは、新しい分布からサンプルをサンプリングするために、市販のモデルを互いに組み合わせたモデル構成において重要である。 モデル構成において、スコアベースの拡散は、それらが人気であり、多くの事前学習されたモデルが容易に利用できるという利点がある。 しかし、このパラメータ化は一般にエネルギーを定義しておらず、従ってMHの受容確率は不利用であり、一般的には不定義である。 本稿では,スコア関数の行積分を通じて,エネルギーモデルにインスパイアされたスコアパラメータ化と受け入れ確率の計算を提案する。 これにより、既存の拡散モデルを再利用し、逆過程を様々なマルコフ-チェインモンテカルロ法(MCMC)と組み合わせることができる。 本手法を数値実験により評価し,MCMCサンプリング器のスコアパラメータ化バージョンが対応するエネルギーパラメータ化に類似した改善を達成できることを見出した。

Diffusion models can be parameterised in terms of either a score or an energy function. An energy parameterisation is appealing since it enables an extended sampling procedure with a Metropolis--Hastings (MH) correction step, based on the change in total energy in the proposed samples. Improved sampling is important for model compositions, where off-the-shelf models are combined with each other, in order to sample from new distributions. For model composition, score-based diffusions have the advantages that they are popular and that many pre-trained models are readily available. However, this parameterisation does not, in general, define an energy, and the MH acceptance probability is therefore unavailable, and generally ill-defined. We propose keeping the score parameterisation and computing an acceptance probability inspired by energy-based models through line integration of the score function. This allows us to reuse existing diffusion models and still combine the reverse process with various Markov-Chain Monte Carlo (MCMC) methods. We evaluate our method using numerical experiments and find that score-parameterised versions of the MCMC samplers can achieve similar improvements to the corresponding energy parameterisation.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 量子プロセッサを用いた量子フィッシャー情報のロバスト推定

Robust estimation of the Quantum Fisher Information on a quantum processor ( http://arxiv.org/abs/2307.16882v2 )

ライセンス: Link先を確認
Vittorio Vitale, Aniket Rath, Petar Jurcevic, Andreas Elben, Cyril Branciard, Benoît Vermersch, (参考訳) 本稿では,量子フィッシャー情報(QFI)に収束する一連の多項式下界の量子プロセッサ上での実験的な測定について述べる。 ランダム化計測ツールボックスの先進的な手法を組み合わせることで,ランダム化測定プロトコルにおいて一意に発生するドリフトエラーに対して頑健な推定値を得る。 我々はグリーンバーグ・ホーネ・ザイリンガー状態のQFIを推定し、真のマルチパーティイト絡みを観察する。 そして、変動回路を用いて、臨界点における横フィールドIsingモデルの基底状態を作成する。 我々は、QFIを推定し、回路深度を増大させることによって誘導される状態最適化と雑音の相互作用について検討する。

We present the experimental measurement, on a quantum processor, of a series of polynomial lower bounds that converge to the quantum Fisher information (QFI), a fundamental quantity for certifying multipartite entanglement that is useful for metrological applications. We combine advanced methods of the randomized measurement toolbox to obtain estimators that are robust against drifting errors caused uniquely during the randomized measurement protocol. We estimate the QFI for Greenberg-Horne-Zeilinger states, observing genuine multipartite entanglement. Then, we prepare the ground state of the transverse field Ising model at the critical point using a variational circuit. We estimate its QFI and investigate the interplay between state optimization and noise induced by increasing the circuit depth.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 一次元多体ハミルトニアンの量子シミュレーションにおける量子ビット数の減少

Reducing the number of qubits in quantum simulations of one dimensional many-body Hamiltonians ( http://arxiv.org/abs/2308.01545v3 )

ライセンス: Link先を確認
Somayeh Mehrabankar, Miguel Ángel García-March, Carmen G. Almudéver, Armando Pérez, (参考訳) BRGM(Block Renormalization Group Method)を用いたIsingとHeisenbergのモデルについて検討し,その挙動をシステムサイズによって明らかにした。 BRGMは、イジング(ハイゼンベルク)モデルに対する1/2(1/3)の因子でスピンの数を減らし、スピンのごく一部を使いながら、モデルの本質的な物理的特徴を効果的に保存する。 比較分析により、系のサイズが大きくなるにつれて、結合定数がそれに従って再定義されるならば、元のイジング・ハミルトニアンから得られた結果と再正規化されたイジング・ハミルトニアンから得られる結果の間に指数収束が存在することを示した。 注目すべきは、24本のスピンを持つスピン鎖に対して、磁化、相関関数、絡み合いエントロピーを含む全ての物理的特徴は、元のハミルトニアンの結果と正確な対応を示すことである。 ハイゼンベルクモデルの研究もこの傾向を示しているが、完全収束は24スピンよりもはるかに大きいため、計算能力を超えている。 BRGMが比較的少数のスピンでも正確にIsingモデルを特徴づけることの成功は、複雑な物理システムの研究における堅牢性と有用性を強調し、利用可能な量子ビットの数がほとんど制約されている現在のNISQコンピュータでのシミュレーションを促進する。

We investigate the Ising and Heisenberg models using the Block Renormalization Group Method (BRGM), focusing on its behavior across different system sizes. The BRGM reduces the number of spins by a factor of 1/2 (1/3) for the Ising (Heisenberg) model, effectively preserving essential physical features of the model while using only a fraction of the spins. Through a comparative analysis, we demonstrate that as the system size increases, there is an exponential convergence between results obtained from the original and renormalized Ising Hamiltonians, provided the coupling constants are redefined accordingly. Remarkably, for a spin chain with 24 spins, all physical features, including magnetization, correlation function, and entanglement entropy, exhibit an exact correspondence with the results from the original Hamiltonian. The study of the Heisenberg model also shows this tendency, although complete convergence may appear for a size much larger than 24 spins, and is therefore beyond our computational capabilities. The success of BRGM in accurately characterizing the Ising model, even with a relatively small number of spins, underscores its robustness and utility in studying complex physical systems, and facilitates its simulation on current NISQ computers, where the available number of qubits is largely constrained.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# SyMOT-Flowによる任意分布マッピング:最大平均差と最適輸送を統合したフローベースアプローチ

Arbitrary Distributions Mapping via SyMOT-Flow: A Flow-based Approach Integrating Maximum Mean Discrepancy and Optimal Transport ( http://arxiv.org/abs/2308.13815v3 )

ライセンス: Link先を確認
Zhe Xiong, Qiaoqiao Ding, Xiaoqun Zhang, (参考訳) 有限サンプルから未知の2つの確率分布の間の変換を見つけることは、複雑なデータ分布をモデル化し、サンプル生成、ドメイン適応、統計的推測などのタスクを実行するために重要である。 このような変換のための強力なフレームワークの1つはフローの正規化であり、未知の分布を可逆ネットワークを用いて標準正規分布に変換する。 本稿では,2つの未知分布からの標本間の対称最大平均誤差を最小化し,非可逆変換を訓練するSyMOT-Flowと呼ばれる新しいモデルを提案する。 結果として得られた変換はより安定で正確なサンプル生成をもたらす。 提案モデルに対していくつかの理論的結果が確立され, その有効性は, 低次元図示例と, 前方逆流による高次元の医用画像生成を用いて検証された。

Finding a transformation between two unknown probability distributions from finite samples is crucial for modeling complex data distributions and performing tasks such as sample generation, domain adaptation and statistical inference. One powerful framework for such transformations is normalizing flow, which transforms an unknown distribution into a standard normal distribution using an invertible network. In this paper, we introduce a novel model called SyMOT-Flow that trains an invertible transformation by minimizing the symmetric maximum mean discrepancy between samples from two unknown distributions, and an optimal transport cost is incorporated as regularization to obtain a short-distance and interpretable transformation. The resulted transformation leads to more stable and accurate sample generation. Several theoretical results are established for the proposed model and its effectiveness is validated with low-dimensional illustrative examples as well as high-dimensional bi-modality medical image generation through the forward and reverse flows.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# ホログラフィックエントロピーの不等式とマルチパートエンタングルメント

Holographic Entropy Inequalities and Multipartite Entanglement ( http://arxiv.org/abs/2309.06296v2 )

ライセンス: Link先を確認
Sergio Hernández-Cuenca, Veronika E. Hubeny, Frederic Jia, (参考訳) 本研究では,ある多部情報量に項を有意にグループ化することで,ホログラフィックエントロピーの不等式とその構造特性について検討する。 これにより、難解なエントロピー表現を、興味深いほど硬い構造を共有する非常に単純な表現に再キャストすることができる。 これらの構造のいくつかを体系的に探索することにより、6つのパーティで300以上の新しいエントロピー不等式を発見し、その結果、これらの再キャストが新しいホログラフィックエントロピー不等式を明らかにするための実りある生成技術を提供することを示した。 相関測度として対応する符号定量を解釈しようとすると、ホログラフィックエントロピーの不等式の超平衡性は、部分的トレースの下での単調性を妨げる。 この過程では,多部情報量の幾何学的意義についても言及し,それらの構造的関係について述べる。

We study holographic entropy inequalities and their structural properties by making use of a judicious grouping of terms into certain multipartite information quantities. This allows us to recast cumbersome entropic expressions into much simpler ones which share interestingly rigid structures. By performing a systematic search over some of these structures, we are able to discover more than 300 novel entropy inequalities for six parties, thereby demonstrating that these recastings provide a fruitful generating technique for uncovering new holographic entropy inequalities. In attempting to interpret the corresponding sign-definite quantities as correlation measures, we also obtain a no-go result: the superbalance property of holographic entropy inequalities turns out to preclude them from being monotonic under partial tracing. In the process, we also comment on the geometrical significance of multipartite information quantities and present various structural relations amongst them.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# LLMは低リソース・リード・コングリビューション・データセットを拡大できるか?

Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges ( http://arxiv.org/abs/2309.12426v2 )

ライセンス: Link先を確認
Vinay Samuel, Houda Aynaou, Arijit Ghosh Chowdhury, Karthik Venkat Ramanan, Aman Chadha, (参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて印象的なゼロショット性能を示し、常識を推論し適用する能力を示している。 関連するアプリケーションは、下流タスクのための高品質な合成データセットを作成するためにそれらを使用することである。 本研究は,GPT-4が既存の抽出読解データセットの増大に有効かどうかを考察する。 データアノテーションプロセスの自動化は、データセットを手動でラベル付けする際の膨大な時間、お金、労力を節約する可能性がある。 本稿では,低リソース読解タスク用アノテータの代替としてGPT-4の性能を評価し,微調整後の性能とアノテーションに関連するコストを比較した。 この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析し、ユニークな機会と課題を強調した。 さらに、低リソースデータセットの強化バージョンをリリースし、研究コミュニティが生成されたデータセットを評価するためのさらなるベンチマークを作成できるようにします。

Large Language Models (LLMs) have demonstrated impressive zero shot performance on a wide range of NLP tasks, demonstrating the ability to reason and apply commonsense. A relevant application is to use them for creating high quality synthetic datasets for downstream tasks. In this work, we probe whether GPT-4 can be used to augment existing extractive reading comprehension datasets. Automating data annotation processes has the potential to save large amounts of time, money and effort that goes into manually labelling datasets. In this paper, we evaluate the performance of GPT-4 as a replacement for human annotators for low resource reading comprehension tasks, by comparing performance after fine tuning, and the cost associated with annotation. This work serves to be the first analysis of LLMs as synthetic data augmenters for QA systems, highlighting the unique opportunities and challenges. Additionally, we release augmented versions of low resource datasets, that will allow the research community to create further benchmarks for evaluation of generated datasets.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# SIP: シミュレーションによる構造誘導バイアスのSeq2Seqモデルへの注入

SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation ( http://arxiv.org/abs/2310.00796v3 )

ライセンス: Link先を確認
Matthias Lindemann, Alexander Koller, Ivan Titov, (参考訳) 強い帰納バイアスは、小さなデータから学習し、トレーニング分布外の一般化を支援する。 Transformersのような一般的なニューラルアーキテクチャは、Seq2seq NLPタスクの強い構造的帰納バイアスを独自に欠いている。 結果として、大量のテキストで事前学習した場合でも、例えば長い入力に外挿するなど、トレーニング分布を超えた体系的な一般化に苦慮する。 本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。 具体的には,有限状態トランスデューサ(FST)に対する帰納バイアスを予め学習して,FSTをシミュレートすることでトランスフォーマに注入する。 実験の結果,本手法は所望の帰納バイアスを付与し,体系的な一般化とFSTのようなタスクの少ショット学習の改善をもたらすことがわかった。 解析の結果、微調整モデルでは、未確認のFSTの状態のダイナミクスを正確に捉えることができ、シミュレーションプロセスは微調整モデルによって内部化されていることが示唆された。

Strong inductive biases enable learning from little data and help generalization outside of the training distribution. Popular neural architectures such as Transformers lack strong structural inductive biases for seq2seq NLP tasks on their own. Consequently, they struggle with systematic generalization beyond the training distribution, e.g. with extrapolating to longer inputs, even when pre-trained on large amounts of text. We show how a structural inductive bias can be efficiently injected into a seq2seq model by pre-training it to simulate structural transformations on synthetic data. Specifically, we inject an inductive bias towards Finite State Transducers (FSTs) into a Transformer by pre-training it to simulate FSTs given their descriptions. Our experiments show that our method imparts the desired inductive bias, resulting in improved systematic generalization and better few-shot learning for FST-like tasks. Our analysis shows that fine-tuned models accurately capture the state dynamics of the unseen underlying FSTs, suggesting that the simulation process is internalized by the fine-tuned model.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 適応型マルチヘッドコントラスト学習

Adaptive Multi-head Contrastive Learning ( http://arxiv.org/abs/2310.05615v2 )

ライセンス: Link先を確認
Lei Wang, Piotr Koniusz, Tom Gedeon, Liang Zheng, (参考訳) 対照的な学習では、異なる拡張によって生成された元のイメージの2つのビューは正のペアと見なされ、それらの類似性が要求される。 同様に、異なる画像の2つのビューは負のペアを形成し、低い類似性を奨励する。 通常、単射影ヘッドによって提供される単一の類似度尺度は、正と負のサンプル対を評価する。 しかし、多様な拡張戦略やサンプル内類似性のため、同じ画像からの視点が常に類似しているとは限らない。 さらに、サンプル間の類似性から、異なる画像からのビューは、同じ画像のビューよりも類似している可能性がある。 その結果、正の対に対する高い類似度と負の対に対する低い類似度は達成不可能であり、場合によっては性能に有害な影響を与える可能性がある。 この課題に対処するために、複数のプロジェクションヘッドを用いて、それぞれ異なる特徴セットを生成することを提案する。 我々の事前学習損失関数は, 得られた正試料の頭部後方分布に対する最大推定値の解から生じる。 この損失は、正と負のペアに対する類似度測定を取り入れ、それぞれが個々の適応温度で再重み付けされ、溶液の悪さを防ぐために規制される。 適応型マルチヘッドコントラスト学習(AMCL)は,SimCLR,MoCo,Barlow Twinsなどの一般的なコントラスト学習手法に適用し,実験的に拡張することができる。 改良は、様々なバックボーンと線形探傷エポックの間で一貫しており、複数の拡張手法を採用するとより重要になる。

In contrastive learning, two views of an original image, generated by different augmentations, are considered a positive pair, and their similarity is required to be high. Similarly, two views of distinct images form a negative pair, with encouraged low similarity. Typically, a single similarity measure, provided by a lone projection head, evaluates positive and negative sample pairs. However, due to diverse augmentation strategies and varying intra-sample similarity, views from the same image may not always be similar. Additionally, owing to inter-sample similarity, views from different images may be more akin than those from the same image. Consequently, enforcing high similarity for positive pairs and low similarity for negative pairs may be unattainable, and in some cases, such enforcement could detrimentally impact performance. To address this challenge, we propose using multiple projection heads, each producing a distinct set of features. Our pre-training loss function emerges from a solution to the maximum likelihood estimation over head-wise posterior distributions of positive samples given observations. This loss incorporates the similarity measure over positive and negative pairs, each re-weighted by an individual adaptive temperature, regulated to prevent ill solutions. Our approach, Adaptive Multi-Head Contrastive Learning (AMCL), can be applied to and experimentally enhances several popular contrastive learning methods such as SimCLR, MoCo, and Barlow Twins. The improvement remains consistent across various backbones and linear probing epochs, and becomes more significant when employing multiple augmentation methods.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 生成モデルのためのカーネルスコアのバイアス-変数-共分散分解

A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models ( http://arxiv.org/abs/2310.05833v2 )

ライセンス: Link先を確認
Sebastian G. Gruber, Florian Buettner, (参考訳) 大規模言語モデルのような生成モデルは、私たちの日常生活においてますます重要になっているが、その一般化行動と不確実性を評価する理論的枠組みは存在しない。 特に、不確実性推定の問題は、アドホックでタスク依存的な方法でよく解決される。 例えば、自然言語のアプローチは画像生成に転送できない。 本稿では,カーネルスコアに対する最初のバイアス-分散-共分散分解について紹介する。 この分解は、不確実性推定のためのカーネルベースの分散とエントロピーを導出する理論的枠組みを表す。 生成したサンプルのみを必要とするが、基礎となるモデル自体を必要としない各量に対するバイアスのない一貫した推定器を提案する。 カーネルの広範な適用性に基づいて、画像、音声、言語生成のための一般化および不確実性実験を通じて、我々のフレームワークを実証する。 特に、不確実性推定のためのカーネルエントロピーは、既存のベースラインよりもデータセットに回答するCoQAとTriviaQAの性能をより予測し、クローズドソースモデルにも適用できる。

Generative models, like large language models, are becoming increasingly relevant in our daily lives, yet a theoretical framework to assess their generalization behavior and uncertainty does not exist. Particularly, the problem of uncertainty estimation is commonly solved in an ad-hoc and task-dependent manner. For example, natural language approaches cannot be transferred to image generation. In this paper, we introduce the first bias-variance-covariance decomposition for kernel scores. This decomposition represents a theoretical framework from which we derive a kernel-based variance and entropy for uncertainty estimation. We propose unbiased and consistent estimators for each quantity which only require generated samples but not the underlying model itself. Based on the wide applicability of kernels, we demonstrate our framework via generalization and uncertainty experiments for image, audio, and language generation. Specifically, kernel entropy for uncertainty estimation is more predictive of performance on CoQA and TriviaQA question answering datasets than existing baselines and can also be applied to closed-source models.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 監督から生成へ:大規模言語モデルを用いたタブラルディープラーニングのための新しいパラダイム

From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models ( http://arxiv.org/abs/2310.07338v3 )

ライセンス: Link先を確認
Xumeng Wen, Han Zhang, Shun Zheng, Wei Xu, Jiang Bian, (参考訳) 表形式のデータに基づく学習は、多くの現実世界のアプリケーションを支える。 表形式のデータに対する効果的な学習モデルの開発に多大な努力を払ってはいるが、現在の移行可能な表形式のモデルは、新しいタスクに追従する直接命令のサポートの欠如や、様々な表形式のデータセットから基礎知識や能力の獲得の欠如によって制限されている。 本稿では,これらの制約を克服するために,タブラル基礎モデル(TabFM)を提案する。 TabFMは生成表学習の可能性を生かし、訓練済みの大規模言語モデル(LLM)をベースモデルとして使用し、広範囲の表付きデータセットに基づいて目的に設計された目的を用いて微調整する。 このアプローチは、表データの学習に不可欠な深い理解と普遍性を備えたTabFMを提供する。 我々の評価は,TabFMの有効性を裏付けるものである。ゼロショットやインコンテキスト推論のような命令追従タスクに優れるだけでなく,GPT-4のような謎めいたクローズドソースのLCMに対して,そのアプローチや,さらには超越(transcend)においても,そのパフォーマンスを示す。 さらに,少ないデータで微調整を行う場合,本モデルは優れた効率を達成し,豊富なトレーニングデータとの競合性能を維持する。 最後に,TabFMの限界や可能性についても検討し,より強力なTabFMの開発に向けた今後の研究を促進・促進することを目的とする。

Learning on tabular data underpins numerous real-world applications. Despite considerable efforts in developing effective learning models for tabular data, current transferable tabular models remain in their infancy, limited by either the lack of support for direct instruction following in new tasks or the neglect of acquiring foundational knowledge and capabilities from diverse tabular datasets. In this paper, we propose Tabular Foundation Models (TabFMs) to overcome these limitations. TabFMs harness the potential of generative tabular learning, employing a pre-trained large language model (LLM) as the base model and fine-tuning it using purpose-designed objectives on an extensive range of tabular datasets. This approach endows TabFMs with a profound understanding and universal capabilities essential for learning on tabular data. Our evaluations underscore TabFM's effectiveness: not only does it significantly excel in instruction-following tasks like zero-shot and in-context inference, but it also showcases performance that approaches, and in instances, even transcends, the renowned yet mysterious closed-source LLMs like GPT-4. Furthermore, when fine-tuning with scarce data, our model achieves remarkable efficiency and maintains competitive performance with abundant training data. Finally, while our results are promising, we also delve into TabFM's limitations and potential opportunities, aiming to stimulate and expedite future research on developing more potent TabFMs.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# NuTime: 大規模時系列事前学習のための数値的マルチスケール埋め込み

NuTime: Numerically Multi-Scaled Embedding for Large-Scale Time-Series Pretraining ( http://arxiv.org/abs/2310.07402v3 )

ライセンス: Link先を確認
Chenguo Lin, Xumeng Wen, Wei Cao, Congrui Huang, Jiang Bian, Stephen Lin, Zhirong Wu, (参考訳) 近年の時系列自己教師型モデルの研究は,意味表現の学習において大きな可能性を秘めている。 しかし、これは小さなデータセット、例えば数千の時間的シーケンスに限られている。 本研究では,時系列データの数値特性に合わせた重要な技術的コントリビューションを行い,そのモデルを大規模データセット,例えば数百万の時間的シーケンスにスケールできるようにする。 入力をオーバーラップしないウィンドウに分割することでTransformerアーキテクチャを採用する。 それぞれのウィンドウは、その正規化された形状と、各ウィンドウ内の平均および標準偏差を表す2つのスカラー値によって特徴づけられる。 任意の数値振幅を持つスカラー値を高次元空間に埋め込むために,スカラーの可能な全ての数値スケールを列挙した数値的マルチスケール埋め込みモジュールを提案する。 このモデルは、既存の公開データをマージして収集された100万のシーケンスを超える大規模なデータセットに対して、単純なコントラスト目的で事前トレーニングを行う。 本研究では,一変量および多変量分類タスク,ショットラーニングの欠如,教師なしクラスタリング,異常検出ベンチマークについて,その転送性能について検討する。 本手法は,従来の事前学習手法に対して顕著な改善が見られ,ドメイン固有の非学習手法と比較しても,新しい最先端技術を確立している。 コードは以下の通り: \url{https://github.com/chenguolin/NuTime}。

Recent research on time-series self-supervised models shows great promise in learning semantic representations. However, it has been limited to small-scale datasets, e.g., thousands of temporal sequences. In this work, we make key technical contributions that are tailored to the numerical properties of time-series data and allow the model to scale to large datasets, e.g., millions of temporal sequences. We adopt the Transformer architecture by first partitioning the input into non-overlapping windows. Each window is then characterized by its normalized shape and two scalar values denoting the mean and standard deviation within each window. To embed scalar values that may possess arbitrary numerical amplitudes in a high-dimensional space, we propose a numerically multi-scaled embedding module enumerating all possible numerical scales for the scalars. The model undergoes pretraining with a simple contrastive objective on a large-scale dataset over a million sequences collected by merging existing public data. We study its transfer performance on a number of univariate and multivariate classification tasks, few shot learning, unsupervised clustering and anomaly detection benchmarks. Our method exhibits remarkable improvement against previous pretraining approaches and establishes the new state of the art, even compared with domain-specific non-learning-based methods. Code is available at: \url{https://github.com/chenguolin/NuTime}.
翻訳日:2024-07-11 22:19:38 公開日:2024-07-10
# 擬似励起状態を用いた超低温原子のIn situサブ波長顕微鏡

In situ subwavelength microscopy of ultracold atoms using dressed excited states ( http://arxiv.org/abs/2310.09396v2 )

ライセンス: Link先を確認
Romain Veyron, Jean-Baptiste Gérent, Guillaume Baclet, Vincent Mancois, Philippe Bouyer, Simon Bernon, (参考訳) 本研究では,超低温原子をサブ波長分解能で撮像する新しい手法を実装し,その妥当性を判定する。 励起状態間のレーザー駆動相互作用を用いて、光学分解能よりもはるかに小さいスケールの3レベルシステムで超微細な基底状態の集団移動を工学する。 量子気体のサブ波長イメージングは、測定自体が系の力学を摂動させるという意味では非定型である。 測定に影響を及ぼす誘導力学を避けるため、通常、強い撮像系において波動関数を「急速」測定する。 本研究では, 熱ガスアンサンブルを用いてこの機構を実験的に説明し, 完全解析モデルと定量的に一致したサブ波長分解能を示す。 さらに、対向的に、反対の弱いイメージング機構も、サブ波長分解能に到達するために活用できることが示される。 概念実証として, この構造は, 厳密に閉じ込められた1次元光学格子から作り出した30nmの広帯域波動関数を, 空間的に選択し, 解決するための頑健な解であることを示す。 一般の放散包含形式主義を用いて、両体制の妥当性基準を導出する。 定式化は他のサブ波長法にも適用できる。

In this work, we implement a new method for imaging ultracold atoms with subwavelength resolution capabilities and determine its regime of validity. It uses the laser driven interaction between excited states to engineer hyperfine ground state population transfer in a three-level system on scales much smaller than the optical resolution. Subwavelength imaging of a quantum gas is atypical in the sense that the measurement itself perturbs the dynamics of the system. To avoid induced dynamics affecting the measurement, one usually measures "rapidly" the wavefunction in a so-called strong imaging regime. We experimentally illustrate this regime using a thermal gas ensemble, and demonstrate subwavelength resolution in quantitative agreement with a fully analytical model. Additionally, we show that, counter-intuitively, the opposite weak imaging regime can also be exploited to reach subwavelength resolution. As a proof of concept, we demonstrate that this regime is a robust solution to select and spatially resolve a 30 nm wide wavefunction, which was created and singled out from a tightly confined 1D optical lattice. Using a general dissipation-included formalism, we derive validity criteria for both regimes. The formalism is applicable to other subwavelength methods.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 等変ニューラルネットワークのためのリー群分解

Lie Group Decompositions for Equivariant Neural Networks ( http://arxiv.org/abs/2310.11366v2 )

ライセンス: Link先を確認
Mircea Mironenco, Patrick Forré, (参考訳) 幾何変換に対する不変性と等価性は、特に低データ構造において、トレーニング(畳み込み)ニューラルネットワークモデルにおいて非常に有用な帰納的バイアスであることが証明されている。 多くの研究は、対称群がコンパクト群かアーベル群かその両方である場合に焦点を当てている。 最近の研究は、リー群の場合、主にリー代数(英語版)および群指数写像(英語版)および対数写像(英語版)を用いて、変換のクラスを拡大することを検討した。 そのような方法の適用性は、利子群 G$ に依存して指数写像が全射でないという事実によって制限される。 さらなる制限は、$G$がコンパクトでもアーベルでもないときに発生する。 リー群とその同次空間の構造と幾何学を用いて、主に群 $G = \text{GL}^{+}(n, \mathbb{R})$ と $G = \text{SL}(n, \mathbb{R})$ と、アフィン変換 $\mathbb{R}^{n} \rtimes G$ の表現に焦点をあてて、そのような群を扱うことができる枠組みを提示する。 不変積分と大域パラメトリゼーションは、個別に扱うことができる部分群と部分多様体への分解によって実現される。 この枠組みでは、コンボリューションカーネルをパラメータ化してアフィン変換に対する同変モデルを構築する方法を示す。 我々は,ベンチマークアフィン不変分類タスクにおいて,モデルのロバスト性とアウト・オブ・ディストリビューションの一般化能力を評価し,従来の提案よりも優れていた。

Invariance and equivariance to geometrical transformations have proven to be very useful inductive biases when training (convolutional) neural network models, especially in the low-data regime. Much work has focused on the case where the symmetry group employed is compact or abelian, or both. Recent work has explored enlarging the class of transformations used to the case of Lie groups, principally through the use of their Lie algebra, as well as the group exponential and logarithm maps. The applicability of such methods is limited by the fact that depending on the group of interest $G$, the exponential map may not be surjective. Further limitations are encountered when $G$ is neither compact nor abelian. Using the structure and geometry of Lie groups and their homogeneous spaces, we present a framework by which it is possible to work with such groups primarily focusing on the groups $G = \text{GL}^{+}(n, \mathbb{R})$ and $G = \text{SL}(n, \mathbb{R})$, as well as their representation as affine transformations $\mathbb{R}^{n} \rtimes G$. Invariant integration as well as a global parametrization is realized by a decomposition into subgroups and submanifolds which can be handled individually. Under this framework, we show how convolution kernels can be parametrized to build models equivariant with respect to affine transformations. We evaluate the robustness and out-of-distribution generalisation capability of our model on the benchmark affine-invariant classification task, outperforming previous proposals.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# Agent Lumos: オープンソース言語エージェントの統一とモジュールトレーニング

Agent Lumos: Unified and Modular Training for Open-Source Language Agents ( http://arxiv.org/abs/2311.05657v3 )

ライセンス: Link先を確認
Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin, (参考訳) クローズドソースエージェントは、特に複雑な対話的なタスクにおいて、可買性、透明性、再現性の欠如など、いくつかの問題に悩まされている。 これはオープンソースの代替手段の開発を動機付けている。 LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。 LUMOSは、高レベルなサブゴール生成を学習する計画モジュールと、実行モジュールのさまざまなツールを使用してそれらをアクションに変換するようにトレーニングされたグラウンドモジュールを備えた、学習可能で統一されたモジュールアーキテクチャを備えている。 この設計により、モジュール化されたアップグレードと多様なインタラクティブなタスクへのより広範な適用が可能になる。 エージェント学習の汎用化を促進するため,様々な複雑な対話的タスクにまたがる多様な地道推論の理性から,大規模で統一的で高品質なトレーニングアノテーションを収集する。 1) LUMOSは、各タスクタイプ毎に保持されたデータセット(トレーニングに使用されていない)上に、複数の大きなオープンソースエージェントをエクストラする。 LUMOSは、QAやWebタスクのGPTエージェントを超え、(2)LUMOSは、チェーン・オブ・ソートとアンモジュール化統合トレーニングによって生成されたオープンソースエージェントを上回り、(3)LUMOSは、目に見えないタスクに効果的に一般化し、33Bスケールエージェントとドメイン固有エージェントを上回ります。

Closed-source agents suffer from several issues such as a lack of affordability, transparency, and reproducibility, particularly on complex interactive tasks. This motivates the development of open-source alternatives. We introduce LUMOS, one of the first frameworks for training open-source LLM-based agents. LUMOS features a learnable, unified, and modular architecture with a planning module that learns high-level subgoal generation, and a grounding module trained to translate these into actions using various tools in the execution module. The design allows for modular upgrades and wider applicability to diverse interactive tasks. To foster generalizable agent learning, we collect large-scale, unified, and high-quality training annotations derived from diverse ground-truth reasoning rationales across various complex interactive tasks. On 9 datasets, LUMOS exhibits several key advantages: (1) LUMOS excels multiple larger open-source agents on the held-out datasets (unused for training) for each task type. LUMOS even surpasses GPT agents on QA and web tasks; (2) LUMOS outperforms open-source agents produced by chain-of-thoughts and unmodularized integrated training; and (3) LUMOS effectively generalizes to unseen tasks, outperforming 33B-scale agents and domain-specific agents.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 翻訳するか否か:低リソース言語への翻訳に基づく言語間変換の体系的検討

To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages ( http://arxiv.org/abs/2311.09404v2 )

ライセンス: Link先を確認
Benedikt Ebing, Goran Glavaš, (参考訳) 完全機械翻訳(MT)は多言語言語モデル(mLM)によって言語間変換(XLT)を行う。 一方, mLM を用いた XLT の改良作業が盛んに行われていることや,近年の多言語MT の進歩にともなって,本研究では既存の言語を体系的に評価し,低リソース言語に移行するための新しい翻訳ベース XLT アプローチを提案する。 すべての翻訳ベースのアプローチがゼロショットXLTとmLMを劇的に上回り、ソース言語のトレーニングデータのラウンドトリップ翻訳と推論時のターゲット言語テストインスタンスの翻訳の組み合わせは、一般的に最も効果的であることを示す。 次に、トレーニングデータに他の高ソース言語に信頼できる翻訳を追加することで、さらなる経験的利益を得ることができることを示す。 さらに,MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。 最後に、MTを用いた対象言語検証データに基づくXLTのモデル選択は、ソース言語データに基づくモデル選択よりも優れていることを示す。 我々は,XLT研究に,より堅牢な翻訳ベースラインを取り入れることが保証されると考えている。

Perfect machine translation (MT) would render cross-lingual transfer (XLT) by means of multilingual language models (mLMs) superfluous. Given, on the one hand, the large body of work on improving XLT with mLMs and, on the other hand, recent advances in massively multilingual MT, in this work, we systematically evaluate existing and propose new translation-based XLT approaches for transfer to low-resource languages. We show that all translation-based approaches dramatically outperform zero-shot XLT with mLMs -- with the combination of round-trip translation of the source-language training data and the translation of the target-language test instances at inference -- being generally the most effective. We next show that one can obtain further empirical gains by adding reliable translations to other high-resource languages to the training data. Moreover, we propose an effective translation-based XLT strategy even for languages not supported by the MT system. Finally, we show that model selection for XLT based on target-language validation data obtained with MT outperforms model selection based on the source-language data. We believe our findings warrant a broader inclusion of more robust translation-based baselines in XLT research.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# TransFusion -- 異常検出のための透明性に基づく拡散モデル

TransFusion -- A Transparency-Based Diffusion Model for Anomaly Detection ( http://arxiv.org/abs/2311.09999v2 )

ライセンス: Link先を確認
Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj, (参考訳) 表面異常検出は製造検査において重要な要素である。 現在の差別的手法は、再構成されたネットワークと、再構成された出力に依存する識別的ネットワークからなる2段階のアーキテクチャに従う。 現在使用されている再建ネットワークは、しばしば貧弱な再構成を生み出すが、これはまだ異常を含むか、異常のない領域で詳細を欠いている。 識別的手法は、いくつかの再構成的ネットワーク障害に対して堅牢であり、識別的ネットワークは、再構成的ネットワークが見逃す強い正常な信号を学ぶことを示唆している。 我々は、2段階のアーキテクチャを1段階の反復的なプロセスに再構成し、再構築とローカライゼーションの間で情報の交換を可能にする。 本研究では, 異常領域の透明性を徐々に向上させ, 異常領域の出現を維持しつつ, 正常な外観を正確に復元する, 新たな透明性に基づく拡散プロセスを提案する。 本稿では,VisAとMVTec ADの両方のデータセットに対して,画像レベルのAUROCの98.5%と99.2%の精度で最先端の性能を実現する,新たな識別異常検出手法であるTransparency DifFUSION(TransFusion)として提案手法を実装した。 コード:https://github.com/MaticFuc/ECCV_TransFusion

Surface anomaly detection is a vital component in manufacturing inspection. Current discriminative methods follow a two-stage architecture composed of a reconstructive network followed by a discriminative network that relies on the reconstruction output. Currently used reconstructive networks often produce poor reconstructions that either still contain anomalies or lack details in anomaly-free regions. Discriminative methods are robust to some reconstructive network failures, suggesting that the discriminative network learns a strong normal appearance signal that the reconstructive networks miss. We reformulate the two-stage architecture into a single-stage iterative process that allows the exchange of information between the reconstruction and localization. We propose a novel transparency-based diffusion process where the transparency of anomalous regions is progressively increased, restoring their normal appearance accurately while maintaining the appearance of anomaly-free regions using localization cues of previous steps. We implement the proposed process as TRANSparency DifFUSION (TransFusion), a novel discriminative anomaly detection method that achieves state-of-the-art performance on both the VisA and the MVTec AD datasets, with an image-level AUROC of 98.5% and 99.2%, respectively. Code: https://github.com/MaticFuc/ECCV_TransFusion
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 2次元格子上の反発性双極子密度-密度相互作用を持つハードコアボソンの量子相

Quantum phases of hardcore bosons with repulsive dipolar density-density interactions on two-dimensional lattices ( http://arxiv.org/abs/2311.10632v2 )

ライセンス: Link先を確認
J. A. Koziol, G. Morigi, K. P. Schmidt, (参考訳) 我々は、反発性双極子ポテンシャルと相互作用するハードコアボソンの基底状態量子位相図を解析する。 ボソンズ力学は、2次元格子上の拡張ボース・ハバード・ハミルトンによって記述される。 基底状態は格子幾何学と長距離相互作用の相互作用から得られるものであり、考慮された単位セルのサイズによって制限された古典的なスピン平均場アプローチによって説明される。 この拡張古典的なスピン平均場理論は、切り離すことなく長距離密度密度-密度相互作用を説明できる。 我々は、正方形、ハニカム、三角形の3つの異なる格子幾何学を考察する。 ゼロホッピングの限界において、基底状態は、常にデビルの(引っ掛けられた)相の階段である。 翻訳対称性を損なうような結晶相は、有限ホッピング振幅に対して堅牢である。 中間ホッピング振幅では、これらのギャップ状の相が融解し、様々な格子超固体相が生じる。 十分に大きなホッピングでは、基底状態は超流動である。 我々のアプローチによって予測される位相の安定性は、近辺相互作用を持つボース・ハッバードモデルの既知の量子位相図と、正方格子と三角形格子上の双極子の場合の量子モンテカルロシミュレーションを比較して評価する。 この結果は,光学格子中の超低温双極子原子を用いたアナログ量子シミュレーター,egにおける自己組織化結晶秩序パターンの実験的実現の即時性を示すものである。

We analyse the ground-state quantum phase diagram of hardcore Bosons interacting with repulsive dipolar potentials. The bosons dynamics is described by the extended-Bose-Hubbard Hamiltonian on a two-dimensional lattice. The ground state results from the interplay between the lattice geometry and the long-range interactions, which we account for by means of a classical spin mean-field approach limited by the size of the considered unit cells. This extended classical spin mean-field theory accounts for the long-range density-density interaction without truncation. We consider three different lattice geometries: square, honeycomb, and triangular. In the limit of zero hopping the ground state is always a devil's staircase of solid (gapped) phases. Such crystalline phases with broken translational symmetry are robust with respect to finite hopping amplitudes. At intermediate hopping amplitudes, these gapped phases melt, giving rise to various lattice supersolid phases, which can have exotic features with multiple sublattice densities. At sufficiently large hoppings the ground state is a superfluid. The stability of phases predicted by our approach is gauged by comparison to the known quantum phase diagrams of the Bose-Hubbard model with nearest-neighbour interactions as well as quantum Monte Carlo simulations for the dipolar case on the square and triangular lattice. Our results are of immediate relevance for experimental realisations of self-organised crystalline ordering patterns in analogue quantum simulators, e.g., with ultracold dipolar atoms in an optical lattice.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# Orchard:確率的組合せ探索による大きな癌系統の構築

Orchard: building large cancer phylogenies using stochastic combinatorial search ( http://arxiv.org/abs/2311.12917v2 )

ライセンス: Link先を確認
E. Kulman, R. Kuang, Q. Morris, (参考訳) 同じ癌由来の細胞、すなわち癌系統の遺伝的に不均一なサブ集団の進化の歴史を描いた系統学は、がんの発生と治療戦略に関する貴重な洞察を与えてくれる。 バルクDNAシークエンシングで検出された点突然変異を用いてがんの系統を再構築する多くの方法が存在する。 しかし、30以上の変異で系統を再構築する際には、これらの手法が不正確なものとなり、場合によっては、系統の完全回復に失敗する。 そこで我々は,1000件の突然変異を用いて高速かつ高精度な癌系統再構築アルゴリズムOrchardを紹介した。 系統上の後部分布の因子的近似から置き換えることなくオーチャード試料を作製し,本論文から新たな結果を得た。 この近似的な後縁の因子は、部分的に構築された系統に新しい突然変異を加える条件分布に対応する。 Orchardは各因子を逐次最適化し、段階的に大きくなり、最終的に全ての突然変異を含む完全な木に終止符を打つ。 以上の結果から,Orchardは90のシミュレート癌と14のB前駆性急性リンパ性白血病(B-ALLs)にまたがって,より可塑性な系統を再構築する上で,最先端の系統再建法よりも優れた成績を示した。 注目すべきは、Orchardが最大1000の突然変異を用いて、がんの系統を正確に再構築することである。 さらに,Orchardによって再構成された大規模かつ正確な系統は,異なる癌細胞サブ集団間での体細胞突然変異および遺伝的変異のパターンの同定に有用であることを示した。

Phylogenies depicting the evolutionary history of genetically heterogeneous subpopulations of cells from the same cancer, i.e., cancer phylogenies, offer valuable insights about cancer development and guide treatment strategies. Many methods exist that reconstruct cancer phylogenies using point mutations detected with bulk DNA sequencing. However, these methods become inaccurate when reconstructing phylogenies with more than 30 mutations, or, in some cases, fail to recover a phylogeny altogether. Here, we introduce Orchard, a cancer phylogeny reconstruction algorithm that is fast and accurate using up to 1000 mutations. Orchard samples without replacement from a factorized approximation of the posterior distribution over phylogenies, a novel result derived in this paper. Each factor in this approximate posterior corresponds to a conditional distribution for adding a new mutation to a partially built phylogeny. Orchard optimizes each factor sequentially, generating a sequence of incrementally larger phylogenies that ultimately culminate in a complete tree containing all mutations. Our evaluations demonstrate that Orchard outperforms state-of-the-art cancer phylogeny reconstruction methods in reconstructing more plausible phylogenies across 90 simulated cancers and 14 B-progenitor acute lymphoblastic leukemias (B-ALLs). Remarkably, Orchard accurately reconstructs cancer phylogenies using up to 1,000 mutations. Additionally, we demonstrate that the large and accurate phylogenies reconstructed by Orchard are useful for identifying patterns of somatic mutations and genetic variations among distinct cancer cell subpopulations.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 最適形状とラベル付き攻撃木の自動生成

Automated generation of attack trees with optimal shape and labelling ( http://arxiv.org/abs/2311.13331v2 )

ライセンス: Link先を確認
Olga Gadyatskaya, Sjouke Mauw, Rolando Trujillo-Rasuac, Tim A. C. Willemse, (参考訳) 本稿では,攻撃木の自動生成の問題に対処する。 健全性は、攻撃木によって表示された攻撃がシステム内の攻撃であることを意味する;明確性は、攻撃シナリオを伝える上で、ツリーが効率的であることを意味する。 そこで本研究では,木の大きさとラベルの情報長を最小化できる攻撃木生成アルゴリズムを提案する。 私たちはこれを実現します 一 効果的な方法で攻撃及び目標を推論することができるシステムモデルを導入すること。 二 代数的表現を分解する問題と木の大きさを最小化する問題との関連性を確立すること。 我々の知る限り、システム仕様に関して彼らの健全性を保証しつつ、生成した木のラベル付けと形状を最適化する最初の攻撃木生成フレームワークを導入する。

This article addresses the problem of automatically generating attack trees that soundly and clearly describe the ways the system can be attacked. Soundness means that the attacks displayed by the attack tree are indeed attacks in the system; clarity means that the tree is efficient in communicating the attack scenario. To pursue clarity, we introduce an attack-tree generation algorithm that minimises the tree size and the information length of its labels without sacrificing correctness. We achieve this by i) introducing a system model that allows to reason about attacks and goals in an efficient manner, and ii) by establishing a connection between the problem of factorising algebraic expressions and the problem of minimising the tree size. To the best of our knowledge, we introduce the first attack-tree generation framework that optimises the labelling and shape of the generated trees, while guaranteeing their soundness with respect to a system specification.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 時空間ルックアップテーブルによるオンライン映像品質向上

Online Video Quality Enhancement with Spatial-Temporal Look-up Tables ( http://arxiv.org/abs/2311.13616v2 )

ライセンス: Link先を確認
Zefan Qu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Cairong Zhao, (参考訳) 低レイテンシは、ビデオ会議やクラウドゲームのようなオンラインビデオベースのアプリケーションにとって重要であり、オンラインシナリオにおけるビデオ品質の改善がますます重要になっている。 しかし、既存の品質向上手法は、予測速度の遅いことと、将来のフレームに含まれる時間情報の要求によって制限されており、オンラインタスクにそれらを直接デプロイすることは困難である。 本稿では,オンラインビデオ品質向上(Online-VQE)問題に対処するための新しい手法であるSTLVQEを提案する。 我々のSTLVQEは新しいVQEフレームワークを設計し、モジュール非依存の機能エクストラクタは冗長な計算を大幅に削減し、ネットワークの伝搬、アライメント、拡張モジュールを再設計する。 STL(Spatial-Temporal Look-up Tables)を提案する。 我々の知る限りでは、ビデオタスクの時間情報を抽出するために、初めてLUT構造を利用する。 MFQE 2.0データセットに関する大規模な実験は、我々のSTLVQEが良好な性能と速度のトレードオフを達成することを実証している。

Low latency rates are crucial for online video-based applications, such as video conferencing and cloud gaming, which make improving video quality in online scenarios increasingly important. However, existing quality enhancement methods are limited by slow inference speed and the requirement for temporal information contained in future frames, making it challenging to deploy them directly in online tasks. In this paper, we propose a novel method, STLVQE, specifically designed to address the rarely studied online video quality enhancement (Online-VQE) problem. Our STLVQE designs a new VQE framework which contains a Module-Agnostic Feature Extractor that greatly reduces the redundant computations and redesign the propagation, alignment, and enhancement module of the network. A Spatial-Temporal Look-up Tables (STL) is proposed, which extracts spatial-temporal information in videos while saving substantial inference time. To the best of our knowledge, we are the first to exploit the LUT structure to extract temporal information in video tasks. Extensive experiments on the MFQE 2.0 dataset demonstrate that our STLVQE achieves a satisfactory performance-speed trade-off.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# CaesarNeRF:Few-shot Generalizable Neural RenderingのためのCalibrated Semantic Representation

CaesarNeRF: Calibrated Semantic Representation for Few-shot Generalizable Neural Rendering ( http://arxiv.org/abs/2311.15510v2 )

ライセンス: Link先を確認
Haidong Zhu, Tianyu Ding, Tianyi Chen, Ilya Zharkov, Ram Nevatia, Luming Liang, (参考訳) 一般化可能性と少数ショット学習は、しばしばピクセルレベルのレンダリングにおける全体的理解が欠如しているため、Neural Radiance Fields(NeRF)の鍵となる課題である。 CaesarNeRFはシーンレベルのCalibratEd SemAntic Representationとピクセルレベルの表現を併用したエンドツーエンドのアプローチである。 CaesarNeRFは、シーンレベルのセマンティック表現を組み合わせるために参照ビューの違いを明示的に表現し、キャリブレーションされた全体論的理解を提供する。 このキャリブレーションプロセスは、様々な視点を正確な位置と整列させ、様々な詳細を捉えるために逐次改良によってさらに強化される。 LLFF、Shiny、mip-NeRF 360、MVImgNetなどの公開データセットに関する大規模な実験は、CaesarNeRFが様々な参照ビューにわたって最先端のパフォーマンスを提供し、単一の参照イメージでも有効であることを示した。

Generalizability and few-shot learning are key challenges in Neural Radiance Fields (NeRF), often due to the lack of a holistic understanding in pixel-level rendering. We introduce CaesarNeRF, an end-to-end approach that leverages scene-level CAlibratEd SemAntic Representation along with pixel-level representations to advance few-shot, generalizable neural rendering, facilitating a holistic understanding without compromising high-quality details. CaesarNeRF explicitly models pose differences of reference views to combine scene-level semantic representations, providing a calibrated holistic understanding. This calibration process aligns various viewpoints with precise location and is further enhanced by sequential refinement to capture varying details. Extensive experiments on public datasets, including LLFF, Shiny, mip-NeRF 360, and MVImgNet, show that CaesarNeRF delivers state-of-the-art performance across varying numbers of reference views, proving effective even with a single reference image.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# Refine, Discriminate and Align: Stealing Encoder via Sample-Wise Prototypes and Multi-Relational extract

Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction ( http://arxiv.org/abs/2312.00855v2 )

ライセンス: Link先を確認
Shuchi Wu, Chuan Ma, Kang Wei, Xiaogang Xu, Ming Ding, Yuwen Qian, Tao Xiang, (参考訳) 本稿では,事前学習したエンコーダを盗むための先駆的手法であるRDAを紹介する。(1)バイアス最適化の目的に起因した準最適性能,(2)目標エンコーダの問合せを毎回必要とするエンド・ツー・エンドのパラダイムに起因したクエリコストの増大。 具体的には、まず、トレーニングサンプル毎にターゲットエンコーダの表現を再定義し、ステルストレーニングフェーズの前にバイアスの少ない最適化目標を確立する。 これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。 エンドツーエンドのアプローチに比べて指数関数的に少ないクエリを必要とするため、プロトタイプをインスタンス化して、その後のクエリフリートレーニングをガイドすることができる。 より強力な有効性を得るために,我々はサロゲートエンコーダを訓練し,一致した埋め込み-プロトタイプペアを振幅と角度の両方でアライメントしながら識別するマルチリレーショナル抽出損失を開発する。 このようにして、トレーニングされたサロゲートエンコーダは、クエリが制限されたさまざまなダウンストリームデータセットにおいて、ボード全体の最先端の結果を達成する。 さらに、RDAは複数の広く使用されている防御に対して堅牢であることが示されている。

This paper introduces RDA, a pioneering approach designed to address two primary deficiencies prevalent in previous endeavors aiming at stealing pre-trained encoders: (1) suboptimal performances attributed to biased optimization objectives, and (2) elevated query costs stemming from the end-to-end paradigm that necessitates querying the target encoder every epoch. Specifically, we initially Refine the representations of the target encoder for each training sample, thereby establishing a less biased optimization objective before the steal-training phase. This is accomplished via a sample-wise prototype, which consolidates the target encoder's representations for a given sample's various perspectives. Demanding exponentially fewer queries compared to the end-to-end approach, prototypes can be instantiated to guide subsequent query-free training. For more potent efficacy, we develop a multi-relational extraction loss that trains the surrogate encoder to Discriminate mismatched embedding-prototype pairs while Aligning those matched ones in terms of both amplitude and angle. In this way, the trained surrogate encoder achieves state-of-the-art results across the board in various downstream datasets with limited queries. Moreover, RDA is shown to be robust to multiple widely-used defenses.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# Baked Quadrature Fields を用いたボリュームレンダリング

Volumetric Rendering with Baked Quadrature Fields ( http://arxiv.org/abs/2312.02202v2 )

ライセンス: Link先を確認
Gopal Sharma, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) テクスチャ化された多角形を利用して高速な推論を可能にする非透明シーンのための新しいニューラルラジアンス場(NeRF)表現を提案する。 NeRFが提供する高品質な新しいビューレンダリングにもかかわらず、重要な制限は、計算コストが高く、最新のグラフィックスハードウェアの進歩を利用できないボリュームレンダリングに依存していることである。 既存の多くの手法は、純粋に表面レンダリングに依存するため、体積効果をモデル化する上では不足している。 そこで我々は,このシーンをポリゴンでモデル化し,体積効果のモデル化に必要な二次点と,その不透明度と色をテクスチャから得ることを提案する。 そのような多角形メッシュを得るために、ボリュームレンダリング時に零交叉が二次点に対応するような特殊フィールドを訓練し、このフィールド上でマーチングキューブを実行する。 次に、レイトレーシングを行い、レイトレーシングシェーダを用いて最終色画像を得る。 我々の手法は既存のグラフィックスフレームワークと簡単に統合でき、1920\times1080$の画像を毎秒100フレーム以上レンダリングできるが、不透明なオブジェクトを表現できる。

We propose a novel Neural Radiance Field (NeRF) representation for non-opaque scenes that enables fast inference by utilizing textured polygons. Despite the high-quality novel view rendering that NeRF provides, a critical limitation is that it relies on volume rendering that can be computationally expensive and does not utilize the advancements in modern graphics hardware. Many existing methods fall short when it comes to modelling volumetric effects as they rely purely on surface rendering. We thus propose to model the scene with polygons, which can then be used to obtain the quadrature points required to model volumetric effects, and also their opacity and colour from the texture. To obtain such polygonal mesh, we train a specialized field whose zero-crossings would correspond to the quadrature points when volume rendering, and perform marching cubes on this field. We then perform ray-tracing and utilize the ray-tracing shader to obtain the final colour image. Our method allows an easy integration with existing graphics frameworks allowing rendering speed of over 100 frames-per-second for a $1920\times1080$ image, while still being able to represent non-opaque objects.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 再帰的なビジュアルプログラミング

Recursive Visual Programming ( http://arxiv.org/abs/2312.02249v2 )

ライセンス: Link先を確認
Jiaxin Ge, Sanjay Subramanian, Baifeng Shi, Roei Herzig, Trevor Darrell, (参考訳) Visual Programming (VP)は、Visual Question Answering (VQA)の強力なフレームワークとして登場した。 それぞれの質問に対してbespokeコードの生成と実行によって、これらのメソッドは、特に少ショットやゼロショットのシナリオにおいて、印象的な合成と推論能力を示す。 しかし、既存のVPメソッドは単一の関数で全てのコードを生成するため、精度と解釈可能性の両方において最適でないコードになる。 人間のコーディングプラクティスに触発されて、生成ルーチンをシンプルにし、より効率的な問題解決を提供し、より複雑なデータ構造を管理することができるRecursive Visual Programming (RVP)を提案する。 RVPは人間のコーディングプラクティスにインスパイアされ、反復的再帰的なコード生成アプローチでVQAタスクにアプローチする。 特に、RVPは動的型割り当て、すなわちシステムが再帰的に新しいコードを生成するとき、適切な戻り型を自律的に決定し、必要なコードを作成して出力を生成する。 本稿では,VSR,COVR,GQA,NextQAといったベンチマークの広範な実験を通じて,VQAタスクのコーディングによる解決に人間的な再帰的,モジュールプログラミング技術を採用することの価値を論じる。

Visual Programming (VP) has emerged as a powerful framework for Visual Question Answering (VQA). By generating and executing bespoke code for each question, these methods demonstrate impressive compositional and reasoning capabilities, especially in few-shot and zero-shot scenarios. However, existing VP methods generate all code in a single function, resulting in code that is suboptimal in terms of both accuracy and interpretability. Inspired by human coding practices, we propose Recursive Visual Programming (RVP), which simplifies generated routines, provides more efficient problem solving, and can manage more complex data structures. RVP is inspired by human coding practices and approaches VQA tasks with an iterative recursive code generation approach, allowing decomposition of complicated problems into smaller parts. Notably, RVP is capable of dynamic type assignment, i.e., as the system recursively generates a new piece of code, it autonomously determines the appropriate return type and crafts the requisite code to generate that output. We show RVP's efficacy through extensive experiments on benchmarks including VSR, COVR, GQA, and NextQA, underscoring the value of adopting human-like recursive and modular programming techniques for solving VQA tasks through coding.
翻訳日:2024-07-11 22:09:30 公開日:2024-07-10
# 視覚変換器のクラス識別アテンションマップ

Class-Discriminative Attention Maps for Vision Transformers ( http://arxiv.org/abs/2312.02364v2 )

ライセンス: Link先を確認
Lennart Brocki, Jakub Binda, Neo Christopher Chung, (参考訳) 重要度推定器は、ディープニューラルネットワーク(DNN)の機能重要度を定量化する説明可能性推定法である。 視覚変換器(ViT)では、自己注意機構が自然に注意マップにつながり、ViTモデルが注目する入力特徴のスコアとして使われることがある。 しかし、アテンションマップは下流のタスクからの信号を考慮していない。 下流タスクに敏感な説明を生成するため,クラス識別型注意マップ(CDAM,class-discriminative attention map)を開発した。 CDAMは、分類器ヘッドの予測に対応するトークンがどの程度関連しているかによって、注意スコアをスケールする。 教師付き分類器のターゲットに加え、CDAMはViTの潜在空間における類似性を測定することで、選択されたサンプルによって共有される任意の概念を説明できる。 さらに,Smooth CDAMとIntegrated CDAMを導入する。 我々の定量的ベンチマークには、他の6つの重要な推定器と比較して、正確性、コンパクト性、およびクラス感度が含まれる。 Vanilla、Smooth、Integrated CDAMは3つのベンチマークで排他的だ。 特に,既存の重要度推定器では十分なクラス感度が得られないことが示唆された。 医用画像におけるCDAMの有用性を,CTスキャンによる悪性度とバイオマーカーの予測モデルを用いて評価した。 全体として、CDAMは、コンパクトな説明を提供しながら、非常に類別的で意味論的に関連があることが示されている。

Importance estimators are explainability methods that quantify feature importance for deep neural networks (DNN). In vision transformers (ViT), the self-attention mechanism naturally leads to attention maps, which are sometimes used as importance scores for which input features ViT models are focusing on. However, attention maps do not account for signals from downstream tasks. To generate explanations that are sensitive to downstream tasks, we have developed class-discriminative attention maps (CDAM), a gradient-based extension that estimates feature importance with respect to a known class or a latent concept. CDAM scales attention scores by how relevant the corresponding tokens are for the predictions of a classifier head. In addition to targeting the supervised classifier, CDAM can explain an arbitrary concept shared by selected samples by measuring similarity in the latent space of ViT. Additionally, we introduce Smooth CDAM and Integrated CDAM, which average a series of CDAMs with slightly altered tokens. Our quantitative benchmarks include correctness, compactness, and class sensitivity, in comparison to six other importance estimators. Vanilla, Smooth, and Integrated CDAM excel across all three benchmarks. In particular, our results suggest that existing importance estimators may not provide sufficient class-sensitivity. We demonstrate the utility of CDAM in medical images by training and explaining malignancy and biomarker prediction models based on lung Computed Tomography (CT) scans. Overall, CDAM is shown to be highly class-discriminative and semantically relevant, while providing compact explanations.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 幾何を用いたオンラインベクトル化HDマップの構築

Online Vectorized HD Map Construction using Geometry ( http://arxiv.org/abs/2312.03341v2 )

ライセンス: Link先を確認
Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Fusheng Jin, Xiangyu Yue, (参考訳) オンラインベクトル化ハイディフィニション(HD)マップの構築は下流の予測と計画に不可欠である。 近年, この課題に対して, 並列性, 垂直性, 矩形形状など, 都市道路の事例の形状と関係はいまだ解明されていない。 本研究で提案するのはGeMap$\textbf{Ge}$ometry $\textbf{Map}$である。 具体的には、剛性変換に対して頑健な角度と距離の手がかりに基づく幾何学的損失を設計する。 我々はまた、ユークリッドの形状と関係を独立に扱うために、自己意識を分離する。 提案手法は,NuScenesおよびArgoverse 2データセット上での最先端性能を実現する。 注目すべきは、大規模なArgoverse 2データセットで71.8%のmAPに達し、MapTR V2を+4.4%上回り、初めて70%のmAP閾値を超えたことである。 コードはhttps://github.com/cnzzx/GeMap.comで入手できる。

The construction of online vectorized High-Definition (HD) maps is critical for downstream prediction and planning. Recent efforts have built strong baselines for this task, however, shapes and relations of instances in urban road systems are still under-explored, such as parallelism, perpendicular, or rectangle-shape. In our work, we propose GeMap ($\textbf{Ge}$ometry $\textbf{Map}$), which end-to-end learns Euclidean shapes and relations of map instances beyond basic perception. Specifically, we design a geometric loss based on angle and distance clues, which is robust to rigid transformations. We also decouple self-attention to independently handle Euclidean shapes and relations. Our method achieves new state-of-the-art performance on the NuScenes and Argoverse 2 datasets. Remarkably, it reaches a 71.8% mAP on the large-scale Argoverse 2 dataset, outperforming MapTR V2 by +4.4% and surpassing the 70% mAP threshold for the first time. Code is available at https://github.com/cnzzx/GeMap.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# プレトレーニングシーン用テキスト検出器のブリッジ合成と実世界

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors ( http://arxiv.org/abs/2312.05286v3 )

ライセンス: Link先を確認
Tongkun Guan, Wei Shen, Xue Yang, Xuehui Wang, Xiaokang Yang, (参考訳) 既存のシーンテキスト検出方法は通常、トレーニングのために広範囲の実際のデータに依存している。 注釈付き実画像の欠如により、最近の研究はテキスト検出器の事前学習に大規模なラベル付き合成データ(LSD)を活用しようと試みている。 しかし、シンス・トゥ・リアル領域のギャップが出現し、テキスト検出器の性能がさらに制限される。 そこで本研究では, LSDと未ラベル実データ(URD)の相補的な長所を実現するための, 実ドメイン対応事前学習パラダイムであるFreeRealを提案する。 具体的には、テキスト画像にグリフをベースとしたミキシング機構(GlyphMix)を配設し、合成画像の文字構造を記述し、落書きのような単位として実際の画像に埋め込む。 実際のドメインドリフトを導入することなく、GlyphMixは、合成ラベルから派生したアノテーションで、現実世界のイメージを自由に生成する。 さらに、GlyphMixは、自由なきめ細かい合成ラベルを与えられると、様々な言語で英語が支配するLSDからUDDへの言語領域ギャップを効果的に橋渡しすることができる。 ベルとホイッスルがなければ、FreeRealは、FCENet、PSENet、PANet、DBNetメソッドのパフォーマンス改善において平均1.97%、3.90%、3.85%、4.56%のアップを達成し、4つのパブリックデータセットで、従来よりも大幅に向上している。 コードはhttps://github.com/SJTU-DeepVisionLab/FreeRealで入手できる。

Existing scene text detection methods typically rely on extensive real data for training. Due to the lack of annotated real images, recent works have attempted to exploit large-scale labeled synthetic data (LSD) for pre-training text detectors. However, a synth-to-real domain gap emerges, further limiting the performance of text detectors. Differently, in this work, we propose FreeReal, a real-domain-aligned pre-training paradigm that enables the complementary strengths of both LSD and unlabeled real data (URD). Specifically, to bridge real and synthetic worlds for pre-training, a glyph-based mixing mechanism (GlyphMix) is tailored for text images.GlyphMix delineates the character structures of synthetic images and embeds them as graffiti-like units onto real images. Without introducing real domain drift, GlyphMix freely yields real-world images with annotations derived from synthetic labels. Furthermore, when given free fine-grained synthetic labels, GlyphMix can effectively bridge the linguistic domain gap stemming from English-dominated LSD to URD in various languages. Without bells and whistles, FreeReal achieves average gains of 1.97%, 3.90%, 3.85%, and 4.56% in improving the performance of FCENet, PSENet, PANet, and DBNet methods, respectively, consistently outperforming previous pre-training methods by a substantial margin across four public datasets. Code is available at https://github.com/SJTU-DeepVisionLab/FreeReal.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 空間量子ビットにおける電磁相互作用による劣化

Dephasing due to electromagnetic interactions in spatial qubits ( http://arxiv.org/abs/2312.05452v3 )

ライセンス: Link先を確認
Martine Schut, Herre Bosma, MengZhi Wu, Marko Toroš, Sougato Bose, Anupam Mazumdar, (参考訳) マイクロ粒子を用いた物質波干渉計により、次世代の量子センサーが微小量子位相情報を探索することができる。 したがって, 干渉計のコヒーレンス損失と絡み合いの程度を推定することが重要である。 本稿では,劣化の電磁源に着目した周波数空間における雑音解析について述べる。 我々の物質波干渉計は、周囲の粒子と相互作用できる残留電荷または双極子を持つと仮定する。 クーロン、電荷誘起双極子、電荷持続双極子、双極子-双極子相互作用による劣化について検討する。 これらの相互作用は、単一または複数の干渉計に影響を及ぼすことができる電磁駆動の劣化チャネルを構成する。 例えば, 隣接する2つのマイクロ粒子の状況に対して得られた式を適用し, 質量の量子重力誘起絡み合い(QGEM)プロトコルとC-NOTゲートのノイズ解析の知見を与える。 簡単な解析式を得るには, 衝突パラメータの均一分布と, 干渉計と環境粒子の速度のガウス分布との相対方向を特徴付ける角度を用いる。 どちらの場合も、期待通り真空室に存在する粒子の個数密度とともに、脱落速度が増大することを示す。

Matter-wave interferometers with micro-particles will enable the next generation of quantum sensors to probe minute quantum phase information. Therefore, estimating the loss of coherence and the degree of entanglement degradation for such interferometers is essential. In this paper, we will provide a noise analysis in frequency-space focusing on electromagnetic sources of dephasing. We will assume that our matter-wave interferometer has a residual charge or dipole which can interact with a neighbouring particle in the ambience. We will investigate the dephasing due to the Coulomb, charge-induced dipole, charge-permanent dipole, and dipole-dipole interactions. All these interactions constitute electromagnetically driven dephasing channels that can affect single or multiple interferometers. As an example, we will apply the obtained formulae to situations with two adjacent micro-particles, which can provide insight for the noise analysis in the quantum gravity-induced entanglement of masses (QGEM) protocol and the C-NOT gate: we will compute the dephasing due to a gas of environmental particles interacting via dipole-dipole and charge-charge couplings, respectively. To obtain simple analytical dephasing formulae, we will employ uniform probability distributions for the impact parameter and for the angles characterizing the relative orientation with respect to the interferometer and a Gaussian distribution for the velocities of the environmental particles. In both cases, we will show that the dephasing rate grows with the number density of particles present in the vacuum chamber, as expected.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# PhenDiff: 実画像における拡散モデルによるサブトル現象の解明

PhenDiff: Revealing Subtle Phenotypes with Diffusion Models in Real Images ( http://arxiv.org/abs/2312.08290v2 )

ライセンス: Link先を確認
Anis Bourou, Thomas Boyer, Kévin Daupin, Véronique Dubreuil, Aurélie De Thonel, Valérie Mezger, Auguste Genovesio, (参考訳) 過去数年間、様々なタスクの生物学的研究において、深層生成モデルがますます使われてきた。 近年、ヒトの目に直接識別できない微妙な細胞形質の違いを明らかにするのに有用であることが証明されている。 しかし、現在の手法は主にGAN(Generative Adversarial Networks)に依存している。 有効ではあるが、GANはトレーニング不安定性やモード崩壊などの問題を含み、実際の画像に基づいて出力を合成、操作、解釈するために必要とされるモデルの潜在空間に正確にイメージをマッピングしない。 本研究では,ある条件から別の条件への実際の画像の変換により,細胞性表現型の変化を特定するために設計された拡散モデル(DM)を利用した多クラス条件法であるPhenDiffを紹介する。 薬物治療の低濃度の場合など,表現型の変化が見えない場合や見えない場合において,この手法を質的,定量的に検証する。 全体としてPhenDiffは、実際の顕微鏡画像の細胞の変化を識別する貴重なツールだ。 我々は,新たなバイオマーカーの同定を通じて,疾患の理解と薬物発見の促進を期待する。

For the past few years, deep generative models have increasingly been used in biological research for a variety of tasks. Recently, they have proven to be valuable for uncovering subtle cell phenotypic differences that are not directly discernible to the human eye. However, current methods employed to achieve this goal mainly rely on Generative Adversarial Networks (GANs). While effective, GANs encompass issues such as training instability and mode collapse, and they do not accurately map images back to the model's latent space, which is necessary to synthesize, manipulate, and thus interpret outputs based on real images. In this work, we introduce PhenDiff: a multi-class conditional method leveraging Diffusion Models (DMs) designed to identify shifts in cellular phenotypes by translating a real image from one condition to another. We qualitatively and quantitatively validate this method on cases where the phenotypic changes are visible or invisible, such as in low concentrations of drug treatments. Overall, PhenDiff represents a valuable tool for identifying cellular variations in real microscopy images. We anticipate that it could facilitate the understanding of diseases and advance drug discovery through the identification of novel biomarkers.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# NFTのダークサイド:ウォッシュトレーディングの大規模実証研究

The Dark Side of NFTs: A Large-Scale Empirical Study of Wash Trading ( http://arxiv.org/abs/2312.12544v2 )

ライセンス: Link先を確認
Shijian Chen, Jiachi Chen, Jiangshan Yu, Xiapu Luo, Yanlin Wang, (参考訳) NFT(Non-Fungible Tokens)は2021年に初めて注目されて以来、大きく成長している。 しかし、NFT市場は偽の取引や経済バブル、例えばNFTウォッシュトレーディングに悩まされている。 ウォッシュトレーディング(Wash trading)とは、通常、同一人物または2人の個人を巻き込んだ取引のことであり、NFTエコシステムにとって大きな脅威となっている。 これまでの研究では、金融面からのみNFTウォッシュトレーディングが検出されていたが、現実のウォッシュトレーディングケースはより複雑である(例えば、市場価値を膨らませることを目的としていない)。 NFTウォッシュトレーディングをよりよく理解するためのマルチディメンジョン分析の欠如がある。 そこで本研究では,NFTの輸送イベント8,717,031件,販売イベント3,830,141件を2,701,883件から分析した。 最初に、OpenSea API経由で収集されたデータセットを最適化します。 次に,NFT洗剤取引の3つのタイプを特定し,識別アルゴリズムを提案する。 実験の結果,824件の転送イベントと5,330件のセールイベント(合計で8,857,070.41)および370件のNFT洗剤取引行動に関連するアドレスペアが報告され,最低損失は3,965,247.13であった。 さらに,マーケットプレース設計,収益性,NFTプロジェクト設計,支払トークン,ユーザ行動,NTTエコシステムの6つの側面から洞察を提供する。

NFTs (Non-Fungible Tokens) have seen significant growth since they first captured public attention in 2021. However, the NFT market is plagued by fake transactions and economic bubbles, e.g., NFT wash trading. Wash trading typically refers to a transaction involving the same person or two colluding individuals, and has become a major threat to the NFT ecosystem. Previous studies only detect NFT wash trading from the financial aspect, while the real-world wash trading cases are much more complicated (e.g., not aiming at inflating the market value). There is still a lack of multi-dimension analysis to better understand NFT wash trading. Therefore, we present the most comprehensive study of NFT wash trading, analyzing 8,717,031 transfer events and 3,830,141 sale events from 2,701,883 NFTs. We first optimize the dataset collected via the OpenSea API. Next, we identify three types of NFT wash trading and propose identification algorithms. Our experimental results reveal 824 transfer events and 5,330 sale events (accounting for a total of \$8,857,070.41) and 370 address pairs related to NFT wash trading behaviors, causing a minimum loss of \$3,965,247.13. Furthermore, we provide insights from six aspects, i.e., marketplace design, profitability, NFT project design, payment token, user behavior, and NFT ecosystem.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# PUMA:グラフ凝縮を用いたノード分類のための効率的な連続グラフ学習

PUMA: Efficient Continual Graph Learning for Node Classification with Graph Condensation ( http://arxiv.org/abs/2312.14439v2 )

ライセンス: Link先を確認
Yilun Liu, Ruihong Qiu, Yanran Tang, Hongzhi Yin, Zi Huang, (参考訳) ストリーミンググラフを扱う場合、既存のグラフ表現学習モデルは破滅的な忘れがちな問題に遭遇する。 これに対し、連続グラフ学習(Continuous Graph Learning, CGL)は、ストリーミンググラフからグラフ表現学習を可能にする新しいパラダイムとして登場した。 われわれの以前の作業であるCondense and Train (CaT)は、リプレイのための小さな効果的なメモリバンクを設計した、バランスの取れた連続的な学習手順を備えたリプレイベースのCGLフレームワークである。 CaTは破滅的な忘れの問題を緩和するが,(1)グラフ凝縮はラベル付きノードにのみ焦点をあてるが,(2)学習済みの知識に重きを置いて,新たな記憶から学習するモデル能力を制限するCaTの連続的なトレーニングスキーム,(3)凝縮過程と再生過程の両方に時間を要する,という3つの問題がある。 本稿では,PsUdo-label guided Memory bAnk (PUMA) CGLフレームワークを提案する。 グラフ内の情報をフル活用するために、PUMAはラベル付きノードと非ラベル付きノードの両方でグラフ凝縮時のノードのカバレッジを拡大する。 さらに,歴史グラフと新しいグラフとのバランスの取れたトレーニングのために,従来の継続学習方式を改良するための学習戦略を提案する。 さらに、PUMAは1回プロローゲーションとワイドグラフエンコーダを使用して、トレーニング段階におけるグラフ凝縮とグラフ符号化プロセスを加速し、フレームワーク全体の効率を向上させる。 ノード分類タスクのための6つのデータセットに対する大規模な実験は、既存の手法よりも最先端のパフォーマンスと効率を実証している。

When handling streaming graphs, existing graph representation learning models encounter a catastrophic forgetting problem, where previously learned knowledge of these models is easily overwritten when learning with newly incoming graphs. In response, Continual Graph Learning (CGL) emerges as a novel paradigm enabling graph representation learning from streaming graphs. Our prior work, Condense and Train (CaT) is a replay-based CGL framework with a balanced continual learning procedure, which designs a small yet effective memory bankn for replaying. Although the CaT alleviates the catastrophic forgetting problem, there exist three issues: (1) The graph condensation only focuses on labelled nodes while neglecting abundant information carried by unlabelled nodes; (2) The continual training scheme of the CaT overemphasises on the previously learned knowledge, limiting the model capacity to learn from newly added memories; (3) Both the condensation process and replaying process of the CaT are time-consuming. In this paper, we propose a PsUdo-label guided Memory bAnk (PUMA) CGL framework, extending from the CaT to enhance its efficiency and effectiveness by overcoming the above-mentioned weaknesses and limits. To fully exploit the information in a graph, PUMA expands the coverage of nodes during graph condensation with both labelled and unlabelled nodes. Furthermore, a training-from-scratch strategy is proposed to upgrade the previous continual learning scheme for a balanced training between the historical and the new graphs. Besides, PUMA uses a one-time prorogation and wide graph encoders to accelerate the graph condensation and the graph encoding process in the training stage to improve the efficiency of the whole framework. Extensive experiments on six datasets for the node classification task demonstrate the state-of-the-art performance and efficiency over existing methods.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 進化的多目的最適化におけるベイズ逆変換

Bayesian Inverse Transfer in Evolutionary Multiobjective Optimization ( http://arxiv.org/abs/2312.14713v4 )

ライセンス: Link先を確認
Jiao Liu, Abhishek Gupta, Yew-Soon Ong, (参考訳) 転送最適化により、関連するソースタスクからの経験的事前情報を活用することで、ターゲットタスクのデータ効率の最適化が可能になる。 これは、厳密な評価予算の下で一連のトレードオフソリューションを求める多目的最適化設定において特に有用である。 本稿では,多目的最適化における「textit{inverse transfer}」という新しい概念を紹介する。 逆移動は、目的空間内の性能ベクトルをタスク固有の決定空間内の集団探索分布にマッピングするためにベイジアン逆ガウス過程モデルを用いることで際立っている。 このアイデアに基づいて,InvTrEMO(Inverse Transfer Evolutionary Multiobjective Optimizer)を提案する。 invTrEMOの重要な特徴は、多くのアプリケーション領域で広く使われている共通の目的関数を活用する能力である。 これにより、invTrEMOは異種ソースタスクからの情報をユニークかつ効果的に利用することができる。 さらに、invTrEMOは、高精度の逆モデルを重要な副産物として提供し、ユーザの好みに基づいて、オンデマンドで調整されたソリューションを生成できるようにする。 多目的および多目的ベンチマーク問題に関する実証研究は、実例研究と同様に、最先端の進化的およびベイズ最適化アルゴリズムと比較して、invTrEMOの高速収束率とモデリング精度を示す。 invTrEMOのソースコードはhttps://github.com/LiuJ-2023/invTrEMOで公開されている。

Transfer optimization enables data-efficient optimization of a target task by leveraging experiential priors from related source tasks. This is especially useful in multiobjective optimization settings where a set of trade-off solutions is sought under tight evaluation budgets. In this paper, we introduce a novel concept of \textit{inverse transfer} in multiobjective optimization. Inverse transfer stands out by employing Bayesian inverse Gaussian process models to map performance vectors in the objective space to population search distributions in task-specific decision space, facilitating knowledge transfer through objective space unification. Building upon this idea, we introduce the first Inverse Transfer Evolutionary Multiobjective Optimizer (invTrEMO). A key highlight of invTrEMO is its ability to harness the common objective functions prevalent in many application areas, even when decision spaces do not precisely align between tasks. This allows invTrEMO to uniquely and effectively utilize information from heterogeneous source tasks as well. Furthermore, invTrEMO yields high-precision inverse models as a significant byproduct, enabling the generation of tailored solutions on-demand based on user preferences. Empirical studies on multi- and many-objective benchmark problems, as well as a practical case study, showcase the faster convergence rate and modelling accuracy of the invTrEMO relative to state-of-the-art evolutionary and Bayesian optimization algorithms. The source code of the invTrEMO is made available at https://github.com/LiuJ-2023/invTrEMO.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 多要素医用画像分割のための補完的情報相互学習

Complementary Information Mutual Learning for Multimodality Medical Image Segmentation ( http://arxiv.org/abs/2401.02717v2 )

ライセンス: Link先を確認
Chuyun Shen, Wenhao Li, Haoqing Chen, Xiaoling Wang, Fengping Zhu, Yuxin Li, Xiangfeng Wang, Bo Jin, (参考訳) 放射線技師は、医療画像の限界と腫瘍信号の多様性のために、腫瘍のセグメント化と診断に複数のモーダル画像を使用する必要がある。 これはセグメンテーションにおけるマルチモーダル学習の発展に繋がる。 しかし、モダリティ間の冗長性は、モダリティの重要性を誤認したり、特定のモダリティ情報を無視したり、認知負荷を増大させたり、既存のサブトラクションベースのジョイントラーニング手法に課題をもたらす。 これらの厄介な問題は最終的にセグメンテーションの精度を低下させ、オーバーフィッティングのリスクを増大させる。 本稿では,モーダル間冗長情報の負の影響を数学的にモデル化し,対処する相補的情報相互学習(CIML)フレームワークを提案する。 CIMLは追加の概念を採用し、帰納的バイアス駆動型タスク分解とメッセージパッシングに基づく冗長性フィルタリングを通じて、モーダル間冗長情報を除去する。 CIMLは、まず、専門家の事前知識に基づいてマルチモーダルセグメンテーションタスクを複数のサブタスクに分解し、モダリティ間の情報依存を最小限にする。 さらに、CIMLはメッセージパッシングを通じて、各モダリティが他のモダリティから情報を付加的に抽出できるスキームを導入する。 抽出された情報の非冗長性を達成するために、冗長なフィルタリングを変動情報ボトルネックにインスパイアされた相補的な情報学習に変換する。 相補的な情報学習手順は、変分推論とクロスモーダル空間的注意によって効率よく解決できる。 検証タスクと標準ベンチマークの数値結果から、CIMLは効率よくモダリティ間の冗長情報を除去し、検証精度とセグメンテーション効果に関するSOTA法より優れていることが示された。

Radiologists must utilize multiple modal images for tumor segmentation and diagnosis due to the limitations of medical imaging and the diversity of tumor signals. This leads to the development of multimodal learning in segmentation. However, the redundancy among modalities creates challenges for existing subtraction-based joint learning methods, such as misjudging the importance of modalities, ignoring specific modal information, and increasing cognitive load. These thorny issues ultimately decrease segmentation accuracy and increase the risk of overfitting. This paper presents the complementary information mutual learning (CIML) framework, which can mathematically model and address the negative impact of inter-modal redundant information. CIML adopts the idea of addition and removes inter-modal redundant information through inductive bias-driven task decomposition and message passing-based redundancy filtering. CIML first decomposes the multimodal segmentation task into multiple subtasks based on expert prior knowledge, minimizing the information dependence between modalities. Furthermore, CIML introduces a scheme in which each modality can extract information from other modalities additively through message passing. To achieve non-redundancy of extracted information, the redundant filtering is transformed into complementary information learning inspired by the variational information bottleneck. The complementary information learning procedure can be efficiently solved by variational inference and cross-modal spatial attention. Numerical results from the verification task and standard benchmarks indicate that CIML efficiently removes redundant information between modalities, outperforming SOTA methods regarding validation accuracy and segmentation effect.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# SecureReg: 悪性ドメイン名登録の強化のためのNLPとMLPの組み合わせ

SecureReg: Combining NLP and MLP for Enhanced Detection of Malicious Domain Name Registrations ( http://arxiv.org/abs/2401.03196v3 )

ライセンス: Link先を確認
Furkan Çolhak, Mert İlhan Ecevit, Hasan Dağ, Reiner Creutzburg, (参考訳) サイバー脅威のエスカレートする状況は、スパム、フィッシング、ドライブ・バイ・ダウンロードといった大規模なインターネット攻撃のために毎日何千もの新しいドメインが登録されていることが特徴であり、革新的な検出方法の必須点である。 本稿では,登録プロセス開始時に疑わしいドメインを特定するための最先端アプローチを提案する。 付随するデータパイプラインは、新しいドメインを登録ドメインと比較することで重要な特徴を生成し、重要な類似性スコアを強調する。 提案システムは,事前学習されたCANINEモデルとMLPモデルを含む,自然言語処理(NLP)技術の新たな組み合わせを利用して,意味的および数値的特性を分析し,早期脅威検出のための堅牢なソリューションを提供する。 この統合された事前学習NLP(CANINE) + MLPモデルは、個々の事前学習NLPモデルとスタンドアロンMLPモデルの両方を上回る優れた性能を示す。 F1スコアは84.86\%で、SecureRegデータセットでは84.95\%の精度で、悪意のあるドメイン登録を効果的に検出する。 本研究は, 統合的アプローチの有効性を実証し, 不審なドメイン登録の早期発見を通じて, 不正なオンライン活動に伴うリスクを軽減するための積極的な戦略開発に寄与する。

The escalating landscape of cyber threats, characterized by the registration of thousands of new domains daily for large-scale Internet attacks such as spam, phishing, and drive-by downloads, underscores the imperative for innovative detection methodologies. This paper introduces a cutting-edge approach for identifying suspicious domains at the onset of the registration process. The accompanying data pipeline generates crucial features by comparing new domains to registered domains, emphasizing the crucial similarity score. The proposed system analyzes semantic and numerical attributes by leveraging a novel combination of Natural Language Processing (NLP) techniques, including a pretrained CANINE model and Multilayer Perceptron (MLP) models, providing a robust solution for early threat detection. This integrated Pretrained NLP (CANINE) + MLP model showcases the outstanding performance, surpassing both individual pretrained NLP models and standalone MLP models. With an F1 score of 84.86\% and an accuracy of 84.95\% on the SecureReg dataset, it effectively detects malicious domain registrations. The findings demonstrate the effectiveness of the integrated approach and contribute to the ongoing efforts to develop proactive strategies to mitigate the risks associated with illicit online activities through the early identification of suspicious domain registrations.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# HTMLコンテンツのマルチモデル解析によるフィッシングサイトの検出

Phishing Website Detection through Multi-Model Analysis of HTML Content ( http://arxiv.org/abs/2401.04820v3 )

ライセンス: Link先を確認
Furkan Çolhak, Mert İlhan Ecevit, Bilal Emir Uçar, Reiner Creutzburg, Hasan Dağ, (参考訳) コミュニケーションや仕事の仕方は、インターネットの台頭とともに大きく変化した。 新たな機会が開かれた一方で、サイバー脅威の増加ももたらした。 この研究は、HTMLコンテンツに細心の注意を払ってフォーカスする高度な検出モデルを導入することで、フィッシングの急激な問題に対処する。 提案手法は,構造化表データのための特殊多層パーセプトロン(MLP)モデルと,ページタイトルやコンテンツなどのテキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。 これらのモデルからの埋め込みは、新しい融合プロセスを通じて調和して結合される。 結果として生じる融合埋め込みは線形分類器に入力される。 総合的なフィッシング研究のための最近のデータセットの不足を認識し、我々の貢献は、コミュニティとオープンに共有する最新のデータセットの作成にまで及ぶ。 データセットは、実生活のフィッシング条件を反映し、妥当性と適用性を保証するために慎重にキュレートされている。 CANINEはページタイトルの分析に優れた性能を示し,RoBERTaはページコンテンツの評価に優れていた。 2つのNLPと1つのMLPモデルの融合により、96.80 F1スコアと97.18精度スコアが得られた。 さらに,提案手法はCatchPhish HTMLデータセットの既存手法よりも優れており,有効性を示している。

The way we communicate and work has changed significantly with the rise of the Internet. While it has opened up new opportunities, it has also brought about an increase in cyber threats. One common and serious threat is phishing, where cybercriminals employ deceptive methods to steal sensitive information.This study addresses the pressing issue of phishing by introducing an advanced detection model that meticulously focuses on HTML content. Our proposed approach integrates a specialized Multi-Layer Perceptron (MLP) model for structured tabular data and two pretrained Natural Language Processing (NLP) models for analyzing textual features such as page titles and content. The embeddings from these models are harmoniously combined through a novel fusion process. The resulting fused embeddings are then input into a linear classifier. Recognizing the scarcity of recent datasets for comprehensive phishing research, our contribution extends to the creation of an up-to-date dataset, which we openly share with the community. The dataset is meticulously curated to reflect real-life phishing conditions, ensuring relevance and applicability. The research findings highlight the effectiveness of the proposed approach, with the CANINE demonstrating superior performance in analyzing page titles and the RoBERTa excelling in evaluating page content. The fusion of two NLP and one MLP model,termed MultiText-LP, achieves impressive results, yielding a 96.80 F1 score and a 97.18 accuracy score on our research dataset. Furthermore, our approach outperforms existing methods on the CatchPhish HTML dataset, showcasing its efficacies.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 連続変数を用いた量子カーネル機械学習

Quantum Kernel Machine Learning With Continuous Variables ( http://arxiv.org/abs/2401.05647v4 )

ライセンス: Link先を確認
Laura J. Henderson, Rishi Goel, Sally Shrapnel, (参考訳) 人気の高いqubitフレームワークは、量子カーネル機械学習に関する最近の研究を支配しており、表現性、学習可能性、一般化を特徴付けている。 今のところ、連続変数(CV)量子コンピューティングプラットフォームにおいて、これらの概念を理解するための比較フレームワークは存在しない。 本稿では,CV量子カーネルを閉形式関数として表現し,この表現を用いていくつかの重要な理論的知見を提供する。 すべてのCV量子核に対して一般閉形式解を導出し、そのような全ての核がガウス函数と特徴写像のパラメータの代数函数の積として表現できることを示す。 さらに、マルチモードの場合、量子カーネル特徴写像の「星級数」という階層的な概念を用いて、全ての量子カーネルに対して量子古典的分離の量子化を示す。 そして、GKP状態符号化のような無限星級数の特徴写像で定義されるカーネルを、有限星級数の特徴写像で定義されるカーネルで任意に近似できることを示す。 最後に、単一モードのFock状態の符号化で学習をシミュレートし、そのことを示す。 i) 特定のタスク(環状データセット)の精度は、星級によって増加する。 (ii)不適合モデルでは、帯域幅ハイパーパラメータを増大させることで精度を向上させることができる。 第三に、過度に適合するノイズデータの場合、帯域幅を減らせば一般化が向上するが、有効星級のコストがかかる。

The popular qubit framework has dominated recent work on quantum kernel machine learning, with results characterising expressivity, learnability and generalisation. As yet, there is no comparative framework to understand these concepts for continuous variable (CV) quantum computing platforms. In this paper we represent CV quantum kernels as closed form functions and use this representation to provide several important theoretical insights. We derive a general closed form solution for all CV quantum kernels and show every such kernel can be expressed as the product of a Gaussian and an algebraic function of the parameters of the feature map. Furthermore, in the multi-mode case, we present quantification of a quantum-classical separation for all quantum kernels via a hierarchical notion of the "stellar rank" of the quantum kernel feature map. We then prove kernels defined by feature maps of infinite stellar rank, such as GKP-state encodings, can be approximated arbitrarily well by kernels defined by feature maps of finite stellar rank. Finally, we simulate learning with a single-mode displaced Fock state encoding and show that (i) accuracy on our specific task (an annular data set) increases with stellar rank, (ii) for underfit models, accuracy can be improved by increasing a bandwidth hyperparameter, and (iii) for noisy data that is overfit, decreasing the bandwidth will improve generalisation but does so at the cost of effective stellar rank.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# グラディエント・スリングショットによる特徴可視化の操作

Manipulating Feature Visualizations with Gradient Slingshots ( http://arxiv.org/abs/2401.06122v2 )

ライセンス: Link先を確認
Dilyara Bareeva, Marina M. -C. Höhne, Alexander Warnecke, Lukas Pirch, Klaus-Robert Müller, Konrad Rieck, Kirill Bykov, (参考訳) ディープニューラルネットワーク(DNN)は複雑で汎用的な表現を学習することができるが、学習概念の意味的性質はいまだ不明である。 DNNが学んだ概念を説明するのに使われる一般的な方法は、ネットワーク内の特定のニューロンを最大限に活性化する合成入力信号を生成する特徴可視化(FV)である。 本稿では,本手法の逆モデル操作に対する脆弱性について検討し,モデル決定過程に大きな影響を及ぼすことなくFVを操作する新しい手法を提案する。 提案したアプローチの重要な違いは、モデルアーキテクチャを変更しないことです。 提案手法の有効性をいくつかのニューラルネットワークモデルで評価し, モデル監査中に選択された目的説明でニューロンの本来の説明を隠蔽することにより, 任意の選択されたニューロンの機能を隠す能力を示す。

Deep Neural Networks (DNNs) are capable of learning complex and versatile representations, however, the semantic nature of the learned concepts remains unknown. A common method used to explain the concepts learned by DNNs is Feature Visualization (FV), which generates a synthetic input signal that maximally activates a particular neuron in the network. In this paper, we investigate the vulnerability of this approach to adversarial model manipulations and introduce a novel method for manipulating FV without significantly impacting the model's decision-making process. The key distinction of our proposed approach is that it does not alter the model architecture. We evaluate the effectiveness of our method on several neural network models and demonstrate its capabilities to hide the functionality of arbitrarily chosen neurons by masking the original explanations of neurons with chosen target explanations during model auditing.
翻訳日:2024-07-11 21:59:38 公開日:2024-07-10
# 単一ホール占有における垂直2重量子ドットの結合

Coupled vertical double quantum dots at single-hole occupancy ( http://arxiv.org/abs/2401.07736v2 )

ライセンス: Link先を確認
Alexander Ivlev, Hanifa Tidjani, Stefan Oosterhout, Amir Sammak, Giordano Scappucci, Menno Veldhorst, (参考訳) ゲート定義量子ドットは、量子計算の魅力的なプラットフォームを定義し、平面配列に個々の電荷を閉じ込めるために使われてきた。 ここでは、二重量子井戸、シリコン-ゲルマニウムヘテロ構造に閉じ込められた垂直二重量子ドットの制御を実証する。 単一ホールトランジスタで個々の電荷遷移を感知する。 量子井戸間の垂直分離は、量子井戸の上と下にある量子ドットを区別するのに十分な容量結合の差を与える。 垂直の二重量子ドットを (1,1) の電荷状態に調整すると、1つのプランジャゲートの下にある各量子井戸に1つの穴が閉じられる。 隣り合う2つのプランジャーゲートの下の穴を同時に集積することで、 (1,1,1,1) の電荷状態にチューニングすることができる。 これらの結果は、第3次元を利用する量子ドットシステムを動機付け、量子シミュレーションと量子コンピューティングの新しい機会を開く。

Gate-defined quantum dots define an attractive platform for quantum computation and have been used to confine individual charges in a planar array. Here, we demonstrate control over vertical double quantum dots confined in a double quantum well, silicon-germanium heterostructure. We sense individual charge transitions with a single-hole transistor. The vertical separation between the quantum wells provides a sufficient difference in capacitive coupling to distinguish quantum dots located in the top and bottom quantum well. Tuning the vertical double quantum dot to the (1,1) charge state confines a single hole in each quantum well beneath a single plunger gate. By simultaneously accumulating holes under two neighbouring plunger gates, we are able to tune to the (1,1,1,1) charge state. These results motivate quantum dot systems that exploit the third dimension, opening new opportunities for quantum simulation and quantum computing.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 多目的二レベル最適化のための一階多重勾配アルゴリズム

A First-Order Multi-Gradient Algorithm for Multi-Objective Bi-Level Optimization ( http://arxiv.org/abs/2401.09257v2 )

ライセンス: Link先を確認
Feiyang Ye, Baijiong Lin, Xiaofeng Cao, Yu Zhang, Ivor Tsang, (参考訳) 本稿では,上層サブプロブレムが多目的最適化問題であり,下層サブプロブレムがスカラー最適化問題であるMOBLO(Multi-Objective Bi-Level Optimization)問題について検討する。 既存の勾配に基づくMOBLOアルゴリズムはヘッセン行列を計算する必要があり、計算不効率な問題を引き起こす。 そこで本研究では,FOUMと呼ばれるMOBLOの高効率な1次多段階化手法を提案する。 具体的には,MOBLO問題を値関数法による制約付き多目的最適化(MOO)問題として再構成する。 そこで本研究では,制約の厳しいMOO問題を解くために,新しい多段階集約手法を提案する。 理論的には、提案手法の効率と非漸近収束結果を示す複雑さ解析を提供する。 実験的に、異なる学習問題において提案手法の有効性と効率を実証した。 特に、3つのマルチタスク学習ベンチマークデータセットで最先端のパフォーマンスを実現する。 コードはhttps://github.com/Baijiong-Lin/FORUMで公開されている。

In this paper, we study the Multi-Objective Bi-Level Optimization (MOBLO) problem, where the upper-level subproblem is a multi-objective optimization problem and the lower-level subproblem is for scalar optimization. Existing gradient-based MOBLO algorithms need to compute the Hessian matrix, causing the computational inefficient problem. To address this, we propose an efficient first-order multi-gradient method for MOBLO, called FORUM. Specifically, we reformulate MOBLO problems as a constrained multi-objective optimization (MOO) problem via the value-function approach. Then we propose a novel multi-gradient aggregation method to solve the challenging constrained MOO problem. Theoretically, we provide the complexity analysis to show the efficiency of the proposed method and a non-asymptotic convergence result. Empirically, extensive experiments demonstrate the effectiveness and efficiency of the proposed FORUM method in different learning problems. In particular, it achieves state-of-the-art performance on three multi-task learning benchmark datasets. The code is available at https://github.com/Baijiong-Lin/FORUM.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# インタラクションの倫理 - LLMにおけるセキュリティ脅威の緩和

The Ethics of Interaction: Mitigating Security Threats in LLMs ( http://arxiv.org/abs/2401.12273v2 )

ライセンス: Link先を確認
Ashutosh Kumar, Shiv Vignesh Murthy, Sagarika Singh, Swathy Ragupathy, (参考訳) 本稿では,セキュリティの脅威から大規模言語モデル(LLM)への倫理的課題を包括的に検討する。 これらの複雑なデジタルレポジトリは、日々の生活にますます統合されており、トレーニングデータとデータソースの機密性を侵害する攻撃の主ターゲットとなっている。 この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。 我々は、予防注射、脱獄、個人識別情報(PII)露出、性的明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な防衛戦略のために作り出した緊急性を評価する。 LLMへの依存の増大は、これらのシステムが倫理的規範の範囲内で運用されることを保証するための重要な必要性を浮き彫りにしている。 本稿では,LLMに適した評価ツールの構想と開発について提案する。これは,開発者とデザイナに対して,バックエンドシステムのプリエンプティブな強化を指導し,テストフェーズにおけるLLMチャットボット応答の倫理的側面を精査する,という2つの目的を実現する。 道徳的文脈におけるLLMの反応と人間の期待する反応を比較することにより、より広い社会が持つ倫理的価値観とAIの行動がどの程度一致しているかを明らかにすることを目的とする。 最終的に、本論文は、LLMが提示する倫理的問題を浮き彫りにするだけでなく、これらのシステムへの信頼を育むための道のりも強調する。

This paper comprehensively explores the ethical challenges arising from security threats to Large Language Models (LLMs). These intricate digital repositories are increasingly integrated into our daily lives, making them prime targets for attacks that can compromise their training data and the confidentiality of their data sources. The paper delves into the nuanced ethical repercussions of such security threats on society and individual privacy. We scrutinize five major threats--prompt injection, jailbreaking, Personal Identifiable Information (PII) exposure, sexually explicit content, and hate-based content--going beyond mere identification to assess their critical ethical consequences and the urgency they create for robust defensive strategies. The escalating reliance on LLMs underscores the crucial need for ensuring these systems operate within the bounds of ethical norms, particularly as their misuse can lead to significant societal and individual harm. We propose conceptualizing and developing an evaluative tool tailored for LLMs, which would serve a dual purpose: guiding developers and designers in preemptive fortification of backend systems and scrutinizing the ethical dimensions of LLM chatbot responses during the testing phase. By comparing LLM responses with those expected from humans in a moral context, we aim to discern the degree to which AI behaviors align with the ethical values held by a broader society. Ultimately, this paper not only underscores the ethical troubles presented by LLMs; it also highlights a path toward cultivating trust in these systems.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 左・右脳と人間の運動制御とロボット工学への応用

Left/Right Brain, human motor control and the implications for robotics ( http://arxiv.org/abs/2401.14057v2 )

ライセンス: Link先を確認
Jarrad Rinaldo, Levin Kuhlmann, Jason Friedman, Gideon Kowadlo, (参考訳) ニューラルネットワークムーブメントコントローラは従来の制御方式に対して様々な利点を約束するが、確実な正確な動作を生成できないため、広く採用されていない。 本研究は、運動タスクの制御システムとして、二元的ニューラルネットワークアーキテクチャを探求する。 本研究の目的は,移動のコーディネーションと効率性を含むタスクにおいて,支配的システム(通常は右手,左半球)が優れ,非支配的システムは位置安定性を必要とするタスクにおいて,より優れた性能を発揮することであった。 特殊化は、各半球の期待する振る舞いに合わせて異なる損失関数を持つ半球を訓練することで達成された。 両片側モデルと特化半球,半球間接続(生物体Callosumを表わす),および片側モデルと特殊化せずに比較した。 これらのモデルは、人間のモーターコントロールの文献に共通する2つのタスク、すなわち、支配的なシステムに適したランダムリーチタスク、より良いコーディネーションを持つモデル、非支配的なシステムに適したホールドポジションタスク、より安定した動きを持つモデルで訓練され、テストされた。 各システムは、好まれるタスクにおいて、非推奨のシステムより優れていた。 どちらの作業においても、二元的モデルは非好ましくない手より優れており、好ましくも好ましくも優れていた。 結果は、半球はタスクで協力したり、自身の強みとは独立して働く可能性があることを示唆している。 この研究は、生物学的にインスパイアされた二元的アーキテクチャを産業用モーター制御にどのように活用するかについてのアイデアを提供する。

Neural Network movement controllers promise a variety of advantages over conventional control methods, however, they are not widely adopted due to their inability to produce reliably precise movements. This research explores a bilateral neural network architecture as a control system for motor tasks. We aimed to achieve hemispheric specialisation similar to what is observed in humans across different tasks; the dominant system (usually the right hand, left hemisphere) excels at tasks involving coordination and efficiency of movement, and the non-dominant system performs better at tasks requiring positional stability. Specialisation was achieved by training the hemispheres with different loss functions tailored to the expected behaviour of the respective hemispheres. We compared bilateral models with and without specialised hemispheres, with and without inter-hemispheric connectivity (representing the biological Corpus Callosum), and unilateral models with and without specialisation. The models were trained and tested on two tasks common in the human motor control literature: the random reach task, suited to the dominant system, a model with better coordination, and the hold position task, suited to the non-dominant system, a model with more stable movement. Each system outperformed the non-preferred system in its preferred task. For both tasks, a bilateral model outperformed the non-preferred hand and was as good or better than the preferred hand. The results suggest that the hemispheres could collaborate on tasks or work independently to their strengths. This study provides ideas for how a biologically inspired bilateral architecture could be exploited for industrial motor control.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 自閉症スペクトラム障害児におけるロボット介入のための人間介在型大規模言語モデル

Human-mediated Large Language Models for Robotic Intervention in Children with Autism Spectrum Disorders ( http://arxiv.org/abs/2402.00260v2 )

ライセンス: Link先を確認
Ruchik Mishra, Karla Conn Welch, Dan O Popa, (参考訳) 自閉症スペクトラム障害(ASD)の個人に対するロボットによる介入は、一般的に1対1のセラピーセッションの間、言語コンテンツを提供するために定義済みのスクリプトを使用してきた。 この慣行は、ロボットの使用を制限され、事前に媒介された教育カリキュラムに制限する。 本稿では,ASDを実践する子どもに対して,視点学習を実践することで,ロボットの自律性を向上する。 提案手法では,大規模言語モデル (LLM) を用いてテキストとして言語コンテンツを生成し,ロボット音声で子供に届ける。 提案するパイプラインでは,ロボットが3つの役割を担っている視点取り(initiator, prompter, reforcer)を教える。 我々は、GPT-2+BARTパイプラインを採用し、社会的状況を生成し、質問(開始者として)し、必要なときにオプション(プロンプトとして)を与えました。 ロボットは、正しい答え(強化者として)に対して正の強化を与えることで、子供を励ます。 技術的な貢献に加えて、実際の視点教育セッションをシミュレートしたドメインエキスパートと10分間のセッションを行い、研究者は児童学生として行動した。 これらのセッションは、NASA TLXやGodSpeedなどの調査を通じて、私たちのロボット介入パイプラインを検証しました。 GPT-2+BARTパイプラインを全GPT-2と比較するためにBERTScoreを使用しました。 ドメインの専門家の回答に基づき、ロボットセッションは、ロボットセッションと比較して、精神的、身体的要求、時間的要求、努力、フラストレーションを増すことなく、より高いパフォーマンスを示した。 また、ドメインの専門家はロボットを理想的に安全で、可読性があり、信頼性が高いと感じていると結論付けました。

The robotic intervention for individuals with Autism Spectrum Disorder (ASD) has generally used pre-defined scripts to deliver verbal content during one-to-one therapy sessions. This practice restricts the use of robots to limited, pre-mediated instructional curricula. In this paper, we increase robot autonomy in one such robotic intervention for children with ASD by implementing perspective-taking teaching. Our approach uses large language models (LLM) to generate verbal content as texts and then deliver it to the child via robotic speech. In the proposed pipeline, we teach perspective-taking through which our robot takes up three roles: initiator, prompter, and reinforcer. We adopted the GPT-2 + BART pipelines to generate social situations, ask questions (as initiator), and give options (as prompter) when required. The robot encourages the child by giving positive reinforcement for correct answers (as a reinforcer). In addition to our technical contribution, we conducted ten-minute sessions with domain experts simulating an actual perspective teaching session, with the researcher acting as a child participant. These sessions validated our robotic intervention pipeline through surveys, including those from NASA TLX and GodSpeed. We used BERTScore to compare our GPT-2 + BART pipeline with an all GPT-2 and found the performance of the former to be better. Based on the responses by the domain experts, the robot session demonstrated higher performance with no additional increase in mental or physical demand, temporal demand, effort, or frustration compared to a no-robot session. We also concluded that the domain experts perceived the robot as ideally safe, likable, and reliable.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 第7回CiMEチャレンジUDASE課題における音声強調手法の客観的・主観的評価

Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge ( http://arxiv.org/abs/2402.01413v2 )

ライセンス: Link先を確認
Simon Leglaive, Matthieu Fraticelli, Hend ElGhazaly, Léonie Borne, Mostafa Sadeghi, Scott Wisdom, Manuel Pariente, John R. Hershey, Daniel Pressnitzer, Jon P. Barker, (参考訳) クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。 しかし、合成訓練条件は、テスト中に遭遇した現実世界の状態を正確に反映するものではない。 この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。 この問題に対処するため,第7回CHiMEチャレンジのUDASEタスクでは,テスト領域からの実世界の雑音の多い音声記録を活用して,音声強調モデルの教師なし領域適応を目指した。 特に、このテスト領域は、実マルチスピーカと会話音声記録を特徴とするCHiME-5データセットに対応し、地上の清潔な音声信号が利用できない、騒音および残響な家庭環境下での会話音声記録を行う。 本稿では,CHiME-7 UDASEタスクに提出されたシステムの目的的,主観的な評価を行い,その結果について分析する。 この分析により、主観的評価と、最近提案された音声強調のための教師付きノンイントラッシブパフォーマンス指標との間には、限定的な相関関係が明らかとなった。 逆に、この課題のために開発された残響LibriCHiME-5データセットを用いて、ドメイン内のパフォーマンス評価に、より伝統的な侵入的客観的指標を用いることが示唆された。 主観評価は、すべてのシステムが背景雑音を低減できたが、常に歪みの増大を犠牲にしていたことを示している。 主観的に評価された4つの音声強調法のうち,未処理の雑音音声に比べて全体的な品質の向上が示され,課題の難しさを浮き彫りにした。 CHiME-7 UDASEタスクのために作成されたツールとオーディオ資料はコミュニティと共有されている。

Supervised models for speech enhancement are trained using artificially generated mixtures of clean speech and noise signals. However, the synthetic training conditions may not accurately reflect real-world conditions encountered during testing. This discrepancy can result in poor performance when the test domain significantly differs from the synthetic training domain. To tackle this issue, the UDASE task of the 7th CHiME challenge aimed to leverage real-world noisy speech recordings from the test domain for unsupervised domain adaptation of speech enhancement models. Specifically, this test domain corresponds to the CHiME-5 dataset, characterized by real multi-speaker and conversational speech recordings made in noisy and reverberant domestic environments, for which ground-truth clean speech signals are not available. In this paper, we present the objective and subjective evaluations of the systems that were submitted to the CHiME-7 UDASE task, and we provide an analysis of the results. This analysis reveals a limited correlation between subjective ratings and several supervised nonintrusive performance metrics recently proposed for speech enhancement. Conversely, the results suggest that more traditional intrusive objective metrics can be used for in-domain performance evaluation using the reverberant LibriCHiME-5 dataset developed for the challenge. The subjective evaluation indicates that all systems successfully reduced the background noise, but always at the expense of increased distortion. Out of the four speech enhancement methods evaluated subjectively, only one demonstrated an improvement in overall quality compared to the unprocessed noisy speech, highlighting the difficulty of the task. The tools and audio material created for the CHiME-7 UDASE task are shared with the community.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 「Can You Play Anything Else?」 : リーグ・オブ・レジェンドにおけるプレイスタイルの柔軟性の理解

"Can You Play Anything Else?" Understanding Play Style Flexibility in League of Legends ( http://arxiv.org/abs/2402.05865v2 )

ライセンス: Link先を確認
Emily Chen, Alexander Bisberg, Emilio Ferrara, (参考訳) 本研究では,オンラインマルチプレイヤーゲームであるLeague of Legendsにおけるフレキシビリティの概念について検討し,ユーザ適応性とチームの成功との関係に着目した。 スキルレベルとプレイスタイルの異なるプレイヤーを対象とするデータセットを利用することで、各プレイヤーの柔軟性を総合的柔軟性と時間的柔軟性の2つの尺度で算出する。 以上の結果から,ユーザの柔軟性はユーザの好みのプレイスタイルに依存し,柔軟性は結果に一致することが示唆された。 この研究は、スキルレベルがプレイヤーがプレイスタイルに適応する意思を示すだけでなく、時間とともにその適応性がどのように変化するかを示すことも示している。 本稿では, 競争環境における戦略的計画, 協力, 資源配分の両立と柔軟性の両立を強調した。

This study investigates the concept of flexibility within League of Legends, a popular online multiplayer game, focusing on the relationship between user adaptability and team success. Utilizing a dataset encompassing players of varying skill levels and play styles, we calculate two measures of flexibility for each player: overall flexibility and temporal flexibility. Our findings suggest that the flexibility of a user is dependent upon a user's preferred play style, and flexibility does impact match outcome. This work also shows that skill level not only indicates how willing a player is to adapt their play style but also how their adaptability changes over time. This paper highlights the duality and balance of specialization versus flexibility, providing insights that can inform strategic planning, collaboration and resource allocation in competitive environments.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 3Dガウス、新たな時代へ-調査

3D Gaussian as a New Era: A Survey ( http://arxiv.org/abs/2402.07181v2 )

ライセンス: Link先を確認
Ben Fei, Jingyi Xu, Rui Zhang, Qingyuan Zhou, Weidong Yang, Ying He, (参考訳) 3D Gaussian Splatting (3D-GS)は、ニューラルネットワーク(Neural Radiance Fields, NeRF)のようなニューラルネットワークに依存することなく、明示的なシーン表現と新しいビュー合成を提供するコンピュータグラフィックスの分野で大きな進歩を遂げている。 この技術は、ロボティクス、都市マッピング、自律ナビゲーション、仮想現実/拡張現実などの分野に多様な応用を見出した。 本稿では,3Dガウススプラッティングにおける普及と研究の進展を踏まえ,過去1年間の関連論文を包括的に調査する。 本調査は,3次元ガウススプラッティングの理論的基盤となる特徴と応用に基づいて分類学に整理した。 本調査の目的は,3次元ガウシアン・スプラッティング(3D Gaussian Splatting)の研究者を知っており,この分野における基礎研究の貴重な参考として機能し,今後の研究の方向性を示唆することである。

3D Gaussian Splatting (3D-GS) has emerged as a significant advancement in the field of Computer Graphics, offering explicit scene representation and novel view synthesis without the reliance on neural networks, such as Neural Radiance Fields (NeRF). This technique has found diverse applications in areas such as robotics, urban mapping, autonomous navigation, and virtual reality/augmented reality, just name a few. Given the growing popularity and expanding research in 3D Gaussian Splatting, this paper presents a comprehensive survey of relevant papers from the past year. We organize the survey into taxonomies based on characteristics and applications, providing an introduction to the theoretical underpinnings of 3D Gaussian Splatting. Our goal through this survey is to acquaint new researchers with 3D Gaussian Splatting, serve as a valuable reference for seminal works in the field, and inspire future research directions, as discussed in our concluding section.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# All Trades, Master of Some, a Multi-Purpose Transformer Agent

Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent ( http://arxiv.org/abs/2402.09844v3 )

ライセンス: Link先を確認
Quentin Gallouédec, Edward Beeching, Clément Romac, Emmanuel Dellandréa, (参考訳) 複数のドメインにまたがってシームレスに動作する汎用モデルを探すことは、機械学習研究の重要な目標である。 強化学習(Reinforcement Learning, RL)の一般的な方法論は、モデルを一元的フレームワーク内のひとつのタスクに制限する。 本稿では、連続的な意思決定タスクやマルチモーダルデータ型を扱うために最適化されたユニークな設計のトランスフォーマーベースモデルであるJack of All Trades(JAT)を提案する。 JATモデルは、コンピュータビジョン(CV)と自然言語処理(NLP)タスクの有望な結果とともに、非常に異なるRLベンチマークで強力なパフォーマンスを達成することで、その堅牢性と汎用性を実証している。 JATモデルは、より汎用的でクロスドメインなAIモデル設計に向けた重要なステップであり、特に、その種のモデルを、先駆的な汎用データセットを含むhttps://huggingface.co/jat-project/jatで完全にオープンソースにする最初のモデルである。

The search for a general model that can operate seamlessly across multiple domains remains a key goal in machine learning research. The prevailing methodology in Reinforcement Learning (RL) typically limits models to a single task within a unimodal framework, a limitation that contrasts with the broader vision of a versatile, multi-domain model. In this paper, we present Jack of All Trades (JAT), a transformer-based model with a unique design optimized for handling sequential decision-making tasks and multi-modal data types. The JAT model demonstrates its robust capabilities and versatility by achieving strong performance on very different RL benchmarks, along with promising results on Computer Vision (CV) and Natural Language Processing (NLP) tasks, all using a single set of weights. The JAT model marks a significant step towards more general, cross-domain AI model design, and notably, it is the first model of its kind to be fully open-sourced at https://huggingface.co/jat-project/jat, including a pioneering general-purpose dataset.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# グラフに基づく近似近傍探索のための確率的ルーティング

Probabilistic Routing for Graph-Based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2402.11354v2 )

ライセンス: Link先を確認
Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa, (参考訳) 高次元空間における近似近接探索(ANNS)は、機械学習分野における重要な課題である。 近年、ANNSの優れたアプローチとしてグラフベースの手法が登場し、新しい最先端技術が確立されている。 グラフベースのANNSの様々な最適化が導入されたが、それらは主に公式な理論的裏付けを持たないヒューリスティックな手法に依存している。 本稿では,グラフ内のノードの近傍を探索する際の確率的保証を提供する手法を導入することにより,グラフベースのANNS内のルーティングを強化することを目的とする。 確率的ルーティングとして問題を定式化し、局所性に敏感な手法を取り入れた2つのベースライン戦略を開発する。 次に,グラフ内のどの近傍が正確な距離計算を行うべきかを効率的に同定し,実際の効率を大幅に向上させるPEOを紹介した。 実験により, PEOの装備により, 一般的に利用されるグラフインデックス(HNSW, NSSG)のスループットが1.6~2.5倍に向上し, その効率は1.1~1.4倍に向上することを示した。

Approximate nearest neighbor search (ANNS) in high-dimensional spaces is a pivotal challenge in the field of machine learning. In recent years, graph-based methods have emerged as the superior approach to ANNS, establishing a new state of the art. Although various optimizations for graph-based ANNS have been introduced, they predominantly rely on heuristic methods that lack formal theoretical backing. This paper aims to enhance routing within graph-based ANNS by introducing a method that offers a probabilistic guarantee when exploring a node's neighbors in the graph. We formulate the problem as probabilistic routing and develop two baseline strategies by incorporating locality-sensitive techniques. Subsequently, we introduce PEOs, a novel approach that efficiently identifies which neighbors in the graph should be considered for exact distance calculation, thus significantly improving efficiency in practice. Our experiments demonstrate that equipping PEOs can increase throughput on commonly utilized graph indexes (HNSW and NSSG) by a factor of 1.6 to 2.5, and its efficiency consistently outperforms the leading-edge routing technique by 1.1 to 1.4 times.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 非透析ホロノミック手術における系統的振幅誤差の軽減

Mitigation of systematic amplitude error in nonadiabatic holonomic operations ( http://arxiv.org/abs/2402.11873v2 )

ライセンス: Link先を確認
P. Z. Zhao, Jiangbin Gong, (参考訳) 非断熱的ホロノミック操作は非断熱的非アベル幾何学的位相に基づいており、したがって制御誤差に対する堅牢性に固有の幾何学的特徴を持っている。 しかし、非断熱的ホロノミック操作は、パルスタイミングやレーザー強度の不完全な制御によって誘導される系統的な振幅誤差になお敏感である。 本研究では,その系統的振幅誤差を軽減するために,非断熱的ホロノミック操作の手法を提案する。 これは、誤差補正装置として機能するモニタキュービットの条件測定とともに、モニタキュービットを導入することで実現される。 本稿では,系統的振幅誤差による望ましくない効果を除去し,非断熱的ホロノミック操作の性能を向上させる方法について述べる。

Nonadiabatic holonomic operations are based on nonadiabatic non-Abelian geometric phases, hence possessing the inherent geometric features for robustness against control errors. However, nonadiabatic holonomic operations are still sensitive to the systematic amplitude error induced by imperfect control of pulse timing or laser intensity. In this work, we present a scheme of nonadiabatic holonomic operations in order to mitigate the said systematic amplitude error. This is achieved by introducing a monitor qubit along with a conditional measurement on the monitor qubit that serves as an error correction device. We shall show how to filter out the undesired effect of the systematic amplitude error, thereby improving the performance of nonadiabatic holonomic operations.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 拡散テンパリングは正規微分方程式に対する確率積分器によるパラメータ推定を改善する

Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations ( http://arxiv.org/abs/2402.12231v2 )

ライセンス: Link先を確認
Jonas Beck, Nathanael Bosch, Michael Deistler, Kyra L. Kadhim, Jakob H. Macke, Philipp Hennig, Philipp Berens, (参考訳) 通常微分方程式(ODE)は科学の力学系を記述するために広く用いられているが、実験的な測定を説明するパラメータを特定することは困難である。 特に、ODEは微分可能であり、勾配に基づくパラメータ最適化が可能であるが、ODEの非線形ダイナミクスは多くの場合、多くの局所最小化と初期条件に対する極度な感度をもたらす。 そこで我々は,ODEにおける勾配に基づくパラメータ最適化の収束性を改善する確率的数値法の新しい正規化手法である拡散テンパリングを提案する。 確率積分器の雑音パラメータを反復的に低減することにより、提案手法は真のパラメータにより確実に収束する。 本手法は複雑性の異なる力学系に対して有効であることを示すとともに,実際に関連するパラメータ数を持つHodgkin-Huxleyモデルに対して,信頼性の高いパラメータ推定値が得られることを示す。

Ordinary differential equations (ODEs) are widely used to describe dynamical systems in science, but identifying parameters that explain experimental measurements is challenging. In particular, although ODEs are differentiable and would allow for gradient-based parameter optimization, the nonlinear dynamics of ODEs often lead to many local minima and extreme sensitivity to initial conditions. We therefore propose diffusion tempering, a novel regularization technique for probabilistic numerical methods which improves convergence of gradient-based parameter optimization in ODEs. By iteratively reducing a noise parameter of the probabilistic integrator, the proposed method converges more reliably to the true parameters. We demonstrate that our method is effective for dynamical systems of different complexity and show that it obtains reliable parameter estimates for a Hodgkin-Huxley model with a practically relevant number of parameters.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# 課題, 詳細:入力長が大規模言語モデルの推論性能に及ぼす影響

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models ( http://arxiv.org/abs/2402.14848v2 )

ライセンス: Link先を確認
Mosh Levy, Alon Jacoby, Yoav Goldberg, (参考訳) 本稿では,入力長がLarge Language Models (LLMs) の能力に与える影響について検討する。 近年のLSMの進歩にもかかわらず、異なる入力長にわたる性能の整合性はよく理解されていない。 本稿では,入力長の影響を評価するための新しいQA推論フレームワークを導入することで,この側面を考察する。 同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。 この結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。 劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。 さらに,本研究では,次の単語予測の従来の指標が,推論データセット上でのLLMの性能と負の相関関係があることを明らかにした。 結果を分析し、将来の研究の有用なガイドとして機能する障害モードを特定し、LLMで観測される限界に対処するための戦略を提示する可能性がある。

This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that the traditional metric of next word prediction correlates negatively with performance of LLMs' on our reasoning dataset. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
翻訳日:2024-07-11 21:49:49 公開日:2024-07-10
# SoK: SNARKにおけるセキュリティ脆弱性の理解

SoK: What don't we know? Understanding Security Vulnerabilities in SNARKs ( http://arxiv.org/abs/2402.15293v3 )

ライセンス: Link先を確認
Stefanos Chaliasos, Jens Ernstberger, David Theodore, David Wong, Mohammad Jahanara, Benjamin Livshits, (参考訳) ゼロ知識証明(ZKP)は、プライバシーと検証可能性を提供する理論概念から進化し、SNARK(Succinct Non-Interactive Argument of Knowledge)が最も重要なイノベーションの1つとして登場した。 これまでは主に、より効率的なSNARKシステムの設計とセキュリティ証明の提供に重点を置いてきた。 多くの人はSNARKを「ただの数学」とみなし、実際に正しいと証明されたものが正しいことを示唆している。 これとは対照的に,本研究では,実生活SNARK実装のエンドツーエンドセキュリティ特性の評価に重点を置いている。 まず、システムモデルによる基盤の構築と、脅威モデルを確立し、SNARKを使用するシステムに対する敵の役割を定義することから始めます。 本研究は,SNARK実装における141の実際の脆弱性を広範囲に分析し,SNARKを用いたシステムのセキュリティ脅威を理解する上で,開発者やセキュリティ研究者を支援するための詳細な分類法を提供する。 最後に、我々は既存の防衛機構を評価し、SNARKベースのシステムのセキュリティを強化するための勧告を提供し、将来より堅牢で信頼性の高い実装を実現する。

Zero-knowledge proofs (ZKPs) have evolved from being a theoretical concept providing privacy and verifiability to having practical, real-world implementations, with SNARKs (Succinct Non-Interactive Argument of Knowledge) emerging as one of the most significant innovations. Prior work has mainly focused on designing more efficient SNARK systems and providing security proofs for them. Many think of SNARKs as "just math," implying that what is proven to be correct and secure is correct in practice. In contrast, this paper focuses on assessing end-to-end security properties of real-life SNARK implementations. We start by building foundations with a system model and by establishing threat models and defining adversarial roles for systems that use SNARKs. Our study encompasses an extensive analysis of 141 actual vulnerabilities in SNARK implementations, providing a detailed taxonomy to aid developers and security researchers in understanding the security threats in systems employing SNARKs. Finally, we evaluate existing defense mechanisms and offer recommendations for enhancing the security of SNARK-based systems, paving the way for more robust and reliable implementations in the future.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 量子計測エネルギーコストの熱力学的一貫したアプローチ

A thermodynamically consistent approach of quantum measurement energy costs ( http://arxiv.org/abs/2402.16037v3 )

ライセンス: Link先を確認
Camille L Latune, Cyril Elouard, (参考訳) 熱浴に結合した量子プローブからなる量子測定装置の一般的な顕微鏡モデルを考えると,システム・アパラトリー相関の生成,一定の結果の統計的混合への不可逆的な遷移,及び装置リセットを含む,量子測定の実現に必要なエネルギー資源を解析する。 重要なことは、客観的な測定結果の出現を捉えるために、別の量子測定に頼らず、その測定結果をその自由度で冗長に記録する熱浴の特性を利用して、自然に量子ダーウィン主義のパラダイムを実装している。 実際に,本モデルを用いて測定プロセスの定量的熱力学解析を行うことができる。 第2法則の表現から, 必要最小限の作業が, 測定対象システムのエネルギー変動と, 測定性能, 効率, 完全性を特徴づける情報理論量に依存することを示す。 さらに、熱力学的に可逆な測定が可能であり、最小限の作業費に到達し、対応するプロトコルを提供する。 最後に、有限時間測定プロトコルについて、有限時間熱力学過程に固有のエントロピー生成の増大による作業コストの増加について説明する。 これは、測定の効率と作業コストの間のトレードオフに加えて、測定の速度と作業コストの間のトレードオフが増大していることを強調します。

Considering a general microscopic model for a quantum measuring apparatus comprising a quantum probe coupled to a thermal bath, we analyze the energetic resources necessary for the realization of a quantum measurement, which includes the creation of system-apparatus correlations, the irreversible transition to a statistical mixture of definite outcomes, and the apparatus resetting. Crucially, we do not resort to another quantum measurement to capture the emergence of objective measurement results, but rather exploit the properties of the thermal bath which redundantly records the measurement result in its degrees of freedom, naturally implementing the paradigm of quantum Darwinism. In practice, this model allows us to perform a quantitative thermodynamic analysis for the measurement process. From the expression of the second law, we show how the minimal required work depends on the energy variation of the system being measured plus information-theoretic quantities characterizing the performance of the measurement -- efficiency and completeness. Additionally, we show that it is possible to perform a thermodynamically reversible measurement, thus reaching the minimal work expenditure, and provide the corresponding protocol. Finally, for finite-time measurement protocols, we illustrate the increasing work cost induced by rising entropy production inherent of finite-time thermodynamic processes. This highlights an emerging trade-off between velocity of the measurement and work cost, on top of a trade-off between efficiency of the measurement and work cost.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# キャラクタGen:マルチビューポーズ正準化を用いた単一画像からの効率的な3次元キャラクタ生成

CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization ( http://arxiv.org/abs/2402.17214v3 )

ライセンス: Link先を確認
Hao-Yang Peng, Jia-Peng Zhang, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu, (参考訳) デジタルコンテンツ作成の分野では、特に身体の複雑度や自己排除の問題やあいまいさを考えると、単一画像から高品質な3D文字を生成することは困難である。 本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。 CharacterGenは、画像条件のマルチビュー拡散モデルとともに、合理化された生成パイプラインを導入している。 このモデルは、入力画像のキー属性を保持しながら、入力ポーズを正準形式に効果的に校正し、多様なポーズによって引き起こされる課題に対処する。 変換器ベースで一般化可能なスパースビュー再構成モデルは,マルチビュー画像から詳細な3Dモデルを作成する上で,我々のアプローチの中核となるコンポーネントである。 また,質の高いテクスチャマップを作成するためにテクスチャバックプロジェクション戦略を採用した。 さらに、複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして、モデルをトレーニングし、評価しました。 提案手法は,高品質な形状とテクスチャを持つ3Dキャラクタを製作し,リギングやアニメーションなどの下流アプリケーションに適応する能力を示す定量的,定性的な実験を通じて,徹底的に評価されてきた。

In the field of digital content creation, generating high-quality 3D characters from single images is challenging, especially given the complexities of various body poses and the issues of self-occlusion and pose ambiguity. In this paper, we present CharacterGen, a framework developed to efficiently generate 3D characters. CharacterGen introduces a streamlined generation pipeline along with an image-conditioned multi-view diffusion model. This model effectively calibrates input poses to a canonical form while retaining key attributes of the input image, thereby addressing the challenges posed by diverse poses. A transformer-based, generalizable sparse-view reconstruction model is the other core component of our approach, facilitating the creation of detailed 3D models from multi-view images. We also adopt a texture-back-projection strategy to produce high-quality texture maps. Additionally, we have curated a dataset of anime characters, rendered in multiple poses and views, to train and evaluate our model. Our approach has been thoroughly evaluated through quantitative and qualitative experiments, showing its proficiency in generating 3D characters with high-quality shapes and textures, ready for downstream applications such as rigging and animation.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# ファンデーションモデルのための中国伝統評価スイートの改良

An Improved Traditional Chinese Evaluation Suite for Foundation Model ( http://arxiv.org/abs/2403.01858v2 )

ライセンス: Link先を確認
Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Jun-Da Chen, Wei-Min Chu, Sega Cheng, Hong-Han Shuai, (参考訳) 従来の中国語理解のための新しいベンチマークTMMLU+を提案する。 TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。 6倍の大きさで、前任の台湾大量マルチタスク言語理解(TMMLU)よりもバランスの取れた主題分布を誇っている。 また、提案したTMMLU+上で、1.8Bから72Bまでのパラメータのクローズドソースモデルと26の中国語大言語モデル(LLM)をベンチマークした。 従来の中国モデルは、(1.)簡素な中国モデルに遅れを取っており、従来の中国モデルに合わせたLCMのより集中的な進歩の必要性が浮かび上がっている。 (2)。 現在のLLMは、平均的なスコアにおける人間のパフォーマンスに欠けており、社会科学や人文科学の主題を深く掘り下げる将来の研究の必要性が示唆されている。 3)であった。 検討したトークン化圧縮指標のうち, 出生率スコアのみがベンチマーク結果と強い相関を示すことが確認できた。 我々は,TMMLU+が今後,機械と人間の言語能力のギャップを狭くし,研究者が従来の中国語LLMの開発を支援することを予想する。 私たちのデータセットは、ベンチマークソースコードとともに、face.co/datasets/ikala/tmmluplusを抱きしめることでアクセスできます。

We present TMMLU+, a new benchmark designed for Traditional Chinese language understanding. TMMLU+ is a multi-choice question-answering dataset with 66 subjects from elementary to professional level. It is six times larger and boasts a more balanced subject distribution than its predecessor, Taiwan Massive Multitask Language Understanding (TMMLU). We also benchmark closed-source models and 26 open-weight Chinese large language models (LLMs) of parameters ranging from 1.8B to 72B on the proposed TMMLU+. Our findings reveal that (1.) Traditional Chinese models still trail behind their Simplified Chinese counterparts, highlighting a need for more focused advancements in LLMs catering to Traditional Chinese. (2.) Current LLMs still fall short of human performance in average scores, indicating a potential need for future research to delve deeper into social science and humanities subjects. (3.) Among all the tokenization compression metrics examined, we identify that only the fertility score uniquely demonstrates strong correlations with our benchmark results. We foresee that TMMLU+ will pinpoint areas for future model improvement, thereby narrowing the gap between machine and human linguistic capabilities and supporting researchers in developing Traditional Chinese LLMs. Our dataset, along with the benchmark source code, is accessible at huggingface.co/datasets/ikala/tmmluplus.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 試行錯誤:LLMエージェントの探索に基づく軌道最適化

Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents ( http://arxiv.org/abs/2403.02502v2 )

ライセンス: Link先を確認
Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, Bill Yuchen Lin, (参考訳) 大規模言語モデル(LLM)は、様々な自律エージェントシステムにおいて不可欠なコンポーネントとなっている。 本研究では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。 この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 専門家の軌道を専門に訓練する以前の研究とは対照的に,本手法ではエージェントが探査失敗から学ぶことができる。 これにより、反復最適化フレームワークによってパフォーマンスが向上する。 探索期間中、エージェントは与えられたタスクを完了しながら環境と対話し、障害軌跡を収集して対照的な軌跡対を生成する。 その後の訓練段階では、エージェントはこれらの軌道選択ペアを使用して、DPOのような対照的な学習方法を用いてポリシーを更新する。 この反復的な探索と訓練のサイクルは、エージェントの改善を継続する。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。 さらに,専門的軌跡を欠いたシナリオにおける課題解決の効率と可能性を検討することにより,提案手法の有効性を実証する。

Large Language Models (LLMs) have become integral components in various autonomous agent systems. In this study, we present an exploration-based trajectory optimization approach, referred to as ETO. This learning method is designed to enhance the performance of open LLM agents. Contrary to previous studies that exclusively train on successful expert trajectories, our method allows agents to learn from their exploration failures. This leads to improved performance through an iterative optimization framework. During the exploration phase, the agent interacts with the environment while completing given tasks, gathering failure trajectories to create contrastive trajectory pairs. In the subsequent training phase, the agent utilizes these trajectory preference pairs to update its policy using contrastive learning methods like DPO. This iterative cycle of exploration and training fosters continued improvement in the agents. Our experiments on three complex tasks demonstrate that ETO consistently surpasses baseline performance by a large margin. Furthermore, an examination of task-solving efficiency and potential in scenarios lacking expert trajectory underscores the effectiveness of our approach.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# Rydberg-atom Networkにおける電流状態の量子重ね合わせ

Quantum superpositions of current states in Rydberg-atom networks ( http://arxiv.org/abs/2403.03202v3 )

ライセンス: Link先を確認
Francesco Perciavalle, Davide Rossini, Juan Polo, Oliver Morsch, Luigi Amico, (参考訳) Rydberg-atomプラットフォームを用いた多体量子システムの量子シミュレーションは、ここ数年で非常に注目されている。 スピンハミルトニアンを実現する可能性と単一の原子レベルでの正確な制御は、物質と力学の量子相の研究の道を開いた。 ここでは、現在の状態を設計するための量子最適制御プロトコルを提案する: 与えられた空間的に閉じたツイーザーネットワークで伝播するRydberg励起によって特徴づけられる量子状態。 実際、異なる巻数を持つ現在の状態は需要に応じて生成される。 単一の巻数を持つものに加えて、より多くの巻数によって特徴づけられる量子電流状態の重ね合わせが得られる。 単一の電流状態は、現在の作用素の固有状態であり、従って、常に持続する観測可能状態を定義することができる。 特に、励起力学の特徴は現在の状態の性質を反映しており、原理的には高次相関子にアクセスする必要なしに、流体の性質を実験的に特徴づけることができる。

Quantum simulation of many-body quantum systems using Rydberg-atom platforms has become of extreme interest in the last years. The possibility to realize spin Hamiltonians and the accurate control at the single atom level paved the way for the study of quantum phases of matter and dynamics. Here, we propose a quantum optimal control protocol to engineer current states: quantum states characterized by Rydberg excitations propagating in a given spatially closed tweezer networks. Indeed, current states with different winding numbers can be generated on demand. Besides those ones with single winding number, superposition of quantum current states characterized by more winding numbers can be obtained. The single current states are eigenstates of the current operator that therefore can define an observable that remains persistent at any time. In particular, the features of the excitations dynamics reflects the nature of current states, a fact that in principle can be used to characterize the nature of the flow experimentally without the need of accessing high order correlators.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 大規模言語モデルからの合成スコアを用いたヒト脳における意味構成の測定

Measuring Meaning Composition in the Human Brain with Composition Scores from Large Language Models ( http://arxiv.org/abs/2403.04325v3 )

ライセンス: Link先を確認
Changjiang Gao, Jixing Li, Jiajun Chen, Shujian Huang, (参考訳) 形態素や単語のような小さな単位が組み合わさって語句や文の意味を形成する意味構成の過程は、人間の文章理解に不可欠である。 構成の意味に関わる脳領域に関する広範な神経言語学的研究にもかかわらず、構成の程度を定量化するための計算計量はいまだに不足している。 変換器フィードフォワードネットワークブロックのキー値メモリ解釈に基づいて,文理解中に意味合成の度合いを定量化するために設計された,新しいモデルベースメトリクスであるコンポジションスコアを導入する。 実験の結果, 単語の頻度, 構造処理, 単語に対する一般感性に関連する脳クラスタと相関し, 人間の文章理解における意味構成の多面的特徴が示唆された。

The process of meaning composition, wherein smaller units like morphemes or words combine to form the meaning of phrases and sentences, is essential for human sentence comprehension. Despite extensive neurolinguistic research into the brain regions involved in meaning composition, a computational metric to quantify the extent of composition is still lacking. Drawing on the key-value memory interpretation of transformer feed-forward network blocks, we introduce the Composition Score, a novel model-based metric designed to quantify the degree of meaning composition during sentence comprehension. Experimental findings show that this metric correlates with brain clusters associated with word frequency, structural processing, and general sensitivity to words, suggesting the multifaceted nature of meaning composition during human sentence comprehension.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# クラッタ飛行における速度適応の学習

Learning Speed Adaptation for Flight in Clutter ( http://arxiv.org/abs/2403.04586v2 )

ライセンス: Link先を確認
Guangyu Zhao, Tianyue Wu, Yeke Chen, Fei Gao, (参考訳) 動物は自分の運動の速度を自分の能力や観察する環境に適応させることを学ぶ。 モバイルロボットはまた、タスクを効率的に達成するための攻撃性と安全性をトレードオフする能力を示す必要がある。 本研究の目的は、未解明かつ部分的に観測可能な乱雑な環境において、速度適応の能力を持つ飛行車両を養うことである。 速度制約を動的に設定するポリシーを包括的に学習するモデルベース軌道生成法と試行錯誤法の両方を利用する階層的学習・計画フレームワークを提案する。 技術的には、デプロイ可能なポリシを得るために、オンライン強化学習を使用します。 シミュレーションの結果, 定速制約ベースラインに対する本手法の利点と, 飛行効率と安全性の面での代替手法を実証した。 特に、この政策は、他のアプローチと区別する認識を行動させる。 ハードウェアにポリシーをデプロイすることで、これらのアドバンテージが現実世界にもたらすことができることを検証します。

Animals learn to adapt speed of their movements to their capabilities and the environment they observe. Mobile robots should also demonstrate this ability to trade-off aggressiveness and safety for efficiently accomplishing tasks. The aim of this work is to endow flight vehicles with the ability of speed adaptation in prior unknown and partially observable cluttered environments. We propose a hierarchical learning and planning framework where we utilize both well-established methods of model-based trajectory generation and trial-and-error that comprehensively learns a policy to dynamically configure the speed constraint. Technically, we use online reinforcement learning to obtain the deployable policy. The statistical results in simulation demonstrate the advantages of our method over the constant speed constraint baselines and an alternative method in terms of flight efficiency and safety. In particular, the policy behaves perception awareness, which distinguish it from alternative approaches. By deploying the policy to hardware, we verify that these advantages can be brought to the real world.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# OccFusion:3次元動作予測のための深さ推定自由マルチセンサフュージョン

OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction ( http://arxiv.org/abs/2403.05329v2 )

ライセンス: Link先を確認
Ji Zhang, Yiran Ding, Zixin Liu, (参考訳) マルチセンサフュージョンに基づく3次元占有予測(信頼性の高い自律運転システムのための精査)により、3Dシーンのきめ細かい理解が可能となる。 従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。 しかし、深さ推定は不適切な問題であり、これらの手法の精度と堅牢性を妨げている。 さらに、微粒な占有率予測には広範な計算資源が要求される。 これらの問題に対処するため,奥行き推定自由マルチモーダル融合フレームワークOccFusionを提案する。 さらに,任意の占有率予測モデルに適用可能な,一般化可能なアクティブトレーニング手法とアクティブデコーダを導入する。 nuScenes-OccupancyとnuScenes-Occ3Dの実験は、我々のフレームワークの優れた性能を示す。 詳細なアブレーション研究は,提案手法の有効性を浮き彫りにしている。

3D occupancy prediction based on multi-sensor fusion,crucial for a reliable autonomous driving system, enables fine-grained understanding of 3D scenes. Previous fusion-based 3D occupancy predictions relied on depth estimation for processing 2D image features. However, depth estimation is an ill-posed problem, hindering the accuracy and robustness of these methods. Furthermore, fine-grained occupancy prediction demands extensive computational resources. To address these issues, we propose OccFusion, a depth estimation free multi-modal fusion framework. Additionally, we introduce a generalizable active training method and an active decoder that can be applied to any occupancy prediction model, with the potential to enhance their performance. Experiments conducted on nuScenes-Occupancy and nuScenes-Occ3D demonstrate our framework's superior performance. Detailed ablation studies highlight the effectiveness of each proposed method.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 医用画像の公平な分類のためのノイズ編集

Debiased Noise Editing for Fair Medical Image Classification ( http://arxiv.org/abs/2403.06104v3 )

ライセンス: Link先を確認
Ruinan Jin, Wenlong Deng, Minghui Chen, Xiaoxiao Li, (参考訳) ファウンデーション・モデル(FM)がAIで優位に立つ時代において、我々の研究は医療画像のバイアスの問題に対処し、そのモデルがブラックボックス(例えば、FM API)で動作し、特に画素と感度属性の急激な相関関係である。 従来のバイアス緩和手法は、WebホストされたFMへのアクセスが制限されていることと、FM APIで符号化された基盤となるバイアスに対処することの難しさにより、制限に直面している。 本稿では,DNEノイズを発生させるD(ebiased)N(oise)E(diting)戦略を提案する。 DNEはFM APIの埋め込みとイメージ自体のバイアスを軽減することができる。 さらに,G(reedy) (Z)eroth-O(rder) (GeZO) をブラックボックスAPIでアクセスできない場合,DNEはWhite-boxとBlack-boxの両方のFM APIに適している。 我々のパイプライン全体は、直接モデル操作や重要な計算資源を必要とせずに、様々な医療状況にまたがって適用可能な公平性に配慮した画像編集を可能にする。 本手法の有効性を実証し, 患者集団, 疾患間の公平性, 有用性について検討した。 AI駆動医療の時代において、この研究は医療診断をより公平にし、事前訓練された画像FMにおけるバイアス軽減の実践的な解決策を示す。 私たちのコードはhttps://github.com/ubc-tea/DNE-foundation-model-fairnessで提供されます。

In the era of Foundation Models' (FMs) rising prominence in AI, our study addresses the challenge of biases in medical images while the model operates in black-box (e.g., using FM API), particularly spurious correlations between pixels and sensitive attributes. Traditional methods for bias mitigation face limitations due to the restricted access to web-hosted FMs and difficulties in addressing the underlying bias encoded within the FM API. We propose a D(ebiased) N(oise) E(diting) strategy, termed DNE, which generates DNE noise to mask such spurious correlation. DNE is capable of mitigating bias both within the FM API embedding and the images themselves. Furthermore, DNE is suitable for both white-box and black-box FM APIs, where we introduced G(reedy) (Z)eroth-O(rder) (GeZO) optimization for it when the gradient is inaccessible in black-box APIs. Our whole pipeline enables fairness-aware image editing that can be applied across various medical contexts without requiring direct model manipulation or significant computational resources. Our empirical results demonstrate the method's effectiveness in maintaining fairness and utility across different patient groups and diseases. In the era of AI-driven medicine, this work contributes to making healthcare diagnostics more equitable, showcasing a practical solution for bias mitigation in pre-trained image FMs. Our code is provided at https://github.com/ubc-tea/DNE-foundation-model-fairness.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 量子ビット誤り率に縛られたゲーム理論的ロバストセキュリティの発見におけるナッシュ均衡の利用

Use of Nash equilibrium in finding game theoretic robust security bound on quantum bit error rate ( http://arxiv.org/abs/2403.06309v2 )

ライセンス: Link先を確認
Arindam Dutta, Anirban Pathak, (参考訳) DL04プロトコルの量子ビット誤り率(QBER)に縛られたゲーム理論の堅牢なセキュリティは,近年実験的に実現されている量子セキュアダイレクト通信のスキームである。 受信機、送信機、盗聴機(Eve)は量子プレイヤー(量子演算を行う能力を持つプレイヤー)と見なされている。 具体的には、イヴは量子攻撃(例えば、W'ojcikの元々の攻撃、W'ojcikの対称性攻撃、Pavi\v{c}i\'c attack)と古典的なインターセプトと再送攻撃を行う能力を持つと考えられている。 以上のシナリオにおけるDL04プロトコルのセキュリティのゲーム理論解析は、いくつかのシナリオを考慮して行われる。 この分析により,これらのゲームシナリオにパレート最適ナッシュ平衡点が存在しないことが明らかになった。 その結果、混合戦略ナッシュ平衡点を同定し、QBERの上下境界を確立する。 さらに、メッセージモードにおけるPavi\v{c}i\'c攻撃に対するDL04プロトコルの脆弱性を確立する。 さらに、古典攻撃よりもイヴによる量子攻撃の方が強力なことが観察され、古典攻撃に比べてQBER値とイヴの存在を検出する確率が低いことが判明した。

Nash equilibrium is employed to find a game theoretic robust security bound on quantum bit error rate (QBER) for DL04 protocol which is a scheme for quantum secure direct communication that has been experimentally realized recently. The receiver, sender and eavesdropper (Eve) are considered to be quantum players (players having the capability to perform quantum operations). Specifically, Eve is considered to have the capability of performing quantum attacks (e.g., W\'ojcik's original attack, W\'ojcik's symmetrized attack and Pavi\v{c}i\'c attack) and classical intercept and resend attack. Game theoretic analysis of the security of DL04 protocol in the above scenario is performed by considering several game scenarios. The analysis revealed the absence of a Pareto optimal Nash equilibrium point within these game scenarios. Consequently, mixed strategy Nash equilibrium points are identified and employed to establish both upper and lower bounds for QBER. Further, the vulnerability of the DL04 protocol to Pavi\v{c}i\'c attack in the message mode is established. In addition, it is observed that the quantum attacks performed by Eve are more powerful than the classical attack, as the QBER value and the probability of detecting Eve's presence are found to be lower in quantum attacks compared to classical ones.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# 教師なしオンラインビデオストッチングのためのウォーピングシェイクの除去

Eliminating Warping Shakes for Unsupervised Online Video Stitching ( http://arxiv.org/abs/2403.06378v2 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Yun Zhang, Shuaicheng Liu, Rui Ai, Yao Zhao, (参考訳) 本稿では,画像縫合からビデオ縫合までを延ばす際に,ワープシェイクと呼ばれる新たな問題にビデオ縫合を向ける。 これは、自然構造を維持するために努力された画像縫いにもかかわらず、重複しない領域における歪んだコンテンツの時間的不安定性を明らかにする。 したがって、多くの場合、縫合すべき入力ビデオが安定しているとしても、縫合されたビデオは必然的に望ましくない反動を引き起こし、視覚体験に影響を与える。 揺らぎをなくすため,一貫した教師なし学習フレームワークにおいて,ビデオステッチとビデオ安定化を同時に実現するためのStabStitchを提案する。 まず、ビデオ安定化におけるカメラパスから、空間的および時間的ワープを精巧に統合することにより、ビデオ縫合における縫合軌跡の表現を導出する。 次にワープ平滑化モデルを提示し、コンテンツアライメント、軌道平滑性、空間整合性、オンラインコラボレーションに関する包括的な考察により最適化する。 評価ベンチマークを確立し,学習フレームワークを訓練するために,カメラの動きやシーンの多様性に富んだビデオステッチデータセットを構築した。 既存の縫合法と比較して、StabStitchは、縫合と安定化性能に加えて、シーンの堅牢性と推論速度に大きな優位性を示し、ロバストでリアルタイムなオンラインビデオ縫合システムに寄与する。 コードとデータセットはhttps://github.com/nie-lang/StabStitch.comから入手できる。

In this paper, we retarget video stitching to an emerging issue, named warping shake, when extending image stitching to video stitching. It unveils the temporal instability of warped content in non-overlapping regions, despite image stitching having endeavored to preserve the natural structures. Therefore, in most cases, even if the input videos to be stitched are stable, the stitched video will inevitably cause undesired warping shakes and affect the visual experience. To eliminate the shakes, we propose StabStitch to simultaneously realize video stitching and video stabilization in a unified unsupervised learning framework. Starting from the camera paths in video stabilization, we first derive the expression of stitching trajectories in video stitching by elaborately integrating spatial and temporal warps. Then a warp smoothing model is presented to optimize them with a comprehensive consideration regarding content alignment, trajectory smoothness, spatial consistency, and online collaboration. To establish an evaluation benchmark and train the learning framework, we build a video stitching dataset with a rich diversity in camera motions and scenes. Compared with existing stitching solutions, StabStitch exhibits significant superiority in scene robustness and inference speed in addition to stitching and stabilization performance, contributing to a robust and real-time online video stitching system. The code and dataset are available at https://github.com/nie-lang/StabStitch.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# スパースLIF:3次元物体検出のための高性能スパースLiDAR-Camera核融合

SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2403.07284v2 )

ライセンス: Link先を確認
Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang, (参考訳) クエリベースのパラダイムは、明示的な高密度なBEV機能構築を伴わずに低レイテンシを採用するため、スパース3D検出器は大きな注目を集めている。 しかし、これらの検出器は密度の高い検出器よりも性能が劣る。 本稿では,2つのモードにおけるリッチ表現の認識を高めることを目的として,性能ギャップを埋める鍵を見出した。 本稿では,エンドツーエンドのマルチモーダル3Dオブジェクト検出のための高性能フルスパース検出器を提案する。 SparseLIFと呼ばれる検出器には、3つの重要な設計が含まれており、(1)パースペクティブ・アウェア・クエリー生成(PAQG)、(2)パースペクティブ・アウェア・サンプリング(RIAS)、(2)各モータリティからRoI特徴をサンプリングして事前クエリを洗練させるRoI-Aware Sampling(RIAS)、(3)不確実性・アウェア・フュージョン(UAF)、各センサのモダリティの不確かさを正確に定量化し、最終的なマルチモータリティ・フュージョンを適応的に行うことで、センサノイズに対して大きな堅牢性を実現する。 論文提出時点では、SparseLIFはnuScenesデータセットの最先端のパフォーマンスを達成し、検証セットとテストベンチマークの両方で1位を獲得し、最先端の3Dオブジェクト検出器を顕著なマージンで上回っている。

Sparse 3D detectors have received significant attention since the query-based paradigm embraces low latency without explicit dense BEV feature construction. However, these detectors achieve worse performance than their dense counterparts. In this paper, we find the key to bridging the performance gap is to enhance the awareness of rich representations in two modalities. Here, we present a high-performance fully sparse detector for end-to-end multi-modality 3D object detection. The detector, termed SparseLIF, contains three key designs, which are (1) Perspective-Aware Query Generation (PAQG) to generate high-quality 3D queries with perspective priors, (2) RoI-Aware Sampling (RIAS) to further refine prior queries by sampling RoI features from each modality, (3) Uncertainty-Aware Fusion (UAF) to precisely quantify the uncertainty of each sensor modality and adaptively conduct final multi-modality fusion, thus achieving great robustness against sensor noises. By the time of paper submission, SparseLIF achieves state-of-the-art performance on the nuScenes dataset, ranking 1st on both validation set and test benchmark, outperforming all state-of-the-art 3D object detectors by a notable margin.
翻訳日:2024-07-11 21:39:45 公開日:2024-07-10
# マルチエージェントパスフィンディングのための優先順位付けハイブリッドポリシの組み立て

Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding ( http://arxiv.org/abs/2403.07559v2 )

ライセンス: Link先を確認
Huijie Tang, Federico Berto, Jinkyoo Park, (参考訳) MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。 いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。 しかし、既存の作業は、高い障害物密度と多数のエージェントを持つ構造化環境において依然として苦労している。 通信ベースMARL-MAPFソルバの性能向上を図るため,新しい手法であるEnsembling Prioritized Hybrid Policies (EPH)を提案する。 まず,マルチエージェント環境におけるエージェントコーディネーションを改善するため,よりリッチな情報収集のための選択的通信ブロックを提案し,Q学習アルゴリズムを用いてモデルを訓練する。 さらに,実行フェーズにおける性能向上を目的とした3つの高度な推論戦略を導入する。 まず、競合のないゾーンをナビゲートするための単一エージェントの専門家ガイダンスを用いて、ニューラルネットワークポリシーをハイブリダイズする。 第2に、競合の解消とデッドロック状況の優先順位付けのためのQ値に基づく手法を提案する。 最後に,複数の可能な解から最適な解を効率よく収集できる頑健なアンサンブル手法を提案する。 複雑なマルチエージェント環境におけるEPHを実験的に評価し,MAPFの最先端ニューラルネットワーク手法に対する競合性能を実証した。 ソースコードはhttps://github.com/ai4co/eph-mapf.comで公開しています。

Multi-Agent Reinforcement Learning (MARL) based Multi-Agent Path Finding (MAPF) has recently gained attention due to its efficiency and scalability. Several MARL-MAPF methods choose to use communication to enrich the information one agent can perceive. However, existing works still struggle in structured environments with high obstacle density and a high number of agents. To further improve the performance of the communication-based MARL-MAPF solvers, we propose a new method, Ensembling Prioritized Hybrid Policies (EPH). We first propose a selective communication block to gather richer information for better agent coordination within multi-agent environments and train the model with a Q learning-based algorithm. We further introduce three advanced inference strategies aimed at bolstering performance during the execution phase. First, we hybridize the neural policy with single-agent expert guidance for navigating conflict-free zones. Secondly, we propose Q value-based methods for prioritized resolution of conflicts as well as deadlock situations. Finally, we introduce a robust ensemble method that can efficiently collect the best out of multiple possible solutions. We empirically evaluate EPH in complex multi-agent environments and demonstrate competitive performance against state-of-the-art neural methods for MAPF. We open-source our code at https://github.com/ai4co/eph-mapf.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 線形フォトニッククラスター状態の決定論的生成における時間-双絡

Time-bin entanglement in the deterministic generation of linear photonic cluster states ( http://arxiv.org/abs/2403.08527v3 )

ライセンス: Link先を確認
David Bauch, Nikolas Köcher, Nils Heinisch, Stefan Schumacher, (参考訳) 理論的には、$\Lambda$-type電子系で記述された個々の量子エミッタを用いて、時間ビン絡み合った光子の列車を決定論的に生成する戦略を理論的に検討する。 フル微視的数値シミュレーションにおいて, かなり多くの絡み合ったフォトニック量子ビットを持つ線形クラスター状態の理論的生成を明示的に示す。 基礎となるスキームは、精密光駆動による基底状態のコヒーレンス操作に基づいている。 重要な発見の1つは、最も容易にアクセスできる品質指標である、達成可能な回転率(英語版)は、損失に直面して放出された光子の実際の量子相関を評価するのに不足していることである。 これを解決するために、我々は、生成された多光子の状態の量子特性の優れたゲージとして、安定化器生成期待値を明示的に算出する。 本研究は,他のエミッタ・エミッタ・エミット・エミッタ・エミット・スキームにも広く適用可能であり,現実的なシステムや,損失や不完全性を含む設備の予測機能を備えた完全な数値シミュレーションに基づいて,時間ビン絡みの詳細な解析を行うための基礎となる。 本研究で示された具体的な結果は、量子ドット型システムにおける損失の最小化と現実的なシステムパラメータの制御により、計算において有意な長さの有用な線形クラスタ状態が生成されることを示し、量子情報処理におけるスケーラビリティの可能性について議論する。

We theoretically investigate strategies for the deterministic creation of trains of time-bin entangled photons using an individual quantum emitter described by a $\Lambda$-type electronic system. We explicitly demonstrate the theoretical generation of linear cluster states with substantial numbers of entangled photonic qubits in full microscopic numerical simulations. The underlying scheme is based on the manipulation of ground state coherences through precise optical driving. One important finding is that the most easily accessible quality metrics, the achievable rotation fidelities, fall short in assessing the actual quantum correlations of the emitted photons in the face of losses. To address this, we explicitly calculate stabilizer generator expectation values as a superior gauge for the quantum properties of the generated many-photon state. With widespread applicability also to other emitter and excitation-emission schemes, our work lays the conceptual foundations for an in-depth practical analysis of time-bin entanglement based on full numerical simulations with predictive capabilities for realistic systems and setups including losses and imperfections. The specific results shown in the present work illustrate that with controlled minimization of losses and realistic system parameters for quantum-dot type systems, useful linear cluster states of significant lengths can be generated in the calculations, discussing the possibility of scalability for quantum information processing endeavors.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# Switch Diffusion Transformer:Sparse Mixture-of-ExpertsによるDenoising Tasksの同期

Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-Experts ( http://arxiv.org/abs/2403.09176v2 )

ライセンス: Link先を確認
Byeongjun Park, Hyojun Go, Jin-Young Kim, Sangmin Woo, Seokil Ham, Changick Kim, (参考訳) 拡散モデルは、様々な生成的タスクで顕著な成功を収めた。 拡散モデルアーキテクチャの強化に向けた近年の取り組みは,各タスクが特定の雑音レベルにおける認知タスクに対応するマルチタスク学習の形式として再認識されている。 これらの取り組みはパラメータ分離とタスクルーティングに重点を置いているが、それらはそれぞれ、タスク間の詳細な関係と、セマンティック情報を失うリスクを捉えていない。 これに対して,Switch Diffusion Transformer (Switch-DiT)を導入し,意味情報を妥協することなくタスク間のタスク間関係を確立する。 これを実現するために,各変圧器ブロック内にスパース・オブ・エグゼクティブ(sparse Mixed-of-experts)を用いて意味情報を活用し,パラメータ分離によるタスク間の競合の処理を容易にする。 さらに,相反するタスクを分離しながら,相反するタスクの共有を奨励する拡散先行損失を提案する。 これらを通じて、各トランスフォーマーブロックは、すべてのタスクをまたがる共有専門家を含み、共通およびタスク特化経路により、拡散モデルは、タスクを相乗化するための有益な方法を構築することができる。 画像品質と収束率の両面でのアプローチの有効性を検証し,さらに解析を行った結果,Switch-DiTは様々な生成シナリオにまたがるカスタマイズされたデノナイジングパスを構築していることがわかった。

Diffusion models have achieved remarkable success across a range of generative tasks. Recent efforts to enhance diffusion model architectures have reimagined them as a form of multi-task learning, where each task corresponds to a denoising task at a specific noise level. While these efforts have focused on parameter isolation and task routing, they fall short of capturing detailed inter-task relationships and risk losing semantic information, respectively. In response, we introduce Switch Diffusion Transformer (Switch-DiT), which establishes inter-task relationships between conflicting tasks without compromising semantic information. To achieve this, we employ a sparse mixture-of-experts within each transformer block to utilize semantic information and facilitate handling conflicts in tasks through parameter isolation. Additionally, we propose a diffusion prior loss, encouraging similar tasks to share their denoising paths while isolating conflicting ones. Through these, each transformer block contains a shared expert across all tasks, where the common and task-specific denoising paths enable the diffusion model to construct its beneficial way of synergizing denoising tasks. Extensive experiments validate the effectiveness of our approach in improving both image quality and convergence rate, and further analysis demonstrates that Switch-DiT constructs tailored denoising paths across various generation scenarios.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# LDPRecover: ローカルな差別的プライバシーに対する攻撃から頻度を回収する

LDPRecover: Recovering Frequencies from Poisoning Attacks against Local Differential Privacy ( http://arxiv.org/abs/2403.09351v2 )

ライセンス: Link先を確認
Xinyue Sun, Qingqing Ye, Haibo Hu, Jiawei Duan, Tianyu Wo, Jie Xu, Renyu Yang, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、信頼できないサーバが、それらのユーザのプライバシを保護しながら、分散ユーザから集約された統計データを収集することを可能にするもので、実際に広くデプロイされている。 しかし、周波数推定のためのLDPプロトコルは、悪意のあるユーザから送られたデータを操作することで、攻撃者が集約された周波数に毒を盛る攻撃に対して脆弱である。 したがって、毒物から正確な集積周波数を回収することはオープンな課題である。 本研究では,サーバが攻撃の詳細を学ばなくても,攻撃から正確な集積周波数を復元する手法であるLDPRecoverを提案する。 LDPRecoverでは、悪意のあるユーザデータの影響を排除し、サーバが真のユーザデータから集約された頻度を回復するよう理論的に誘導する真の頻度推定器を確立する。 サーバは攻撃を知らないので,既存の攻撃を統一する適応攻撃を提案し,この適応攻撃における悪意のあるデータの統計を LDP プロトコルの特性を利用して学習する。 推定器と学習統計を制約とすることにより、集約された周波数を復元する問題を定式化し、実際の周波数を制約推論(CI)問題としてアプローチする。 これにより、サーバはこの問題を最適に解き、正確な集約周波数を得ることができる。 さらに、LDPRecoverは、CI問題における新たな制約として攻撃の詳細を統合することで、より正確な集約された周波数を回復する周波数回復パラダイムとして機能する。 実世界の2つのデータセット,3つの LDP プロトコル,および未標的および標的の毒殺攻撃に対する評価は,LDPRecover が様々な毒殺攻撃に対して正確かつ広く適用可能であることを示している。

Local differential privacy (LDP), which enables an untrusted server to collect aggregated statistics from distributed users while protecting the privacy of those users, has been widely deployed in practice. However, LDP protocols for frequency estimation are vulnerable to poisoning attacks, in which an attacker can poison the aggregated frequencies by manipulating the data sent from malicious users. Therefore, it is an open challenge to recover the accurate aggregated frequencies from poisoned ones. In this work, we propose LDPRecover, a method that can recover accurate aggregated frequencies from poisoning attacks, even if the server does not learn the details of the attacks. In LDPRecover, we establish a genuine frequency estimator that theoretically guides the server to recover the frequencies aggregated from genuine users' data by eliminating the impact of malicious users' data in poisoned frequencies. Since the server has no idea of the attacks, we propose an adaptive attack to unify existing attacks and learn the statistics of the malicious data within this adaptive attack by exploiting the properties of LDP protocols. By taking the estimator and the learning statistics as constraints, we formulate the problem of recovering aggregated frequencies to approach the genuine ones as a constraint inference (CI) problem. Consequently, the server can obtain accurate aggregated frequencies by solving this problem optimally. Moreover, LDPRecover can serve as a frequency recovery paradigm that recovers more accurate aggregated frequencies by integrating attack details as new constraints in the CI problem. Our evaluation on two real-world datasets, three LDP protocols, and untargeted and targeted poisoning attacks shows that LDPRecover is both accurate and widely applicable against various poisoning attacks.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 一般化カテゴリー発見のためのCLIPのマルチモーダルポテンシャルの解錠

Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery ( http://arxiv.org/abs/2403.09974v2 )

ライセンス: Link先を確認
Enguang Wang, Zhimao Peng, Zhengyuan Xie, Fei Yang, Xialei Liu, Ming-Ming Cheng, (参考訳) 古いカテゴリと新しいカテゴリの両方を含むラベルのないデータセットが与えられたとき、一般化されたカテゴリ発見(GCD)は、ラベル付きサンプルから学んだクラス概念を活用しながら、古いクラスを正しく分類しながら、新しいクラスを正確に発見することを目的としている。 現在のGCD法では、情報の単一の視覚的モダリティしか使用せず、視覚的に類似したクラスの分類が不十分である。 異なるモダリティとして、テキスト情報は相補的な識別情報を提供することができ、GCDタスクにそれを導入する動機となる。 しかし、不正なデータに対するクラス名の欠如は、テキスト情報を利用するのが現実的ではない。 この課題に対処するため,本稿ではテキスト埋め込み合成器(TES)を提案する。 具体的には、私たちのTESは、CLIPが一致した視覚言語機能を生成することができる特性を活用し、視覚的な埋め込みをCLIPのテキストエンコーダのトークンに変換して擬似テキスト埋め込みを生成する。 さらに,視覚的・意味的な情報を相互に強化し,視覚的・テキスト的知識の相互作用と融合を促進する。 提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいてベースライン手法よりも高い精度で性能を向上し,新しい最先端技術を実現する。 コードはhttps://github.com/enguangW/GET でリリースされる。

Given unlabelled datasets containing both old and new categories, generalized category discovery (GCD) aims to accurately discover new classes while correctly classifying old classes, leveraging the class concepts learned from labeled samples. Current GCD methods only use a single visual modality of information, resulting in poor classification of visually similar classes. As a different modality, text information can provide complementary discriminative information, which motivates us to introduce it into the GCD task. However, the lack of class names for unlabelled data makes it impractical to utilize text information. To tackle this challenging problem, in this paper, we propose a Text Embedding Synthesizer (TES) to generate pseudo text embeddings for unlabelled samples. Specifically, our TES leverages the property that CLIP can generate aligned vision-language features, converting visual embeddings into tokens of the CLIP's text encoder to generate pseudo text embeddings. Besides, we employ a dual-branch framework, through the joint learning and instance consistency of different modality branches, visual and semantic information mutually enhance each other, promoting the interaction and fusion of visual and text knowledge. Our method unlocks the multi-modal potentials of CLIP and outperforms the baseline methods by a large margin on all GCD benchmarks, achieving new state-of-the-art. The code will be released at https://github.com/enguangW/GET .
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# エキスパートアノテーションによる医用マルチモーダルコントラスト学習の改善

Improving Medical Multi-modal Contrastive Learning with Expert Annotations ( http://arxiv.org/abs/2403.10153v2 )

ライセンス: Link先を確認
Yogesh Kumar, Pekka Marttinen, (参考訳) そこで我々は,CLIPモデルの強化版であるeCLIPを紹介した。 対照的なマルチモーダルな医療画像分析において、特にデータ不足と"モダリティギャップ" -- 表現の質を低下させ、モダリティ間の相互運用性を損なうような、画像とテキストの埋め込みとの大きな相違 -- に対処する。 eCLIPは、ヒートマッププロセッサを統合し、ミックスアップ拡張を利用して、不足する専門家アノテーションを効率的に活用することで、モデルの学習効率を向上する。 eCLIPは、コアアーキテクチャの変更を必要とせずに、CLIPのあらゆる変種に適用できるように設計されている。 ゼロショット推論、線形探索、クロスモーダル検索、凍結したLarge Language Modelを用いた放射線学レポートの検索拡張生成(RAG)など、様々なタスクの詳細な評価を通じて、eCLIPは埋め込み品質を一貫した改善を示す。 その結果, 医用画像領域における高次マルチモーダル分析のために, 高品質なアノテーションを活用するeCLIPの能力が確認された。

We introduce eCLIP, an enhanced version of the CLIP model that integrates expert annotations in the form of radiologist eye-gaze heatmaps. It tackles key challenges in contrastive multi-modal medical imaging analysis, notably data scarcity and the "modality gap" -- a significant disparity between image and text embeddings that diminishes the quality of representations and hampers cross-modal interoperability. eCLIP integrates a heatmap processor and leverages mixup augmentation to efficiently utilize the scarce expert annotations, thus boosting the model's learning effectiveness. eCLIP is designed to be generally applicable to any variant of CLIP without requiring any modifications of the core architecture. Through detailed evaluations across several tasks, including zero-shot inference, linear probing, cross-modal retrieval, and Retrieval Augmented Generation (RAG) of radiology reports using a frozen Large Language Model, eCLIP showcases consistent improvements in embedding quality. The outcomes reveal enhanced alignment and uniformity, affirming eCLIP's capability to harness high-quality annotations for enriched multi-modal analysis in the medical imaging domain.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 連続変数量子コンピュータにおける量子場理論のシミュレーション

Simulating quantum field theories on continuous-variable quantum computers ( http://arxiv.org/abs/2403.10619v2 )

ライセンス: Link先を確認
Steven Abel, Michael Spannowsky, Simon Williams, (参考訳) 我々は、光量子コンピューティングを用いて量子力学をシミュレートし、量子場理論への応用を拡大する。 本研究では, 任意のハミルトニアンの下での量子力学状態の時間的発展を再現するために, CVQC (Continuous-Variable Quantum Computing) のこの形式を利用した手法を開発し, 様々なポテンシャルで本手法の顕著な有効性を示す。 提案手法は,目的状態における所望の時間進化を誘導する特殊準備された量子状態である進化状態を構築することに集中する。 これは、計測ベースの量子コンピューティングアプローチを使用して、機械学習によって強化された非ガウス演算を導入することで達成される。 さらに,これらの手法を,フィールド値を判断することなくCVQC内のフィールド理論を符号化するように拡張し,フィールドの連続的な性質を保たせるフレームワークを提案する。 これにより、量子場理論における量子コンピューティング応用の新しい道が開かれる。

We delve into the use of photonic quantum computing to simulate quantum mechanics and extend its application towards quantum field theory. We develop and prove a method that leverages this form of Continuous-Variable Quantum Computing (CVQC) to reproduce the time evolution of quantum-mechanical states under arbitrary Hamiltonians, and we demonstrate the method's remarkable efficacy with various potentials. Our method centres on constructing an evolver-state, a specially prepared quantum state that induces the desired time-evolution on the target state. This is achieved by introducing a non-Gaussian operation using a measurement-based quantum computing approach, enhanced by machine learning. Furthermore, we propose a framework in which these methods can be extended to encode field theories in CVQC without discretising the field values, thus preserving the continuous nature of the fields. This opens new avenues for quantum computing applications in quantum field theory.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 画像品質評価のための多モーダル大言語モデルの総合的研究

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment ( http://arxiv.org/abs/2403.10854v2 )

ライセンス: Link先を確認
Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang, (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を遂げてきたが、画像品質評価(IQA)のための強力で柔軟性があり、解釈可能で、テキスト駆動型モデルとして機能する可能性はほとんど研究されていない。 本稿では,IQAに対するMLLMの促進に関する包括的かつ体系的な研究を行う。 まず,心理物理学における3つの標準的なテスト手順(単一刺激法,二重刺激法,多重刺激法)と自然言語処理における3つの一般的なプロンプト戦略(標準,文脈,チェーン・オブ・シークレット・プロンプト)の組み合わせとして,MLLMの9つのプロンプトシステムについて検討した。 次に,サンプルの多様性と不確実性を考慮に入れたサンプル選択手法を提案し,それぞれに最適なプロンプトシステムを備えたMLLMに挑戦する。 本研究では,3つのオープンソースMLLMと1つのクローズドソースMLLMを,画像品質の視覚的特性(構造的およびテクスチュラルな歪み,幾何学的変換,色差)を,全参照シナリオと非参照シナリオの両方で評価する。 実験結果から, クローズドソース GPT-4V は, 画像品質に対する人間の認識に妥当な指標となるが, きめ細かな品質変化(色差など)を識別し, 複数画像の視覚的品質を比較する際には, 人間の努力を伴わないことが示唆された。

While Multimodal Large Language Models (MLLMs) have experienced significant advancement in visual understanding and reasoning, their potential to serve as powerful, flexible, interpretable, and text-driven models for Image Quality Assessment (IQA) remains largely unexplored. In this paper, we conduct a comprehensive and systematic study of prompting MLLMs for IQA. We first investigate nine prompting systems for MLLMs as the combinations of three standardized testing procedures in psychophysics (i.e., the single-stimulus, double-stimulus, and multiple-stimulus methods) and three popular prompting strategies in natural language processing (i.e., the standard, in-context, and chain-of-thought prompting). We then present a difficult sample selection procedure, taking into account sample diversity and uncertainty, to further challenge MLLMs equipped with the respective optimal prompting systems. We assess three open-source and one closed-source MLLMs on several visual attributes of image quality (e.g., structural and textural distortions, geometric transformations, and color differences) in both full-reference and no-reference scenarios. Experimental results show that only the closed-source GPT-4V provides a reasonable account for human perception of image quality, but is weak at discriminating fine-grained quality variations (e.g., color differences) and at comparing visual quality of multiple images, tasks humans can perform effortlessly.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 視覚芸術理解のための小さな感情視覚言語モデルの訓練

Training A Small Emotional Vision Language Model for Visual Art Comprehension ( http://arxiv.org/abs/2403.11150v2 )

ライセンス: Link先を確認
Jing Zhang, Liang Zheng, Meng Wang, Dan Guo, (参考訳) 本稿では、視覚芸術を理解するための小さな視覚言語モデルを開発し、芸術作品として、その感情カテゴリーを特定し、この予測を自然言語で説明することを目的とする。 小型モデルは計算効率が良いが、大きなモデルに比べて容量は限られている。 このトレードオフを打破するために,感情モデリングと入出力特徴アライメントによる感情視覚言語モデル(SEVLM)を構築した。 一方,心理学の専門家によるVAD(valence-arousal-dominance)の知識に基づいて,VAD辞書とVADヘッドから得られた感情的特徴を導入・融合し,予測された感情的説明と基底的真実のVADベクトルを整合させる。 これにより、視覚言語モデルでは、従来のテキスト埋め込みのみを使用する場合と比較して、感情的なテキストをよりよく理解し、生成することができる。 一方,画像の近接埋め込み,感情クラス,説明文を抽出し,モデル出力と入力を整列させるコントラストヘッドを設計する。 2つの公的な情緒的説明データセットにおいて,提案手法はベースラインSEVLMの視覚的理解性能を一貫して向上することを示した。 特に,RTX 2080 Tiを1つのモデルでトレーニングし,非常に高い性能を示しながら評価することができる。これは最先端の小型モデルよりも優れるだけでなく,微調整とGPT4(V)の後にLLaVA 7Bと比較できる。 コードはhttps://github.com/BetterZH/SEVLM-codeで入手できる。

This paper develops small vision language models to understand visual art, which, given an art work, aims to identify its emotion category and explain this prediction with natural language. While small models are computationally efficient, their capacity is much limited compared with large models. To break this trade-off, this paper builds a small emotional vision language model (SEVLM) by emotion modeling and input-output feature alignment. On the one hand, based on valence-arousal-dominance (VAD) knowledge annotated by psychology experts, we introduce and fuse emotional features derived through VAD dictionary and a VAD head to align VAD vectors of predicted emotion explanation and the ground truth. This allows the vision language model to better understand and generate emotional texts, compared with using traditional text embeddings alone. On the other hand, we design a contrastive head to pull close embeddings of the image, its emotion class, and explanation, which aligns model outputs and inputs. On two public affective explanation datasets, we show that the proposed techniques consistently improve the visual art understanding performance of baseline SEVLMs. Importantly, the proposed model can be trained and evaluated on a single RTX 2080 Ti while exhibiting very strong performance: it not only outperforms the state-of-the-art small models but is also competitive compared with LLaVA 7B after fine-tuning and GPT4(V). The code is available at https://github.com/BetterZH/SEVLM-code.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 必要なデータはすべて: 自動設計データ拡張フレームワークによるチップ設計のためのLCMの微調整

Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework ( http://arxiv.org/abs/2403.11202v2 )

ライセンス: Link先を確認
Kaiyan Chang, Kun Wang, Nan Yang, Ying Wang, Dantong Jin, Wenlong Zhu, Zhirong Chen, Cangyuan Li, Hao Yan, Yunhao Zhou, Zhuoliang Zhao, Yuan Cheng, Yudong Pan, Yiqi Liu, Mengdi Wang, Shengwen Liang, Yinhe Han, Huawei Li, Xiaowei Li, (参考訳) 大規模言語モデルの最近の進歩は、ハイレベルなプロンプトからハードウェア記述言語(HDL)コードの自動生成の可能性を示している。 研究者は、チップデザインの分野でこれらの大きな言語モデル(LLM)の能力を高めるために微調整を利用している。 しかし、Verilogデータの欠如は、LLMによるVerilog生成の品質向上を妨げている。 さらに、Verilog and Electronic Design Automation (EDA)スクリプトデータ拡張フレームワークが存在しないことで、LLMトレーナーのトレーニングデータセットを作成するのに必要な時間が大幅に増加する。 本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成では、Verilogファイルを抽象構文木に変換し、事前に定義されたテンプレートでノードを自然言語にマッピングする。 Verilogの修復には、定義済みのルールを使用して、間違ったVerilogファイルを生成し、EDA Toolのフィードバックと正しいVerilogファイルとをペアリングする。 EDA Script 生成では、既存の LLM(GPT-3.5) を使用して Script の記述を取得する。 Llama2-13B モデルと Llama2-7B モデルを解析し,データ拡張手法の有効性を評価する。 その結果,LLMを用いたVerilog生成タスクの大幅な改善が示された。 さらに、Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。 我々の13Bモデル(ChipGPT-FT)は、Verilog 生成の GPT-3.5 と比較してパスレートが改善し、200 EDA スクリプトデータしか持たない EDA スクリプト(SiiliconCompiler) 生成の成績が向上した。

Recent advances in large language models have demonstrated their potential for automated generation of hardware description language (HDL) code from high-level prompts. Researchers have utilized fine-tuning to enhance the ability of these large language models (LLMs) in the field of Chip Design. However, the lack of Verilog data hinders further improvement in the quality of Verilog generation by LLMs. Additionally, the absence of a Verilog and Electronic Design Automation (EDA) script data augmentation framework significantly increases the time required to prepare the training dataset for LLM trainers. This paper proposes an automated design-data augmentation framework, which generates high-volume and high-quality natural language aligned with Verilog and EDA scripts. For Verilog generation, it translates Verilog files to an abstract syntax tree and then maps nodes to natural language with a predefined template. For Verilog repair, it uses predefined rules to generate the wrong verilog file and then pairs EDA Tool feedback with the right and wrong verilog file. For EDA Script generation, it uses existing LLM(GPT-3.5) to obtain the description of the Script. To evaluate the effectiveness of our data augmentation method, we finetune Llama2-13B and Llama2-7B models using the dataset generated by our augmentation framework. The results demonstrate a significant improvement in the Verilog generation tasks with LLMs. Moreover, the accuracy of Verilog generation surpasses that of the current state-of-the-art open-source Verilog generation model, increasing from 58.8% to 70.6% with the same benchmark. Our 13B model (ChipGPT-FT) has a pass rate improvement compared with GPT-3.5 in Verilog generation and outperforms in EDA script (i.e., SiliconCompiler) generation with only 200 EDA script data.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 対向軌道の断面積に沿った多角化による視覚言語攻撃の伝達性向上

Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory ( http://arxiv.org/abs/2403.12445v2 )

ライセンス: Link先を確認
Sensen Gao, Xiaojun Jia, Xuhong Ren, Ivor Tsang, Qing Guo, (参考訳) 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を解釈する際、顕著な能力を示すが、多モーダル対逆例(AE)の影響を受けやすい。 攻撃の強化と脆弱性の発見、特にVLPモデルの一般的な問題(高転送性AEなど)は、信頼性と実用的なVLPモデルを前進させる可能性がある。 最近の研究(すなわち、セットレベル誘導攻撃)は、最適化経路に沿ってAEの多様性を高めるために画像とテキストのペアを増大させることが、敵の例の転送可能性を大幅に向上させることを示している。 しかし,本手法は,オンラインの敵対的事例(最適化期間におけるAE)の多様性を重視し,被害者モデルに過度に適合し,伝達可能性に影響を及ぼすリスクを負う。 そこで本稿では,AEsの多様性を高めるために,対向軌道の交叉領域に沿った多角化を利用する手法を提案する。 さらに, 既存手法のような逆画像ではなく, 最適化経路に沿った最終交差点領域から逸脱する逆テキストを誘導し, 様々なVLPモデルと下流視覚・言語タスク間の伝達性向上における本手法の有効性を確認した。

Vision-language pre-training (VLP) models exhibit remarkable capabilities in comprehending both images and text, yet they remain susceptible to multimodal adversarial examples (AEs).Strengthening attacks and uncovering vulnerabilities, especially common issues in VLP models (e.g., high transferable AEs), can advance reliable and practical VLP models. A recent work (i.e., Set-level guidance attack) indicates that augmenting image-text pairs to increase AE diversity along the optimization path enhances the transferability of adversarial examples significantly. However, this approach predominantly emphasizes diversity around the online adversarial examples (i.e., AEs in the optimization period), leading to the risk of overfitting the victim model and affecting the transferability.In this study, we posit that the diversity of adversarial examples towards the clean input and online AEs are both pivotal for enhancing transferability across VLP models. Consequently, we propose using diversification along the intersection region of adversarial trajectory to expand the diversity of AEs.To fully leverage the interaction between modalities, we introduce text-guided adversarial example selection during optimization. Furthermore, to further mitigate the potential overfitting, we direct the adversarial text deviating from the last intersection region along the optimization path, rather than adversarial images as in existing methods.Extensive experiments affirm the effectiveness of our method in improving transferability across various VLP models and downstream vision-and-language tasks.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# Marlin: サイバー攻撃の効率的かつロバストな検出のための確率グラフの知識駆動分析

Marlin: Knowledge-Driven Analysis of Provenance Graphs for Efficient and Robust Detection of Cyber Attacks ( http://arxiv.org/abs/2403.12541v2 )

ライセンス: Link先を確認
Zhenyuan Li, Yangyang Wei, Xiangmin Shen, Lingzhi Wang, Yan Chen, Haitao Xu, Shouling Ji, Fan Zhang, Liang Hou, Wenmao Liu, Xuhong Zhang, Jianwei Ying, (参考訳) 学術と産業の両分野における最近の研究は、先進的なサイバー攻撃の検出と調査における前向きなグラフによる検出の有効性を検証している。 しかし、大規模な前駆グラフの分析は、しばしばかなりのオーバーヘッドをもたらす。 性能向上のため、既存の検出システムは様々な最適化戦略を実装している。 しかし、最近のいくつかの研究が示唆しているように、これらの戦略は必要なコンテキスト情報を失い、回避に弱い可能性がある。 敵攻撃に対して効率的で堅牢な検知システムを設計することは、オープンな問題である。 攻撃知識に埋め込まれたクエリグラフを活用することにより、マーリンはプロファイランスグラフ内のエンティティやイベントを効率的に識別し、ターゲット分析を埋め込み、検索空間を著しく狭めることができる。 さらに,グラフアライメントアルゴリズムをタグ伝搬ベースのスキーマに組み込んで,生ログの保存と再処理を不要にする。 この設計はインメモリストレージの要求を大幅に減らし、データ処理のオーバーヘッドを最小化する。 その結果、重要なコンテキスト情報を保存しながらリアルタイムなグラフアライメントが可能となり、サイバー攻撃検出の堅牢性を高めることができる。 さらに、アナリストはクエリグラフを柔軟にカスタマイズし、拡張攻撃を検出し、解釈可能な検出結果を提供する。 我々は,257.42GBのログと12種類のクエリグラフを含む2つの大規模公開データセットに対して,複数の攻撃手法とシナリオを網羅した実験的な評価を行った。 その結果、Marlinは毎秒137Kのイベントを処理でき、120のサブグラフを正確に識別し、31の攻撃が確認された。

Recent research in both academia and industry has validated the effectiveness of provenance graph-based detection for advanced cyber attack detection and investigation. However, analyzing large-scale provenance graphs often results in substantial overhead. To improve performance, existing detection systems implement various optimization strategies. Yet, as several recent studies suggest, these strategies could lose necessary context information and be vulnerable to evasions. Designing a detection system that is efficient and robust against adversarial attacks is an open problem. We introduce Marlin, which approaches cyber attack detection through real-time provenance graph alignment.By leveraging query graphs embedded with attack knowledge, Marlin can efficiently identify entities and events within provenance graphs, embedding targeted analysis and significantly narrowing the search space. Moreover, we incorporate our graph alignment algorithm into a tag propagation-based schema to eliminate the need for storing and reprocessing raw logs. This design significantly reduces in-memory storage requirements and minimizes data processing overhead. As a result, it enables real-time graph alignment while preserving essential context information, thereby enhancing the robustness of cyber attack detection. Moreover, Marlin allows analysts to customize attack query graphs flexibly to detect extended attacks and provide interpretable detection results. We conduct experimental evaluations on two large-scale public datasets containing 257.42 GB of logs and 12 query graphs of varying sizes, covering multiple attack techniques and scenarios. The results show that Marlin can process 137K events per second while accurately identifying 120 subgraphs with 31 confirmed attacks, along with only 1 false positive, demonstrating its efficiency and accuracy in handling massive data.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# 教師学習型大規模言語モデルを用いた命令型マルチ制約分子生成

Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model ( http://arxiv.org/abs/2403.13244v2 )

ライセンス: Link先を確認
Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Siqi Sun, Jianxin Lin, Leyi Wei, Xibao Cai, Houtim Lai, Wei Liu, Longyue Wang, Xiangxiang Zeng, (参考訳) 分子の構造と性質解析のための様々なモデルや計算ツールが提案されているが、全ての所望の構造と性質に適合する分子を生成することは依然として課題である。 本稿では,学生に類似した多制約分子生成大言語モデルであるTSMMGを紹介し,様々な小モデルやツール,すなわち「教師」の知識を取り入れた。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、様々なテキストプロンプトを通して記述に適合する新しい分子を生成することによって、大量のテキスト-分子対を構築する。 TSMMGは,2-,3-,4-制約タスクにまたがる複雑な,自然言語で規定された特性条件を満たす分子の生成において,平均分子効率が99%以上,成功率は82.58%,68.03%,67.48%であることを示す。 モデルはまたゼロショットテストを通じて適応性を示し、遭遇していない性質の組み合わせを満たす分子を生成する。 様々な言語スタイルでテキスト入力を理解でき、実験的な検証によって確認されたように、概要化されたプロンプトの区切りを超えて拡張できる。 さらに、TSMMGの知識蒸留機能は、小さなモデルの継続的な強化に寄与する一方、データセット構築における革新的なアプローチは、データ不足と品質の問題に効果的に対処し、TSMMGを医薬品発見と材料科学の領域における有望なツールとして位置づけている。

While various models and computational tools have been proposed for structure and property analysis of molecules, generating molecules that conform to all desired structures and properties remains a challenge. Here, we introduce a multi-constraint molecular generation large language model, TSMMG, which, akin to a student, incorporates knowledge from various small models and tools, namely, the 'teachers'. To train TSMMG, we construct a large set of text-molecule pairs by extracting molecular knowledge from these 'teachers', enabling it to generate novel molecules that conform to the descriptions through various text prompts. We experimentally show that TSMMG remarkably performs in generating molecules meeting complex, natural language-described property requirements across two-, three-, and four-constraint tasks, with an average molecular validity of over 99% and success ratio of 82.58%, 68.03%, and 67.48%, respectively. The model also exhibits adaptability through zero-shot testing, creating molecules that satisfy combinations of properties that have not been encountered. It can comprehend text inputs with various language styles, extending beyond the confines of outlined prompts, as confirmed through empirical validation. Additionally, the knowledge distillation feature of TSMMG contributes to the continuous enhancement of small models, while the innovative approach to dataset construction effectively addresses the issues of data scarcity and quality, which positions TSMMG as a promising tool in the domains of drug discovery and materials science.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# スケッチによる外部知識強化3次元シーン生成

External Knowledge Enhanced 3D Scene Generation from Sketch ( http://arxiv.org/abs/2403.14121v2 )

ライセンス: Link先を確認
Zijie Wu, Mingtao Feng, Yaonan Wang, He Xie, Weisheng Dong, Bo Miao, Ajmal Mian, (参考訳) 部屋のレイアウトやオブジェクトのジオメトリの複雑さから現実的な3Dシーンを生成することは困難であり,我々は,カスタマイズされた多種多様な3Dシーンを生成するためのスケッチベース知識拡張拡散アーキテクチャ(SEK)を提案する。 SEKは、対象シーンを手書きでスケッチし、オブジェクト関係知識ベースからの手がかりでデノナイズ処理を条件付けする。 まず、オブジェクト関係を含む外部知識ベースを構築し、その後、知識強化グラフ推論を利用して手書きスケッチの理解を支援する。 シーンは3Dオブジェクトとそれらの関係の組合せとして表現され、その後段階的に拡散してガウス分布に到達する。我々は、3Dオブジェクトインスタンスとレイアウトを含むシーンを回帰的に生成し、手書きスケッチで条件付けられた拡散過程を逆転させる3Dデノナイズシーントランスフォーマーを提案する。 3D-FRONTデータセットの実験により、我々のモデルは、最も近い競合であるDiffuSceneと比較して、FID、CKLを17.41%改善し、3Dシーン生成で37.18%改善し、FIDを19.12%改善し、20.06%改善した。

Generating realistic 3D scenes is challenging due to the complexity of room layouts and object geometries.We propose a sketch based knowledge enhanced diffusion architecture (SEK) for generating customized, diverse, and plausible 3D scenes. SEK conditions the denoising process with a hand-drawn sketch of the target scene and cues from an object relationship knowledge base. We first construct an external knowledge base containing object relationships and then leverage knowledge enhanced graph reasoning to assist our model in understanding hand-drawn sketches. A scene is represented as a combination of 3D objects and their relationships, and then incrementally diffused to reach a Gaussian distribution.We propose a 3D denoising scene transformer that learns to reverse the diffusion process, conditioned by a hand-drawn sketch along with knowledge cues, to regressively generate the scene including the 3D object instances as well as their layout. Experiments on the 3D-FRONT dataset show that our model improves FID, CKL by 17.41%, 37.18% in 3D scene generation and FID, KID by 19.12%, 20.06% in 3D scene completion compared to the nearest competitor DiffuScene.
翻訳日:2024-07-11 21:29:48 公開日:2024-07-10
# many-hypercube codes: High-rate quantum error-correcting codes for high- Performance fault-tolerant quantum computing

Many-hypercube codes: High-rate quantum error-correcting codes for high-performance fault-tolerant quantum computing ( http://arxiv.org/abs/2403.16054v2 )

ライセンス: Link先を確認
Hayato Goto, (参考訳) フォールトトレラント量子コンピューティングにおける量子エラー補正の標準的なアプローチは、単一の論理量子ビットを多くの物理ビットに符号化することに基づいている。 この問題を解決するために、量子低密度パリティチェック符号のような高速量子符号が過去10年間にわたって研究されてきた。 しかし、この場合、低オーバーヘッドを維持しながら論理ゲートを並列に実行することは困難である。 本稿では,高速量子符号の新たなファミリとして,小型量子誤り検出符号の連結化を提案する。 これらの単純な構造は、論理キュービットに対応するハイパーキューブを用いた幾何学的解釈を可能にする。 したがって、私たちはそれらを多くのハイパーキューブコードと呼ぶ。 彼らは高いレート、例えば、30%(64個の論理量子ビットは216個の物理ビットに符号化される)と論理ゲートの並列化の両方を実現することができる。 専用デコーダとエンコーダを開発し,回路レベルのノイズモデルにおいても高い誤差閾値を実現する。 したがって、多くのハイパーキューブ符号は、高性能なフォールトトレラント量子コンピューティングへの道を開くことになる。

Standard approaches to quantum error correction for fault-tolerant quantum computing are based on encoding a single logical qubit into many physical ones, resulting in asymptotically zero encoding rates and therefore huge resource overheads. To overcome this issue, high-rate quantum codes, such as quantum low-density parity-check codes, have been studied over the past decade. In this case, however, it is difficult to perform logical gates in parallel while maintaining low overheads. Here we propose concatenated high-rate small-size quantum error-detecting codes as a new family of high-rate quantum codes. Their simple structure allows for a geometrical interpretation using hypercubes corresponding to logical qubits. We thus call them many-hypercube codes. They can realize both high rates, e.g., 30% (64 logical qubits are encoded into 216 physical ones), and parallelizability of logical gates. Developing dedicated decoder and encoders, we achieve high error thresholds even in a circuit-level noise model. Thus, the many-hypercube codes will pave the way to high-performance fault-tolerant quantum computing.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# LCSH科目におけるChatGPTの使用実験

An Experiment with the Use of ChatGPT for LCSH Subject Assignment on Electronic Theses and Dissertations ( http://arxiv.org/abs/2403.16424v3 )

ライセンス: Link先を確認
Eric H. C. Chow, TJ Kao, Xiaoli Li, (参考訳) 本研究は,大型言語モデル (LLM) をLCSH(Community of Congress Subject Headings) に活用する可能性について考察する。 著者らはChatGPTを使用して、タイトルと抽象化に基づいて電子的論文や論文(ETD)の主題的見出しを生成する。 その結果,ChatGPT などの LLM は,LCSH を ETD に割り当てるのに必要なカタログ作成時間を短縮し,学術図書館におけるこのようなリソースの発見を改善できる可能性が示唆された。 にもかかわらず、LCSHの妥当性、排他性、特異性を検証するためには、人間のカタログは依然として不可欠である。

This study delves into the potential use of large language models (LLMs) for generating Library of Congress Subject Headings (LCSH). The authors employed ChatGPT to generate subject headings for electronic theses and dissertations (ETDs) based on their titles and abstracts. The results suggests that LLMs such as ChatGPT have the potential to reduce cataloging time needed for assigning LCSH subject terms for ETDs as well as to improve the discovery of this type of resource in academic libraries. Nonetheless, human catalogers remain essential for verifying and enhancing the validity, exhaustivity, and specificity of LCSH generated by LLMs.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# コード言語モデルによる脆弱性検出: どれくらい遠いか?

Vulnerability Detection with Code Language Models: How Far Are We? ( http://arxiv.org/abs/2403.18624v2 )

ライセンス: Link先を確認
Yangruibo Ding, Yanjun Fu, Omniyyah Ibrahim, Chawin Sitawarin, Xinyun Chen, Basel Alomair, David Wagner, Baishakhi Ray, Yizheng Chen, (参考訳) コード言語モデル(コードLM)と脆弱性検出に対する関心が高まっている状況において、脆弱性検出のためのコードLMの有効性について検討する。 我々の分析では、データ品質の低さ、ラベルの精度の低さ、重複率の高さなど、既存の脆弱性データセットの重大な欠陥が明らかとなり、現実的な脆弱性検出シナリオにおける信頼性の低いモデルパフォーマンスにつながります。 さらに、これらのデータセットで使用される評価方法は、現実世界の脆弱性検出を代表していない。 これらの課題に対処するために、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットであるPrimeVulを紹介します。 PrimeVulは、データセットを大幅に拡張しながら、人間検証されたベンチマークに匹敵するラベル精度を実現する、新しいデータラベリングテクニックを取り入れている。 また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装し、データ漏洩の問題を軽減するとともに、より現実的な評価指標と設定を導入する。 この包括的なアプローチは、実環境におけるLMのパフォーマンスをより正確に評価することを目的としている。 PrimeVul上でのコードLMの評価は、既存のベンチマークがこれらのモデルの性能を大幅に過大評価していることを示している。 例えば、最先端の7Bモデルは、BigVulでは68.26%のF1を記録したが、PrimeVulでは3.09%のF1しか獲得できなかった。 高度なトレーニング技術と GPT-3.5 や GPT-4 のような大型モデルによる性能向上の試みは失敗に終わり、その結果は最も厳密な環境でのランダムな推測に似ていた。 これらの調査結果は、現在の機能とセキュリティロールにコードLMをデプロイする実践的要件との間にかなりのギャップがあることを浮き彫りにし、この領域におけるより革新的な研究の必要性を強調している。

In the context of the rising interest in code language models (code LMs) and vulnerability detection, we study the effectiveness of code LMs for detecting vulnerabilities. Our analysis reveals significant shortcomings in existing vulnerability datasets, including poor data quality, low label accuracy, and high duplication rates, leading to unreliable model performance in realistic vulnerability detection scenarios. Additionally, the evaluation methods used with these datasets are not representative of real-world vulnerability detection. To address these challenges, we introduce PrimeVul, a new dataset for training and evaluating code LMs for vulnerability detection. PrimeVul incorporates a novel set of data labeling techniques that achieve comparable label accuracy to human-verified benchmarks while significantly expanding the dataset. It also implements a rigorous data de-duplication and chronological data splitting strategy to mitigate data leakage issues, alongside introducing more realistic evaluation metrics and settings. This comprehensive approach aims to provide a more accurate assessment of code LMs' performance in real-world conditions. Evaluating code LMs on PrimeVul reveals that existing benchmarks significantly overestimate the performance of these models. For instance, a state-of-the-art 7B model scored 68.26% F1 on BigVul but only 3.09% F1 on PrimeVul. Attempts to improve performance through advanced training techniques and larger models like GPT-3.5 and GPT-4 were unsuccessful, with results akin to random guessing in the most stringent settings. These findings underscore the considerable gap between current capabilities and the practical requirements for deploying code LMs in security roles, highlighting the need for more innovative research in this domain.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# 正の$P$表現によるマクスウェル・ブロッホ方程式の確率的補正

Stochastic correction to the Maxwell-Bloch equations via the positive $P$ representation ( http://arxiv.org/abs/2404.00402v2 )

ライセンス: Link先を確認
Johannes Stowasser, Felix Hitzelhammer, Michael A. Schreiber, Ulrich Hohenester, Gabriela Slavcheva, Michael Haider, Christian Jirauschek, (参考訳) 2レベル原子に着目し、正の$P$表現をJaynes-Cummings型のフルウェーブ混合ボソニックおよびフェルミオン系に適用し、非直交フェルミオン基底状態の選択において有利な自由度を特定する。 そこで本研究では,非古典位相空間上の確率微分方程式に関連付けて,マクスウェル・ブロッホ方程式の確率的補正を提案する。 このアプローチは、光-物質相互作用の半古典的処理と場量子化処理の関連性を探究し、半古典的モデルの主な利点を維持しつつ、非古典的光源のシミュレーションに使用できる可能性がある。

Focusing on two-level atoms, we apply the positive $P$ representation to a full-wave mixed bosonic and fermionic system of Jaynes-Cummings type and identify an advantageous degree of freedom in the choice of the involved nonorthogonal fermionic basis states. On this basis, we propose a stochastic correction to the Maxwell-Bloch equations by relating them to a stochastic differential equation on a nonclassical phase space, which captures the full second quantization dynamics of the system. This approach explores the connection between semiclassical and field-quantized treatments of light-matter interaction and can potentially be used for the simulation of nonclassical light sources while retaining the main advantages of a semiclassical model.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# エンドツーエンドのデータ駆動天気予報

End-to-end data-driven weather forecasting ( http://arxiv.org/abs/2404.00411v2 )

ライセンス: Link先を確認
Anna Vaughan, Stratis Markou, Will Tebbutt, James Requeima, Wessel P. Bruinsma, Tom R. Andersson, Michael Herzog, Nicholas D. Lane, Matthew Chantry, J. Scott Hosking, Richard E. Turner, (参考訳) 天気予報は、交通、農業、産業、一般市民の安全など、様々な人間の活動にとって重要である。 機械学習モデルは複雑な天気予報パイプラインを変換する可能性があるが、現在のアプローチは依然として数値天気予報システム(NWP)に依存しており、予測速度と精度を制限している。 ここでは、機械学習モデルが、運用中のNWPパイプライン全体を置き換えることができることを実証する。 エンドツーエンドのデータ駆動天気予報システムであるAardvark Weatherは、生の観測を取り込み、グローバルなグリッド化された予測とローカルステーションの予測を出力する。 さらに、興味事量よりもパフォーマンスを最大化するためにエンドツーエンドを最適化することができる。 グローバル予測は、複数の変数とリードタイムの運用NWPベースラインを上回っます。 ローカルステーションの予測は10日間のリードタイムに熟練しており、後処理されたグローバルなNWPベースラインや、人間の予測装置からの入力による最先端のエンドツーエンドの予測システムと同等かつ低いエラーを達成している。 これらの予測は、入力データのわずか85%と既存のNWPとハイブリッドAI-NWPの3桁の計算量を使用して、驚くほど単純なニューラルプロセスモデルで生成される。 我々は、Aardvark Weatherが、現在最先端のローカルモデルが利用できない発展途上国を含む様々な分野のユーザに対して、計算コストを桁違いに削減し、安価かつ迅速かつ安価にベスポークモデルを作成することのできる、中規模予測のための、次世代のエンド・ツー・エンド機械学習モデルの出発点になることを期待している。

Weather forecasting is critical for a range of human activities including transportation, agriculture, industry, as well as the safety of the general public. Machine learning models have the potential to transform the complex weather prediction pipeline, but current approaches still rely on numerical weather prediction (NWP) systems, limiting forecast speed and accuracy. Here we demonstrate that a machine learning model can replace the entire operational NWP pipeline. Aardvark Weather, an end-to-end data-driven weather prediction system, ingests raw observations and outputs global gridded forecasts and local station forecasts. Further, it can be optimised end-to-end to maximise performance over quantities of interest. Global forecasts outperform an operational NWP baseline for multiple variables and lead times. Local station forecasts are skillful up to ten days lead time and achieve comparable and often lower errors than a post-processed global NWP baseline and a state-of-the-art end-to-end forecasting system with input from human forecasters. These forecasts are produced with a remarkably simple neural process model using just 8\% of the input data and three orders of magnitude less compute than existing NWP and hybrid AI-NWP methods. We anticipate that Aardvark Weather will be the starting point for a new generation of end-to-end machine learning models for medium-range forecasting that will reduce computational costs by orders of magnitude and enable the rapid and cheap creation of bespoke models for users in a variety of fields, including for the developing world where state-of-the-art local models are not currently available.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# CHOPS: LLMを使った顧客サービスのためのcustOmerプロファイルシステムとのチャット

CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs ( http://arxiv.org/abs/2404.01343v3 )

ライセンス: Link先を確認
Jingzhe Shi, Jialuo Li, Qinwei Ma, Zaiwen Yang, Huan Ma, Lei Li, (参考訳) GPT-3.5、GPT-4、GLM-3、LLaMa-2といった大企業やソフトウェアプラットフォームは、ファイルアクセスやカスタマーサービスの推論エージェントとして、より大規模な言語モデル(LLM)に移行しつつある。 しかし、現在のLLMベースのカスタマーサービスモデルでは、顧客プロファイルとの統合が限られており、効果的なサービスに必要な運用機能が欠如している。 さらに、既存のAPI統合は、現実世界のカスタマーサービスシナリオに不可欠な精度とエラー回避の多様性を強調している。 これらの問題に対処するために,1)既存のデータベースやシステムを利用してユーザ情報にアクセスしたり,既存のガイドラインに従ってシステムと対話したりすること,2)有害な操作を回避しつつ,正確で合理的な応答を提供したり,あるいは必要な操作をシステム内で行うこと,3)小規模と大規模のLCMの組み合わせを活用して,合理的な推論コストで性能を満足させること,などを目的とする,CHOPS (CHAT with custOmer Profile in existing System) という LLM エージェントを提案する。 我々は,CPHOSから収集したデータベース,ファイルの案内,QAペアを含む,実践的なデータセットであるCPHOSデータセットを紹介した。 我々はCPHOSデータセットを用いて提案したCHOPSアーキテクチャの性能を検証するための広範な実験を行い、LLMがヒューマンカスタマーサービスの代替品としてどのように機能するかを実証した。 提案したアーキテクチャとデータセットのコードは、https://github.com/JingzheShi/CHOPS}で確認できます。

Businesses and software platforms are increasingly turning to Large Language Models (LLMs) such as GPT-3.5, GPT-4, GLM-3, and LLaMa-2 for chat assistance with file access or as reasoning agents for customer service. However, current LLM-based customer service models have limited integration with customer profiles and lack the operational capabilities necessary for effective service. Moreover, existing API integrations emphasize diversity over the precision and error avoidance essential in real-world customer service scenarios. To address these issues, we propose an LLM agent named CHOPS (CHat with custOmer Profile in existing System), designed to: (1) efficiently utilize existing databases or systems for accessing user information or interacting with these systems following existing guidelines; (2) provide accurate and reasonable responses or carry out required operations in the system while avoiding harmful operations; and (3) leverage a combination of small and large LLMs to achieve satisfying performance at a reasonable inference cost. We introduce a practical dataset, the CPHOS-dataset, which includes a database, guiding files, and QA pairs collected from CPHOS, an online platform that facilitates the organization of simulated Physics Olympiads for high school teachers and students. We have conducted extensive experiments to validate the performance of our proposed CHOPS architecture using the CPHOS-dataset, with the aim of demonstrating how LLMs can enhance or serve as alternatives to human customer service. Code for our proposed architecture and dataset can be found at {https://github.com/JingzheShi/CHOPS}.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# LLMをクロスモーダルおよびクロスランガル検索システムに変換する

Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems ( http://arxiv.org/abs/2404.01616v3 )

ライセンス: Link先を確認
Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego, (参考訳) 大規模言語モデル(LLM)は、ペア化された音声とテキストデータを持つ言語を超えた、テキストのみのデータに基づいて訓練される。 同時に、Dual Encoder (DE) ベースの検索システムは、クエリとドキュメントを同じ埋め込み空間に投影し、検索とバイテキストマイニングの成功を実証している。 多くの言語における音声とテキストを一致させるため,マルチモーダルD検索システムを初期化するLLMを提案する。 従来の手法とは異なり,本システムはLLM事前学習中に音声データを必要とせず,LLMの多言語テキスト理解機能を利用して検索訓練中に見つからない言語における音声とテキストのマッチングを行うことができる。 マルチモーダルLLMに基づく検索システムでは,21言語でのみ学習しながら102言語で音声とテキストをマッチングできる。 我々のシステムは、すべての102言語で明示的に訓練された以前のシステムより優れています。 これらの言語で平均されるRecall@1の10%の絶対的な改善を実現しています。 さらに,本モデルでは,機械翻訳データによってさらに拡張された言語間音声とテキストマッチングを実証する。

Large language models (LLMs) are trained on text-only data that go far beyond the languages with paired speech and text data. At the same time, Dual Encoder (DE) based retrieval systems project queries and documents into the same embedding space and have demonstrated their success in retrieval and bi-text mining. To match speech and text in many languages, we propose using LLMs to initialize multi-modal DE retrieval systems. Unlike traditional methods, our system doesn't require speech data during LLM pre-training and can exploit LLM's multilingual text understanding capabilities to match speech and text in languages unseen during retrieval training. Our multi-modal LLM-based retrieval system is capable of matching speech and text in 102 languages despite only training on 21 languages. Our system outperforms previous systems trained explicitly on all 102 languages. We achieve a 10% absolute improvement in Recall@1 averaged across these languages. Additionally, our model demonstrates cross-lingual speech and text matching, which is further enhanced by readily available machine translation data.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# 関節リレーショナルトリプル抽出のためのバイコンソリデーションモデル

A Bi-consolidating Model for Joint Relational Triple Extraction ( http://arxiv.org/abs/2404.03881v2 )

ライセンス: Link先を確認
Xiaocheng Luo, Yanping Chen, Ruixue Tang, Caiwei Yang, Ruizhang Huang, Yongbin Qin, (参考訳) リレーショナルトリプルを抽出する現在の方法は、エンティティ認識に依存することなく、生文の可能なエンティティペアに基づいて直接予測を行う。 このタスクは、複数の関係三重項が文中に1つまたは2つの実体を共有するという深刻な意味的重なり合う問題に悩まされる。 本稿では,2次元の文表現に基づいて,関係三重関係に関連する局所的・大域的意味的特徴を同時に強化することにより,この問題に対処するバイコンソリデーションモデルを提案する。 このモデルは局所的な凝縮成分と大域的な凝縮成分からなる。 第1のコンポーネントは画素差畳み込みを使用して、隣接する領域からの3重表現のセマンティック情報を高め、隣接する近隣のノイズを緩和する。 第2のコンポーネントは、チャネルアテンションと空間アテンションに基づく三重表現を強化し、文中のリモートセマンティック依存を学習する利点がある。 関係3重抽出における実体識別と関係型分類の両方の性能向上に有効である。 いくつかのパブリッシュデータセットで評価した後、複統合モデルは競争性能を達成する。 解析実験は,関係3重抽出におけるモデルの有効性を実証し,他の自然言語処理タスクに対するモチベーションを与える。

Current methods to extract relational triples directly make a prediction based on a possible entity pair in a raw sentence without depending on entity recognition. The task suffers from a serious semantic overlapping problem, in which several relation triples may share one or two entities in a sentence. In this paper, based on a two-dimensional sentence representation, a bi-consolidating model is proposed to address this problem by simultaneously reinforcing the local and global semantic features relevant to a relation triple. This model consists of a local consolidation component and a global consolidation component. The first component uses a pixel difference convolution to enhance semantic information of a possible triple representation from adjacent regions and mitigate noise in neighbouring neighbours. The second component strengthens the triple representation based a channel attention and a spatial attention, which has the advantage to learn remote semantic dependencies in a sentence. They are helpful to improve the performance of both entity identification and relation type classification in relation triple extraction. After evaluated on several publish datasets, the bi-consolidating model achieves competitive performance. Analytical experiments demonstrate the effectiveness of our model for relational triple extraction and give motivation for other natural language processing tasks.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# 中国語Tiny LLM:中国語中心の大規模言語モデルの事前学習

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model ( http://arxiv.org/abs/2404.04167v4 )

ライセンス: Link先を確認
Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Wenhu Chen, Ge Zhang, (参考訳) 本研究では,LLM開発における中国語の優先化に向けた重要なシフトを示す2B大規模言語モデル(LLM)であるCT-LLMを紹介する。 CT-LLMは、スクラッチからはじめて、800億の中国トークン、300億の英語トークン、1000億のコードトークンを含む1200億のトークンの広範なコーパスを利用して、主に中国語のテキストデータを組み込むことによって、従来の手法から分離した。 この戦略構成は、アライメント技術によってさらに強化された、中国語の理解と処理において、モデルが卓越した能力を促進する。 CHC-Benchでの顕著な性能を示すために、CT-LLMは中国語のタスクに優れており、SFTによる英語での適応性を示している。 本研究は,LLMを英語コーパスに基づいて学習し,それを他の言語に適応させることによって,LLM学習方法論の地平を広げるという,一般的なパラダイムに挑戦する。 得られた大量事前学習型中国語コーパス(MAP-CC)、高度多分野の中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順をオープンソース化することにより、学術と産業の両方におけるさらなる探索と革新を促進し、より包括的で多目的な言語モデルの実現を目指す。

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# PAT:ロングテールセグメンテーションのための画素ワイド適応トレーニング

PAT: Pixel-wise Adaptive Training for Long-tailed Segmentation ( http://arxiv.org/abs/2404.05393v3 )

ライセンス: Link先を確認
Khoi Do, Duong Nguyen, Nguyen H. Tran, Viet Dung Nguyen, (参考訳) クラス頻度を超えて,様々なクラス固有予測におけるクラスワイド関係とラベルマスクの不均衡が長いセグメンテーション学習に与える影響を認識した。 これらの課題に対処するために、長い尾のセグメンテーションに適した革新的なPixel-wise Adaptive Training (PAT)技術を提案する。 PATには2つの重要な特徴がある。 1) 等級勾配等級均質化, 等級勾配等級化 2) pixel-wise class-specific loss adaptation (PCLA)。 第一に、クラスワイドグレードの等質化は、モデル更新に対するクラスワイドの影響を等しく考慮することで、ラベルマスク間の不均衡を軽減するのに役立つ。 第2に、PCLAは、予測信頼度が低い学習クラスを奨励し、信頼度の高い授業を忘れないようにすることにより、長い尾の分布におけるレアクラスと、以前のトレーニング段階からの不正確な予測の両方の有害な影響に取り組む。 この組み合わせアプローチは、モデルが以前に学んだ知識を忘れないようにしながら、堅牢な学習を促進する。 PATは、NyUデータセットで現在の最先端を2.2%上回る、大幅なパフォーマンス向上を示している。 さらに、OxfordPetIII、CityScape、NYUの3つの一般的なデータセットで示されるように、全体のピクセル単位の精度を2.85%向上し、ユニオン値の交叉を2.07%向上させる。

Beyond class frequency, we recognize the impact of class-wise relationships among various class-specific predictions and the imbalance in label masks on long-tailed segmentation learning. To address these challenges, we propose an innovative Pixel-wise Adaptive Training (PAT) technique tailored for long-tailed segmentation. PAT has two key features: 1) class-wise gradient magnitude homogenization, and 2) pixel-wise class-specific loss adaptation (PCLA). First, the class-wise gradient magnitude homogenization helps alleviate the imbalance among label masks by ensuring equal consideration of the class-wise impact on model updates. Second, PCLA tackles the detrimental impact of both rare classes within the long-tailed distribution and inaccurate predictions from previous training stages by encouraging learning classes with low prediction confidence and guarding against forgetting classes with high confidence. This combined approach fosters robust learning while preventing the model from forgetting previously learned knowledge. PAT exhibits significant performance improvements, surpassing the current state-of-the-art by 2.2% in the NyU dataset. Moreover, it enhances overall pixel-wise accuracy by 2.85% and intersection over union value by 2.07%, with a particularly notable declination of 0.39% in detecting rare classes compared to Balance Logits Variation, as demonstrated on the three popular datasets, i.e., OxfordPetIII, CityScape, and NYU.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# アビニットにおける線形応答ハバードパラメータU,Jの施設と実践

Facilities and practices for linear response Hubbard parameters U and J in Abinit ( http://arxiv.org/abs/2404.06284v2 )

ライセンス: Link先を確認
Lórien MacEnulty, Matteo Giantomassi, Bernard Amadon, Gian-Marco Rignanese, David D. O'Regan, (参考訳) DFT+Uファミリーのメンバーは、最小計算コストで(半)局所交換相関関数に固有のエラーに対処する方法がますます一般的になっているが、そのパラメータ U と J は、特定の利害関係、シミュレーションスキーム、実行時パラメータを計算しなければならない。 SCF線形応答アプローチは、Uのab初期取得を提供し、最近、交換様効果に関連する局所的誤差を測定するJを類似的に計算するために拡張されている。 本稿では,更新後プロセッサであるlrUJユーティリティと,この詳細なベストプラクティスガイドを導入し,オープンソースのAbinitファーストプリンシプルシミュレーションスイートのユーザに対して,ハバードパラメータの挿入を容易に行うとともに,興味のある材料シミュレーションへの導入を合理化できるようにする。 このユーティリティの特徴は、また他のDFTコードのユーザや開発者が興味を持つかもしれないが、$n$-degreeの多項式回帰、エラー解析、Pythonプロット機能、ドクティックドキュメンテーション、さらなる開発への道のりなどである。 本稿では,プロジェクタ拡張波(PAW)法,SCF混合スキーム,非線形応答による複雑な落とし穴と潜在的な落とし穴に着目し,その一部は他のパッケージのDFT+U(+J)実装に変換可能である。

Members of the DFT+U family of functionals are increasingly prevalent methods of addressing errors intrinsic to (semi-) local exchange-correlation functionals at minimum computational cost, but require their parameters U and J to be calculated in situ for a given system of interest, simulation scheme, and runtime parameters. The SCF linear response approach offers ab initio acquisition of the U and has recently been extended to compute the J analogously, which measures localized errors related to exchange-like effects. We introduce a renovated post-processor, the lrUJ utility, together with this detailed best-practices guide, to enable users of the popular, open-source Abinit first-principles simulation suite to engage easily with in situ Hubbard parameters and streamline their incorporation into material simulations of interest. Features of this utility, which may also interest users and developers of other DFT codes, include $n$-degree polynomial regression, error analysis, Python plotting facilities, didactic documentation, and avenues for further developments. In this technical introduction and guide, we place particular emphasis on the intricacies and potential pitfalls introduced by the projector augmented wave (PAW) method, SCF mixing schemes, and non-linear response, several of which are translatable to DFT+U(+J) implementations in other packages.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# 量子臨界ダイナミクスを用いた数百量子ビット上のデジタル量子シミュレーションのベンチマーク

Benchmarking digital quantum simulations above hundreds of qubits using quantum critical dynamics ( http://arxiv.org/abs/2404.08053v2 )

ライセンス: Link先を確認
Alexander Miessen, Daniel J. Egger, Ivano Tavernelli, Guglielmo Mazzola, (参考訳) 大規模な多体量子システムのリアルタイムシミュレーションは、真の量子計算プラットフォームでしか達成できない、恐ろしい作業である。 現在、古典的なエミュレーションに挑戦するのに十分な多くの量子ビットを持つ量子ハードウェアが利用可能である。 この条件はいわゆる量子優位性を求めるために必要であるが、結果の検証も非常に困難である。 本稿では,多体量子臨界力学に関する既知の理論的結果を用いて,最大133量子ビットの量子ハードウェアおよび様々な誤差軽減手法をベンチマークする。 特に、時間依存的横断体 Ising Hamiltonian のハミルトンシミュレーションにおいて、既知の普遍的スケーリング法則をベンチマークする。 基本誤差低減と抑制法のみを組み込んで,ノイズが広まる前に最大1396個の2量子ゲートを特徴とする2量子ゲート深さ28までの信頼性の高い制御を示す。 これらの結果は、ハミルトンシミュレーション、変分アルゴリズム、最適化、量子機械学習などのアプリケーションに転送可能である。 最適化のためのディジタル化量子アニールの例でこれを実証し、133サイト最適化問題における回路深さと時間ステップの両方の観点から最適な作業点を同定する。

The real-time simulation of large many-body quantum systems is a formidable task, that may only be achievable with a genuine quantum computational platform. Currently, quantum hardware with a number of qubits sufficient to make classical emulation challenging is available. This condition is necessary for the pursuit of a so-called quantum advantage, but it also makes verifying the results very difficult. In this manuscript, we flip the perspective and utilize known theoretical results about many-body quantum critical dynamics to benchmark quantum hardware and various error mitigation techniques on up to 133 qubits. In particular, we benchmark against known universal scaling laws in the Hamiltonian simulation of a time-dependent transverse field Ising Hamiltonian. Incorporating only basic error mitigation and suppression methods, our study shows reliable control up to a two-qubit gate depth of 28, featuring a maximum of 1396 two-qubit gates, before noise becomes prevalent. These results are transferable to applications such as Hamiltonian simulation, variational algorithms, optimization, or quantum machine learning. We demonstrate this on the example of digitized quantum annealing for optimization and identify an optimal working point in terms of both circuit depth and time step on a 133-site optimization problem.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# 適応的N-gram並列デコードによる大規模言語モデルのロスレス高速化

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding ( http://arxiv.org/abs/2404.08698v2 )

ライセンス: Link先を確認
Jie Ou, Yueming Chen, Wenhong Tian, (参考訳) 大規模言語モデル(LLM)は、顕著な能力を示す一方で、リソース消費と自動回帰処理によるかなりの遅延によって妨げられている。 本研究では,複数のトークンを同時に生成することで推論を高速化する,革新的でロスレスな手法であるAdaptive N-gram Parallel Decoding (ANPD)を導入する。 ANPDは、2段階のアプローチを取り入れており、N-gramモジュールを使った高速な起草フェーズから始まり、現在の対話的コンテキストに基づいて順応し、検証フェーズで元のLLMが提案されたトークンを評価し、確認する。 従って、ANPDは処理速度を向上しつつ、LLMの元々の出力の完全性を維持する。 さらに、N-gramモジュールのマルチレベルアーキテクチャを活用し、初期ドラフトの精度を高め、推論遅延を低減する。 ANPDは、再トレーニングや余分なGPUメモリの必要性を排除し、効率的でプラグアンドプレイの強化を実現している。 実験では,LLaMAとその微調整モデルを用いて,最大3.67倍の速度向上を実現し,提案したANPDの有効性を検証した。

While Large Language Models (LLMs) have shown remarkable abilities, they are hindered by significant resource consumption and considerable latency due to autoregressive processing. In this study, we introduce Adaptive N-gram Parallel Decoding (ANPD), an innovative and lossless approach that accelerates inference by allowing the simultaneous generation of multiple tokens. ANPD incorporates a two-stage approach: it begins with a rapid drafting phase that employs an N-gram module, which adapts based on the current interactive context, followed by a verification phase, during which the original LLM assesses and confirms the proposed tokens. Consequently, ANPD preserves the integrity of the LLM's original output while enhancing processing speed. We further leverage a multi-level architecture for the N-gram module to enhance the precision of the initial draft, consequently reducing inference latency. ANPD eliminates the need for retraining or extra GPU memory, making it an efficient and plug-and-play enhancement. In our experiments, models such as LLaMA and its fine-tuned variants have shown speed improvements up to 3.67x, validating the effectiveness of our proposed ANPD.
翻訳日:2024-07-11 21:20:03 公開日:2024-07-10
# スケーリング学習による対人ロバスト性限界と人的アライメント研究

Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies ( http://arxiv.org/abs/2404.09349v2 )

ライセンス: Link先を確認
Brian R. Bartoldson, James Diffenderfer, Konstantinos Parasyris, Bhavya Kailkhura, (参考訳) 本稿では、画像分類器を知覚不能な摂動に対して堅牢にするという、単純で長期に渡り、未解決の問題を再考する。 CIFAR10を例にすると、SOTAのクリーン精度は約100ドル%だが、$\ell_{\infty}$-normの有界摂動に対するSOTAの堅牢性は70ドル%を超える。 このギャップを理解するために, モデルサイズ, データセットサイズ, 合成データ品質が, 対戦型トレーニングのための最初のスケーリング法則を開発することによって, 堅牢性にどのように影響するかを分析する。 我々のスケーリング法則は、先行技術における非効率性を明らかにし、現場を前進させるための実用的なフィードバックを提供する。 例えば、SOTA法は計算最適設定から特に分岐し、過剰な計算を頑健さのレベルに用いた。 計算効率のセットアップを活用することで、以前のSOTAよりも20ドル%(70ドル%)少ないトレーニング(推論)FLOPを達成できます。 私たちは、AutoAttackの精度(+3$%のゲイン)を7,4$%達成して、さまざまな計算効率のモデルをトレーニングしました。 しかし、我々のスケーリング法則はまた、ロバスト性は徐々に成長し、90ドル%の高原を予測している: スケーリングによって新しいSOTAを軽視することは非現実的であり、完全なロバスト性は不可能である。 この予測限界をよりよく理解するために、私たちはAutoAttackデータに対して、私たちの最高のパフォーマンスモデルを騙した小規模の人間評価を実行します。 そこで,本研究では,90ドル近くで人為的性能が低下すると推定し,その原因は,元ラベルと一致しない不正な画像の生成に$\ell_{\infty}$-constrained attackが関与していることが示唆された。 道路封鎖の限界を特徴として、今後の研究に期待できる道筋を概説する。

This paper revisits the simple, long-studied, yet still unsolved problem of making image classifiers robust to imperceptible perturbations. Taking CIFAR10 as an example, SOTA clean accuracy is about $100$%, but SOTA robustness to $\ell_{\infty}$-norm bounded perturbations barely exceeds $70$%. To understand this gap, we analyze how model size, dataset size, and synthetic data quality affect robustness by developing the first scaling laws for adversarial training. Our scaling laws reveal inefficiencies in prior art and provide actionable feedback to advance the field. For instance, we discovered that SOTA methods diverge notably from compute-optimal setups, using excess compute for their level of robustness. Leveraging a compute-efficient setup, we surpass the prior SOTA with $20$% ($70$%) fewer training (inference) FLOPs. We trained various compute-efficient models, with our best achieving $74$% AutoAttack accuracy ($+3$% gain). However, our scaling laws also predict robustness slowly grows then plateaus at $90$%: dwarfing our new SOTA by scaling is impractical, and perfect robustness is impossible. To better understand this predicted limit, we carry out a small-scale human evaluation on the AutoAttack data that fools our top-performing model. Concerningly, we estimate that human performance also plateaus near $90$%, which we show to be attributable to $\ell_{\infty}$-constrained attacks' generation of invalid images not consistent with their original labels. Having characterized limiting roadblocks, we outline promising paths for future research.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# PhyScene:体操AIのための物理的に相互作用可能な3Dシーン合成

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI ( http://arxiv.org/abs/2404.09465v2 )

ライセンス: Link先を確認
Yandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang, (参考訳) 近年、Embodied Artificial Intelligence(EAI)研究が発展し、高品質で大規模な対話型シーン生成への需要が高まっている。 シーン合成における従来の手法は、生成されたシーンの自然性やリアリズムを優先してきたが、シーンの物理的妥当性と相互作用性はほとんど解明されていない。 この格差に対処するために,現実的なレイアウト,明瞭なオブジェクト,具体化されたエージェントに適したリッチな物理的相互作用を特徴付けるインタラクティブな3Dシーンを生成するPhySceneを紹介した。 シーンレイアウトをキャプチャする条件付き拡散モデルに基づいて,物体衝突,室内レイアウト,物体到達性といった制約を統合する物理および対話性に基づくガイダンス機構を考案する。 大規模な実験を通じて、PhySceneはこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に活用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示す。 このことから,PhySceneが生み出したシーンは,対話型環境におけるエージェント間の多様なスキル獲得を促進する上で大きな可能性を秘めていることが示唆された。 プロジェクトウェブサイト: http://physcene.github.io

With recent developments in Embodied Artificial Intelligence (EAI) research, there has been a growing demand for high-quality, large-scale interactive scene generation. While prior methods in scene synthesis have prioritized the naturalness and realism of the generated scenes, the physical plausibility and interactivity of scenes have been largely left unexplored. To address this disparity, we introduce PhyScene, a novel method dedicated to generating interactive 3D scenes characterized by realistic layouts, articulated objects, and rich physical interactivity tailored for embodied agents. Based on a conditional diffusion model for capturing scene layouts, we devise novel physics- and interactivity-based guidance mechanisms that integrate constraints from object collision, room layout, and object reachability. Through extensive experiments, we demonstrate that PhyScene effectively leverages these guidance functions for physically interactable scene synthesis, outperforming existing state-of-the-art scene synthesis methods by a large margin. Our findings suggest that the scenes generated by PhyScene hold considerable potential for facilitating diverse skill acquisition among agents within interactive environments, thereby catalyzing further advancements in embodied AI research. Project website: http://physcene.github.io.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# UPose3D:クロスビューとテンポラルクイズを用いた不確かさを意識した3次元人物位置推定

UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues ( http://arxiv.org/abs/2404.14634v3 )

ライセンス: Link先を確認
Vandad Davoodnia, Saeed Ghorbani, Marc-André Carbonneau, Alexandre Messier, Ali Etemad, (参考訳) UPose3Dは、多視点人間のポーズ推定のための新しいアプローチであり、精度とスケーラビリティの課題に対処する。 提案手法は,3Dアノテーションを直接必要とせず,ロバスト性や柔軟性を向上させることで,既存のポーズ推定フレームワークを進化させる。 提案手法のコアとなる2次元キーポイント推定器から,時間的・横断的な情報を活用することにより,1つの画像上で動作可能な2次元キーポイント推定器から,ポーズコンパイラモジュールが予測を洗練する。 我々の新しいクロスビュー融合戦略は、どんなカメラにもスケーラブルであり、合成データ生成戦略は、多様なアクター、シーン、視点の一般化を保証する。 最後に、UPose3Dは2Dキーポイント推定器とポーズコンパイラモジュールの両方の予測不確実性を利用する。 これにより、アウトレーヤやノイズの多いデータに対して堅牢性が提供され、アウト・オブ・ディストリビューション設定における最先端のパフォーマンスが実現します。 さらに、流通環境では、UPose3Dは3Dアノテートされたデータに依存しながら、2Dの監督にのみ依存する手法の中で最先端の手法であるパフォーマンス競合する手法を提供する。

We introduce UPose3D, a novel approach for multi-view 3D human pose estimation, addressing challenges in accuracy and scalability. Our method advances existing pose estimation frameworks by improving robustness and flexibility without requiring direct 3D annotations. At the core of our method, a pose compiler module refines predictions from a 2D keypoints estimator that operates on a single image by leveraging temporal and cross-view information. Our novel cross-view fusion strategy is scalable to any number of cameras, while our synthetic data generation strategy ensures generalization across diverse actors, scenes, and viewpoints. Finally, UPose3D leverages the prediction uncertainty of both the 2D keypoint estimator and the pose compiler module. This provides robustness to outliers and noisy data, resulting in state-of-the-art performance in out-of-distribution settings. In addition, for in-distribution settings, UPose3D yields performance rivalling methods that rely on 3D annotated data while being the state-of-the-art among methods relying only on 2D supervision.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# 生成事前学習変圧器モデルを用いた暗号ハッシュ関数実装のソースコード変数の自動生成

Automated Creation of Source Code Variants of a Cryptographic Hash Function Implementation Using Generative Pre-Trained Transformer Models ( http://arxiv.org/abs/2404.15681v2 )

ライセンス: Link先を確認
Elijah Pelofske, Vincent Urias, Lorie M. Liebrock, (参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(Generative Pre-trained Transformer、GPT)は、新鮮で一貫性のある自然言語を生成できる大規模言語機械学習モデルの一種である。 本研究では, 暗号ハッシュ関数SHA-1の実装において, GPTモデルが新規かつ適切なバージョン, 特に非常に安全でないバージョンを生成する能力について検討した。 GPTモデルLlama-2-70b-chat-h、Mistral-7B-Instruct-v0.1、zephyr-7b-alphaが使用される。 GPTモデルは、ローカルGPTフレームワークとlangchainの修正版を使用して各関数を書き換えるよう促され、完全なソースコードとヘッダファイルのワード埋め込みコンテキストをモデルに提供し、150,000以上の関数がGPT出力のテキストブロックを再書き直され、そのうち約50,000がCコードとして解析され、コンパイルされる。 生成されたコードは、コンパイル可能であり、アルゴリズムの正しさ、メモリリーク、コンパイラ最適化の安定性、参照実装までの文字距離を解析する。 注目すべきは、いくつかの生成された関数変種は、いくつかのテストベクターに対して正しいが、他のテストベクターでは正しくないという高い実装上のセキュリティリスクがあることである。 さらに、多くの関数の実装は、SHA-1の参照アルゴリズムに正確ではなく、ハッシュ関数の基本的な特徴を持つハッシュを生成した。 関数の再書き込みの多くは、メモリリーク、整数オーバーフロー、バウンダリアクセス、初期化されていない値の使用、コンパイラの最適化不安定といった深刻な欠陥を含んでいた。 コンパイラの最適化設定とコンパイル済みバイナリのSHA-256ハッシュチェックサムは、同等だが同一の構文を持たない実装に使用される。

Generative pre-trained transformers (GPT's) are a type of large language machine learning model that are unusually adept at producing novel, and coherent, natural language. In this study the ability of GPT models to generate novel and correct versions, and notably very insecure versions, of implementations of the cryptographic hash function SHA-1 is examined. The GPT models Llama-2-70b-chat-h, Mistral-7B-Instruct-v0.1, and zephyr-7b-alpha are used. The GPT models are prompted to re-write each function using a modified version of the localGPT framework and langchain to provide word embedding context of the full source code and header files to the model, resulting in over 150,000 function re-write GPT output text blocks, approximately 50,000 of which were able to be parsed as C code and subsequently compiled. The generated code is analyzed for being compilable, correctness of the algorithm, memory leaks, compiler optimization stability, and character distance to the reference implementation. Remarkably, several generated function variants have a high implementation security risk of being correct for some test vectors, but incorrect for other test vectors. Additionally, many function implementations were not correct to the reference algorithm of SHA-1, but produced hashes that have some of the basic characteristics of hash functions. Many of the function re-writes contained serious flaws such as memory leaks, integer overflows, out of bounds accesses, use of uninitialised values, and compiler optimization instability. Compiler optimization settings and SHA-256 hash checksums of the compiled binaries are used to cluster implementations that are equivalent but may not have identical syntax - using this clustering over 100,000 novel and correct versions of the SHA-1 codebase were generated where each component C function of the reference implementation is different from the original code.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# 協力・崩壊: LLM エージェント学会における持続的協力の創出

Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents ( http://arxiv.org/abs/2404.16698v3 )

ライセンス: Link先を確認
Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Schölkopf, Mrinmaya Sachan, Rada Mihalcea, (参考訳) AIシステムが人間の生活に浸透するにつれ、大きな言語モデル(LLM)が安全な判断を下すことは、依然として大きな課題である。 我々は,LLMにおける戦略的相互作用と協調的意思決定を研究するための生成シミュレーションプラットフォームであるGovSim(GovSim)について紹介する。 GovSimでは、AIエージェントの社会は、共通のリソースの活用と将来の使用のためにそれを維持するためのバランスを取り合わなければならない。 この環境は、倫理的配慮、戦略的計画、交渉のスキルが協調的な結果にどのように影響するかを研究することができる。 我々は LLM ベースのエージェントアーキテクチャを開発し,オープンかつクローズドな LLM を用いてテストする。 最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成できず、生存率は54%以下である。 エージェント間のマルチエージェントコミュニケーションの成功は、これらのケースにおける協調を達成するために重要であることが、アブレーションによって明らかにされている。 さらに, LLMにおける持続的協力の達成に失敗する要因は, 集団の平衡に対する行動の長期的影響に関する仮説を定式化・分析できないことにある。 最後に、道徳的思考の理論である「大学化」に基づく推論を活用するエージェントが、持続可能性を大幅に向上できることを示す。 GovSimは共同で、持続的な自己統治を具体性と規模で支えるメカニズムを研究することができる。 シミュレーション環境やエージェントプロンプト,包括的なWebインターフェースなど,研究成果の全スイートをオープンソースとして公開しています。

As AI systems pervade human life, ensuring that large language models (LLMs) make safe decisions remains a significant challenge. We introduce the Governance of the Commons Simulation (GovSim), a generative simulation platform designed to study strategic interactions and cooperative decision-making in LLMs. In GovSim, a society of AI agents must collectively balance exploiting a common resource with sustaining it for future use. This environment enables the study of how ethical considerations, strategic planning, and negotiation skills impact cooperative outcomes. We develop an LLM-based agent architecture and test it with the leading open and closed LLMs. We find that all but the most powerful LLM agents fail to achieve a sustainable equilibrium in GovSim, with the highest survival rate below 54%. Ablations reveal that successful multi-agent communication between agents is critical for achieving cooperation in these cases. Furthermore, our analyses show that the failure to achieve sustainable cooperation in most LLMs stems from their inability to formulate and analyze hypotheses about the long-term effects of their actions on the equilibrium of the group. Finally, we show that agents that leverage "Universalization"-based reasoning, a theory of moral thinking, are able to achieve significantly better sustainability. Taken together, GovSim enables us to study the mechanisms that underlie sustainable self-government with specificity and scale. We open source the full suite of our research results, including the simulation environment, agent prompts, and a comprehensive web interface.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# CRAFT:野生からの文化教育の抽出・調整

CRAFT: Extracting and Tuning Cultural Instructions from the Wild ( http://arxiv.org/abs/2405.03138v2 )

ライセンス: Link先を確認
Bin Wang, Geyu Lin, Zhengyuan Liu, Chengwei Wei, Nancy F. Chen, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)アプリケーションの基礎として急速に進化してきた。 広く使われているにもかかわらず、文化的な概念や推論に対する理解は依然として限られている。 時が経つと、これらのモデルの文化的推論能力、特に表現不足の地域について、大幅に強化する必要性がある。 本稿では,未構造化コーパスから高品質で文化的に関連のある命令チューニングデータセットを抽出するための新しいパイプラインを提案する。 自己指示生成パイプラインを用いて、文化的概念を特定し、指導をトリガーする。 汎用的な指導調律データセットと統合することにより,地域文化のニュアンスを認識し理解する能力が向上し,推論能力が向上することを示す。 シンガポール、フィリピン、アメリカという3つの地域で実験を行い、最大6%のパフォーマンス向上を実現しました。 本研究は、非構造化データから直接文化的指導用チューニングセットを抽出する新たな道を開き、今後のイノベーションの先駆けとなる。

Large language models (LLMs) have rapidly evolved as the foundation of various natural language processing (NLP) applications. Despite their wide use cases, their understanding of culturally-related concepts and reasoning remains limited. Meantime, there is a significant need to enhance these models' cultural reasoning capabilities, especially concerning underrepresented regions. This paper introduces a novel pipeline for extracting high-quality, culturally-related instruction tuning datasets from vast unstructured corpora. We utilize a self-instruction generation pipeline to identify cultural concepts and trigger instruction. By integrating with a general-purpose instruction tuning dataset, our model demonstrates enhanced capabilities in recognizing and understanding regional cultural nuances, thereby enhancing its reasoning capabilities. We conduct experiments across three regions: Singapore, the Philippines, and the United States, achieving performance improvement of up to 6%. Our research opens new avenues for extracting cultural instruction tuning sets directly from unstructured data, setting a precedent for future innovations in the field.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v7 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのか、また、一般論として障害とのフェルミオン相互作用に対してどのように達成されるのかを、いくつかの解析計算で明らかにする。 これを実現するために、私たちは単純な相互作用のモデル化を行います。 特に、$q$-point rescaled sparse SYK 相互作用の場合、量子優位性は$\Gamma\sim N^{\frac {\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac {\alpha}{2}}$ for $q/2>\alpha\geq 0$である。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions and in general for fermionic interactions with disorder. To do this we perform a simple modelization of the interactions. In particular, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# 分散回帰の代用として逆条件流がいかに生み出すか

How Inverse Conditional Flows Can Serve as a Substitute for Distributional Regression ( http://arxiv.org/abs/2405.05429v3 )

ライセンス: Link先を確認
Lucas Kook, Chris Kolb, Philipp Schiele, Daniel Dold, Marcel Arpogaus, Cornelius Fritz, Philipp F. Baumann, Philipp Kopper, Tobias Pielok, Emilio Dorigatti, David Rügamer, (参考訳) 線形回帰のような単純なモデルのニューラルネットワーク表現は、ディープラーニングアルゴリズムの基本原理をよりよく理解するために、ますます研究されている。 しかし、Coxモデルのような分布回帰モデルの神経表現は、今のところほとんど注目されていない。 我々は、上記のモデルの神経表現を含む逆流変換(DRIFT)を用いて、分布回帰のためのフレームワークを提案することにより、このギャップを埋める。 我々は、DRIFTにおけるモデルの神経表現が、連続、順序、時系列、生存結果を含むいくつかのアプリケーションにおいて、古典的な統計表現の代用として機能できることを実証的に実証した。 我々は,DRIFTにおけるモデルが,部分的効果,予測,およびアレタリック不確実性定量化の推定の観点から,いくつかの統計的手法の性能と経験的に一致していることを確認する。 DRIFTは解釈可能な統計モデルと柔軟なニューラルネットワークの両方をカバーする。

Neural network representations of simple models, such as linear regression, are being studied increasingly to better understand the underlying principles of deep learning algorithms. However, neural representations of distributional regression models, such as the Cox model, have received little attention so far. We close this gap by proposing a framework for distributional regression using inverse flow transformations (DRIFT), which includes neural representations of the aforementioned models. We empirically demonstrate that the neural representations of models in DRIFT can serve as a substitute for their classical statistical counterparts in several applications involving continuous, ordered, time-series, and survival outcomes. We confirm that models in DRIFT empirically match the performance of several statistical methods in terms of estimation of partial effects, prediction, and aleatoric uncertainty quantification. DRIFT covers both interpretable statistical models and flexible neural networks opening up new avenues in both statistical modeling and deep learning.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# 金融規制解釈における大規模言語モデル

Large Language Model in Financial Regulatory Interpretation ( http://arxiv.org/abs/2405.06808v2 )

ライセンス: Link先を確認
Zhiyu Cao, Zachary Feinstein, (参考訳) 本研究では、複雑な金融規制を解釈するための分析ツールとして、LLM(Large Language Models)の革新的利用について検討する。 第一の目的は、動詞を蒸留し、バーゼルIIIの資本要件規則のような複雑な規制文書を、後に実行可能なコードに変換できる簡潔な数学的枠組みに導く効果的なプロンプトを設計することである。 この新たなアプローチは、グローバル金融機関の金融報告・リスクマネジメントシステムにおける規制委任事項の実施を円滑化することを目的としている。 各種LLMの性能評価のためのケーススタディを行い, GPT-4は, 必要な情報処理や収集, 数学的計算の実行において, 他のモデルよりも優れていることを示した。 ケーススタディでは、固定所得、株式、通貨ペア、商品を含む資産保有率の数値シミュレーションを利用して、LLMがバーゼルIIIの資本充実要件をどのように効果的に実施できるかを実証した。 キーワード:大規模言語モデル、プロンプトエンジニアリング、金融におけるLLM、バーゼルIII、最小資本要件、LLM倫理

This study explores the innovative use of Large Language Models (LLMs) as analytical tools for interpreting complex financial regulations. The primary objective is to design effective prompts that guide LLMs in distilling verbose and intricate regulatory texts, such as the Basel III capital requirement regulations, into a concise mathematical framework that can be subsequently translated into actionable code. This novel approach aims to streamline the implementation of regulatory mandates within the financial reporting and risk management systems of global banking institutions. A case study was conducted to assess the performance of various LLMs, demonstrating that GPT-4 outperforms other models in processing and collecting necessary information, as well as executing mathematical calculations. The case study utilized numerical simulations with asset holdings -- including fixed income, equities, currency pairs, and commodities -- to demonstrate how LLMs can effectively implement the Basel III capital adequacy requirements. Keywords: Large Language Models, Prompt Engineering, LLMs in Finance, Basel III, Minimum Capital Requirements, LLM Ethics
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# Iris: コンピュータサイエンス教育のためのAI駆動バーチャルチューター

Iris: An AI-Driven Virtual Tutor For Computer Science Education ( http://arxiv.org/abs/2405.08008v2 )

ライセンス: Link先を確認
Patrick Bassner, Eduard Frankford, Stephan Krusche, (参考訳) 高等教育におけるAI駆動ツールの統合は、変革の可能性を持つ新興分野である。 本稿では,対話型学習プラットフォームArtemisに組み込まれたチャットベースの仮想チューターであるIrisを紹介する。 アイリスはコンピュータサイエンスの学生をプログラミングの練習を通じて指導することで支援し、実践的に意味のある方法で家庭教師として振る舞うように設計されている。 その校正された援助は、完全な解決策を明らかにすることを避け、独立した問題解決スキルを育むための微妙なヒントや対抗策を提供する。 各質問に対して、GPT-3.5-Turboへのチェーン・オブ・ソート(Chain-of-Thought)の複数のプロンプトを発行する。 プロンプトには、教師の役割の説明や、数ショットの学習による意味のある回答の例が含まれる。 Irisは、問題ステートメント、学生コード、自動フィードバックにアクセスして、適切なアドバイスを提供することによってコンテキスト認識を採用する。 経験的評価は、学生がイリスを自分の質問を理解し、関連する支援を提供し、学習プロセスに貢献するため、効果的であると認識していることを示している。 学生はIrisをプログラミング演習や宿題の貴重なツールと考えているが、Irisを使わずにコンピュータベースの試験でプログラミングタスクを解くことに自信を持っている。 この発見は、アイリスの即時かつパーソナライズされたサポートに対する学生の評価を裏付けるものであるが、学生はそれを、人間の教師の代わりではなく、補完するものと見なしている。 それにもかかわらず、アイリスは学生が他人に判断されることなく質問する場を作る。

Integrating AI-driven tools in higher education is an emerging area with transformative potential. This paper introduces Iris, a chat-based virtual tutor integrated into the interactive learning platform Artemis that offers personalized, context-aware assistance in large-scale educational settings. Iris supports computer science students by guiding them through programming exercises and is designed to act as a tutor in a didactically meaningful way. Its calibrated assistance avoids revealing complete solutions, offering subtle hints or counter-questions to foster independent problem-solving skills. For each question, it issues multiple prompts in a Chain-of-Thought to GPT-3.5-Turbo. The prompts include a tutor role description and examples of meaningful answers through few-shot learning. Iris employs contextual awareness by accessing the problem statement, student code, and automated feedback to provide tailored advice. An empirical evaluation shows that students perceive Iris as effective because it understands their questions, provides relevant support, and contributes to the learning process. While students consider Iris a valuable tool for programming exercises and homework, they also feel confident solving programming tasks in computer-based exams without Iris. The findings underscore students' appreciation for Iris' immediate and personalized support, though students predominantly view it as a complement to, rather than a replacement for, human tutors. Nevertheless, Iris creates a space for students to ask questions without being judged by others.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# LLMは時代遅れか? : 時間的一般化におけるLCMの評価

Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization ( http://arxiv.org/abs/2405.08460v2 )

ライセンス: Link先を確認
Chenghao Zhu, Nuo Chen, Yufei Gao, Yunyi Zhang, Prayag Tiwari, Benyou Wang, (参考訳) LLM(Large Language Models)の急速な進歩は、言語理解と情報処理の改善に追従する評価方法論の進化に対する緊急の必要性を浮き彫りにしている。 しかし、しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできないため、現実のシナリオにおけるLLMの認識と実際の効果の相違が生じる。 本研究では,過去,現在,未来に関連するテキストを理解・予測・生成する能力を含む時間的一般化について検討し,LLMにおける時間的バイアスを顕著に明らかにした。 本稿では,最近の実世界の予測からベンチマークを動的に生成する評価フレームワークを提案する。 LLMは時間的一般化に苦慮し、時間の経過とともに性能が低下することを示した。 これらの知見は、適応性を高めバイアスを減らすために、トレーニングと更新プロセスの改善の必要性を浮き彫りにしている。 私たちのコード、データセット、ベンチマークはhttps://github.com/FreedomIntelligence/FreshBench.comで公開されています。

The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Our study examines temporal generalization, which includes the ability to understand, predict, and generate text relevant to past, present, and future contexts, revealing significant temporal biases in LLMs. We propose an evaluation framework, for dynamically generating benchmarks from recent real-world predictions. Experiments demonstrate that LLMs struggle with temporal generalization, showing performance decline over time. These findings highlight the necessity for improved training and updating processes to enhance adaptability and reduce biases. Our code, dataset and benchmark are available at https://github.com/FreedomIntelligence/FreshBench.
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# 前立腺癌PI-RADSスコーリングにおける多モード大言語モデルの適用による臨床ガイドラインの組み入れ

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring ( http://arxiv.org/abs/2405.08786v2 )

ライセンス: Link先を確認
Tiantian Zhang, Manxi Lin, Hongda Guo, Xiaofan Zhang, Ka Fung Peter Chiu, Aasa Feragen, Qi Dou, (参考訳) 前立腺画像報告・データシステム(PI-RADS)はMRIによる臨床上重要な前立腺癌の診断において重要である。 現在の深層学習に基づくPI-RADSスコアリング法は、放射線技師が活用する一般的なPI-RADS臨床ガイドライン~(PICG)を欠いていることが多く、スコアリングの精度を損なう可能性がある。 本稿では,マルチモーダルな大規模言語モデル(MLLM)を付加アノテーションやネットワークパラメータを使わずにPICGをPI-RADSスコアリングモデルに組み込む手法を提案する。 本稿では,自然画像に訓練されたMLLMをMRI画像に適用し,PICGを効果的に統合した2段階微調整プロセスを提案する。 具体的には,3次元MRI入力の処理に適したドメインアダプタ層を開発し,MLLMにMRIシーケンスの識別を指示する。 第2段階では、モデルからの指示を導くためにPICGを変換し、PICG誘導画像特徴を生成する。 このような特徴蒸留のステップを通じて、スコアリングネットワークの特徴をPICG誘導画像の特徴と整合させ、PICG情報を効果的に組み込むことを可能にする。 当社のモデルを公開データセット上で開発し,社内データセット上で評価する。 実験の結果,提案手法は現在のスコアリングネットワークの性能を効果的に向上することが示された。 コードは、https://github.com/med-air/PICG2scoringで入手できる。

The Prostate Imaging Reporting and Data System (PI-RADS) is pivotal in the diagnosis of clinically significant prostate cancer through MRI imaging. Current deep learning-based PI-RADS scoring methods often lack the incorporation of common PI-RADS clinical guideline~(PICG) utilized by radiologists, potentially compromising scoring accuracy. This paper introduces a novel approach that adapts a multi-modal large language model (MLLM) to incorporate PICG into PI-RADS scoring model without additional annotations and network parameters. We present a designed two-stage fine-tuning process aiming at adapting a MLLM originally trained on natural images to the MRI images while effectively integrating the PICG. Specifically, in the first stage, we develop a domain adapter layer tailored for processing 3D MRI inputs and instruct the MLLM to differentiate MRI sequences. In the second stage, we translate PICG for guiding instructions from the model to generate PICG-guided image features. Through such a feature distillation step, we align the scoring network's features with the PICG-guided image features, which enables the model to effectively incorporate the PICG information. We develop our model on a public dataset and evaluate it on an in-house dataset. Experimental results demonstrate that our approach effectively improves the performance of current scoring networks. Code is available at: https://github.com/med-air/PICG2scoring
翻訳日:2024-07-11 21:10:19 公開日:2024-07-10
# MediSyn:広帯域医用2次元および3次元画像合成のためのテキストガイド拡散モデル

MediSyn: Text-Guided Diffusion Models for Broad Medical 2D and 3D Image Synthesis ( http://arxiv.org/abs/2405.09806v2 )

ライセンス: Link先を確認
Joseph Cho, Cyril Zakka, Dhamanpreet Kaur, Rohan Shad, Ross Wightman, Akshay Chaudhari, William Hiesinger, (参考訳) 拡散モデルは最近、テキストプロンプトに条件付けされた高忠実で多様な画像やビデオを生成する能力により、大きな注目を集めている。 医学において、このアプリケーションは、データの不足、データ共有における障壁、厳格な患者のプライバシー規制、および患者の人口と人口の格差による重要な課題に対処することを約束する。 リアルで多様な2Dおよび3D画像を生成することによって、これらのモデルは、アルゴリズムによるトレーニングと研究のためのリッチでプライバシーを尊重するリソースを提供する。 そこで本研究では,高忠実で多彩な医療用2Dおよび3D画像を特殊・モダリティにまたがって生成することのできる,テキスト誘導型遅延拡散モデルであるMediSynを紹介する。 確立された指標により,テキストプロンプトによる医用画像とビデオ合成の大幅な改善が示された。

Diffusion models have recently gained significant traction due to their ability to generate high-fidelity and diverse images and videos conditioned on text prompts. In medicine, this application promises to address the critical challenge of data scarcity, a consequence of barriers in data sharing, stringent patient privacy regulations, and disparities in patient population and demographics. By generating realistic and varying medical 2D and 3D images, these models offer a rich, privacy-respecting resource for algorithmic training and research. To this end, we introduce MediSyn, a pair of instruction-tuned text-guided latent diffusion models with the ability to generate high-fidelity and diverse medical 2D and 3D images across specialties and modalities. Through established metrics, we show significant improvement in broad medical image and video synthesis guided by text prompts.
翻訳日:2024-07-11 20:59:58 公開日:2024-07-10
# SciQAG: きめ細かい評価を伴うデータセットを自動生成するフレームワーク

SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation ( http://arxiv.org/abs/2405.09939v2 )

ライセンス: Link先を確認
Yuwei Wan, Yixuan Liu, Aswathy Ajith, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster, (参考訳) SciQAGは,大規模言語モデル(LLM)に基づく学術文献の大規模コーパスから,高品質な科学質問応答ペアを自動生成する新しいフレームワークである。 SciQAGはQAジェネレータとQA評価器で構成されており、科学論文から多様な研究レベルの質問や回答を抽出するために協力している。 この枠組みを利用して、24の科学領域にわたる22,743の科学論文から抽出された188,042のQAペアを含む大規模で高品質な科学QAデータセットを構築した。 SciQAG-24DはLLMの科学質問応答能力を評価するための新しいベンチマークタスクである。 大規模な実験により、SciQAGデータセット上の微調整LDMは、オープンエンドの質問応答と科学的タスクの両方のパフォーマンスを大幅に改善することが示された。 研究とコラボレーションを促進するため、我々はデータセット、モデル、評価コードを公開し、科学的な質問応答の進歩に寄与し、より解釈可能で推論可能なAIシステムの開発に寄与する。

We introduce SciQAG, a novel framework for automatically generating high-quality science question-answer pairs from a large corpus of scientific literature based on large language models (LLMs). SciQAG consists of a QA generator and a QA evaluator, which work together to extract diverse and research-level questions and answers from scientific papers. Utilizing this framework, we construct a large-scale, high-quality, open-ended science QA dataset containing 188,042 QA pairs extracted from 22,743 scientific papers across 24 scientific domains. We also introduce SciQAG-24D, a new benchmark task designed to evaluate the science question-answering ability of LLMs. Extensive experiments demonstrate that fine-tuning LLMs on the SciQAG dataset significantly improves their performance on both open-ended question answering and scientific tasks. To foster research and collaboration, we make the datasets, models, and evaluation codes publicly available, contributing to the advancement of science question answering and developing more interpretable and reasoning-capable AI systems.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# 中性原子量子プロセッサにおける回路ベースリーク-消去変換

Circuit-based leakage-to-erasure conversion in a neutral atom quantum processor ( http://arxiv.org/abs/2405.10434v2 )

ライセンス: Link先を確認
Matthew N. H. Chow, Vikas Buchemmavari, Sivaprasad Omanakuttan, Bethany J. Little, Saurabh Pandey, Ivan H. Deutsch, Yuan-Yu Jau, (参考訳) 計算サブスペースからの漏れは、現在の最先端の原子間量子コンピュータの大きな制限であり、スケーラブルなシステムにとって大きな課題である。 セシウム原子を持つ量子プロセッサにおいて,リーク検出ユニット(LDU)を介してリークエラーを消去するための回路ベースの回路変換を実証し,クビットの存在や欠如に関する情報をアンシラの状態に非破壊的にマッピングする。 標準的なLDU回路では,リーク発生しない場合の量子情報を保存しながら,リークエラーを主要なリーク経路の全てのエラーを消去することに成功した。 我々は,LDUの低損失状態検出手法を用いて,LDUの性能をベンチマークし,LDUの3アウトカム測定の利点について検討する。 LDUは、装置の技術的欠陥によって制限された、約93.4%の精度で原子損失誤差を検出する。 さらに、SWAP LDUをコンパイルして実行し、元のデータ原子とアンシラ原子の役割をLDUの作用の下で交換し、リークエラー時に原子の「自由補充」を行う。 この回路ベースのリーク・トー・エミッション・エラー変換は、量子情報が量子レジスタ内の個々の原子の寿命を大幅に上回る可能性のある中性原子量子プロセッサの重要な構成要素である。

Leakage out of the computational subspace is a major limitation of current state-of-the-art neutral-atom quantum computers and a significant challenge for scalable systems. In a quantum processor with cesium atoms, we demonstrate proof-of-principle circuit-based conversion of leakage errors to erasure errors via Leakage Detection Units (LDUs), which non-destructively map information about the presence or absence of the qubit onto the state of an ancilla. With a standard LDU circuit, we successfully convert leakage errors to erasure errors for all major leakage pathways while preserving the quantum information in the case that no leakage occurred. We benchmark the performance of the LDU using a three-outcome low-loss state detection method and also explore the advantages of three-outcome measurements for LDUs. We find that the LDU detects atom-loss errors with ~93.4% accuracy, limited by technical imperfections of our apparatus. We further compile and execute a SWAP LDU, wherein the roles of the original data atom and ancilla atom are exchanged under the action of the LDU, providing 'free refilling' of atoms in the case of leakage errors. This circuit-based leakage-to-erasure error conversion is a critical component of a neutral-atom quantum processor where the quantum information may significantly outlive the lifetime of any individual atom in the quantum register.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# ド・ジッター時空における確率的インフレーションとエントロピー境界

Stochastic inflation and entropy bound in de Sitter spacetime ( http://arxiv.org/abs/2405.10837v2 )

ライセンス: Link先を確認
Hiromasa Tajima, Yasusada Nambu, (参考訳) インフレーション相におけるド・ジッター時空のエントロピー挙動を解析した。 観測者の因果的にアクセス可能な領域を制約するデ・シッター時空の宇宙的地平線は、ブラックホールの事象の地平線に類似した熱的性質を示す。 ホログラフィーの原理によれば、観測者の因果連結領域内のエントロピーはその境界によって制限される。 このエントロピー境界は、後期インフレ期に違反される。 量子情報の観点からエントロピー境界違反の問題に対処するため,宇宙インフレーションに対する確率的アプローチを採用した。 確率的インフレーションにおけるハッブルサイズの領域の絡み合いエントロピーと同じ挙動を示すインフラトン場の確率分布のシャノンエントロピーを考える。 インフラトン場に対する体積重み付き確率分布を採用すると、ド・ジッター時空における有意義なエントロピー挙動を示す。

We analyze the entropy behavior of the de Sitter spacetime during the inflationary phase. A cosmological horizon in de Sitter spacetime that constrains the causally accessible region of an observer exhibits thermal properties analogous to the event horizon of a black hole. According to the principles of holography, the entropy within a causally connected region for an observer is limited by its boundary. This entropy bound is violated during the late inflation stage. To address the issue of entropy bound violations from a quantum information perspective, we adopted a stochastic approach to cosmic inflation. We consider Shannon entropy of the probability distribution of the inflaton field, which shows the same behavior as the entanglement entropy of a Hubble-size region in stochastic inflation. Adopting the volume-weighted probability distribution for the inflaton field, we show a meaningful entropy behavior in the de Sitter spacetime.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# I2I-Mamba:選択状態空間モデリングによるマルチモーダル医用画像合成

I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling ( http://arxiv.org/abs/2405.14022v2 )

ライセンス: Link先を確認
Omer F. Atli, Bilal Kabas, Fuat Arslan, Mahmut Yurt, Onat Dalmaz, Tolga Çukur, (参考訳) 近年, トランスコンポーネントを含むディープラーニングモデルは, 医用画像合成タスクにおいて, 性能エンベロープを推し進めている。 静的な局所的なフィルタを使用する畳み込みニューラルネットワーク(CNN)とは対照的に、トランスフォーマーは、適応的で非局所的なフィルタリングを許可し、長距離コンテキストを敏感にキャプチャする自己アテンションメカニズムを使用する。 しかし、この感度はモデル複雑さを犠牲にしており、特に比較的控えめな画像データセットでの学習効率を損なう可能性がある。 本稿では, 局所精度を維持しつつ, 長期的コンテキストを効率的に捉えるために, 選択状態空間モデリング(SSM)を活用する, マルチモーダル医用画像合成のための新しい逆モデルI2I-Mambaを提案する。 そのため、I2I-Mambaは、畳み込みバックボーンのボトルネックにチャネル混合Mamba(cmMamba)ブロックを注入する。 cmMambaブロックでは、SSM層は空間次元のコンテキストを学習し、チャネル混合層は特徴写像のチャネル次元のコンテキストを学習する。 マルチコントラストMRIおよびMRI-CTプロトコルにおける画像の欠如を示唆する包括的デモが報告されている。 以上の結果から,I2I-Mambaは,目標モダリティ画像の合成において,最先端CNNおよびトランスフォーマーに基づく手法に対して優れた性能を示すことが示された。

In recent years, deep learning models comprising transformer components have pushed the performance envelope in medical image synthesis tasks. Contrary to convolutional neural networks (CNNs) that use static, local filters, transformers use self-attention mechanisms to permit adaptive, non-local filtering to sensitively capture long-range context. However, this sensitivity comes at the expense of substantial model complexity, which can compromise learning efficacy particularly on relatively modest-sized imaging datasets. Here, we propose a novel adversarial model for multi-modal medical image synthesis, I2I-Mamba, that leverages selective state space modeling (SSM) to efficiently capture long-range context while maintaining local precision. To do this, I2I-Mamba injects channel-mixed Mamba (cmMamba) blocks in the bottleneck of a convolutional backbone. In cmMamba blocks, SSM layers are used to learn context across the spatial dimension and channel-mixing layers are used to learn context across the channel dimension of feature maps. Comprehensive demonstrations are reported for imputing missing images in multi-contrast MRI and MRI-CT protocols. Our results indicate that I2I-Mamba offers superior performance against state-of-the-art CNN- and transformer-based methods in synthesizing target-modality images.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# DiM:高分解能画像合成のための拡散マンバ

DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis ( http://arxiv.org/abs/2405.14224v2 )

ライセンス: Link先を確認
Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu, (参考訳) 拡散モデルは画像生成において大きな成功を収め、バックボーンはU-NetからVision Transformersへと進化した。 しかし、Transformersの計算コストはトークンの数に2倍であり、高解像度画像を扱う際の大きな課題となっている。 本研究では,状態空間モデル(SSM)に基づくシーケンスモデルであるMambaの効率と,高分解能画像合成のための拡散モデルの表現力を組み合わせた拡散マンバ(Diffusion Mamba, DiM)を提案する。 Mambaが2次元信号に一般化できないという課題に対処するため、多方向スキャン、各行と列の端にある学習可能なパディングトークン、軽量な局所的特徴拡張など、いくつかのアーキテクチャ設計を行った。 我々のDEMアーキテクチャは高解像度画像の推測時間効率を実現する。 さらに、高分解能画像生成のためのトレーニング効率をさらに向上するため、低分解能画像(256\times 256$)でDiMを事前訓練し、高分解能画像(512 \times 512$)で微調整する「弱強」トレーニング戦略を検討する。 さらに、トレーニング不要のアップサンプリング戦略を検討し、さらに微調整することなく、高解像度の画像(例えば、1024ドル、1536ドル、1536ドル)を生成できるようにします。 実験は、我々のDiMの有効性と効率を実証する。 作業のコードはここにある。 {\url{https://github.com/tyshiwo1/DiM-DiffusionMamba/}}。

Diffusion models have achieved great success in image generation, with the backbone evolving from U-Net to Vision Transformers. However, the computational cost of Transformers is quadratic to the number of tokens, leading to significant challenges when dealing with high-resolution images. In this work, we propose Diffusion Mamba (DiM), which combines the efficiency of Mamba, a sequence model based on State Space Models (SSM), with the expressive power of diffusion models for efficient high-resolution image synthesis. To address the challenge that Mamba cannot generalize to 2D signals, we make several architecture designs including multi-directional scans, learnable padding tokens at the end of each row and column, and lightweight local feature enhancement. Our DiM architecture achieves inference-time efficiency for high-resolution images. In addition, to further improve training efficiency for high-resolution image generation with DiM, we investigate "weak-to-strong" training strategy that pretrains DiM on low-resolution images ($256\times 256$) and then finetune it on high-resolution images ($512 \times 512$). We further explore training-free upsampling strategies to enable the model to generate higher-resolution images (e.g., $1024\times 1024$ and $1536\times 1536$) without further fine-tuning. Experiments demonstrate the effectiveness and efficiency of our DiM. The code of our work is available here: {\url{https://github.com/tyshiwo1/DiM-DiffusionMamba/}}.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# GCondenser: グラフ凝縮のベンチマーク

GCondenser: Benchmarking Graph Condensation ( http://arxiv.org/abs/2405.14246v3 )

ライセンス: Link先を確認
Yilun Liu, Ruihong Qiu, Zi Huang, (参考訳) グラフ表現学習には大規模なグラフが有用であるが、これらのグラフの豊富なデータは、トレーニングプロセスの効率を妨げている。 グラフ凝縮(GC)は、大きなグラフを効果的なモデルトレーニングをサポートする非常に小さなグラフに圧縮することでこの問題を軽減する。 近年, 凝縮グラフの有効性向上のための様々な手法が提案されているが, 様々なGC手法による包括的, 実践的評価は無視されている。 本稿では,大規模グラフ凝縮ベンチマークGCondenserを提案する。 GCondenserには標準化されたGCパラダイムが含まれており、凝縮、バリデーション、評価手順で構成され、新しいGCメソッドやデータセットの拡張を可能にする。 GCondenserでは,既存の手法の有効性を示す総合的なパフォーマンススタディが実施されている。 GCondenserは、https://github.com/superallen13/GCondenserで公開されている。

Large-scale graphs are valuable for graph representation learning, yet the abundant data in these graphs hinders the efficiency of the training process. Graph condensation (GC) alleviates this issue by compressing the large graph into a significantly smaller one that still supports effective model training. Although recent research has introduced various approaches to improve the effectiveness of the condensed graph, comprehensive and practical evaluations across different GC methods are neglected. This paper proposes the first large-scale graph condensation benchmark, GCondenser, to holistically evaluate and compare mainstream GC methods. GCondenser includes a standardised GC paradigm, consisting of condensation, validation, and evaluation procedures, as well as enabling extensions to new GC methods and datasets. With GCondenser, a comprehensive performance study is conducted, presenting the effectiveness of existing methods. GCondenser is open-sourced and available at https://github.com/superallen13/GCondenser.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# シーケンスインフォームド環境条件による植物生長シミュレーション

Generative Plant Growth Simulation from Sequence-Informed Environmental Conditions ( http://arxiv.org/abs/2405.14796v3 )

ライセンス: Link先を確認
Mohamed Debbagh, Yixue Liu, Zhouzhou Zheng, Xintong Jiang, Shangpeng Sun, Mark Lefsrud, (参考訳) 植物成長シミュレーションは、植物または植物系の再構成された視覚表現として特徴付けられる。 表現型の特徴と植物構造は、シーン環境および他の文脈特性によって制御される。 種々の要因の時間的依存性と複合化効果を考慮して,フレーム合成とパターン認識の問題を解くことにより,シミュレーションタスクに対する確率論的アプローチを定式化する。 低次元の時間センサとコンテキストデータとの融合から,動的シーン内の植物表現の分布を暗黙的に学習する条件生成モデルを用いたシーケンスインフォームド植物成長シミュレーションフレームワーク(SI-PGS)を導入する。 予測フレーム間のプラント構造におけるコヒーレンスを改善するために、制御された潜時サンプリングや繰り返し出力接続などの手法を用いる。 本研究では、SI-PGSが時間的依存を捉え、植物の成長の現実的なフレームを連続的に生成できることを実証する。

A plant growth simulation can be characterized as a reconstructed visual representation of a plant or plant system. The phenotypic characteristics and plant structures are controlled by the scene environment and other contextual attributes. Considering the temporal dependencies and compounding effects of various factors on growth trajectories, we formulate a probabilistic approach to the simulation task by solving a frame synthesis and pattern recognition problem. We introduce a sequence-informed plant growth simulation framework (SI-PGS) that employs a conditional generative model to implicitly learn a distribution of possible plant representations within a dynamic scene from a fusion of low-dimensional temporal sensor and context data. Methods such as controlled latent sampling and recurrent output connections are used to improve coherence in the plant structures between frames of prediction. In this work, we demonstrate that SI-PGS is able to capture temporal dependencies and continuously generate realistic frames of plant growth.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# 大規模言語モデルに対する検索型インコンテキスト学習の逆ロバスト性の評価

Evaluating the Adversarial Robustness of Retrieval-Based In-Context Learning for Large Language Models ( http://arxiv.org/abs/2405.15984v2 )

ライセンス: Link先を確認
Simon Chi Lok Yu, Jie He, Pasquale Minervini, Jeff Z. Pan, (参考訳) LLaMAやOpenAI GPT-3といった大規模言語モデルの出現に伴い、ICL(In-Context Learning)はその有効性と効率性から大きな注目を集めた。 しかし、ICLはプロンプトのデモをエンコードするために使われる選択、順序、動詞に非常に敏感である。 Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。 このアプローチはより正確な結果をもたらすが、テストサンプルの摂動、デモ、検索されたデータなど、様々な種類の敵攻撃に対する堅牢性は未調査のままである。 本研究は,バニラICLが4.87%のアタック成功率(ASR)を低下させることで,検索強化モデルがテストサンプル攻撃に対する堅牢性を向上することを明らかにする。 敵の訓練は、敵の攻撃に対するICL法の堅牢性を改善するのに役立つが、そのような訓練スキームはLLMの文脈ではコストがかかりすぎる。 代替として、攻撃されたサンプルをサンプルプールに濃縮する効果的な訓練自由敵防衛手法であるDARDを導入する。 DARDは性能とロバスト性を向上し,ベースラインよりもASRの15%削減を実現している。 コードとデータは、さらなる研究を促進するためにリリースされている。

With the emergence of large language models, such as LLaMA and OpenAI GPT-3, In-Context Learning (ICL) gained significant attention due to its effectiveness and efficiency. However, ICL is very sensitive to the choice, order, and verbaliser used to encode the demonstrations in the prompt. Retrieval-Augmented ICL methods try to address this problem by leveraging retrievers to extract semantically related examples as demonstrations. While this approach yields more accurate results, its robustness against various types of adversarial attacks, including perturbations on test samples, demonstrations, and retrieved data, remains under-explored. Our study reveals that retrieval-augmented models can enhance robustness against test sample attacks, outperforming vanilla ICL with a 4.87% reduction in Attack Success Rate (ASR); however, they exhibit overconfidence in the demonstrations, leading to a 2% increase in ASR for demonstration attacks. Adversarial training can help improve the robustness of ICL methods to adversarial attacks; however, such a training scheme can be too costly in the context of LLMs. As an alternative, we introduce an effective training-free adversarial defence method, DARD, which enriches the example pool with those attacked samples. We show that DARD yields improvements in performance and robustness, achieving a 15% reduction in ASR over the baselines. Code and data are released to encourage further research: https://github.com/simonucl/adv-retreival-icl
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# CamemBERT-bioを用いた臨床物語の多目的表現

Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio ( http://arxiv.org/abs/2405.18448v2 )

ライセンス: Link先を確認
Boammani Aser Lompo, Thanh-Dung Le, (参考訳) 本研究では,CamemBERT-bioを用いて,医学文献から抽出した数値を7つの異なる生理カテゴリーに分類することを目的とした。 従来の研究は、トランスフォーマーベースのモデルが従来のNLPモデルと同等に機能しない可能性を示唆していた。 CamemBERT-bioのパフォーマンスを向上させるために,キーワード埋め込みをモデルに組み込むことと,テキストからすべての数値データを排除して数に依存しない戦略を採用するという,2つの大きなイノベーションを紹介した。 ラベル埋め込み手法の実装は、注意機構を洗練させ、"数値盲点"データセットを使用する技術は、文脈中心の学習を促進することを目的としている。 我々の研究のもう1つの重要な要素は、抽出された数値データの臨界度を決定することである。 これを実現するために、確立された標準範囲内に値が該当するかどうかを検証するための簡単なアプローチを利用した。 F1スコア0.89の従来法を上回り,CamemBERT-bioの有効性が著しく向上した。 これは従来のアプローチの0.73ドルF_1$スコアよりも20倍、最先端のアプローチの0.82ドルF_1$スコアよりも9倍以上増加することを意味する。 トレーニングデータセットが小さく、バランスの取れていないにもかかわらず、これらすべてが達成された。

This research aims to classify numerical values extracted from medical documents across seven distinct physiological categories, employing CamemBERT-bio. Previous studies suggested that transformer-based models might not perform as well as traditional NLP models in such tasks. To enhance CamemBERT-bio's performances, we introduce two main innovations: integrating keyword embeddings into the model and adopting a number-agnostic strategy by excluding all numerical data from the text. The implementation of label embedding techniques refines the attention mechanisms, while the technique of using a `numerical-blind' dataset aims to bolster context-centric learning. Another key component of our research is determining the criticality of extracted numerical data. To achieve this, we utilized a simple approach that involves verifying if the value falls within the established standard ranges. Our findings are encouraging, showing substantial improvements in the effectiveness of CamemBERT-bio, surpassing conventional methods with an F1 score of 0.89. This represents an over 20\% increase over the 0.73 $F_1$ score of traditional approaches and an over 9\% increase over the 0.82 $F_1$ score of state-of-the-art approaches. All this was achieved despite using small and imbalanced training datasets.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# DDPMは組成を超えてゼロショット補間を生成できる

Going beyond Compositions, DDPMs Can Produce Zero-Shot Interpolations ( http://arxiv.org/abs/2405.19201v2 )

ライセンス: Link先を確認
Justin Deschenaux, Igor Krawczuk, Grigorios Chrysos, Volkan Cevher, (参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、画像生成において顕著な能力を示し、トレーニングデータから学習した潜在因子を合成することによって一般化できることを示唆している。 そこで本研究では,データ分布の厳密な部分集合を学習したDDPMについて検討する。 本研究では,そのようなモデルにより,探索されていない中間領域の画像を効果的に生成できることを示す。 例えば、はっきり笑う顔と笑わない顔の訓練では、参照画像(ゼロショット補間)を使わずにわずかに笑う顔を生成するサンプリング手順を実演する。 これらの結果は、他の属性だけでなく、他のデータセットに対しても再現します。 私たちのコードはhttps://github.com/jdeschena/ddpm-zero-shot-interpolationで公開されています。

Denoising Diffusion Probabilistic Models (DDPMs) exhibit remarkable capabilities in image generation, with studies suggesting that they can generalize by composing latent factors learned from the training data. In this work, we go further and study DDPMs trained on strictly separate subsets of the data distribution with large gaps on the support of the latent factors. We show that such a model can effectively generate images in the unexplored, intermediate regions of the distribution. For instance, when trained on clearly smiling and non-smiling faces, we demonstrate a sampling procedure which can generate slightly smiling faces without reference images (zero-shot interpolation). We replicate these findings for other attributes as well as other datasets. Our code is available at https://github.com/jdeschena/ddpm-zero-shot-interpolation.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# MAP-Neo:高機能で透明なバイリンガル大言語モデル

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series ( http://arxiv.org/abs/2405.19327v4 )

ライセンス: Link先を確認
Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen, (参考訳) 大規模言語モデル(LLM)は、近年、様々なタスクで前例のないパフォーマンスを達成するために大きな進歩を遂げています。 しかし、商業的な関心があるため、GPT、Gemini、Claudeといった最も競争力のあるモデルは、トレーニングの詳細を開示することなく、プロプライエタリなインターフェースの陰に置かれている。 近年、多くの機関がLLaMA-3のような強力なLLMをオープンソース化している。 しかし、モデルの重みのみには、ほとんどの詳細(例えば、中間チェックポイント、事前トレーニングコーパス、トレーニングコードなど)が開示されていない。 LLMの透明性を改善するために、研究コミュニティは、真にオープンなLCM(例えば、Pythia、Amber、OLMo)をオープンソースにするために結成された。 これらのモデルは、その強さ、弱さ、バイアス、リスクを含むこれらの大きなモデルの科学的研究を大きく進めてきた。 しかし、推論、知識、コーディングタスクに関する既存のオープンなLLMは、モデルサイズが類似した既存の最先端のLLMよりも依然として劣っている。 そこで我々はMAP-Neoをオープンソース化した。これは高性能で透明なバイリンガル言語モデルで、4.5Tの高品質トークンをスクラッチからトレーニングした7Bパラメータを持つ。 MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。 さらに,クリーン化事前学習コーパス,データクリーニングパイプライン,チェックポイント,高度に最適化されたトレーニング/評価フレームワークを提供するMAP-Neoを再現するためのすべての詳細をオープンソース化した。 最後に、MAP-Neoはオープンな研究コミュニティを強化し、LLMのさらなる改善を促進するために、より多くのイノベーションと創造性を刺激することを期待しています。

Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# ステアリングの一般文脈からの制約測定不整合性

Constrained Measurement Incompatibility from Generalised Contextuality of Steered Preparation ( http://arxiv.org/abs/2406.16095v2 )

ライセンス: Link先を確認
Sumit Mukherjee, A. K. Pan, (参考訳) パーティ毎の2つの局所測定と測定毎の2つの結果を含む2部構成ベルのシナリオでは、一方の翼における測定の不整合性は必要であり、非局所性を明らかにするのに十分である。 しかし、そのような1対1の対応は、観測者の1人が2つ以上の測定を行うと失敗する。 このようなシナリオでは、測定の不整合性は必要だが、非局所性を明らかにするには不十分である。 本研究では、一般確率論(GPT)の形式論において、非局所性とは異なり、一方の翼におけるNの任意の測定の不整合性は、他方の翼における部分系に対する一般化された文脈性を明らかにするのに必要かつ十分であることを示す。 さらに、任意の GPT に対して、N 個の任意の可観測量の N-次整合に必要となる新しい形の不等式を定式化する。 さらに、提案された不等式に反する任意の理論は、違反の量を通じて定量化できる相補性の程度を持っていると論じる。 最後に、自然界の任意の実現可能な理論の測度不整合性に制限を与える一般化された文脈性であり、したがって量子論を超選択的に選択する。

In a bipartite Bell scenario involving two local measurements per party and two outcome per measurement, the measurement incompatibility in one wing is both necessary and sufficient to reveal the nonlocality. However, such a one-to-one correspondence fails when one of the observers performs more than two measurements. In such a scenario, the measurement incompatibility is necessary but not sufficient to reveal the nonlocality. In this work, within the formalism of general probabilistic theory (GPT), we demonstrate that unlike the nonlocality, the incompatibility of N arbitrary measurements in one wing is both necessary and sufficient for revealing the generalised contextuality for the sub-system in the other wing. Further, we formulate a novel form of inequality for any GPT that are necessary for N-wise compatibility of N arbitrary observables. Moreover, we argue that any theory that violates the proposed inequality possess a degree of incompatibility that can be quantified through the amount of violation. Finally, we claim that it is the generalised contextuality that provides a restriction to the allowed degree of measurement incompatibility of any viable theory of nature and thereby super-select the the quantum theory.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# MindSpore Quantum: ユーザフレンドリー、高性能、AI対応の量子コンピューティングフレームワーク

MindSpore Quantum: A User-Friendly, High-Performance, and AI-Compatible Quantum Computing Framework ( http://arxiv.org/abs/2406.17248v3 )

ライセンス: Link先を確認
Xusheng Xu, Jiangyu Cui, Zidong Cui, Runhong He, Qingyu Li, Xiaowei Li, Yanling Lin, Jiale Liu, Wuxin Liu, Jiale Lu, Maolin Luo, Chufan Lyu, Shijie Pan, Mosharev Pavel, Runqiu Shu, Jialiang Tang, Ruoqian Xu, Shu Xu, Kang Yang, Fan Yu, Qingguo Zeng, Haiying Zhao, Qiang Zheng, Junyuan Zhou, Xu Zhou, Yikang Zhu, Zuoheng Zou, Abolfazl Bayat, Xi Cao, Wei Cui, Zhendong Li, Guilu Long, Zhaofeng Su, Xiaoting Wang, Zizhu Wang, Shijie Wei, Re-Bing Wu, Pan Zhang, Man-Hong Yung, (参考訳) 我々は、ノイズの多い中間規模量子(NISQ)アルゴリズムの設計と実装に重点を置いた、先駆的なハイブリッド量子古典フレームワークであるMindSpore Quantumを紹介する。 高度なオープンソースのディープラーニングトレーニング/推論フレームワークであるMindSporeの堅牢なサポートを活用して、MindSpore Quantumは、CPUとGPUプラットフォームの両方で変動量子アルゴリズムの設計とトレーニングにおいて、優れたパフォーマンスを提供する。 さらに、このフレームワークは、実際の量子ハードウェア上で実行される場合の量子アルゴリズムの運用効率の向上に重点を置いている。 これは量子回路のコンパイルと量子ビットマッピングのためのアルゴリズムの開発を含み、量子プロセッサ上で最適な性能を達成するための重要なコンポーネントである。 コアフレームワークに加えて,量子コンピューティングアクセラレーションエンジンQuPackを紹介する。 QuPackは、特に変分量子固有解法(VQE)、量子近似最適化アルゴリズム(QAOA)、およびテンソルネットワークシミュレーションにおいて、MindSpore Quantumのシミュレーション速度を著しく加速し、驚くべき速度を提供する。 この最先端技術の組み合わせは、研究者や実践者が前例のない効率と性能で量子コンピューティングのフロンティアを探索することを可能にする。

We introduce MindSpore Quantum, a pioneering hybrid quantum-classical framework with a primary focus on the design and implementation of noisy intermediate-scale quantum (NISQ) algorithms. Leveraging the robust support of MindSpore, an advanced open-source deep learning training/inference framework, MindSpore Quantum exhibits exceptional efficiency in the design and training of variational quantum algorithms on both CPU and GPU platforms, delivering remarkable performance. Furthermore, this framework places a strong emphasis on enhancing the operational efficiency of quantum algorithms when executed on real quantum hardware. This encompasses the development of algorithms for quantum circuit compilation and qubit mapping, crucial components for achieving optimal performance on quantum processors. In addition to the core framework, we introduce QuPack, a meticulously crafted quantum computing acceleration engine. QuPack significantly accelerates the simulation speed of MindSpore Quantum, particularly in variational quantum eigensolver (VQE), quantum approximate optimization algorithm (QAOA), and tensor network simulations, providing astonishing speed. This combination of cutting-edge technologies empowers researchers and practitioners to explore the frontiers of quantum computing with unprecedented efficiency and performance.
翻訳日:2024-07-11 20:59:57 公開日:2024-07-10
# mCoT: 言語モデルにおける推論一貫性のための多言語インストラクションチューニング

mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models ( http://arxiv.org/abs/2406.02301v2 )

ライセンス: Link先を確認
Huiyuan Lai, Malvina Nissim, (参考訳) 大規模言語モデル (LLM) とChain-of-Thought (CoT) は、近年、様々な下流タスクを改善するために推論を誘発する強力な手法として出現している。 ほとんどの研究は英語に重点を置いており、多言語的な文脈での探索はほとんどないが、この推論能力が異なる言語でどの程度信頼性が高いかという問題は、まだ未解決である。 そこで我々は,複数の言語にまたがる多言語推論の整合性について,オープンソースのLLMを用いて検討した。 まず,11の多言語を対象とする大規模多言語数学推論データセットmCoT-MATHをコンパイルする。 次に,言語間の推論能力を向上し,モデル一貫性を向上させるために,多言語CoT命令チューニングを導入する。 既存のLLMは、私たちが考慮している言語、特にリソースが少ない言語ではパフォーマンスがかなり低いが、我々の7BパラメータモデルmCoTは、言語間で印象的な一貫性を実現し、非常に大きなサイズであっても、クローズドおよびオープンソースモデルよりも優れた、あるいは同等のパフォーマンスを実現している。

Large language models (LLMs) with Chain-of-thought (CoT) have recently emerged as a powerful technique for eliciting reasoning to improve various downstream tasks. As most research mainly focuses on English, with few explorations in a multilingual context, the question of how reliable this reasoning capability is in different languages is still open. To address it directly, we study multilingual reasoning consistency across multiple languages, using popular open-source LLMs. First, we compile the first large-scale multilingual math reasoning dataset, mCoT-MATH, covering eleven diverse languages. Then, we introduce multilingual CoT instruction tuning to boost reasoning capability across languages, thereby improving model consistency. While existing LLMs show substantial variation across the languages we consider, and especially low performance for lesser resourced languages, our 7B parameter model mCoT achieves impressive consistency across languages, and superior or comparable performance to close- and open-source models even of much larger sizes.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# Phy-Diff:拡散MRI合成のための物理誘導フールグラス拡散モデル

Phy-Diff: Physics-guided Hourglass Diffusion Model for Diffusion MRI Synthesis ( http://arxiv.org/abs/2406.03002v2 )

ライセンス: Link先を確認
Juanhua Zhang, Ruodan Yan, Alessandro Perelli, Xi Chen, Chao Li, (参考訳) 拡散MRI(dMRI)は,取得コストの高い重要な神経画像撮影技術である。 深層学習のアプローチは、dMRIの強化や、アンダーサンプルdMRIによる拡散バイオマーカーの予測に用いられている。 より包括的な生のdMRIを生成するために,b-値とb-ベクトルを条件として含む生成的敵ネットワークに基づく手法が提案されているが,それらは不安定なトレーニングと望ましい多様性の欠如によって制限されている。 新興拡散モデル(DM)は、生成性能を改善することを約束する。 しかし、DMの条件付けに欠かせない情報、すなわちdMRIとホワイトマタートラクトの構造の物理原理を含めることは依然として困難である。 本研究では,高画質のdMRIを生成する物理誘導拡散モデルを提案する。 本モデルは拡散過程におけるノイズ進化におけるdMRIの物理原理を導入し,拡散モデル内にクエリに基づく条件付きマッピングを導入する。 また,XTRACTアトラスを,アダプター技術を用いて,白質トラスの前駆体として導入した。 以上の結果から,本手法は他の最先端手法よりも優れ,dMRI向上の可能性が示唆された。

Diffusion MRI (dMRI) is an important neuroimaging technique with high acquisition costs. Deep learning approaches have been used to enhance dMRI and predict diffusion biomarkers through undersampled dMRI. To generate more comprehensive raw dMRI, generative adversarial network based methods are proposed to include b-values and b-vectors as conditions, but they are limited by unstable training and less desirable diversity. The emerging diffusion model (DM) promises to improve generative performance. However, it remains challenging to include essential information in conditioning DM for more relevant generation, i.e., the physical principles of dMRI and white matter tract structures. In this study, we propose a physics-guided diffusion model to generate high-quality dMRI. Our model introduces the physical principles of dMRI in the noise evolution in the diffusion process and introduce a query-based conditional mapping within the difussion model. In addition, to enhance the anatomical fine detials of the generation, we introduce the XTRACT atlas as prior of white matter tracts by adopting an adapter technique. Our experiment results show that our method outperforms other state-of-the-art methods and has the potential to advance dMRI enhancement.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# 意味レベルでの視覚的類似度測定のための意味的類似度スコア

Semantic Similarity Score for Measuring Visual Similarity at Semantic Level ( http://arxiv.org/abs/2406.03865v2 )

ライセンス: Link先を確認
Senran Fan, Zhicheng Bao, Chen Dong, Haotai Liang, Xiaodong Xu, Ping Zhang, (参考訳) セマンティックコミュニケーションは、革命的なコミュニケーションアーキテクチャとして、有望な新しいコミュニケーションパラダイムと考えられている。 従来のシンボルベースのエラーのない通信システムとは異なり、意味に基づく視覚コミュニケーションシステムは意味レベルで画像を抽出し、圧縮し、送信し、再構成する。 しかし、画素ベースのMSEやPSNR、構造ベースのMS-SSIMといった画像類似性評価指標は、システム送信時のソースの意味レベル情報の損失を正確に測定するのに苦労する。 これにより,視覚的意味コミュニケーションシステムの性能評価,特に従来のコミュニケーションシステムと比較する際の課題が提示される。 そこで本研究では,Scene Graph Generationとグラフマッチングに基づくセマンティックな評価指標-SeSS(Semantic similarity Score)を提案し,画像間の類似度スコアをセマンティックレベルのグラフマッチングスコアに変換する。 一方、数万の画像対のセマンティック類似度スコアは、グラフマッチングアルゴリズムにおいてハイパーパラメータを微調整するために手動で注釈付けされ、メトリックは人間のセマンティック認識とより密に一致している。 本研究では,(1)圧縮速度の異なる従来の意味コミュニケーションシステムで伝送される画像,(2)信号対雑音比の異なる意味コミュニケーションシステムで伝送される画像,(3)雑音レベルの異なる大規模モデルで生成される画像,(4)特定の特殊な変換を受ける画像のケースなどを用いて,SESSの性能を検証した。 本実験は,SeSSの有効性を実証し,画像の意味レベル情報のセマンティックレベルの差異を計測し,視覚的意味コミュニケーションシステムにおける評価に利用できることを示す。

Semantic communication, as a revolutionary communication architecture, is considered a promising novel communication paradigm. Unlike traditional symbol-based error-free communication systems, semantic-based visual communication systems extract, compress, transmit, and reconstruct images at the semantic level. However, widely used image similarity evaluation metrics, whether pixel-based MSE or PSNR or structure-based MS-SSIM, struggle to accurately measure the loss of semantic-level information of the source during system transmission. This presents challenges in evaluating the performance of visual semantic communication systems, especially when comparing them with traditional communication systems. To address this, we propose a semantic evaluation metric -- SeSS (Semantic Similarity Score), based on Scene Graph Generation and graph matching, which shifts the similarity scores between images into semantic-level graph matching scores. Meanwhile, semantic similarity scores for tens of thousands of image pairs are manually annotated to fine-tune the hyperparameters in the graph matching algorithm, aligning the metric more closely with human semantic perception. The performance of the SeSS is tested on different datasets, including (1)images transmitted by traditional and semantic communication systems at different compression rates, (2)images transmitted by traditional and semantic communication systems at different signal-to-noise ratios, (3)images generated by large-scale model with different noise levels introduced, and (4)cases of images subjected to certain special transformations. The experiments demonstrate the effectiveness of SeSS, indicating that the metric can measure the semantic-level differences in semantic-level information of images and can be used for evaluation in visual semantic communication systems.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# マルチベクトルニューロン:O(n)-同変クリフォードグラフニューラルネットワークの改良と高速化

Multivector Neurons: Better and Faster O(n)-Equivariant Clifford Graph Neural Networks ( http://arxiv.org/abs/2406.04052v2 )

ライセンス: Link先を確認
Cong Liu, David Ruhe, Patrick Forré, (参考訳) 現在のディープラーニングモデルの多くは$O(n)$または$SO(n)$に同値である。 本研究では,クリフォード・マルチベクターをベースとした新しいメッセージパッシンググラフニューラルネットワーク(GNN)を,幾何学的深層学習における他の同変モデルと同様に構築した。 提案手法は,特に等変幾何積演算子を用いて,多ベクトル表現の表現学習を同時に実施しながら,効率的な不変スカラー特徴を利用する。 これらの要素を統合することにより,N-Bodyシミュレーションタスクとタンパク質分解タスクにおいて,高い効率を維持しつつ,効率的なベースラインモデルを構築した。 特に、Nボディデータセットの最先端エラーを0.0035(平均3回以上)にプッシュします。 私たちの実装はGithubで公開しています。

Most current deep learning models equivariant to $O(n)$ or $SO(n)$ either consider mostly scalar information such as distances and angles or have a very high computational complexity. In this work, we test a few novel message passing graph neural networks (GNNs) based on Clifford multivectors, structured similarly to other prevalent equivariant models in geometric deep learning. Our approach leverages efficient invariant scalar features while simultaneously performing expressive learning on multivector representations, particularly through the use of the equivariant geometric product operator. By integrating these elements, our methods outperform established efficient baseline models on an N-Body simulation task and protein denoising task while maintaining a high efficiency. In particular, we push the state-of-the-art error on the N-body dataset to 0.0035 (averaged over 3 runs); an 8% improvement over recent methods. Our implementation is available on Github.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# データセット蒸留におけるバイアスの緩和

Mitigating Bias in Dataset Distillation ( http://arxiv.org/abs/2406.06609v2 )

ライセンス: Link先を確認
Justin Cui, Ruochen Wang, Yuanhao Xiong, Cho-Jui Hsieh, (参考訳) データセット蒸留は、大規模なデータセットを小さな合成データセットに圧縮する技術として登場し、下流でのトレーニング作業を容易にする。 本稿では,元のデータセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討する。 その結果, 蒸留工程により, 原データセットの色と背景バイアスが増幅され, 蒸留工程を通じて汚染バイアスが抑制される一方で, 蒸留工程においてトレーニングされたモデルの性能が著しく低下することが判明した。 データセット蒸留におけるバイアス増幅を低減するため,カーネル密度推定を用いたサンプル再重み付け方式に基づく簡易かつ高効率な手法を提案する。 複数の実世界および合成データセットに対する実験結果から,提案手法の有効性が示された。 特に, バイアス-衝突比5%, IPC 50のCMNISTでは, バニラDMの23.8%と比較して91.5%の精度を実現し, 67.7%の精度向上を実現した。 本研究は, データセット蒸留におけるバイアスに対処することの重要性を強調し, プロセスにおけるバイアス増幅への有望な道を提供するものである。

Dataset Distillation has emerged as a technique for compressing large datasets into smaller synthetic counterparts, facilitating downstream training tasks. In this paper, we study the impact of bias inside the original dataset on the performance of dataset distillation. With a comprehensive empirical evaluation on canonical datasets with color, corruption and background biases, we found that color and background biases in the original dataset will be amplified through the distillation process, resulting in a notable decline in the performance of models trained on the distilled dataset, while corruption bias is suppressed through the distillation process. To reduce bias amplification in dataset distillation, we introduce a simple yet highly effective approach based on a sample reweighting scheme utilizing kernel density estimation. Empirical results on multiple real-world and synthetic datasets demonstrate the effectiveness of the proposed method. Notably, on CMNIST with 5% bias-conflict ratio and IPC 50, our method achieves 91.5% test accuracy compared to 23.8% from vanilla DM, boosting the performance by 67.7%, whereas applying state-of-the-art debiasing method on the same dataset only achieves 53.7% accuracy. Our findings highlight the importance of addressing biases in dataset distillation and provide a promising avenue to address bias amplification in the process.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# 校正点を超えて:差分プライバシーのメカニズム比較

Beyond the Calibration Point: Mechanism Comparison in Differential Privacy ( http://arxiv.org/abs/2406.08918v2 )

ライセンス: Link先を確認
Georgios Kaissis, Stefan Kolek, Borja Balle, Jamie Hayes, Daniel Rueckert, (参考訳) 微分プライベート(DP)機械学習では、DPメカニズムのプライバシー保証が報告され、単一の$(\varepsilon, \delta)$-pairに基づいて比較されることが多い。 このプラクティスは、DP保証が与えられた$(\varepsilon, \delta)$を共有するメカニズムの間でも大きく異なる可能性があることを見落としている。 このことは、そのような場合のDP保証を比較するための堅牢で厳密な方法の必要性を動機付けている。 ここでは、$(\varepsilon, \delta)$, $f$-DP、新たに提示されたベイズ解釈の観点から、あるメカニズムを他のメカニズムよりも選択するという最悪の場合の過剰なプライバシー上の脆弱性を定量化するメカニズム間の$\Delta$-divergenceを導入する。 さらに、ブラックウェルの定理の一般化として、強い決定論的基礎が与えられる。 DP-SGDの現在の実践は、しばしば過剰なプライバシ脆弱性を持つメカニズムを選択する結果になるので、アプリケーションの例を通して、我々の技術は情報的意思決定を促進し、現在のプライバシリスクに対する理解のギャップを明らかにすることができる。

In differentially private (DP) machine learning, the privacy guarantees of DP mechanisms are often reported and compared on the basis of a single $(\varepsilon, \delta)$-pair. This practice overlooks that DP guarantees can vary substantially even between mechanisms sharing a given $(\varepsilon, \delta)$, and potentially introduces privacy vulnerabilities which can remain undetected. This motivates the need for robust, rigorous methods for comparing DP guarantees in such cases. Here, we introduce the $\Delta$-divergence between mechanisms which quantifies the worst-case excess privacy vulnerability of choosing one mechanism over another in terms of $(\varepsilon, \delta)$, $f$-DP and in terms of a newly presented Bayesian interpretation. Moreover, as a generalisation of the Blackwell theorem, it is endowed with strong decision-theoretic foundations. Through application examples, we show that our techniques can facilitate informed decision-making and reveal gaps in the current understanding of privacy risks, as current practices in DP-SGD often result in choosing mechanisms with high excess privacy vulnerabilities.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# 組合せ最適化のためのDeep Symbolic Optimization:潜在ヒューリスティックス発見によるノード選択の高速化

Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics ( http://arxiv.org/abs/2406.09740v2 )

ライセンス: Link先を確認
Hongyu Liu, Haoyang Liu, Yufei Kuang, Jie Wang, Bin Li, (参考訳) 組合せ最適化(英: Combinatorial Optimization、CO)は、現実世界の応用において最も基本的な数学的モデルの一つである。 ブランチ・アンド・バウンド(B&B)ソルバのような従来のCOソルバは、信頼できるが手動チューニングを必要とする専門家設計のヒューリスティックに大きく依存している。 近年の研究では、GPUマシンの性能向上のために、リッチな特徴パターンをキャプチャする代替手段として、ディープラーニング(DL)モデルを活用している。 それでも、高いトレーニングと推論コストの欠点は、解釈可能性の制限とともに、現実世界のアプリケーションにおけるDLメソッドの採用を著しく妨げている。 これらの課題に対処するために,我々は,それらの利点を組み合わせた,新しい記号的最適化学習フレームワークを提案する。 具体的には、B&Bソルバ内のノード選択モジュール、すなわち、ノード選択のための深いシンボル最適化(Dso4NS)に焦点を当てる。 データ駆動のアプローチにより、Dso4NSは高次元離散的記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。 データ駆動モデルは、入力データ中のリッチな特徴情報をキャプチャし、シンボリック表現を生成する一方、ソルバに展開された式は、高い解釈可能性で高速な推論を可能にする。 実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。 学習したCPUベースのポリシーは、常に最先端のGPUベースのアプローチに匹敵するパフォーマンスを達成する。

Combinatorial optimization (CO) is one of the most fundamental mathematical models in real-world applications. Traditional CO solvers, such as Branch-and-Bound (B&B) solvers, heavily rely on expert-designed heuristics, which are reliable but require substantial manual tuning. Recent studies have leveraged deep learning (DL) models as an alternative to capture rich feature patterns for improved performance on GPU machines. Nonetheless, the drawbacks of high training and inference costs, as well as limited interpretability, severely hinder the adoption of DL methods in real-world applications. To address these challenges, we propose a novel deep symbolic optimization learning framework that combines their advantages. Specifically, we focus on the node selection module within B&B solvers -- namely, deep symbolic optimization for node selection (Dso4NS). With data-driven approaches, Dso4NS guides the search for mathematical expressions within the high-dimensional discrete symbolic space and then incorporates the highest-performing mathematical expressions into a solver. The data-driven model captures the rich feature information in the input data and generates symbolic expressions, while the expressions deployed in solvers enable fast inference with high interpretability. Experiments demonstrate the effectiveness of Dso4NS in learning high-quality expressions, outperforming existing approaches on a CPU machine. Encouragingly, the learned CPU-based policies consistently achieve performance comparable to state-of-the-art GPU-based approaches.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# 拡散言語モデリングの約束と展望と課題

Promises, Outlooks and Challenges of Diffusion Language Modeling ( http://arxiv.org/abs/2406.11473v2 )

ライセンス: Link先を確認
Justin Deschenaux, Caglar Gulcehre, (参考訳) 現代の自己回帰型大規模言語モデル(LLM)は、NLPベンチマークにおいて優れた性能を発揮しており、それらは現実世界にデプロイされている。 しかし、彼らはまだ自己回帰訓練パラダイムの限界に悩まされている。 例えば、自動回帰トークン生成は明らかに遅く、textit{exposure bias} になりやすい。 拡散に基づく言語モデルは、これらの制限に対処するために自己回帰生成に代わるものとして提案された。 最近提案されたScore Entropy Discrete Diffusion (SEDD) アプローチを評価し, 自己回帰生成の代替として有望であることを示すが, 欠点もいくつかある。 我々はSEDDの利点と課題を実証的に実証し、SEDDは一般的に、難易度やHellaSwag、Arc、WinoGrandeといったベンチマークで自己回帰モデルと一致することを観察する。 さらに,SEDDはGPT-2よりも4.5$\times$効率が高いことを示す。 SEDDは任意位置でのトークンの条件付けを許すが、SEDDは短いプロンプトを条件付き生成するためにGPT-2よりもわずかに弱いように見える。 最後に,本論文の主な成果を元のSEDD紙から再現した。

The modern autoregressive Large Language Models (LLMs) have achieved outstanding performance on NLP benchmarks, and they are deployed in the real world. However, they still suffer from limitations of the autoregressive training paradigm. For example, autoregressive token generation is notably slow and can be prone to \textit{exposure bias}. The diffusion-based language models were proposed as an alternative to autoregressive generation to address some of these limitations. We evaluate the recently proposed Score Entropy Discrete Diffusion (SEDD) approach and show it is a promising alternative to autoregressive generation but it has some short-comings too. We empirically demonstrate the advantages and challenges of SEDD, and observe that SEDD generally matches autoregressive models in perplexity and on benchmarks such as HellaSwag, Arc or WinoGrande. Additionally, we show that in terms of inference latency, SEDD can be up to 4.5$\times$ more efficient than GPT-2. While SEDD allows conditioning on tokens at abitrary positions, SEDD appears slightly weaker than GPT-2 for conditional generation given short prompts. Finally, we reproduced the main results from the original SEDD paper.
翻訳日:2024-07-11 20:50:13 公開日:2024-07-10
# STAR: レッドチーム言語モデルに対する社会技術的アプローチ

STAR: SocioTechnical Approach to Red Teaming Language Models ( http://arxiv.org/abs/2406.11757v2 )

ライセンス: Link先を確認
Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac, (参考訳) 本研究は,大規模言語モデルのレッド・チーム・セーフ化に向けた現在のベストプラクティスを改善するための社会技術フレームワークSTARを紹介する。 STARは、人間のレッドチームのためにパラメータ化された命令を生成することによって、ステアビリティを高めることで、リスクサーフェスのカバレッジを向上する。 パラメータ化された命令はまた、コストの上昇なしにモデル失敗に関するより詳細な洞察を提供する。 第2に、STARは、特定のグループに対する害を評価するために、人口層をマッチングすることで信号品質を改善し、より敏感なアノテーションをもたらす。 STARはさらに、多様な視点を活用し、ラベルの信頼性を向上させるための新たな調停のステップを採用し、不一致をノイズとしてではなく、信号品質への価値ある貢献として扱う。

This research introduces STAR, a sociotechnical framework that improves on current best practices for red teaming safety of large language models. STAR makes two key contributions: it enhances steerability by generating parameterised instructions for human red teamers, leading to improved coverage of the risk surface. Parameterised instructions also provide more detailed insights into model failures at no increased cost. Second, STAR improves signal quality by matching demographics to assess harms for specific groups, resulting in more sensitive annotations. STAR further employs a novel step of arbitration to leverage diverse viewpoints and improve label reliability, treating disagreement not as noise but as a valuable contribution to signal quality.
翻訳日:2024-07-11 20:50:12 公開日:2024-07-10
# 精度の高いカット・アンド・ペースト:道路損傷検出のための内容と視認性データ強化

Cut-and-Paste with Precision: a Content and Perspective-aware Data Augmentation for Road Damage Detection ( http://arxiv.org/abs/2406.18586v2 )

ライセンス: Link先を確認
Punnawat Siripathitti, Florent Forest, Olga Fink, (参考訳) 道路舗装の損傷は、亀裂、穴、スポーリングなどの問題に発展し、道路構造物の完全性、安全性、耐久性に重大な課題を生んでいる。 道路インフラストラクチャの状況と構造的健全性を維持するためには,これらの損傷の進化を検知し,監視することが不可欠である。 近年、道路監視アプリケーションにおいて、画像に基づく損傷検出のための様々なデータ駆動手法が研究されている。 道路被害検知チャレンジ(RDDC2018)の実施で注目され、様々な国のストリートビュー画像における物体検出装置の競争を奨励した。 リードチームは、主にYOLOとFaster R-CNNシリーズに基づいて、アンサンブルモデルの有効性を実証してきた。 データ拡張はまた、ランダムなフリップ、トリミング、パッチのカット、カット&ペーストのオブジェクトインスタンスなどの変換を含む、コンピュータビジョンフィールド内のオブジェクト検出のメリットも示している。 道路の損傷に対するカット・アンド・ペーストの適用は、データの多様性を高めるための有望なアプローチであるようだ。 しかし、ランダムな画像からオブジェクトのインスタンスをサンプリングし、対象画像にランダムな位置に貼り付ける標準的なカット・アンド・ペースト技術は、道路損傷検出に限られた効果を示した。 本手法は, 道路の位置を見落とし, サンプル画像と対象画像との視点差を無視し, 非現実的な拡張画像を生成する。 本研究では、コンテンツ認識(画像中の道路の真の位置を考慮)と視点認識(インジェクションされた損傷と対象画像の視点の違いを考慮)の両方を考慮したカット・アンド・ペースト向上手法を提案する。

Damage to road pavement can develop into cracks, potholes, spallings, and other issues posing significant challenges to the integrity, safety, and durability of the road structure. Detecting and monitoring the evolution of these damages is crucial for maintaining the condition and structural health of road infrastructure. In recent years, researchers have explored various data-driven methods for image-based damage detection in road monitoring applications. The field gained attention with the introduction of the Road Damage Detection Challenge (RDDC2018), encouraging competition in developing object detectors on street-view images from various countries. Leading teams have demonstrated the effectiveness of ensemble models, mostly based on the YOLO and Faster R-CNN series. Data augmentations have also shown benefits in object detection within the computer vision field, including transformations such as random flipping, cropping, cutting out patches, as well as cut-and-pasting object instances. Applying cut-and-paste augmentation to road damages appears to be a promising approach to increase data diversity. However, the standard cut-and-paste technique, which involves sampling an object instance from a random image and pasting it at a random location onto the target image, has demonstrated limited effectiveness for road damage detection. This method overlooks the location of the road and disregards the difference in perspective between the sampled damage and the target image, resulting in unrealistic augmented images. In this work, we propose an improved Cut-and-Paste augmentation technique that is both content-aware (i.e. considers the true location of the road in the image) and perspective-aware (i.e. takes into account the difference in perspective between the injected damage and the target image).
翻訳日:2024-07-11 20:50:12 公開日:2024-07-10
# DaBiT: 補聴器と超解像器の深さ・ブラー情報変換器

DaBiT: Depth and Blur informed Transformer for Joint Refocusing and Super-Resolution ( http://arxiv.org/abs/2407.01230v2 )

ライセンス: Link先を確認
Crispian Morris, Nantheera Anantrasirichai, Fan Zhang, David Bull, (参考訳) 多くの現実のシナリオでは、録画されたビデオは偶然の焦点のぼやけに悩まされ、ビデオのぼやけた手法は存在するが、特にターゲットの動きがぼやけている。 本稿では,焦点ずれ(再焦点)とビデオ超解像(VSR)のジョイントタスクに最適化されたフレームワークを提案する。 提案手法では, 画像伝播に加えて, 局所的ぼかしの連続的な空間分散を効果的に活用し, 映像の復元を行う。 また、ぼやけた領域と鋭い領域の関連性を効率的に調整するフロー再焦点モジュールも導入する。 さらに,本研究では,学習能力を拡張し,より広い範囲のコンテンツを含む合成焦点ぼかしデータを生成する新しい手法を提案する。 DAVIS-Blurという新しいベンチマークデータセットを公開しました。 このデータセットは、人気のDAVISビデオセグメンテーションセットの修正版であり、実際のアウト・オブ・フォーカスのぼかしと対応するぼかしマップを提供する。 DAVIS-Blurに関する総合的な実験は、我々のアプローチの優位性を実証している。 我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。 ソースコードはhttps://github.com/crispianm/DaBiTで公開されます。

In many real-world scenarios, recorded videos suffer from accidental focus blur, and while video deblurring methods exist, most specifically target motion blur. This paper introduces a framework optimised for the joint task of focal deblurring (refocusing) and video super-resolution (VSR). The proposed method employs novel map guided transformers, in addition to image propagation, to effectively leverage the continuous spatial variance of focal blur and restore the footage. We also introduce a flow re-focusing module to efficiently align relevant features between the blurry and sharp domains. Additionally, we propose a novel technique for generating synthetic focal blur data, broadening the model's learning capabilities to include a wider array of content. We have made a new benchmark dataset, DAVIS-Blur, available. This dataset, a modified extension of the popular DAVIS video segmentation set, provides realistic out-of-focus blur degradations as well as the corresponding blur maps. Comprehensive experiments on DAVIS-Blur demonstrate the superiority of our approach. We achieve state-of-the-art results with an average PSNR performance over 1.9dB greater than comparable existing video restoration methods. Our source code will be made available at https://github.com/crispianm/DaBiT
翻訳日:2024-07-11 20:50:12 公開日:2024-07-10
# デュアルユース能力の協調公開:AIの早期警告システム

Coordinated Disclosure of Dual-Use Capabilities: An Early Warning System for Advanced AI ( http://arxiv.org/abs/2407.01420v2 )

ライセンス: Link先を確認
Joe O'Brien, Shaun Ee, Jam Kraprayoon, Bill Anderson-Samways, Oscar Delaney, Zoe Williams, (参考訳) 高度なAIシステムは、公共の安全やセキュリティに重大なリスクをもたらす能力を示すことができる。 また、AI脅威に対する社会的レジリエンスの発達を含む、幅広い領域で防御的に適用される可能性がある。 我々は、先進的なAI開発者や米国政府機関、その他の民間機関との早期の情報共有を支援するプロセスとして、CDDC(Coordinated Disclosure of Dual-Use Capabilities)を提案する。 このプロセスは、インフォメーション・クリアリングハウス(コーディネーター)を中心にしており、インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション( これは、米国政府、デュアルユースファンデーションモデル開発者、その他のアクターに、公衆の安全とセキュリティに大きな影響を及ぼす可能性のあるAI機能の概要と、対応の最大時間を提供することを目的としている。

Advanced AI systems may be developed which exhibit capabilities that present significant risks to public safety or security. They may also exhibit capabilities that may be applied defensively in a wide set of domains, including (but not limited to) developing societal resilience against AI threats. We propose Coordinated Disclosure of Dual-Use Capabilities (CDDC) as a process to guide early information-sharing between advanced AI developers, US government agencies, and other private sector actors about these capabilities. The process centers around an information clearinghouse (the "coordinator") which receives evidence of dual-use capabilities from finders via mandatory and/or voluntary reporting pathways, and passes noteworthy reports to defenders for follow-up (i.e., further analysis and response). This aims to provide the US government, dual-use foundation model developers, and other actors with an overview of AI capabilities that could significantly impact public safety and security, as well as maximal time to respond.
翻訳日:2024-07-11 20:50:12 公開日:2024-07-10
# MMLongBench-Doc: 可視化による長文文書理解のベンチマーク

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations ( http://arxiv.org/abs/2407.01523v2 )

ライセンス: Link先を確認
Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, Pan Zhang, Liangming Pan, Yu-Gang Jiang, Jiaqi Wang, Yixin Cao, Aixin Sun, (参考訳) リッチなレイアウトとマルチモーダルコンポーネントでドキュメントを理解することは、長年の実践的課題である。 最近のLVLM(Large Vision-Language Models)は、特に単一ページ文書理解(DU)において、様々なタスクにおいて顕著な進歩を遂げている。 しかし、長文DUに対するそれらの能力は依然として未解決の問題である。 MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 以前のデータセットとは違って、平均49.4ページと20,971のテキストトークンを持つ130のPDFフォーマットの文書上に構築されている。 総合的な評価に向けて、これらの質問に対する回答は、(1)異なる情報源(テキスト、画像、チャート、テーブル、レイアウト構造)と(2)様々な場所(ページ番号)からの証拠の断片に依存している。 さらに、質問の33.2%は複数のページにわたる証拠を必要とする横断的な質問である。 22.8%の質問は幻覚の可能性を検出できないように設計されている。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。 特に、最高のパフォーマンスモデルであるGPT-4oはF1スコアが42.7%、第2位のGPT-4Vは31.4%である。 さらに、12個のLVLM(GPT-4oとGPT-4Vを除く)は、損失の少ないOCR文書を供給しているLLMよりも性能が劣っている。 これらの結果は、より有能なLVLMに向けた将来の研究の必要性を検証するものである。 Project Page: https://mayubo2333.github.io/MMLongBench-Doc

Understanding documents with rich layouts and multi-modal components is a long-standing and practical task. Recent Large Vision-Language Models (LVLMs) have made remarkable strides in various tasks, particularly in single-page document understanding (DU). However, their abilities on long-context DU remain an open problem. This work presents MMLongBench-Doc, a long-context, multi-modal benchmark comprising 1,062 expert-annotated questions. Distinct from previous datasets, it is constructed upon 130 lengthy PDF-formatted documents with an average of 49.4 pages and 20,971 textual tokens. Towards comprehensive evaluation, answers to these questions rely on pieces of evidence from (1) different sources (text, image, chart, table, and layout structure) and (2) various locations (i.e. page number). Moreover, 33.2% of the questions are cross-page questions requiring evidence across multiple pages. 22.8% of the questions are designed to be unanswerable for detecting potential hallucinations. Experiments on 14 LVLMs demonstrate that long-context DU greatly challenges current models. Notably, the best-performing model, GPT-4o, achieves an F1 score of only 42.7%, while the second-best, GPT-4V, scores 31.4%. Furthermore, 12 LVLMs (all except GPT-4o and GPT-4V) even present worse performance than their LLM counterparts which are fed with lossy-parsed OCR documents. These results validate the necessity of future research toward more capable long-context LVLMs. Project Page: https://mayubo2333.github.io/MMLongBench-Doc
翻訳日:2024-07-11 20:39:53 公開日:2024-07-10
# WildAvatar:3Dアバター作成のためのWebスケールのIn-the-Wildビデオデータセット

WildAvatar: Web-scale In-the-wild Video Dataset for 3D Avatar Creation ( http://arxiv.org/abs/2407.02165v2 )

ライセンス: Link先を確認
Zihao Huang, Shoukang Hu, Guangcong Wang, Tianqi Liu, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu, (参考訳) アバター作成のための既存の人間のデータセットは通常実験室環境に限られており、高品質なアノテーション(例えば、3Dスキャンやマルチビュー画像からのSMPL推定)を理想的に提供することができる。 しかし、それらの注釈付け要件は現実のイメージやビデオには実用的ではなく、現在のアバター作成方法における現実のアプリケーションに対する課題を提起している。 この目的のために,YouTubeから抽出したWebスケールの人体アバター生成データセットであるWildAvatarデータセットを提案する。 WildAvatarは、人間の3Dアバター作成のための以前のデータセットよりも、少なくとも$10\times$リッチだ。 我々は,アバター作成における現実のアプリケーションにおける未探索課題を,データセット上でいくつかの最先端アバター作成手法を評価した。 また,大規模データ提供時のアバター生成手法の一般化可能性を示す。 データソースリンクとアノテーションを公開し、現実世界のアプリケーションのための3Dヒューマンアバター作成や他の関連分野を前進させます。

Existing human datasets for avatar creation are typically limited to laboratory environments, wherein high-quality annotations (e.g., SMPL estimation from 3D scans or multi-view images) can be ideally provided. However, their annotating requirements are impractical for real-world images or videos, posing challenges toward real-world applications on current avatar creation methods. To this end, we propose the WildAvatar dataset, a web-scale in-the-wild human avatar creation dataset extracted from YouTube, with $10,000+$ different human subjects and scenes. WildAvatar is at least $10\times$ richer than previous datasets for 3D human avatar creation. We evaluate several state-of-the-art avatar creation methods on our dataset, highlighting the unexplored challenges in real-world applications on avatar creation. We also demonstrate the potential for generalizability of avatar creation methods, when provided with data at scale. We publicly release our data source links and annotations, to push forward 3D human avatar creation and other related fields for real-world applications.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-10
# 因果経路の実践的ガイドとサブグループ格差分析

Practical Guide for Causal Pathways and Sub-group Disparity Analysis ( http://arxiv.org/abs/2407.02702v2 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Shaina Raza, Oluwanifemi Bamgbose, Deval Pandya, Elham Dolatabadi, (参考訳) 本研究では,感性属性と実世界の観測データにおける目標結果との因果関係と因果関係を明らかにするための因果不均質分析の適用について紹介する。 本手法では,因果分解分析を用いて因果関係の定量化と評価を行う。 また、因果不均質分析における異種性評価の統合の重要性を強調し、特定のサブグループにおける感度属性が結果に与える影響について深い洞察を得る。 当社の2段階の調査は、レースがセンシティブな属性として機能するデータセットに焦点を当てています。 2つのデータセットの結果は、因果解析と不均一性評価の利点が、データのバイアスを定量化するだけでなく、結果への影響を解消するためにも有効であることを示している。 本研究は,ML分類誤差が最も大きい部分群が,最も影響を受けやすい部分群であることが実証された。 また、機密属性のみに基づいてデータをグループ化するだけでは不十分であることが示され、これらの分析により、不一致によって直接影響を受けるサブグループを見つけることができる。 我々の発見は、将来の倫理的AIプラクティスやバイアス監査にそのような方法論を採用することを奨励し、より公平で公正な技術的景観を育むことを願っている。

In this study, we introduce the application of causal disparity analysis to unveil intricate relationships and causal pathways between sensitive attributes and the targeted outcomes within real-world observational data. Our methodology involves employing causal decomposition analysis to quantify and examine the causal interplay between sensitive attributes and outcomes. We also emphasize the significance of integrating heterogeneity assessment in causal disparity analysis to gain deeper insights into the impact of sensitive attributes within specific sub-groups on outcomes. Our two-step investigation focuses on datasets where race serves as the sensitive attribute. The results on two datasets indicate the benefit of leveraging causal analysis and heterogeneity assessment not only for quantifying biases in the data but also for disentangling their influences on outcomes. We demonstrate that the sub-groups identified by our approach to be affected the most by disparities are the ones with the largest ML classification errors. We also show that grouping the data only based on a sensitive attribute is not enough, and through these analyses, we can find sub-groups that are directly affected by disparities. We hope that our findings will encourage the adoption of such methodologies in future ethical AI practices and bias audits, fostering a more equitable and fair technological landscape.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-10
# 格子・門・曲線:ロゼッタ石としてのGKP符号

Lattices, Gates, and Curves: GKP codes as a Rosetta stone ( http://arxiv.org/abs/2407.03270v2 )

ライセンス: Link先を確認
Jonathan Conrad, Ansgar G. Burchards, Steven T. Flammia, (参考訳) Gottesman-Kitaev-Preskill (GKP)符号は超伝導共振器、光光子、閉じ込められたイオンなどの量子調和振動子系においてフォールトトレラント量子計算を実装するための有望な候補である。 GKP符号の論理的クリフォード演算はガウス演算のみを用いて耐障害的に実装できることが知られている。 本稿では、GKP Clifford ゲートが対応するGKP格子のシンプレクティック自己同型としてどのように生じるかを説明し、適切な属 $n$曲面の写像類群とどのように同一視されるかを示す。 この対応はGKP符号に対するトポロジカルなフォールトトレランスの解釈を導入し、GKP符号(格子)とそのクリフォードゲートと代数曲線の間の接続を動機付け、深く探求する。 単一モードのGKP符号に対して、楕円曲線のモジュライ空間を持つすべてのGKP符号の空間を、トレフ結び目が取り除かれた3つの球によって与えられるものとし、対応する曲線上のレベル構造の選択から自由の論理次数がどのように生じるかを説明する。 我々は、クリフォードゲートの実装が、すべてのGKP符号の空間上のホモトピー非自明ループとどのように対応するかについて議論し、モジュラーラデマッハ函数がそのようなループによって実装された特定のクリフォードゲートに対して位相不変量を記述することを示す。 最後に、GKP符号の普遍的なファミリを構築し、GKP符号に対してGottesman と Zhang が提案したように、ファイバーバンドルの耐障害性を明確に構築する方法を示す。 この対応を理解するために、我々はGKP符号とそのモジュライ空間に関する一般幾何学的幾何学的視点を導入する。

Gottesman-Kitaev-Preskill (GKP) codes are a promising candidate for implementing fault tolerant quantum computation in quantum harmonic oscillator systems such as superconducting resonators, optical photons and trapped ions, and in recent years theoretical and experimental evidence for their utility has steadily grown. It is known that logical Clifford operations on GKP codes can be implemented fault tolerantly using only Gaussian operations, and several theoretical investigations have illuminated their general structure. In this work, we explain how GKP Clifford gates arise as symplectic automorphisms of the corresponding GKP lattice and show how they are identified with the mapping class group of suitable genus $n$ surfaces. This correspondence introduces a topological interpretation of fault tolerance for GKP codes and motivates the connection between GKP codes (lattices), their Clifford gates, and algebraic curves, which we explore in depth. For a single-mode GKP code, we identify the space of all GKP codes with the moduli space of elliptic curves, given by the three sphere with a trefoil knot removed, and explain how logical degrees of freedom arise from the choice of a level structure on the corresponding curves. We discuss how the implementation of Clifford gates corresponds to homotopically nontrivial loops on the space of all GKP codes and show that the modular Rademacher function describes a topological invariant for certain Clifford gates implemented by such loops. Finally, we construct a universal family of GKP codes and show how it gives rise to an explicit construction of fiber bundle fault tolerance as proposed by Gottesman and Zhang for the GKP code. On our path towards understanding this correspondence, we introduce a general algebraic geometric perspective on GKP codes and their moduli spaces, which uncovers a map towards many possible routes of future research.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-10
# 基礎モデルのドメイン対応微調整

Domain-Aware Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2407.03482v2 )

ライセンス: Link先を確認
Ugur Ali Kaplan, Margret Keuper, Anna Khoreva, Dan Zhang, Yumeng Li, (参考訳) ファンデーションモデル(FM)はコンピュータビジョンに革命をもたらし、異なるドメイン間で効果的な学習を可能にした。 しかし、ドメインシフト時のパフォーマンスはまだ過小評価されていない。 本稿では、異なるバックボーンアーキテクチャを比較し、ドメイン関連テキスト埋め込みを利用した新しいドメイン認識コンポーネントを導入することにより、FMのゼロショットドメイン適応の可能性を検討する。 本研究では,ドメイン適応正規化を提案する。Dominoと呼ばれるドメイン適応正規化は,微調整中にドメイン埋め込みを明示的に活用することで,モデルドメインを意識する。 最終的にDominoは、さまざまな未確認領域に効果的に適応できる、より堅牢なコンピュータビジョンモデルを実現する。

Foundation models (FMs) have revolutionized computer vision, enabling effective learning across different domains. However, their performance under domain shift is yet underexplored. This paper investigates the zero-shot domain adaptation potential of FMs by comparing different backbone architectures and introducing novel domain-aware components that leverage domain related textual embeddings. We propose domain adaptive normalization, termed as Domino, which explicitly leverages domain embeddings during fine-tuning, thus making the model domain aware. Ultimately, Domino enables more robust computer vision models that can adapt effectively to various unseen domains.
翻訳日:2024-07-11 20:39:53 公開日:2024-07-10
# 深部状態空間モデルにおける学習力学の理論に向けて

Towards a theory of learning dynamics in deep state space models ( http://arxiv.org/abs/2407.07279v1 )

ライセンス: Link先を確認
Jakub Smékal, Jimmy T. H. Smith, Michael Kleinman, Dan Biderman, Scott W. Linderman, (参考訳) 状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示しているが、これらのモデルに関する理論的理解はいまだに不足している。 本研究では,線形SSMの学習力学を解析し,データの共分散構造,潜時状態サイズ,初期化が勾配降下学習におけるパラメータの進化にどのように影響するかを明らかにする。 本研究では,周波数領域における学習力学に焦点をあてることで,一次元SSMと深い線形フィードフォワードネットワークのダイナミックスとのリンクを確立することができることを示す。 最後に,遅延状態の過度パラメータ化が収束時間にどのように影響するかを分析し,非線形接続を持つ深部SSMの研究にその結果を拡張するための今後の研究について述べる。 この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。

State space models (SSMs) have shown remarkable empirical performance on many long sequence modeling tasks, but a theoretical understanding of these models is still lacking. In this work, we study the learning dynamics of linear SSMs to understand how covariance structure in data, latent state size, and initialization affect the evolution of parameters throughout learning with gradient descent. We show that focusing on the learning dynamics in the frequency domain affords analytical solutions under mild assumptions, and we establish a link between one-dimensional SSMs and the dynamics of deep linear feed-forward networks. Finally, we analyze how latent state over-parameterization affects convergence time and describe future work in extending our results to the study of deep SSMs with nonlinear connections. This work is a step toward a theory of learning dynamics in deep state space models.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# MIGS:テンソル分解による多密度ガウス平滑化

MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition ( http://arxiv.org/abs/2407.07284v1 )

ライセンス: Link先を確認
Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras, (参考訳) MIGS(Multi-Identity Gaussian Splatting)は、単眼ビデオのみを用いて、複数のアイデンティティの1つの神経表現を学習する新しい手法である。 人間のアバターに対する最近の3次元ガウススプラッティング(3DGS)アプローチは、同一性ごとの最適化を必要とする。 しかし、多元性表現の学習は、任意のポーズの下で人間を頑健にアニメーションする利点を示す。 本稿では,学習可能な3DGSパラメータをすべて組み合わせた高次テンソルの構築を提案する。 低ランク構造を仮定してテンソルを分解することにより、複数の対象の複雑な剛性および非剛性変形を統一ネットワークでモデル化し、パラメータの総数を大幅に削減する。 提案手法は,すべてのトレーニングアイデンティティからの情報を活用し,未確認のポーズに挑戦して頑健なアニメーションを実現し,既存のアプローチより優れています。 また、未確認のアイデンティティを学習するための拡張方法も示しています。

We introduce MIGS (Multi-Identity Gaussian Splatting), a novel method that learns a single neural representation for multiple identities, using only monocular videos. Recent 3D Gaussian Splatting (3DGS) approaches for human avatars require per-identity optimization. However, learning a multi-identity representation presents advantages in robustly animating humans under arbitrary poses. We propose to construct a high-order tensor that combines all the learnable 3DGS parameters for all the training identities. By assuming a low-rank structure and factorizing the tensor, we model the complex rigid and non-rigid deformations of multiple subjects in a unified network, significantly reducing the total number of parameters. Our proposed approach leverages information from all the training identities, enabling robust animation under challenging unseen poses, outperforming existing approaches. We also demonstrate how it can be extended to learn unseen identities.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# ソフトウェア多様性をクラウドマイクロサービスに採用するエンジニアの信頼性とパフォーマンス

Employing Software Diversity in Cloud Microservices to Engineer Reliable and Performant Systems ( http://arxiv.org/abs/2407.07287v1 )

ライセンス: Link先を確認
Nazanin Akhtarian, Hamzeh Khazaei, Marin Litoiu, (参考訳) ソフトウェアエンジニアリングにおいて、私たちは、システムの信頼性を維持するための適応と進化の必要性を認識します。 各ソフトウェアイテレーションは、予期せぬバグからパフォーマンス異常まで、新たな課題をもたらす可能性があるため、これらの複雑さを理解し、対処し、生涯にわたって堅牢なシステム操作を保証することが最重要になる。 本研究は,システムの信頼性と性能を同時に向上するために,ソフトウェアの多様性を活用することを提案する。 私たちの仕事の土台は信頼性基準の導出です。 このメトリクスは、悪条件下で各ソフトウェアバージョンの信頼性と性能をカプセル化する。 計算された信頼性スコアを用いて,各ソフトウェアのバージョンの個体数を調整するための動的コントローラを実装した。 目標は、より信頼性の高いバージョンに対して、可能な限り多くのバージョンを保存しながら、より高いレプリカ数を維持することである。 このバランスは、システムの信頼性だけでなく、潜在的な障害のスペクトルに対する性能を保証するためにも重要です。 さらに,多様性を意識した自動スケーリングアルゴリズムを設計,実装し,システムの信頼性と性能を同時に,任意のスケールで維持する。 現実的なクラウドマイクロサービスベースのアプリケーションに関する広範な実験は、信頼性と性能の両面において提案手法の有効性を示している。

In the ever-shifting landscape of software engineering, we recognize the need for adaptation and evolution to maintain system dependability. As each software iteration potentially introduces new challenges, from unforeseen bugs to performance anomalies, it becomes paramount to understand and address these intricacies to ensure robust system operations during the lifetime. This work proposes employing software diversity to enhance system reliability and performance simultaneously. A cornerstone of our work is the derivation of a reliability metric. This metric encapsulates the reliability and performance of each software version under adverse conditions. Using the calculated reliability score, we implemented a dynamic controller responsible for adjusting the population of each software version. The goal is to maintain a higher replica count for more reliable versions while preserving the diversity of versions as much as possible. This balance is crucial for ensuring not only the reliability but also the performance of the system against a spectrum of potential failures. In addition, we designed and implemented a diversity-aware autoscaling algorithm that maintains the reliability and performance of the system at the same time and at any scale. Our extensive experiments on realistic cloud microservice-based applications show the effectiveness of the proposed approach in this paper in promoting both reliability and performance.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# 強化学習による構造設計

Structural Design Through Reinforcement Learning ( http://arxiv.org/abs/2407.07288v1 )

ライセンス: Link先を確認
Thomas Rochefort-Beaudoin, Aurelian Vadean, Niels Aage, Sofiane Achiche, (参考訳) 本稿では、トポロジ最適化における機械学習の適用を推進すべく、オープンソースの強化学習環境である構造最適化ジム(SOgym)を紹介する。 Sogymは、TOの物理学を直接報酬関数に組み込むことで、物理的に実現可能で構造的に堅牢な設計を学習するRLエージェントを目指している。 スケーラビリティを高めるため、Sogymは環境とエージェントの間のメッシュ非依存のインターフェースとして機能マッピング手法を活用し、メッシュの解像度に関係なく設計変数との効率的なインタラクションを可能にする。 ベースラインの結果はモデルフリーのポリシー最適化エージェントとモデルベースDreamerV3エージェントを用いて提示される。 3つの観測空間が試験された。 TopOptゲームは、ボリューム制約下でのコンプライアンスを最小化するための構造設計における学生の直感を改善するインタラクティブな教育ツールであり、パフォーマンスとサンプル効率の点で最善を尽くした。 DreamerV3の100Mパラメータバージョンは、従来の最適化手法によって達成されたベースラインコンプライアンスの54%以内の構造と、0%の切断率を生成した。 エージェントの学習率とTopOptゲーム実験の工学生の学習率を比較すると、DreamerV3-100Mモデルは約4桁の学習率を示し、試行錯誤を通じてスクラッチからトレーニングされたポリシーにとって素晴らしい成果だ。 これらの結果は、RLが継続的TO問題を解決し、多様な設計ソリューションから学び、学習する能力を持っていることを示唆している。 SOgymは複雑な構造設計の課題に対してRLエージェントを開発するためのプラットフォームを提供しており、この分野のさらなる研究を支援するために公開されている。

This paper introduces the Structural Optimization gym (SOgym), a novel open-source reinforcement learning environment designed to advance the application of machine learning in topology optimization. SOgym aims for RL agents to learn to generate physically viable and structurally robust designs by integrating the physics of TO directly into the reward function. To enhance scalability, SOgym leverages feature mapping methods as a mesh-independent interface between the environment and the agent, allowing for efficient interaction with the design variables regardless of the mesh resolution. Baseline results are presented using a model-free proximal policy optimization agent and a model-based DreamerV3 agent. Three observation space configurations were tested. The TopOpt game inspired configuration, an interactive educational tool that improves students' intuition in designing structures to minimize compliance under volume constraints, performed best in terms of performance and sample efficiency. The 100M parameter version of DreamerV3 produced structures within 54% of the baseline compliance achieved by traditional optimization methods as well as a 0% disconnection rate, an improvement over supervised learning approaches that often struggle with disconnected load paths. When comparing the learning rates of the agents to those of engineering students from the TopOpt game experiment, the DreamerV3-100M model shows a learning rate approximately four orders of magnitude lower, an impressive feat for a policy trained from scratch through trial and error. These results suggest RL's potential to solve continuous TO problems and its capacity to explore and learn from diverse design solutions. SOgym provides a platform for developing RL agents for complex structural design challenges and is publicly available to support further research in the field.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# 移動赤外線小ターゲット検出のための変形可能な特徴アライメントとリファインメント

Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection ( http://arxiv.org/abs/2407.07289v1 )

ライセンス: Link先を確認
Dengyan Luo, Yanping Xiang, Hu Wang, Luping Ji, Shuai Li, Mao Ye, (参考訳) 移動中の赤外線小ターゲットの検出は、困難で広く研究されているトピックである。 現在の最先端の手法は、主にConvLSTMに基づいて、隣接するフレームから情報を集約し、現在のフレームの検出を容易にする。 しかし、これらの手法はトレーニング段階でのみ動作情報を暗黙的に利用し、運動補償を明示的に探索することができないため、大きな動きを含むビデオシーケンスでは性能が低下する。 本稿では,変形可能な畳み込みに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。 具体的には、設計したDilated Convolution Attention Fusion (DCAF) ブロックに基づくTDAモジュールを開発し、隣接するフレームと現在のフレームを特徴レベルで明示的に整合させる。 そして、特徴改善モジュールは、整列した特徴を適応的に融合させ、提案したAttention-guided Deformable Fusion (AGDF)ブロックを用いて有用な時空間情報を集約する。 また、隣接するフレームと現在のフレームとのアライメントを改善するために、新しい動き補償損失を導入して従来の損失関数を拡張する。 実験結果から,DFAR法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現することが示された。

The detection of moving infrared dim-small targets has been a challenging and prevalent research topic. The current state-of-the-art methods are mainly based on ConvLSTM to aggregate information from adjacent frames to facilitate the detection of the current frame. However, these methods implicitly utilize motion information only in the training stage and fail to explicitly explore motion compensation, resulting in poor performance in the case of a video sequence including large motion. In this paper, we propose a Deformable Feature Alignment and Refinement (DFAR) method based on deformable convolution to explicitly use motion context in both the training and inference stages. Specifically, a Temporal Deformable Alignment (TDA) module based on the designed Dilated Convolution Attention Fusion (DCAF) block is developed to explicitly align the adjacent frames with the current frame at the feature level. Then, the feature refinement module adaptively fuses the aligned features and further aggregates useful spatio-temporal information by means of the proposed Attention-guided Deformable Fusion (AGDF) block. In addition, to improve the alignment of adjacent frames with the current frame, we extend the traditional loss function by introducing a new motion compensation loss. Extensive experimental results demonstrate that the proposed DFAR method achieves the state-of-the-art performance on two benchmark datasets including DAUB and IRDST.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# 時系列における因果発見駆動型変化点検出

Causal Discovery-Driven Change Point Detection in Time Series ( http://arxiv.org/abs/2407.07290v1 )

ライセンス: Link先を確認
Shanyun Gao, Raghavendra Addanki, Tong Yu, Ryan A. Rossi, Murat Kocaoglu, (参考訳) 時系列における変化点検出は、時系列の確率分布が変化する時間を特定する。 人間の活動感覚や医学など、多くの分野で広く使われている。 多変量時系列の文脈では、これは典型的には高次元データの合同分布を調べることを含む: もしある変数が変化すれば、時系列全体が変化したと仮定される。 しかし、実際的な応用では、時系列の特定の構成要素にのみ興味を持ち、他の時系列の存在下での分布の急激な変化を探求する。 本稿では,時系列データ生成の基盤となる構造因果モデルを仮定し,まず制約に基づく探索手法を用いて因果構造の一部を学習する2段階の非パラメトリックアルゴリズムを提案する。 アルゴリズムは条件付き相対的ピアソン偏差推定を用いて変化点を同定する。 条件付き相対的なピアソン偏差は時系列における連続セグメント間の分布格差を定量化し、因果発見法は因果機構に焦点をあてることを可能にし、独立分布と同一分布(IID)サンプルへのアクセスを容易にする。 理論的には、従来の変化点検出法におけるIIDの典型的な仮定は、因果マルコフ条件に基づいて緩和することができる。 合成データセットと実世界のデータセットの両方の実験を通じて、我々のアプローチの正しさと有用性を検証する。

Change point detection in time series seeks to identify times when the probability distribution of time series changes. It is widely applied in many areas, such as human-activity sensing and medical science. In the context of multivariate time series, this typically involves examining the joint distribution of high-dimensional data: If any one variable changes, the whole time series is assumed to have changed. However, in practical applications, we may be interested only in certain components of the time series, exploring abrupt changes in their distributions in the presence of other time series. Here, assuming an underlying structural causal model that governs the time-series data generation, we address this problem by proposing a two-stage non-parametric algorithm that first learns parts of the causal structure through constraint-based discovery methods. The algorithm then uses conditional relative Pearson divergence estimation to identify the change points. The conditional relative Pearson divergence quantifies the distribution disparity between consecutive segments in the time series, while the causal discovery method enables a focus on the causal mechanism, facilitating access to independent and identically distributed (IID) samples. Theoretically, the typical assumption of samples being IID in conventional change point detection methods can be relaxed based on the Causal Markov Condition. Through experiments on both synthetic and real-world datasets, we validate the correctness and utility of our approach.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# 半定常時系列における因果発見

Causal Discovery in Semi-Stationary Time Series ( http://arxiv.org/abs/2407.07291v1 )

ライセンス: Link先を確認
Shanyun Gao, Raghavendra Addanki, Tong Yu, Ryan A. Rossi, Murat Kocaoglu, (参考訳) 定常的な仮定をせずに観測時系列から因果関係を明らかにすることは重要な課題である。 実際には、小売業、交通システム、医学など、多くの分野においてこの課題は一般的である。 ここでは、この問題を非定常時系列のクラスとして考える。 半定常時系列と呼ばれるこの種の時系列の構造因果モデル(SCM)は、有限個の異なる因果機構が連続的に周期的に起こることを示す。 このモデルは、季節性や日内変動といった一般的な現象を含む周期性を表現することができるため、かなりの実用性を持っている。 本稿では,制約に基づく非パラメトリックアルゴリズムを提案する。 結果のアルゴリズム PCMCI$_{\Omega}$ は因果関係の交互変化を捉え、条件独立性(CI)テストで基礎となる因果グラフを同定する。 このアルゴリズムは離散時系列における因果関係の同定に有効であることを示す。 連続的および離散的シミュレーションデータに対する広範な実験により,本アルゴリズムの有効性を検証した。 また、我々のアルゴリズムを実世界の気候データセットに適用する。

Discovering causal relations from observational time series without making the stationary assumption is a significant challenge. In practice, this challenge is common in many areas, such as retail sales, transportation systems, and medical science. Here, we consider this problem for a class of non-stationary time series. The structural causal model (SCM) of this type of time series, called the semi-stationary time series, exhibits that a finite number of different causal mechanisms occur sequentially and periodically across time. This model holds considerable practical utility because it can represent periodicity, including common occurrences such as seasonality and diurnal variation. We propose a constraint-based, non-parametric algorithm for discovering causal relations in this setting. The resulting algorithm, PCMCI$_{\Omega}$, can capture the alternating and recurring changes in the causal mechanisms and then identify the underlying causal graph with conditional independence (CI) tests. We show that this algorithm is sound in identifying causal relations on discrete time series. We validate the algorithm with extensive experiments on continuous and discrete simulated data. We also apply our algorithm to a real-world climate dataset.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# HoneyGAN Pots:ハニーポットを生成するためのディープラーニングアプローチ

HoneyGAN Pots: A Deep Learning Approach for Generating Honeypots ( http://arxiv.org/abs/2407.07292v1 )

ライセンス: Link先を確認
Ryan Gabrys, Daniel Silva, Mark Bilinski, (参考訳) 本稿では,サイバー防衛分野におけるデコイ構成の生成におけるGAN(Generative Adversarial Networks)の適用可能性と有効性について検討する。 ミツバチの利用は過去にも広く研究されてきたが、特定のサイバーシナリオに対して適切なデコイ構成を選択する(その後、それらを回収・生成する)ことは未解決のままである。 既存のアプローチは、しばしば設定のリストの維持や、事前設定されたイメージのコレクションの保存に依存し、適応性と効率性に欠ける。 本稿では,これらの課題に対処するために,GANの学習能力を活用した新しいアプローチを提案する。 我々の知る限りでは、デコイ構成を生成するために特にGANを利用するための事前の試みは行われていない。 我々の研究は、このギャップに対処し、サイバーディフェンダーにネットワークディフェンスを強化する強力なツールを提供することを目的としています。

This paper investigates the feasibility and effectiveness of employing Generative Adversarial Networks (GANs) for the generation of decoy configurations in the field of cyber defense. The utilization of honeypots has been extensively studied in the past; however, selecting appropriate decoy configurations for a given cyber scenario (and subsequently retrieving/generating them) remain open challenges. Existing approaches often rely on maintaining lists of configurations or storing collections of pre-configured images, lacking adaptability and efficiency. In this pioneering study, we present a novel approach that leverages GANs' learning capabilities to tackle these challenges. To the best of our knowledge, no prior attempts have been made to utilize GANs specifically for generating decoy configurations. Our research aims to address this gap and provide cyber defenders with a powerful tool to bolster their network defenses.
翻訳日:2024-07-11 18:21:11 公開日:2024-07-10
# ハイブリッド量子コンピューティングとHPC環境における機械学習性能の解析

Analyzing Machine Learning Performance in a Hybrid Quantum Computing and HPC Environment ( http://arxiv.org/abs/2407.07294v1 )

ライセンス: Link先を確認
Samuel T. Bieberich, Michael A. Sandoval, (参考訳) 高速コンピューティング(HPC)環境で古典計算と量子計算の両方を利用する「ハイブリッド」量子機械学習(QML)ワークフローに量子シミュレータを統合する利点について検討した。 ここでは、2つのOak Ridge Leadership Computing Facility HPCシステム、Andes(コモディティタイプのLinuxクラスタ)とFrontier(HPE Cray EXスーパーコンピュータ)とPennyLaneとIBMQの量子コンピューティングシミュレータを使って、ハイブリッドQMLプログラムの評価を行いました。 Frontierで1GPUを使用すると、FrontierのCPUとローカルな非HPCシステムと比較すると、それぞれ56%と77%のスピードアップがあった。 複数のスレッドを使用して大きなデータセットのパフォーマンスを分析した結果、Frontier GPUはそれぞれ、AndesとFrontier CPUよりも約92%、あるいは48%高速に動作した。 さらに印象的なことに、これは、同じシミュレータとスレッド数を使用して、ローカルで非HPCシステムのランタイムを約226%高速化する。 この概念実証が将来,より集中的なハイブリッドQC/HPCスケーリング研究の動機になることを願っている。

We explored the possible benefits of integrating quantum simulators in a "hybrid" quantum machine learning (QML) workflow that uses both classical and quantum computations in a high-performance computing (HPC) environment. Here, we used two Oak Ridge Leadership Computing Facility HPC systems, Andes (a commodity-type Linux cluster) and Frontier (an HPE Cray EX supercomputer), along with quantum computing simulators from PennyLane and IBMQ to evaluate a hybrid QML program -- using a "ground up" approach. Using 1 GPU on Frontier, we found ~56% and ~77% speedups when compared to using Frontier's CPU and a local, non-HPC system, respectively. Analyzing performance on a larger dataset using multiple threads, the Frontier GPUs performed ~92% and ~48% faster than the Andes and Frontier CPUs, respectively. More impressively, this is a ~226% speedup over a local, non-HPC system's runtime using the same simulator and number of threads. We hope that this proof of concept will motivate more intensive hybrid QC/HPC scaling studies in the future.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 変形-回復拡散モデル(DRDM):画像操作と合成のためのインスタンス変形

Deformation-Recovery Diffusion Model (DRDM): Instance Deformation for Image Manipulation and Synthesis ( http://arxiv.org/abs/2407.07295v1 )

ライセンス: Link先を確認
Jian-Qing Zheng, Yuanhan Mo, Yang Sun, Jiahua Li, Fuping Wu, Ziyang Wang, Tonia Vincent, Bartłomiej W. Papież, (参考訳) 医用画像では、拡散モデルが合成画像生成タスクに大きな可能性を示している。 しかし、これらのモデルは生成された画像と既存の画像の間の解釈可能な接続に苦しむことが多く、錯覚を生じさせる可能性がある。 これらの課題に対処するために,変形拡散と回復に基づく新しい拡散モデルを提案する。 このモデルは、変形-回復拡散モデル(DRDM)と呼ばれ、従来のスコア/インテンシティと潜在特徴に基づくアプローチから分岐し、直接画像合成ではなく、変形場による形態的変化を強調する。 これは、多スケール変形ベクトル場(DVF)の集合をランダムにサンプリングして統合するトポロジ保存変形場生成法を導入することで達成される。 DRDMは、不合理な変形成分の回復を学ぶために訓練され、ランダムに変形した各画像を現実的な分布に復元する。 これらの革新は、多種多様で解剖学的に妥当な変形の生成を促進し、データ拡張と合成を強化し、少数ショット学習や画像登録などの下流タスクでさらなる分析を行う。 心MRIおよび肺CTにおける実験結果から,DRDMは多種多様(10%以上の画像サイズ変形スケール),高品質(負の折り畳み率が1%未満)の変形フィールドを生成できることが示された。 さらに,2次元画像セグメンテーションや3次元画像登録といった下流作業のさらなる実験結果から,DRDMによる大幅な改善が示され,医用画像等の画像操作や合成の進歩が期待できる。 私たちの実装はhttps://github.com/jianqingzheng/def_diff_rec.comで公開されます。

In medical imaging, the diffusion models have shown great potential in synthetic image generation tasks. However, these models often struggle with the interpretable connections between the generated and existing images and could create illusions. To address these challenges, our research proposes a novel diffusion-based generative model based on deformation diffusion and recovery. This model, named Deformation-Recovery Diffusion Model (DRDM), diverges from traditional score/intensity and latent feature-based approaches, emphasizing morphological changes through deformation fields rather than direct image synthesis. This is achieved by introducing a topological-preserving deformation field generation method, which randomly samples and integrates a set of multi-scale Deformation Vector Fields (DVF). DRDM is trained to learn to recover unreasonable deformation components, thereby restoring each randomly deformed image to a realistic distribution. These innovations facilitate the generation of diverse and anatomically plausible deformations, enhancing data augmentation and synthesis for further analysis in downstream tasks, such as few-shot learning and image registration. Experimental results in cardiac MRI and pulmonary CT show DRDM is capable of creating diverse, large (over 10% image size deformation scale), and high-quality (negative ratio of folding rate is lower than 1%) deformation fields. The further experimental results in downstream tasks, 2D image segmentation and 3D image registration, indicate significant improvements resulting from DRDM, showcasing the potential of our model to advance image manipulation and synthesis in medical imaging and beyond. Our implementation will be available at https://github.com/jianqingzheng/def_diff_rec.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 大規模言語モデルによる放射線治療における治療目標量の自動記述

Large Language Model-Augmented Auto-Delineation of Treatment Target Volume in Radiation Therapy ( http://arxiv.org/abs/2407.07296v1 )

ライセンス: Link先を確認
Praveenbalaji Rajendran, Yong Yang, Thomas R. Niedermayr, Michael Gensheimer, Beth Beadle, Quynh-Thu Le, Lei Xing, Xianjin Dai, (参考訳) 放射線療法(RT)はがんに対する最も効果的な治療法の1つであり、その成功は標的の正確な線引きに依存している。 しかし、現在ヒトの専門家による手動のプロセスに頼っている総合的な医学的判断である。 手動のデライン化は時間がかかり、手間がかかり、サーバ間のバリエーションが伴う。 人工知能(AI)技術の進歩は、正常な組織のオートコントレーションを著しく向上させたが、RTターゲットボリュームの正確なデライン化は依然として課題である。 そこで本研究では,Radformerと呼ばれる,視覚言語モデルに基づくRTターゲットボリューム自動記述ネットワークを提案する。 Radformerはヒエラリカル・ビジョン・トランスフォーマーをバックボーンとして使用し、臨床データからテキストリッチな特徴を抽出するために大きな言語モデルを組み込んでいる。 本稿では,視覚的特徴と言語的特徴を統合する視覚言語アテンションモジュール (VLAM) を提案する。 Radformerは、RTを施行した頭頸部癌患者2985名からなるデータセットで評価されている。 Dice similarity coefficient (DSC), intersection over union (IOU), and 95th percentile Hausdorff distance (HD95) などの指標を用いて,モデルの性能を定量的に評価した。 この結果、Radformerは他の最先端モデルと比較してセグメンテーション性能が優れており、RTの実践においてその可能性を検証している。

Radiation therapy (RT) is one of the most effective treatments for cancer, and its success relies on the accurate delineation of targets. However, target delineation is a comprehensive medical decision that currently relies purely on manual processes by human experts. Manual delineation is time-consuming, laborious, and subject to interobserver variations. Although the advancements in artificial intelligence (AI) techniques have significantly enhanced the auto-contouring of normal tissues, accurate delineation of RT target volumes remains a challenge. In this study, we propose a visual language model-based RT target volume auto-delineation network termed Radformer. The Radformer utilizes a hierarichal vision transformer as the backbone and incorporates large language models to extract text-rich features from clinical data. We introduce a visual language attention module (VLAM) for integrating visual and linguistic features for language-aware visual encoding (LAVE). The Radformer has been evaluated on a dataset comprising 2985 patients with head-and-neck cancer who underwent RT. Metrics, including the Dice similarity coefficient (DSC), intersection over union (IOU), and 95th percentile Hausdorff distance (HD95), were used to evaluate the performance of the model quantitatively. Our results demonstrate that the Radformer has superior segmentation performance compared to other state-of-the-art models, validating its potential for adoption in RT practice.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 原則からルールへ:フロンティアAIの規制的アプローチ

From Principles to Rules: A Regulatory Approach for Frontier AI ( http://arxiv.org/abs/2407.07300v1 )

ライセンス: Link先を確認
Jonas Schuett, Markus Anderljung, Alexis Carlier, Leonie Koessler, Ben Garfinkel, (参考訳) いくつかの管轄区域は、フロンティア人工知能(AI)システム、すなわち最も先進的なシステムに存在する能力に適合または超える汎用AIシステムを規制し始めている。 これらのシステムからのリスクを減らすために、規制当局はフロンティアAI開発者に安全対策を適用するよう要求するかもしれない。 要求は、高レベルの原則(例:「AIシステムは安全で安全」)または特定のルール(例:「AIシステムは、...のプロトコルに従って危険なモデル能力で評価されなければならない」)として定式化できる。 これらの規制アプローチは「原則ベース」および「ルールベース」規制と呼ばれ、補完的な強みと弱みを持っている。 特定のルールはより確実性を提供し、強制しやすくするが、それらはすぐに時代遅れになり、ボックスタイキングにつながる可能性がある。 逆に、ハイレベルな原則はより確実性が少なく、強制にコストがかかるが、規制当局が与えられた規制目標を最も適切に進めるための行動が明確でない状況では、より適応性が高く、より適切である。 しかし、ルールベースおよび原則ベースの規制はバイナリオプションではない。 政策立案者は、適切な特異性のレベルが要件と時間とともに変化する可能性があることを認識して、それらの間のスペクトルの点を選択する必要がある。 政策立案者は、まず、(1)安全フロンティアAI開発・展開のための高水準原則の遵守を義務付け、(2)規制当局がデベロッパーがこれらの原則にどう準拠しているかを厳格に監視し、(3)規制能力の即時化を図ることを推奨する。 時間が経つにつれて、このアプローチはよりルールベースのものになるでしょう。 私たちのレコメンデーションは、(A)フロンティアAIシステムからのリスクの理解が不十分で、急速に進化している、(B)多くの安全プラクティスはまだ初期段階であり、(C)フロンティアAI開発者は、安全プラクティスの革新に最適です。

Several jurisdictions are starting to regulate frontier artificial intelligence (AI) systems, i.e. general-purpose AI systems that match or exceed the capabilities present in the most advanced systems. To reduce risks from these systems, regulators may require frontier AI developers to adopt safety measures. The requirements could be formulated as high-level principles (e.g. 'AI systems should be safe and secure') or specific rules (e.g. 'AI systems must be evaluated for dangerous model capabilities following the protocol set forth in...'). These regulatory approaches, known as 'principle-based' and 'rule-based' regulation, have complementary strengths and weaknesses. While specific rules provide more certainty and are easier to enforce, they can quickly become outdated and lead to box-ticking. Conversely, while high-level principles provide less certainty and are more costly to enforce, they are more adaptable and more appropriate in situations where the regulator is unsure exactly what behavior would best advance a given regulatory objective. However, rule-based and principle-based regulation are not binary options. Policymakers must choose a point on the spectrum between them, recognizing that the right level of specificity may vary between requirements and change over time. We recommend that policymakers should initially (1) mandate adherence to high-level principles for safe frontier AI development and deployment, (2) ensure that regulators closely oversee how developers comply with these principles, and (3) urgently build up regulatory capacity. Over time, the approach should likely become more rule-based. Our recommendations are based on a number of assumptions, including (A) risks from frontier AI systems are poorly understood and rapidly evolving, (B) many safety practices are still nascent, and (C) frontier AI developers are best placed to innovate on safety practices.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 教師なし実世界の超解像のためのペアワイズ距離蒸留法

Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution ( http://arxiv.org/abs/2407.07302v1 )

ライセンス: Link先を確認
Yuehan Zhang, Seungjun Lee, Angela Yao, (参考訳) 標準のシングルイメージスーパー解像度は、固定されたダウンサンプリングカーネルを通して高解像度画像からペア化されたトレーニングデータを生成する。 しかし、実世界の超解像(RWSR)は、ペアのトレーニングデータがないにもかかわらず、低分解能入力における未知の劣化に直面している。 既存の手法では、学習インプットの複雑な合成拡張を通じて視覚的一般モデルを学習することでこの問題にアプローチしている。 本稿では,教師なしのRWSRを現実の劣化のターゲットとして扱う。 我々は蒸留の観点から研究を行い、新しいペアワイズ蒸留フレームワークを導入する。 本研究の枠組みを通じて, モデル内およびモデル間距離を蒸留することにより, 合成劣化を専門とするモデルが現実の劣化に適応し, 補助的な一般化モデルが得られた。 多様なデータセットに対する実験により,RWSRの最先端アプローチを超越して,本手法は忠実度と知覚的品質を著しく向上することが示された。 ソースコードはhttps://github.com/Yuehan717/PDD.comで入手できる。

Standard single-image super-resolution creates paired training data from high-resolution images through fixed downsampling kernels. However, real-world super-resolution (RWSR) faces unknown degradations in the low-resolution inputs, all the while lacking paired training data. Existing methods approach this problem by learning blind general models through complex synthetic augmentations on training inputs; they sacrifice the performance on specific degradation for broader generalization to many possible ones. We address the unsupervised RWSR for a targeted real-world degradation. We study from a distillation perspective and introduce a novel pairwise distance distillation framework. Through our framework, a model specialized in synthetic degradation adapts to target real-world degradations by distilling intra- and inter-model distances across the specialized model and an auxiliary generalized model. Experiments on diverse datasets demonstrate that our method significantly enhances fidelity and perceptual quality, surpassing state-of-the-art approaches in RWSR. The source code is available at https://github.com/Yuehan717/PDD.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# CPU上の大規模言語モデルの推論性能最適化

Inference Performance Optimization for Large Language Models on CPUs ( http://arxiv.org/abs/2407.07304v1 )

ライセンス: Link先を確認
Pujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる優れたパフォーマンスと大きな潜在能力を示している。 しかし、低リソース環境におけるLCMの高パフォーマンス展開は、業界において大きな注目を集めている。 GPUハードウェアリソースが限られている場合、CPU上の代替オプションを検討することができます。 ハードウェア資源の負担を軽減し、制約を軽減するためには、推論性能の最適化が必要である。 本稿では,CPU上でのLCMの高速化を目的とした,容易にデプロイ可能な推論性能最適化ソリューションを提案する。 そこで本研究では,KVキャッシュの精度を確保しつつ,KVキャッシュサイズを効果的に削減する手法を提案する。 分散推論最適化手法を提案し,OneAPI Collective Communications Libraryに基づいて実装する。 さらに、CPU上でのLLMの最適化手法を提案し、最も一般的に使用されるモデルの最適化を行う。 コードはhttps://github.com/intel/xFasterTransformerで公開されている。

Large language models (LLMs) have shown exceptional performance and vast potential across diverse tasks. However, the deployment of LLMs with high performance in low-resource environments has garnered significant attention in the industry. When GPU hardware resources are limited, we can explore alternative options on CPUs. To mitigate the financial burden and alleviate constraints imposed by hardware resources, optimizing inference performance is necessary. In this paper, we introduce an easily deployable inference performance optimization solution aimed at accelerating LLMs on CPUs. In this solution, we implement an effective way to reduce the KV cache size while ensuring precision. We propose a distributed inference optimization approach and implement it based on oneAPI Collective Communications Library. Furthermore, we propose optimization approaches for LLMs on CPU, and conduct tailored optimizations for the most commonly used models. The code is open-sourced at https://github.com/intel/xFasterTransformer.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# スペクトルスーパートークンを用いたデュアルステージハイパースペクトル画像分類モデル

Dual-stage Hyperspectral Image Classification Model with Spectral Supertoken ( http://arxiv.org/abs/2407.07307v1 )

ライセンス: Link先を確認
Peifu Liu, Tingfa Xu, Jie Wang, Huan Chen, Huiyan Bai, Jianan Li, (参考訳) ハイパースペクトル画像分類(Hyperspectral image classification)は、リモートセンシングシーンのハイパースペクトル画像において、各ピクセルに予め定義されたクラスを割り当てるタスクであり、スペクトル的に類似したピクセル間の相関が無視されているため、しばしば課題に直面している。 この監視は、不正確なエッジ定義と、連続した領域における小さなスペクトル変動を管理するのに困難をもたらす可能性がある。 これらの問題に対処するために、スーパーピクセルの概念に触発された新しいDual-stage Spectral Supertoken Classifier (DSTC)を紹介する。 DSTCはスペクトル微分に基づく画素クラスタリングを用いて、類似のスペクトル特性を持つグループ画素をスペクトルスーパートーケンに分類する。 これらのトークンの分類を画像空間に投影することにより、局所的な分類一貫性と正確な境界を維持するピクセルレベルの結果が得られる。 さらに,トークン内の多様性を認識し,クラスプロポーションに基づくソフトラベルを提案する。 このラベルは、その頻度に基づいて異なるカテゴリに重みを適応的に割り当て、データ分散の不均衡を効果的に管理し、分類性能を向上させる。 WHU-OHS、IP、KSC、UPデータセットに関する総合的な実験は、DSTCの堅牢な分類能力とその個々のコンポーネントの有効性を裏付ける。 コードはhttps://github.com/laprf/DSTC.comで公開される。

Hyperspectral image classification, a task that assigns pre-defined classes to each pixel in a hyperspectral image of remote sensing scenes, often faces challenges due to the neglect of correlations between spectrally similar pixels. This oversight can lead to inaccurate edge definitions and difficulties in managing minor spectral variations in contiguous areas. To address these issues, we introduce the novel Dual-stage Spectral Supertoken Classifier (DSTC), inspired by superpixel concepts. DSTC employs spectrum-derivative-based pixel clustering to group pixels with similar spectral characteristics into spectral supertokens. By projecting the classification of these tokens onto the image space, we achieve pixel-level results that maintain regional classification consistency and precise boundary. Moreover, recognizing the diversity within tokens, we propose a class-proportion-based soft label. This label adaptively assigns weights to different categories based on their prevalence, effectively managing data distribution imbalances and enhancing classification performance. Comprehensive experiments on WHU-OHS, IP, KSC, and UP datasets corroborate the robust classification capabilities of DSTC and the effectiveness of its individual components. Code will be publicly available at https://github.com/laprf/DSTC.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# BoostCom: ワードワイド比較を強化した効率的なユニバーサル完全同型暗号化

BoostCom: Towards Efficient Universal Fully Homomorphic Encryption by Boosting the Word-wise Comparisons ( http://arxiv.org/abs/2407.07308v1 )

ライセンス: Link先を確認
Ardhi Wiratama Baskara Yudha, Jiaqi Xue, Qian Lou, Huiyang Zhou, Yan Solihin, (参考訳) 完全同型暗号化(FHE)は、最初に復号化することなく、暗号化されたデータ上での計算の実行を可能にする。 BGVのような算術ベースのFHEスキーム(ar-FHE)は、TFHEのような非算術的なFHE(na-FHE)スキームよりも、特に値の比較、最大値の検索、最小値の検索といった基本的なタスクにおいて、ワードワイズ比較操作においてより優れた性能を示す。 これは算術演算と非算術演算の両方を、算術演算と非算術演算の間の高価な変換なしで効果的に処理するar-FHEの普遍性を示している。 普遍算術の完全同型暗号を uFHE と呼ぶ。 uFHEの算術演算は、大きな加速が見られた元の算術演算 FHE の算術演算と一致している。 しかし、その非算術的な比較操作は違い、遅く、徹底的に研究あるいは加速されていない。 本稿では,単語比較処理を高速化し,uFHEシステムの効率を向上させる手法であるBoostComを紹介する。 BoostComは、インフラストラクチャアクセラレーション(マルチレベル異種並列化とGPU関連の改善)やアルゴリズム対応の最適化(スロット圧縮、ノンブロッキング比較セマンティクス)を含むマルチプロング最適化を含んでいる。 BoostComは、最先端のCPUベースのuFHEシステムと比較して、1桁(11.1倍高速)以上のエンドツーエンドのパフォーマンス向上を実現している。

Fully Homomorphic Encryption (FHE) allows for the execution of computations on encrypted data without the need to decrypt it first, offering significant potential for privacy-preserving computational operations. Emerging arithmetic-based FHE schemes (ar-FHE), like BGV, demonstrate even better performance in word-wise comparison operations over non-arithmetic FHE (na-FHE) schemes, such as TFHE, especially for basic tasks like comparing values, finding maximums, and minimums. This shows the universality of ar-FHE in effectively handling both arithmetic and non-arithmetic operations without the expensive conversion between arithmetic and non-arithmetic FHEs. We refer to universal arithmetic Fully Homomorphic Encryption as uFHE. The arithmetic operations in uFHE remain consistent with those in the original arithmetic FHE, which have seen significant acceleration. However, its non-arithmetic comparison operations differ, are slow, and have not been as thoroughly studied or accelerated. In this paper, we introduce BoostCom, a scheme designed to speed up word-wise comparison operations, enhancing the efficiency of uFHE systems. BoostCom involves a multi-prong optimizations including infrastructure acceleration (Multi-level heterogeneous parallelization and GPU-related improvements), and algorithm-aware optimizations (slot compaction, non-blocking comparison semantic). Together, BoostCom achieves an end-to-end performance improvement of more than an order of magnitude (11.1x faster) compared to the state-of-the-art CPU-based uFHE systems, across various FHE parameters and tasks.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# ViTime: 時系列予測のためのビジュアルインテリジェンスベースの基礎モデル

ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting ( http://arxiv.org/abs/2407.07311v1 )

ライセンス: Link先を確認
Luoxiao Yang, Yun Wang, Xinqi Fan, Israel Cohen, Yue Zhao, Zijun Zhang, (参考訳) 自然言語処理(NLP)とコンピュータビジョン(CV)における大規模事前学習モデルの成功は、時系列予測(TSF)の基礎モデルを構築するための新たな道を開いた。 伝統的なTSFファンデーションモデルは数値データフィッティングに大きく依存している。 対照的に、人間の脳は視覚情報を処理するのに本質的に熟練しており、可視化されたシーケンスを観察することで将来のトレンドを予測することを好む。 生体模倣の観点からは、数値シーケンスを直接処理するモデルを活用することは、人工知能(AGI)を実現するための最も効果的な方法ではないかもしれない。 本稿では,TSFのための新しいビジュアルインテリジェンスベース基盤モデルであるViTimeを提案する。 ViTimeは、ビジュアルデータ処理パラダイムを活用することで、数値時系列データフィッティングの限界を克服し、Real Time Series (RealTS)と呼ばれるトレーニング中に革新的なデータ合成手法を採用する。 これまで目にしなかったさまざまな予測データセットの実験は、ViTimeが最先端のゼロショットのパフォーマンスを達成し、いくつかの状況において最高のトレーニングを受けた教師付きモデルを超えていることを示している。 これらの結果は、視覚知能は時系列解析と予測を大幅に向上させ、現場におけるより高度で多目的なモデルへの道を開くことを示唆している。 私たちのフレームワークのコードはhttps://github.com/IkeYang/ViTime.comでアクセスできます。

The success of large pretrained models in natural language processing (NLP) and computer vision (CV) has opened new avenues for constructing foundation models for time series forecasting (TSF). Traditional TSF foundation models rely heavily on numerical data fitting. In contrast, the human brain is inherently skilled at processing visual information, prefer predicting future trends by observing visualized sequences. From a biomimetic perspective, utilizing models to directly process numerical sequences might not be the most effective route to achieving Artificial General Intelligence (AGI). This paper proposes ViTime, a novel Visual Intelligence-based foundation model for TSF. ViTime overcomes the limitations of numerical time series data fitting by utilizing visual data processing paradigms and employs a innovative data synthesis method during training, called Real Time Series (RealTS). Experiments on a diverse set of previously unseen forecasting datasets demonstrate that ViTime achieves state-of-the-art zero-shot performance, even surpassing the best individually trained supervised models in some situations. These findings suggest that visual intelligence can significantly enhance time series analysis and forecasting, paving the way for more advanced and versatile models in the field. The code for our framework is accessible at https://github.com/IkeYang/ViTime.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# ESM+:大規模言語モデルの時代におけるテキスト-SQL評価の展望

ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models ( http://arxiv.org/abs/2407.07313v1 )

ライセンス: Link先を確認
Benjamin Ascoli, Ram Kandikonda, Jinho D. Choi, (参考訳) Text-to-SQLのタスクにより、誰でも自然言語を使ってSQLデータベースから情報を検索できる。 いくつかの課題にもかかわらず、近年のモデルは、大きな言語モデル(LLM)を使用して、このタスクにおいて顕著な進歩を遂げている。 興味深いことに, 微調整のないLCMモデルでは, 微調整したモデルと比較すると, 異なる特性を示すことが判明した。 そこで,テストスイート実行精度 (EXE) と実行セットマッチング精度 (ESM) の2つの主要な指標を分析し,その頑健さを検証し,問題点に対処する。 従来のESMであるEXEと改良ESM(ESM+)を用いて,9LLMモデルの性能を比較した。 以上の結果から,EXE と ESM の偽陽性率は 11.3% と 13.9% であり,ESM+ はそれぞれ 0.1% と 2.6% であり,より安定した評価が得られた。 ESM+スクリプトをコミュニティがコントリビュートするためのオープンソースとしてリリースし、Text-to-SQLをより信頼性の高い評価を享受しています。

The task of Text-to-SQL enables anyone to retrieve information from SQL databases using natural language. Despite several challenges, recent models have made remarkable advancements in this task using large language models (LLMs). Interestingly, we find that LLM-based models without fine-tuning exhibit distinct natures compared to their fine-tuned counterparts, leading to inadequacies in current evaluation metrics to accurately convey their performance. Thus, we analyze the two primary metrics, Test Suite Execution Accuracy (EXE) and Exact Set Matching Accuracy (ESM), to examine their robustness for this task and address shortcomings. We compare the performance of 9 LLM-based models using EXE, the original ESM, and our improved ESM (called ESM+). Our results show that EXE and ESM have high false positive and negative rates of 11.3% and 13.9%, while ESM+ gives those of 0.1% and 2.6% respectively, providing a significantly more stable evaluation. We release the ESM+ script as open-source for the community to contribute, while enjoying a more reliable assessment of Text-to-SQL.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# CosmoCLIP:天文学的イメージングのための大規模視線モデル

CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging ( http://arxiv.org/abs/2407.07315v1 )

ライセンス: Link先を確認
Raza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray, (参考訳) 既存の視覚テキストコントラスト学習モデルは、表現伝達可能性を高め、無関係なペアを押し分けながら、ペア画像とキャプション埋め込みをマッチングすることでゼロショット予測をサポートする。 しかし、天文学的な画像ラベルデータセットは、インターネットから入手可能な一般的な画像やラベルデータセットに比べて大幅に小さくなっている。 本研究では、SpaceNetとBLIPベースのキャプションを用いて、事前学習したCLIPモデルに基づいて精密に微調整された、天文学的な画像テキストコントラスト学習フレームワークであるCosmoCLIPを紹介する。 BLIPは豊富な知識抽出器として機能するのに対し、SpaceNetはFLAREによって達成され、13kの最適分散画像を構成する。 このSpaceNetとBLIP記述から派生したリッチなセマンティクスは、対照的に学習すると、CosmoCLIPが様々なドメイン内およびドメイン外タスクにまたがる優れた一般化を実現することができる。 以上の結果から,CosmoCLIPは直接的かつ強力なフレームワークであり,ゼロショット分類や画像テキスト検索タスクにおいてCLIPを著しく上回っていることが明らかとなった。

Existing vision-text contrastive learning models enhance representation transferability and support zero-shot prediction by matching paired image and caption embeddings while pushing unrelated pairs apart. However, astronomical image-label datasets are significantly smaller compared to general image and label datasets available from the internet. We introduce CosmoCLIP, an astronomical image-text contrastive learning framework precisely fine-tuned on the pre-trained CLIP model using SpaceNet and BLIP-based captions. SpaceNet, attained via FLARE, constitutes ~13k optimally distributed images, while BLIP acts as a rich knowledge extractor. The rich semantics derived from this SpaceNet and BLIP descriptions, when learned contrastively, enable CosmoCLIP to achieve superior generalization across various in-domain and out-of-domain tasks. Our results demonstrate that CosmoCLIP is a straightforward yet powerful framework, significantly outperforming CLIP in zero-shot classification and image-text retrieval tasks.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 希少イベントへのフロー:自動車両検証のための時間的重要度サンプリングにおける正規化フローの適用

Flow to Rare Events: An Application of Normalizing Flow in Temporal Importance Sampling for Automated Vehicle Validation ( http://arxiv.org/abs/2407.07320v1 )

ライセンス: Link先を確認
Yichun Ye, He Zhang, Ye Tian, Jian Sun, (参考訳) シミュレーションテストに基づく自動走行車(AV)の検証には、偏りのない評価と高い効率が必要である。 効果的な解決策の1つは、確率測度を再重み付けしながら危険なまれな事象への曝露を増やすことである。 しかし, リスク事象の分布の特徴付けは, サンプルの明度と連続シナリオ変数の時間性のために特に困難である。 そこで我々は,リスクの高いまれな事象の分布を表現し,生成し,再重み付けする手法を考案した。 連続変数の時間的進化を条件付き確率に基づいて分布成分に分解する。 リスク指標関数を導入することにより、リスクのあるまれな事象の分布は、自然主義的な運転分布から理論的に推測される。 このターゲット分布は正規化フローによって現実的に生成され、複雑な分布の正確かつ抽出可能な確率評価が達成される。 希少事象分布は、有利なImportance Smpling分布として示される。 また、時間的重要度サンプリングの手法も推進する。 乗用車追従シナリオの衝突速度を仮のプラクティスとして推定する。 その結果、希少な事象分布から背景車両の操作をサンプリングすることで、テストシナリオを危険状態へと進化させる可能性が示唆された。 TrimFlowは、自然主義運転環境への露出に応じてテストシナリオを生成するのと比べて86.1%のテストを削減した。 さらに、TrimFlowメソッドは特定の機能シナリオに限らない。

Automated Vehicle (AV) validation based on simulated testing requires unbiased evaluation and high efficiency. One effective solution is to increase the exposure to risky rare events while reweighting the probability measure. However, characterizing the distribution of risky events is particularly challenging due to the paucity of samples and the temporality of continuous scenario variables. To solve it, we devise a method to represent, generate, and reweight the distribution of risky rare events. We decompose the temporal evolution of continuous variables into distribution components based on conditional probability. By introducing the Risk Indicator Function, the distribution of risky rare events is theoretically precipitated out of naturalistic driving distribution. This targeted distribution is practically generated via Normalizing Flow, which achieves exact and tractable probability evaluation of intricate distribution. The rare event distribution is then demonstrated as the advantageous Importance Sampling distribution. We also promote the technique of temporal Importance Sampling. The combined method, named as TrimFlow, is executed to estimate the collision rate of Car-following scenarios as a tentative practice. The results showed that sampling background vehicle maneuvers from rare event distribution could evolve testing scenarios to hazardous states. TrimFlow reduced 86.1% of tests compared to generating testing scenarios according to their exposure in the naturalistic driving environment. In addition, the TrimFlow method is not limited to one specific type of functional scenario.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# RAG vs. ロングコンテキスト:環境レビュー文書理解のためのフロンティア大言語モデルの検討

RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension ( http://arxiv.org/abs/2407.07321v1 )

ライセンス: Link先を確認
Hung Phan, Anurag Acharya, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana, (参考訳) 大規模言語モデル(LLM)は、様々な領域にわたる多くの研究問題に適用されている。 LLMsの応用の1つは、異なる分野のユーザーを対象にした質問応答システムを提供することである。 LLMに基づく質問応答システムの有効性は、トリビアや文学などの大衆や公共の領域で質問を発するユーザに対して、すでに許容できるレベルに確立されている。 しかし、伝統的に専門的な専門知識を必要とするニッチなドメインでは確立されていないことが多い。 この目的のために、米国連邦政府が国立環境環境法(NEPA)に従って作成した環境影響評価書から発せられる質問に答える際、NEPAQuAD1.0ベンチマークを構築し、3つのフロンティアLCM(Claude Sonnet, Gemini, GPT-4)の性能を評価する。 NEPA文書に存在する法律・技術・コンプライアンス関連情報のニュアンスを、異なる状況下で理解するLLMの能力を具体的に測定する。 例えば、LLMの内部的なNAEPA知識を文脈のない質問を提供することでテストし、LLMが長いNAEPA文書に存在するコンテキスト情報をどのように合成し、質問/回答作業を容易にするかを評価する。 本研究では,LLM とRAG を用いた様々な質問(例えば,問題解決,発散)の処理において,LLM とRAG を併用したモデルの性能を比較した。 以上の結果から, RAG を用いたモデルでは,フロンティア LLM の選択によらず, 解答精度において, 長い文脈モデルよりも有意に優れていたことが示唆された。 さらに分析した結果,多くのモデルでは,解答問題や解答問題よりもクローズドな解答の方が優れていることがわかった。

Large Language Models (LLMs) have been applied to many research problems across various domains. One of the applications of LLMs is providing question-answering systems that cater to users from different fields. The effectiveness of LLM-based question-answering systems has already been established at an acceptable level for users posing questions in popular and public domains such as trivia and literature. However, it has not often been established in niche domains that traditionally require specialized expertise. To this end, we construct the NEPAQuAD1.0 benchmark to evaluate the performance of three frontier LLMs -- Claude Sonnet, Gemini, and GPT-4 -- when answering questions originating from Environmental Impact Statements prepared by U.S. federal government agencies in accordance with the National Environmental Environmental Act (NEPA). We specifically measure the ability of LLMs to understand the nuances of legal, technical, and compliance-related information present in NEPA documents in different contextual scenarios. For example, we test the LLMs' internal prior NEPA knowledge by providing questions without any context, as well as assess how LLMs synthesize the contextual information present in long NEPA documents to facilitate the question/answering task. We compare the performance of the long context LLMs and RAG powered models in handling different types of questions (e.g., problem-solving, divergent). Our results suggest that RAG powered models significantly outperform the long context models in the answer accuracy regardless of the choice of the frontier LLM. Our further analysis reveals that many models perform better answering closed questions than divergent and problem-solving questions.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# 大学生のソフトウェア工学教育への人間中心的アプローチの統合:オーストラリアにおけるスコープレビューとカリキュラム分析

Integrating Human-Centric Approaches into Undergraduate Software Engineering Education: A Scoping Review and Curriculum Analysis in the Australian Context ( http://arxiv.org/abs/2407.07322v1 )

ライセンス: Link先を確認
Sophie McKenzie, Xiao Lui, (参考訳) ヒューマン・センター・ソフトウェア・エンジニアリング(Human-Centric Software Engineering、HCSE)とは、ソフトウェア開発ライフサイクルを通じて、人のニーズと要求をコアプラクティスとして位置づけるソフトウェア工学(SE)プロセスのこと。 ソフトウェアプロジェクトの大部分が人的ニーズに対応できず、結果として予算やデリバリ、ユーザビリティの問題に陥ります。 人間中心のソフトウェアエンジニアリングプラクティスをサポートするためには、大学が学生に人間のニーズをどのように考えるかを教えることが重要である。 しかし、学部のカリキュラムでHCSEから得られるトピックは何か? ソフトウェアエンジニアリングのカリキュラムガイドラインは利用可能だが、ヒューマンファクターに関する最新の考察を反映していない。 そこで本研究では,HCSEの授業に適したトピックとカリキュラムのアプローチを,大学院ソフトウェア工学の学生に提示する。 PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews) のプロトコルに従ってスコーピングレビューを行った。 PRISMA-ScRを通じて、36のカンファレンスまたはジャーナル論文が分析に有効であると認識され、ソフトウェア工学を教えるためのトピックやカリキュラムのアプローチを記述する5つの一般的なテーマが見つかった。 また,スコーピングレビューの結果を用いて,オーストラリア・ソフトウェア工学のカリキュラムを解析し,人間の中心となるソフトウェア工学のトピックがコース構造に足場を組む程度について考察する。 本稿では,ソフトウェア工学のプロセスに沿った学部課程のトピックスキャフォールディングを提案する。 全体として、HCSEのトピックとカリキュラムのアプローチに焦点をあてることで、HCSEの現在および将来のソフトウェアエンジニアへの教育が増加し、すべてのステークホルダーにとってのソフトウェアプロジェクトの成功に長期的な影響をもたらします。

Human-Centric Software Engineering (HCSE) refers to the software engineering (SE) processes that put human needs and requirements as core practice throughout the software development life cycle. A large majority of software projects fail to cater to human needs and consequently run into budget, delivery, and usability issues. To support human-centric software engineering practices, it is important for universities to train their students on how to consider human needs. But what topics from HCSE should be provided in the undergraduate curriculum? Curriculum guidelines for software engineering are available, however do not represent update to date considerations for human-factors. To address this issue, this paper presents a scoping review to identify the topics and curriculum approaches suitable for teaching HCSE to undergraduate software engineering students. The scoping review was conducted according to the protocol by PRISMA-ScR (Preferred Reporting Items for Systematic reviews and Meta-Analyses extension for Scoping Reviews). Through PRISMA-ScR, a total of 36 conference or journal papers were identified as viable for analysis,with 5 common themes found that describe topics and curriculum approaches relevant for teaching software engineering. Using the outcomes of the scoping review, this paper also analyses the Australian Software Engineering curriculum to understand the extent at which human centred software engineering topics are scaffolded into course structures. This paper concludes by suggesting topic scaffolding for the undergraduate curriculum that aligns with the software engineering process. Overall, by providing a focus on HCSE topics and curriculum approaches, the education of HCSE among current and future software engineers can increase, leading to long-term impact on the success of software projects for all stakeholders.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# イベント支援による自律走行の時間対衝突推定

Event-Aided Time-to-Collision Estimation for Autonomous Driving ( http://arxiv.org/abs/2407.07324v1 )

ライセンス: Link先を確認
Jinghang Li, Bangyan Liao, Xiuyuan LU, Peidong Liu, Shaojie Shen, Yi Zhou, (参考訳) 先導車との潜在的な衝突を予測することは、自律/アシスト運転システムにとって不可欠な機能である。 既存のビジョンベースのソリューションのボトルネックのひとつは、更新レートが標準カメラのフレームレートに制限されていることだ。 本稿では,生体に触発された視覚センサであるニューロモルフィック・イベントベースカメラを用いて衝突時刻を推定する手法を提案する。 提案アルゴリズムの中核は、粗大な方法でイベントデータに適合する効率的かつ正確な幾何モデルに対する2段階のアプローチである。 最初のステップは、イベントベース正規流の部分的観測可能性を克服する新しい幾何学的計測に基づいて、堅牢な線形解法である。 第2のステップでは、非線形最適化問題として定式化された時空間登録プロセスを通じて、結果のモデルをさらに洗練する。 合成データと実データの両方の実験により提案手法の有効性が示され、効率と精度の点で他の方法よりも優れていた。

Predicting a potential collision with leading vehicles is an essential functionality of any autonomous/assisted driving system. One bottleneck of existing vision-based solutions is that their updating rate is limited to the frame rate of standard cameras used. In this paper, we present a novel method that estimates the time to collision using a neuromorphic event-based camera, a biologically inspired visual sensor that can sense at exactly the same rate as scene dynamics. The core of the proposed algorithm consists of a two-step approach for efficient and accurate geometric model fitting on event data in a coarse-to-fine manner. The first step is a robust linear solver based on a novel geometric measurement that overcomes the partial observability of event-based normal flow. The second step further refines the resulting model via a spatio-temporal registration process formulated as a nonlinear optimization problem. Experiments on both synthetic and real data demonstrate the effectiveness of the proposed method, outperforming other alternative methods in terms of efficiency and accuracy.
翻訳日:2024-07-11 18:11:16 公開日:2024-07-10
# HiLight: Motern AIビデオ言語モデルに関する技術レポート

HiLight: Technical Report on the Motern AI Video Language Model ( http://arxiv.org/abs/2407.07325v1 )

ライセンス: Link先を確認
Zhiting Wang, Qiangong Zhou, Kangjie Yang, Zongyang Liu. Xin Mao, (参考訳) 本技術報告では,ビデオテキストアライメントのための最先端ビデオエンコーダと,デュアルビジュアルタワーを備えたHiLightと呼ばれるビデオ会話フレームワークの実装について述べる。 作業内容は,ビデオとテキストのモダリティのアライメント,ユーザとの対話の持続的かつ効率的な方法の2つに分けられる。 我々のゴールはビリヤードの文脈におけるビデオ理解の課題に対処することである。 このレポートには、タスクの実装時に開発された概念と最終ソリューションに関する議論が含まれている。

This technical report presents the implementation of a state-of-the-art video encoder for video-text modal alignment and a video conversation framework called HiLight, which features dual visual towers. The work is divided into two main parts: 1.alignment of video and text modalities; 2.convenient and efficient way to interact with users. Our goal is to address the task of video comprehension in the context of billiards. The report includes a discussion of the concepts and the final solution developed during the task's implementation.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# Fuse, Reason and Verify:図表からパースクロースを抽出する幾何学的問題

Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram ( http://arxiv.org/abs/2407.07327v1 )

ライセンス: Link先を確認
Ming-Liang Zhang, Zhong-Zhi Li, Fei Yin, Liang Lin, Cheng-Lin Liu, (参考訳) 幾何学的問題解決(GPS)には、多モーダル理解、マルチホップ推論、定理知識の適用能力が必要である。 本稿では,PGPSNet-v2と呼ばれる平面幾何学的問題解決のためのニューラルシンボリックモデルを提案する。 モーダル融合では,テクスチャ節を利用して幾何学図の微細な構造的・意味的内容を表現する。 推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。 解の誤差を低減するために, 幾何原理に合わない解を除去し, ニューラルモデルの幻覚を緩和する多段階定理検証器を提案する。 PGPS9Kと呼ばれる大規模幾何学問題データセットも構築し、テキスト節の細かいアノテーション、解法プログラム、関連する知識タプルを含む。 Geometry3KとPGPS9Kの大規模な実験により、我々のPGPSNetソルバはGPS性能において既存のシンボルやニューラルソルバよりも優れており、優れた説明可能性と信頼性を維持し、ソルバコンポーネント(融合、推論、検証)はすべて正当であることが示された。

Geometry problem solving (GPS) requires capacities of multi-modal understanding, multi-hop reasoning and theorem knowledge application. In this paper, we propose a neural-symbolic model for plane geometry problem solving (PGPS), named PGPSNet-v2, with three key steps: modal fusion, reasoning process and knowledge verification. In modal fusion, we leverage textual clauses to express fine-grained structural and semantic content of geometry diagram, and fuse diagram with textual problem efficiently through structural-semantic pre-training. For reasoning, we design an explicable solution program to describe the geometric reasoning process, and employ a self-limited decoder to generate solution program autoregressively. To reduce solution errors, a multi-level theorem verifier is proposed to eliminate solutions that do not match geometric principles, alleviating the hallucination of the neural model. We also construct a large-scale geometry problem dataset called PGPS9K, containing fine-grained annotations of textual clauses, solution program and involved knowledge tuples. Extensive experiments on datasets Geometry3K and PGPS9K show that our PGPSNet solver outperforms existing symbolic and neural solvers in GPS performance, while maintaining good explainability and reliability, and the solver components (fusion, reasoning, verification) are all justified effective.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# CATP : 競合共生を伴う文脈認識軌道予測

CATP: Context-Aware Trajectory Prediction with Competition Symbiosis ( http://arxiv.org/abs/2407.07328v1 )

ライセンス: Link先を確認
Jiang Wu, Dongyu Liu, Yuchen Lin, Yingcai Wu, (参考訳) 文脈情報は正確な軌道予測に不可欠である。 例えば、渡り鳥の複雑な飛行行動は、風向や空気圧といった環境条件の分析に基づいている。 しかし、文脈情報の多様でダイナミックな性質は、AIモデルにとって、その軌道への影響を理解し、その結果、それらを正確に予測する困難なタスクである。 この問題に対処するために、文脈情報の全潜在性を解き明かし、文脈認識軌道予測のためのフレームワークの実装であるCATPモデルを構築するための ``manager-worker'' フレームワークを提案する。 このフレームワークは、マネージャモデル、複数のワーカーモデル、および自然界の競争共生にインスパイアされた調整されたトレーニングメカニズムから構成される。 例えば、CATPを例にとると、各ワーカーはデータをトレーニングするために他の人と競争し、特定の動きパターンを予測する利点を育む必要があります。 マネージャは、異なるコンテキストで労働者のパフォーマンスを学習し、与えられたコンテキストの中で最良のものを選択して軌道を予測することで、CATP全体を共生的に操作することができる。 提案するフレームワークとCATPモデルを定量的に評価するために,2つの比較実験とアブレーション試験を行った。 その結果、CATPはSOTAモデルより優れており、フレームワークは異なるコンテキスト対応タスクに一般化できることがわかった。

Contextual information is vital for accurate trajectory prediction. For instance, the intricate flying behavior of migratory birds hinges on their analysis of environmental cues such as wind direction and air pressure. However, the diverse and dynamic nature of contextual information renders it an arduous task for AI models to comprehend its impact on trajectories and consequently predict them accurately. To address this issue, we propose a ``manager-worker'' framework to unleash the full potential of contextual information and construct CATP model, an implementation of the framework for Context-Aware Trajectory Prediction. The framework comprises a manager model, several worker models, and a tailored training mechanism inspired by competition symbiosis in nature. Taking CATP as an example, each worker needs to compete against others for training data and develop an advantage in predicting specific moving patterns. The manager learns the workers' performance in different contexts and selects the best one in the given context to predict trajectories, enabling CATP as a whole to operate in a symbiotic manner. We conducted two comparative experiments and an ablation study to quantitatively evaluate the proposed framework and CATP model. The results showed that CATP could outperform SOTA models, and the framework could be generalized to different context-aware tasks.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 大規模言語モデルにおける相同性バイアスの相違点の脆さの確率

Probability of Differentiation Reveals Brittleness of Homogeneity Bias in Large Language Models ( http://arxiv.org/abs/2407.07329v1 )

ライセンス: Link先を確認
Messi H. J. Lee, Calvin K. Lai, (参考訳) LLM(Large Language Models)における均一性バイアス(英語版)とは、ある集団の表現を他と比較して均質化する傾向を指す。 このバイアスを文書化する以前の研究は、主にエンコーダモデルを使用しており、それは必然的にバイアスを導入した可能性がある。 この制限に対処するため, GPT-4では, 個人が状況をどのように認識するかに影響を及ぼす環境の, 特定の, 測定可能な要素である18の状況条件に関連する単一単語/表現完了を生成するように促した。 このアプローチは、エンコーダモデルをバイパスして、モデルの出力から均一性バイアスを直接評価する。 5つの研究で、同質性バイアスは状況の手がかりや書込みのプロンプトで非常に揮発性が高く、過去の研究で観察されたバイアスはLLMよりもエンコーダモデル内でのバイアスを反映している可能性が示唆された。 さらに, これらの結果から, LLMの均質性バイアスは不安定であり, プロンプトの微妙な変化や任意の変化さえもバイアスの表現を著しく変化させることが示唆された。 今後の研究は、より長いテキスト世代における構文的特徴の変動とトピックの選択がLLMの均質性バイアスにどのように影響するかをさらに検討する必要がある。

Homogeneity bias in Large Language Models (LLMs) refers to their tendency to homogenize the representations of some groups compared to others. Previous studies documenting this bias have predominantly used encoder models, which may have inadvertently introduced biases. To address this limitation, we prompted GPT-4 to generate single word/expression completions associated with 18 situation cues - specific, measurable elements of environments that influence how individuals perceive situations and compared the variability of these completions using probability of differentiation. This approach directly assessed homogeneity bias from the model's outputs, bypassing encoder models. Across five studies, we find that homogeneity bias is highly volatile across situation cues and writing prompts, suggesting that the bias observed in past work may reflect those within encoder models rather than LLMs. Furthermore, these results suggest that homogeneity bias in LLMs is brittle, as even minor and arbitrary changes in prompts can significantly alter the expression of biases. Future work should further explore how variations in syntactic features and topic choices in longer text generations influence homogeneity bias in LLMs.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# Dual-Inference Large Language Modelを用いた解釈可能な微分診断

Interpretable Differential Diagnosis with Dual-Inference Large Language Models ( http://arxiv.org/abs/2407.07330v1 )

ライセンス: Link先を確認
Shuang Zhou, Sirui Ding, Jiashuo Wang, Mingquan Lin, Genevieve B. Melton, Rui Zhang, (参考訳) 患者が症状を記述した場合の鑑別疾患のリストを予測するための鑑別診断(DDx)の自動生成の手法は、臨床推論や意思決定支援などの応用に不可欠である。 しかし、これらの差分診断に対する推論や解釈を提供することはより有意義である。 幸いなことに、大きな言語モデル(LLM)は強力な言語処理能力を有しており、様々な関連するタスクに有効であることが証明されている。 本研究の目的は, DDx の解釈に LLM を用いることである。 まず,570の公開臨床ノートに専門家由来の解釈を付加した新しいDDxデータセットを開発した。 第二に、LLMが解釈のために双方向の推論を行うことを可能にする、Dual-Infという新しいフレームワークを提案する。 人間と自動評価は、差分や診断説明の予測におけるDual-Infの有効性を示す。 具体的には、Dual-Infのベースライン法に対する性能改善はDDx解釈におけるBERTScoreの32%を超えている。 さらに、Dual-Inf (1)は解釈の誤りを少なくし、(2)大きな一般化性を持ち、(3)稀な疾患の診断と説明を約束する実験も行われた。

Methodological advancements to automate the generation of differential diagnosis (DDx) to predict a list of potential diseases as differentials given patients' symptom descriptions are critical to clinical reasoning and applications such as decision support. However, providing reasoning or interpretation for these differential diagnoses is more meaningful. Fortunately, large language models (LLMs) possess powerful language processing abilities and have been proven effective in various related tasks. Motivated by this potential, we investigate the use of LLMs for interpretable DDx. First, we develop a new DDx dataset with expert-derived interpretation on 570 public clinical notes. Second, we propose a novel framework, named Dual-Inf, that enables LLMs to conduct bidirectional inference for interpretation. Both human and automated evaluation demonstrate the effectiveness of Dual-Inf in predicting differentials and diagnosis explanations. Specifically, the performance improvement of Dual-Inf over the baseline methods exceeds 32% w.r.t. BERTScore in DDx interpretation. Furthermore, experiments verify that Dual-Inf (1) makes fewer errors in interpretation, (2) has great generalizability, (3) is promising for rare disease diagnosis and explanation.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# Anchor Hallucination と Hard Sample Label Correction による実例依存型雑音ラベルの学習

Learning with Instance-Dependent Noisy Labels by Anchor Hallucination and Hard Sample Label Correction ( http://arxiv.org/abs/2407.07331v1 )

ライセンス: Link先を確認
Po-Hsuan Huang, Chia-Ching Lin, Chih-Fan Hsu, Ming-Ching Chang, Wei-Chao Chen, (参考訳) ノイズの多いラベル付きデータから学ぶことは、現実世界のアプリケーションにとって非常に重要です。 従来のNoisy-Label Learning (NLL) 手法は、トレーニングサンプルの損失分布に基づいて、トレーニングデータをクリーンでノイズの多いセットに分類する。 しかし、多くの場合、きれいなサンプル、特に複雑な視覚パターンを持つサンプルは、かなりの損失をもたらす可能性があることを無視する。 この監視は、インスタンス依存ノイズ(IDN)を持つデータセットにおいて特に重要である。 提案手法は, 清潔さと難易度と難易度を明確に区別する。 簡単なパターンと正しいラベルを持つと仮定して、トレーニングサンプルを小さな損失で識別する。 これらの簡単なサンプルを用いることで、複数のアンカーを幻覚させ、ラベル修正のためのハードサンプルを選択する。 修正されたハードサンプルと簡単なサンプルは、その後の半教師付きトレーニングでラベル付きデータとして使用される。 合成および実世界のIDNデータセットに対する実験は、他の最先端のNLL法よりも優れた性能を示す。

Learning from noisy-labeled data is crucial for real-world applications. Traditional Noisy-Label Learning (NLL) methods categorize training data into clean and noisy sets based on the loss distribution of training samples. However, they often neglect that clean samples, especially those with intricate visual patterns, may also yield substantial losses. This oversight is particularly significant in datasets with Instance-Dependent Noise (IDN), where mislabeling probabilities correlate with visual appearance. Our approach explicitly distinguishes between clean vs.noisy and easy vs. hard samples. We identify training samples with small losses, assuming they have simple patterns and correct labels. Utilizing these easy samples, we hallucinate multiple anchors to select hard samples for label correction. Corrected hard samples, along with the easy samples, are used as labeled data in subsequent semi-supervised training. Experiments on synthetic and real-world IDN datasets demonstrate the superior performance of our method over other state-of-the-art NLL methods.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 逐次決定過程におけるLambda Disrepancyによる部分観測可能性の緩和

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy ( http://arxiv.org/abs/2407.07333v1 )

ライセンス: Link先を確認
Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris, (参考訳) 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。 しかし、状態情報が部分的にしか観測できない場合、エージェントはそのような状態表現をどうやって学べばいいのか。 基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成することのできるメトリクスを導入します。 我々の計量である$\lambda$-discrepancyは、2つの異なる時間差(TD)値の差であり、それぞれが$\lambda$の値を持つTD($\lambda$)を使用して計算される。 TD($\lambda$=0) は暗黙的なマルコフの仮定をし、TD($\lambda$=1) はそうでないので、これらの推定との相違は非マルコフ状態表現の潜在的指標である。 実際、$\lambda$-discrepancy はすべての Markov 決定プロセスで完全にゼロであり、部分的に観測可能な環境の広いクラスではほとんどゼロではないことを証明しています。 また、一度検出されると、$\lambda$-discrepancyを最小化することは、対応する部分観測可能性を軽減するためにメモリ関数を学ぶのに役立つことを実証的に示す。 次に、異なる$\lambda$パラメータを持つ2つの繰り返し値ネットワークを同時に構築する強化学習エージェントを訓練し、それらの差を補助損失として最小化する。 このアプローチは部分的に観測可能なドメインにスケールし、結果のエージェントは単一の値ネットワークしか持たないベースラインリカレントエージェントよりも、大幅にパフォーマンスが向上する(かつ、悪くはならない)。

Reinforcement learning algorithms typically rely on the assumption that the environment dynamics and value function can be expressed in terms of a Markovian state representation. However, when state information is only partially observable, how can an agent learn such a state representation, and how can it detect when it has found one? We introduce a metric that can accomplish both objectives, without requiring access to--or knowledge of--an underlying, unobservable state space. Our metric, the $\lambda$-discrepancy, is the difference between two distinct temporal difference (TD) value estimates, each computed using TD($\lambda$) with a different value of $\lambda$. Since TD($\lambda$=0) makes an implicit Markov assumption and TD($\lambda$=1) does not, a discrepancy between these estimates is a potential indicator of a non-Markovian state representation. Indeed, we prove that the $\lambda$-discrepancy is exactly zero for all Markov decision processes and almost always non-zero for a broad class of partially observable environments. We also demonstrate empirically that, once detected, minimizing the $\lambda$-discrepancy can help with learning a memory function to mitigate the corresponding partial observability. We then train a reinforcement learning agent that simultaneously constructs two recurrent value networks with different $\lambda$ parameters and minimizes the difference between them as an auxiliary loss. The approach scales to challenging partially observable domains, where the resulting agent frequently performs significantly better (and never performs worse) than a baseline recurrent agent with only a single value network.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 専門知識を用いた完全因果説明に向けて

Towards Complete Causal Explanation with Expert Knowledge ( http://arxiv.org/abs/2407.07338v1 )

ライセンス: Link先を確認
Aparajithan Venkateswaran, Emilija Perkovic, (参考訳) 我々は,あるエッジマークを含む最大祖先グラフ(MAG)のマルコフ同値クラスを制限する問題について検討し,これを専門知識と呼ぶ。 マルコフ同値類を形成するMAGは、一意的に本質的な祖先グラフで表すことができる。 提案した専門家の知識を含む本質的な祖先グラフの制限について学ぶ。 私たちの貢献は数倍です。 まず、Ali et al (2009) からの予想を含むマルコフ同値類全体のある性質を証明する。 第二に、3つの健全なグラフィカルな配向規則を示し、そのうち2つは既知の規則を一般化し、専門的なグラフに専門的な知識を加える。 また、Zhang (2008) の配向規則は、専門家知識を持つマルコフ同値類を制限するために必要ではないことも示している。 我々は、この知識を包含するアルゴリズムを提供し、アルゴリズムが一定の設定で完備であること、すなわち、これらの設定では、アルゴリズムの出力は制限された本質的な祖先グラフであることを示す。 このアルゴリズムは一般に完成していると推測する。 指定された設定以外では、グラフが制限された必須グラフであるかどうかを確認し、その実行時について議論するアルゴリズムを提供する。 この研究は Meek (1995) の一般化と見なすことができる。

We study the problem of restricting Markov equivalence classes of maximal ancestral graphs (MAGs) containing certain edge marks, which we refer to as expert knowledge. MAGs forming a Markov equivalence class can be uniquely represented by an essential ancestral graph. We seek to learn the restriction of the essential ancestral graph containing the proposed expert knowledge. Our contributions are several-fold. First, we prove certain properties for the entire Markov equivalence class including a conjecture from Ali et al. (2009). Second, we present three sound graphical orientation rules, two of which generalize previously known rules, for adding expert knowledge to an essential graph. We also show that some orientation rules of Zhang (2008) are not needed for restricting the Markov equivalence class with expert knowledge. We provide an algorithm for including this expert knowledge and show that our algorithm is complete in certain settings i.e., in these settings, the output of our algorithm is a restricted essential ancestral graph. We conjecture this algorithm is complete generally. Outside of our specified settings, we provide an algorithm for checking whether a graph is a restricted essential graph and discuss its runtime. This work can be seen as a generalization of Meek (1995).
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# TDML - 信頼できる分散機械学習フレームワーク

TDML -- A Trustworthy Distributed Machine Learning Framework ( http://arxiv.org/abs/2407.07339v1 )

ライセンス: Link先を確認
Zhen Wang, Qin Wang, Guangsheng Yu, Shiping Chen, (参考訳) 近年では、OpenAIのSORAやGPT、Meta AIのLAMAシリーズ、GoogleのFLAN、BART、Geminiモデルといった拡張可能な生成モデルが導入され、ディープラーニングの研究が急増している。 しかし、大規模モデル(LM)の急速な進歩は、計算資源、特に並列処理能力に不可欠なGPUの需要を増大させてきた。 この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、GPUの可用性が制限されていることで悪化している。 フェデレートラーニング(FL)のような分散機械学習(DML)メソッドは、テンソルやパイプラインの並列性といった最適化を実装しながら、複数のサーバにまたがるデータとモデルを分割することで、これらの課題を軽減する。 ブロックチェーン技術は、データ完全性、スケーラビリティ、分散コンピューティング環境への信頼を保証する、有望なソリューションとして登場しますが、実用的なDMLシステムを構築するためのガイダンスはありません。 本稿では、ブロックチェーンを活用し、リモートトレーナーのコーディネートとワークロードの検証、プライバシ、透明性、パブリックなリモートコンピューティングリソース間の効率的なモデルトレーニングを実現するための、‘textit{trustworthy distributed machine learning}(TDML)フレームワークを提案する。 実験的検証は、TDMLがパフォーマンス制限と悪意のあるノード検出を克服する効果を示し、スケーラブルでセキュアな分散機械学習のための堅牢なソリューションとして位置づけている。

Recent years have witnessed a surge in deep learning research, marked by the introduction of expansive generative models like OpenAI's SORA and GPT, Meta AI's LLAMA series, and Google's FLAN, BART, and Gemini models. However, the rapid advancement of large models (LM) has intensified the demand for computing resources, particularly GPUs, which are crucial for their parallel processing capabilities. This demand is exacerbated by limited GPU availability due to supply chain delays and monopolistic acquisition by major tech firms. Distributed Machine Learning (DML) methods, such as Federated Learning (FL), mitigate these challenges by partitioning data and models across multiple servers, though implementing optimizations like tensor and pipeline parallelism remains complex. Blockchain technology emerges as a promising solution, ensuring data integrity, scalability, and trust in distributed computing environments, but still lacks guidance on building practical DML systems. In this paper, we propose a \textit{trustworthy distributed machine learning} (TDML) framework that leverages blockchain to coordinate remote trainers and validate workloads, achieving privacy, transparency, and efficient model training across public remote computing resources. Experimental validation demonstrates TDML's efficacy in overcoming performance limitations and malicious node detection, positioning it as a robust solution for scalable and secure distributed machine learning.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# FALFormer:全スライディング画像分類のための特徴認識ランドマークの自己注意

FALFormer: Feature-aware Landmarks self-attention for Whole-slide Image Classification ( http://arxiv.org/abs/2407.07340v1 )

ライセンス: Link先を確認
Doanh C. Bui, Trinh Thi Le Vuong, Jin Tae Kwak, (参考訳) 全スライド画像(WSI)のスライドレベル分類は、デジタルおよび計算病理学において重要な問題として広く認識されている。 現在のアプローチでは、WSIは、パッチの収集と、多数のパッチによる複数のインスタンス学習による処理であり、パッチ間の関係を十分に調べることができない。 本稿では,WSI全体を全体として処理し,パッチ間の関係を十分に活用し,分類性能を向上させるための,効率的かつ効果的なスライドレベル分類モデルFALFormerを提案する。 FALFormerはTransformerとセルフアテンションメカニズムに基づいて構築されている。 オリジナルの自己アテンション機構の計算負担を軽減し、パッチ全体をWSIで処理するために、FALFormer は Nystr\"om self-attention を用いて、少ない数のトークンやランドマークを使用して計算を近似する。 効果的な学習のために、FALFormerは、ランドマークの表現力と近似の品質を高めるために、特徴対応ランドマークを導入した。 CAMELYON16とTCGA-BRCAの2つの公開データセットを用いてFALFormerの性能を体系的に評価した。 実験の結果、FALFormerは両方のデータセットで優れた性能を示し、スライドレベルの分類における最先端の手法よりも優れていた。 このことは、FALFormerがWSIの正確かつ正確な分析を容易にし、WSIの診断と予後を改善する可能性があることを示唆している。

Slide-level classification for whole-slide images (WSIs) has been widely recognized as a crucial problem in digital and computational pathology. Current approaches commonly consider WSIs as a bag of cropped patches and process them via multiple instance learning due to the large number of patches, which cannot fully explore the relationship among patches; in other words, the global information cannot be fully incorporated into decision making. Herein, we propose an efficient and effective slide-level classification model, named as FALFormer, that can process a WSI as a whole so as to fully exploit the relationship among the entire patches and to improve the classification performance. FALFormer is built based upon Transformers and self-attention mechanism. To lessen the computational burden of the original self-attention mechanism and to process the entire patches together in a WSI, FALFormer employs Nystr\"om self-attention which approximates the computation by using a smaller number of tokens or landmarks. For effective learning, FALFormer introduces feature-aware landmarks to enhance the representation power of the landmarks and the quality of the approximation. We systematically evaluate the performance of FALFormer using two public datasets, including CAMELYON16 and TCGA-BRCA. The experimental results demonstrate that FALFormer achieves superior performance on both datasets, outperforming the state-of-the-art methods for the slide-level classification. This suggests that FALFormer can facilitate an accurate and precise analysis of WSIs, potentially leading to improved diagnosis and prognosis on WSIs.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# MixSumm:低リソース抽出テキスト要約のためのLLMを用いたトピックベースのデータ拡張

MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization ( http://arxiv.org/abs/2407.07341v1 )

ライセンス: Link先を確認
Gaurav Sahu, Issam H. Laradji, (参考訳) 低リソースの抽出テキスト要約は、重要な研究の分野であるが、過小評価されている分野である。 以前の文献は抽象的なテキスト要約に焦点を当てるか、GPT-3のような大きな言語モデル(LLM)を直接的に生成するよう促す。 本研究では,低リソース抽出テキスト要約のためのMixSummを提案する。 具体的には、MixSummはオープンソースのLLMであるLLaMA-3-70bに、ミックスアップせずに文書を生成するのではなく、複数のトピックから情報を混合するドキュメントを生成し、生成したデータセット上で要約モデルをトレーニングする。 ROUGEスコアとL-Eval(参照不要LLaMA-3に基づく評価法)を用いて,生成された要約の質を測定した。 我々は、TweetSumm、WikiHow、ArXiv/PubMedデータセットからなる挑戦的なテキスト要約ベンチマークについて広範な実験を行い、LLMベースのデータ拡張フレームワークが、最近の低リソース抽出要約におけるプロンプトベースのアプローチよりも優れていることを示す。 また, LLaMA-3-70bから小BERT抽出要約器への効果的な知識蒸留も行った。

Low-resource extractive text summarization is a vital but heavily underexplored area of research. Prior literature either focuses on abstractive text summarization or prompts a large language model (LLM) like GPT-3 directly to generate summaries. In this work, we propose MixSumm for low-resource extractive text summarization. Specifically, MixSumm prompts an open-source LLM, LLaMA-3-70b, to generate documents that mix information from multiple topics as opposed to generating documents without mixup, and then trains a summarization model on the generated dataset. We use ROUGE scores and L-Eval, a reference-free LLaMA-3-based evaluation method to measure the quality of generated summaries. We conduct extensive experiments on a challenging text summarization benchmark comprising the TweetSumm, WikiHow, and ArXiv/PubMed datasets and show that our LLM-based data augmentation framework outperforms recent prompt-based approaches for low-resource extractive summarization. Additionally, our results also demonstrate effective knowledge distillation from LLaMA-3-70b to a small BERT-based extractive summarizer.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 多言語ブレンディング:LLMの言語混合による安全性アライメント評価

Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture ( http://arxiv.org/abs/2407.07342v1 )

ライセンス: Link先を確認
Jiayang Song, Yuheng Huang, Zhehua Zhou, Lei Ma, (参考訳) 大規模言語モデル(LLM)の開発ライフサイクルを通じて、安全は重要な関心事であり続けており、研究者や工業従事者は、LLMの行動と人間の嗜好と倫理的基準の保護と整合性に注目している。 LLMは多言語コーパスに基づいて訓練され、多様な言語やドメインにまたがる強力な一般化能力を示す。 しかし、現在の安全アライメントのプラクティスは主に単一言語のシナリオに焦点を合わせており、複雑な多言語コンテキスト、特に複雑な混合言語フォーマットにおいて、その有効性はほとんど探索されていない。 本研究では,高度で多言語的な条件下での各種LLM(例えば,GPT-4o,GPT-3.5,Llama3)の安全性アライメントを評価するための多言語クエリ応答方式であるMultilingual Blendingを紹介する。 さらに,多言語ブレンディングの有効性に影響を及ぼす言語利用,形態学,言語ファミリーなどの言語パターンについても検討した。 実験結果から,多言語ブレンディングは,厳密なプロンプトテンプレートを作らずに悪質なクエリの減少を著しく増大させ,LLM安全性アライメントのバイパス率(GPT-3.5では67.23%,GPT-4oでは40.34%)を著しく向上させ,単一言語ベースラインをはるかに上回る結果となった。 さらに、多言語ブレンディングのパフォーマンスは、異なる形態の言語と、安全アライメントを避ける傾向の多様な家族により、固有の言語特性に基づいて明らかに異なる。 これらの知見は,LLMの評価と,より優れた言語間一般化能力と整合する複雑な多言語コンテキストでの安全性アライメント戦略の開発の必要性を浮き彫りにした。

As safety remains a crucial concern throughout the development lifecycle of Large Language Models (LLMs), researchers and industrial practitioners have increasingly focused on safeguarding and aligning LLM behaviors with human preferences and ethical standards. LLMs, trained on extensive multilingual corpora, exhibit powerful generalization abilities across diverse languages and domains. However, current safety alignment practices predominantly focus on single-language scenarios, which leaves their effectiveness in complex multilingual contexts, especially for those complex mixed-language formats, largely unexplored. In this study, we introduce Multilingual Blending, a mixed-language query-response scheme designed to evaluate the safety alignment of various state-of-the-art LLMs (e.g., GPT-4o, GPT-3.5, Llama3) under sophisticated, multilingual conditions. We further investigate language patterns such as language availability, morphology, and language family that could impact the effectiveness of Multilingual Blending in compromising the safeguards of LLMs. Our experimental results show that, without meticulously crafted prompt templates, Multilingual Blending significantly amplifies the detriment of malicious queries, leading to dramatically increased bypass rates in LLM safety alignment (67.23% on GPT-3.5 and 40.34% on GPT-4o), far exceeding those of single-language baselines. Moreover, the performance of Multilingual Blending varies notably based on intrinsic linguistic properties, with languages of different morphology and from diverse families being more prone to evading safety alignments. These findings underscore the necessity of evaluating LLMs and developing corresponding safety alignment strategies in a complex, multilingual context to align with their superior cross-language generalization capabilities.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 事前学習に基づく運動特徴抽出による微小表現認識

Micro-Expression Recognition by Motion Feature Extraction based on Pre-training ( http://arxiv.org/abs/2407.07345v1 )

ライセンス: Link先を確認
Ruolin Li, Lu Wang, Tingting Yang, Lisheng Xu, Bingyang Ma, Yongchun Li, Hongchao Wei, (参考訳) マイクロ・エクスプレッション(ME)は、精神療法や国家安全保障など様々な分野で有望な、自発的で無意識な表情である。 このように、マイクロ圧縮認識(MER)は研究者からますます注目を集めている。 特に深層学習技術の発展に伴って様々なMER手法が登場したが、微妙な動きや限られた訓練データなど、いくつかの課題に直面している。 これらの問題に対処するために、MERタスクのための新しい動き抽出戦略(MoExt)を提案し、事前学習プロセスで追加のマクロ表現データを使用する。 主に、コントラスト損失を用いて特徴分離器と運動抽出器を事前訓練することにより、代表的動作特徴を抽出することができる。 MoExtでは、まず、開始フレームと頂点フレームから形状特徴とテクスチャ特徴を分離して抽出し、その後、両方のフレームの形状特徴に基づいてMEに関連する運動特徴を抽出する。 モデルがより効果的に特徴を分離できるようにするために,抽出した動き特徴とテクスチャ特徴をオンセットフレームから利用して頂点フレームを再構築する。 事前学習により、無関係情報を除外しつつ、表情のフレーム間動作特徴を抽出することができる。 特徴分離器と運動抽出器は最終的にMERネットワークに統合され、ターゲットのMEデータを用いて微調整される。 提案手法の有効性を,CASME II,SMIC,SAMM,CAS(ME)3データセットの3つの一般的なデータセットで検証した。 その結果,本手法は最先端の手法に対して良好に動作することがわかった。

Micro-expressions (MEs) are spontaneous, unconscious facial expressions that have promising applications in various fields such as psychotherapy and national security. Thus, micro-expression recognition (MER) has attracted more and more attention from researchers. Although various MER methods have emerged especially with the development of deep learning techniques, the task still faces several challenges, e.g. subtle motion and limited training data. To address these problems, we propose a novel motion extraction strategy (MoExt) for the MER task and use additional macro-expression data in the pre-training process. We primarily pretrain the feature separator and motion extractor using the contrastive loss, thus enabling them to extract representative motion features. In MoExt, shape features and texture features are first extracted separately from onset and apex frames, and then motion features related to MEs are extracted based on the shape features of both frames. To enable the model to more effectively separate features, we utilize the extracted motion features and the texture features from the onset frame to reconstruct the apex frame. Through pre-training, the module is enabled to extract inter-frame motion features of facial expressions while excluding irrelevant information. The feature separator and motion extractor are ultimately integrated into the MER network, which is then fine-tuned using the target ME data. The effectiveness of proposed method is validated on three commonly used datasets, i.e., CASME II, SMIC, SAMM, and CAS(ME)3 dataset. The results show that our method performs favorably against state-of-the-art methods.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# INSIGHT: 自己回帰変換器を損なうアナログ回路用ユニバーサルニューラルネットワークシミュレータ

INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers ( http://arxiv.org/abs/2407.07346v1 )

ライセンス: Link先を確認
Souradip Poddar, Youngmin Oh, Yao Lai, Hanqing Zhu, Bosun Hwang, David Z. Pan, (参考訳) アナログフロントエンドの設計は、専門的な人間の専門知識とコストのかかる試行錯誤シミュレーションに大きく依存しており、アナログ設計の自動化に関する多くの先行研究を動機付けている。 しかし、CPUベースのSPICEシミュレーションの時間的特性によって、広範かつ複雑な設計空間の効率的かつ効果的な探索が引き続き制限されており、効率的な設計自動化が困難な作業となっている。 本稿では、アナログフロントエンド設計自動化ループにおいて、GPUを用いた、技術に依存しない、効果的なユニバーサルニューラルネットワークシミュレータであるINSIGHTを紹介する。 INSIGHTは、様々な技術ノードにわたるアナログ回路の性能メトリクスを正確に予測し、推論時間を著しく短縮する。 特に、その自動回帰機能により、INSIGHTはコストの低いパフォーマンスメトリック情報を活用するために、シミュレーションコストのかかる一時的な仕様を正確に予測することができる。 低コストで高忠実な機能により、INSIGHTはアナログフロントエンド最適化フレームワークにおける標準シミュレータの代替となる。 INSIGHTは任意の最適化フレームワークと互換性があり、洗練されたオフライン学習と適応技術を通じて、サンプル効率のための設計空間の探索を容易にする。 InSIGHT-Mは、アナログサイズにINSIGHTを利用するモデルベースバッチ強化学習フレームワークであり、回路間のサンプル効率を少なくとも50倍改善することを示した。 我々の知る限りでは、これはアナログフロントエンド設計における自己回帰変換器の最初の使用例である。

Analog front-end design heavily relies on specialized human expertise and costly trial-and-error simulations, which motivated many prior works on analog design automation. However, efficient and effective exploration of the vast and complex design space remains constrained by the time-consuming nature of CPU-based SPICE simulations, making effective design automation a challenging endeavor. In this paper, we introduce INSIGHT, a GPU-powered, technology-independent, effective universal neural simulator in the analog front-end design automation loop. INSIGHT accurately predicts the performance metrics of analog circuits across various technology nodes, significantly reducing inference time. Notably, its autoregressive capabilities enable INSIGHT to accurately predict simulation-costly critical transient specifications leveraging less expensive performance metric information. The low cost and high fidelity feature make INSIGHT a good substitute for standard simulators in analog front-end optimization frameworks. INSIGHT is compatible with any optimization framework, facilitating enhanced design space exploration for sample efficiency through sophisticated offline learning and adaptation techniques. Our experiments demonstrate that INSIGHT-M, a model-based batch reinforcement learning framework that leverages INSIGHT for analog sizing, achieves at least 50X improvement in sample efficiency across circuits. To the best of our knowledge, this marks the first use of autoregressive transformers in analog front-end design.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# MNeRV:ビデオのための多層ニューラル表現

MNeRV: A Multilayer Neural Representation for Videos ( http://arxiv.org/abs/2407.07347v1 )

ライセンス: Link先を確認
Qingling Chang, Haohui Yu, Shuxuan Fu, Zhiqiang Zeng, Chuangquan Chen, (参考訳) 新しいビデオ表現法として、NeRV(Neural Representations for Videos)は、ビデオ圧縮、ビデオ復元、ビデオ補間といった分野で大きな可能性を示している。 NeRVを用いて動画を表現する過程において、各フレームは埋め込みに対応し、少数の復号層(E-NeRV、HNeRVなど)を通過した後、ビデオフレームシーケンスに再構成される。 しかし、この少数の復号層は、単一の復号層におけるパラメータの多さによる冗長なモデルパラメータの問題に容易につながり、ニューラルネットワークモデルのビデオ回帰能力を大幅に制限する。 本稿では,ビデオ用多層ニューラル表現(MNeRV)を提案し,新しいデコーダM-デコーダとマッチングエンコーダM-Encoderを設計する。 MNeRVは、より多くのエンコーディング層とデコード層を持ち、過剰なレイヤによって引き起こされる冗長なモデルパラメータの問題を効果的に軽減する。 さらに、復号層間のパラメータ割り当てをより均一かつ効果的に行うために、MNeRVブロックを設計する。 ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。 最後に,映像復元や映像補間といった下流タスクにおいて,MNeRVの性能を示す。 MNeRVのソースコードはhttps://github.com/Aaronbtb/MNeRVで入手できる。

As a novel video representation method, Neural Representations for Videos (NeRV) has shown great potential in the fields of video compression, video restoration, and video interpolation. In the process of representing videos using NeRV, each frame corresponds to an embedding, which is then reconstructed into a video frame sequence after passing through a small number of decoding layers (E-NeRV, HNeRV, etc.). However, this small number of decoding layers can easily lead to the problem of redundant model parameters due to the large proportion of parameters in a single decoding layer, which greatly restricts the video regression ability of neural network models. In this paper, we propose a multilayer neural representation for videos (MNeRV) and design a new decoder M-Decoder and its matching encoder M-Encoder. MNeRV has more encoding and decoding layers, which effectively alleviates the problem of redundant model parameters caused by too few layers. In addition, we design MNeRV blocks to perform more uniform and effective parameter allocation between decoding layers. In the field of video regression reconstruction, we achieve better reconstruction quality (+4.06 PSNR) with fewer parameters. Finally, we showcase MNeRV performance in downstream tasks such as video restoration and video interpolation. The source code of MNeRV is available at https://github.com/Aaronbtb/MNeRV.
翻訳日:2024-07-11 18:01:18 公開日:2024-07-10
# 正の強化を伴う連続多エージェント選択における長期的公正性

Long-Term Fairness in Sequential Multi-Agent Selection with Positive Reinforcement ( http://arxiv.org/abs/2407.07350v1 )

ライセンス: Link先を確認
Bhagyashree Puranik, Ozgur Guldogan, Upamanyu Madhow, Ramtin Pedarsani, (参考訳) 公正な意思決定に関する文献の多くは、一発決定のためのメトリクスに焦点を当てているが、最近の研究は、長期的な社会的公正性に肯定的な影響を与える、シーケンシャルな意思決定を設計することの興味深い可能性を高めている。 大学入学や採用のような選抜プロセスでは、未登録グループからの応募者に対してわずかに偏りを呈し、将来の選考ラウンドにおける未登録応募者のプールを増やす肯定的なフィードバックを与え、長期的に公正性を高めることが仮定される。 本稿では、複数のエージェントが共通の応募者のプールから選択している環境で、この仮説とその結果について検討する。 グリーディスコアの最大化と公平性のバランスをとるマルチエージェント・フェア・グリーディ政策を提案する。 この方針の下では,資源プールと入場者が,集団間のスコア分布が同一である場合に,エージェントが設定した長期フェアネス目標に収束することを示す。 我々は、合成および適応された実世界のデータセットを通して、非同一のスコア分布下での平衡の存在の実証的証拠を提供する。 次に、より複雑な応募者プールの進化モデルについて注意を喚起し、エージェントによる非協調的な行動が負の強化を引き起こす可能性があり、非表現者の割合が減少する。 以上の結果から, 肯定的強化は長期的公正性にとって有望なメカニズムであるが, アルゴリズム設計者, 社会科学者, 政策立案者らによる未解決の問題が数多く残っているため, 進化モデルの変動に頑健な政策を慎重に設計する必要があることが示唆された。

While much of the rapidly growing literature on fair decision-making focuses on metrics for one-shot decisions, recent work has raised the intriguing possibility of designing sequential decision-making to positively impact long-term social fairness. In selection processes such as college admissions or hiring, biasing slightly towards applicants from under-represented groups is hypothesized to provide positive feedback that increases the pool of under-represented applicants in future selection rounds, thus enhancing fairness in the long term. In this paper, we examine this hypothesis and its consequences in a setting in which multiple agents are selecting from a common pool of applicants. We propose the Multi-agent Fair-Greedy policy, that balances greedy score maximization and fairness. Under this policy, we prove that the resource pool and the admissions converge to a long-term fairness target set by the agents when the score distributions across the groups in the population are identical. We provide empirical evidence of existence of equilibria under non-identical score distributions through synthetic and adapted real-world datasets. We then sound a cautionary note for more complex applicant pool evolution models, under which uncoordinated behavior by the agents can cause negative reinforcement, leading to a reduction in the fraction of under-represented applicants. Our results indicate that, while positive reinforcement is a promising mechanism for long-term fairness, policies must be designed carefully to be robust to variations in the evolution model, with a number of open issues that remain to be explored by algorithm designers, social scientists, and policymakers.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 多様性の統一: 一般化可能な車両再識別のための多専門知識の融合と協調

Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification ( http://arxiv.org/abs/2407.07351v1 )

ライセンス: Link先を確認
Zhenyu Kuang, Hongyang Zhang, Lidong Cheng, Yinhao Liu, Yue Huang, Xinghao Ding, (参考訳) 一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、追加の微調整や再訓練をすることなく、未知のターゲットドメインに広く適応できるようにすることを目的としている。 しかし、まだドメインシフトの問題に直面しており、未知のターゲットドメインへの正確な一般化が難しい。 この制限は、モデルはトレーニングデータにおける主要なドメイン不変機能に大きく依存し、潜在的に価値のある二次機能にはあまり注意を払わないために生じる。 この複雑で一般的な問題を解決するために、コントラスト言語-画像事前学習(CLIP)に一意な視点を持つ複数の専門家を取り入れ、包括的特徴表現に高レベルなセマンティック知識を十分に活用する2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。 具体的には,第1段階の視覚的特徴の潜伏した空間において,敵対学習を行うことにより,すべての特定観念的専門家の学習可能なプロンプトセットを構築することを提案する。 次に,ハイレベルセマンティクスを用いた学習プロンプトを用いて,次の段階における最終知識融合のための多レベル特徴の表現学習を指導する。 この知識融合のプロセスでは、複数の専門家が同じ車両を調べるために異なる評価方法を採用しているが、彼らの共通の目標は、車両の真のアイデンティティを確認することである。 彼らの集団的な決定は、評価結果の正確性と一貫性を確保することができる。 さらに、ID関連プロンプト表現を抽出し、各専門家が強調した特徴表現を得るために、画像成分分離と多様性向上を含む2段階訓練のための異なる画像入力を設計する。 実験結果から,本手法が最先端の音声認識性能を実現することを示す。

Generalizable vehicle re-identification (ReID) aims to enable the well-trained model in diverse source domains to broadly adapt to unknown target domains without additional fine-tuning or retraining. However, it still faces the challenges of domain shift problem and has difficulty accurately generalizing to unknown target domains. This limitation occurs because the model relies heavily on primary domain-invariant features in the training data and pays less attention to potentially valuable secondary features. To solve this complex and common problem, this paper proposes the two-stage Multi-expert Knowledge Confrontation and Collaboration (MiKeCoCo) method, which incorporates multiple experts with unique perspectives into Contrastive Language-Image Pretraining (CLIP) and fully leverages high-level semantic knowledge for comprehensive feature representation. Specifically, we propose to construct the learnable prompt set of all specific-perspective experts by adversarial learning in the latent space of visual features during the first stage of training. The learned prompt set with high-level semantics is then utilized to guide representation learning of the multi-level features for final knowledge fusion in the next stage. In this process of knowledge fusion, although multiple experts employ different assessment ways to examine the same vehicle, their common goal is to confirm the vehicle's true identity. Their collective decision can ensure the accuracy and consistency of the evaluation results. Furthermore, we design different image inputs for two-stage training, which include image component separation and diversity enhancement in order to extract the ID-related prompt representation and to obtain feature representation highlighted by all experts, respectively. Extensive experimental results demonstrate that our method achieves state-of-the-art recognition performance.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# Qubit-Inspired Classical Two-Level Elastic Bitにおけるベリー位相とトポロジ

Berry Phase and Topological Insights in a Qubit-Inspired Classical Two-Level Elastic Bit ( http://arxiv.org/abs/2407.07353v1 )

ライセンス: Link先を確認
Kazi T. Mahmood, M. Arif Hasan, (参考訳) 古典力学におけるベリー位相の探索は、量子力学に類似した物理系の力学を理解するための新たなフロンティアを開いた。 ここでは,外部ドライバと結合したグラニュラーを操作することにより,古典的な量子ビットの対向である2レベル弾性ビットにおけるベリー位相の制御された蓄積を示す。 ブロッホ球表現を用いて、この論文は、弾性ビット状態の操作と量子アナログ論理ゲートの実現を実証する。 重要な成果は、様々な系の状態に対するベリー位相の計算であり、システムのトポロジカルな性質に関する洞察を明らかにすることである。 この研究に共通するのは、内部システム修正に焦点を当てた従来のアプローチとは対照的に、トポロジカルな遷移を探索するための外部パラメータの使用である。 古典世界と量子世界とを弾性ビットのベリー相を繋げることで、新しい材料や計算モデルの設計におけるトポロジカルな概念の潜在的な応用を広げる。

The exploration of the Berry phase in classical mechanics has opened new frontiers in understanding the dynamics of physical systems, analogous to quantum mechanics. Here, we show controlled accumulation of the Berry phase in a two-level elastic bit, which are classical counterparts of qubits, achieved by manipulating coupled granules with external drivers. Employing the Bloch sphere representation, the paper demonstrates the manipulation of elastic bit states and the realization of quantum-analogue logic gates. A key achievement is the calculation of the Berry phase for various system states, revealing insights into the system's topological nature. Unique to this study is the use of external parameters to explore topological transitions, contrasting with traditional approaches focusing on internal system modifications. By linking the classical and quantum worlds through the Berry phase of an elastic bit, this work extends the potential applications of topological concepts in designing new materials and computational models.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# パンデミック時の高精度・公正な大学授業スケジューリング

High-Precision, Fair University Course Scheduling During a Pandemic ( http://arxiv.org/abs/2407.07355v1 )

ライセンス: Link先を確認
Matthew E. H. Petering, Marshall Khamechian, (参考訳) 新型コロナウイルス(COVID-19)などのパンデミックに対応して実施されるソーシャルディスタンシング(ソーシャルディスタンシング)の要件により、教室の容量が減少するにつれて、大学コースのスケジュールがさらに難しくなる。 本研究は,授業提供モードの拡張された分類法,整数プログラムの提示,および全コース(最大でも)がパンデミック時に重要な教室学習コンポーネントを持つことを可能にするコーススケジューリングアルゴリズムの開発を提案する。 我々のアプローチは、教室で各コースセクションの特定の一部が実行されることを保証することで公平である。 従来の研究とは異なり、回転する出席は許されず、1つのセクションのすべての学生が1~5室で同時に会う同時出席を必要とするが、通常の学期よりは少ない。 個人による中間試験やグループ活動の機会を生み出すこれらの集団会議は、1週間ではなく、学期の全日にわたって高い精度で計画されている。 高速ヒューリスティックアルゴリズムは1時間でスケジュールを立てる。 結果:2022年度秋学期[大学XYZ]において,1834年度の個別講座,172教室,96日間について検討した。 パンデミックにより教室の容量が平均75%削減された場合、私たちのアプローチでは、各セクションで少なくとも25%、キャンパス全体では49%以上を教室に含めることができる。 また,本手法は,通常の授業課題に対して優れた結果をもたらす。 管理的意味: 公平性と同時出席の原理に基づくアルゴリズムは、パンデミックや通常の時間における大学コースのスケジュールを大幅に改善することができる。 様々なパンデミックの可能性に備えたキャンパスを準備する高精度のスケジュールは、最小限の行政努力で作成でき、アウトブレイクが発生した場合、学期前または学期中にその時点で起動される。

Scheduling university courses is extra challenging when classroom capacities are reduced because of social distancing requirements that are implemented in response to a pandemic such as COVID-19. In this work, we propose an expanded taxonomy of course delivery modes, present an integer program, and develop a course scheduling algorithm to enable all course sections -- even the largest -- to have a significant classroom learning component during a pandemic. Our approach is fair by ensuring that a certain fraction of the instruction in every course section occurs in the classroom. Unlike previous studies, we do not allow rotating attendance and instead require simultaneous attendance in which all students in a section meet in 1-5 rooms at the same time but less often than in a normal semester. These mass meetings, which create opportunities for in-person midterm exams and group activities, are scheduled at high precision across all days of the semester rather than a single, repeating week. A fast heuristic algorithm makes the schedule in an hour. Results: We consider the 1834 in-person course sections, 172 classrooms, and 96 days in the fall 2022 semester at [UniversityXYZ]. If average classroom capacity is reduced by 75% due to a pandemic, our approach still allows at least 25% of the instruction in every section, and more than 49% of all instruction across the entire campus, to be in the classroom. Our method also produces excellent results for regular classroom assignment. Managerial implications: An algorithm based on the principles of fairness and simultaneous attendance can significantly improve university course schedules during a pandemic and in normal times. High-precision schedules that prepare a campus for various pandemic possibilities can be created with minimal administrative effort and activated at a moment's notice before or during a semester if an outbreak occurs.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# ビデオインコンテキスト学習

Video In-context Learning ( http://arxiv.org/abs/2407.07356v1 )

ライセンス: Link先を確認
Wentao Zhang, Junliang Guo, Tianyu He, Li Zhao, Linli Xu, Jiang Bian, (参考訳) 視覚データに対する文脈内学習は、自然言語と比較して過小評価されている。 以前の研究は、画像のコンテキスト内学習を研究し、モデルにデモによってガイドされた単一の画像を生成するように促した。 そこで本研究では,既存のビデオクリップからモデルが始まり,多種多様な将来的なシーケンスを生成できるビデオインコンテキスト学習を提案する。 これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。 我々は、異なるデータセットの効果を徹底的に分析し、フレームを離散トークンとして表現し、次にトークン予測によってそれらをモデル化する。 客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。 本モデルでは,テキスト内サンプルから提供される意味指導と正確に一致した高品質なビデオクリップを生成する。

In-context learning for vision data has been underexplored compared with that in natural language. Previous works studied image in-context learning, urging models to generate a single image guided by demonstrations. In this paper, we propose and study video in-context learning, where the model starts from an existing video clip and generates diverse potential future sequences, each semantically guided by the prompted video demonstrations. To achieve this, we provide a clear definition of the task, and train an autoregressive Transformer on video datasets. We thoroughly analyze the effect of different datasets and represent frames as discrete tokens, and then model them by next token predictions. We design various evaluation metrics, including both objective and subjective measures, to demonstrate the visual quality and semantic accuracy of generation results. Our model follows the scaling law and generates high-quality video clips that accurately align with the semantic guidance provided by in-context examples.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 生体ネットワークにおけるサイン付き相互作用予測のためのディープグラフモデル

A deep graph model for the signed interaction prediction in biological network ( http://arxiv.org/abs/2407.07357v1 )

ライセンス: Link先を確認
Shuyi Jin, Mengji Zhang, Meijie Wang, Lun Yu, (参考訳) 医薬品研究において、医薬品の再利用戦略は、研究開発コストを削減しつつ、新しい治療法の開発を加速させる。 ネットワークの薬理学は、新しい薬物の表示を識別するための理論的基礎を築き、深部グラフモデルは複雑な生物学的ネットワークのマッピングに欠かせないものとなっている。 本研究は, グラフ畳み込みネットワークとテンソル分解を利用して, 署名された化学・遺伝子相互作用を効果的に予測する高度なグラフモデルを提案する。 このモデルは、特に生物学的ネットワークにおける極性関係を扱う際に、優れた予測性能を示す。 我々の研究は、薬物の発見と再資源化のための新しい道を開き、特に薬物の作用のメカニズムを理解することを目的としている。

In pharmaceutical research, the strategy of drug repurposing accelerates the development of new therapies while reducing R&D costs. Network pharmacology lays the theoretical groundwork for identifying new drug indications, and deep graph models have become essential for their precision in mapping complex biological networks. Our study introduces an advanced graph model that utilizes graph convolutional networks and tensor decomposition to effectively predict signed chemical-gene interactions. This model demonstrates superior predictive performance, especially in handling the polar relations in biological networks. Our research opens new avenues for drug discovery and repurposing, especially in understanding the mechanism of actions of drugs.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# SGM-PINN:物理インフォームドニューラルネットワークの高速トレーニングのためのグラフィカルモデルサンプリング

SGM-PINN: Sampling Graphical Models for Faster Training of Physics-Informed Neural Networks ( http://arxiv.org/abs/2407.07358v1 )

ライセンス: Link先を確認
John Anticev, Ali Aghdaei, Wuxinlin Cheng, Zhuo Feng, (参考訳) SGM-PINNは、パラメータ化問題に対する物理情報ニューラルネットワーク(PINN)のトレーニング効率を改善するためのグラフベースの重要度サンプリングフレームワークである。 トレーニングデータセットから構築した非指向確率グラフモデル(PGM)にグラフ分解スキームを適用することにより、トレーニングサンプル間の条件依存を符号化したノードクラスタを生成する。 より重要なクラスタへのサンプリングにより、より小さなミニバッチとトレーニングデータセットが可能になり、トレーニング速度と精度が向上する。 さらに,余剰損失を伴って効率的なロバストネス測定を融合し,追加サンプリングを必要とする領域を決定する。 提案手法の利点を実証し,従来の最先端サンプリング手法と比較して3倍の収束性を実現した。

SGM-PINN is a graph-based importance sampling framework to improve the training efficacy of Physics-Informed Neural Networks (PINNs) on parameterized problems. By applying a graph decomposition scheme to an undirected Probabilistic Graphical Model (PGM) built from the training dataset, our method generates node clusters encoding conditional dependence between training samples. Biasing sampling towards more important clusters allows smaller mini-batches and training datasets, improving training speed and accuracy. We additionally fuse an efficient robustness metric with residual losses to determine regions requiring additional sampling. Experiments demonstrate the advantages of the proposed framework, achieving $3\times$ faster convergence compared to prior state-of-the-art sampling methods.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# テキストに基づく定量的・説明可能な病理画像解析を目指して

Towards a text-based quantitative and explainable histopathology image analysis ( http://arxiv.org/abs/2407.07360v1 )

ライセンス: Link先を確認
Anh Tien Nguyen, Trinh Thi Le Vuong, Jin Tae Kwak, (参考訳) 近年,視覚言語による事前学習モデルがコンピュータ病理学に登場している。 従来の研究は、対照的な事前学習パラダイムを通じて、画像とテキストのペアのアライメントに重点を置いていた。 このような事前学習モデルは、ゼロショット学習や転送学習の手法で、病理画像分類に応用されている。 本稿では,事前学習した視覚言語モデルを用いて,簡単な画像からテキストへの検索によって定量的な病理像解析を行うことができると仮定する。 そこで本研究ではTQxと呼ぶテキストベースの定量的・説明可能な病理画像解析を提案する。 病理画像の集合を考慮し、学習済みの視覚言語モデルを用いて単語プールを検索する。 そして、検索した単語を用いて、病理像を定量化し、テキスト記述への直接マッピングによる理解可能な特徴埋め込みを生成する。 提案手法を評価するために、4つの病理画像データセットのテキストベースの埋め込みを用いてクラスタリングと分類処理を行う。 その結果、TQxは、計算病理学における一般的な視覚モデルに匹敵する、病理像を定量化し分析できることを示した。

Recently, vision-language pre-trained models have emerged in computational pathology. Previous works generally focused on the alignment of image-text pairs via the contrastive pre-training paradigm. Such pre-trained models have been applied to pathology image classification in zero-shot learning or transfer learning fashion. Herein, we hypothesize that the pre-trained vision-language models can be utilized for quantitative histopathology image analysis through a simple image-to-text retrieval. To this end, we propose a Text-based Quantitative and Explainable histopathology image analysis, which we call TQx. Given a set of histopathology images, we adopt a pre-trained vision-language model to retrieve a word-of-interest pool. The retrieved words are then used to quantify the histopathology images and generate understandable feature embeddings due to the direct mapping to the text description. To evaluate the proposed method, the text-based embeddings of four histopathology image datasets are utilized to perform clustering and classification tasks. The results demonstrate that TQx is able to quantify and analyze histopathology images that are comparable to the prevalent visual models in computational pathology.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# セル無線インタフェースプロトコルによる暗号化アプリケーショントラフィックのキャラクタリゼーション

Characterizing Encrypted Application Traffic through Cellular Radio Interface Protocol ( http://arxiv.org/abs/2407.07361v1 )

ライセンス: Link先を確認
Md Ruman Islam, Raja Hasnain Anwar, Spyridon Mastorakis, Muhammad Taqi Raza, (参考訳) 最新のアプリケーションは、データが読み取りや秘密に修正されるのを防ぐためにエンドツーエンド暗号化されている。 5G技術ノロジーは、アプリケーション固有のパフォーマンスとレイテンシの目標を損なうことなく、これらのアプリケーションにユビキタスにアクセスできる。 本稿では,5G無線通信が,ユーザのアプリケーションをリアルタイムに正確に推測するためのサイドチャネルとなることを実証的に示す。 キーとなるアイデアは、アプリケーションの振る舞いを明らかにする5Gの物理層とMAC層の相互作用を時間をかけて観察することだ。 MAC層はアプリケーションからデータを受信し、無線リソースブロックを割り当てるようネットワークに要求する。 ネットワークは、優先度、QoS(Quality of Service)要求、送信するデータの量、バッファサイズなどのアプリケーション要件に従って、無線リソースを割り当てる。 敵は無線リソースを受動的に観察してアプリケーションに指紋を付けることができる。 オンラインショッピング、音声/ビデオ会議、ビデオストリーミング、Over-The-Top(OTT)メディアプラットフォームという4つの異なるカテゴリのアプリケーションについて検討することで、この攻撃を実証的に実証する。 最後に、攻撃者が各カテゴリ内で様々なタイプのアプリケーションをリアルタイムで区別できることを実証した。

Modern applications are end-to-end encrypted to prevent data from being read or secretly modified. 5G tech nology provides ubiquitous access to these applications without compromising the application-specific performance and latency goals. In this paper, we empirically demonstrate that 5G radio communication becomes the side channel to precisely infer the user's applications in real-time. The key idea lies in observing the 5G physical and MAC layer interactions over time that reveal the application's behavior. The MAC layer receives the data from the application and requests the network to assign the radio resource blocks. The network assigns the radio resources as per application requirements, such as priority, Quality of Service (QoS) needs, amount of data to be transmitted, and buffer size. The adversary can passively observe the radio resources to fingerprint the applications. We empirically demonstrate this attack by considering four different categories of applications: online shopping, voice/video conferencing, video streaming, and Over-The-Top (OTT) media platforms. Finally, we have also demonstrated that an attacker can differentiate various types of applications in real-time within each category.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 不確実性下でのリアルタイムシステム最適トラフィックルーティング -- 物理モデルは強化学習を促進するか?

Real-time system optimal traffic routing under uncertainties -- Can physics models boost reinforcement learning? ( http://arxiv.org/abs/2407.07364v1 )

ライセンス: Link先を確認
Zemian Ke, Qiling Zou, Jiachao Liu, Sean Qian, (参考訳) システム最適トラフィックルーティングは、車両の一部の経路を割り当てることで渋滞を軽減することができ、輸送システム内の全車両の総走行時間を削減できる。 しかし, リアルタイム最適ルーティングの実現は, 不確実な要求や不確実なシステムダイナミクス, 特に拡張輸送ネットワークにおいて問題となる。 物理モデルに基づく手法は不確実性やモデルミスマッチに敏感であるが、モデルレス強化学習は非効率性や解釈可能性の問題に苦慮している。 本稿では,強化学習を物理モデルに統合し,性能,信頼性,解釈可能性を向上させるアルゴリズムであるTransRLを提案する。 TransRLは、物理モデルに基づく決定論的な政策を確立することから始まり、そこから学習し、微分可能で確率的な教師ポリシーによって導かれる。 トレーニング中、TransRLは累積報酬を最大化しつつ、KL(Kulback Leibler)の現行方針と教師方針の相違を最小限にすることを目的としている。 このアプローチにより、TransRLは環境との相互作用と物理モデルからの洞察を同時に活用できる。 我々は、最大で数百のリンクを持つ3つの輸送ネットワークで実験を行う。 その結果,実際のネットワークデータから適応的に学習するための交通モデルに基づく手法よりもTransRLの方が優れていることが示された。 物理モデルからの情報を活用することで、TransRLは近位ポリシー最適化(PPO)やソフトアクター批評家(SAC)といった最先端の強化学習アルゴリズムを一貫して上回っている。 さらに, TransRL の動作は PPO や SAC などのベースライン強化学習手法と比較して信頼性と解釈性が高い。

System optimal traffic routing can mitigate congestion by assigning routes for a portion of vehicles so that the total travel time of all vehicles in the transportation system can be reduced. However, achieving real-time optimal routing poses challenges due to uncertain demands and unknown system dynamics, particularly in expansive transportation networks. While physics model-based methods are sensitive to uncertainties and model mismatches, model-free reinforcement learning struggles with learning inefficiencies and interpretability issues. Our paper presents TransRL, a novel algorithm that integrates reinforcement learning with physics models for enhanced performance, reliability, and interpretability. TransRL begins by establishing a deterministic policy grounded in physics models, from which it learns from and is guided by a differentiable and stochastic teacher policy. During training, TransRL aims to maximize cumulative rewards while minimizing the Kullback Leibler (KL) divergence between the current policy and the teacher policy. This approach enables TransRL to simultaneously leverage interactions with the environment and insights from physics models. We conduct experiments on three transportation networks with up to hundreds of links. The results demonstrate TransRL's superiority over traffic model-based methods for being adaptive and learning from the actual network data. By leveraging the information from physics models, TransRL consistently outperforms state-of-the-art reinforcement learning algorithms such as proximal policy optimization (PPO) and soft actor critic (SAC). Moreover, TransRL's actions exhibit higher reliability and interpretability compared to baseline reinforcement learning approaches like PPO and SAC.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 高分解能クラウド検出ネットワーク

High-Resolution Cloud Detection Network ( http://arxiv.org/abs/2407.07365v1 )

ライセンス: Link先を確認
Jingsheng Li, Tianxiang Xue, Jiayi Zhao, Jingmin Ge, Yufang Min, Wei Su, Kun Zhan, (参考訳) クラウドの複雑さ、特に高解像度のテクスチャディテールは、既存のクラウド検出ネットワークでよく研究されていない。 本稿では階層的な高分解能統合手法を用いた高分解能クラウド検出ネットワーク(HR-cloud-Net)を提案する。 HR-cloud-Netは、高分解能表現モジュール、レイヤーワイド機能融合モジュール、多分解能ピラミッドプールモジュールを統合して、複雑なクラウド機能を効果的にキャプチャする。 このアーキテクチャは、さまざまな解像度で機能交換を容易にするとともに、詳細なクラウドテクスチャ情報を保存し、クラウド検出における全体的なパフォーマンスを向上させる。 また,教師が通常の画像を処理することによって,ノイズの多い拡張画像に基づいて学習した生徒の視点を教師する,新たなアプローチが導入された。 この設定により、生徒は教師が提供したよりクリーンな指導から学び、パフォーマンスを向上させることができる。 3つの光学衛星画像クラウド検出データセットの大規模な評価は、既存の手法と比較してHR-cloud-Netの優れた性能を検証している。

The complexity of clouds, particularly in terms of texture detail at high resolutions, has not been well explored by most existing cloud detection networks. This paper introduces the High-Resolution Cloud Detection Network (HR-cloud-Net), which utilizes a hierarchical high-resolution integration approach. HR-cloud-Net integrates a high-resolution representation module, layer-wise cascaded feature fusion module, and multi-resolution pyramid pooling module to effectively capture complex cloud features. This architecture preserves detailed cloud texture information while facilitating feature exchange across different resolutions, thereby enhancing overall performance in cloud detection. Additionally, a novel approach is introduced wherein a student view, trained on noisy augmented images, is supervised by a teacher view processing normal images. This setup enables the student to learn from cleaner supervisions provided by the teacher, leading to improved performance. Extensive evaluations on three optical satellite image cloud detection datasets validate the superior performance of HR-cloud-Net compared to existing methods.The source code is available at \url{https://github.com/kunzhan/HR-cloud-Net}.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 半教師付き学習を用いたモデルフリー過程の圧縮計測によるデータ駆動ベイズ状態推定

Data-driven Bayesian State Estimation with Compressed Measurement of Model-free Process using Semi-supervised Learning ( http://arxiv.org/abs/2407.07368v1 )

ライセンス: Link先を確認
Anubhab Ghosh, Yonina C. Eldar, Saikat Chatterjee, (参考訳) モデルフリープロセスの圧縮測定(BSCM)によるデータ駆動ベイズ状態推定(例えば(因果)追跡アプリケーション)。 時間的測定ベクトルの次元は、推定される時間的状態ベクトルの次元よりも低い。 したがって、状態推定問題は過小評価された逆問題である。 基礎となる力学過程の状態空間モデル(SSM)は未知であると仮定され、したがって「モデルフリープロセス」という用語を用いる。 SSMがなければ、Kalman Filter (KF) や Particle Filter (PF) のような従来のモデル駆動の手法を使わず、代わりにデータ駆動の手法を必要とします。 まず,既存の教師なし学習に基づく2つのデータ駆動手法が,モデルフリープロセスにおけるBSCM問題に対処できないことを示す。 教師なし学習は、ノイズ測定のみからなる不正なデータを使用する。 DANSEは時間的計測データを時系列としてモデル化するための優れた予測性能を提供するが、教師なし学習は状態推定の正規化を欠いている。 次に,半教師付き学習手法について検討し,セミDANSEと呼ばれる半教師付き学習に基づくDANSE法を開発した。 半教師付き学習では,ラベル付きデータと大量の未ラベルデータとを併用し,SSMのない場合のBSCM問題の正規化に寄与する。 ラベル付きデータは、ペアワイズ計測および状態データを意味する。 非線形SSMの3つのカオス力学系(あるいはプロセス)をベンチマークとして、データ駆動セミダNSEは、3つのSSMインフォームド手法(KalmanNetと呼ばれるハイブリッド手法)と、拡張KFと無感覚KFと呼ばれる2つの従来のモデル駆動方式)に対してBSCMの競合性能を提供することを示した。

The research topic is: data-driven Bayesian state estimation with compressed measurement (BSCM) of model-free process, say for a (causal) tracking application. The dimension of the temporal measurement vector is lower than the dimension of the temporal state vector to be estimated. Hence the state estimation problem is an underdetermined inverse problem. The state-space-model (SSM) of the underlying dynamical process is assumed to be unknown and hence, we use the terminology 'model-free process'. In absence of the SSM, we can not employ traditional model-driven methods like Kalman Filter (KF) and Particle Filter (PF) and instead require data-driven methods. We first experimentally show that two existing unsupervised learning-based data-driven methods fail to address the BSCM problem for model-free process; they are data-driven nonlinear state estimation (DANSE) method and deep Markov model (DMM) method. The unsupervised learning uses unlabelled data comprised of only noisy measurements. While DANSE provides a good predictive performance to model the temporal measurement data as time-series, its unsupervised learning lacks a regularization for state estimation. We then investigate use of a semi-supervised learning approach, and develop a semi-supervised learning-based DANSE method, referred to as SemiDANSE. In the semi-supervised learning, we use a limited amount of labelled data along-with a large amount of unlabelled data, and that helps to bring the desired regularization for BSCM problem in the absence of SSM. The labelled data means pairwise measurement-and-state data. Using three chaotic dynamical systems (or processes) with nonlinear SSMs as benchmark, we show that the data-driven SemiDANSE provides competitive performance for BSCM against three SSM-informed methods - a hybrid method called KalmanNet, and two traditional model-driven methods called extended KF and unscented KF.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# LokiLM: テクニカルレポート

LokiLM: Technical Report ( http://arxiv.org/abs/2407.07370v1 )

ライセンス: Link先を確認
Justin Kiefel, Shrey Shah, (参考訳) 本稿では,500Bトークンでトレーニングされた1.4Bパラメータ大言語モデルであるLokiLMを紹介する。 我々のモデルは自然言語推論タスクにおいて強く機能し、1.5B以下のパラメータを持つモデル間で最先端のパフォーマンスを達成する。 LokiLMはマルチ教師の知識蒸留と高品質のトレーニングデータを用いて訓練され、より多くのトークンで訓練されたより大きなモデルとベンチマーク結果の競合を達成している。 ベンチマークの汚染を回避し、開発プロセス全体を通して過度に適合するステップを導入することで、これらの発見を支援します。 LokiLMは有望な性能にもかかわらず、TruthfulQAベンチマークでは幻覚やスコアが不足しているため、そのモデルを公開していない。

In this work, we introduce LokiLM, a 1.4B parameter large language model trained on 500B tokens. Our model performs strongly in natural language reasoning tasks and achieves state-of-the-art performance among models with 1.5B parameters or less. LokiLM is trained using multi-teacher knowledge distillation and high-quality training data to achieve benchmark results competitive with larger models trained on significantly more tokens. We support these findings by introducing steps to avoid benchmark contamination and overfitting throughout our development process. Despite its promising performance, LokiLM exhibits a concerning amount of hallucinations and scores poorly on the TruthfulQA benchmark, so we do not release the model publicly.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 信頼できるコントラスト強調脳MRI合成

Trustworthy Contrast-enhanced Brain MRI Synthesis ( http://arxiv.org/abs/2407.07372v1 )

ライセンス: Link先を確認
Jiyao Liu, Yuxin Li, Shangqi Gao, Yuncheng Zhou, Xin Gao, Ningsheng Xu, Xiao-Yong Zhang, Xiahai Zhuang, (参考訳) コントラスト強調脳MRI(CE-MRI)は貴重な診断技術であるが、健康リスクを生じ、高いコストがかかる可能性がある。 安全な代替品を作成するために、多モードの医療画像変換は、他の利用可能なモダリティからCE-MRI画像を合成することを目的としている。 既存の手法は有望な予測を生成できるが、彼らはまだ2つの課題に直面している。 以上の課題に対処するため,TrustI2Iは,マルチモーダル回帰問題として複数対1の医用画像翻訳問題を再構成し,不確実性を認識し信頼性の高いシステムを構築することを目的とした,信頼性の高い新しい手法である。 具体的には,予測の不確実性を推定するために深い明解回帰を活用し,正規逆ガンマ(MoNIG)分布の混合に基づく明示的な中間・後期融合戦略を用いて,合成品質と解釈可能性の両方を向上する。 さらに、不確実性の校正を取り入れ、不確実性の信頼性を向上させる。 BraTS2018データセットの検証は、我々のアプローチが現在の手法を超え、合理的な不確実性推定を伴う高品質な画像を生成することを示す。

Contrast-enhanced brain MRI (CE-MRI) is a valuable diagnostic technique but may pose health risks and incur high costs. To create safer alternatives, multi-modality medical image translation aims to synthesize CE-MRI images from other available modalities. Although existing methods can generate promising predictions, they still face two challenges, i.e., exhibiting over-confidence and lacking interpretability on predictions. To address the above challenges, this paper introduces TrustI2I, a novel trustworthy method that reformulates multi-to-one medical image translation problem as a multimodal regression problem, aiming to build an uncertainty-aware and reliable system. Specifically, our method leverages deep evidential regression to estimate prediction uncertainties and employs an explicit intermediate and late fusion strategy based on the Mixture of Normal Inverse Gamma (MoNIG) distribution, enhancing both synthesis quality and interpretability. Additionally, we incorporate uncertainty calibration to improve the reliability of uncertainty. Validation on the BraTS2018 dataset demonstrates that our approach surpasses current methods, producing higher-quality images with rational uncertainty estimation.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# 医学出版物から疾患危険因子の自動抽出

Automatic Extraction of Disease Risk Factors from Medical Publications ( http://arxiv.org/abs/2407.07373v1 )

ライセンス: Link先を確認
Maxim Rubchinsky, Ella Rabinovich, Adi Shraibman, Netanel Golan, Tali Sahar, Dorit Shweiki, (参考訳) 本稿では, バイオメディカル領域の事前学習モデルを利用して, 特定の課題に適応しながら, 医療文献から疾患の危険因子の同定を自動化する新しいアプローチを提案する。 医療記事の多様で非構造的な性質の課題に直面する中で,本研究では,まず関連項目を識別し,リスクファクターの議論の有無に基づいて分類し,最後に,質問応答モデルを用いて疾患の特定の危険因子情報を抽出する多段階システムを提案する。 当社のコントリビューションには、リスクファクタの自動抽出のための包括的なパイプラインの開発や、いくつかのデータセットのコンパイルが含まれています。 これらのデータセットは、広範囲の疾患と関連する危険因子を含み、きめ細かな評価スキームによって慎重に識別され、検証される。 自動的, 徹底的な手動評価を行い, 励振効果を示した。 また、急速に発展する医学研究の分野に合わせて、モデルの改善とデータセットの包括性の拡大が重要であることも強調する。

We present a novel approach to automating the identification of risk factors for diseases from medical literature, leveraging pre-trained models in the bio-medical domain, while tuning them for the specific task. Faced with the challenges of the diverse and unstructured nature of medical articles, our study introduces a multi-step system to first identify relevant articles, then classify them based on the presence of risk factor discussions and, finally, extract specific risk factor information for a disease through a question-answering model. Our contributions include the development of a comprehensive pipeline for the automated extraction of risk factors and the compilation of several datasets, which can serve as valuable resources for further research in this area. These datasets encompass a wide range of diseases, as well as their associated risk factors, meticulously identified and validated through a fine-grained evaluation scheme. We conducted both automatic and thorough manual evaluation, demonstrating encouraging results. We also highlight the importance of improving models and expanding dataset comprehensiveness to keep pace with the rapidly evolving field of medical research.
翻訳日:2024-07-11 17:51:32 公開日:2024-07-10
# DuInNet: ポイントクラウドコンプリートのためのデュアルモダリティ機能インタラクション

DuInNet: Dual-Modality Feature Interaction for Point Cloud Completion ( http://arxiv.org/abs/2407.07374v1 )

ライセンス: Link先を確認
Xinpu Liu, Baolin Hou, Hanyun Wang, Ke Xu, Jianwei Wan, Yulan Guo, (参考訳) マルチモーダル・ポイント・クラウド・コンプリートの開発をさらに促進するため,よりリッチな形状のカテゴリと多種多様なテストデータを備えた大規模マルチモーダル・ポイント・クラウド・コンプリート・ベンチマーク ModelNet-MPC を寄贈した。 完全教師付きポイントクラウド完了タスクに加えて,ModelNet-MPCでは,完成度とゼロショット学習完了度を含む2つのタスクを提案し,実世界のシナリオをシミュレートし,現在の手法のカテゴリ間でのノイズに対する堅牢性と伝達能力を検証する。 一方、既存のマルチモーダル補完パイプラインは、通常一方向融合機構を採用し、画像モダリティに先行する形状を無視するので、本論文では、デュアルモーダル特徴相互作用ネットワーク(DuInNet)を提案する。 DuInNetは、点雲と画像の間の特徴を反復的に相互作用させ、形状の幾何学的特徴とテクスチャ的特徴の両方をデュアル特徴対話器で学習する。 完全教師付き, 復調, ゼロショット学習点雲の完備化といった特定のタスクに適応するため, 適応点生成器はこれらの2つのモードに対して異なる重みを持つブロック内の完全点雲を生成する。 ShapeNet-ViPCとModelNet-MPCベンチマークの大規模な実験により、DuInNetは最先端の手法よりも全ての完了タスクにおいて優位性、堅牢性、転送能力を示すことが示された。 コードとデータセットは近く提供される。

To further promote the development of multimodal point cloud completion, we contribute a large-scale multimodal point cloud completion benchmark ModelNet-MPC with richer shape categories and more diverse test data, which contains nearly 400,000 pairs of high-quality point clouds and rendered images of 40 categories. Besides the fully supervised point cloud completion task, two additional tasks including denoising completion and zero-shot learning completion are proposed in ModelNet-MPC, to simulate real-world scenarios and verify the robustness to noise and the transfer ability across categories of current methods. Meanwhile, considering that existing multimodal completion pipelines usually adopt a unidirectional fusion mechanism and ignore the shape prior contained in the image modality, we propose a Dual-Modality Feature Interaction Network (DuInNet) in this paper. DuInNet iteratively interacts features between point clouds and images to learn both geometric and texture characteristics of shapes with the dual feature interactor. To adapt to specific tasks such as fully supervised, denoising, and zero-shot learning point cloud completions, an adaptive point generator is proposed to generate complete point clouds in blocks with different weights for these two modalities. Extensive experiments on the ShapeNet-ViPC and ModelNet-MPC benchmarks demonstrate that DuInNet exhibits superiority, robustness and transfer ability in all completion tasks over state-of-the-art methods. The code and dataset will be available soon.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 安定したウェイト更新:ディープラーニングを用いた信頼性の高いPDEソリューションの鍵

Stable Weight Updating: A Key to Reliable PDE Solutions Using Deep Learning ( http://arxiv.org/abs/2407.07375v1 )

ライセンス: Link先を確認
A. Noorizadegan, R. Cavoretto, D. L. Young, C. S. Chen, (参考訳) 背景: ディープラーニング技術、特にニューラルネットワークは、計算物理学に革命をもたらし、複雑な偏微分方程式(PDE)を解く強力なツールを提供している。 しかし、特に非線形方程式や時間依存方程式を含むシナリオでは、安定性と効率性の確保は依然として課題である。 方法:本論文では,物理インフォームドニューラルネットワーク(PINN)の安定性と精度向上を目的とした,新しい残差型アーキテクチャであるSimple Highway NetworkとSquared Residual Networkを紹介する。 これらのアーキテクチャは、残りの接続を組み込むことで従来のニューラルネットワークを強化し、よりスムーズなウェイト更新を可能にし、バックプロパゲーション効率を向上させる。 結果: 線形および非線形, 時間依存, 独立なPDEを含む多種多様な数値実験を行い, 提案手法の有効性を実証した。 特にSquared Residual Networkは、従来のニューラルネットワークと比較して安定性と精度の向上を実現し、堅牢なパフォーマンスを示している。 これらの知見は,PDEの深層学習と計算物理応用における残差に基づくアーキテクチャの可能性を明らかにするものである。

Background: Deep learning techniques, particularly neural networks, have revolutionized computational physics, offering powerful tools for solving complex partial differential equations (PDEs). However, ensuring stability and efficiency remains a challenge, especially in scenarios involving nonlinear and time-dependent equations. Methodology: This paper introduces novel residual-based architectures, namely the Simple Highway Network and the Squared Residual Network, designed to enhance stability and accuracy in physics-informed neural networks (PINNs). These architectures augment traditional neural networks by incorporating residual connections, which facilitate smoother weight updates and improve backpropagation efficiency. Results: Through extensive numerical experiments across various examples including linear and nonlinear, time-dependent and independent PDEs we demonstrate the efficacy of the proposed architectures. The Squared Residual Network, in particular, exhibits robust performance, achieving enhanced stability and accuracy compared to conventional neural networks. These findings underscore the potential of residual-based architectures in advancing deep learning for PDEs and computational physics applications.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# スイム変圧器と正規化流モデルを用いたチェレンコフイメージング検出器の深部再構成

Deep(er) Reconstruction of Imaging Cherenkov Detectors with Swin Transformers and Normalizing Flow Models ( http://arxiv.org/abs/2407.07376v1 )

ライセンス: Link先を確認
Cristiano Fanelli, James Giroux, Justin Stevens, (参考訳) チェレンコフ検出器のイメージングは、核物理学と粒子物理学の実験において粒子識別(PID)に不可欠である。 高速再構成アルゴリズムは、ほぼリアルタイムなアライメント、キャリブレーション、データ品質制御、効率的な分析に不可欠である。 将来のElectron-Ion Collider(EIC)では、ePIC検出器は2つのリングイメージングチェレンコフ検出器をハドロン方向に配置し、内部反射チェレンコフ検出器(DIRC)をバレルに配置し、近接焦点RICHを電子方向に配置する。 本稿では,複雑なヒットパターンを示すDIRC検出器に着目し,JLabのGlueX実験において,ピオンとカオンのPIDにも使用される。 We present Deep(er)RICH, a extension of the seminal DeepRICH work, offered improve and faster PID than traditional method and the first time, fast and accurate simulation。 この進歩は、複雑な光学素子を通る光子追跡を含むチェレンコフ検出器シミュレーションにおける大きなボトルネックに対処する。 その結果、視覚変換器、特に階層型スウィン変換器と正規化フローの進歩を生かした。 これらの手法は、実データから直接学習し、複雑なトポロジーの再構築を可能にする。 本研究の意義と今後の拡張について論じることで、将来のEICのような最先端の複数の実験にPIDの能力を提供できると結論付けている。

Imaging Cherenkov detectors are crucial for particle identification (PID) in nuclear and particle physics experiments. Fast reconstruction algorithms are essential for near real-time alignment, calibration, data quality control, and efficient analysis. At the future Electron-Ion Collider (EIC), the ePIC detector will feature a dual Ring Imaging Cherenkov (dual-RICH) detector in the hadron direction, a Detector of Internally Reflected Cherenkov (DIRC) in the barrel, and a proximity focus RICH in the electron direction. This paper focuses on the DIRC detector, which presents complex hit patterns and is also used for PID of pions and kaons in the GlueX experiment at JLab. We present Deep(er)RICH, an extension of the seminal DeepRICH work, offering improved and faster PID compared to traditional methods and, for the first time, fast and accurate simulation. This advancement addresses a major bottleneck in Cherenkov detector simulations involving photon tracking through complex optical elements. Our results leverage advancements in Vision Transformers, specifically hierarchical Swin Transformer and normalizing flows. These methods enable direct learning from real data and the reconstruction of complex topologies. We conclude by discussing the implications and future extensions of this work, which can offer capabilities for PID for multiple cutting-edge experiments like the future EIC.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# カテゴリー型コンパクト遺伝的アルゴリズムの動作条件について

Tail Bounds on the Runtime of Categorical Compact Genetic Algorithm ( http://arxiv.org/abs/2407.07388v1 )

ライセンス: Link先を確認
Ryoki Hamano, Kento Uchida, Shinichi Shirakawa, Daiki Morinaga, Youhei Akimoto, (参考訳) 離散領域における進化的アルゴリズムの理論的分析の大半は二進最適化アルゴリズムに焦点を当てているが、分類領域におけるブラックボックス最適化は多くの実用的な応用がある。 本稿では,分類分布の族を基本分布とする確率論的モデルベースアルゴリズムについて検討し,サンプルサイズを2つに設定する。 本稿では,このアルゴリズムを分類コンパクト遺伝的アルゴリズム (ccGA) と呼ぶ。 ccGAは、効率的なバイナリ最適化アルゴリズムであるコンパクト遺伝的アルゴリズム(cGA)の拡張と見なすことができる。 理論的には、可能なカテゴリ数$K$、次元数$D$、実行時の学習率$\eta$の依存性を分析する。 分類領域上の2つの典型的な線形関数(分類的OneMax(COM)とKVal)上のランタイムのテール境界について検討する。 COM と KVal のランタイムはそれぞれ $O(\sqrt{D} \ln (DK) / \eta)$ と $\Theta(D \ln K/ \eta)$ である。 我々の分析は、二項領域上のcGAの一般化である。

The majority of theoretical analyses of evolutionary algorithms in the discrete domain focus on binary optimization algorithms, even though black-box optimization on the categorical domain has a lot of practical applications. In this paper, we consider a probabilistic model-based algorithm using the family of categorical distributions as its underlying distribution and set the sample size as two. We term this specific algorithm the categorical compact genetic algorithm (ccGA). The ccGA can be considered as an extension of the compact genetic algorithm (cGA), which is an efficient binary optimization algorithm. We theoretically analyze the dependency of the number of possible categories $K$, the number of dimensions $D$, and the learning rate $\eta$ on the runtime. We investigate the tail bound of the runtime on two typical linear functions on the categorical domain: categorical OneMax (COM) and KVal. We derive that the runtimes on COM and KVal are $O(\sqrt{D} \ln (DK) / \eta)$ and $\Theta(D \ln K/ \eta)$ with high probability, respectively. Our analysis is a generalization for that of the cGA on the binary domain.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# Greit-HRNet:人間の姿勢推定のためのグループ軽量高分解能ネットワーク

Greit-HRNet: Grouped Lightweight High-Resolution Network for Human Pose Estimation ( http://arxiv.org/abs/2407.07389v1 )

ライセンス: Link先を確認
Junjia Han, (参考訳) 人間のポーズ推定作業にはマルチスケール機能が必要であるため、高解像度ネットワークが広く適用されている。 通信路重み付けや空間重み付けなど,高解像度ネットワークにおけるコストのかかるポイントワイズ畳み込みを置き換えるために,軽量モジュールを提案する。 しかし、重量の一貫性の維持に失敗し、地球規模の空間情報を収集する。 これらの問題に対処するため、Greit-HRNet(Grouped Light High-Resolution Network)を提案し、GCW(Grouped Channel Weighting)とGSW(Global Space Weighting)を含むGreitブロックを提案する。 GCWモジュール群による条件付きチャネル重み付けにより、重み付けを安定させ、ネットワークの深化に伴う高分解能な特徴を維持する一方、GSWモジュールはグローバル空間情報を効果的に抽出し、チャネル間で情報を交換する。 また、Greit-HRNetの全効率を改善するためにLKA(Large Kernel Attention)手法を適用した。 我々のMS-COCOとMPII人のポーズ推定データセットに関する実験は、Greit-HRNetの優れた性能を示し、他の最先端の軽量ネットワークよりも優れています。

As multi-scale features are necessary for human pose estimation tasks, high-resolution networks are widely applied. To improve efficiency, lightweight modules are proposed to replace costly point-wise convolutions in high-resolution networks, including channel weighting and spatial weighting methods. However, they fail to maintain the consistency of weights and capture global spatial information. To address these problems, we present a Grouped lightweight High-Resolution Network (Greit-HRNet), in which we propose a Greit block including a group method Grouped Channel Weighting (GCW) and a spatial weighting method Global Spatial Weighting (GSW). GCW modules group conditional channel weighting to make weights stable and maintain the high-resolution features with the deepening of the network, while GSW modules effectively extract global spatial information and exchange information across channels. In addition, we apply the Large Kernel Attention (LKA) method to improve the whole efficiency of our Greit-HRNet. Our experiments on both MS-COCO and MPII human pose estimation datasets demonstrate the superior performance of our Greit-HRNet, outperforming other state-of-the-art lightweight networks.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 視覚言語ナビゲーションシステムの表現脆弱性の爆発による悪意経路操作

Malicious Path Manipulations via Exploitation of Representation Vulnerabilities of Vision-Language Navigation Systems ( http://arxiv.org/abs/2407.07392v1 )

ライセンス: Link先を確認
Chashi Mahiul Islam, Shaeke Salman, Montasir Shams, Xiuwen Liu, Piyush Kumar, (参考訳) コマンド理解とマルチモーダル視覚言語変換器のゼロショット認識のための大規模言語モデルの前例のない能力に基づいて、視覚言語ナビゲーション(VLN)は、ロボットナビゲーションへの自然言語インタフェースに対する複数の根本的な課題に対処する有効な方法として登場した。 しかし、そのような視覚言語モデルは、基礎となる埋め込み空間の意味の欠如により本質的に脆弱である。 最近開発された勾配に基づく最適化手法を用いて、視覚言語モデルに対して、全く異なる画像と無関係なテキストの表現を不知覚に修正できることを実証する。 これに基づいて、最小限の画像を逆向きに修正できるアルゴリズムを開発し、多数のランドマークを必要とするコマンドに対して、ロボットが選択した経路に従うようにする。 我々は、最近提案されたVLNシステムを用いて実験を行い、与えられたナビゲーションコマンドに対して、ロボットを劇的に異なる経路をたどることができることを示した。 また、逆修正された画像が元の画像よりもガウス雑音に対する感度が高いという事実に基づいて、そのような悪意のある修正を確実に検出する効率的なアルゴリズムを開発した。

Building on the unprecedented capabilities of large language models for command understanding and zero-shot recognition of multi-modal vision-language transformers, visual language navigation (VLN) has emerged as an effective way to address multiple fundamental challenges toward a natural language interface to robot navigation. However, such vision-language models are inherently vulnerable due to the lack of semantic meaning of the underlying embedding space. Using a recently developed gradient based optimization procedure, we demonstrate that images can be modified imperceptibly to match the representation of totally different images and unrelated texts for a vision-language model. Building on this, we develop algorithms that can adversarially modify a minimal number of images so that the robot will follow a route of choice for commands that require a number of landmarks. We demonstrate that experimentally using a recently proposed VLN system; for a given navigation command, a robot can be made to follow drastically different routes. We also develop an efficient algorithm to detect such malicious modifications reliably based on the fact that the adversarially modified images have much higher sensitivity to added Gaussian noise than the original images.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# MagicPool:大規模フォールトトレラント量子コンピュータにおけるマジックステート蒸留失敗の対処

MagicPool: Dealing with Magic State Distillation Failures on Large-Scale Fault-Tolerant Quantum Computer ( http://arxiv.org/abs/2407.07394v1 )

ライセンス: Link先を確認
Yutaka Hirano, Yasunari Suzuki, Keisuke Fujii, (参考訳) マジック状態蒸留は、マジック状態を生成するための確率的プロセスであり、普遍的なフォールトトレラント量子コンピュータにおいて重要な役割を果たす。 一方、興味深い問題を解決するためには、フォールトトレラントな量子コンピュータ上で複雑なプログラムを実行する必要があり、そのため、システムはハードウェアリソースを効率的に利用する必要がある。 並列性を活用することが大きな最適化戦略であり、コンパイラは並列処理を可能にする最適化を行う責任がある。 しかし、マジック状態蒸留の確率的性質はコンパイル時の最適化とは相容れないため、さらなる実行時遅延が生じる。 追加の実行遅延を低減するため、マジックステートのプールの導入を提案する。 量子回路のシミュレーションを行い、実行時の遅延の大きさと緩和手法の有用性を検証した。 実験の結果, 並列処理により実行遅延が増幅され, プール化により空間コストの小さい実行遅延を効果的に低減できることがわかった。

Magic state distillation, which is a probabilistic process used to generate magic states, plays an important role in universal fault-tolerant quantum computers. On the other hand, to solve interesting problems, we need to run complex programs on fault-tolerant quantum computers, and hence, the system needs to use hardware resources efficiently. Taking advantage of parallelism is a major optimization strategy and compilers are responsible for performing optimizations to allow parallel processing. However, the probabilistic nature of magic state distillation is not compatible with compile-time optimizations and results in an additional run-time delay. To reduce the additional run-time delay, we propose introducing a pool of magic states. We run simulations of quantum circuits to verify the magnitude of the run-time delay and the usefulness of the mitigation approach. The experimental results show that the run-time delay is amplified by parallel processing, and pooling effectively reduces the run-time delay with a small spatial cost.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 低複雑性・切換可能なニューラルラッパーを用いた標準対応ビデオ符号化

Standard compliant video coding using low complexity, switchable neural wrappers ( http://arxiv.org/abs/2407.07395v1 )

ライセンス: Link先を確認
Yueyu Hu, Chenhao Zhang, Onur G. Guleryuz, Debargha Mukherjee, Yao Wang, (参考訳) 高解像度ビデオの普及により、クラウドサービスのストレージと帯域幅のプレッシャーが大きくなり、次世代のビデオコーデックの開発が加速する。 ニューラルビデオコーディングの大幅な進歩にもかかわらず、既存のアプローチは、複雑さとレート歪みパフォーマンスのトレードオフを考慮して、経済的な展開には程遠い。 本稿では、ニューラルビデオ符号化の障害を解消するために、標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。 私たちは、標準的なビデオコーデックをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。 レート歪み最適ダウンサンプリング比は、各目標レートに対するシーケンス単位のデコーダに信号される。 我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。 解像度の変化は高解像度ビデオにおける空間的冗長性を悪用し、ニューラルラッパーはコーデックプロキシによるエンドツーエンド最適化によるレート歪み性能の向上をさらに達成する。 我々の軽量ポストプロセッサアーキテクチャは516MAC/ピクセルの複雑さを持ち、UVGデータセット上のVVCよりも9.3%のBDレート削減、AOM CTCクラスA1では6.4%を実現している。 我々のアプローチは、最小限の複雑さでニューラル処理を使用することで、最新のビデオコーディング標準の性能をさらに向上させる可能性がある。

The proliferation of high resolution videos posts great storage and bandwidth pressure on cloud video services, driving the development of next-generation video codecs. Despite great progress made in neural video coding, existing approaches are still far from economical deployment considering the complexity and rate-distortion performance tradeoff. To clear the roadblocks for neural video coding, in this paper we propose a new framework featuring standard compatibility, high performance, and low decoding complexity. We employ a set of jointly optimized neural pre- and post-processors, wrapping a standard video codec, to encode videos at different resolutions. The rate-distorion optimal downsampling ratio is signaled to the decoder at the per-sequence level for each target rate. We design a low complexity neural post-processor architecture that can handle different upsampling ratios. The change of resolution exploits the spatial redundancy in high-resolution videos, while the neural wrapper further achieves rate-distortion performance improvement through end-to-end optimization with a codec proxy. Our light-weight post-processor architecture has a complexity of 516 MACs / pixel, and achieves 9.3% BD-Rate reduction over VVC on the UVG dataset, and 6.4% on AOM CTC Class A1. Our approach has the potential to further advance the performance of the latest video coding standards using neural processing with minimal added complexity.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 一般化ランダム行列アンサンブルにおけるクリロフのフラクタル性と複雑性

Krylov fractality and complexity in generic random matrix ensembles ( http://arxiv.org/abs/2407.07399v1 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Pratik Nandy, (参考訳) クリロフ空間法は、三対角行列が重要な役割を果たす量子系の力学的な側面を分析するための効率的なフレームワークを提供する。 その重要性にもかかわらず、これらの行列の挙動はカオス状態から可積分状態へ移行し、中間相へと遷移するが、まだ解明されていない。 適切なランダムな行列アンサンブルに対する三角行列要素と関連する基底ベクトルの特性を考慮し、このギャップを埋めることを目指している。 我々は、エルゴード位相と局所位相に加えてフラクタル構造をホストするRosenzweig-Porterモデルを主要な例として用いている。 本稿では,3つの条件(エルゴード,フラクタル,局所化)における行列要素と基底ベクトルの特性について考察し,遷移点を特定するためのツールを紹介する。 ランツォス係数の正確な式は、完全なパラメータ体系をまたいだ$q$-対数関数によって与えられる。 数値結果は、クリロフスペクトルの特定の特徴に対する解析的推論と相関する。 さらに、これらの体制におけるクリロフ状態の複雑さについて検討し、これらの遷移をピンポイントする手法の有効性を示す。

Krylov space methods provide an efficient framework for analyzing the dynamical aspects of quantum systems, with tridiagonal matrices playing a key role. Despite their importance, the behavior of such matrices from chaotic to integrable states, transitioning through an intermediate phase, remains unexplored. We aim to fill this gap by considering the properties of the tridiagonal matrix elements and the associated basis vectors for appropriate random matrix ensembles. We utilize the Rosenzweig-Porter model as our primary example, which hosts a fractal regime in addition to the ergodic and localized phases. We discuss the characteristics of the matrix elements and basis vectors across the three (ergodic, fractal, and localized) regimes and introduce tools to identify the transition points. The exact expressions of the Lanczos coefficients are provided in terms of $q$-logarithmic function across the full parameter regime. The numerical results are corroborated with analytical reasoning for certain features of the Krylov spectra. Additionally, we investigate the Krylov state complexity within these regimes, showcasing the efficacy of our methods in pinpointing these transitions.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# ActionVOS: ビデオオブジェクトセグメンテーションのプロンプトとしてのアクション

ActionVOS: Actions as Prompts for Video Object Segmentation ( http://arxiv.org/abs/2407.07402v1 )

ライセンス: Link先を確認
Liangyang Ouyang, Ruicong Liu, Yifei Huang, Ryosuke Furuta, Yoichi Sato, (参考訳) エゴセントリックなビジョンの領域に足を踏み入れると、ビデオオブジェクトセグメンテーション(RVOS)の進歩は、人間の活動を理解する上で重要なものとなる。 しかし、既存のRVOSタスクは、主にターゲットオブジェクトをセグメント化するためのオブジェクト名のような静的属性に依存し、ターゲットオブジェクトをバックグラウンドオブジェクトと区別したり、状態変更中のオブジェクトを識別する際の課題を提起する。 これらの問題に対処するために、人間のアクションをキー言語プロンプトとして用いたエゴセントリックビデオにおいて、アクティブなオブジェクトのみをセグメンテーションすることを目的とした、アクション対応RVOSセッティングであるActionVOSを提案する。 これは、人間の行動が人間の振舞いを正確に記述しているためであり、それによって相互作用に本当に関わっている物体を識別し、可能な状態変化を理解するのに役立ちます。 私たちはまた、この特定の設定の下で機能するように調整されたメソッドを構築します。 具体的には、効率的な行動誘導焦点損失を有する行動認識ラベルモジュールを開発する。 このような設計により、ActionVOSモデルは、既存の利用可能なアノテーションでアクティブなオブジェクトを優先順位付けできる。 VISORデータセットの実験結果は、ActionVOSが不活性なオブジェクトのミスセグメンテーションを著しく減らし、ActionVOSモデルがオブジェクトの関与を理解するのに役立つことを確認している。 VOSTとVSCOSデータセットのさらなる評価により、新しいActionVOS設定は、オブジェクトの状態変化に伴う困難な状況に遭遇する際のセグメンテーション性能を向上させることが示されている。 実装はhttps://github.com/ut-vision/ActionVOS.comで公開します。

Delving into the realm of egocentric vision, the advancement of referring video object segmentation (RVOS) stands as pivotal in understanding human activities. However, existing RVOS task primarily relies on static attributes such as object names to segment target objects, posing challenges in distinguishing target objects from background objects and in identifying objects undergoing state changes. To address these problems, this work proposes a novel action-aware RVOS setting called ActionVOS, aiming at segmenting only active objects in egocentric videos using human actions as a key language prompt. This is because human actions precisely describe the behavior of humans, thereby helping to identify the objects truly involved in the interaction and to understand possible state changes. We also build a method tailored to work under this specific setting. Specifically, we develop an action-aware labeling module with an efficient action-guided focal loss. Such designs enable ActionVOS model to prioritize active objects with existing readily-available annotations. Experimental results on VISOR dataset reveal that ActionVOS significantly reduces the mis-segmentation of inactive objects, confirming that actions help the ActionVOS model understand objects' involvement. Further evaluations on VOST and VSCOS datasets show that the novel ActionVOS setting enhances segmentation performance when encountering challenging circumstances involving object state changes. We will make our implementation available at https://github.com/ut-vision/ActionVOS.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 大規模視線モデルに対する攻撃調査:資源・進歩・今後の動向

A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends ( http://arxiv.org/abs/2407.07403v1 )

ライセンス: Link先を確認
Daizong Liu, Mingyu Yang, Xiaoye Qu, Pan Zhou, Wei Hu, Yu Cheng, (参考訳) 近年の大規模モデルの発展に伴い、LVLM(Large Vision-Language Models)は多モード理解と推論タスクの幅広い分野において顕著な機能を示した。 LVLMは従来のLarge Language Models (LLMs)と比較して、マルチリソースの現実世界アプリケーションに近づき、マルチモーダル処理の複雑さのため、大きな可能性と課題を示す。 しかし、LVLMsの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせている。 本稿では,既存のLVLM攻撃の様々な形態について概説する。 具体的には、まず、攻撃予備、攻撃課題、攻撃資源を含むLVLMをターゲットにした攻撃の背景を紹介する。 次に,モデル出力を操作する敵攻撃,不正行為のモデル脆弱性を悪用するジェイルブレイク攻撃,プロンプト型とパターンを設計するインジェクション攻撃,モデルトレーニングに影響を与えるデータ中毒など,LVLM攻撃手法の開発を体系的に検討する。 最後に,将来的な研究の方向性について論じる。 我々の調査は、LVLMの脆弱性の現在の状況に関する洞察を提供し、より多くの研究者がLVLM開発における潜在的な安全性問題を探求し緩和するよう促していると信じています。 LVLM攻撃に関する最新の論文は、https://github.com/liudaizong/Awesome-LVLM-Attack.comで継続的に収集されている。

With the significant development of large models in recent years, Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across a wide range of multimodal understanding and reasoning tasks. Compared to traditional Large Language Models (LLMs), LVLMs present great potential and challenges due to its closer proximity to the multi-resource real-world applications and the complexity of multi-modal processing. However, the vulnerability of LVLMs is relatively underexplored, posing potential security risks in daily usage. In this paper, we provide a comprehensive review of the various forms of existing LVLM attacks. Specifically, we first introduce the background of attacks targeting LVLMs, including the attack preliminary, attack challenges, and attack resources. Then, we systematically review the development of LVLM attack methods, such as adversarial attacks that manipulate model outputs, jailbreak attacks that exploit model vulnerabilities for unauthorized actions, prompt injection attacks that engineer the prompt type and pattern, and data poisoning that affects model training. Finally, we discuss promising research directions in the future. We believe that our survey provides insights into the current landscape of LVLM vulnerabilities, inspiring more researchers to explore and mitigate potential safety issues in LVLM developments. The latest papers on LVLM attacks are continuously collected in https://github.com/liudaizong/Awesome-LVLM-Attack.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 注視アノテーションを用いた弱監督型医用画像分割法

Weakly-supervised Medical Image Segmentation with Gaze Annotations ( http://arxiv.org/abs/2407.07406v1 )

ライセンス: Link先を確認
Yuan Zhong, Chenhui Tang, Yumeng Yang, Ruoxi Qi, Kang Zhou, Yuqi Gong, Pheng Ann Heng, Janet H. Hsiao, Qi Dou, (参考訳) 人間の観察パターンを明らかにする視線は、視覚タスクのソリューションにますます取り入れられている。 ディープ・ネットワークを支援するために視線を利用する最近の研究にもかかわらず、医療画像のセグメンテーションのための効果的なアノテーションアプローチとして、視線を利用する研究はほとんどない。 本稿では, 医用画像のセグメンテーションにおいて, 医用画像のセグメンテーションを集中的に管理する手法を提案する。 本研究では,複数のネットワークを識別的人間の注意から訓練するマルチレベルフレームワークを提案する。 さらに、視線ノイズを軽減するために、ピアネットワークが学習したクリーンパターンに対するステアリングモデルにより、ノイズラベルの過度な適合を規則化するために、クロスレベル整合性を利用する。 提案手法は,ポリプと前立腺のセグメンテーションタスクの2つの公開医療データセット上で検証された。 医用セグメンテーションデータセットの拡張として,GazeMedSegと題する高品質な視線データセットをコントリビュートする。 私たちの知る限りでは、医療画像セグメンテーションのための最初の視線データセットである。 実験により, 注視アノテーションは, 従来のラベル効率のよいアノテーション手法よりも, 性能とアノテーションの両面で優れていることが示された。 収集したGearデータとコードは、https://github.com/med-air/GazeMedSeg.comで入手可能です。

Eye gaze that reveals human observational patterns has increasingly been incorporated into solutions for vision tasks. Despite recent explorations on leveraging gaze to aid deep networks, few studies exploit gaze as an efficient annotation approach for medical image segmentation which typically entails heavy annotating costs. In this paper, we propose to collect dense weak supervision for medical image segmentation with a gaze annotation scheme. To train with gaze, we propose a multi-level framework that trains multiple networks from discriminative human attention, simulated with a set of pseudo-masks derived by applying hierarchical thresholds on gaze heatmaps. Furthermore, to mitigate gaze noise, a cross-level consistency is exploited to regularize overfitting noisy labels, steering models toward clean patterns learned by peer networks. The proposed method is validated on two public medical datasets of polyp and prostate segmentation tasks. We contribute a high-quality gaze dataset entitled GazeMedSeg as an extension to the popular medical segmentation datasets. To the best of our knowledge, this is the first gaze dataset for medical image segmentation. Our experiments demonstrate that gaze annotation outperforms previous label-efficient annotation schemes in terms of both performance and annotation time. Our collected gaze data and code are available at: https://github.com/med-air/GazeMedSeg.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# 異なる外観の相互情報計算

Mutual Information calculation on different appearances ( http://arxiv.org/abs/2407.07410v1 )

ライセンス: Link先を確認
Jiecheng Liao, Junhao Lu, Jeff Ji, Jiacheng He, (参考訳) 相互情報には画像アライメントとマッチングに多くの応用があり、主に2つの画像間の統計的依存を測定する能力があるためである。 画像のピクセル強度だけでなく、ピクセル間の空間的関係も考慮している。 本稿では,画像Aが移動対象であり,画像Bが対象対象である画像マッチングに相互情報公式を適用し,画像間の類似性を評価する。 また,エントロピー法と情報ゲイン法を用いて画像の依存性を検証した。 また,異なる環境が同一画像の相互情報に与える影響について検討し,実験とプロットを用いて実証を行った。

Mutual information has many applications in image alignment and matching, mainly due to its ability to measure the statistical dependence between two images, even if the two images are from different modalities (e.g., CT and MRI). It considers not only the pixel intensities of the images but also the spatial relationships between the pixels. In this project, we apply the mutual information formula to image matching, where image A is the moving object and image B is the target object and calculate the mutual information between them to evaluate the similarity between the images. For comparison, we also used entropy and information-gain methods to test the dependency of the images. We also investigated the effect of different environments on the mutual information of the same image and used experiments and plots to demonstrate.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# Pseudo-RIS:画像セグメント参照のための識別型擬似スーパービジョン生成

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation ( http://arxiv.org/abs/2407.07412v1 )

ライセンス: Link先を確認
Seonghoon Yu, Paul Hongsuck Seo, Jeany Son, (参考訳) 画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成するフレームワークを提案する。 これらの疑似監督は、手動ラベリングのコストを伴わずに、監督されたRISメソッドのトレーニングを可能にする。 これを実現するために,既存のセグメンテーションと画像キャプション基礎モデルを導入し,その広範な一般化機能を活用する。 しかし、これらのモデルの素直な組み込みは、ターゲットマスクを特異的に参照しない非識別的な表現を生成する可能性がある。 この課題に対処するために, 特徴あるキャプションを生成する2つの戦略を提案する。 1)「識別的キャプションサンプリング」はキャプションモデルの新しいデコード手法であり、ターゲットに焦点を絞った詳細な単語で複数の表現候補を生成する。 2)「識別性に基づくテキストフィルタリング」により、候補をさらに検証し、低レベルの特徴のある候補をフィルタリングする。 これら2つの戦略は、生成されたテキスト管理がターゲットを他のオブジェクトと区別し、RISアノテーションに適合させることを保証する。 本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。 また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。 さらに,本手法を人間のアノテーションと組み合わせることで,半教師あり学習アプリケーションにおけるその可能性を強調し,さらなる改善がもたらされる。

We propose a new framework that automatically generates high-quality segmentation masks with their referring expressions as pseudo supervisions for referring image segmentation (RIS). These pseudo supervisions allow the training of any supervised RIS methods without the cost of manual labeling. To achieve this, we incorporate existing segmentation and image captioning foundation models, leveraging their broad generalization capabilities. However, the naive incorporation of these models may generate non-distinctive expressions that do not distinctively refer to the target masks. To address this challenge, we propose two-fold strategies that generate distinctive captions: 1) 'distinctive caption sampling', a new decoding method for the captioning model, to generate multiple expression candidates with detailed words focusing on the target. 2) 'distinctiveness-based text filtering' to further validate the candidates and filter out those with a low level of distinctiveness. These two strategies ensure that the generated text supervisions can distinguish the target from other objects, making them appropriate for the RIS annotations. Our method significantly outperforms both weakly and zero-shot SoTA methods on the RIS benchmark datasets. It also surpasses fully supervised methods in unseen domains, proving its capability to tackle the open-world challenge within RIS. Furthermore, integrating our method with human annotations yields further improvements, highlighting its potential in semi-supervised learning applications.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# KpopMT:Kpop Fandomのためのターミノロジー付き翻訳データセット

KpopMT: Translation Dataset with Terminology for Kpop Fandom ( http://arxiv.org/abs/2407.07413v1 )

ライセンス: Link先を確認
JiWoo Kim, Yunsu Kim, JinYeong Bak, (参考訳) 機械は既存のコーパスから学習するが、人間は新しい言語システムを確立し、受け入れるユニークな能力を持っている。 これにより、社会集団の中で、人間の形がユニークな言語システムになる。 これに合わせて、グループ内メンバが独自の用語を使用する社会グループ内の翻訳課題に対処する際のギャップに焦点をあてる。 我々は,このギャップを埋めることを目的としたKpopMTデータセットを提案し,Kpopファンダムをグローバルな人気から社会団体のイニシアチブとして選んだ。 専門家翻訳者は韓国の投稿やコメントに1kの英訳を提供しており、それぞれが社会集団の言語システム内で特定の用語で注釈付けされている。 我々は,KpopMT上のGPTモデルを含む既存の翻訳システムを評価し,その故障事例を同定する。 結果は全体の低得点を示し、翻訳においてグループ固有の用語やスタイルを反映することの難しさを浮き彫りにしている。 KpopMTを公開しています。

While machines learn from existing corpora, humans have the unique capability to establish and accept new language systems. This makes human form unique language systems within social groups. Aligning with this, we focus on a gap remaining in addressing translation challenges within social groups, where in-group members utilize unique terminologies. We propose KpopMT dataset, which aims to fill this gap by enabling precise terminology translation, choosing Kpop fandom as an initiative for social groups given its global popularity. Expert translators provide 1k English translations for Korean posts and comments, each annotated with specific terminology within social groups' language systems. We evaluate existing translation systems including GPT models on KpopMT to identify their failure cases. Results show overall low scores, underscoring the challenges of reflecting group-specific terminologies and styles in translation. We make KpopMT publicly available.
翻訳日:2024-07-11 17:41:30 公開日:2024-07-10
# IoT異常検出のためのグラスマン多様体上のフェデレーションPCA

Federated PCA on Grassmann Manifold for IoT Anomaly Detection ( http://arxiv.org/abs/2407.07421v1 )

ライセンス: Link先を確認
Tung-Anh Nguyen, Long Tan Le, Tuan Dung Nguyen, Wei Bao, Suranga Seneviratne, Choong Seon Hong, Nguyen H. Tran, (参考訳) IoT(Internet of Things)の普及とデバイスの相互接続性の増大により、ネットワークセキュリティは特に異常な活動から、重大な課題に直面している。 従来の機械学習ベースの侵入検知システム(ML-IDS)は、教師付き学習手法を効果的に採用しているが、ラベル付きデータの要件や高次元の課題といった制限がある。 AutoEncodersやGenerative Adversarial Networks (GAN)のような最近の教師なしML-IDSアプローチは、代替ソリューションを提供するが、リソース制約のIoTデバイスへのデプロイや解釈可能性に課題をもたらす。 これらの問題に対処するため,本研究では,主成分分析(PCA)と交互方向法乗算器(ADMM)を活用して,分散データセットの共通表現を学習する,新しい非教師付き異常検出フレームワークであるFedPCAを提案する。 FedPCA フレームワークに基づいて、ユークリッド空間上の FEDPE とグラスマン多様体上の FEDPG という2つのアルゴリズムを提案する。 当社のアプローチは,デバイスレベルでのリアルタイムな脅威検出と緩和を可能にし,プライバシーを確保しつつネットワークのレジリエンスを向上させる。 さらに,提案アルゴリズムは, サブサンプリング方式の下でも理論収束率を伴い, 新たな結果を得た。 UNSW-NB15とTON-IoTデータセットの実験結果から,提案手法は非線形ベースラインに匹敵する異常検出性能を提供するとともに,通信とメモリ効率の大幅な向上を実現し,IoTネットワークの安全性を実証する。

With the proliferation of the Internet of Things (IoT) and the rising interconnectedness of devices, network security faces significant challenges, especially from anomalous activities. While traditional machine learning-based intrusion detection systems (ML-IDS) effectively employ supervised learning methods, they possess limitations such as the requirement for labeled data and challenges with high dimensionality. Recent unsupervised ML-IDS approaches such as AutoEncoders and Generative Adversarial Networks (GAN) offer alternative solutions but pose challenges in deployment onto resource-constrained IoT devices and in interpretability. To address these concerns, this paper proposes a novel federated unsupervised anomaly detection framework, FedPCA, that leverages Principal Component Analysis (PCA) and the Alternating Directions Method Multipliers (ADMM) to learn common representations of distributed non-i.i.d. datasets. Building on the FedPCA framework, we propose two algorithms, FEDPE in Euclidean space and FEDPG on Grassmann manifolds. Our approach enables real-time threat detection and mitigation at the device level, enhancing network resilience while ensuring privacy. Moreover, the proposed algorithms are accompanied by theoretical convergence rates even under a subsampling scheme, a novel result. Experimental results on the UNSW-NB15 and TON-IoT datasets show that our proposed methods offer performance in anomaly detection comparable to nonlinear baselines, while providing significant improvements in communication and memory efficiency, underscoring their potential for securing IoT networks.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# Feshbach結合によるボソニック原子-分子混合系の量子トライティリティ

Quantum Triticality of Bosonic Atomic-Molecular Mixtures with Feshbach Coupling ( http://arxiv.org/abs/2407.07422v1 )

ライセンス: Link先を確認
Yuan-Hong Chen, Dong-Chen Zheng, Renyuan Liao, (参考訳) 等質なボゾン原子-分子混合物とフェシュバッハカップリングの3次元における機能積分定式化を開発した。 相安定性を考慮して,分子超流動(MSF),原子-分子超流動(AMSF),相分離(PS)の3つの領域を特徴とする基底相図を構築した。 このシステムは、3つの領域が交わる最大2つの三臨界点に対応でき、1つの三臨界点が本質的であり、もう1つは条件的である。 厳密には,AMSF相が位相分離線の境界に触れると音速が消えることを示す。 基底状態エネルギーに対する量子ゆらぎの補正と凝縮体の量子的枯渇は、フェシュバッハ結合強度と分子パーセンテージとともに非単調に変化する。 対の振幅、密度構造因子、スピン密度構造因子などの相関関数は、系が相転移を横切るときの特徴的挙動を示す。 我々の研究は、原子-分子混合物の健全な物理を理解するための将来の進歩の道を開く。

We develop a functional integral formulation for a homogeneous bosonic atomic-molecular mixture with Feshbach coupling in three-spatial dimensions. Taking phase stability into account, we establish a rich ground-state phase diagram, which features three regions: molecular superfluid (MSF), atomic-molecular superfluid (AMSF), and phase separation (PS). The system can accommodate up to two tricritical points where the three regions meet, with one tricritical point being intrinsic and the other being conditional. Strikingly, we show that the sound velocity vanishes as the AMSF phase touches on the border of phase separation lines. We find that quantum fluctuations correction to the ground-state energy and quantum depletion of the condensates vary nonmonotonically with Feshbach coupling strength as well as molecular percentage. Correlation functions such as pairing amplitudes, density structure factor and spin density structure factor show characteristic behaviors when the system crosses phase transitions. Our work paves the way for future advancement toward understanding salient physics of atom-molecular mixtures.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 音声言語理解におけるアウト・オブ・ディストリビューションの一般化

Out-of-distribution generalisation in spoken language understanding ( http://arxiv.org/abs/2407.07425v1 )

ライセンス: Link先を確認
Dejan Porjazovski, Anssi Moisio, Mikko Kurimo, (参考訳) テストデータは、トレーニングデータと予期せず異なる場合、アウト・オブ・ディストリビューション(OOD)と呼ばれる。 近年、OODの一般化が注目されているが、音声言語理解(SLU)タスクにおけるOODの一般化に焦点を当てた研究はほとんどない。 本稿では,SLUタスクにおけるOOD一般化テストのためのデータ分割を特徴とする,SLUデータセットSLURPの修正版を紹介する。 修正データセットをSLURP for OOD Generalization(SLURPFOOD)と呼びます。 OODデータ分割を利用すると、エンドツーエンドのSLUモデルには一般化のための限られた能力があることがわかった。 さらに,モデル解釈可能性手法を用いることで,モデルの一般化困難に寄与する要因を明らかにした。 一般化を改善するために,新たな技術の必要性を強調した2つの手法を実験した。

Test data is said to be out-of-distribution (OOD) when it unexpectedly differs from the training data, a common challenge in real-world use cases of machine learning. Although OOD generalisation has gained interest in recent years, few works have focused on OOD generalisation in spoken language understanding (SLU) tasks. To facilitate research on this topic, we introduce a modified version of the popular SLU dataset SLURP, featuring data splits for testing OOD generalisation in the SLU task. We call our modified dataset SLURP For OOD generalisation, or SLURPFOOD. Utilising our OOD data splits, we find end-to-end SLU models to have limited capacity for generalisation. Furthermore, by employing model interpretability techniques, we shed light on the factors contributing to the generalisation difficulties of the models. To improve the generalisation, we experiment with two techniques, which improve the results on some, but not all the splits, emphasising the need for new techniques.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# Open-Vocabulary Video Instance Segmentationのための統一埋め込みアライメント

Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2407.07427v1 )

ライセンス: Link先を確認
Hao Fang, Peng Wu, Yawei Li, Xinxin Zhang, Xiankai Lu, (参考訳) Open-Vocabulary Video Instance Segmentation (VIS)は、任意のオブジェクトをセグメンテーションし追跡する能力によって、注目を集めている。 しかし、最近のOpen-Vocabulary VISの試みは、特に新しいカテゴリの一般化能力に関して、不満足な結果を得た。 VLM機能(例えばCLIP)とインスタンスクエリのドメインギャップと時間的一貫性の未利用が2つの中心的な原因であることが判明した。 これらの問題を緩和するために、我々はOVFormerと呼ばれる新しいOpen-Vocabulary VISベースラインを設計し、訓練する。 OVFormerは軽量なモジュールを使用して、クエリの埋め込みとCLIPイメージの埋め込みを統合してドメインギャップを修復する。 従来の画像ベーストレーニングとは異なり、ビデオベースのモデルトレーニングを行い、ビデオ内の時間的一貫性を完全にマイニングする半オンライン推論スキームをデプロイする。 ベルとホイッスルがなければ、OVFormerはLV-VISのResNet-50バックボーンで21.9mAPを達成した。 いくつかの近接語彙VISデータセットに対する大規模な実験は、OVFormerの強いゼロショット一般化能力(YouTube-VIS 2019では7.6 mAP、OVISでは3.9 mAP)も示している。 コードはhttps://github.com/fanghaook/OVFormer.comで入手できる。

Open-Vocabulary Video Instance Segmentation (VIS) is attracting increasing attention due to its ability to segment and track arbitrary objects. However, the recent Open-Vocabulary VIS attempts obtained unsatisfactory results, especially in terms of generalization ability of novel categories. We discover that the domain gap between the VLM features (e.g., CLIP) and the instance queries and the underutilization of temporal consistency are two central causes. To mitigate these issues, we design and train a novel Open-Vocabulary VIS baseline called OVFormer. OVFormer utilizes a lightweight module for unified embedding alignment between query embeddings and CLIP image embeddings to remedy the domain gap. Unlike previous image-based training methods, we conduct video-based model training and deploy a semi-online inference scheme to fully mine the temporal consistency in the video. Without bells and whistles, OVFormer achieves 21.9 mAP with a ResNet-50 backbone on LV-VIS, exceeding the previous state-of-the-art performance by 7.7. Extensive experiments on some Close-Vocabulary VIS datasets also demonstrate the strong zero-shot generalization ability of OVFormer (+ 7.6 mAP on YouTube-VIS 2019, + 3.9 mAP on OVIS). Code is available at https://github.com/fanghaook/OVFormer.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# エンタープライズアプリケーションアーキテクチャにおけるAPIリファクタリングの概念フレームワーク

A Conceptual Framework for API Refactoring in Enterprise Application Architectures ( http://arxiv.org/abs/2407.07428v1 )

ライセンス: Link先を確認
Fabrizio Montesi, Marco Peressotti, Valentino Picotti, Olaf Zimmermann, (参考訳) エンタープライズアプリケーションはサービス指向アーキテクチャとして構築されることが多く、個々のサービスは特定の機能を実行し、適切に定義されたAPI(アプリケーション・プログラミング・インタフェース)によって相互にやりとりするように設計されています。 エンタープライズアプリケーションのアーキテクチャは、ビジネス要件の変更に対応するために、時間とともに進化します。 この進化には,適切なAPIリファクタリングを通じて実現可能な,サービスが提供するAPIの変更が必要になるかも知れない。 APIリファクタリングに関するこれまでの研究は、API定義への影響に焦点をあてており、関連する力や臭いを概ね考慮していた。 これまでのところ、これらのリファクタリングを実現するための開発戦略はほとんど注目を集めていません。 この論文はまさにこの側面に対処する。 APIリファクタリングの実装のための概念的フレームワークを紹介します。 私たちのフレームワークには重要なトレードオフと選択肢があり、結果として生じるアーキテクチャの効率性、保守性、分離性に大きな影響を与えます。 フレームワークは、異なる選択で確立されたAPIパターンを導入するいくつかのリファクタリングを実装することで検証します。 私たちの作業は、初めて、特定のプログラミング言語機能がAPIリファクタリングの適用における摩擦を減らし、よりアーキテクチャ的な選択をオープンにすることを可能にします。

Enterprise applications are often built as service-oriented architectures, where the individual services are designed to perform specific functions and interact with each other by means of well-defined APIs (Application Programming Interfaces). The architecture of an enterprise application evolves over time, in order to adapt to changing business requirements. This evolution might require changes to the APIs offered by services, which can be achieved through appropriate API refactorings. Previous studies on API refactoring focused on the effects on API definitions, with general considerations on related forces and smells. So far, instead, the development strategy for realising these refactorings has received little attention. This paper addresses exactly this aspect. We introduce a conceptual framework for the implementation of API refactorings. Our framework elicits that there are important trade-offs and choices, which significantly affect the efficiency, maintainability, and isolation properties of the resulting architecture. We validate our framework by implementing several refactorings that introduce established API patterns with different choices, which illustrates the guiding principles offered by our framework. Our work also elicits, for the first time, how certain programming language features can reduce friction in applying API refactoring and open up more architectural choices.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 思考プロンプトの連鎖を考慮した制御可能なナビゲーション命令生成

Controllable Navigation Instruction Generation with Chain of Thought Prompting ( http://arxiv.org/abs/2407.07433v1 )

ライセンス: Link先を確認
Xianghao Kong, Jinyu Chen, Wenguan Wang, Hang Su, Xiaolin Hu, Yi Yang, Si Liu, (参考訳) インストラクション・ジェネレーションは、幅広い用途を持つ重要かつ多分野の研究分野である。 既存の命令生成モデルは、特定のデータセットから単一のスタイルで命令を生成することに限定されており、生成された命令のスタイルと内容は制御できない。 さらに,既存の命令生成手法もナビゲーション環境の空間的モデリングを無視している。 本稿では,Large Language Models (LLM) の機能を活用し,C-Instructorを提案する。 まず,ランドマークを用いた思考の連鎖(CoTL)機構を提案する。 CoTLは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。 さらに,環境の空間構造を理解するための空間トポロジモデリングタスクを提案する。 最後に、1つのモデルインスタンス内の異なるプロンプトに基づいて命令生成のためのスタイル制御を可能にするために、LLMの事前知識を活用するスタイルミキシングトレーニングポリシーを導入する。 C-インストラクタが生成した命令は,テキストメトリクス,ナビゲーション指導評価,ユーザスタディにおいて,従来の手法で生成された命令よりも優れていた。

Instruction generation is a vital and multidisciplinary research area with broad applications. Existing instruction generation models are limited to generating instructions in a single style from a particular dataset, and the style and content of generated instructions cannot be controlled. Moreover, most existing instruction generation methods also disregard the spatial modeling of the navigation environment. Leveraging the capabilities of Large Language Models (LLMs), we propose C-Instructor, which utilizes the chain-of-thought-style prompt for style-controllable and content-controllable instruction generation. Firstly, we propose a Chain of Thought with Landmarks (CoTL) mechanism, which guides the LLM to identify key landmarks and then generate complete instructions. CoTL renders generated instructions more accessible to follow and offers greater controllability over the manipulation of landmark objects. Furthermore, we present a Spatial Topology Modeling Task to facilitate the understanding of the spatial structure of the environment. Finally, we introduce a Style-Mixed Training policy, harnessing the prior knowledge of LLMs to enable style control for instruction generation based on different prompts within a single model instance. Extensive experiments demonstrate that instructions generated by C-Instructor outperform those generated by previous methods in text metrics, navigation guidance evaluation, and user studies.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 混合可変ブラックボックス最適化におけるアルゴリズム選択のためのターゲットとSHAPのハイブリッド化

Hybridizing Target- and SHAP-encoded Features for Algorithm Selection in Mixed-variable Black-box Optimization ( http://arxiv.org/abs/2407.07439v1 )

ライセンス: Link先を確認
Konstantin Dietrich, Raphael Patrick Prager, Carola Doerr, Heike Trautmann, (参考訳) 探索ランドスケープ解析(ELA)は,数値的特徴により最適化問題を特徴づけるツールである。 ELAは問題理解、アルゴリズム設計、自動アルゴリズムの選択や設定などのアプリケーションに使われている。 しかし最近まで、ERAは連続変数または離散変数を持つ探索空間に限られており、混合変数の問題を無視していた。 このギャップは、ターゲットエンコーディングに基づくアプローチを用いて、混合変数問題に対する探索的景観特徴を計算する最近の研究で解決された。 本研究では,SHAP値に基づく代替符号化方式について検討する。 これらの特徴は、以前の研究で考慮されたアルゴリズム選択設定において、より良い結果をもたらすものではないが、2つの異なる符号化機構は相補的な性能を示す。 両方の機能セットをハイブリッドなアプローチに組み合わせることで、各エンコーディングメカニズムを個別にパフォーマンスが向上する。 最後に,2つの特徴集合間のメタ選択方法について実験を行った。 どちらのアプローチも、ターゲット符号化された特徴セットとSHAP符号化された特徴セットで訓練されたモデルのパフォーマンスの相補性を利用することができる。

Exploratory landscape analysis (ELA) is a well-established tool to characterize optimization problems via numerical features. ELA is used for problem comprehension, algorithm design, and applications such as automated algorithm selection and configuration. Until recently, however, ELA was limited to search spaces with either continuous or discrete variables, neglecting problems with mixed variable types. This gap was addressed in a recent study that uses an approach based on target-encoding to compute exploratory landscape features for mixedvariable problems. In this work, we investigate an alternative encoding scheme based on SHAP values. While these features do not lead to better results in the algorithm selection setting considered in previous work, the two different encoding mechanisms exhibit complementary performance. Combining both feature sets into a hybrid approach outperforms each encoding mechanism individually. Finally, we experiment with two different ways of meta-selecting between the two feature sets. Both approaches are capable of taking advantage of the performance complementarity of the models trained on target-encoded and SHAP-encoded feature sets, respectively.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# HAFormer: 軽量セマンティックセマンティックセグメンテーションのための階層型機能の拡張

HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation ( http://arxiv.org/abs/2407.07441v1 )

ライセンス: Link先を確認
Guoan Xu, Wenjing Jia, Tao Wu, Ligeng Chen, Guangwei Gao, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、セマンティックセグメンテーションタスクにおいて大きな成功を収めている。 CNNとTransformerモデルを統合することで、ローカルとグローバルの両方のコンテキストインタラクションをキャプチャする。 しかし、特に計算資源の制約を考慮すると、拡張の余地は残っている。 本稿では,CNNの階層的特徴抽出能力とトランスフォーマーのグローバル依存性モデリング能力を組み合わせて,軽量なセマンティックセグメンテーション課題に取り組むモデルであるHAFormerを紹介する。 具体的には、適応型マルチスケール局所特徴抽出のための階層型画素励起(HAPE)モジュールを設計する。 グローバルな知覚モデルにおいて、従来の変換器と関連する2次計算を合理化する効率的な変換器(ET)モジュールを考案する。 さらに、相関重み付きFusion(cwF)モジュールは、様々な特徴表現を選択的にマージし、予測精度を大幅に向上させる。 HAFormerは、最小の計算オーバーヘッドとコンパクトなモデルサイズでハイパフォーマンスを実現し、Cityscapesでは74.2\% mIoU、CamVidテストデータセットでは71.1\% mIoU、単一の2080Ti GPUでは105FPSと118FPSである。 ソースコードは、textit{https://github.com/XU-GITHUB-curry/HAFormer}で入手できる。

Both Convolutional Neural Networks (CNNs) and Transformers have shown great success in semantic segmentation tasks. Efforts have been made to integrate CNNs with Transformer models to capture both local and global context interactions. However, there is still room for enhancement, particularly when considering constraints on computational resources. In this paper, we introduce HAFormer, a model that combines the hierarchical features extraction ability of CNNs with the global dependency modeling capability of Transformers to tackle lightweight semantic segmentation challenges. Specifically, we design a Hierarchy-Aware Pixel-Excitation (HAPE) module for adaptive multi-scale local feature extraction. During the global perception modeling, we devise an Efficient Transformer (ET) module streamlining the quadratic calculations associated with traditional Transformers. Moreover, a correlation-weighted Fusion (cwF) module selectively merges diverse feature representations, significantly enhancing predictive accuracy. HAFormer achieves high performance with minimal computational overhead and compact model size, achieving 74.2\% mIoU on Cityscapes and 71.1\% mIoU on CamVid test datasets, with frame rates of 105FPS and 118FPS on a single 2080Ti GPU. The source codes are available at \textit{https://github.com/XU-GITHUB-curry/HAFormer}.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 遅延グラフ拡散を用いた二次構造誘導型新規タンパク質配列生成

Secondary Structure-Guided Novel Protein Sequence Generation with Latent Graph Diffusion ( http://arxiv.org/abs/2407.07443v1 )

ライセンス: Link先を確認
Yutong Hu, Yang Tan, Andi Han, Lirong Zheng, Liang Hong, Bingxin Zhou, (参考訳) ディープラーニングの出現は、de novoタンパク質配列設計のための効率的なアプローチを導入し、成功率を大幅に改善し、計算や実験手法と比較して開発コストを削減した。 しかし、既存の手法では、重要な構造的特徴を維持しながら、様々な長さと形状のタンパク質を生成することの難しさに直面している。 これらの課題に対処するために,粗粒二次構造情報に基づいてタンパク質配列を生成する潜在グラフ拡散モデルであるPDiffusion-SSを導入する。 CPDiffusion-SSは、全体的な構造的制約を保ちながら、様々な新しいアミノ酸配列を生産する際の柔軟性を高め、生成したタンパク質の信頼性と多様性を高める。 実験により, CPDiffusion-SSは, 様々な定量的測定値のオープンベンチマークにおいて, 一般的なベースライン法を上回り, 多様な, 新規なシーケンスを生成する上で, 提案手法の有意な優位性を示す。 さらに,提案手法による世代業績の生物学的意義を明らかにするために,一連のケーススタディを提案する。 ソースコードはhttps://github.com/riacd/CPDiffusion-SSで公開されている。

The advent of deep learning has introduced efficient approaches for de novo protein sequence design, significantly improving success rates and reducing development costs compared to computational or experimental methods. However, existing methods face challenges in generating proteins with diverse lengths and shapes while maintaining key structural features. To address these challenges, we introduce CPDiffusion-SS, a latent graph diffusion model that generates protein sequences based on coarse-grained secondary structural information. CPDiffusion-SS offers greater flexibility in producing a variety of novel amino acid sequences while preserving overall structural constraints, thus enhancing the reliability and diversity of generated proteins. Experimental analyses demonstrate the significant superiority of the proposed method in producing diverse and novel sequences, with CPDiffusion-SS surpassing popular baseline methods on open benchmarks across various quantitative measurements. Furthermore, we provide a series of case studies to highlight the biological significance of the generation performance by the proposed method. The source code is publicly available at https://github.com/riacd/CPDiffusion-SS
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# EDHOC:新しいセキュリティハンドシェイク標準:セキュリティ分析の概要

EDHOC is a New Security Handshake Standard: An Overview of Security Analysis ( http://arxiv.org/abs/2407.07444v1 )

ライセンス: Link先を確認
Elsa López Pérez, Inria Göran Selander, John Preuß Mattsson, Thomas Watteyne, Mališa Vučinić, (参考訳) 本報告では,新たなセキュリティハンドシェイクプロトコルEDHOCについて,標準化されたプロトコルの概要,コミュニティによる公式なセキュリティ分析の概要,今後の作業のためのオープンな会場に関する議論をまとめて,公式なセキュリティハンドシェイクプロトコルEDHOCの正式な分析を呼び掛けている。

The paper wraps up the call for formal analysis of the new security handshake protocol EDHOC by providing an overview of the protocol as it was standardized, a summary of the formal security analyses conducted by the community, and a discussion on open venues for future work.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 機械学習におけるデータ圧縮のための低差点を用いた実験的検討

Using Low-Discrepancy Points for Data Compression in Machine Learning: An Experimental Comparison ( http://arxiv.org/abs/2407.07450v1 )

ライセンス: Link先を確認
Simone Göttlich, Jacob Heieck, Andreas Neuenkirch, (参考訳) 低差分点(英: Low-discrepancy point)または準モンテカルロ点(英: Quasi-Monte Carlo point)は、単位立方体内の決定的かつ巧妙に選択された点集合であり、一様分布の近似を与える。 ニューラルネットワークのトレーニングのために,そのような低差点に基づく2つの手法を探索し,大規模なデータセットを削減する。 1つはDick and Feischl[4]の手法で、これはデジタルネットと平均化手順に依存している。 実験結果に触発され,デジタルネットを用いた第2の手法を構築した。 どちらの手法も、K平均クラスタリングアルゴリズムの変種である[14]の超圧縮アプローチと比較される。 この比較は、異なる目的関数に対する圧縮誤差とニューラルネットワークのトレーニングの精度の観点から行われる。

Low-discrepancy points (also called Quasi-Monte Carlo points) are deterministically and cleverly chosen point sets in the unit cube, which provide an approximation of the uniform distribution. We explore two methods based on such low-discrepancy points to reduce large data sets in order to train neural networks. The first one is the method of Dick and Feischl [4], which relies on digital nets and an averaging procedure. Motivated by our experimental findings, we construct a second method, which again uses digital nets, but Voronoi clustering instead of averaging. Both methods are compared to the supercompress approach of [14], which is a variant of the K-means clustering algorithm. The comparison is done in terms of the compression error for different objective functions and the accuracy of the training of a neural network.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 検出アルゴリズムを用いたミサイル検出・破壊ロボット

Missile Detection and Destruction robot using Detection Algorithm ( http://arxiv.org/abs/2407.07452v1 )

ライセンス: Link先を確認
Md Kamrul Siam, (参考訳) この研究は、バングラデシュでシステムを実装するための費用対効果の高いソリューションを見つけるために、世界の現在のミサイル検出技術とこれらの技術の分析に基づいている。 本論文は、電気光学センサーとパルスドップラーレーダーを用いたミサイル検出技術について考察する。 システムは標的ミサイルを検出するために作られています。 超音波ソナー、金属探知センサー、煙探知センサーの助けを借りて自動検出と破壊を行う。 このシステムは主に超音波ソナーセンサーをベースとしている。 トランスデューサ、送信機、受信機を備える。 Transducerはコントローラに接続されている。 アルゴリズムに従って物体を検出すると、その距離と角度が分かる。 また、他のアルゴリズムのシミュレーションを使うことで、システムがオブジェクトを破壊することができるかどうかを確認することもできる。

This research is based on the present missile detection technologies in the world and the analysis of these technologies to find a cost effective solution to implement the system in Bangladesh. The paper will give an idea of the missile detection technologies using the electro-optical sensor and the pulse doppler radar. The system is made to detect the target missile. Automatic detection and destruction with the help of ultrasonic sonar, a metal detector sensor, and a smoke detector sensor. The system is mainly based on an ultrasonic sonar sensor. It has a transducer, a transmitter, and a receiver. Transducer is connected with the connected with controller. When it detects an object by following the algorithm, it finds its distance and angle. It can also assure whether the system can destroy the object or not by using another algorithm's simulation.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# CM-DQN:確認バイアスをシミュレートする価値に基づく深層強化学習モデル

CM-DQN: A Value-Based Deep Reinforcement Learning Model to Simulate Confirmation Bias ( http://arxiv.org/abs/2407.07454v1 )

ライセンス: Link先を確認
Jiacheng Shen, Lihan Feng, (参考訳) 人間の意思決定タスクでは、個人は試行錯誤を通じて学習する。 個人がタスクを学ぶとき、良い結果の影響を受けやすいものもあれば、悪い結果の重み付けをするものもある。 このような確認バイアスは、異なる学習効果をもたらす可能性がある。 本研究では,タスクの状態が連続である場合,その動作が離散的である場合に,人間の意思決定過程をシミュレートするために,肯定的あるいは否定的な予測誤りに対する異なる更新戦略の考え方を適用した,Deep Reinforcement Learning(CM-DQN)の新たなアルゴリズムを提案する。 我々は,Lunar Lander環境において,確認的,不確認的バイアス,非バイアスを用いて学習効果を観察する。 さらに,提案アルゴリズムと同一の考え方を取り入れたマルチアームバンディット問題(離散状態と離散動作の環境)における検証モデルを,コントラスト実験として適用し,決定過程における異なる確認バイアスの影響をアルゴリズム的にシミュレートする。 どちらの実験でも、確認バイアスはより良い学習効果を示す。 私たちのコードは、https://github.com/Patrickhshs/CM-DQN.comで参照できます。

In human decision-making tasks, individuals learn through trials and prediction errors. When individuals learn the task, some are more influenced by good outcomes, while others weigh bad outcomes more heavily. Such confirmation bias can lead to different learning effects. In this study, we propose a new algorithm in Deep Reinforcement Learning, CM-DQN, which applies the idea of different update strategies for positive or negative prediction errors, to simulate the human decision-making process when the task's states are continuous while the actions are discrete. We test in Lunar Lander environment with confirmatory, disconfirmatory bias and non-biased to observe the learning effects. Moreover, we apply the confirmation model in a multi-armed bandit problem (environment in discrete states and discrete actions), which utilizes the same idea as our proposed algorithm, as a contrast experiment to algorithmically simulate the impact of different confirmation bias in decision-making process. In both experiments, confirmatory bias indicates a better learning effect. Our code can be found here https://github.com/Patrickhshs/CM-DQN.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# GothX: カスタマイズ可能で合法的で悪意のあるIoTネットワークトラフィックのジェネレータ

GothX: a generator of customizable, legitimate and malicious IoT network traffic ( http://arxiv.org/abs/2407.07456v1 )

ライセンス: Link先を確認
Manuel Poisson, Kensuke Fukuda, Rodrigo Carnier, (参考訳) 近年、機械学習に基づく異常検出(AD)は、IoT(Internet of Things)ネットワークからのセキュリティ脅威に対する重要な対策となっている。 ネットワークトラフィックADのための機械学習(ML)モデルでは、データセットをトレーニング、評価、比較する必要がある。 IoTセキュリティ脅威の現実的で最新の表現が必要なため、関連するADモデルをトレーニングするためには、新しいデータセットを常に生成する必要がある。 ほとんどのトラフィック生成セットアップは著者の使用のみを考慮して開発されているため、トラフィック生成の複製は有用なデータセットの作成とメンテナンスに新たな課題となる。 本研究では,IoTデータセットの正当性と悪意のあるトラフィックを生成するフレキシブルなトラフィックジェネレータであるGothXを提案する。 Gotham Testbedのフォークとして、GothXは5つの要件で開発されている。 2)交通パラメータのカスタマイズ 3)正当性及び攻撃シナリオの自動実行 4)IoTネットワークの不均一性(現在のイテレーションではMQTT、Kafka、SINETStreamサービスをサポートしている)、 5) 生成されたデータセットの自動ラベル付け。 GothXは2つのユースケースで検証される。 a) IoTデータセットMQTTsetからのトラフィックの再生と強化 b) Kafka-MQTTネットワークトポロジに特有のCVEの利用やDDoS攻撃など、新たな現実的なシナリオの自動実行。 また、混在トラフィックを含む2つのデータセットにもコントリビュートしています。 我々は,GothXのスケーラビリティ,ユースケースのレプリケーション,生成したデータセットの妥当性を評価し,ネットワークトラフィック生成の現状を改善する上でのGothXの能力を確認した。

In recent years, machine learning-based anomaly detection (AD) has become an important measure against security threats from Internet of Things (IoT) networks. Machine learning (ML) models for network traffic AD require datasets to be trained, evaluated and compared. Due to the necessity of realistic and up-to-date representation of IoT security threats, new datasets need to be constantly generated to train relevant AD models. Since most traffic generation setups are developed considering only the author's use, replication of traffic generation becomes an additional challenge to the creation and maintenance of useful datasets. In this work, we propose GothX, a flexible traffic generator to create both legitimate and malicious traffic for IoT datasets. As a fork of Gotham Testbed, GothX is developed with five requirements: 1)easy configuration of network topology, 2) customization of traffic parameters, 3) automatic execution of legitimate and attack scenarios, 4) IoT network heterogeneity (the current iteration supports MQTT, Kafka and SINETStream services), and 5) automatic labeling of generated datasets. GothX is validated by two use cases: a) re-generation and enrichment of traffic from the IoT dataset MQTTset,and b) automatic execution of a new realistic scenario including the exploitation of a CVE specific to the Kafka-MQTT network topology and leading to a DDoS attack. We also contribute with two datasets containing mixed traffic, one made from the enriched MQTTset traffic and another from the attack scenario. We evaluated the scalability of GothX (450 IoT sensors in a single machine), the replication of the use cases and the validity of the generated datasets, confirming the ability of GothX to improve the current state-of-the-art of network traffic generation.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# GLBench: 大規模言語モデルによるグラフの総合ベンチマーク

GLBench: A Comprehensive Benchmark for Graph with Large Language Models ( http://arxiv.org/abs/2407.07457v1 )

ライセンス: Link先を確認
Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li, (参考訳) 大規模言語モデル(LLM)の出現は、グラフとのインタラクション方法に革命をもたらし、GraphLLMと呼ばれる新しいパラダイムにつながった。 近年のGraphLLM手法の急速な発展にもかかわらず、一貫した実験プロトコルによるベンチマークが欠如しているため、この分野の進歩と理解はいまだに不明である。 このギャップを埋めるために、GLBenchを紹介します。これは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための、最初の包括的なベンチマークです。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。 一貫性のあるデータ処理と分割戦略を備えた実世界のデータセットのコレクションに関する広範な実験を通じて、いくつかの重要な発見が明らかになった。 まず、GraphLLMメソッドは教師付き設定において従来のベースラインよりも優れており、LLM-as-enhancerは最も堅牢なパフォーマンスを示している。 しかし、予測子としてLLMを使うことは効果が低く、しばしば制御不能な出力問題を引き起こす。 また、現在のGraphLLMメソッドには明確なスケーリング法則は存在しないことに気付きました。 さらに、構造と意味論は効果的なゼロショット転送に不可欠であり、提案した単純なベースラインはゼロショットシナリオに適したモデルよりも優れている。 ベンチマークのデータとコードはhttps://github.com/NineAbyss/GLBenchで確認できる。

The emergence of large language models (LLMs) has revolutionized the way we interact with graphs, leading to a new paradigm called GraphLLM. Despite the rapid development of GraphLLM methods in recent years, the progress and understanding of this field remain unclear due to the lack of a benchmark with consistent experimental protocols. To bridge this gap, we introduce GLBench, the first comprehensive benchmark for evaluating GraphLLM methods in both supervised and zero-shot scenarios. GLBench provides a fair and thorough evaluation of different categories of GraphLLM methods, along with traditional baselines such as graph neural networks. Through extensive experiments on a collection of real-world datasets with consistent data processing and splitting strategies, we have uncovered several key findings. Firstly, GraphLLM methods outperform traditional baselines in supervised settings, with LLM-as-enhancers showing the most robust performance. However, using LLMs as predictors is less effective and often leads to uncontrollable output issues. We also notice that no clear scaling laws exist for current GraphLLM methods. In addition, both structures and semantics are crucial for effective zero-shot transfer, and our proposed simple baseline can even outperform several models tailored for zero-shot scenarios. The data and code of the benchmark can be found at https://github.com/NineAbyss/GLBench.
翻訳日:2024-07-11 17:31:45 公開日:2024-07-10
# 機械学習によるミリ波無線送受信回路の設計

Machine Learning Assisted Design of mmWave Wireless Transceiver Circuits ( http://arxiv.org/abs/2407.07458v1 )

ライセンス: Link先を確認
Xuzhe Zhao, (参考訳) 第5世代 (5G) と第6世代 (6G) 通信は、比較的低レイテンシで高いデータスループットを提供するという大きな要求を示すため、ミリ波 (mmWave) 技術は、想定されるパフォーマンスとタスクを達成するための鍵となるコンポーネントである。 この文脈において、mWave集積回路(IC)は、個々のブロック設計から複雑なシステム設計まで、過去数十年にわたって大きな研究関心を集めてきた。 しかし、非常に非線形な特性と複雑なトレードオフは、アナログ回路やRF回路の設計を複雑なプロセスで行う。 製造技術の急速な進化により、より厳密な要求のために設計プロセスに割り当てられる時間が長くなる。 この論文では、28GHzのトランシーバ回路を詳細な設計図と関連する性能指標を用いて検討した。 この場合、異種個別ブロックからなる2つのターゲット系が選択され、送信側と受信側の両方で実証される。 その後、いくつかの従来の大規模機械学習(ML)アプローチが選択されたシステムの設計パイプラインに統合され、所望の仕様に基づいて回路パラメータを予測する。 最後に、回路設計とMLアルゴリズムの観点から、潜在的研究の方向性について議論する。

As fifth-generation (5G) and upcoming sixth-generation (6G) communications exhibit tremendous demands in providing high data throughput with a relatively low latency, millimeter-wave (mmWave) technologies manifest themselves as the key enabling components to achieve the envisioned performance and tasks. In this context, mmWave integrated circuits (IC) have attracted significant research interests over the past few decades, ranging from individual block design to complex system design. However, the highly nonlinear properties and intricate trade-offs involved render the design of analog or RF circuits a complicated process. The rapid evolution of fabrication technology also results in an increasingly long time allocated in the design process due to more stringent requirements. In this thesis, 28-GHz transceiver circuits are first investigated with detailed schematics and associated performance metrics. In this case, two target systems comprising heterogeneous individual blocks are selected and demonstrated on both the transmitter and receiver sides. Subsequently, some conventional and large-scale machine learning (ML) approaches are integrated into the design pipeline of the chosen systems to predict circuit parameters based on desired specifications, thereby circumventing the typical time-consuming iterations found in traditional methods. Finally, some potential research directions are discussed from the perspectives of circuit design and ML algorithms.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# コンピュータ工学の学生が自己評価活動に参加する動機づけとしてのソーシャルネットワークの利用

Use of social networks to motivate computer-engineering students to participate in self-assessment activities ( http://arxiv.org/abs/2407.07460v1 )

ライセンス: Link先を確認
Carlos Guerrero, Antoni Jaume-i-Capó, (参考訳) 大学生の学習過程においてモチベーションは不可欠であり、教師はこの問題に対処するための幅広い戦略を持つべきである。 社会技術の出現はeラーニングシステムに大きな影響を与えており、多くの専門家が学生のモチベーションと活動への参加を高めるための良い方法であると述べている。 本研究は,ソーシャル・ネットワークとソーシャル・アプリケーションについて,他の多くのツールとみなすべきか,あるいは学生が参加する余分なモチベーションを実際に提供できるかを検証しようとするものである。 本研究は,自己評価課題における学生参加率を比較した。 実験では、学生のモチベーションに関する従来の3つの戦略と、ソーシャルネットワークが自己評価タスクの導入、説明、提供に使用された3つの戦略をカバーした。 参加率が高いのは、学生が活動終了後に報酬を得たケースである。 この結果にもかかわらず、統計的分析により、連続的かつ定期的なモチベーションのあるスピーチの戦略として、ソーシャルネットワークの使用が同様の結果を得たことが示唆された。

Motivation is essential in the learning process of university students, and teachers should have a wide range of strategies to address this issue. The emergence of social technologies has had a considerable influence in e-learning systems, and a number of experts state that their use is a good method to motivate students and to increase their participation in activities. This study attempts to determine whether social networks and social applications should be viewed as many other tools or whether they can actually provide extra motivation for students to participate. The study compared the percentage of student participation in tasks of self-assessment. The experiments covered three traditional strategies of student motivation and another one in which social networks were used to introduce, explain and deliver the self-assessment tasks. The case with a higher participation was the one in which students obtained a reward from the completion of the activity. Despite this result, the statistical analysis indicated that the use of social networks obtained similar results as a strategy of continuous and regular motivational speeches.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# Drantal-NeRF: Diffusion-based Restoration for Anti-aliasing Neural Radiance Field (特集:ニューラルラジアンス)

Drantal-NeRF: Diffusion-Based Restoration for Anti-aliasing Neural Radiance Field ( http://arxiv.org/abs/2407.07461v1 )

ライセンス: Link先を確認
Ganlin Yang, Kaidong Zhang, Jingjing Fu, Dong Liu, (参考訳) ニューラル・ラジアンス・フィールド(Neural Radiance Field, NeRF)が生成したレンダリングにおけるアーティファクトのエイリアス化は、3次元の暗黙の表現の分野で長く続くが複雑な問題である。 本稿では,抗エイリアス性ニューラルレーダー(Drantal-NeRF)の拡散型修復法を提案する。 アーティファクトを地平の真理に付加した一種の劣化モデルとして見ることにより,低レベル修復の観点からのアンチエイリアス対策の課題を考察する。 拡散モデルにカプセル化された強力な事前知識を利用することで、エイリアス化された低品質な表現に条件付けられた高現実主義のアンチエイリアスレンダリングを復元することができる。 さらに,マルチビュー復元の整合性を確保し,VAEデコーダを微調整し,シーン固有のデータ分布に適応させるために,機能ラッピング操作を用いる。 提案手法は実装が容易で,様々なNeRFバックボーンに非依存である。 本研究では,大規模都市景観への挑戦と,非境界の360度シーンに対する広範囲な実験を行い,質的,定量的な改善を実現している。

Aliasing artifacts in renderings produced by Neural Radiance Field (NeRF) is a long-standing but complex issue in the field of 3D implicit representation, which arises from a multitude of intricate causes and was mitigated by designing more advanced but complex scene parameterization methods before. In this paper, we present a Diffusion-based restoration method for anti-aliasing Neural Radiance Field (Drantal-NeRF). We consider the anti-aliasing issue from a low-level restoration perspective by viewing aliasing artifacts as a kind of degradation model added to clean ground truths. By leveraging the powerful prior knowledge encapsulated in diffusion model, we could restore the high-realism anti-aliasing renderings conditioned on aliased low-quality counterparts. We further employ a feature-wrapping operation to ensure multi-view restoration consistency and finetune the VAE decoder to better adapt to the scene-specific data distribution. Our proposed method is easy to implement and agnostic to various NeRF backbones. We conduct extensive experiments on challenging large-scale urban scenes as well as unbounded 360-degree scenes and achieve substantial qualitative and quantitative improvements.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# MAN TruckScenes: 多様な状況下での自律トラックのためのマルチモーダルデータセット

MAN TruckScenes: A multimodal dataset for autonomous trucking in diverse conditions ( http://arxiv.org/abs/2407.07462v1 )

ライセンス: Link先を確認
Felix Fent, Fabian Kuttenreich, Florian Ruch, Farija Rizwin, Stefan Juergens, Lorenz Lechermann, Christian Nissler, Andrea Perl, Ulrich Voll, Min Yan, Markus Lienkamp, (参考訳) 自動運転トラックは、現代の物流と環境に大きな影響を与える有望な技術である。 公道での安全確保は、環境の正確な認識を必要とする主要な任務の1つである。 これを実現するために、機械学習の手法は大規模なデータセットに依存しているが、今日では、そのようなデータセットは自律トラックでは利用できない。 本研究では、自律トラックのための最初のマルチモーダルデータセットであるMAN TruckScenesを紹介する。 MAN TruckScenesは、トレーラーの閉塞、新しいセンサーの視点、ターミナル環境など、トラック固有の課題に初めて触れることを可能にする。 様々な環境条件の中で、20秒の740以上のシーンで構成されている。 センサーセットには4台のカメラ、6台のライダー、6台のレーダーセンサー、2台のIMU、そして高精度のGNSSが含まれている。 データセットの3Dバウンディングボックスは、手動で注釈付けされ、注意深くレビューされ、高品質な標準が達成された。 境界ボックスは27のオブジェクトクラス、15の属性、230m以上の範囲で利用できる。 シーンは34の異なるシーンタグに従ってタグ付けされ、すべてのオブジェクトがシーン全体で追跡され、広範囲のアプリケーションを促進する。 さらにMAN TruckScenesは,360{\deg}カバレッジを備えた4Dレーダデータを提供する最初のデータセットであり,注釈付き3Dバウンディングボックスを備えた最大のレーダデータセットである。 最後に、広範なデータセット分析とベースライン結果を提供する。 データセットや開発キットなどはオンラインで公開されている。

Autonomous trucking is a promising technology that can greatly impact modern logistics and the environment. Ensuring its safety on public roads is one of the main duties that requires an accurate perception of the environment. To achieve this, machine learning methods rely on large datasets, but to this day, no such datasets are available for autonomous trucks. In this work, we present MAN TruckScenes, the first multimodal dataset for autonomous trucking. MAN TruckScenes allows the research community to come into contact with truck-specific challenges, such as trailer occlusions, novel sensor perspectives, and terminal environments for the first time. It comprises more than 740 scenes of 20 s each within a multitude of different environmental conditions. The sensor set includes 4 cameras, 6 lidar, 6 radar sensors, 2 IMUs, and a high-precision GNSS. The dataset's 3D bounding boxes were manually annotated and carefully reviewed to achieve a high quality standard. Bounding boxes are available for 27 object classes, 15 attributes, and a range of more than 230 m. The scenes are tagged according to 34 distinct scene tags, and all objects are tracked throughout the scene to promote a wide range of applications. Additionally, MAN TruckScenes is the first dataset to provide 4D radar data with 360{\deg} coverage and is thereby the largest radar dataset with annotated 3D bounding boxes. Finally, we provide extensive dataset analysis and baseline results. The dataset, development kit and more are available online.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# 隠れアライメントを用いたビデオ・ツー・オーディオ生成

Video-to-Audio Generation with Hidden Alignment ( http://arxiv.org/abs/2407.07464v1 )

ライセンス: Link先を確認
Manjie Xu, Chenxing Li, Yong Ren, Rilin Chen, Yu Gu, Wei Liang, Dong Yu, (参考訳) ビデオ入力に応じた意味的・時間的に整合した音声コンテンツを生成することは研究者の焦点となり、特にテキスト・ビデオ・ジェネレーションにおける顕著なブレークスルーの後である。 本研究では,視覚エンコーダ,補助埋め込み,データ拡張技術という3つの重要な側面に着目し,映像から音声への生成パラダイムに関する洞察を提供することを目的とする。 単純だが驚くほど効果的な直観に基づいて構築された基礎モデルVTA-LDMから始め、様々な視覚エンコーダと補助的な埋め込みをアブレーション研究を通して探索する。 生成品質とビデオ・オーディオ同期の整合性を重視した包括的評価パイプラインを用いて,本モデルが最先端のビデオ・オーディオ生成機能を示すことを示す。 さらに、生成フレームワークの全体的な能力向上に異なるデータ拡張手法が与える影響について、批判的な洞察を提供する。 セマンティックおよび時間的視点から同期音声を生成するという課題を前進させる可能性を示す。 これらの洞察が、より現実的で正確なオーディオ視覚生成モデルを開発するための足掛かりになることを期待している。

Generating semantically and temporally aligned audio content in accordance with video input has become a focal point for researchers, particularly following the remarkable breakthrough in text-to-video generation. In this work, we aim to offer insights into the video-to-audio generation paradigm, focusing on three crucial aspects: vision encoders, auxiliary embeddings, and data augmentation techniques. Beginning with a foundational model VTA-LDM built on a simple yet surprisingly effective intuition, we explore various vision encoders and auxiliary embeddings through ablation studies. Employing a comprehensive evaluation pipeline that emphasizes generation quality and video-audio synchronization alignment, we demonstrate that our model exhibits state-of-the-art video-to-audio generation capabilities. Furthermore, we provide critical insights into the impact of different data augmentation methods on enhancing the generation framework's overall capacity. We showcase possibilities to advance the challenge of generating synchronized audio from semantic and temporal perspectives. We hope these insights will serve as a stepping stone toward developing more realistic and accurate audio-visual generation models.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# 衝突を意識した3次元セグメンテーション事前学習のための非接触スイープ探索

Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining ( http://arxiv.org/abs/2407.07465v1 )

ライセンス: Link先を確認
Tianfang Sun, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie, (参考訳) LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。 しかし、このフレームワークには2つの問題がある。 1) 単独のキーフレームをトレーニングに使用する。 例えば、nuScenesでは、大量のLiDARとカメラフレームが未使用のままであり、事前訓練されたネットワークの表現能力を制限している。 2) コントラッシブ・ロスは, 同一のセマンティクスを持つ点や画像領域を, 異なるフレームから誤って距離を置き, 学習したプレゼンテーションのセマンティクスの整合性を阻害する。 本稿では、未探索フレームからLiDAR-画像ペアを慎重に選択し、元のトレーニングセットを豊かにするための、ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。 タイムスタンプとVFMのセマンティック先行情報を用いて、よく同期したトレーニングペアを特定し、多様な内容のサンプルを発見する。 さらに,VFMのセマンティックマスクラベルを用いて,相互・内部のコントラストを意識したコントラスト損失を設計し,セマンティックな類似点や画像領域のコントラストを回避する。 提案手法は, 3次元セマンティックセマンティックセマンティックセマンティクスにおいて, nuScenes, SemanticKITTI, Waymoの3次元セマンティックセマンティクスを, mIoUでは+3.0\%, +3.0\%, +3.3\%と, 既存の最先端プレトレーニングフレームワークを常に上回っている。 さらに, 本手法は, 異なる3次元バックボーンおよび非VFMモデルにより生成される典型的なセマンティックマスクに対する適応的な一般化を示す。

LiDAR-camera 3D representation pretraining has shown significant promise for 3D perception tasks and related applications. However, two issues widely exist in this framework: 1) Solely keyframes are used for training. For example, in nuScenes, a substantial quantity of unpaired LiDAR and camera frames remain unutilized, limiting the representation capabilities of the pretrained network. 2) The contrastive loss erroneously distances points and image regions with identical semantics but from different frames, disturbing the semantic consistency of the learned presentations. In this paper, we propose a novel Vision-Foundation-Model-driven sample exploring module to meticulously select LiDAR-Image pairs from unexplored frames, enriching the original training set. We utilized timestamps and the semantic priors from VFMs to identify well-synchronized training pairs and to discover samples with diverse content. Moreover, we design a cross- and intra-modal conflict-aware contrastive loss using the semantic mask labels of VFMs to avoid contrasting semantically similar points and image regions. Our method consistently outperforms existing state-of-the-art pretraining frameworks across three major public autonomous driving datasets: nuScenes, SemanticKITTI, and Waymo on 3D semantic segmentation by +3.0\%, +3.0\%, and +3.3\% in mIoU, respectively. Furthermore, our approach exhibits adaptable generalization to different 3D backbones and typical semantic masks generated by non-VFM models.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# クラスインクリメンタルな学習を再考する: 自分自身から学ぶ

Rethinking Few-shot Class-incremental Learning: Learning from Yourself ( http://arxiv.org/abs/2407.07468v1 )

ライセンス: Link先を確認
Yu-Ming Tang, Yi-Xing Peng, Jingke Meng, Wei-Shi Zheng, (参考訳) FSCIL (Few-shot class-incremental Learning) は、限られたサンプルを持つシーケンシャルクラスを数ショットで学習することを目的としている。 FSCILの一般的なベンチマークは、古典的なクラス増分学習設定を継承し、評価指標として平均精度(aAcc)と最終タスク平均精度(lAcc)を用いる。 しかし,これらの評価指標は,新しいクラス性能に十分な重点を置いておらず,このベンチマークではFSCIL手法の連続学習能力は無視できることがわかった。 本研究は,既存の指標を補完するものとして,パラメータ $\alpha$ の誘導の下で,性能の異なる視点を組み込むことにより,余分に公平な評価を提供するために設計された,一般化平均精度 (gAcc) と呼ばれる新しい指標を提供する。 また、曲線 (AUC) の下の領域の全体計量を$\alpha$ に沿って提示する。 gAccの指導のもと、私たちは新しいクラスの性能を高めるために、視覚変換器の中間機能の可能性をリリースする。 クラス固有性が低く、より一般化可能な中間層からの情報を取り込み、最終的な機能を修正して、より一般化可能なトランスフォーマーベースのFSCILフレームワークを実現する。 複雑なネットワーク設計や煩雑なトレーニング手順がなければ,既存のFSCILメソッドをaAcc,gAccで3つのデータセットで上回ります。 https://github.com/iSEE-Laboratory/Revisting_FSCIL

Few-shot class-incremental learning (FSCIL) aims to learn sequential classes with limited samples in a few-shot fashion. Inherited from the classical class-incremental learning setting, the popular benchmark of FSCIL uses averaged accuracy (aAcc) and last-task averaged accuracy (lAcc) as the evaluation metrics. However, we reveal that such evaluation metrics may not provide adequate emphasis on the novel class performance, and the continual learning ability of FSCIL methods could be ignored under this benchmark. In this work, as a complement to existing metrics, we offer a new metric called generalized average accuracy (gAcc) which is designed to provide an extra equitable evaluation by incorporating different perspectives of the performance under the guidance of a parameter $\alpha$. We also present an overall metric in the form of the area under the curve (AUC) along the $\alpha$. Under the guidance of gAcc, we release the potential of intermediate features of the vision transformers to boost the novel-class performance. Taking information from intermediate layers which are less class-specific and more generalizable, we manage to rectify the final features, leading to a more generalizable transformer-based FSCIL framework. Without complex network designs or cumbersome training procedures, our method outperforms existing FSCIL methods at aAcc and gAcc on three datasets. See codes at https://github.com/iSEE-Laboratory/Revisting_FSCIL
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# ChatGPTを用いた生成プログラムの自動修正システムの開発

Development of an automatic modification system for generated programs using ChatGPT ( http://arxiv.org/abs/2407.07469v1 )

ライセンス: Link先を確認
Jun Yoshida, Oh Sato, Hane Kondo, Hiroaki Hashiura, Atsuo Hazeyama, (参考訳) 近年、人工知能の分野は急速に発展している。 中でもOpenAIのChatGPTは自然言語処理タスクに優れており、ソースコードも生成できる。 しかし、生成されたコードは、一貫性とプログラムルールに問題があることが多い。 そこで本研究では,ChatGPTが生成したコードをテストし,不適切であれば自動的に修正し,適切なコードをユーザに提示するシステムを開発した。 本研究の目的は,生成されたコードに対する人間のフィードバックと修正プロセスに必要な手作業を削減することにある。 システムを実行すると、意図したコードを自動的に修正することができました。

In recent years, the field of artificial intelligence has been rapidly developing. Among them, OpenAI's ChatGPT excels at natural language processing tasks and can also generate source code. However, the generated code often has problems with consistency and program rules. Therefore, in this research, we developed a system that tests the code generated by ChatGPT, automatically corrects it if it is inappropriate, and presents the appropriate code to the user. This study aims to address the challenge of reducing the manual effort required for the human feedback and modification process for generated code. When we ran the system, we were able to automatically modify the code as intended.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# 整流器:LLMによるCorrectorによるコード翻訳

Rectifier: Code Translation with Corrector via LLMs ( http://arxiv.org/abs/2407.07472v1 )

ライセンス: Link先を確認
Xin Yin, Chao Ni, Tien N. Nguyen, Shaohua Wang, Xiaohu Yang, (参考訳) ソフトウェア移行は、ソフトウェアと社会の進化によって、ますます注目を集めている。 初期の研究は、主に2つの言語を翻訳するために手作りの翻訳規則に頼っていた。 近年,コード翻訳におけるLLM(Pre-trained large language model)の利用が研究されている。 コード翻訳は,(1)コンパイルエラー,(2)実行時エラー,(3)機能エラー,(4)非終了実行など,コード翻訳タスクの実行時に発生するある種のエラーである。 これらのエラーの根本原因は非常に似ています(例えば、パッケージのインポートの失敗、ループ境界のエラー、オペレータエラーなど)。 本稿では,翻訳誤りを修復するためのマイクロ・ユニバーサルモデルであるRectifierを提案する。 既存のLLMが生成したエラーから学習し、任意のLLMが生成したエラーの修正に広く適用することができる。 C++,Java,Python間の翻訳タスクの実験結果から,本モデルが有効な補修能力を持つことを示すとともに,クロス実験により本手法の堅牢性も実証された。

Software migration is garnering increasing attention with the evolution of software and society. Early studies mainly relied on handcrafted translation rules to translate between two languages, the translation process is error-prone and time-consuming. In recent years, researchers have begun to explore the use of pre-trained large language models (LLMs) in code translation. However, code translation is a complex task that LLMs would generate mistakes during code translation, they all produce certain types of errors when performing code translation tasks, which include (1) compilation error, (2) runtime error, (3) functional error, and (4) non-terminating execution. We found that the root causes of these errors are very similar (e.g. failure to import packages, errors in loop boundaries, operator errors, and more). In this paper, we propose a general corrector, namely Rectifier, which is a micro and universal model for repairing translation errors. It learns from errors generated by existing LLMs and can be widely applied to correct errors generated by any LLM. The experimental results on translation tasks between C++, Java, and Python show that our model has effective repair ability, and cross experiments also demonstrate the robustness of our method.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# フォトニックエンタングルメントと偏光非古典性:2つの特徴,1つの性質

Photonic Entanglement and Polarization Nonclassicality: Two Manifestations, One Nature ( http://arxiv.org/abs/2407.07477v1 )

ライセンス: Link先を確認
Laura Ares, Nidhin Prasannan, Elizabeth Agudelo, Alfredo Luis, Benjamin Brecht, Christine Silberhorn, Jan Sperling, (参考訳) 我々は理論において、非古典分極と区別不可能な光子の絡み合いの厳密な等価性を実証し、その結果、この2つの現象を一目で見分けることができた。 これにより、同じフレームワーク内での非古典性と多重光子絡みの解析が可能となる。 両面の量子性とその偏極基底からの独立性を実験的に検証し、高基底依存のコヒーレンスの概念と対比する。 我々の研究結果は、量子プロトコルの絡み合いとして、非古典的偏極が等しく資源的であることを示し、実際的な応用におけるその重要性を強調した。

We demonstrate in theory and experiment the strict equivalence between nonclassical polarization and the entanglement of indistinguishable photons, thereby unifying these two phenomena that appear dissimilar at first sight. This allows us to analyze nonclassicality and multi-photon entanglement within the same framework. We experimentally verify this double-sided form of quantumness and its independence from the polarization basis, contrasting other notions of coherence that are highly basis-dependent. Our findings show how nonclassical polarization turns out to be equally resourceful for quantum protocols as entanglement, emphasizing its importance in practical applications.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# EA-VTR:イベント対応ビデオテキスト検索

EA-VTR: Event-Aware Video-Text Retrieval ( http://arxiv.org/abs/2407.07478v1 )

ライセンス: Link先を確認
Zongyang Ma, Ziqi Zhang, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Yingmin Luo, Xu Li, Xiaojuan Qi, Ying Shan, Weiming Hu, (参考訳) ビデオ中の事象の内容とその時間論理の理解は,ビデオテキスト検索に不可欠である。 しかし、Webクロールした事前学習データセットには十分なイベント情報がないことが多く、広く採用されているビデオレベルのクロスモーダルコントラスト学習もまた、詳細で複雑なビデオテキストイベントアライメントを捉えるのに苦労している。 これらの課題に対処するため、データとモデルの両方の観点から改善を加えています。 事前学習データの観点からは、提案したイベント拡張戦略により、欠落した特定のイベント内容とイベントの時間的遷移を補うことに重点を置いている。 イベント拡張データに基づいて、より優れたビデオイベント認識により強力なビデオテキスト検索能力を実現する新しいイベント対応ビデオテキスト検索モデル、EA-VTRを構築した。 EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にし、最終的にビデオイベントの包括的な理解を深める。 提案手法は,テキスト・ツー・ビデオ検索およびビデオ・アクション認識タスクの複数のデータセットに対する既存手法よりも優れているだけでなく,マルチイベント・ビデオ・テキスト検索およびビデオ・モーメント検索タスクにおいて,優れたイベントコンテンツ知覚能力を示すとともに,テスト・オブ・タイムタスクにおけるイベント時相論理理解能力も優れている。

Understanding the content of events occurring in the video and their inherent temporal logic is crucial for video-text retrieval. However, web-crawled pre-training datasets often lack sufficient event information, and the widely adopted video-level cross-modal contrastive learning also struggles to capture detailed and complex video-text event alignment. To address these challenges, we make improvements from both data and model perspectives. In terms of pre-training data, we focus on supplementing the missing specific event content and event temporal transitions with the proposed event augmentation strategies. Based on the event-augmented data, we construct a novel Event-Aware Video-Text Retrieval model, ie, EA-VTR, which achieves powerful video-text retrieval ability through superior video event awareness. EA-VTR can efficiently encode frame-level and video-level visual representations simultaneously, enabling detailed event content and complex event temporal cross-modal alignment, ultimately enhancing the comprehensive understanding of video events. Our method not only significantly outperforms existing approaches on multiple datasets for Text-to-Video Retrieval and Video Action Recognition tasks, but also demonstrates superior event content perceive ability on Multi-event Video-Text Retrieval and Video Moment Retrieval tasks, as well as outstanding event temporal logic understanding ability on Test of Time task.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# クロスエンコーダを画像検索効率の良い教師にする方法

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? ( http://arxiv.org/abs/2407.07479v1 )

ライセンス: Link先を確認
Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Ying Shan, Xiaojuan Qi, Weiming Hu, (参考訳) 支配的なデュアルエンコーダモデルは効率的な画像テキスト検索を可能にするが、クロスエンコーダモデルは効率を犠牲にして高い精度を提供する一方、限られた精度に苦しむ。 クロスエンコーダからデュアルエンコーダへのクロスモーダルマッチング知識の蒸留は、それらの強みを利用する自然なアプローチを提供する。 そこで, クロスエンコーダをデュアルエンコーダの優れた教師にする方法について検討する。 1) クロスエンコーダのクロスモーダル類似度スコア分布はより高濃度であり, 二重エンコーダの結果はほぼ正常であり, バニラロジット蒸留の効率が低下している。 しかし、スコア分布の影響を受けないため、格付け蒸留は実践的のままである。 2) 強陰性間の相対的な順序だけが有効な知識を伝達する一方, 容易な負性間の順序情報はほとんど意味を持たない。 3) 蒸留損失と二重エンコーダ訓練損失の調整を維持することは, 知識伝達に有用である。 そこで本研究では, 厳密な負のサンプル間の相対的な順序を再現し, 比較学習を行うことを目的として, CPRD法を提案する。 このアプローチは、クロスエンコーダからデュアルエンコーダへ有効な知識を効果的に伝達するデュアルエンコーダのトレーニングと協調する。 画像テキスト検索とランキングタスクの広範囲な実験により,本手法は他の蒸留法を超越し,デュアルエンコーダの精度を大幅に向上することが示された。

Dominant dual-encoder models enable efficient image-text retrieval but suffer from limited accuracy while the cross-encoder models offer higher accuracy at the expense of efficiency. Distilling cross-modality matching knowledge from cross-encoder to dual-encoder provides a natural approach to harness their strengths. Thus we investigate the following valuable question: how to make cross-encoder a good teacher for dual-encoder? Our findings are threefold:(1) Cross-modal similarity score distribution of cross-encoder is more concentrated while the result of dual-encoder is nearly normal making vanilla logit distillation less effective. However ranking distillation remains practical as it is not affected by the score distribution.(2) Only the relative order between hard negatives conveys valid knowledge while the order information between easy negatives has little significance.(3) Maintaining the coordination between distillation loss and dual-encoder training loss is beneficial for knowledge transfer. Based on these findings we propose a novel Contrastive Partial Ranking Distillation (CPRD) method which implements the objective of mimicking relative order between hard negative samples with contrastive learning. This approach coordinates with the training of the dual-encoder effectively transferring valid knowledge from the cross-encoder to the dual-encoder. Extensive experiments on image-text retrieval and ranking tasks show that our method surpasses other distillation methods and significantly improves the accuracy of dual-encoder.
翻訳日:2024-07-11 17:21:35 公開日:2024-07-10
# ロバストな対実的説明のための厳密な確率的保証

Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations ( http://arxiv.org/abs/2407.07482v1 )

ライセンス: Link先を確認
Luca Marzari, Francesco Leofante, Ferdinando Cicalese, Alessandro Farinelli, (参考訳) 本研究では,ディープラーニングモデルに対する対実的説明の堅牢性を評価する問題について検討する。 我々は、モデルパラメータを変更する$\textit{plausible model shifts}にフォーカスし、この設定におけるロバスト性について推論する新しいフレームワークを提案する。 我々の解決を動機付けるために、我々はまず、実証可能なモデルシフトに対する反事実の堅牢性を計算することがNP完全であることを示すことから始める。 このことが(実際)、ロバストネスを正確に計算するためのスケーラブルなアルゴリズムの存在を規定しているので、スケーラビリティを保ちながら、高い保証でロバストネスを厳密に見積もることができる新しい確率論的アプローチを提案する。 顕著なことに、プラウチブルなモデルシフトをターゲットとする既存のソリューションとは違い、我々のアプローチでは、分析するネットワークに要求を課さないため、より広い範囲のアーキテクチャで堅牢性解析が可能である。 4つのバイナリ分類データセットの実験は、我々の手法がロバストな説明を生成する際に最先端の手法を改良し、既存の手法を様々な指標で上回ることを示す。

We study the problem of assessing the robustness of counterfactual explanations for deep learning models. We focus on $\textit{plausible model shifts}$ altering model parameters and propose a novel framework to reason about the robustness property in this setting. To motivate our solution, we begin by showing for the first time that computing the robustness of counterfactuals with respect to plausible model shifts is NP-complete. As this (practically) rules out the existence of scalable algorithms for exactly computing robustness, we propose a novel probabilistic approach which is able to provide tight estimates of robustness with strong guarantees while preserving scalability. Remarkably, and differently from existing solutions targeting plausible model shifts, our approach does not impose requirements on the network to be analyzed, thus enabling robustness analysis on a wider range of architectures. Experiments on four binary classification datasets indicate that our method improves the state of the art in generating robust explanations, outperforming existing methods on a range of metrics.
翻訳日:2024-07-11 17:21:34 公開日:2024-07-10
# 合成サンプルを用いたCLIPにおけるゼロショットクラスアンラーニング

Zero-Shot Class Unlearning in CLIP with Synthetic Samples ( http://arxiv.org/abs/2407.07485v1 )

ライセンス: Link先を確認
A. Kravets, V. Namboodiri, (参考訳) 機械学習は研究の重要な領域である。 GDPRのような厳格な規制の下で、個人が忘れられる権利を保護するために、モデルから機密情報を除去する必要がある。 本研究では,コントラッシブ・ロスを用いた画像テキスト・ペアの大規模データセットに基づいてトレーニングされた,二重視覚言語エンコーダモデルであるCLIP内のアンラーニングに焦点を当てた。 リプシッツ正則化の応用をCLIPのマルチモーダルコンテキストに拡張する。 具体的には,そのクラスからのサンプルに導入された摂動に対して,そのクラスに関連付けられた視覚的およびテキスト的埋め込みの平滑化を確保する。 さらに, 対象クラスを最大化する勾配を経た合成サンプルを生成することにより, 実際の忘れデータの必要性を解消する。 我々の忘れる手順は反復的であり、合成された忘れ物セットの精度を追跡し、選択された閾値未満の精度で停止する。 オーバーフォッゲッティングを緩和するために、平均的な絶対勾配値に基づいて選択的なレイヤ更新戦略を採用する。 提案手法をいくつかの標準データセットで検証し,従来の研究と徹底的なアブレーション分析と比較を行った。

Machine unlearning is a crucial area of research. It is driven by the need to remove sensitive information from models to safeguard individuals' right to be forgotten under rigorous regulations such as GDPR. In this work, we focus on unlearning within CLIP, a dual vision-language encoder model trained on a massive dataset of image-text pairs using contrastive loss. To achieve forgetting we expand the application of Lipschitz regularization to the multimodal context of CLIP. Specifically, we ensure the smoothing of both visual and textual embeddings associated with the class intended to be forgotten relative to the perturbation introduced to the samples from that class. Additionally, importantly, we remove the necessity for real forgetting data by generating synthetic samples through gradient ascent maximizing the target class. Our forgetting procedure is iterative, where we track accuracy on a synthetic forget set and stop when accuracy falls below a chosen threshold. We employ a selective layers update strategy based on their average absolute gradient value to mitigate over-forgetting. We validate our approach on several standard datasets and provide thorough ablation analysis and comparisons with previous work.
翻訳日:2024-07-11 17:21:34 公開日:2024-07-10
# Review-LLM: パーソナライズされたレビュー生成のための大規模言語モデル

Review-LLM: Harnessing Large Language Models for Personalized Review Generation ( http://arxiv.org/abs/2407.07487v1 )

ライセンス: Link先を確認
Qiyao Peng, Hongtao Liu, Hongyan Xu, Qing Yang, Minglai Shao, Wenjun Wang, (参考訳) 製品レビュー生成はレコメンデーションシステムにおいて重要なタスクであり、レコメンデーションの説明と説得力を提供する。 近年,Large Language Models (LLMs, eg, ChatGPT) は,レビュー生成に応用可能な優れたテキストモデリングと生成能力を示している。 しかし、LCMをレビュー生成に直接適用することは、LSMの「政治」現象に悩まされ、パーソナライズされたレビューを生成できない(例えば、否定的なレビュー)。 本稿では,パーソナライズされたレビュー生成のためのLLMをカスタマイズするReview-LLMを提案する。 まず,ユーザの履歴行動を集約し,対応する項目のタイトルやレビューを含むプロンプト入力を構築する。 これにより、LCMはユーザーの興味を引くことができ、書き込みスタイルをレビューできる。 第2に、評価を満足度指標に組み込むことにより、モデルによるユーザの嗜好の理解と、生成されたレビューの感情傾向制御をさらに改善することができる。 最後に、プロンプトテキストをLSMに入力し、スーパーバイザード・ファイン・チューニング(SFT)を用いて、モデルが与えられたユーザとターゲットアイテムに対してパーソナライズされたレビューを生成する。 実世界のデータセットを用いた実験結果から,我々の微調整モデルにより,既存のLLMよりも優れたレビュー生成性能が得られることが示された。

Product review generation is an important task in recommender systems, which could provide explanation and persuasiveness for the recommendation. Recently, Large Language Models (LLMs, e.g., ChatGPT) have shown superior text modeling and generating ability, which could be applied in review generation. However, directly applying the LLMs for generating reviews might be troubled by the ``polite'' phenomenon of the LLMs and could not generate personalized reviews (e.g., negative reviews). In this paper, we propose Review-LLM that customizes LLMs for personalized review generation. Firstly, we construct the prompt input by aggregating user historical behaviors, which include corresponding item titles and reviews. This enables the LLMs to capture user interest features and review writing style. Secondly, we incorporate ratings as indicators of satisfaction into the prompt, which could further improve the model's understanding of user preferences and the sentiment tendency control of generated reviews. Finally, we feed the prompt text into LLMs, and use Supervised Fine-Tuning (SFT) to make the model generate personalized reviews for the given user and target item. Experimental results on the real-world dataset show that our fine-tuned model could achieve better review generation performance than existing close-source LLMs.
翻訳日:2024-07-11 17:21:34 公開日:2024-07-10
# FUNAvg: ラベルの異なるデータセットに対するフェデレートされた不確かさの重み付け

FUNAvg: Federated Uncertainty Weighted Averaging for Datasets with Diverse Labels ( http://arxiv.org/abs/2407.07488v1 )

ライセンス: Link先を確認
Malte Tölle, Fernando Navarro, Sebastian Eble, Ivo Wolf, Bjoern Menze, Sandy Engelhardt, (参考訳) フェデレートラーニング(Federated Learning)は、分散されたプライバシ保護環境において、ジョイントモデルをトレーニングする一般的なパラダイムのひとつだ。 しかし、部分的なアノテーションは、ラベルのカテゴリがクライアントに対して不均一であることを意味する障害となる。 我々は,各サイトが独自のマルチラベルセグメンテーションヘッドを受信している間に,結合したバックボーンをフェデレートで学習することを提案する。 ベイズ手法を用いることで、個々のクライアントのラベルでのみ訓練されている異なるセグメンテーションヘッドが、各サイトに存在しない他のラベルに関する情報も学習する。 この情報は予測の不確実性に符号化されている。 この不確実性を利用して、分散セグメンテーションヘッドのアンサンブルの重み付き平均化を行うことで、「局所的に未知」な構造をセグメント化することができる。 FUNAvgと呼ばれるこの手法では、平均して同じデータセット上でトレーニングされ、テストされたモデルと同等です。 コードはhttps://github.com/Cardio-AI/FUNAvg.comで公開されている。

Federated learning is one popular paradigm to train a joint model in a distributed, privacy-preserving environment. But partial annotations pose an obstacle meaning that categories of labels are heterogeneous over clients. We propose to learn a joint backbone in a federated manner, while each site receives its own multi-label segmentation head. By using Bayesian techniques we observe that the different segmentation heads although only trained on the individual client's labels also learn information about the other labels not present at the respective site. This information is encoded in their predictive uncertainty. To obtain a final prediction we leverage this uncertainty and perform a weighted averaging of the ensemble of distributed segmentation heads, which allows us to segment "locally unknown" structures. With our method, which we refer to as FUNAvg, we are even on-par with the models trained and tested on the same dataset on average. The code is publicly available at https://github.com/Cardio-AI/FUNAvg.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# トランスファーラーニングを用いた毒菌同定のための微粒化分類法

Fine-Grained Classification for Poisonous Fungi Identification with Transfer Learning ( http://arxiv.org/abs/2407.07492v1 )

ライセンス: Link先を確認
Christopher Chiu, Maximilian Heil, Teresa Kim, Anthony Miyaguchi, (参考訳) FungiCLEF 2024は、真菌種のきめ細かい視覚分類(FGVC)に対処し、有毒種を同定することに焦点を当てている。 このタスクは、データセットのサイズとクラス不均衡、微妙なクラス間のバリエーション、サンプル間のクラス内の大きなばらつきのため、難しい。 本稿では,事前に計算した画像の埋め込みに対して,アンサンブル分類器ヘッドを用いてこの問題に対処するアプローチについて述べる。 我々のチーム(DS@GT)は、コンピュータビジョンタスクの下流でのタスク固有の微調整を必要とせずに、最先端の自己監督型ビジョンモデルを堅牢な特徴抽出器として活用できることを実証した。 提案手法は,試験後評価において,最高トラック3スコア (0.345), 精度 (78.4%), マクロF1スコア (0.577) を達成した。 私たちのコードはhttps://github.com/dsgt-kaggle-clef/fungiclef-2024で公開されています。

FungiCLEF 2024 addresses the fine-grained visual categorization (FGVC) of fungi species, with a focus on identifying poisonous species. This task is challenging due to the size and class imbalance of the dataset, subtle inter-class variations, and significant intra-class variability amongst samples. In this paper, we document our approach in tackling this challenge through the use of ensemble classifier heads on pre-computed image embeddings. Our team (DS@GT) demonstrate that state-of-the-art self-supervised vision models can be utilized as robust feature extractors for downstream application of computer vision tasks without the need for task-specific fine-tuning on the vision backbone. Our approach achieved the best Track 3 score (0.345), accuracy (78.4%) and macro-F1 (0.577) on the private test set in post competition evaluation. Our code is available at https://github.com/dsgt-kaggle-clef/fungiclef-2024.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 自動車の視覚知覚のためのデフォルマブル・ヒートマップ・セグメンテーション

Deformable-Heatmap-Segmentation for Automobile Visual Perception ( http://arxiv.org/abs/2407.07493v1 )

ライセンス: Link先を確認
Hongyu Jin, (参考訳) 2次元画像における道路要素のセマンティックセグメンテーションは,車線や自由空間などの静的物体の認識において重要な課題である。 本稿では,オブジェクトの特徴をエンド・ツー・エンドのアーキテクチャで抽出するDHSNetとヒートマップを提案する。 変形可能な畳み込みも提案ネットワークで利用される。 DHSNetは、アップサンプリング演算子とダウンサンプリング演算子をU字型にすることで、低レベル特徴写像と高レベル特徴写像を微調整する。 さらにDHSNetは,さまざまな形状やスケールの静的オブジェクトのキャプチャも目指している。 また,ネットワーク上でのより正確なターゲットの提案点を検出するための提案ヒートマップも予測する。

Semantic segmentation of road elements in 2D images is a crucial task in the recognition of some static objects such as lane lines and free space. In this paper, we propose DHSNet,which extracts the objects features with a end-to-end architecture along with a heatmap proposal. Deformable convolutions are also utilized in the proposed network. The DHSNet finely combines low-level feature maps with high-level ones by using upsampling operators as well as downsampling operators in a U-shape manner. Besides, DHSNet also aims to capture static objects of various shapes and scales. We also predict a proposal heatmap to detect the proposal points for more accurate target aiming in the network.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# LSB画像における銀河構造のパノプティックセグメンテーション

Panoptic Segmentation of Galactic Structures in LSB Images ( http://arxiv.org/abs/2407.07494v1 )

ライセンス: Link先を確認
Felix Richards, Adeline Paiement, Xianghua Xie, Elisabeth Sola, Pierre-Alain Duc, (参考訳) 低表面輝度(LSB)画像中の銀河構造を局所化するための深層学習の利用について検討する。 LSBイメージングは多くの興味深い構造が示されるが、それらは強い局所的な視覚的類似性のため、しばしば銀河の塵の汚染と混同される。 本稿では,銀河構造の多クラス分割と非晶質画像汚染物質の拡張に対する新しい統一的アプローチを提案する。 当社のパノプティカルセグメンテーションモデルは,Mask R-CNNと汚染特化ネットワークを組み合わせることで,LSB画像の微妙な特徴をより正確に捉えるために,適応前処理層を利用する。 さらに、地中真理ラベルを増強するために、人道訓練スキームを用いる。 これらの異なるアプローチを交互に評価し、LSB画像における銀河構造と汚染物質の両方の検出を大幅に改善する。

We explore the use of deep learning to localise galactic structures in low surface brightness (LSB) images. LSB imaging reveals many interesting structures, though these are frequently confused with galactic dust contamination, due to a strong local visual similarity. We propose a novel unified approach to multi-class segmentation of galactic structures and of extended amorphous image contaminants. Our panoptic segmentation model combines Mask R-CNN with a contaminant specialised network and utilises an adaptive preprocessing layer to better capture the subtle features of LSB images. Further, a human-in-the-loop training scheme is employed to augment ground truth labels. These different approaches are evaluated in turn, and together greatly improve the detection of both galactic structures and contaminants in LSB images.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# Bucketの事前トレーニングは必要なだけ

Bucket Pre-training is All You Need ( http://arxiv.org/abs/2407.07495v1 )

ライセンス: Link先を確認
Hongtao Liu, Qiyao Peng, Qing Yang, Kai Liu, Hongyan Xu, (参考訳) 大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。 しかし、文書の連結と分割を伴って事前学習を行う従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限することができる。 そこで本研究では,まず,データ合成品質を評価するための3つの指標について紹介する。 さらに、固定長のパラダイムを超えて、より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。 大規模実験により, 提案手法は, LLMの事前学習の効率と有効性の両方を著しく向上させることができることが示された。 我々のアプローチは騒音を低減し、文脈を保存するだけでなく、訓練を加速し、LLMの事前学習に有望な解決策となる。

Large language models (LLMs) have demonstrated exceptional performance across various natural language processing tasks. However, the conventional fixed-length data composition strategy for pretraining, which involves concatenating and splitting documents, can introduce noise and limit the model's ability to capture long-range dependencies. To address this, we first introduce three metrics for evaluating data composition quality: padding ratio, truncation ratio, and concatenation ratio. We further propose a multi-bucket data composition method that moves beyond the fixed-length paradigm, offering a more flexible and efficient approach to pretraining. Extensive experiments demonstrate that our proposed method could significantly improving both the efficiency and efficacy of LLMs pretraining. Our approach not only reduces noise and preserves context but also accelerates training, making it a promising solution for LLMs pretraining.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# Quantum Technology Masters: 量子産業への近道?

Quantum Technology masters: A shortcut to the quantum industry? ( http://arxiv.org/abs/2407.07497v1 )

ライセンス: Link先を確認
Simon Goorney, Borja Munoz, Jacob Sherson, (参考訳) 本稿では,大学院生に量子産業で仕事をする知識と技能を提供しながら,博士課程よりもはるかに短いタイムラインを提供しながら,世界の量子技術(QT)教育の世界における成長傾向を考察する。 グローバル調査を通じて、86のマスタープログラムを特定しました。 時間とともに、マスターは、複数の学部または共同学位プログラムによって組織され、企業内のインターンシップのようなよりハンズオンな体験を提供する、学際的になってきています。 プログラムのオーガナイザやウェブサイトからの情報によると、卒業生の意図するキャリアの目的地は多様な産業であり、そのためマスタープログラムは量子技術の工業化への恩恵となる可能性がある。 最後に、多くの国の量子労働者を育成するための全国的な取り組み、量子プログラムの強化、量子コンテンツによる既存の研究プログラムの内容の増大について述べる。 これは量子産業への道筋としてマスタープログラムの成長と生存にさらに貢献する可能性がある。

In this article, we investigate a growing trend in the worldwide Quantum Technology (QT) education landscape, that of the development of masters programs, intended to provide graduates with the knowledge and skills to take a job in the quantum industry, while serving a much shorter timeline than a doctoral degree. Through a global survey, we identified 86 masters programs, with substantial growth since 2021. Over time masters have become increasingly interdisciplinary, organised by multiple faculties or through joint degree programs, and offer more hands-on experiences such as internships in companies. Information from program organisers and websites suggests that the intended career destinations of their graduates are a diverse range of industries, and therefore masters programs may be a boon to the industrialisation of quantum technologies. Finally, we identify a range of national efforts to grow the quantum workforce of many countries, quantum program enhancements, which augment the content of existing study programs with quantum content. This may further contribute to the growth and viability of masters programs as a route to the quantum industry.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 先進・先進学習ネットワークを用いた地中短波赤外画像再構成

Metasurface-based Snapshot Shortwave-Infrared Hyperspectral Image Reconstruction with Inter and Intra Prior Learning Network ( http://arxiv.org/abs/2407.07503v1 )

ライセンス: Link先を確認
Linqiang Li, Pan Liu, Haofang Yan, Ziqin Zhang, Jinglei Hao, Seong G. Kong, Yongqiang Zhao, (参考訳) ショートウェーブ赤外線(SWIR)スペクトル情報(1 {\mu}mから2.5{\mu}m)は、シーン情報を取得する際の従来のカラーカメラの限界を破り、多くの分野で利用されてきた。 しかし、従来のSWIRハイパースペクトルイメージングシステムは、粗大な設定と低取得速度のため、課題に直面している。 本研究では,これらのフィルタの相関係数を最小化するために,準曲面フィルタとそれに対応するフィルタ選択法に基づくスナップショットSWIRハイパースペクトルイメージングシステムを導入し,小型化とスナップショットイメージングの利点を生かした。 本稿では,先行学習と段階間情報相互作用のギャップを埋める,高品質なSWIRハイパースペクトル画像再構成を実現するための,新たな先行学習内展開フレームワークを提案する。 また,デコーダの詳細な情報損失を防止するため,マルチスケールエンコーダの特徴の伝達コンテキスト相関を適応的に行うための適応的特徴伝達機構を設計する。 実験の結果,提案手法は既存の手法よりも高速かつ優れた性能でHSIを再構築可能であることが示された。

Shortwave-infrared(SWIR) spectral information,ranging from 1 {\mu}m to 2.5{\mu}m, breaks the limitations of traditional color cameras in acquiring scene information and has been used in many fields. However, conventional SWIR hyperspectral imaging systems face challenges due to their bulky setups and low acquisition speed. In this work, we introduce a snapshot SWIR hyperspectral imaging system based on a metasurface filter and a corresponding filter selection method to achieve the lowest correlation coefficient among these filters.This systemhas the advantages of small size and snapshot imaging. We propose a novel inter and intra prior learning unfolding framework proposed to achieve high-quality SWIR hyperspectral image reconstruction, which bridges the gap between prior learning and cross-stage information interaction. We also design an adaptive feature transfer mechanism to adaptively the transfer contextual correlation of multi-scale encoder features to prevent detailed information loss in the decoder. Experiment results demonstrate that our method can reconstruct HSI with high speed and superior performance over existing methods.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 位置認識型マスクオートエンコーダを用いたパン・カンサー組織学WSI事前トレーニング

Pan-cancer Histopathology WSI Pre-training with Position-aware Masked Autoencoder ( http://arxiv.org/abs/2407.07504v1 )

ライセンス: Link先を確認
Kun Wu, Zhiguo Jiang, Kunming Tang, Jun Shi, Fengying Xie, Wei Wang, Haibo Wu, Yushan Zheng, (参考訳) 大規模な事前トレーニングモデルにより、病理画像解析の開発が促進されている。 しかし、既存の病理組織像の自己管理手法は、パッチの特徴を学習することに重点を置いているが、WSIレベルの特徴学習のための事前学習モデルがまだ存在しない。 本稿では,設計した位置対応マスク付きオートエンコーダ(PAMA)を用いたパンキャンセリングWSIレベルの事前学習のための,新しい自己教師型学習フレームワークを提案する。 一方,カーネルリオリエンテーション(KRO)戦略とアンカードロップアウト(AD)機構を備えた位置認識型クロスアテンション(PACA)モジュールを提案する。 KRO戦略は、WSIの完全な意味構造を捉え、あいまいさを排除し、ADはモデルの堅牢性と一般化の強化に寄与する。 複数の臓器から得られた6つの大規模データセットを用いて,パン・カンサー分類タスクについて検討した。 その結果, PAMAがWSI表現学習の一般化と差別化に有効であること, パン・カンサーWSI事前学習の有効性が示された。 また,提案手法をR{7} WSI分析法と比較した。 実験の結果,提案したPAMAは最先端の手法よりも優れており,コードとチェックポイントはhttps://github.com/WkEEn/PAMAで公開されている。

Large-scale pre-training models have promoted the development of histopathology image analysis. However, existing self-supervised methods for histopathology images focus on learning patch features, while there is still a lack of available pre-training models for WSI-level feature learning. In this paper, we propose a novel self-supervised learning framework for pan-cancer WSI-level representation pre-training with the designed position-aware masked autoencoder (PAMA). Meanwhile, we propose the position-aware cross-attention (PACA) module with a kernel reorientation (KRO) strategy and an anchor dropout (AD) mechanism. The KRO strategy can capture the complete semantic structure and eliminate ambiguity in WSIs, and the AD contributes to enhancing the robustness and generalization of the model. We evaluated our method on 6 large-scale datasets from multiple organs for pan-cancer classification tasks. The results have demonstrated the effectiveness of PAMA in generalized and discriminative WSI representation learning and pan-cancer WSI pre-training. The proposed method was also compared with \R{7} WSI analysis methods. The experimental results have indicated that our proposed PAMA is superior to the state-of-the-art methods.The code and checkpoints are available at https://github.com/WkEEn/PAMA.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# IoTシステムにおけるRFセンシングのための生成AI

Generative AI for RF Sensing in IoT systems ( http://arxiv.org/abs/2407.07506v1 )

ライセンス: Link先を確認
Li Wang, Chao Zhang, Qiyang Zhao, Hang Zou, Samson Lasaulce, Giuseppe Valenzise, Zhuo He, Merouane Debbah, (参考訳) 環境データ収集にWi-Fi、赤外線、RFなどの信号を用いた無線センシング技術の開発は、モノのインターネット(IoT)システムにおいて大きく進歩している。 これらのうち、RF(Radio Frequency)センシングは、人間の活動と環境変化の費用対効果と非侵襲的なモニタリングで際立っている。 しかし、従来のRFセンシング手法は、ノイズ、干渉、不完全データ、高いデプロイメントコストなど、その有効性とスケーラビリティを制限している重要な課題に直面している。 本稿では、IoTエコシステム内のこれらの制限を克服するGenerative AI(GenAI)の可能性について検討する。 我々は,現在最先端のGenAI技術に関する総合的なレビューを行い,RFセンシング問題への応用に焦点をあてる。 高品質な合成データの生成、信号品質の向上、マルチモーダルデータの統合により、GenAIはRF環境の再構築、ローカライゼーション、イメージングのための堅牢なソリューションを提供する。 さらに、GenAIの汎用性により、IoTデバイスが新しい環境に適応し、見えないタスクに適応し、効率とパフォーマンスを向上させることができる。 本稿の主な貢献は、RFセンシングにおける課題の詳細な分析、革新的なGenAIベースのソリューションの提示、多種多様なRFセンシングタスクのための統一フレームワークの提案などである。 ケーススタディを通じて、GenAIモデルの統合の有効性を実証し、高度でスケーラブルでインテリジェントなIoTシステムを実現する。

The development of wireless sensing technologies, using signals such as Wi-Fi, infrared, and RF to gather environmental data, has significantly advanced within Internet of Things (IoT) systems. Among these, Radio Frequency (RF) sensing stands out for its cost-effective and non-intrusive monitoring of human activities and environmental changes. However, traditional RF sensing methods face significant challenges, including noise, interference, incomplete data, and high deployment costs, which limit their effectiveness and scalability. This paper investigates the potential of Generative AI (GenAI) to overcome these limitations within the IoT ecosystem. We provide a comprehensive review of state-of-the-art GenAI techniques, focusing on their application to RF sensing problems. By generating high-quality synthetic data, enhancing signal quality, and integrating multi-modal data, GenAI offers robust solutions for RF environment reconstruction, localization, and imaging. Additionally, GenAI's ability to generalize enables IoT devices to adapt to new environments and unseen tasks, improving their efficiency and performance. The main contributions of this article include a detailed analysis of the challenges in RF sensing, the presentation of innovative GenAI-based solutions, and the proposal of a unified framework for diverse RF sensing tasks. Through case studies, we demonstrate the effectiveness of integrating GenAI models, leading to advanced, scalable, and intelligent IoT systems.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# シリコン光増倍器を用いたハイブリッド受信機を利用したバイナリ量子チャネルの評価

Assessing a binary quantum channel exploiting a Silicon photomultiplier based hybrid receiver ( http://arxiv.org/abs/2407.07507v1 )

ライセンス: Link先を確認
Alberto Sanvito, Silvia Cassina, Marco Lamperti, Michele N. Notarnicola, Stefano Olivares, Alessia Allevi, (参考訳) 量子通信プロトコルでは、光子数分解検出器を用いることで、情報をエンコードして復号する方法を広げ、離散変数と連続変数の特性をマージすることで、新たな視点を開拓することができる。 本研究では,シリコン光増倍器ベースの受信機を利用した量子チャネルについて検討し,検出結果の異なる後処理によって定義された3つの可能な構成の下で,量子通信プロトコルの性能を評価する。 本稿では,チャネル上の情報伝達,相互情報による定量化,連続可変量子鍵分布の2つのシナリオについて検討する。 予備的な結果は、この検出スキームを拡張ネットワークでさらに活用することを奨励する。

In quantum communication protocols, the use of photon-number-resolving detectors could open new perspectives by broadening the way to encode and decode information, and merging the properties of discrete and continuous variables. In this work, we consider a quantum channel exploiting a Silicon-photomultiplier-based receiver and evaluate its performance for quantum communication protocols under three possible configurations, defined by different post-processing of the detection outcomes. We investigate two scenarios: information transmission over the channel, quantified by the mutual information, and continuous-variable quantum key distribution. The preliminary results encourage further use of this detection scheme in extended networks.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 自動運転車に対する交通信号における可視光対角線

Invisible Optical Adversarial Stripes on Traffic Sign against Autonomous Vehicles ( http://arxiv.org/abs/2407.07510v1 )

ライセンス: Link先を確認
Dongfang Guo, Yuting Wu, Yimin Dai, Pengfei Zhou, Xin Lou, Rui Tan, (参考訳) カメラベースのコンピュータビジョンは、自動運転車の認識に不可欠である。 本稿では, 発光ダイオードを用いて, カメラのローリングシャッター効果を利用して, 撮像画像中の逆ストリップを生成し, 信号認識を誤認する攻撃について述べる。 交通標識のストライプは人間には見えないので、攻撃はステルスです。 攻撃が脅威となるためには、連続した画像フレーム上で認識結果を安定させる必要がある。 そこで我々は,カメラ操作や車両の動作に適応するために,変調発光のタイミングを制御する攻撃システムであるGhostStripeを設計,実装した。 実際のテストベッドで評価すると、GhostStripeは、被害者の車両が道路区間を通過する際に、トラフィックサインの認識結果を94 %のフレームで間違ったクラスに安定してスプールすることができる。 実際には、このような攻撃効果は、被害者の車両を危険に晒す事故に騙す可能性がある。 本稿では,カメラセンサ,知覚モデル,自律運転システムのレベルにおける対策について論じる。

Camera-based computer vision is essential to autonomous vehicle's perception. This paper presents an attack that uses light-emitting diodes and exploits the camera's rolling shutter effect to create adversarial stripes in the captured images to mislead traffic sign recognition. The attack is stealthy because the stripes on the traffic sign are invisible to human. For the attack to be threatening, the recognition results need to be stable over consecutive image frames. To achieve this, we design and implement GhostStripe, an attack system that controls the timing of the modulated light emission to adapt to camera operations and victim vehicle movements. Evaluated on real testbeds, GhostStripe can stably spoof the traffic sign recognition results for up to 94\% of frames to a wrong class when the victim vehicle passes the road section. In reality, such attack effect may fool victim vehicles into life-threatening incidents. We discuss the countermeasures at the levels of camera sensor, perception model, and autonomous driving system.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 集積シリコンフォトニクスを用いた高速量子デジタルシグネチャネットワーク

High-rate quantum digital signatures network with integrated silicon photonics ( http://arxiv.org/abs/2407.07513v1 )

ライセンス: Link先を確認
Yongqiang Du, Bing-Hong Li, Xin Hua, Xiao-Yu Cao, Zhengeng Zhao, Feng Xie, Zhenrong Zhang, Hua-Lei Yin, Xi Xiao, Kejin Wei, (参考訳) 量子ネットワークの発展は、実用的で安全な通信にとって最重要課題である。 量子デジタルシグネチャ(QDS)は、データの完全性、信頼性、非再考を保証するための情報理論的に安全なソリューションを提供する。 しかし、以前のQDSシステムは高価でかさばる光学機器に依存しており、大規模な配備と再構成可能なネットワーク構築を制限していた。 そこで我々は,チップベースのQDSネットワークを導入,検証し,複雑で高価な計測装置を中央リレーに配置する。 統合エンコーダチップとデコーダチップを用いた3ノード構成でネットワークを実証する。 1-decoy-state one-time universal hash-QDS プロトコルを開発することにより、1 Mbit ファイルが200 km までの距離で最大 0.0414 倍の署名率を達成し、現在最先端の QDS 実験を全て上回っている。 本研究は,チップベースのQDSの実現可能性を検証するとともに,大規模展開と既存のファイバインフラストラクチャとの統合を実現する。

The development of quantum networks is paramount towards practical and secure communications. Quantum digital signatures (QDS) offer an information-theoretically secure solution for ensuring data integrity, authenticity, and non-repudiation, rapidly growing from proof-of-concept to robust demonstrations. However, previous QDS systems relied on expensive and bulky optical equipment, limiting large-scale deployment and reconfigurable networking construction. Here, we introduce and verify a chip-based QDS network, placing the complicated and expensive measurement devices in the central relay while each user needs only a low-cost transmitter. We demonstrate the network with a three-node setup using an integrated encoder chip and decoder chip. By developing a 1-decoy-state one-time universal hash-QDS protocol, we achieve a maximum signature rate of 0.0414 times per second for a 1 Mbit file over fiber distances up to 200 km, surpassing all current state-of-the-art QDS experiments. This study validates the feasibility of chip-based QDS, paving the way for large-scale deployment and integration with existing fiber infrastructure.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# Swin SMT:3次元医用画像セグメンテーションにおけるグローバルシーケンスモデリング

Swin SMT: Global Sequential Modeling in 3D Medical Image Segmentation ( http://arxiv.org/abs/2407.07514v1 )

ライセンス: Link先を確認
Szymon Płotka, Maciej Chrabaszcz, Przemyslaw Biecek, (参考訳) ビジョントランスフォーマー(ViT)の最近の進歩は、グローバルな関係の学習を容易にすることで、医療画像のセグメンテーションを著しく強化している。 しかし、これらの手法は、局所的およびグローバルな長期的特徴表現の多様さ、特に全身CT(WBCT)スキャンにおいて顕著な特徴表現を捉える上で、顕著な課題に直面している。 この制限を克服するために、Swin UNETRをベースとした新しいアーキテクチャであるSwin Soft Mixture Transformer (Swin SMT)を導入する。 このモデルにはSoft Mixture-of-Experts (Soft MoE)が組み込まれており、複雑で多様な長距離依存関係を効果的に扱う。 Soft MoEを使用することで、トレーニングモードと推論モードの両方において、計算複雑性とセグメンテーションパフォーマンスのバランスを維持するモデルパラメータのスケールアップが可能になる。 We evaluate Swin SMT on the public available TotalSegmentator-V2 dataset, including 117 major anatomical structure in WBCT images。 総合的な実験の結果、Swin SMTは3次元解剖学的構造セグメンテーションにおいていくつかの最先端手法より優れており、平均Dice類似係数は85.09%である。 Swin SMTのコードはhttps://github.com/MI2DataLab/SwinSMTで公開されている。

Recent advances in Vision Transformers (ViTs) have significantly enhanced medical image segmentation by facilitating the learning of global relationships. However, these methods face a notable challenge in capturing diverse local and global long-range sequential feature representations, particularly evident in whole-body CT (WBCT) scans. To overcome this limitation, we introduce Swin Soft Mixture Transformer (Swin SMT), a novel architecture based on Swin UNETR. This model incorporates a Soft Mixture-of-Experts (Soft MoE) to effectively handle complex and diverse long-range dependencies. The use of Soft MoE allows for scaling up model parameters maintaining a balance between computational complexity and segmentation performance in both training and inference modes. We evaluate Swin SMT on the publicly available TotalSegmentator-V2 dataset, which includes 117 major anatomical structures in WBCT images. Comprehensive experimental results demonstrate that Swin SMT outperforms several state-of-the-art methods in 3D anatomical structure segmentation, achieving an average Dice Similarity Coefficient of 85.09%. The code and pre-trained weights of Swin SMT are publicly available at https://github.com/MI2DataLab/SwinSMT.
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# HDKD:医療画像分類のためのハイブリッドデータ効率の良い知識蒸留ネットワーク

HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification ( http://arxiv.org/abs/2407.07516v1 )

ライセンス: Link先を確認
Omar S. EL-Assiouti, Ghada Hamed, Dina Khattab, Hala M. Ebied, (参考訳) ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。 しかし、本質的な帰納バイアスの欠如により、データ不足でトレーニングされた場合、パフォーマンスは著しく低下する。 畳み込みニューラルネットワーク(CNN)の教師から知識と帰納バイアスを蒸留することは、限られたデータセット上でのViTの一般化を促進する効果的な戦略として現れている。 その中には、CNNの教師からViTの学生へのロジット分布を蒸留することだけに焦点を絞ったものもあり、それらの構造的な違いから中間的な特徴に存在する豊富な意味情報を無視するものもある。 他のものはロジット蒸留とともに特徴蒸留を統合したが、これはミスマッチアーキテクチャによって伝達される知識の量を制限するアライメント演算を導入し、計算オーバーヘッドを増大させた。 そこで本研究では,CNN教師とハイブリッド学習者を用いたハイブリッドデータ効率知識蒸留(HDKD)パラダイムを提案する。 ハイブリッド学生の選択は2つの主な側面がある。 まず、教師モデルと畳み込み構造を共有しながら、畳み込みと変圧器の強さを利用する。 第2に、この共有構造は、情報損失や計算オーバーヘッドを伴わずに、機能蒸留を直接適用することができる。 さらに,教師モデルと学生モデルの両方で主要な畳み込みブロックとして機能する,Mobile Channel-Spatial Attention (MBCSA) という,効率的な軽量畳み込みブロックを提案する。 2つの医学的な公開データセットに対する大規模な実験は、他の最先端モデルよりもHDKDの方が優れていることを示し、その計算効率を示している。 ソースコード:https://github.com/omarsherif200/HDKD

Vision Transformers (ViTs) have achieved significant advancement in computer vision tasks due to their powerful modeling capacity. However, their performance notably degrades when trained with insufficient data due to lack of inherent inductive biases. Distilling knowledge and inductive biases from a Convolutional Neural Network (CNN) teacher has emerged as an effective strategy for enhancing the generalization of ViTs on limited datasets. Previous approaches to Knowledge Distillation (KD) have pursued two primary paths: some focused solely on distilling the logit distribution from CNN teacher to ViT student, neglecting the rich semantic information present in intermediate features due to the structural differences between them. Others integrated feature distillation along with logit distillation, yet this introduced alignment operations that limits the amount of knowledge transferred due to mismatched architectures and increased the computational overhead. To this end, this paper presents Hybrid Data-efficient Knowledge Distillation (HDKD) paradigm which employs a CNN teacher and a hybrid student. The choice of hybrid student serves two main aspects. First, it leverages the strengths of both convolutions and transformers while sharing the convolutional structure with the teacher model. Second, this shared structure enables the direct application of feature distillation without any information loss or additional computational overhead. Additionally, we propose an efficient light-weight convolutional block named Mobile Channel-Spatial Attention (MBCSA), which serves as the primary convolutional block in both teacher and student models. Extensive experiments on two medical public datasets showcase the superiority of HDKD over other state-of-the-art models and its computational efficiency. Source code at: https://github.com/omarsherif200/HDKD
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# 多走査PETのPET再構成におけるパラメータ効率の良い微調整法

Parameter Efficient Fine Tuning for Multi-scanner PET to PET Reconstruction ( http://arxiv.org/abs/2407.07517v1 )

ライセンス: Link先を確認
Yumin Kim, Gayoon Choi, Seong Jae Hwang, (参考訳) ポジトロン・エミッション・トモグラフィ(PET)画像における高画質画像のスキャン時間短縮は,患者の不快感と放射線曝露を最小限にするために重要である。 医用画像におけるデータセットのサイズやスキャナー間の分布差が限られているため、パラメータ効率と効果的な方法による微調整が増加している。 パラメータ効率のよいファインチューニング(PEFT)の可能性に触発されて,PEFTを効果的に活用して,マルチスキャナ・セットアップにおける限られたデータやGPUリソースの問題を改善することを目指す。 本稿では,MultI-Scanner PET のためのパラメータ効率の良いファインチューニング PETITE を 1% 未満のパラメータを用いたPET再構成に導入する。 本研究は,医療画像再構成における多種多様なPEFT技術の有効性を,一般的なエンコーダ・デコーダ型深層モデルを用いて体系的に検討した最初の試みである。 特に本研究では,エンコーダとデコーダを別々に扱い,異なるPEFT法,すなわちMix-PEFTを混合することにより,PETITEに興味深い洞察をもたらす。 5つの異なるスキャナからなるマルチスキャナPETデータセットを用いて、最適なPETITEを導出するために、21の可能なMix-PEFT組み合わせのクロススキャナPETスキャン時間短縮性能(例えば、1つのスキャナで事前トレーニングされたモデルは、別のスキャナで微調整されている)を広範囲にテストした。 PETITEを用いた1%未満のパラメータによるトレーニングは、完全な微調整(100%パラメータ)と同等に実行されることを示す。

Reducing scan time in Positron Emission Tomography (PET) imaging while maintaining high-quality images is crucial for minimizing patient discomfort and radiation exposure. Due to the limited size of datasets and distribution discrepancy across scanners in medical imaging, fine-tuning in a parameter-efficient and effective manner is on the rise. Motivated by the potential of Parameter-Efficient Fine-Tuning (PEFT), we aim to address these issues by effectively leveraging PEFT to improve limited data and GPU resource issues in multi-scanner setups. In this paper, we introduce PETITE, Parameter-Efficient Fine-Tuning for MultI-scanner PET to PET REconstruction that uses fewer than 1% of the parameters. To the best of our knowledge, this study is the first to systematically explore the efficacy of diverse PEFT techniques in medical imaging reconstruction tasks via prevalent encoder-decoder-type deep models. This investigation, in particular, brings intriguing insights into PETITE as we show further improvements by treating encoder and decoder separately and mixing different PEFT methods, namely, Mix-PEFT. Using multi-scanner PET datasets comprised of five different scanners, we extensively test the cross-scanner PET scan time reduction performances (i.e., a model pre-trained on one scanner is fine-tuned on a different scanner) of 21 feasible Mix-PEFT combinations to derive optimal PETITE. We show that training with less than 1% parameters using PETITE performs on par with full fine-tuning (i.e., 100% parameter)
翻訳日:2024-07-11 17:11:48 公開日:2024-07-10
# ブローカーモダリティによるマルチモーダル集団カウント

Multi-modal Crowd Counting via a Broker Modality ( http://arxiv.org/abs/2407.07518v1 )

ライセンス: Link先を確認
Haoliang Meng, Xiaopeng Hong, Chenhao Wang, Miao Shang, Wangmeng Zuo, (参考訳) マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。 このタスクは、これらの異なるモダリティの間に大きなギャップがあるため、難しい。 本稿では,補助ブローカーのモダリティの導入による新しい手法を提案する。 我々は,このブローカのモダリティを生成するための融合法を考案し,近代的な拡散に基づく核融合モデルに対する非拡散的軽量なアプローチを生かした。 さらに,マルチモーダル群集カウントにおける画像融合によるゴースト効果の同定と対処を行う。 提案手法の有効性を実証し,400万のパラメータを新たに導入しただけで,有望な結果が得られることを示す。 コードはhttps://github.com/HenryCilence/Broker-Modality-Crowd-Countingで公開されている。

Multi-modal crowd counting involves estimating crowd density from both visual and thermal/depth images. This task is challenging due to the significant gap between these distinct modalities. In this paper, we propose a novel approach by introducing an auxiliary broker modality and on this basis frame the task as a triple-modal learning problem. We devise a fusion-based method to generate this broker modality, leveraging a non-diffusion, lightweight counterpart of modern denoising diffusion-based fusion models. Additionally, we identify and address the ghosting effect caused by direct cross-modal image fusion in multi-modal crowd counting. Through extensive experimental evaluations on popular multi-modal crowd-counting datasets, we demonstrate the effectiveness of our method, which introduces only 4 million additional parameters, yet achieves promising results. The code is available at https://github.com/HenryCilence/Broker-Modality-Crowd-Counting.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# IRSAM:赤外線小ターゲット検出のためのセグメンテーションモデル

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection ( http://arxiv.org/abs/2407.07520v1 )

ライセンス: Link先を確認
Mingjin Zhang, Yuchun Wang, Jie Guo, Yunsong Li, Xinbo Gao, Jing Zhang, (参考訳) 最近のSegment Anything Model(SAM)は、様々な下流画像セグメンテーションタスクに適した強力なゼロショット性能を示す、自然な画像セグメンテーションにおける重要な進歩である。 しかし、赤外線小ターゲット検出(IRSTD)タスクに事前訓練されたSAMを直接利用することは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。 可視光カメラとは異なり、熱撮像器は赤外線を捉えて物体の温度分布を明らかにする。 小さなターゲットはしばしば、物体の境界で微妙な温度遷移を示す。 この問題に対処するため、IRSTDのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。 具体的には、Perona-Malik拡散(PMD)に基づくブロックを設計し、SAMエンコーダの複数のレベルに組み込んで、ノイズを抑えながら重要な構造的特徴を捉えるのに役立つ。 さらに, 長距離モデリングにおいて失われる可能性のある構造情報を取得するために, 多粒度特徴をエンコーダから融合するグラニュラリティ・アウェア・デコーダ(GAD)を考案した。 NUAA-SIRST、NUDT-SIRST、IRSTD-1Kなどの公開データセットに関する大規模な実験は、IRSAMの設計選択と、その代表的な最先端手法に対する大きな優位性を検証する。 ソースコードはgithub.com/IPIC-Lab/IRSAMで入手できる。

The recent Segment Anything Model (SAM) is a significant advancement in natural image segmentation, exhibiting potent zero-shot performance suitable for various downstream image segmentation tasks. However, directly utilizing the pretrained SAM for Infrared Small Target Detection (IRSTD) task falls short in achieving satisfying performance due to a notable domain gap between natural and infrared images. Unlike a visible light camera, a thermal imager reveals an object's temperature distribution by capturing infrared radiation. Small targets often show a subtle temperature transition at the object's boundaries. To address this issue, we propose the IRSAM model for IRSTD, which improves SAM's encoder-decoder architecture to learn better feature representation of infrared small objects. Specifically, we design a Perona-Malik diffusion (PMD)-based block and incorporate it into multiple levels of SAM's encoder to help it capture essential structural features while suppressing noise. Additionally, we devise a Granularity-Aware Decoder (GAD) to fuse the multi-granularity feature from the encoder to capture structural information that may be lost in long-distance modeling. Extensive experiments on the public datasets, including NUAA-SIRST, NUDT-SIRST, and IRSTD-1K, validate the design choice of IRSAM and its significant superiority over representative state-of-the-art methods. The source code are available at: github.com/IPIC-Lab/IRSAM.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# CHILLI: XAIのデータコンテキストを考慮した摂動法

CHILLI: A data context-aware perturbation method for XAI ( http://arxiv.org/abs/2407.07521v1 )

ライセンス: Link先を確認
Saif Anwar, Nathan Griffiths, Abhir Bhalerao, Thomas Popham, (参考訳) 機械学習(ML)モデルの信頼性は評価が難しいが、リスクの高いアプリケーションや倫理的に敏感なアプリケーションでは重要である。 多くのモデルは、最終決定の理由や基準がユーザに不透明な 'ブラックボックス' として扱われる。 これを解決するために、既存のExplainable AI(XAI)は、摂動データを使用して近似モデルの振る舞いにアプローチする。 しかし、そのような手法は機能依存を無視し、潜在的に非現実的なデータに基づいて説明されていると批判されている。 本稿では,データコンテキストをXAIに組み込むための新しいフレームワークCHILLIを提案する。 これは説明の正確さと正確さを両立させることが示されている。

The trustworthiness of Machine Learning (ML) models can be difficult to assess, but is critical in high-risk or ethically sensitive applications. Many models are treated as a `black-box' where the reasoning or criteria for a final decision is opaque to the user. To address this, some existing Explainable AI (XAI) approaches approximate model behaviour using perturbed data. However, such methods have been criticised for ignoring feature dependencies, with explanations being based on potentially unrealistic data. We propose a novel framework, CHILLI, for incorporating data context into XAI by generating contextually aware perturbations, which are faithful to the training data of the base model being explained. This is shown to improve both the soundness and accuracy of the explanations.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# SHERL:資源制限転送学習のための高精度・効率的なメモリの合成

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning ( http://arxiv.org/abs/2407.07523v1 )

ライセンス: Link先を確認
Haiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen, (参考訳) パラメータ効率変換学習(PETL)は、大規模な事前学習されたモデルを下流タスクに適用し、微調整中にメモリの問題に対処しながらトレーニング可能なパラメータを大幅に削減する研究分野として栄えている。 これを解決するために、メモリ効率級数(METL)は大きなバックボーンを通る勾配のバックプロパゲートを避ける。 しかし、彼らは凍結した中間出力にのみ依存し、事前訓練されたモデルからの事前知識の徹底的な探索を制限することで妥協した。 さらに、層間特徴間の依存性と冗長性はしばしば見過ごされるため、より差別的な表現を潜入させ、固有の性能ギャップを引き起こす(従来のPETL法)。 そこで本研究では,リソース制限シナリオを2つの逐次的および相補的プロセスに分離するために,SHERLと呼ばれる革新的なMETL戦略を提案する。 初期のルートでは、中間出力は反冗長操作によって統合され、その後の相互作用に対する互換性が向上し、後続のルートでは、最小の遅延事前学習層を利用することで、メモリオーバーヘッドのピーク需要を軽減し、これらの柔軟な特徴をより適応的で強力な新しいドメインの表現に制御することができる。 ビジョン・アンド・ランゲージと言語のみのタスクに対する大規模な改善は、SHERLがパラメータとメモリ効率の双方の長所を結合し、微調整中に低メモリで様々なアーキテクチャでオンパー以上の性能を発揮することを示している。 私たちのコードは、https://github.com/Paranioar/SHERL.comで公開されています。

Parameter-efficient transfer learning (PETL) has emerged as a flourishing research field for adapting large pre-trained models to downstream tasks, greatly reducing trainable parameters while grappling with memory challenges during fine-tuning. To address it, memory-efficient series (METL) avoid backpropagating gradients through the large backbone. However, they compromise by exclusively relying on frozen intermediate outputs and limiting the exhaustive exploration of prior knowledge from pre-trained models. Moreover, the dependency and redundancy between cross-layer features are frequently overlooked, thereby submerging more discriminative representations and causing an inherent performance gap (vs. conventional PETL methods). Hence, we propose an innovative METL strategy called SHERL for resource-limited scenarios to decouple the entire adaptation into two successive and complementary processes. In the early route, intermediate outputs are consolidated via an anti-redundancy operation, enhancing their compatibility for subsequent interactions; thereby in the late route, utilizing minimal late pre-trained layers could alleviate the peak demand on memory overhead and regulate these fairly flexible features into more adaptive and powerful representations for new domains. Extensive ablations on vision-and-language and language-only tasks show that SHERL combines the strengths of both parameter and memory-efficient techniques, performing on-par or better across diverse architectures with lower memory during fine-tuning. Our code is publicly available at: https://github.com/Paranioar/SHERL.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 2段階候補検索によるインクリメンタルマルチビューポイントクラウド登録

Incremental Multiview Point Cloud Registration with Two-stage Candidate Retrieval ( http://arxiv.org/abs/2407.07525v1 )

ライセンス: Link先を確認
Shiqi Li, Jihua Zhu, Yifan Xie, Mingchen Zhu, (参考訳) マルチビューポイントクラウド登録は、様々なコンピュータビジョンタスクの基盤となる。 従来のアプローチは一般的に、ポーズグラフが最初に構築され、その後、絶対的なポーズを決定するためにモーション同期が続くグローバルパラダイムに固執する。 しかし、この分離されたアプローチは、マルチビュー登録の特徴を完全に活用することができず、低オーバーラップシナリオで苦労する可能性がある。 本稿では,全スキャンを段階的にメタ形状に登録するインクリメンタルマルチビューポイントクラウド登録手法を提案する。 逐次順序付けを決定するために,2段階の粗大な戦略を用いてポイントクラウド候補探索を行う。 第1段階は、近隣の融合強化グローバルアグリゲーション機能に基づくスキャンの粗い選択を伴い、第2段階は幾何学的マッチングによって候補をさらに再帰する。 さらに,登録過程における累積誤差を軽減するために,変換平均化手法を適用した。 最後に,Reservoir サンプリング手法を用いて,計算負荷を低減しつつ密度分散問題に対処する。 様々なベンチマークによる総合的な実験結果から,本手法の有効性と一般化が検証された。

Multiview point cloud registration serves as a cornerstone of various computer vision tasks. Previous approaches typically adhere to a global paradigm, where a pose graph is initially constructed followed by motion synchronization to determine the absolute pose. However, this separated approach may not fully leverage the characteristics of multiview registration and might struggle with low-overlap scenarios. In this paper, we propose an incremental multiview point cloud registration method that progressively registers all scans to a growing meta-shape. To determine the incremental ordering, we employ a two-stage coarse-to-fine strategy for point cloud candidate retrieval. The first stage involves the coarse selection of scans based on neighbor fusion-enhanced global aggregation features, while the second stage further reranks candidates through geometric-based matching. Additionally, we apply a transformation averaging technique to mitigate accumulated errors during the registration process. Finally, we utilize a Reservoir sampling-based technique to address density variance issues while reducing computational load. Comprehensive experimental results across various benchmarks validate the effectiveness and generalization of our approach.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# MLRS-PDS:動的アンサンブル選択パイプラインのメタラーニング推奨

MLRS-PDS: A Meta-learning recommendation of dynamic ensemble selection pipelines ( http://arxiv.org/abs/2407.07528v1 )

ライセンス: Link先を確認
Hesam Jalalian, Rafael M. O. Cruz, (参考訳) 動的選択(DS)は、テスト時に新しいインスタンスごとに分類器のプールから選択されるが、パターン認識において非常に効果的であることが示されている。 しかし、分類器プールの不安定性と冗長性は、動的アンサンブル選択における計算効率と精度を阻害する可能性がある。 本稿では,個人データセットに適したDES手法に最適なプール生成手法を提案するメタラーニングレコメンデーションシステム(MLRS)を提案する。 このシステムは、データセットのメタ機能から構築されたメタモデルを使用して、与えられたデータセットに対して最も適切なプール生成スキームとDESメソッドを予測する。 このメタ学習推薦システムは,288のデータセットを含む広範な実験を通じて,従来の固定プールやDESメソッドの選択方法よりも優れた性能を示し,DESメソッドの選択を洗練するためのメタ学習アプローチの有効性を強調した。 ソースコード、データセット、追加結果は、プロジェクトのGitHubリポジトリで見ることができる。

Dynamic Selection (DS), where base classifiers are chosen from a classifier's pool for each new instance at test time, has shown to be highly effective in pattern recognition. However, instability and redundancy in the classifier pools can impede computational efficiency and accuracy in dynamic ensemble selection. This paper introduces a meta-learning recommendation system (MLRS) to recommend the optimal pool generation scheme for DES methods tailored to individual datasets. The system employs a meta-model built from dataset meta-features to predict the most suitable pool generation scheme and DES method for a given dataset. Through an extensive experimental study encompassing 288 datasets, we demonstrate that this meta-learning recommendation system outperforms traditional fixed pool or DES method selection strategies, highlighting the efficacy of a meta-learning approach in refining DES method selection. The source code, datasets, and supplementary results can be found in this project's GitHub repository: https://github.com/Menelau/MLRS-PDS.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 異なるアライメントメトリクスはどの程度アライメントされているか?

How Aligned are Different Alignment Metrics? ( http://arxiv.org/abs/2407.07530v1 )

ライセンス: Link先を確認
Jannis Ahlert, Thomas Klein, Felix Wichmann, Robert Geirhos, (参考訳) 近年,人工ニューラルネットワークと人間の神経・行動データとのアライメントを実証的に評価するための様々な手法やベンチマークが提案されている。 しかし、アライメントのメトリクスはどのように一致しますか? この質問に答えるために、我々はBrain-Score (Schrimpf et al , 2018) の視覚データを分析し、モデル-vs- Humanツールボックス (Geirhos et al , 2021) と人間の特徴アライメント (Linsley et al , 2018; Fel et al , 2022) と人間の類似性判定 (Muttenthaler et al , 2022) のメトリクスを含む。 ニューラルスコアと行動スコアの相互相関は非常に低く、時にはネガティブである。 例えば、我々が検討した69のアライメントメトリクスすべてで完全に評価されたBrain-Score上の80モデルの平均相関は0.198である。 採用された指標がすべて健全であると仮定すると、これは人間の知覚との整合性を多次元の概念とみなすのが最善であることを意味し、異なる方法が根本的に異なる側面を測る。 この結果は,統合的ベンチマークの重要性を浮き彫りにしているだけでなく,個々のメトリクスを正しく組み合わせて集約する方法に関する疑問も提起している。 脳スコア(Brain-Score)による算術平均値の集計により、現在のパフォーマンスは行動に支配されている(95.25%が分散を説明)一方、神経予測率はより重要でない(33.33%が分散を説明)。 異なるアライメントの指標がすべて、積分ベンチマークスコアにかなり寄与することを確認するための第一歩として、3つの異なるアグリゲーションオプションを比較して結論付ける。

In recent years, various methods and benchmarks have been proposed to empirically evaluate the alignment of artificial neural networks to human neural and behavioral data. But how aligned are different alignment metrics? To answer this question, we analyze visual data from Brain-Score (Schrimpf et al., 2018), including metrics from the model-vs-human toolbox (Geirhos et al., 2021), together with human feature alignment (Linsley et al., 2018; Fel et al., 2022) and human similarity judgements (Muttenthaler et al., 2022). We find that pairwise correlations between neural scores and behavioral scores are quite low and sometimes even negative. For instance, the average correlation between those 80 models on Brain-Score that were fully evaluated on all 69 alignment metrics we considered is only 0.198. Assuming that all of the employed metrics are sound, this implies that alignment with human perception may best be thought of as a multidimensional concept, with different methods measuring fundamentally different aspects. Our results underline the importance of integrative benchmarking, but also raise questions about how to correctly combine and aggregate individual metrics. Aggregating by taking the arithmetic average, as done in Brain-Score, leads to the overall performance currently being dominated by behavior (95.25% explained variance) while the neural predictivity plays a less important role (only 33.33% explained variance). As a first step towards making sure that different alignment metrics all contribute fairly towards an integrative benchmark score, we therefore conclude by comparing three different aggregation options.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# ベンチマークを超えて - 大規模言語モデルの評価と評価のための新しいパラダイム

Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models ( http://arxiv.org/abs/2407.07531v1 )

ライセンス: Link先を確認
Jin Liu, Qingquan Li, Wenlong Du, (参考訳) 大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。 本稿では,LLMの測定のための新しいパラダイムを提案する。 我々のパラダイムは、LCM評価の「位置」を「検査室」から「ホスピタル」にシフトさせる。 LLM上で「物理検査」を行うことで、特定のタスク解決を評価内容として利用し、LCM内の既存の問題を深く帰属させ、最適化を推奨する。

In current benchmarks for evaluating large language models (LLMs), there are issues such as evaluation content restriction, untimely updates, and lack of optimization guidance. In this paper, we propose a new paradigm for the measurement of LLMs: Benchmarking-Evaluation-Assessment. Our paradigm shifts the "location" of LLM evaluation from the "examination room" to the "hospital". Through conducting a "physical examination" on LLMs, it utilizes specific task-solving as the evaluation content, performs deep attribution of existing problems within LLMs, and provides recommendation for optimization.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 連続した3次元人間の姿勢と形状推定のためのニューラルローカライザ場

Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2407.07532v1 )

ライセンス: Link先を確認
István Sárándi, Gerard Pons-Moll, (参考訳) 利用可能なトレーニングデータの爆発的な増加により、シングルイメージの3Dモデリングは、データ中心のパラダイムへの移行に先んじている。 データスケールをうまく活用するための鍵は、異なる研究者やベンダーによって生成される様々な異種データソースから教師できる柔軟なモデルを設計することである。 この目的のために、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一する、シンプルながら強力なパラダイムを提案する。 私たちの定式化は、トレーニングとテスト時間の両方において、人間の体積の任意の点を問合せ、その推定位置を3Dで取得する能力に重点を置いています。 そこで本研究では,3次元熱マップに基づく畳み込み点ローカライザ(detector)をパラメータ化して,身体点ローカライザ関数の連続神経場を学習する。 パラメトリック出力を生成するために,非パラメトリックジョイントおよび頂点予測にSMPLファミリーモデルを適用するための効率的な後処理ステップを提案する。 このアプローチでは,メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを相互変換することなく,自然に活用することができる。

With the explosive growth of available training data, single-image 3D human modeling is ahead of a transition to a data-centric paradigm. A key to successfully exploiting data scale is to design flexible models that can be supervised from various heterogeneous data sources produced by different researchers or vendors. To this end, we propose a simple yet powerful paradigm for seamlessly unifying different human pose and shape-related tasks and datasets. Our formulation is centered on the ability - both at training and test time - to query any arbitrary point of the human volume, and obtain its estimated location in 3D. We achieve this by learning a continuous neural field of body point localizer functions, each of which is a differently parameterized 3D heatmap-based convolutional point localizer (detector). For generating parametric output, we propose an efficient post-processing step for fitting SMPL-family body models to nonparametric joint and vertex predictions. With this approach, we can naturally exploit differently annotated data sources including mesh, 2D/3D skeleton and dense pose, without having to convert between them, and thereby train large-scale 3D human mesh and skeleton estimation models that outperform the state-of-the-art on several public benchmarks including 3DPW, EMDB and SSP-3D by a considerable margin.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# KaiRacters: ギリシャ・パピリのキャラクターレベルの作家検索

KaiRacters: Character-level-based Writer Retrieval for Greek Papyri ( http://arxiv.org/abs/2407.07536v1 )

ライセンス: Link先を確認
Marco Peer, Robert Sablatnig, Olga Serbaeva, Isabelle Marthot-Santaniello, (参考訳) 本稿では,ギリシア語のpapyriの文脈における文字検索性能向上のための文字ベースアプローチを提案する。 私たちの貢献は、頻繁に使われる文字に対する文字レベルの注釈の導入であり、この場合、ギリシア語のテキストでトリグラムカイと4つの追加文字(epsilon, kappa, mu, omega)が導入された。 我々は,NetVLADに基づく最先端のライター検索手法を用いて,SIFTキーポイント位置にある小さなパッチを使ってページ記述子を構築する場合の,文字レベルに基づく特徴集約手法と,現在のデフォルトベースラインとの比較を行った。 1ページあたり15文字程度しか使用せず、GRK-120データセット上で4%mAP(相対改善11%)のパフォーマンスを向上できることを実証した。 さらに、定性的分析はSIFTパッチと特定の文字の類似点に関する洞察を与える。 我々は、品質ラベルやバイナライズされた画像を含む文字レベルのアノテーションでデータセットを公開し、さらなる研究を行う。

This paper presents a character-based approach for enhancing writer retrieval performance in the context of Greek papyri. Our contribution lies in introducing character-level annotations for frequently used characters, in our case the trigram kai and four additional letters (epsilon, kappa, mu, omega), in Greek texts. We use a state-of-the-art writer retrieval approach based on NetVLAD and compare a character-level-based feature aggregation method against the current default baseline of using small patches located at SIFT keypoint locations for building the page descriptors. We demonstrate that by using only about 15 characters per page, we are able to boost the performance up to 4% mAP (a relative improvement of 11%) on the GRK-120 dataset. Additionally, our qualitative analysis offers insights into the similarity scores of SIFT patches and specific characters. We publish the dataset with character-level annotations, including a quality label and our binarized images for further research.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 医用画像の機械学習

Machine Unlearning for Medical Imaging ( http://arxiv.org/abs/2407.07539v1 )

ライセンス: Link先を確認
Reza Nasirigerdeh, Nader Razmi, Julia A. Schnabel, Daniel Rueckert, Georgios Kaissis, (参考訳) 機械学習は、事前訓練されたモデルから特定のトレーニングサンプル群の影響を取り除くプロセスである。 これは「忘れられる権利」を満たすことを目的としており、患者のような個人が医療画像モデルを含むモデルへの貢献を再考する権利を与える。 本研究では,医学画像領域における異なる未学習アルゴリズムの有効性(性能)と計算効率を評価する。 本評価では, モデルに影響を及ぼすサンプル(モデルに寄与するサンプル)と, モデルに寄与するサンプル(モデルに寄与するサンプル)は, 保持セット(モデルに影響を及ぼすサンプル)で良好に動作し, 男性や女性のサンプルに対するバイアスを示さないことを示した。 しかし、これらはモデルの一般化に悪影響を及ぼす。 さらに、それらは簡単なサンプルや難しいサンプルに偏りがあり、ハイパーパラメータチューニングにさらなる計算オーバーヘッドが必要になるかもしれない。 結論として、機械学習は医療画像に有望なようだが、既存のアンラーニングアルゴリズムは医療応用にもっと実用的なものにするためには、さらなる改善が必要である。

Machine unlearning is the process of removing the impact of a particular set of training samples from a pretrained model. It aims to fulfill the "right to be forgotten", which grants the individuals such as patients the right to reconsider their contribution in models including medical imaging models. In this study, we evaluate the effectiveness (performance) and computational efficiency of different unlearning algorithms in medical imaging domain. Our evaluations demonstrate that the considered unlearning algorithms perform well on the retain set (samples whose influence on the model is allowed to be retained) and forget set (samples whose contribution to the model should be eliminated), and show no bias against male or female samples. They, however, adversely impact the generalization of the model, especially for larger forget set sizes. Moreover, they might be biased against easy or hard samples, and need additional computational overhead for hyper-parameter tuning. In conclusion, machine unlearning seems promising for medical imaging, but the existing unlearning algorithms still needs further improvements to become more practical for medical applications.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# スイスのDINO: デバイス上でのパーソナルオブジェクト検索のための高能率かつVersatile Vision Framework

Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search ( http://arxiv.org/abs/2407.07541v1 )

ライセンス: Link先を確認
Kirill Paramonov, Jia-Xing Zhong, Umberto Michieli, Jijoong Moon, Mete Ozay, (参考訳) 本稿では,ロボット家電がパーソナルデバイスにビジョンシステムを導入し,家電機器をその場でパーソナライズする最近の動向について述べる。 特に,ロボット機器が取得した画像に注目する個人項目の局所化と識別を含む,個人対象探索における重要な技術的課題を定式化し,対処する。 このタスクは、パーソナルな視覚シーンを処理したり、特定の個人的オブジェクト(例えば、把握やナビゲーションのために)で操作する必要があるロボット家電やモバイルシステムにとって不可欠である。 実際に、個人オブジェクト検索は2つの主要な技術的課題を提示している。 まず、ロボットビジョンシステムは、オクルージョンとクラッタの存在下で、多くのきめ細かいクラスを区別できる必要がある。 第二に、オンデバイスシステムの厳格なリソース要件は、いくつかのショット学習における最先端メソッドの使用を制限し、オンデバイス適応を阻害することが多い。 本研究では,最近のDINOv2変圧器モデルに基づく一発個人オブジェクト探索のための簡易かつ効果的なフレームワークであるSwiss DINOを提案する。 スイスのDINOは、デバイス上でパーソナライズされたシーン理解の要件に挑戦し、適応トレーニングを必要としない。 また,重変圧器をベースとしたソリューションと比較して,バックボーン推定時間 (100倍) とGPU消費 (10倍) の大幅なフットプリント削減効果を示した。

In this paper, we address a recent trend in robotic home appliances to include vision systems on personal devices, capable of personalizing the appliances on the fly. In particular, we formulate and address an important technical task of personal object search, which involves localization and identification of personal items of interest on images captured by robotic appliances, with each item referenced only by a few annotated images. The task is crucial for robotic home appliances and mobile systems, which need to process personal visual scenes or to operate with particular personal objects (e.g., for grasping or navigation). In practice, personal object search presents two main technical challenges. First, a robot vision system needs to be able to distinguish between many fine-grained classes, in the presence of occlusions and clutter. Second, the strict resource requirements for the on-device system restrict the usage of most state-of-the-art methods for few-shot learning and often prevent on-device adaptation. In this work, we propose Swiss DINO: a simple yet effective framework for one-shot personal object search based on the recent DINOv2 transformer model, which was shown to have strong zero-shot generalization properties. Swiss DINO handles challenging on-device personalized scene understanding requirements and does not require any adaptation training. We show significant improvement (up to 55%) in segmentation and recognition accuracy compared to the common lightweight solutions, and significant footprint reduction of backbone inference time (up to 100x) and GPU consumption (up to 10x) compared to the heavy transformer-based solutions.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 教師なし領域一般化のための離間マスクオートエンコーダ

Disentangling Masked Autoencoders for Unsupervised Domain Generalization ( http://arxiv.org/abs/2407.07544v1 )

ライセンス: Link先を確認
An Zhang, Han Wang, Xiang Wang, Tat-Seng Chua, (参考訳) ドメイン一般化(Domain Generalization, DG)とは、十分な監視信号を利用して、ドメインシフトに対する不変性を学習することである。 しかし、そのようなラベル付きデータの不足は、教師なしドメインの一般化(UDG)の台頭につながっている。 UDGは急速に注目を集めているが、まだ十分に研究されていない。 本研究のギャップを埋めるために,Distangled Masked Auto Encoder (DisMAE) と呼ばれるUDG用に設計された新しい学習フレームワークを提案する。 ドメイン固有のバリエーション(例えば、カラースキームやテクスチャパターン)を不安定で冗長にフィルタリングしながら、ドメイン分類器によって区別できないドメイン不変セマンティックな特徴の蒸留である。 特にDisMAEは、非対称なデュアルブランチアーキテクチャをセマンティックで軽量な可変エンコーダで訓練し、動的なデータ操作と表現レベルの拡張機能を提供する。 DGタスクとUDGタスクを併用した4つのベンチマークデータセット(DomainNet、PACS、VLCS、Colored MNIST)の大規模な実験により、DisMAEは最先端のDGとUDGベースラインと比較して競合するOOD性能を達成できることが示された。

Domain Generalization (DG), designed to enhance out-of-distribution (OOD) generalization, is all about learning invariance against domain shifts utilizing sufficient supervision signals. Yet, the scarcity of such labeled data has led to the rise of unsupervised domain generalization (UDG) - a more important yet challenging task in that models are trained across diverse domains in an unsupervised manner and eventually tested on unseen domains. UDG is fast gaining attention but is still far from well-studied. To close the research gap, we propose a novel learning framework designed for UDG, termed the Disentangled Masked Auto Encoder (DisMAE), aiming to discover the disentangled representations that faithfully reveal the intrinsic features and superficial variations without access to the class label. At its core is the distillation of domain-invariant semantic features, which cannot be distinguished by domain classifier, while filtering out the domain-specific variations (for example, color schemes and texture patterns) that are unstable and redundant. Notably, DisMAE co-trains the asymmetric dual-branch architecture with semantic and lightweight variation encoders, offering dynamic data manipulation and representation level augmentation capabilities. Extensive experiments on four benchmark datasets (i.e., DomainNet, PACS, VLCS, Colored MNIST) with both DG and UDG tasks demonstrate that DisMAE can achieve competitive OOD performance compared with the state-of-the-art DG and UDG baselines, which shed light on potential research line in improving the generalization ability with large-scale unlabeled data.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 大規模言語モデルを用いたアラビア語の自動物語生成

Arabic Automatic Story Generation with Large Language Models ( http://arxiv.org/abs/2407.07551v1 )

ライセンス: Link先を確認
Ahmed Oumar El-Shangiti, Fakhraddin Alwajih, Muhammad Abdul-Mageed, (参考訳) 大規模言語モデル(LLM)は、最近、幅広い言語生成タスクのための強力なツールとして登場した。 しかし、この進歩はアラビア語では遅くなっている。 本研究では,LLMからストーリを生成するタスクに焦点をあてる。 トレーニングでは、機械翻訳(MT)とGPT-4を使って獲得したストーリーを使用します。 MTデータに対しては、高品質なストーリーを確実に獲得するための慎重なパイプラインを構築します。 GPT-41データには、現代標準アラビア語(MSA)と2つのアラビア方言(エジプト語とモロッコ語)の両方において、アラビア語の文脈によく適合したデータを生成することができる人工的なプロンプトが導入されています。 例えば、さまざまなアラブ諸国向けに、幅広い話題に合わせた物語を作成します。 我々の手作業による評価は、これらのトレーニングデータセットに微調整されたモデルが、私たちの指示に従う一貫性のあるストーリーを生成できることを示している。 我々はまた、我々のモデルを最先端のプロプライエタリおよびオープンソースモデルと比較する広範囲な自動的および人的評価を行う。 データセットとモデルはhttps: //github.com/UBC-NLP/arastoriesで公開されます。

Large language models (LLMs) have recently emerged as a powerful tool for a wide range of language generation tasks. Nevertheless, this progress has been slower in Arabic. In this work, we focus on the task of generating stories from LLMs. For our training, we use stories acquired through machine translation (MT) as well as GPT-4. For the MT data, we develop a careful pipeline that ensures we acquire high-quality stories. For our GPT-41 data, we introduce crafted prompts that allow us to generate data well-suited to the Arabic context in both Modern Standard Arabic (MSA) and two Arabic dialects (Egyptian and Moroccan). For example, we generate stories tailored to various Arab countries on a wide host of topics. Our manual evaluation shows that our model fine-tuned on these training datasets can generate coherent stories that adhere to our instructions. We also conduct an extensive automatic and human evaluation comparing our models against state-of-the-art proprietary and open-source models. Our datasets and models will be made publicly available at https: //github.com/UBC-NLP/arastories.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# 心臓CT画像のフェデレーションモデル

Federated Foundation Model for Cardiac CT Imaging ( http://arxiv.org/abs/2407.07557v1 )

ライセンス: Link先を確認
Malte Tölle, Philipp Garthe, Clemens Scherer, Jan Moritz Seliger, Andreas Leha, Nina Krüger, Stefan Simm, Simon Martin, Sebastian Eble, Halvar Kelm, Moritz Bednorz, Florian André, Peter Bannas, Gerhard Diller, Norbert Frey, Stefan Groß, Anja Hennemuth, Lars Kaderali, Alexander Meyer, Eike Nagel, Stefan Orwat, Moritz Seiffert, Tim Friede, Tim Seidler, Sandy Engelhardt, (参考訳) フェデレートラーニング(FL)は、プライバシを保ちながら分散データを活用するための有名なテクニックである。 しかし、現実世界のアプリケーションは、部分的にラベル付けされたデータセットのような固有の課題を伴い、すべてのクライアントが関心のあるラベルのエキスパートアノテーションを持っているわけではない。 本研究は, 経カテーテル大動脈弁挿入術 (TAVI) 患者8名を対象に, これまでに最大規模の心エコー画像解析を行い, 部分的にラベル付けしたデータセット (n=8,124ドル) について検討した。 現在の基盤モデルの主要なビルディングブロックであるトランスフォーマーアーキテクチャは、従来のCNNよりも大規模なコホートでトレーニングされた場合、優れたパフォーマンスを示している。 しかし、小さなタスク固有のラベル付きサンプルサイズでトレーニングすると、その基盤となるアテンションメカニズムを利用してパフォーマンスを向上させることは、現時点では不可能である。 そこで我々は,複数のタスク固有のCNN(ランドマーク検出と石灰化のセグメンテーション)からの知識を単一トランスフォーマモデルに抽出する2段階の半教師付き学習戦略を開発した。 この手法はトランスアーキテクチャの予測精度と一般化性を向上するだけでなく、フェデレーション全体にわたって単一のトランスモデル内の全ての部分ラベルの同時学習を促進する。 さらに,我々のトランスフォーマーモデルでは,最後の層のみをトレーニングし,冠状動脈のセグメンテーションを解くことで,UNetベースよりも下流タスクに有意義な特徴を抽出できることが示されている。 我々は最終モデルのコードと重みを公開し、心臓CT画像のさらなる研究のための基礎モデルとして役立てることができる。

Federated learning (FL) is a renowned technique for utilizing decentralized data while preserving privacy. However, real-world applications often involve inherent challenges such as partially labeled datasets, where not all clients possess expert annotations of all labels of interest, leaving large portions of unlabeled data unused. In this study, we conduct the largest federated cardiac CT imaging analysis to date, focusing on partially labeled datasets ($n=8,124$) of Transcatheter Aortic Valve Implantation (TAVI) patients over eight hospital clients. Transformer architectures, which are the major building blocks of current foundation models, have shown superior performance when trained on larger cohorts than traditional CNNs. However, when trained on small task-specific labeled sample sizes, it is currently not feasible to exploit their underlying attention mechanism for improved performance. Therefore, we developed a two-stage semi-supervised learning strategy that distills knowledge from several task-specific CNNs (landmark detection and segmentation of calcification) into a single transformer model by utilizing large amounts of unlabeled data typically residing unused in hospitals to mitigate these issues. This method not only improves the predictive accuracy and generalizability of transformer-based architectures but also facilitates the simultaneous learning of all partial labels within a single transformer model across the federation. Additionally, we show that our transformer-based model extracts more meaningful features for further downstream tasks than the UNet-based one by only training the last layer to also solve segmentation of coronary arteries. We make the code and weights of the final model openly available, which can serve as a foundation model for further research in cardiac CT imaging.
翻訳日:2024-07-11 17:01:49 公開日:2024-07-10
# はしご型3レベルJaynes-Cummingsモデルにおける光の非古典性に及ぼす原子初期条件の影響

Impact of atomic initial conditions on nonclassicality of the light in the ladder-type three-level Jaynes-Cummings model ( http://arxiv.org/abs/2407.07558v1 )

ライセンス: Link先を確認
Leonardi Hernández Sánchez, Ariel Flores Rosas, Sergio Mendoza Vázquez, Irán Ramos Prieto, Francisco Soto Eguibar, Héctor Manuel Moya Cessa, (参考訳) 3レベル原子と1モード量子化キャビティの相互作用を探索し、3レベルラグ型Jaynes-Cummingsモデルと呼ぶ。 Schr\\odinger方程式の正確な解を用いて、原子の初期状態が原子エネルギーレベル、平均光子数、光の非古典性にどのように影響するかをMandel $\mathcal{Q} (t)$パラメータとウィグナー関数で評価する。 本研究は, 総合的な数値シミュレーションにより厳密に検証し, 堅牢かつ一貫した結果が得られた。

We explore the interaction between a three-level atom and a single-mode quantized cavity, known as the three-level ladder-type Jaynes-Cummings model. By employing the exact solution of the Schr\"odinger equation, we investigate how the initial conditions of the atom influence the occupation probabilities of the atomic energy levels, average photon number, and the nonclassicality of light, assessed through the Mandel $\mathcal{Q} (t)$ parameter and the Wigner function. Our findings are rigorously validated through comprehensive numerical simulations, ensuring robust and consistent outcomes.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 論理的クエリ計画によるネイティブMLパイプラインの計測と解析

Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans ( http://arxiv.org/abs/2407.07560v1 )

ライセンス: Link先を確認
Stefan Grafberger, (参考訳) 機械学習(ML)は、影響のある決定を自動化するためにますます使われており、その正確性、信頼性、公平性に関する懸念につながります。 私たちは、データサイエンティストがMLパイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。 既存の作業とは対照的に、私たちのキーとなるアイデアは、一般的なライブラリに依存するMLパイプラインコードから"論理的なクエリプラン"を抽出することです。 これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。 まず、このような抽象的なMLパイプライン表現を機械と共に開発し、Pythonコードから抽出した。 次に、この表現を用いて、静的MLパイプラインを効率よく計測し、プロファイランストラッキングを適用し、共通データ準備問題に対する軽量なスクリーニングを可能にした。 最後に、より高度なWhat-if分析を行うためにMLパイプラインを自動的に書き換える機械を構築し、結果のワークロードに対してマルチクエリ最適化を用いて提案した。 今後の作業では、MLパイプラインで作業するデータサイエンティストをインタラクティブに支援することを目的としています。

Machine Learning (ML) is increasingly used to automate impactful decisions, which leads to concerns regarding their correctness, reliability, and fairness. We envision highly-automated software platforms to assist data scientists with developing, validating, monitoring, and analysing their ML pipelines. In contrast to existing work, our key idea is to extract "logical query plans" from ML pipeline code relying on popular libraries. Based on these plans, we automatically infer pipeline semantics and instrument and rewrite the ML pipelines to enable diverse use cases without requiring data scientists to manually annotate or rewrite their code. First, we developed such an abstract ML pipeline representation together with machinery to extract it from Python code. Next, we used this representation to efficiently instrument static ML pipelines and apply provenance tracking, which enables lightweight screening for common data preparation issues. Finally, we built machinery to automatically rewrite ML pipelines to perform more advanced what-if analyses and proposed using multi-query optimisation for the resulting workloads. In future work, we aim to interactively assist data scientists as they work on their ML pipelines.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# FLAIR:リアルな料理の長距離摂取による食事

FLAIR: Feeding via Long-horizon AcquIsition of Realistic dishes ( http://arxiv.org/abs/2407.07561v1 )

ライセンス: Link先を確認
Rajat Kumar Jenamani, Priya Sundaresan, Maram Sakr, Tapomayukh Bhattacharjee, Dorsa Sadigh, (参考訳) ロボット支援給餌は、単独で給餌できない移動性制限のある個人にとって、生活の質を向上させる可能性がある。 しかし、既存の給餌システムで扱える均質で硬化したプレートと、本当に野生の食事の間には大きなギャップがある。 リアルな皿を食うことは、ロボットが遭遇する可能性のある食品の数が多すぎるため、非常に難しい。 補助給餌システムは、食事全体への給餌のために、異なる戦略を効率的にシーケンスできるだけでなく、タスクのパーソナライズされた性質を考えると、ユーザの好みに留意すべきである。 パラメータ化スキルのライブラリとともに,基礎モデルのコモンセンスと少数ショット推論機能を活用した長期給餌システムFLAIRを用いて,ユーザの優先的かつ効率的な噛み取りシーケンスの計画と実行を行う。 現実的な6つのプレートの実際の評価では, FLAIRは, 動作制限を伴わない42名の被験者の多様な嗜好をユーザスタディで評価しながら, 効率的な食事摂取のための多様なスキルのライブラリーを効果的に活用できることがわかった。 FLAIRを既存の噛み込み伝達法 [19, 28] とシームレスに統合し、2つの機関と3つのロボットに展開し、適応性を示す。 最後に,重度の移動制限のある介護者への給餌に成功したシステムの有効性について述べる。 追加資料やビデオは以下の通り。

Robot-assisted feeding has the potential to improve the quality of life for individuals with mobility limitations who are unable to feed themselves independently. However, there exists a large gap between the homogeneous, curated plates existing feeding systems can handle, and truly in-the-wild meals. Feeding realistic plates is immensely challenging due to the sheer range of food items that a robot may encounter, each requiring specialized manipulation strategies which must be sequenced over a long horizon to feed an entire meal. An assistive feeding system should not only be able to sequence different strategies efficiently in order to feed an entire meal, but also be mindful of user preferences given the personalized nature of the task. We address this with FLAIR, a system for long-horizon feeding which leverages the commonsense and few-shot reasoning capabilities of foundation models, along with a library of parameterized skills, to plan and execute user-preferred and efficient bite sequences. In real-world evaluations across 6 realistic plates, we find that FLAIR can effectively tap into a varied library of skills for efficient food pickup, while adhering to the diverse preferences of 42 participants without mobility limitations as evaluated in a user study. We demonstrate the seamless integration of FLAIR with existing bite transfer methods [19, 28], and deploy it across 2 institutions and 3 robots, illustrating its adaptability. Finally, we illustrate the real-world efficacy of our system by successfully feeding a care recipient with severe mobility limitations. Supplementary materials and videos can be found at: https://emprise.cs.cornell.edu/flair .
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 準幾何学的アプローチによる量子ビット変換

Transforming qubits via quasi-geometric approaches ( http://arxiv.org/abs/2407.07562v1 )

ライセンス: Link先を確認
Nyirahafashimana Valentine, Nurisya Mohd Shah, Umair Abdul Halim, Sharifah Kartini Said Husain, Ahmed Jellal, (参考訳) 擬幾何法(QG)に基づく理論を開発し、4つの異なるケースを考慮し、少数の量子ビットをより大きな数の誤り訂正量子ビットに変換する。 より正確には、2次元の準直交完全補完符号 (2D-QOCCCSs) と準巡回非対称量子誤り訂正符号 (AQECCs) を準群および群理論特性を介して用いる。 パウリの$X$-gate(英語版)とアダマールの$H$-gate(英語版)を統合し、量子回路図における初期および最終量子ビットを重畳する。 本研究では,2D-QOCCCとAQECCのバーグラフを用いて数値計算結果を比較し,その特性を解析した。 AQECC に対する追加結果の生成とカウントの難しさは、より多くのエラーを補正するためには、より小さな初期量子ビットをより大きな最終数にマッピングする必要があるためである。 AQECC の場合、修正可能なエラーの数は、初期量子ビットの数に等しいかそれ以下でなければならない。 1キュービット状態を29キュービットにマッピングして5エラーを2D-QOCCCで補正する場合、高い誤差補正性能が観察される。 同様に、AQECCを用いた1量子ビットから13量子ビットへの変換も高い性能を示し、2つのエラーの修正に成功した。 以上の結果から, この理論は, 誤り訂正における高い性能のため, 将来の量子コンピューティングアプリケーションにおいて, それらのコードの改良と最適化の基盤を提供するという利点があることがわかった。

We develop a theory based on quasi-geometric (QG) approach to transform a small number of qubits into a larger number of error-correcting qubits by considering four different cases. More precisely, we use the 2-dimensional quasi-orthogonal complete complementary codes (2D-QOCCCSs) and quasi-cyclic asymmetric quantum error-correcting codes (AQECCs) via quasigroup and group theory properties. We integrate the Pauli $X$-gate to detect and correct errors, as well as the Hadamard $H$-gate to superpose the initial and final qubits in the quantum circuit diagram. We compare the numerical results to analyze the success, consistency, and performance of the corrected errors through bar graphs for 2D-QOCCCs and AQECCs according to their characteristics. The difficulty in generating additional sets of results and counts for AQECCs arises because mapping a smaller initial number of qubits to a larger final number is necessary to correct more errors. For AQECCs, the number of errors that can be corrected must be equal to or less than the initial number of qubits. High error correction performance is observed when mapping 1-qubit state to 29-qubits to correct 5 errors using 2D-QOCCCs. Similarly, transforming 1-qubit to 13-qubits using AQECCs also shows high performance, successfully correcting 2 errors. The results show that our theory has the advantage of providing a basis for refining and optimizing these codes in future quantum computing applications due to its high performance in error correction.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 訓練可能な高発現活性化機能

Trainable Highly-expressive Activation Functions ( http://arxiv.org/abs/2407.07564v1 )

ライセンス: Link先を確認
Irit Chelly, Shahaf E. Finder, Shira Ifergane, Oren Freifeld, (参考訳) 非線形活性化関数は、ディープニューラルネットの成功に重要なものであり、適切な活性化関数を選択することは、それらの性能に大きな影響を与える。 ほとんどのネットワークは、固定活性化関数(例えば、ReLU、GELUなど)を使用しており、この選択は表現性を制限する可能性がある。 さらに、異なるレイヤは多様なアクティベーション関数の恩恵を受ける。 その結果、トレーニング可能なアクティベーション機能への関心が高まっている。 本稿では,効率的な微分同相変換(CPAB)に基づく訓練可能な高発現活性化関数であるDiTACを紹介する。 トレーニング可能なパラメータは無視できる数に過ぎなかったが、DiTACはモデル表現性と性能を高め、しばしば大幅な改善をもたらす。 また、セマンティックセグメンテーション、画像生成、回帰問題、画像分類といったタスクにおいて、既存のアクティベーション関数(後者が固定可能かトレーニング可能かに関わらず)を上回っている。 私たちのコードはhttps://github.com/BGU-CS-VIL/DiTAC.comで公開されています。

Nonlinear activation functions are pivotal to the success of deep neural nets, and choosing the appropriate activation function can significantly affect their performance. Most networks use fixed activation functions (e.g., ReLU, GELU, etc.), and this choice might limit their expressiveness. Furthermore, different layers may benefit from diverse activation functions. Consequently, there has been a growing interest in trainable activation functions. In this paper, we introduce DiTAC, a trainable highly-expressive activation function based on an efficient diffeomorphic transformation (called CPAB). Despite introducing only a negligible number of trainable parameters, DiTAC enhances model expressiveness and performance, often yielding substantial improvements. It also outperforms existing activation functions (regardless whether the latter are fixed or trainable) in tasks such as semantic segmentation, image generation, regression problems, and image classification. Our code is available at https://github.com/BGU-CS-VIL/DiTAC.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# コード生成評価データセットの漏洩について

On Leakage of Code Generation Evaluation Datasets ( http://arxiv.org/abs/2407.07565v1 )

ライセンス: Link先を確認
Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé, (参考訳) 本稿では,コード生成テストセットによる汚染について考察する。 このような汚染の原因を3つ議論し、それぞれを裏付ける知見を示す。 (i)直接データ漏洩 二 合成データを利用した間接的データ漏洩 三 モデル選択時の評価セットに過度に適合すること。 このデータセットはhttps://huggingface.co/datasets/CohereForAI/lbpp でリリースされています。

In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# HebDB:ヘブライ語音声処理のための弱い監視されたデータセット

HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing ( http://arxiv.org/abs/2407.07566v1 )

ライセンス: Link先を確認
Arnon Turetzky, Or Tal, Yael Segal-Feldman, Yehoshua Dissen, Ella Zeldes, Amit Roth, Eyal Cohen, Yosi Shrem, Bronya R. Chernyak, Olga Seleznova, Joseph Keshet, Yossi Adi, (参考訳) 本稿ではヘブライ語における音声言語処理のための弱教師付きデータセットHebDBを提案する。 HebDBは、ヘブライ語で約2500時間に及ぶ自然と自発的な音声記録を提供しており、様々な話者やトピックで構成されている。 我々は、事前処理、弱教師付き、フィルタされたバージョンと共に生録音を提供する。 HebDBの目標は、ヘブライ語のための音声言語処理ツールの研究と開発を強化することである。 これにより、自動音声認識(ASR)のための2つのベースラインシステムも提供する。 i)自己監督型モデル,及び (ii)完全教師付きモデル。 本稿では,HebDBに最適化された2つの手法の性能について述べる。 結果から,提案手法はモデルサイズに類似する評価基準値よりも優れた結果が得られることが示唆された。 データセット、コード、モデルはhttps://pages.cs.huji.ac.il/adiyoss-lab/HebDB/で公開されている。

We present HebDB, a weakly supervised dataset for spoken language processing in the Hebrew language. HebDB offers roughly 2500 hours of natural and spontaneous speech recordings in the Hebrew language, consisting of a large variety of speakers and topics. We provide raw recordings together with a pre-processed, weakly supervised, and filtered version. The goal of HebDB is to further enhance research and development of spoken language processing tools for the Hebrew language. Hence, we additionally provide two baseline systems for Automatic Speech Recognition (ASR): (i) a self-supervised model; and (ii) a fully supervised model. We present the performance of these two methods optimized on HebDB and compare them to current multi-lingual ASR alternatives. Results suggest the proposed method reaches better results than the evaluated baselines considering similar model sizes. Dataset, code, and models are publicly available under https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# ディジタル双極エッジコンピューティングネットワークにおける双極子保守・計算タスク処理のためのリソース割り当て

Resource Allocation for Twin Maintenance and Computing Task Processing in Digital Twin Vehicular Edge Computing Network ( http://arxiv.org/abs/2407.07575v1 )

ライセンス: Link先を確認
Yu Xie, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief, (参考訳) 有望な技術として、車両の近くにVECサーバを配置することで、車両エッジコンピューティング(VEC)がコンピューティングおよびキャッシュサービスを提供することができる。 しかしながら、VECネットワークは、ハイカーモビリティのような課題に直面している。 デジタルツイン(DT)は、物理世界でオブジェクトをデジタルモデリングすることで、リアルタイム状態を予測、推定、分析することができる。 DTとVECを統合することにより、VECサーバ内に仮想車両DTを作成して、車両のリアルタイム動作状態を監視することができる。 しかしながら、車両DTモデルの維持には、車両にコンピューティングサービスを提供する必要のあるVECサーバからの継続的な注意が必要である。 したがって、VECサーバリソースの効果的なアロケーションとスケジューリングが重要である。 本研究では、単一のVECサービスと複数の車両を備えた一般的なVECネットワークに着目し、ネットワーク内の双子の保守と計算処理に起因する2種類の遅延について検討する。 満足度関数を用いて問題を変換することにより,各車両の資源有効性を最大化し,最適資源配分戦略を決定する最適化問題を提案する。 この問題の非凸性を考えると、この問題を再検討するためにマルチエージェントのマルコフ決定プロセスを採用する。 そこで本研究では,マルチエージェント深層強化学習を生かしたMADRL-CSTCアルゴリズムを提案する。 実験により,提案手法が資源配分の面で有効であることを実証した。

As a promising technology, vehicular edge computing (VEC) can provide computing and caching services by deploying VEC servers near vehicles. However, VEC networks still face challenges such as high vehicle mobility. Digital twin (DT), an emerging technology, can predict, estimate, and analyze real-time states by digitally modeling objects in the physical world. By integrating DT with VEC, a virtual vehicle DT can be created in the VEC server to monitor the real-time operating status of vehicles. However, maintaining the vehicle DT model requires ongoing attention from the VEC server, which also needs to offer computing services for the vehicles. Therefore, effective allocation and scheduling of VEC server resources are crucial. This study focuses on a general VEC network with a single VEC service and multiple vehicles, examining the two types of delays caused by twin maintenance and computational processing within the network. By transforming the problem using satisfaction functions, we propose an optimization problem aimed at maximizing each vehicle's resource utility to determine the optimal resource allocation strategy. Given the non-convex nature of the issue, we employ multi-agent Markov decision processes to reformulate the problem. Subsequently, we propose the twin maintenance and computing task processing resource collaborative scheduling (MADRL-CSTC) algorithm, which leverages multi-agent deep reinforcement learning. Through experimental comparisons with alternative algorithms, it demonstrates that our proposed approach is effective in terms of resource allocation.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# IDA-VLM:ID対応大規模視覚言語モデルによる映画理解に向けて

IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model ( http://arxiv.org/abs/2407.07577v1 )

ライセンス: Link先を確認
Yatai Ji, Shilong Zhang, Jie Wu, Peize Sun, Weifeng Chen, Xuefeng Xiao, Sidi Yang, Yujiu Yang, Ping Luo, (参考訳) LVLM(Large Vision-Language Model)の急速な進歩は、創発的能力のスペクトルを実証している。 しかしながら、現在のモデルは単一のシナリオの視覚的コンテンツのみに焦点を当てているが、異なるシーンにまたがるインスタンスを関連付ける能力はまだ検討されておらず、複数のキャラクターや複雑なプロットを持つ映画のような複雑な視覚的コンテンツを理解するのに不可欠である。 映画理解に向けて、LVLMにとって重要な最初のステップは、複数の視覚シナリオにまたがるキャラクタアイデンティティの記憶と認識の可能性を解き放つことである。 目的を達成するために,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。 さらに,本研究では,マッチング,位置情報,質問応答,キャプションの4次元にわたるインスタンスIDと認識のLVLMについて,新しいベンチマークMM-IDを提案する。 本研究は,既存LVLMのID参照とインスタンスの同一性を認識し,関連づける際の限界を明らかにするものである。 本稿では,将来的な人工知能システムにおいて,映像のような複雑な視覚的物語の理解を容易にするため,視覚的インプットの多元性を実現する方法について述べる。

The rapid advancement of Large Vision-Language models (LVLMs) has demonstrated a spectrum of emergent capabilities. Nevertheless, current models only focus on the visual content of a single scenario, while their ability to associate instances across different scenes has not yet been explored, which is essential for understanding complex visual content, such as movies with multiple characters and intricate plots. Towards movie understanding, a critical initial step for LVLMs is to unleash the potential of character identities memory and recognition across multiple visual scenarios. To achieve the goal, we propose visual instruction tuning with ID reference and develop an ID-Aware Large Vision-Language Model, IDA-VLM. Furthermore, our research introduces a novel benchmark MM-ID, to examine LVLMs on instance IDs memory and recognition across four dimensions: matching, location, question-answering, and captioning. Our findings highlight the limitations of existing LVLMs in recognizing and associating instance identities with ID reference. This paper paves the way for future artificial intelligence systems to possess multi-identity visual inputs, thereby facilitating the comprehension of complex visual narratives like movies.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 非決定論的状態準備における光子検出誤差の抑制

Suppressing photon detection errors in nondeterministic state preparation ( http://arxiv.org/abs/2407.07579v1 )

ライセンス: Link先を確認
Csaba Czabán, Zoltán Kolarovszki, Márton Karácsony, Zoltán Zimborás, (参考訳) フォトニック量子コンピューティングは、フォトニック量子ビットによるフォールトトレラント量子コンピューティングの候補として最近登場した。 これらのプロトコルは非決定性ゲートを使用し、普遍的な量子計算を可能にする。 しかし、提案された解は粒子番号解決検出器(PNRD)を多用しており、これは実験的に実現が困難であり、実際は偏っている。 非決定性ゲートに対応する干渉計における最適ビームスプリッタと位相シフタ角を調整することにより、そのような光検出器の不完全性に起因するエラーを抑制する可能性を検討する。 さらに,非決定性ゲートの成功確率を制御しながら高い出力状態の忠実度を達成できる調整角度を決定する最適化手法を考案した。

Photonic quantum computing has recently emerged as a promising candidate for fault-tolerant quantum computing by photonic qubits. These protocols make use of nondeterministic gates, enabling universal quantum computation. However, the suggested solutions heavily use particle number resolving detectors (PNRDs), which are experimentally hard to realize and are usually biased in practice. We investigate the possibility of suppressing such errors caused by such photodetector imperfections by adjusting the optimal beamsplitter and phaseshifter angles in the interferometer corresponding to nondeterministic gates. Moreover, we devise an optimization method for determining the adjusted angles, which may achieve higher output state fidelities while controlling the success probabilities of the nondeterministic gates.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# InstructLayout: セマンティックグラフを用いたインストラクション駆動2Dおよび3Dレイアウト合成

InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior ( http://arxiv.org/abs/2407.07580v1 )

ライセンス: Link先を確認
Chenguo Lin, Yuchen Lin, Yadong Mu, (参考訳) 自然言語命令を補完することは、2Dと3Dのレイアウト合成システムにとって魅力的な特性である。 既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成者の制御可能性を妨げる。 InstructLayoutは、セマンティックグラフとレイアウトデコーダを統合し、2次元および3次元レイアウト合成の制御性と忠実性を改善する新しい生成フレームワークである。 提案したセマンティックグラフは,レイアウトの出現とオブジェクトの分布を同時に学習し,各下流タスクの汎用性をゼロショットで示す。 テキスト駆動2Dと3Dシーン合成のベンチマークを容易にするため,我々は,大規模言語とマルチモーダルモデルを用いて,公開インターネットリソースから2つの高品質なレイアウト命令ペアのデータセットをキュレートした。 実験結果から,提案手法は2次元および3次元のレイアウト合成作業において,既存の最先端手法よりも優れた性能を示した。 徹底的なアブレーション研究により、重要な設計要素の有効性が確認された。

Comprehending natural language instructions is a charming property for both 2D and 3D layout synthesis systems. Existing methods implicitly model object joint distributions and express object relations, hindering generation's controllability. We introduce InstructLayout, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 2D and 3D layout synthesis. The proposed semantic graph prior learns layout appearances and object distributions simultaneously, demonstrating versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 2D and 3D scene synthesis, we respectively curate two high-quality datasets of layout-instruction pairs from public Internet resources with large language and multimodal models. Extensive experimental results reveal that the proposed method outperforms existing state-of-the-art approaches by a large margin in both 2D and 3D layout synthesis tasks. Thorough ablation studies confirm the efficacy of crucial design components.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# TIP:不完全データを用いたマルチモーダル分類のためのタブラル画像事前学習

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data ( http://arxiv.org/abs/2407.07582v1 )

ライセンス: Link先を確認
Siyi Du, Shaoming Zheng, Yinsong Wang, Wenjia Bai, Declan P. O'Regan, Chen Qin, (参考訳) 画像と構造化テーブルは、現実世界のデータベースの重要な部分である。 表象表現学習は新たな洞察を生み出すことを約束しているが、表象データは典型的に異質で不完全であり、画像とはかなりのモダリティの相違を示すため、依然として難しい課題である。 これまでの研究は主に、完全なデータシナリオにおける単純なモダリティ融合戦略に重点を置いていた。 本稿では,不完全な表データに頑健なマルチモーダル表現を学習するための新しい表像事前学習フレームワークであるTIPを提案する。 具体的には、TIPは、データ不足に対処するためのマスク付き表層再構築タスク、マルチモーダル情報を取得するための画像とタブラリマッチングとコントラスト学習目的を含む、新しい自己教師型学習(SSL)戦略を調査する。 さらに,不完全で不均一な表層データに適した多機能な表層エンコーダと,モード間表現学習のための多モード対話モジュールを提案する。 自然画像と医用画像の両方を用いて、下流のマルチモーダル分類タスクで実験を行う。 その結果、TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSL画像/マルチモーダルアルゴリズムより優れていることがわかった。 私たちのコードはhttps://github.com/siyi-wind/TIPで利用可能です。

Images and structured tables are essential parts of real-world databases. Though tabular-image representation learning is promising to create new insights, it remains a challenging task, as tabular data is typically heterogeneous and incomplete, presenting significant modality disparities with images. Earlier works have mainly focused on simple modality fusion strategies in complete data scenarios, without considering the missing data issue, and thus are limited in practice. In this paper, we propose TIP, a novel tabular-image pre-training framework for learning multimodal representations robust to incomplete tabular data. Specifically, TIP investigates a novel self-supervised learning (SSL) strategy, including a masked tabular reconstruction task for tackling data missingness, and image-tabular matching and contrastive learning objectives to capture multimodal information. Moreover, TIP proposes a versatile tabular encoder tailored for incomplete, heterogeneous tabular data and a multimodal interaction module for inter-modality representation learning. Experiments are performed on downstream multimodal classification tasks using both natural and medical image datasets. The results show that TIP outperforms state-of-the-art supervised/SSL image/multimodal algorithms in both complete and incomplete data scenarios. Our code is available at https://github.com/siyi-wind/TIP.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# オブジェクト検出のためのソースフリードメイン適応の簡易化:効果的な自己学習戦略とパフォーマンス指標

Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights ( http://arxiv.org/abs/2407.07586v1 )

ライセンス: Link先を確認
Yan Hao, Florent Forest, Olga Fink, (参考訳) 本稿では,コンピュータビジョンにおけるオブジェクト検出のためのソースフリー領域適応に着目した。 このタスクは、新しいドメインごとに注釈付きデータセットを取得するコストのため、挑戦的で、非常に実践的な関心事です。 最近の研究では、様々な特徴アライメント、正規化、擬似ラベル選択戦略を備えた教師学生アーキテクチャのバリエーションとして、ソースフリーオブジェクト検出(SFOD)の様々なソリューションが提案されている。 本研究は,複数の適応シナリオにおけるより複雑なSFOD法と比較して,より単純なアプローチとその性能について検討する。 本稿では,検出器バックボーンにおけるバッチ正規化層の重要性を強調し,バッチ統計のみを適応させることがSFODの強力なベースラインであることを示す。 本研究では、ソースフリー環境での強弱強化による平均教師の簡単な拡張として、ソースフリーなアンバイアスド・教師(SF-UT)を提案し、従来のSFOD手法よりも優れていることを示す。 さらに、固定された擬似ラベルのトレーニングからなるさらに単純な戦略は、より複雑な教師と学生の相互学習と同等のパフォーマンスを達成できると同時に、教師と学生の崩壊の大きな問題を減らし、計算的に効率的であることを示す。 我々は、(Foggy)Cityscapes、Sim10k、KITTIなどのベンチマーク駆動データセットを用いて、いくつかの適応タスクを実験し、最新のSFODと比較して、Cityscapes$\rightarrow$Foggy-Cityscapesの4.7\% AP50を顕著に改善した。 ソースコードはhttps://github.com/EPFL-IMOS/simple-SFODで入手できる。

This paper focuses on source-free domain adaptation for object detection in computer vision. This task is challenging and of great practical interest, due to the cost of obtaining annotated data sets for every new domain. Recent research has proposed various solutions for Source-Free Object Detection (SFOD), most being variations of teacher-student architectures with diverse feature alignment, regularization and pseudo-label selection strategies. Our work investigates simpler approaches and their performance compared to more complex SFOD methods in several adaptation scenarios. We highlight the importance of batch normalization layers in the detector backbone, and show that adapting only the batch statistics is a strong baseline for SFOD. We propose a simple extension of a Mean Teacher with strong-weak augmentation in the source-free setting, Source-Free Unbiased Teacher (SF-UT), and show that it actually outperforms most of the previous SFOD methods. Additionally, we showcase that an even simpler strategy consisting in training on a fixed set of pseudo-labels can achieve similar performance to the more complex teacher-student mutual learning, while being computationally efficient and mitigating the major issue of teacher-student collapse. We conduct experiments on several adaptation tasks using benchmark driving datasets including (Foggy)Cityscapes, Sim10k and KITTI, and achieve a notable improvement of 4.7\% AP50 on Cityscapes$\rightarrow$Foggy-Cityscapes compared with the latest state-of-the-art in SFOD. Source code is available at https://github.com/EPFL-IMOS/simple-SFOD.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# Occ Flow: 自己監督型3D作業フロー予測

Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction ( http://arxiv.org/abs/2407.07587v1 )

ライセンス: Link先を確認
Yili Liu, Linzhan Mou, Xuan Yu, Chenrui Han, Sitong Mao, Rong Xiong, Yue Wang, (参考訳) 動的環境の正確な認識は、自律運転とロボットシステムの基本課題である。 本稿では, カメラ入力のみを用いて, 3Dアノテーションの必要をなくし, 関節の3D占有率と占有率の予測を行う最初の自己教師型作業であるLet Occ Flowを紹介する。 本手法では,統合されたシーン表現のためのTPVと,特徴集約のための変形可能なアテンション層を用いて,動的オブジェクトの依存関係をキャプチャするための後方向きの時間的アテンションモジュールと,詳細なボリューム表現のための3Dリファインメントモジュールを併用する。 さらに, 動的分解と運動最適化のために, ゼロショット2次元セグメンテーションと光学フローキューを活用することで, 3次元フロー場に微分可能レンダリングを拡張した。 nuScenesとKITTIデータセットに関する大規模な実験は、従来の最先端手法に対する我々のアプローチの競争性能を実証している。

Accurate perception of the dynamic environment is a fundamental task for autonomous driving and robot systems. This paper introduces Let Occ Flow, the first self-supervised work for joint 3D occupancy and occupancy flow prediction using only camera inputs, eliminating the need for 3D annotations. Utilizing TPV for unified scene representation and deformable attention layers for feature aggregation, our approach incorporates a backward-forward temporal attention module to capture dynamic object dependencies, followed by a 3D refine module for fine-gained volumetric representation. Besides, our method extends differentiable rendering to 3D volumetric flow fields, leveraging zero-shot 2D segmentation and optical flow cues for dynamic decomposition and motion optimization. Extensive experiments on nuScenes and KITTI datasets demonstrate the competitive performance of our approach over prior state-of-the-art methods.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 低ノイズダイレベルレシーバによるブロードバンド絞り光の検出

Detection of broadband squeezed light with a low-noise die-level balanced receiver ( http://arxiv.org/abs/2407.07588v1 )

ライセンス: Link先を確認
Emmily Zaiser, Alessandro Trenti, Dinka Milovančev, Nemanja Vokić, Bernhard Schrenk, Hannes Hübel, (参考訳) 非線形結晶における自発パラメトリックダウンコンバージョンにより3.5GHzの周波数まで励起光の発生と検出を行う。 我々は、低ノイズダイレベル受信機を利用して、バランスの取れたホモダイン検出による量子状態の特徴付けを行う。

The generation and detection of squeezed light through spontaneous parametric down-conversion in a nonlinear crystal up to a frequency of 3.5 GHz is presented. We characterize the quantum state with balanced homodyne detection, leveraging a low-noise die-level receiver.
翻訳日:2024-07-11 16:51:55 公開日:2024-07-10
# 高性能ソフトロボット設計のためのMAP-elites と Topology Optimization を用いた複雑な設計空間のトラバース

A 'MAP' to find high-performing soft robot designs: Traversing complex design spaces using MAP-elites and Topology Optimization ( http://arxiv.org/abs/2407.07591v1 )

ライセンス: Link先を確認
Yue Xie, Josh Pinskier, Lois Liow, David Howard, Fumiya Iida, (参考訳) ソフトロボティクス(Soft Roboticss)は、変形可能な物体をつかむための標準的なソリューションとして登場し、極端な環境下での移動ロボットの探索に有用であることが証明されている。 しかし、この成長にもかかわらず、高品質で製造可能な設計を生産する計算設計ツールが広く採用されていない。 ヒューリスティックなバイオインスピレーションのリターンの低下を超えて前進するためには、ソフトロボティクスに存在する複雑で非線形なデザイン空間を探索し、新しいハイパフォーマンスなデザインを見つけるための効率的なツールが必要である。 本研究では、トポロジ最適化と品質多様性最適化の強みを組み合わせた階層型設計最適化手法について検討し、設計領域を進化させることにより、多種多様な高性能なソフトロボットを生成する。 設計領域内に可変サイズのヴォイド領域を埋め込み、そのサイズと位置を進化させ、設計空間のよりリッチな探索を容易にし、多種多様な高性能なソフトロボットを見つける。 本研究では, ベンチマークトポロジ最適化問題とソフトロボット設計問題の両方に有効性を示すとともに, ソフトグリップパに適用した場合のグリップ性能を向上させる方法を示す。 本手法は, ソフトと剛性の両方において, 複雑な設計領域の部品を設計するための新しい枠組みを提供する。

Soft robotics has emerged as the standard solution for grasping deformable objects, and has proven invaluable for mobile robotic exploration in extreme environments. However, despite this growth, there are no widely adopted computational design tools that produce quality, manufacturable designs. To advance beyond the diminishing returns of heuristic bio-inspiration, the field needs efficient tools to explore the complex, non-linear design spaces present in soft robotics, and find novel high-performing designs. In this work, we investigate a hierarchical design optimization methodology which combines the strengths of topology optimization and quality diversity optimization to generate diverse and high-performance soft robots by evolving the design domain. The method embeds variably sized void regions within the design domain and evolves their size and position, to facilitating a richer exploration of the design space and find a diverse set of high-performing soft robots. We demonstrate its efficacy on both benchmark topology optimization problems and soft robotic design problems, and show the method enhances grasp performance when applied to soft grippers. Our method provides a new framework to design parts in complex design domains, both soft and rigid.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 必要な人に対する治療効果の学習

Learning treatment effects while treating those in need ( http://arxiv.org/abs/2407.07596v1 )

ライセンス: Link先を確認
Bryan Wilder, Pim Welle, (参考訳) 多くの社会プログラムは、最も必要な人に不足する資源を割り当てようと試みている。 実際、公共サービスは、この目標に動機づけられたアルゴリズム的リスクアセスメントをますます利用しています。 しかし、最高の評価はアロケーションをランダムにすることで得られるので、最も必要な受信者をターゲットにしてプログラムの因果効果を全体として評価しようとすると、しばしば矛盾する。 本研究では,2つの目標の間にパレートフロンティアを持つ政策立案者を提示し,学習治療効果を有する高利き個人を対象に最適なバランスをとるランダム化アロケーションルールを設計する枠組みを提案する。 我々は,政策学習問題に対する複雑性保証のサンプルを与え,それを実装するための計算効率の良い戦略を提供する。 次に、ペンシルベニア州アレゲーニー郡の人間サービスからのデータに私たちのフレームワークを適用します。 最適化されたポリシーは、学習とターゲティングのトレードオフを大幅に軽減します。 例えば、無作為化対照試験が必要とする2倍未満のサンプルで平均治療効果を推定できることを保証しながら、高利害者をターゲットにする上で最適なユーティリティの90%を得ることが可能である。 公共サービスをターゲットにするためのメカニズムは、必要に応じて正確に測定することに集中することが多い。 しかし,本研究の結果から,プログラム評価をターゲットと並行して明示的な目標とすることで,公共サービスにおけるアルゴリズムシステムに最も影響を与える可能性が示唆された。

Many social programs attempt to allocate scarce resources to people with the greatest need. Indeed, public services increasingly use algorithmic risk assessments motivated by this goal. However, targeting the highest-need recipients often conflicts with attempting to evaluate the causal effect of the program as a whole, as the best evaluations would be obtained by randomizing the allocation. We propose a framework to design randomized allocation rules which optimally balance targeting high-need individuals with learning treatment effects, presenting policymakers with a Pareto frontier between the two goals. We give sample complexity guarantees for the policy learning problem and provide a computationally efficient strategy to implement it. We then apply our framework to data from human services in Allegheny County, Pennsylvania. Optimized policies can substantially mitigate the tradeoff between learning and targeting. For example, it is often possible to obtain 90% of the optimal utility in targeting high-need individuals while ensuring that the average treatment effect can be estimated with less than 2 times the samples that a randomized controlled trial would require. Mechanisms for targeting public services often focus on measuring need as accurately as possible. However, our results suggest that algorithmic systems in public services can be most impactful if they incorporate program evaluation as an explicit goal alongside targeting.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# オーディオディープフェイク検出のためのターゲット拡張データ

Targeted Augmented Data for Audio Deepfake Detection ( http://arxiv.org/abs/2407.07598v1 )

ライセンス: Link先を確認
Marcella Astrid, Enjie Ghorbel, Djamila Aouada, (参考訳) 高精細なオーディオディープフェイクジェネレータが利用可能であることは、堅牢なオーディオディープフェイク検出器を設計する必要性を強調している。 既存の作品は、トレーニングセットで利用可能な実データと偽データにのみ依存することが多く、過度に適合する可能性があるため、目に見えない操作に対するロバスト性が低下する可能性がある。 音響ディープフェイク検出器の一般化能力を高めるために,モデルの決定境界をターゲットとした音声擬似フェイクを生成する手法を提案する。 敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。 2つのよく知られたアーキテクチャに関する総合的な実験は、提案された拡張がこれらのアーキテクチャの一般化能力の向上に寄与することを示した。

The availability of highly convincing audio deepfake generators highlights the need for designing robust audio deepfake detectors. Existing works often rely solely on real and fake data available in the training set, which may lead to overfitting, thereby reducing the robustness to unseen manipulations. To enhance the generalization capabilities of audio deepfake detectors, we propose a novel augmentation method for generating audio pseudo-fakes targeting the decision boundary of the model. Inspired by adversarial attacks, we perturb original real data to synthesize pseudo-fakes with ambiguous prediction probabilities. Comprehensive experiments on two well-known architectures demonstrate that the proposed augmentation contributes to improving the generalization capabilities of these architectures.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# iANET: 効率的な長距離依存性のためのインセプションインスパイアされた注意ハイブリッドネットワーク

iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency ( http://arxiv.org/abs/2407.07603v1 )

ライセンス: Link先を確認
Haruna Yunusa, Qin Shiyin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan, (参考訳) 最近のハイブリッドモデルの出現は、コンピュータビジョンタスクを解くための別の変革的アプローチを導入し、従来のCNN(Convolutional Neural Network)とViT(Vision Transformer)から徐々に離れている。 しかし、これらの2つのアプローチを効果的に組み合わせて、複雑な画像でよく見られる長距離依存関係のキャプチャを改善するのに十分な努力はなされていない。 本稿では,複雑な画像の長距離依存性を捕捉する効率的なハイブリッドモデルiANET(Inception Inspired Attention Network)を提案する。 基本的なビルディングブロックであるiiABlockは、グローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースのコンボリューション)、拡張されたコンボリューションと並列に統合することで、MBConv2を効果的な局所的な詳細抽出と拡張されたコンボリューションに利用し、カーネルの受容領域を効率的に拡張し、よりコンテキスト情報を取得することができる。 最後に、各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。 様々なベンチマークにおける定性的および定量的比較評価は、いくつかの最先端モデルよりも改善された性能を示す。

The recent emergence of hybrid models has introduced another transformative approach to solving computer vision tasks, slowly shifting away from conventional CNN (Convolutional Neural Network) and ViT (Vision Transformer). However, not enough effort has been made to efficiently combine these two approaches to improve capturing long-range dependencies prevalent in complex images. In this paper, we introduce iiANET (Inception Inspired Attention Network), an efficient hybrid model designed to capture long-range dependencies in complex images. The fundamental building block, iiABlock, integrates global 2D-MHSA (Multi-Head Self-Attention) with Registers, MBConv2 (MobileNetV2-based convolution), and dilated convolution in parallel, enabling the model to adeptly leverage self-attention for capturing long-range dependencies while utilizing MBConv2 for effective local-detail extraction and dilated convolution for efficiently expanding the kernel receptive field to capture more contextual information. Lastly, we serially integrate an ECANET (Efficient Channel Attention Network) at the end of each iiABlock to calibrate channel-wise attention for enhanced model performance. Extensive qualitative and quantitative comparative evaluation on various benchmarks demonstrates improved performance over some state-of-the-art models.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 人工紙を用いた咬合接触分割用H-FCB型階層型完全畳み込み分岐変圧器

H-FCBFormer Hierarchical Fully Convolutional Branch Transformer for Occlusal Contact Segmentation with Articulating Paper ( http://arxiv.org/abs/2407.07604v1 )

ライセンス: Link先を確認
Ryan Banks, Bernat Rovira-Lastra, Jordi Martinez-Gomis, Akhilanand Chaurasia, Yunpeng Li, (参考訳) 咬合接触は上顎と下顎後歯の咬合面が交わる場所である。 咬合接触検出は, 咬合機能の喪失を回復するための重要なツールであり, 歯科補綴学や歯科補綴学において特に重要である。 咬合接触検出の最も一般的な方法は紙の調音である。 しかし, 本手法は, 医学的に偽陰性かつ医学的に偽陰性な接触部位を顕著に示し, 真の咬合所見の同定は臨床医に委ねられている。 これを解決するために,階層型完全畳み込み分岐変換器 (H-FCBFormer) と呼ばれる階層的損失関数を組み合わせたマルチクラス視覚変換器と完全畳み込みネットワークのセマンティックセマンティックセマンティックセマンティクスモデルを提案する。 また,専門家の注釈付き紙マスクと金標準マスクから,医学的に正の正のセマンティックセマンティックマスクを生成する方法を提案する。 提案モデルは, 医学的正の正の接触を検出するための他の機械学習手法よりも優れており, 対象咬合接触領域を正確に同定し, 識別に要する時間を大幅に削減する。 コードはhttps://github.com/Banksylel/H-FCBFormerで入手できる。

Occlusal contacts are the locations at which the occluding surfaces of the maxilla and the mandible posterior teeth meet. Occlusal contact detection is a vital tool for restoring the loss of masticatory function and is a mandatory assessment in the field of dentistry, with particular importance in prosthodontics and restorative dentistry. The most common method for occlusal contact detection is articulating paper. However, this method can indicate significant medically false positive and medically false negative contact areas, leaving the identification of true occlusal indications to clinicians. To address this, we propose a multiclass Vision Transformer and Fully Convolutional Network ensemble semantic segmentation model with a combination hierarchical loss function, which we name as Hierarchical Fully Convolutional Branch Transformer (H-FCBFormer). We also propose a method of generating medically true positive semantic segmentation masks derived from expert annotated articulating paper masks and gold standard masks. The proposed model outperforms other machine learning methods evaluated at detecting medically true positive contacts and performs better than dentists in terms of accurately identifying object-wise occlusal contact areas while taking significantly less time to identify them. Code is available at https://github.com/Banksylel/H-FCBFormer.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# モバイルデバイスにおける創傷セグメント化のための軽量モデルの早期探索

Early Explorations of Lightweight Models for Wound Segmentation on Mobile Devices ( http://arxiv.org/abs/2407.07605v1 )

ライセンス: Link先を確認
Vanessa Borst, Timo Dittus, Konstantin Müller, Samuel Kounev, (参考訳) 高齢化は、高齢者の慢性的な傷の増加など、医療に多くの課題をもたらす。 写真ドキュメンテーションに基づくセラピストによる創傷評価への現在のアプローチは主観的であり、スマートフォン写真からコンピュータ支援による創傷認識の必要性を強調している。 これは客観的かつ便利な治療モニタリングを提供するが、いつでも自宅から患者にアクセスできる。 しかし, 移動体画像セグメント化の研究にもかかわらず, 移動体創傷セグメント化に焦点が当てられていない。 このギャップに対処するため,スマートフォンによる創傷セグメント化に適した3つの軽量アーキテクチャについて検討を行った。 公開データセットとUNetをベースラインとして使用することで、ENetとTopFormerの両方、さらに大きなUNeXtの亜種がUNetに匹敵するパフォーマンスを示した結果が期待できる。 さらに,本手法をスマートフォンアプリに展開し,傷痕と傷痕を識別するTopFormerの有効性を示した。 本研究は,移動体創傷セグメント化のためのトランスフォーマーモデルの可能性を明らかにするものであるが,今後の研究はマスクの輪郭をさらに改善することを目的としている。

The aging population poses numerous challenges to healthcare, including the increase in chronic wounds in the elderly. The current approach to wound assessment by therapists based on photographic documentation is subjective, highlighting the need for computer-aided wound recognition from smartphone photos. This offers objective and convenient therapy monitoring, while being accessible to patients from their home at any time. However, despite research in mobile image segmentation, there is a lack of focus on mobile wound segmentation. To address this gap, we conduct initial research on three lightweight architectures to investigate their suitability for smartphone-based wound segmentation. Using public datasets and UNet as a baseline, our results are promising, with both ENet and TopFormer, as well as the larger UNeXt variant, showing comparable performance to UNet. Furthermore, we deploy the models into a smartphone app for visual assessment of live segmentation, where results demonstrate the effectiveness of TopFormer in distinguishing wounds from wound-coloured objects. While our study highlights the potential of transformer models for mobile wound segmentation, future work should aim to further improve the mask contours.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 建設文法の計算学習の現状と展望

The Computational Learning of Construction Grammars: State of the Art and Prospective Roadmap ( http://arxiv.org/abs/2407.07606v1 )

ライセンス: Link先を確認
Jonas Doumen, Veronica Juliana Schmalz, Katrien Beuls, Paul Van Eecke, (参考訳) 本稿では,構成文法学習の計算モデルに関する現状を文書化し,レビューする。 これは、これまでいくつかの異なる研究領域で研究されてきた、フォーム意味のペアリングの計算学習に関する先行研究をまとめるものである。 この論文の目標は3倍です。 まず、これまで提案されてきた様々な方法論と得られた結果の合成を目的とする。 第2に、取り組みに成功した課題のこれらの部分を特定し、さらなる研究を必要とする課題を明らかにすることを目的としている。 最後に、大規模で使用法に基づく構成文法の計算学習における今後の研究活動の促進と合理化を支援するロードマップを提供することを目標としている。

This paper documents and reviews the state of the art concerning computational models of construction grammar learning. It brings together prior work on the computational learning of form-meaning pairings, which has so far been studied in several distinct areas of research. The goal of this paper is threefold. First of all, it aims to synthesise the variety of methodologies that have been proposed to date and the results that have been obtained. Second, it aims to identify those parts of the challenge that have been successfully tackled and reveal those that require further research. Finally, it aims to provide a roadmap which can help to boost and streamline future research efforts on the computational learning of large-scale, usage-based construction grammars.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 現実的非イデアルシナリオ下での連続変数密度符号化

Continuous variable dense coding under realistic non-ideal scenarios ( http://arxiv.org/abs/2407.07609v1 )

ライセンス: Link先を確認
Mrinmoy Samanta, Ayan Patra, Rivu Gupta, Aditi Sen De, (参考訳) 我々は,共有および符号化状態のノイズや復号が不完全である場合にも,単一送信機と単一受信機間の連続変数(CV)密度符号化プロトコルを解析する。 一般二モードガウス状態の高密度符号化容量(DCC)の一般形式を導出する。 構成モードが量子制限増幅器,純損失チャネル,環境相互作用と不完全な二重ホモジン検出を含む非効率な復号機構によって影響を受ける場合,雑音の強度を変化させることで,2モード圧縮真空状態(TMSV)のDCCパターンについて検討する。 さらに, 負条件エントロピーは, CV高密度符号化における量子的優位性を与え, TMSVと同等の高密度符号化能力を持つ純状態のクラスを特定する。 また、TMSV状態はDCプロトコルの最大量子優位性を提供するが、DCCの文脈ではTMSV状態よりもノイズに対する耐性が高い状態のクラスが存在することを示した。

We analyze the continuous variable (CV) dense coding protocol between a single sender and a single receiver when affected by noise in the shared and encoded states as well as when the decoding is imperfect. We derive a general formalism for the dense coding capacity (DCC) of generic two-mode Gaussian states. When the constituent modes are affected by quantum-limited amplifiers, pure-loss channels, and environmental interactions together with an inefficient decoding mechanism comprising imperfect double-homodyne detection, we investigate the pattern of DCC of the two-mode squeezed vacuum state (TMSV) by varying the strength of the noise. We further establish that the negative conditional entropy is responsible for providing quantum advantage in CV dense coding and identify a class of pure states capable of furnishing the maximal dense coding capacity equal to that of the TMSV under equal energy. We also demonstrate that, while the TMSV state provides the maximum quantum advantage in the DC protocol, there exists a class of states that is more resilient against noise than the TMSV state in the context of the DCC.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 工学設計のためのサロゲート・次元減少・生成モデルを支援する物理インフォーマル幾何演算子

Physics-Informed Geometric Operators to Support Surrogate, Dimension Reduction and Generative Models for Engineering Design ( http://arxiv.org/abs/2407.07611v1 )

ライセンス: Link先を確認
Shahroz Khan, Zahid Masood, Muhammad Usama, Konstantinos Kostas, Panagiotis Kaklis, Wei, Chen, (参考訳) そこで本研究では,物理インフォームド幾何演算子(GO)を用いて,代理・識別モデル,次元縮小モデル,生成モデルをトレーニングするための幾何データを統合することを提案する。 しかしながら、これらのモデルの入力ストリームと出力ストリームはいずれも低レベルな形状表現で構成されているため、性能解析に不可欠な形状特性を捉えることができないことが多い。 そこで,提案したGOは,単純なモデルアーキテクチャや低レベルのパラメトリック記述を用いた場合であっても,フーリエ記述子,曲率積分,幾何モーメント,およびそれらの不変量を通じて,高レベルの固有幾何情報や物理を訓練に使用する特徴ベクトルに注入する。 シュロゲートモデリングでは,物理の概念を含むとともに,GOが正規化を制定し,過度な適合を減らし,新しい未知の設計への一般化を促進させることを示した。 さらに,広汎な実験により,次元の縮小と生成モデルに対して,提案したGOを組み込むことで,コンパクトな大域的および局所的な幾何学的特徴を持つトレーニングデータを豊かにすることができることを示した。 これにより、結果として生じる潜在空間の質が大幅に向上し、有効かつ多様な設計の創出が容易になる。 最後に、GOがパラメトリック感性(parametric sensivity)をある程度学べることも示している。 その結果, 最適解に対する形状最適化器の収束速度が向上した。

In this work, we propose a set of physics-informed geometric operators (GOs) to enrich the geometric data provided for training surrogate/discriminative models, dimension reduction, and generative models, typically employed for performance prediction, dimension reduction, and creating data-driven parameterisations, respectively. However, as both the input and output streams of these models consist of low-level shape representations, they often fail to capture shape characteristics essential for performance analyses. Therefore, the proposed GOs exploit the differential and integral properties of shapes--accessed through Fourier descriptors, curvature integrals, geometric moments, and their invariants--to infuse high-level intrinsic geometric information and physics into the feature vector used for training, even when employing simple model architectures or low-level parametric descriptions. We showed that for surrogate modelling, along with the inclusion of the notion of physics, GOs enact regularisation to reduce over-fitting and enhance generalisation to new, unseen designs. Furthermore, through extensive experimentation, we demonstrate that for dimension reduction and generative models, incorporating the proposed GOs enriches the training data with compact global and local geometric features. This significantly enhances the quality of the resulting latent space, thereby facilitating the generation of valid and diverse designs. Lastly, we also show that GOs can enable learning parametric sensitivities to a great extent. Consequently, these enhancements accelerate the convergence rate of shape optimisers towards optimal solutions.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 軸流訓練による変圧器因果推論の指導

Teaching Transformers Causal Reasoning through Axiomatic Training ( http://arxiv.org/abs/2407.07612v1 )

ライセンス: Link先を確認
Aniket Vashishtha, Abhinav Kumar, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, Amit Sharma, (参考訳) テキストベースのAIシステムが現実世界で対話するためには、因果推論が必須のスキルである。 介入データを生成するのに費用がかかるため、エージェントが受動的データから因果推論をどの程度学べるかを調査する。 具体的には、エージェントが帰納的バイアスとして公理を取り入れたり、データ値から推論したりするのではなく、因果的公理(または規則)の複数の実演から学習する公理的訓練環境を考える。 重要な疑問は、エージェントが公理実証から新しいシナリオへの一般化を学ぶかどうかである。 例えば、変圧器モデルが小さなグラフ上の因果遷移公理のデモンストレーションで訓練された場合、大きなグラフ上の推移公理を適用することに一般化できるだろうか? この結果から,このような一般化が可能であることが示唆された。 因果グラフ構造が与えられた変数が別の変数を引き起こすかどうかを推定するタスクを考える。 線形因果連鎖で訓練された6700万のパラメータトランスフォーマーモデルは、長い因果連鎖、逆順の因果連鎖、分岐を持つグラフなど、新しい種類のグラフにうまく一般化できる。 我々のモデルは、GPT-4、Gemini Pro、Phi-3など、多くの大きな言語モデルと同等(あるいはそれ以上)に動作します。 全体として、我々の公理学習フレームワークは、任意の公理を学ぶのに使える受動的データから因果推論を学ぶための新しいパラダイムを提供する。

For text-based AI systems to interact in the real world, causal reasoning is an essential skill. Since interventional data is costly to generate, we study to what extent an agent can learn causal reasoning from passive data. Specifically, we consider an axiomatic training setup where an agent learns from multiple demonstrations of a causal axiom (or rule), rather than incorporating the axiom as an inductive bias or inferring it from data values. A key question is whether the agent would learn to generalize from the axiom demonstrations to new scenarios. For example, if a transformer model is trained on demonstrations of the causal transitivity axiom over small graphs, would it generalize to applying the transitivity axiom over large graphs? Our results, based on a novel axiomatic training scheme, indicate that such generalization is possible. We consider the task of inferring whether a variable causes another variable, given a causal graph structure. We find that a 67 million parameter transformer model, when trained on linear causal chains (along with some noisy variations) can generalize well to new kinds of graphs, including longer causal chains, causal chains with reversed order, and graphs with branching; even when it is not explicitly trained for such settings. Our model performs at par (or even better) than many larger language models such as GPT-4, Gemini Pro, and Phi-3. Overall, our axiomatic training framework provides a new paradigm of learning causal reasoning from passive data that can be used to learn arbitrary axioms, as long as sufficient demonstrations can be generated.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 確率収束型確率論的学習率スケジューラ

Probabilistic learning rate scheduler with provable convergence ( http://arxiv.org/abs/2407.07613v1 )

ライセンス: Link先を確認
Dahlia Devapriya, Thulasi Tholeti, Janani Suresh, Sheetal Kalyani, (参考訳) 学習率スケジューラは、実際に学習アルゴリズムの収束を加速することに成功した。 しかしながら、それらの最小限への収束は理論的には証明されていない。 この難しさは主に、伝統的な収束分析が単調に学習率を減少させる(あるいは一定の)のに対して、スケジューラはトレーニングのエポックを通じてしばしば増加し減少する速度を選択するという事実から生じる。 本研究では,単調に減少する条件に適合しない確率論的学習率スケジューラ(PLRS)を提案することにより,このギャップを埋めることを目的としている。 詳細な収束証明の提供に加えて,提案したPLRSが,様々なデータセットやアーキテクチャにわたって,他の最先端の学習速度スケジューラと競合する実験結果も提示する。

Learning rate schedulers have shown great success in speeding up the convergence of learning algorithms in practice. However, their convergence to a minimum has not been proven theoretically. This difficulty mainly arises from the fact that, while traditional convergence analysis prescribes to monotonically decreasing (or constant) learning rates, schedulers opt for rates that often increase and decrease through the training epochs. In this work, we aim to bridge the gap by proposing a probabilistic learning rate scheduler (PLRS), that does not conform to the monotonically decreasing condition, with provable convergence guarantees. In addition to providing detailed convergence proofs, we also show experimental results where the proposed PLRS performs competitively as other state-of-the-art learning rate schedulers across a variety of datasets and architectures.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# MARS:微細テキスト・画像合成のための自己回帰モデルの混合

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis ( http://arxiv.org/abs/2407.07614v1 )

ライセンス: Link先を確認
Wanggui He, Siming Fu, Mushui Liu, Xierui Wang, Wenyi Xiao, Fangxun Shu, Yi Wang, Lei Zhang, Zhelun Yu, Haoyuan Li, Ziwei Huang, LeiLei Gan, Hao Jiang, (参考訳) 自動回帰モデルは言語生成の領域において大きな進歩を遂げているが、画像合成の領域における拡散モデルと同等に機能しない。 本稿では,特殊設計されたセマンティックビジョン・ランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。 この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。 この手法は,LLMのNLP能力を保ちながら,例外的な視覚的理解を付与する。 事前訓練されたQwen-7Bの強力な基盤の上に構築されたMARSは、英語と中国語のプロンプトに対応するバイリンガル生成能力と、共同画像とテキスト生成能力で際立っている。 このフレームワークの柔軟性は、あらゆるタスク適応性へのマイグレーションを促します。 さらに、MARSは、まず相補的な双方向タスクを通じて堅牢な画像テキストアライメントを確立し、その後、T2I生成プロセスの精細化に集中し、テキスト画像の同期と画像詳細の粒度を著しく増大させるマルチステージトレーニング戦略を採用している。 特に、MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。

Auto-regressive models have made significant progress in the realm of language generation, yet they do not perform on par with diffusion models in the domain of image synthesis. In this work, we introduce MARS, a novel framework for T2I generation that incorporates a specially designed Semantic Vision-Language Integration Expert (SemVIE). This innovative component integrates pre-trained LLMs by independently processing linguistic and visual information, freezing the textual component while fine-tuning the visual component. This methodology preserves the NLP capabilities of LLMs while imbuing them with exceptional visual understanding. Building upon the powerful base of the pre-trained Qwen-7B, MARS stands out with its bilingual generative capabilities corresponding to both English and Chinese language prompts and the capacity for joint image and text generation. The flexibility of this framework lends itself to migration towards any-to-any task adaptability. Furthermore, MARS employs a multi-stage training strategy that first establishes robust image-text alignment through complementary bidirectional tasks and subsequently concentrates on refining the T2I generation process, significantly augmenting text-image synchrony and the granularity of image details. Notably, MARS requires only 9% of the GPU days needed by SD1.5, yet it achieves remarkable results across a variety of benchmarks, illustrating the training efficiency and the potential for swift deployment in various applications.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 衛星画像時系列意味変化検出:新しい構造と領域シフトの解析

Satellite Image Time Series Semantic Change Detection: Novel Architecture and Analysis of Domain Shift ( http://arxiv.org/abs/2407.07616v1 )

ライセンス: Link先を確認
Elliot Vincent, Jean Ponce, Mathieu Aubry, (参考訳) 衛星画像は、地球の地表で起きている変化を監視し、気候分析、生態系評価、災害対応を支援する上で重要な役割を担っている。 本稿では,衛星画像時系列(SITS-SCD)を用いて意味変化検出を行う。 本稿では,現状を改良し,パラメータの数に応じて拡張し,長期の時間的情報を活用する新しいアーキテクチャを提案する。 しかし、実際的なユースケースでは、モデルは空間的および時間的シフトに適応する必要がある。 本研究では,DynamicEarthNetとMUDSを用いたグローバル・マルチ年SITSデータセットに対する時間的・空間的シフトの影響について検討した。 空間領域シフトが最も複雑な設定を表現し、時間シフトがパフォーマンスに与える影響が意味的セグメンテーションよりも変化検出に顕著であることを示し、さらなる注意を払っている特定の問題であることを強調した。

Satellite imagery plays a crucial role in monitoring changes happening on Earth's surface and aiding in climate analysis, ecosystem assessment, and disaster response. In this paper, we tackle semantic change detection with satellite image time series (SITS-SCD) which encompasses both change detection and semantic segmentation tasks. We propose a new architecture that improves over the state of the art, scales better with the number of parameters, and leverages long-term temporal information. However, for practical use cases, models need to adapt to spatial and temporal shifts, which remains a challenge. We investigate the impact of temporal and spatial shifts separately on global, multi-year SITS datasets using DynamicEarthNet and MUDS. We show that the spatial domain shift represents the most complex setting and that the impact of temporal shift on performance is more pronounced on change detection than on semantic segmentation, highlighting that it is a specific issue deserving further attention.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 言語学的手法による動詞音の普遍的意味成分の心理言語学的実験:システム記述と注釈

Psycho-linguistic Experiment on Universal Semantic Components of Verbal Humor: System Description and Annotation ( http://arxiv.org/abs/2407.07617v1 )

ライセンス: Link先を確認
Elena Mikhalkova, Nadezhda Ganzherli, Julia Murzina, (参考訳) ユーモラスな発話と非ハーモラスな発話を区別する普遍的な意味的構成要素の客観的基準は、現在議論中である。 本稿では、ユーモアのアノテーションのための自己評価読解システムについて、文章を単語単位で開いている間、読者の注釈を収集する方法について、より深く観察する。 システムは、読者が次の単語を開くために押すキーを登録し、クラスを選択し、選択を変更する。 また、システムで実施した心理言語実験や、その期間中に収集したデータにも触れます。

Objective criteria for universal semantic components that distinguish a humorous utterance from a non-humorous one are presently under debate. In this article, we give an in-depth observation of our system of self-paced reading for annotation of humor, that collects readers' annotations while they open a text word by word. The system registers keys that readers press to open the next word, choose a class (humorous versus non-humorous texts), change their choice. We also touch upon our psycho-linguistic experiment conducted with the system and the data collected during it.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# キャビティQED系における原子W様状態の融合

Fusion of atomic W-like states in cavity QED systems ( http://arxiv.org/abs/2407.07626v1 )

ライセンス: Link先を確認
Cheng-Yun Ding, Wan-Fang Liu, Li-Hua Zhang, (参考訳) 極大絡みのGHZ状態が完全テレポーテーションと超密度符号化を達成することはよく知られているが、極大絡みのW状態は不可能である。 しかし、この制限を克服できる「textit{W-like} 状態」と呼ばれる、最大でない W 状態の特別なクラスが存在することが示されている。 したがって、効率的な量子通信のためにそのようなW様の状態を作成することは非常に重要である。 ここでは、複数の原子と単一モードの空洞場との大規模な相互作用に基づく原子W様状態に対する2種類の新規かつ効率的な融合スキームを提案し、それぞれ2つの小さな原子である$|\mathcal{W}_{N+M+T-2}\rangle$と$|\mathcal{W}_{N}\rangle$と$|\mathcal{W}_{M}\rangle$と3つの小さな原子である$|\mathcal{W}_{N}\rangle$と$|\mathcal{W}_{M}\rangle$と$|\mathcal{W}_{M}\rangle$と$|\mathcal{W}_{M}\rangle$と$|\mathcal{W}_{T}\rangle$をそれぞれ検出できる。 特に,本手法の核融合過程は粒子損失を伴うが,それに対応する成功確率は高く,固定され,高い核融合効率がもたらされる可能性がある。 さらに,資源コストと実現可能性分析の検証を通じて,現在の実験条件下でのプロトコルの簡易化と実現可能性について検討した。 これらはいずれも、完全なテレポーテーションと超高密度符号化のために大規模な原子W様状態を作成するための代替戦略を提供することを示唆している。

It is well-known that maximally entangled GHZ states can achieve perfect teleportation and superdense coding, whereas maximally entangled W states cannot. However, it has been demonstrated that there exists a special class of non-maximally entangled W states, called as \textit{W-like} states, which can overcome this limitation. Therefore, it is of great significance to prepare such W-like states for efficient quantum communication. Here, we propose two kinds of novel and efficient fusion schemes for atomic W-like states based on the large-detuning interactions between several atoms and a single-mode cavity field, with which large-scale atomic $|\mathcal{W}_{N+M-1}\rangle$ and $|\mathcal{W}_{N+M+T-2}\rangle$ states can be prepared, respectively, from two small-scale atomic $|\mathcal{W}_{N}\rangle$ and $|\mathcal{W}_{M}\rangle$ states and three small-scale atomic $|\mathcal{W}_{N}\rangle$, $|\mathcal{W}_{M}\rangle$ and $|\mathcal{W}_{T}\rangle$ states, by detecting the states of one or two of the fused atoms. Particularly, although the fusion process of our scheme involves particle loss, the corresponding success probability is high and fixed, which may induce high fusion efficiency. Furthermore, through the investigation of the resource cost and feasibility analysis, our protocol is simple and feasible under the current experimental conditions. All these suggest that it provides an alternative strategy for preparing large-scale atomic W-like states for perfect teleportation and superdense coding.
翻訳日:2024-07-11 16:41:55 公開日:2024-07-10
# 認証への合成:顔認識強化のための3次元顔レンダリングへのリアリズムの移譲

Synthetic to Authentic: Transferring Realism to 3D Face Renderings for Boosting Face Recognition ( http://arxiv.org/abs/2407.07627v1 )

ライセンス: Link先を確認
Parsa Rahimi, Behrooz Razeghi, Sebastien Marcel, (参考訳) 本稿では,顔認識(FR)システムにおいて,リアリズムを3次元レンダリングされた顔画像に転送するI2I(Image-to-image translation)技術の可能性について検討する。 3Dレンダリングされた顔画像を使用する主な動機は、FRシステムのトレーニングのために大規模な顔データセットを収集する際の課題を回避する能力にある。 これらの画像は、完全に3Dレンダリングエンジンによって生成され、合成IDの生成を容易にする。 しかし、このような合成データセットでトレーニングされたFRシステムは、実際のデータセットでトレーニングされたFRベンチマークと比較すると、性能が低いことが観察されている。 本研究では、3Dレンダリング画像にリアリズムを移すことにより、3Dレンダリング画像をよりリアルに見せることで、これらのよりフォトリアリスティックな画像に基づいてトレーニングされたFRシステムの性能を向上させることができることを示す。 この改善は、実世界のデータを利用したFRベンチマークに対して評価され、実世界のアプリケーションで合成データを利用するための新しい経路が確立された場合に明らかである。

In this paper, we investigate the potential of image-to-image translation (I2I) techniques for transferring realism to 3D-rendered facial images in the context of Face Recognition (FR) systems. The primary motivation for using 3D-rendered facial images lies in their ability to circumvent the challenges associated with collecting large real face datasets for training FR systems. These images are generated entirely by 3D rendering engines, facilitating the generation of synthetic identities. However, it has been observed that FR systems trained on such synthetic datasets underperform when compared to those trained on real datasets, on various FR benchmarks. In this work, we demonstrate that by transferring the realism to 3D-rendered images (i.e., making the 3D-rendered images look more real), we can boost the performance of FR systems trained on these more photorealistic images. This improvement is evident when these systems are evaluated against FR benchmarks utilizing real-world data, thereby paving new pathways for employing synthetic data in real-world applications.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 大規模言語モデルにおける大規模Webマイニングコーパスの試行

A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training ( http://arxiv.org/abs/2407.07630v1 )

ライセンス: Link先を確認
Michał Perełkiewicz, Rafał Poświata, (参考訳) 本稿では,大規模言語モデル(LLM)の事前学習に大規模ウェブマイニングコーパスを使用する際の課題について概説する。 このレビューでは、ノイズ(不適切な情報や誤解を招く情報)、コンテンツの重複、品質の低い情報や誤った情報の存在、バイアス、機密情報や個人情報をウェブマイニングコーパスに含めることなど、この分野における重要な課題を明らかにしている。 これらの問題に対処することは、正確で信頼性があり倫理的に責任を負う言語モデルの開発に不可欠である。 データクリーニング、前処理、バイアス検出、緩和のための現在の手法を検討することで、既存のアプローチのギャップを強調し、今後の研究の方向性を提案する。 我々の議論は、より洗練され倫理的に責任を負うLLMの開発における進歩を触媒することを目的としている。

This article presents a comprehensive review of the challenges associated with using massive web-mined corpora for the pre-training of large language models (LLMs). This review identifies key challenges in this domain, including challenges such as noise (irrelevant or misleading information), duplication of content, the presence of low-quality or incorrect information, biases, and the inclusion of sensitive or personal information in web-mined corpora. Addressing these issues is crucial for the development of accurate, reliable, and ethically responsible language models. Through an examination of current methodologies for data cleaning, pre-processing, bias detection and mitigation, we highlight the gaps in existing approaches and suggest directions for future research. Our discussion aims to catalyze advancements in developing more sophisticated and ethically responsible LLMs.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# リスクに直面するペシミズム:リスクに敏感なオフライン強化学習

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning ( http://arxiv.org/abs/2407.07631v1 )

ライセンス: Link先を確認
Dake Zhang, Boxiang Lyu, Shuang Qiu, Mladen Kolar, Tong Zhang, (参考訳) リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。 特に本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てている。 既存の文献は、主にオンライン設定を調査しているが、このリスク尺度に基づいて、事前収集されたデータセットのみを使用して、最適に近いポリシーを効率的に導き出す方法を理解するには、大きなギャップが残っている。 我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。 そこで本研究では,2つのサンプル効率アルゴリズムを提案する。 まず,リスク感応性評価尺度の構造を活用することで,リスク感応性評価反復アルゴリズムを提案する。 得られたバウンダリをさらに改善するために、分散情報と参照アドバンテージ分解を利用して、空間次元$d$とリスク感度係数の両方への依存性を効果的に改善する悲観的アルゴリズムを提案する。 我々の知識を最大限に活用するために、我々は最初に証明可能なリスクに敏感なオフラインRLアルゴリズムを得る。

We study risk-sensitive reinforcement learning (RL), a crucial field due to its ability to enhance decision-making in scenarios where it is essential to manage uncertainty and minimize potential adverse outcomes. Particularly, our work focuses on applying the entropic risk measure to RL problems. While existing literature primarily investigates the online setting, there remains a large gap in understanding how to efficiently derive a near-optimal policy based on this risk measure using only a pre-collected dataset. We center on the linear Markov Decision Process (MDP) setting, a well-regarded theoretical framework that has yet to be examined from a risk-sensitive standpoint. In response, we introduce two provably sample-efficient algorithms. We begin by presenting a risk-sensitive pessimistic value iteration algorithm, offering a tight analysis by leveraging the structure of the risk-sensitive performance measure. To further improve the obtained bounds, we propose another pessimistic algorithm that utilizes variance information and reference-advantage decomposition, effectively improving both the dependence on the space dimension $d$ and the risk-sensitivity factor. To the best of our knowledge, we obtain the first provably efficient risk-sensitive offline RL algorithms.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 微視的画像に対するFew-Shot Domain Adaptive Object Detection

Few-Shot Domain Adaptive Object Detection for Microscopic Images ( http://arxiv.org/abs/2407.07633v1 )

ライセンス: Link先を確認
Sumayya Inayat, Nimra Dilawar, Waqas Sultani, Mohsen Ali, (参考訳) 近年、ディープラーニングモデルがドメインシフトによって引き起こされる課題を克服するために、多くのドメイン適応戦略が提案されている。 しかし、教師なしのドメイン適応戦略でさえ、大量のターゲットデータを必要とする。 医用画像データセットは、しばしば分類の不均衡とラベル付きおよびラベルなしデータの不足によって特徴づけられる。 Few-shot Domain Adaptive Object Detection (FSDAOD) は、限られたラベル付きデータを持つターゲットドメインにオブジェクト検出器を適用するという課題に対処する。 既存の作業は、実際の人口を正確に表現しないようなランダムに選択されたターゲット領域のイメージに苦慮し、その結果、小さな検証セットに過度に適合し、より大きなテストセットに過度に一般化する。 医学データセットは、高いクラス不均衡と背景類似性を示し、偽陽性が増加し、ターゲットドメインの平均精度(マップ)が低下する。 これらの課題を克服するために,顕微鏡イメージングのための新しいFSDAOD戦略を提案する。 私たちのコントリビューションには、少数ショットシナリオに対するドメイン適応型クラスバランス戦略、ドメインに関わらずクラスインスタンス間の類似性を高めるための多層インスタンスレベル間およびドメイン内アライメント、ドメイン間の正しい分類に必要な機能保持を強制するオブジェクト検出器の中層層に適用されるインスタンスレベルの分類損失が含まれる。 競争ベースラインを用いた大規模な実験結果から,2つの公開顕微鏡データセットによる最先端の成果が得られ,本手法の有効性が示された。 https://github.co/intelligentMachinesLab/few-shot-domain-adaptive-microscopyで公開されているコード

In recent years, numerous domain adaptive strategies have been proposed to help deep learning models overcome the challenges posed by domain shift. However, even unsupervised domain adaptive strategies still require a large amount of target data. Medical imaging datasets are often characterized by class imbalance and scarcity of labeled and unlabeled data. Few-shot domain adaptive object detection (FSDAOD) addresses the challenge of adapting object detectors to target domains with limited labeled data. Existing works struggle with randomly selected target domain images that may not accurately represent the real population, resulting in overfitting to small validation sets and poor generalization to larger test sets. Medical datasets exhibit high class imbalance and background similarity, leading to increased false positives and lower mean Average Precision (map) in target domains. To overcome these challenges, we propose a novel FSDAOD strategy for microscopic imaging. Our contributions include a domain adaptive class balancing strategy for few-shot scenarios, multi-layer instance-level inter and intra-domain alignment to enhance similarity between class instances regardless of domain, and an instance-level classification loss applied in the middle layers of the object detector to enforce feature retention necessary for correct classification across domains. Extensive experimental results with competitive baselines demonstrate the effectiveness of our approach, achieving state-of-the-art results on two public microscopic datasets. Code available at https://github.co/intelligentMachinesLab/few-shot-domain-adaptive-microscopy
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# MoVEInt:デモから人間とロボットのインタラクションを学ぶための変分専門家の混在

MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations ( http://arxiv.org/abs/2407.07636v1 )

ライセンス: Link先を確認
Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki, (参考訳) 共有力学モデルは、人間-ロボットインタラクション(HRI)に固有の複雑さと可変性を捉える上で重要である。 したがって、そのような共有力学モデルを学ぶことで、協調性と適応性が向上し、人間のパートナーとの反応的な相互作用を成功させることができる。 本研究では,人間の観察からロボットの動作を反応的に生成するための実験から,HRIの空間表現を学習するための新しい手法を提案する。 本研究では,Mixture Density Network (MDN) を用いて,人間の観察のマルチモーダル性を捉えるために,情報的潜在空間を用いて正規化されたロボットの動きを学習するために,変分オートエンコーダ (VAE) を訓練する。 本研究では,HMM/GMMを用いたヒトとロボットの動作に関する共同分布の学習などの実演からHRIを学習するための手法として一般的に用いられているガウス混合回帰定式化から,我々の定式化が導かれることを示す。 さらに,VAEを用いた潜在空間混合モデルを用いた場合の共通現象である「モード崩壊」を防止するために,さらなる正規化も導入する。 人間の観察からVAEに先立って情報的MDNを使用するアプローチは,従来のHMMに基づく,あるいは繰り返し発生する遅延表現の学習手法と比較して,より正確なロボット動作を生成することが確認された。 実世界の人間とロボットのハンドオーバシナリオにおけるさらなる実験は、我々のアプローチが4つの異なるヒューマンインタラクションパートナーとの対話を成功させるために有効であることを示す。

Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent "mode collapse", a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# プロンプトアライメントによる候補ラベルの調整型ビジョンランゲージモデル

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment ( http://arxiv.org/abs/2407.07638v1 )

ライセンス: Link先を確認
Zhifang Zhang, Beibei Li, (参考訳) 視覚言語モデル(VLM)は、画像テキストペアの大規模なトレーニングデータセットから高品質な表現を学習することができる。 プロンプト学習は、下流タスクに適応するためにVLMを微調整する一般的なアプローチである。 十分な性能にもかかわらず、迅速な学習の大きな制限はラベル付きデータの要求である。 現実のシナリオでは、データのプライバシや感度の問題のため、真のラベルではなく、候補ラベル(真のラベルが含まれている場所)のみを取得することができます。 本稿では,VLMの候補ラベルを用いた初等学習について述べる。 提案手法は,他の微調整手法よりも高速学習が有利であることを実証的に示す。 それでも、ラベルのあいまいさが大きくなると、その性能は低下する。 その堅牢性を改善するために,VLMの事前知識を活用して学習プロセスを学習ラベルでガイドする,シンプルで効果的なフレームワークを提案する。 具体的には、学習可能なプロンプトと手作りされたプロンプトの両方で予測された混合クラス後部とモデル出力を一致させることにより、候補ラベルを曖昧にする。 さらに,本フレームワークは,対象ラベルを用いて学習し,さらなる性能向上を図るための,既成のトレーニング目標も備えることができる。 大規模な実験により,提案手法の有効性が実証された。

Vision-language models (VLMs) can learn high-quality representations from a large-scale training dataset of image-text pairs. Prompt learning is a popular approach to fine-tuning VLM to adapt them to downstream tasks. Despite the satisfying performance, a major limitation of prompt learning is the demand for labelled data. In real-world scenarios, we may only obtain candidate labels (where the true label is included) instead of the true labels due to data privacy or sensitivity issues. In this paper, we provide the first study on prompt learning with candidate labels for VLMs. We empirically demonstrate that prompt learning is more advantageous than other fine-tuning methods, for handling candidate labels. Nonetheless, its performance drops when the label ambiguity increases. In order to improve its robustness, we propose a simple yet effective framework that better leverages the prior knowledge of VLMs to guide the learning process with candidate labels. Specifically, our framework disambiguates candidate labels by aligning the model output with the mixed class posterior jointly predicted by both the learnable and the handcrafted prompt. Besides, our framework can be equipped with various off-the-shelf training objectives for learning with candidate labels to further improve their performance. Extensive experiments demonstrate the effectiveness of our proposed framework.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# グラフ上のノード類似性のためのグラフニューラルネットワークの解説

Explaining Graph Neural Networks for Node Similarity on Graphs ( http://arxiv.org/abs/2407.07639v1 )

ライセンス: Link先を確認
Daniel Daza, Cuong Xuan Chu, Trung-Kien Tran, Daria Stepanova, Michael Cochez, Paul Groth, (参考訳) 類似性検索は、引用ネットワークや知識グラフなどのグラフデータを扱う様々なアプリケーションにおいて、情報を利用するための基本的なタスクである。 このタスクはヒューリスティックスからグラフ埋め込みやグラフニューラルネットワーク(GNN)に強くアプローチされているが、類似性の説明はそれほど注目されていない。 本研究は,GNNに基づくノード類似性計算手法を,説明とともに拡張する方法について検討することによって,グラフ上の説明可能な類似性探索について検討する。 具体的には、相互情報(MI)の概念と勾配に基づく説明(GB)に基づいて、GNNにおける説明に対する2つの顕著なアプローチのパフォーマンスを評価する。 我々は、それらの適合性を議論し、それらの説明の特性を、異なる人気のあるグラフベンチマークで実証的に検証する。 MIの説明とは異なり、勾配に基づく説明は3つの望ましい性質を持つ。 入力に応じて入力を選択すると、類似度スコアの予測可能な変更が発生します。 第二に、それらは一貫したものであり、ある入力を選択する効果は、それらを捨てる効果とほとんど重ならない。 第3に、類似度スコアへの影響を保ったスパースな説明を得るために、それらを著しく刈り取ることができる。

Similarity search is a fundamental task for exploiting information in various applications dealing with graph data, such as citation networks or knowledge graphs. While this task has been intensively approached from heuristics to graph embeddings and graph neural networks (GNNs), providing explanations for similarity has received less attention. In this work we are concerned with explainable similarity search over graphs, by investigating how GNN-based methods for computing node similarities can be augmented with explanations. Specifically, we evaluate the performance of two prominent approaches towards explanations in GNNs, based on the concepts of mutual information (MI), and gradient-based explanations (GB). We discuss their suitability and empirically validate the properties of their explanations over different popular graph benchmarks. We find that unlike MI explanations, gradient-based explanations have three desirable properties. First, they are actionable: selecting inputs depending on them results in predictable changes in similarity scores. Second, they are consistent: the effect of selecting certain inputs overlaps very little with the effect of discarding them. Third, they can be pruned significantly to obtain sparse explanations that retain the effect on similarity scores.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 選択的G-双スペクトルとその逆変換:G-不変ネットワークへの応用

The Selective G-Bispectrum and its Inversion: Applications to G-Invariant Networks ( http://arxiv.org/abs/2407.07655v1 )

ライセンス: Link先を確認
Simon Mataigne, Johan Mathe, Sophia Sanborn, Christopher Hillar, Nina Miolane, (参考訳) 信号処理と深層学習において重要な問題は、タスクに関係のないニュアンス要因に対して「textit{invariance}」を達成することである。 これらの因子の多くは群$G$(例えば回転、変換、スケーリング)の作用として記述できるので、メソッドは$G$不変であることが望まれる。 G$-Bispectrumは、与えられた信号のすべての特性をグループアクションまで抽出する。 その結果、$G$-Bispectrumは、プール機構に似た$G$-invariance\textemdashの計算プリミティブとしてディープニューラルネットワークアーキテクチャに組み込まれている。 しかしながら、$G$-Bispectrum ($\mathcal{O}(|G|^2)$, with $|G|$ の計算コストは広く採用されている。 ここでは、$G$-Bispectrum計算は、$\mathcal{O}(|G|)$ complexity で \textit{selective $G$-Bispectrum} に還元できる冗長性を含むことを示す。 我々は、選択的な$G$-Bispectrumの数学的特性を証明し、ニューラルネットワークへの統合が従来のアプローチと比較して精度と堅牢性を向上し、フルの$G$-Bispectrumと比較してかなりのスピードアップを享受することを示した。

An important problem in signal processing and deep learning is to achieve \textit{invariance} to nuisance factors not relevant for the task. Since many of these factors are describable as the action of a group $G$ (e.g. rotations, translations, scalings), we want methods to be $G$-invariant. The $G$-Bispectrum extracts every characteristic of a given signal up to group action: for example, the shape of an object in an image, but not its orientation. Consequently, the $G$-Bispectrum has been incorporated into deep neural network architectures as a computational primitive for $G$-invariance\textemdash akin to a pooling mechanism, but with greater selectivity and robustness. However, the computational cost of the $G$-Bispectrum ($\mathcal{O}(|G|^2)$, with $|G|$ the size of the group) has limited its widespread adoption. Here, we show that the $G$-Bispectrum computation contains redundancies that can be reduced into a \textit{selective $G$-Bispectrum} with $\mathcal{O}(|G|)$ complexity. We prove desirable mathematical properties of the selective $G$-Bispectrum and demonstrate how its integration in neural networks enhances accuracy and robustness compared to traditional approaches, while enjoying considerable speeds-up compared to the full $G$-Bispectrum.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 異種モデルの共同設計--分散システムアプローチ

Co-designing heterogeneous models: a distributed systems approach ( http://arxiv.org/abs/2407.07656v1 )

ライセンス: Link先を確認
Marius-Constantin Ilau, Tristan Caulfield, David Pym, (参考訳) 情報セキュリティの性質は、不確実な環境の制御に関する攻撃者と防衛者の非対称な競争によって、今後も続くだろう。 この環境理解の増大による不確実性の度合いの低下は、双方にとって主要な目的である。 モデルは、通常の運用上の制約なしに、目標を理解し、実験する方法を提供するので、この文脈で有用なツールです。 しかし、今日の技術的・社会的進歩を考えると、モデリングの対象は複雑さを増している。 このような物体はもはや特異な存在ではないが、異質な社会技術系が介在して大規模な生態系を形成している。 さらに、システムの基盤となるコンポーネントは、構築と使用のための全く異なる疫学的な仮定と方法論に基づいているかもしれない。 当然、このようなシステムに対する厳密で厳密な推論は難しいが、セキュリティとレジリエンスの両方を達成するためには必要である。 本研究の目的は,モデルが何であるかを推論論的に解釈する3つの要素に基づく異種システムに適したモデリング手法を提案することである。 根底にある考え方は、オープンワールドの解釈は、形式的だが汎用的な抽象化によって支持され、知識翻訳を円滑にし、構造化推論のための特性を提供し、実際、共同設計サイクルに従って使用されることは、事前に定められた目標を達成する可能性がより高いモデルに繋がる、というものである。 本研究では, 物理的データ損失モデル, ランサムウェアモデルに基づく組織的回復モデル, サージキャパシティトラウマモデルという3つの異なるセキュリティ指向モデルを用いて, 本手法の適合性を検討する。

The nature of information security has been, and probably will continue to be, marked by the asymmetric competition of attackers and defenders over the control of an uncertain environment. The reduction of this degree of uncertainty via an increase in understanding of that environment is a primary objective for both sides. Models are useful tools in this context because they provide a way to understand and experiment with their targets without the usual operational constraints. However, given the technological and social advancements of today, the object of modelling has increased in complexity. Such objects are no longer singular entities, but heterogeneous socio-technical systems interlinked to form large-scale ecosystems. Furthermore, the underlying components of a system might be based on very different epistemic assumptions and methodologies for construction and use. Naturally, consistent, rigorous reasoning about such systems is hard, but necessary for achieving both security and resilience. The goal of this paper is to present a modelling approach tailored for heterogeneous systems based on three elements: an inferentialist interpretation of what a model is, a distributed systems metaphor to structure that interpretation and a co-design cycle to describe the practical design and construction of the model. The underlying idea is that an open world interpretation, supported by a formal, yet generic abstraction facilitating knowledge translation and providing properties for structured reasoning and, used in practice according to the co-design cycle could lead to models that are more likely to achieve their pre-stated goals. We explore the suitability of this method in the context of three different security-oriented models: a physical data loss model, an organisational recovery under ransomware model and an surge capacity trauma unit model.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 登録誘導型整合性学習による医用画像合成の強化

Boosting Medical Image Synthesis via Registration-guided Consistency and Disentanglement Learning ( http://arxiv.org/abs/2407.07660v1 )

ライセンス: Link先を確認
Chuanpu Li, Zeli Chen, Yiwen Zhang, Liming Zhong, Wei Yang, (参考訳) 医用画像の合成は、トレーニング中の悪音のため、依然として困難である。 既存の手法では、登録誘導モジュールを組み込むことで、この問題に対処しようとしている。 しかしながら、これらの手法は、合成モジュールと登録モジュールのタスク固有の制約を無視する傾向があり、それによって、登録モジュールの機能に関係なく、トレーニング中に、不整合ターゲット画像と空間的に整合した画像を生成する可能性がある。 そこで本稿では, 医用画像合成のためのアンタングル学習を取り入れた登録誘導整合性を提案する。 提案した登録誘導整合性アーキテクチャは、アライメントロスによる出力整合性を確保しつつ、合成および登録モジュール内でのタスク特異性を向上する。 さらに、合成モジュールは、解剖学的構造と様々な形態をまたがる特定のスタイルを分離する能力を持つように設計されている。 潜在空間内の幾何学的整合性を維持するために合成モジュールをさらに強制するために、解剖学的整合性損失が導入された。 腹腔内CECT-CTデータセットと骨盤内MR-CTデータセットの両方を用いて実験を行い,提案手法の優位性を実証した。

Medical image synthesis remains challenging due to misalignment noise during training. Existing methods have attempted to address this challenge by incorporating a registration-guided module. However, these methods tend to overlook the task-specific constraints on the synthetic and registration modules, which may cause the synthetic module to still generate spatially aligned images with misaligned target images during training, regardless of the registration module's function. Therefore, this paper proposes registration-guided consistency and incorporates disentanglement learning for medical image synthesis. The proposed registration-guided consistency architecture fosters task-specificity within the synthetic and registration modules by applying identical deformation fields before and after synthesis, while enforcing output consistency through an alignment loss. Moreover, the synthetic module is designed to possess the capability of disentangling anatomical structures and specific styles across various modalities. An anatomy consistency loss is introduced to further compel the synthetic module to preserve geometrical integrity within latent spaces. Experiments conducted on both an in-house abdominal CECT-CT dataset and a publicly available pelvic MR-CT dataset have demonstrated the superiority of the proposed method.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# アクティベーション誘導型モデル編集によるバックドア攻撃の軽減

Mitigating Backdoor Attacks using Activation-Guided Model Editing ( http://arxiv.org/abs/2407.07662v1 )

ライセンス: Link先を確認
Felix Hsieh, Huy H. Nguyen, AprilPyone MaungMaung, Dmitrii Usynin, Isao Echizen, (参考訳) バックドア攻撃は、トレーニングプロセス中に隠れたトリガーを埋め込むことで、機械学習モデルの完全性と信頼性を損なう。 本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。 提案手法は,モデル重みの編集を導くために,ドメイン等価な未確認データのモデルアクティベーションを利用する。 従来のアンラーニングベースの緩和手法とは異なり、我々の手法は計算コストが低く、最先端のパフォーマンスを実現し、未学習には少数の未学習サンプルしか必要としない。 さらに,バックドアの未学習は,対象クラス全体を未学習にする可能性も指摘し,モデル編集後のモデルの実用性を維持するための追加の修復手順を導入する。 実験の結果,提案手法は,異なるデータセットのバックドアの学習やトリガーパターンの学習に有効であることがわかった。

Backdoor attacks compromise the integrity and reliability of machine learning models by embedding a hidden trigger during the training process, which can later be activated to cause unintended misbehavior. We propose a novel backdoor mitigation approach via machine unlearning to counter such backdoor attacks. The proposed method utilizes model activation of domain-equivalent unseen data to guide the editing of the model's weights. Unlike the previous unlearning-based mitigation methods, ours is computationally inexpensive and achieves state-of-the-art performance while only requiring a handful of unseen samples for unlearning. In addition, we also point out that unlearning the backdoor may cause the whole targeted class to be unlearned, thus introducing an additional repair step to preserve the model's utility after editing the model. Experiment results show that the proposed method is effective in unlearning the backdoor on different datasets and trigger patterns.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 超球形原型学習幾何学の符号化理論解析

A Coding-Theoretic Analysis of Hyperspherical Prototypical Learning Geometry ( http://arxiv.org/abs/2407.07664v1 )

ライセンス: Link先を確認
Martin Lindström, Borja Rodríguez-Gálvez, Ragnar Thobaben, Mikael Skoglund, (参考訳) HPL(Hyperspherical Prototypeal Learning)は、単位超球面上のクラスプロトタイプを設計する表現学習における教師ありアプローチである。 プロトタイプは、スケール不変かつ既知の幾何学におけるクラス分離の表現をバイアスする。 HPLに対するこれまでのアプローチには、以下の欠点がある。 一 未定の最適化手続に従うこと。 (ii)理論上は健全であるが、一つの潜在次元にのみ制約される。 本稿では,この2つの欠点に対処する。 宛て i) 提案する解が最適である原理的最適化手順を提案する。 宛て (II) 線形ブロック符号を用いて, 幅広い次元でよく区切られたプロトタイプを構築する。 さらに, 提案手法がほぼ最適であることを示すために, 最適プロトタイプ配置を, 達成可能および逆境界の観点から完全な特徴付けを行う。

Hyperspherical Prototypical Learning (HPL) is a supervised approach to representation learning that designs class prototypes on the unit hypersphere. The prototypes bias the representations to class separation in a scale invariant and known geometry. Previous approaches to HPL have either of the following shortcomings: (i) they follow an unprincipled optimisation procedure; or (ii) they are theoretically sound, but are constrained to only one possible latent dimension. In this paper, we address both shortcomings. To address (i), we present a principled optimisation procedure whose solution we show is optimal. To address (ii), we construct well-separated prototypes in a wide range of dimensions using linear block codes. Additionally, we give a full characterisation of the optimal prototype placement in terms of achievable and converse bounds, showing that our proposed methods are near-optimal.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 大規模言語モデルのためのS.C.O.R.E.評価フレームワークの提案 : 安全性,コンセンサス,客観性,再現性,説明可能性

A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability ( http://arxiv.org/abs/2407.07666v1 )

ライセンス: Link先を確認
Ting Fang Tan, Kabilan Elangovan, Jasmine Ong, Nigam Shah, Joseph Sung, Tien Yin Wong, Lan Xue, Nan Liu, Haibo Wang, Chang Fu Kuo, Simon Chesterman, Zee Kin Yeong, Daniel SW Ting, (参考訳) 医療における大規模言語モデル(LLM)の包括的な質的評価フレームワーク。 本稿では, 安全性, コンセンサス, 客観性, 再現性, 説明可能性 (S.C.O.R.E.) の5つの重要な側面について述べる。 我々は、S.C.O.R.E.が、医療および臨床応用の安全性、信頼性、信頼性、倫理性を備えた将来のLCMベースのモデルの評価フレームワークの基盤となることを示唆している。

A comprehensive qualitative evaluation framework for large language models (LLM) in healthcare that expands beyond traditional accuracy and quantitative metrics needed. We propose 5 key aspects for evaluation of LLMs: Safety, Consensus, Objectivity, Reproducibility and Explainability (S.C.O.R.E.). We suggest that S.C.O.R.E. may form the basis for an evaluation framework for future LLM-based models that are safe, reliable, trustworthy, and ethical for healthcare and clinical applications.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# VEnhancer: ビデオ生成のための生成時空間拡張

VEnhancer: Generative Space-Time Enhancement for Video Generation ( http://arxiv.org/abs/2407.07667v1 )

ライセンス: Link先を確認
Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu, (参考訳) VEnhancerは、時間領域における空間領域の詳細と合成詳細動作を付加することにより、既存のテキスト・ビデオ結果を改善する生成時空間拡張フレームワークである。 低画質ビデオが生成されると、この手法は、任意のアップサンプリング空間と時間スケールを、統合されたビデオ拡散モデルにより同時に向上させることができる。 さらに、VEnhancerは生成された空間的アーティファクトと、生成されたビデオの時間的フリッカリングを効果的に除去する。 これを実現するために、事前訓練されたビデオ拡散モデルに基づいて、ビデオ制御ネットをトレーニングし、低フレームレートおよび低解像度ビデオの条件として拡散モデルに注入する。 このビデオ制御ネットを効果的に訓練するために、時空データ拡張とビデオ認識条件を設計する。 上記の設計に相応しいVEnhancerは、トレーニング中に安定し、エレガントなエンドツーエンドのトレーニング方法を共有する。 大規模な実験により、VEnhancerはAI生成ビデオの強化において、既存の最先端のビデオ超解像および時空超解像法を上回ることが示されている。 さらに、VEnhancerでは、オープンソースの最先端のテキスト・トゥ・ビデオメソッドであるVideoCrafter-2が、ビデオ生成ベンチマークのVBenchでトップ1に達している。

We present VEnhancer, a generative space-time enhancement framework that improves the existing text-to-video results by adding more details in spatial domain and synthetic detailed motion in temporal domain. Given a generated low-quality video, our approach can increase its spatial and temporal resolution simultaneously with arbitrary up-sampling space and time scales through a unified video diffusion model. Furthermore, VEnhancer effectively removes generated spatial artifacts and temporal flickering of generated videos. To achieve this, basing on a pretrained video diffusion model, we train a video ControlNet and inject it to the diffusion model as a condition on low frame-rate and low-resolution videos. To effectively train this video ControlNet, we design space-time data augmentation as well as video-aware conditioning. Benefiting from the above designs, VEnhancer yields to be stable during training and shares an elegant end-to-end training manner. Extensive experiments show that VEnhancer surpasses existing state-of-the-art video super-resolution and space-time super-resolution methods in enhancing AI-generated videos. Moreover, with VEnhancer, exisiting open-source state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in video generation benchmark -- VBench.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# オンライン連続学習における破滅的予測不確実性評価の活用

How to Leverage Predictive Uncertainty Estimates for Reducing Catastrophic Forgetting in Online Continual Learning ( http://arxiv.org/abs/2407.07668v1 )

ライセンス: Link先を確認
Giuseppe Serra, Ben Werner, Florian Buettner, (参考訳) 多くの現実世界のアプリケーションは、非定常的なデータ分散を扱うために機械学習モデルを必要とし、多くの場合、オンライン環境で、長期間にわたって自律的に学習する。 このシナリオの主な課題の1つは、学習モデルが最新のタスクに集中する一方で、古いタスクに対する予測的劣化を経験する、いわゆる破滅的な忘れ(CF)である。 オンライン環境では、最も効果的なソリューションは、新しいタスクのトレーニングに使用される古いサンプルを格納するために、固定サイズのメモリバッファを使用する。 この問題に対処するための多くのアプローチが提示されている。 しかし、メモリ管理のための予測不確実性情報を最も効果的に活用する方法は明らかではなく、メモリを投入するための競合戦略が提案されている。 CFと戦うのに最も簡単か、最も簡単に記録できるサンプルは、より効果的か? 予測の不確実性は、決定空間におけるサンプルの位置のアイデアを提供するという直感から始まり、この研究は異なる不確実性推定の詳細な分析とメモリの投入戦略を示す。 この調査は、CFを緩和するためにデータポイントが持つべき特性をよりよく理解します。 そこで本研究では,負の対数類似度によって誘導される一般化分散を用いて予測の不確かさを推定する手法を提案する。 最後に、予測不確実性対策を用いることで、異なる設定でのCFの削減に役立つことを実証する。

Many real-world applications require machine-learning models to be able to deal with non-stationary data distributions and thus learn autonomously over an extended period of time, often in an online setting. One of the main challenges in this scenario is the so-called catastrophic forgetting (CF) for which the learning model tends to focus on the most recent tasks while experiencing predictive degradation on older ones. In the online setting, the most effective solutions employ a fixed-size memory buffer to store old samples used for replay when training on new tasks. Many approaches have been presented to tackle this problem. However, it is not clear how predictive uncertainty information for memory management can be leveraged in the most effective manner and conflicting strategies are proposed to populate the memory. Are the easiest-to-forget or the easiest-to-remember samples more effective in combating CF? Starting from the intuition that predictive uncertainty provides an idea of the samples' location in the decision space, this work presents an in-depth analysis of different uncertainty estimates and strategies for populating the memory. The investigation provides a better understanding of the characteristics data points should have for alleviating CF. Then, we propose an alternative method for estimating predictive uncertainty via the generalised variance induced by the negative log-likelihood. Finally, we demonstrate that the use of predictive uncertainty measures helps in reducing CF in different settings.
翻訳日:2024-07-11 16:32:05 公開日:2024-07-10
# 2層ニューラルネットワークのための確率勾配ディフレッシュ

Stochastic Gradient Descent for Two-layer Neural Networks ( http://arxiv.org/abs/2407.07670v1 )

ライセンス: Link先を確認
Dinghao Cao, Zheng-Chu Guo, Lei Shi, (参考訳) 本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の確率勾配勾配勾配(SGD)アルゴリズムの収束率について包括的に検討する。 提案手法は, ニューラルタンジェントカーネル (NTK) 近似と, NTK が生成する再生カーネルヒルベルト空間 (RKHS) の収束解析を組み合わせ, 過パラメータ化された2層ニューラルネットワークにおけるSGD の収束挙動を深く理解することを目的としている。 我々の研究フレームワークは,カーネル手法と最適化プロセスの複雑な相互作用を探索し,ニューラルネットワークの最適化力学と収束特性に光を当てることを可能にする。 本研究では、過パラメータ化された2層ニューラルネットワークにおけるSGDアルゴリズムの最後の繰り返しに対する鋭い収束率を確立する。 さらに, 標本サイズや反復数に対する多項式依存性の指数関数的依存性から減少しているニューロン数に対する制約を緩和する上で, 顕著な進展が見られた。 この改善により、ニューラルネットワークの設計とスケーリングの柔軟性が向上し、SGDでトレーニングされたニューラルネットワークモデルの理論的理解が深まります。

This paper presents a comprehensive study on the convergence rates of the stochastic gradient descent (SGD) algorithm when applied to overparameterized two-layer neural networks. Our approach combines the Neural Tangent Kernel (NTK) approximation with convergence analysis in the Reproducing Kernel Hilbert Space (RKHS) generated by NTK, aiming to provide a deep understanding of the convergence behavior of SGD in overparameterized two-layer neural networks. Our research framework enables us to explore the intricate interplay between kernel methods and optimization processes, shedding light on the optimization dynamics and convergence properties of neural networks. In this study, we establish sharp convergence rates for the last iterate of the SGD algorithm in overparameterized two-layer neural networks. Additionally, we have made significant advancements in relaxing the constraints on the number of neurons, which have been reduced from exponential dependence to polynomial dependence on the sample size or number of iterations. This improvement allows for more flexibility in the design and scaling of neural networks, and will deepen our theoretical understanding of neural network models trained with SGD.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# なぜ道徳的な意思決定を自動化するべきか?

Why should we ever automate moral decision making? ( http://arxiv.org/abs/2407.07671v1 )

ライセンス: Link先を確認
Vincent Conitzer, (参考訳) 人々は一般的にAIを信頼して、人生の様々な側面で意思決定をするが、AIが重大な道徳的意味を持つ決定に関与しているときに懸念が生じる。 道徳的推論のための正確な数学的枠組みが欠如していることは、これらの懸念を強める。 論理的推論、不確実性の下での推論、明確な数学的枠組みを持つ戦略的意思決定のような分野とは異なり、道徳的推論は広く受け入れられている枠組みを欠いている。 この欠如は、AIの道徳的意思決定能力における信頼性に関する疑問を引き起こす。 今日のAIシステムが一般的に訓練されている環境は、そのようなシステムがゼロから倫理を学ぶには不十分に思える。 もう一つのアプローチは、人間の道徳的決定からAIを学ぶことである。 この学習プロセスは、特定の領域で、キュレートされた人間の判断やデモンストレーションを集約したり、広範囲のデータで供給される基礎モデルを活用することができる。 それでも人間の道徳的判断の不完全さを考えると、懸念は続いている。 これを考えると、なぜ道徳的な決定を自動化すべきなのか -- すべての道徳的な決定を人間に任せるよりはましなのでしょうか? 本稿は、AIシステムが道徳的要素による意思決定に携わるべき理由を、関連するリスクについて簡潔に議論した上で説明する。

While people generally trust AI to make decisions in various aspects of their lives, concerns arise when AI is involved in decisions with significant moral implications. The absence of a precise mathematical framework for moral reasoning intensifies these concerns, as ethics often defies simplistic mathematical models. Unlike fields such as logical reasoning, reasoning under uncertainty, and strategic decision-making, which have well-defined mathematical frameworks, moral reasoning lacks a broadly accepted framework. This absence raises questions about the confidence we can place in AI's moral decision-making capabilities. The environments in which AI systems are typically trained today seem insufficiently rich for such a system to learn ethics from scratch, and even if we had an appropriate environment, it is unclear how we might bring about such learning. An alternative approach involves AI learning from human moral decisions. This learning process can involve aggregating curated human judgments or demonstrations in specific domains, or leveraging a foundation model fed with a wide range of data. Still, concerns persist, given the imperfections in human moral decision making. Given this, why should we ever automate moral decision making -- is it not better to leave all moral decision making to humans? This paper lays out a number of reasons why we should expect AI systems to engage in decisions with a moral component, with brief discussions of the associated risks.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 半監督的時間的行動定位のための適応的擬似ラベル学習に向けて

Towards Adaptive Pseudo-label Learning for Semi-Supervised Temporal Action Localization ( http://arxiv.org/abs/2407.07673v1 )

ライセンス: Link先を確認
Feixiang Zhou, Bryan Williams, Hossein Rahmani, (参考訳) ノイズを緩和する擬似ラベルは、セミスーパーバイズド・テンポラル・アクション・ローカライゼーション(SS-TAL)において重要な課題である。 既存の手法はしばしば厳密な条件に基づいて擬似ラベルをフィルタリングするが、典型的には分類とローカライゼーションの質を別々に評価し、最適でない擬似ラベルのランク付けと選択に繋がる。 特に、選択された正のラベルの中に不正確な擬似ラベルがあり、信頼されたラベルは誤って負のラベルに割り当てられる。 これらの問題に対処するため, 擬似ラベル選択を容易にするために, 適応型擬似ラベル学習(APL)フレームワークを提案する。 具体的には、ランキング品質を改善するために、分類信頼性と局所化信頼性を協調的に学習し、次いで、共同スコアに基づいて擬似ラベルを動的に選択する適応ラベル品質評価(ALQA)を提案する。 さらに、インスタンスレベルの一貫性判別器(ICD)を提案し、不明瞭な正と潜在的な正を同時に除去し、インスタンス間固有の一貫性に基づいて、より正確な選択をもたらす。 さらに,行動と背景の区別を高めるために,一般教師なしの行動対応コントラスト事前訓練(ACP)を導入し,SS-TALの恩恵を受ける。 THUMOS14とActivityNet v1.3の広範囲な実験により,様々な半教師付き環境下での最先端性能が実証された。

Alleviating noisy pseudo labels remains a key challenge in Semi-Supervised Temporal Action Localization (SS-TAL). Existing methods often filter pseudo labels based on strict conditions, but they typically assess classification and localization quality separately, leading to suboptimal pseudo-label ranking and selection. In particular, there might be inaccurate pseudo labels within selected positives, alongside reliable counterparts erroneously assigned to negatives. To tackle these problems, we propose a novel Adaptive Pseudo-label Learning (APL) framework to facilitate better pseudo-label selection. Specifically, to improve the ranking quality, Adaptive Label Quality Assessment (ALQA) is proposed to jointly learn classification confidence and localization reliability, followed by dynamically selecting pseudo labels based on the joint score. Additionally, we propose an Instance-level Consistency Discriminator (ICD) for eliminating ambiguous positives and mining potential positives simultaneously based on inter-instance intrinsic consistency, thereby leading to a more precise selection. We further introduce a general unsupervised Action-aware Contrastive Pre-training (ACP) to enhance the discrimination both within actions and between actions and backgrounds, which benefits SS-TAL. Extensive experiments on THUMOS14 and ActivityNet v1.3 demonstrate that our method achieves state-of-the-art performance under various semi-supervised settings.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 科学シミュレーションのためのスマートサロゲートの能動的学習の可能性

Feasibility Study on Active Learning of Smart Surrogates for Scientific Simulations ( http://arxiv.org/abs/2407.07674v1 )

ライセンス: Link先を確認
Pradeep Bajracharya, Javier Quetzalcóatl Toledo-Marín, Geoffrey Fox, Shantenu Jha, Linwei Wang, (参考訳) 複雑なシステムを理解する上で重要な高性能な科学シミュレーションは、特に広いパラメータ空間を探索する際に計算上の問題に遭遇する。 シミュレーションを加速できる代理モデルとして、ディープニューラルネットワーク(DNN)の開発への関心が高まっている。 しかし、これらのDNNサロゲートをトレーニングするための既存のアプローチは、ヒューリスティックに選択され、高価な計算で生成される広範なシミュレーションデータに依存している。 本稿では,DNNサロゲートトレーニングにアクティブラーニングを取り入れることの可能性を検討する。 これにより、インテリジェントで客観的なトレーニングシミュレーションの選択が可能になり、広範なシミュレーションデータを生成する必要がなくなり、事前定義されたトレーニングシミュレーションに対するDNNサロゲートのパフォーマンスの依存性が軽減される。 2つの異なるDNNアーキテクチャを考慮し,拡散方程式に対するDNNサロゲート構築の問題点として,多様性と不確実性に基づくトレーニングシミュレーション選択手法の有効性を検討する。 研究成果は,科学シミュレーションの効率向上を図るために,能動的学習戦略によるシミュレーションデータのオンザフライ生成を支援する,スマートサロゲートのための高性能コンピューティング基盤の開発の基礎となるものである。

High-performance scientific simulations, important for comprehension of complex systems, encounter computational challenges especially when exploring extensive parameter spaces. There has been an increasing interest in developing deep neural networks (DNNs) as surrogate models capable of accelerating the simulations. However, existing approaches for training these DNN surrogates rely on extensive simulation data which are heuristically selected and generated with expensive computation -- a challenge under-explored in the literature. In this paper, we investigate the potential of incorporating active learning into DNN surrogate training. This allows intelligent and objective selection of training simulations, reducing the need to generate extensive simulation data as well as the dependency of the performance of DNN surrogates on pre-defined training simulations. In the problem context of constructing DNN surrogates for diffusion equations with sources, we examine the efficacy of diversity- and uncertainty-based strategies for selecting training simulations, considering two different DNN architecture. The results set the groundwork for developing the high-performance computing infrastructure for Smart Surrogates that supports on-the-fly generation of simulation data steered by active learning strategies to potentially improve the efficiency of scientific simulations.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 最低ランダウ準位における位相空間の局在

Phase-space localization at the lowest Landau level ( http://arxiv.org/abs/2407.07675v1 )

ライセンス: Link先を確認
Ben Craps, Marine De Clerck, Oleg Evnin, Maxim Pavlov, (参考訳) 我々は,高調波トラップにおける接触相互作用の弱いボゾンについて検討し,最低ランダウレベルの状態に着目した。 対応するグロス=ピタエフスキー方程式のエネルギー汎函数の既知の非自明位相空間トポグラフィーにより、シュローディンガー場の古典位相空間における量子エネルギー固有状態のフシミ密度を探索する。 相互作用をオフにすると、エネルギー準位は高度に縮退し、フシミ密度は特定の局在特性を示さない。 相互作用をオンにすると、縮退性は持ち上げられ、相空間の低次元表面にハシミ密度が局在するエネルギー準位が選択される。

We consider bosons with weak contact interactions in a harmonic trap and focus on states at the lowest Landau level. Motivated by the known nontrivial phase-space topography of the energy functional of the corresponding Gross-Pitaevskii equation, we explore Husimi densities of quantum energy eigenstates in the classical phase space of the Schroedinger field. With interactions turned off, the energy levels are highly degenerate and the Husimi densities do not manifest any particular localization properties. With interactions turned on, the degeneracy is lifted, and a selection of energy levels emerges whose Husimi densities are localized around low-dimensional surfaces in the phase space.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 気象の言語: 気候会計に対するソーシャルメディアの反応 : 文法的・言語学的ベースライン

The Language of Weather: Social Media Reactions to Weather Accounting for Climatic and Linguistic Baselines ( http://arxiv.org/abs/2407.07683v1 )

ライセンス: Link先を確認
James C. Young, Rudy Arthur, Hywel T. P. Williams, (参考訳) 本研究は、英国からのTwitterデータに着目し、異なる気象条件がソーシャルメディアに対する大衆の感情にどのように影響するかを考察する。 気候・言語ベースラインを考慮し、天気関連感情分析の精度を向上させる。 その結果,天候に対する感情応答は複雑であり,気象変数と地域言語の違いが相違していることが示唆された。 この結果は、気候変動の文脈における影響に基づく予測とリスクコミュニケーションを高めることができる、気象に対する反応における公衆の気分をよりよく理解するための文脈依存的手法の重要性を強調した。

This study explores how different weather conditions influence public sentiment on social media, focusing on Twitter data from the UK. By considering climate and linguistic baselines, we improve the accuracy of weather-related sentiment analysis. Our findings show that emotional responses to weather are complex, influenced by combinations of weather variables and regional language differences. The results highlight the importance of context-sensitive methods for better understanding public mood in response to weather, which can enhance impact-based forecasting and risk communication in the context of climate change.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 人間ライクな運転に向けて:自律走行車制御におけるアクティブ推論

Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control ( http://arxiv.org/abs/2407.07684v1 )

ライセンス: Link先を確認
Elahe Delavari, John Moore, Junho Hong, Jaerock Kwon, (参考訳) 本稿では,脳を予測機械として概念化する神経科学から派生した理論であるアクティブ推論を応用した,自律走行(AV)制御への新たなアプローチを提案する。 従来の自律運転システムは、適応性、一般化、計算効率に固有の制限があるモジュールパイプライン、模倣学習、強化学習に大きく依存している。 アクティブ推論は、知覚と行動のバランスをとる動的なモデルを通じて予測誤差(「サプライズ」と呼ばれる)を最小限にすることでこれらの課題に対処する。 提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下での車線追従操作を可能にする。 我々は,その単純さに拘わらず,広範な再トレーニングを伴わずに,限られたデータから効果的に学習し,一般化し,計算要求を大幅に低減することを示した。 提案手法は、動的シナリオにおけるAVの適応性と性能を高めるだけでなく、環境変化を予測・適応するための生成モデルを利用して、人間のような運転行動と密接に一致させる。 CARLAシミュレーターにおける広範な実験の結果、適応性と効率の点で従来の手法よりも優れており、現実の自律運転アプリケーションにおけるアクティブな推論の可能性を高めている。

This paper presents a novel approach to Autonomous Vehicle (AV) control through the application of active inference, a theory derived from neuroscience that conceptualizes the brain as a predictive machine. Traditional autonomous driving systems rely heavily on Modular Pipelines, Imitation Learning, or Reinforcement Learning, each with inherent limitations in adaptability, generalization, and computational efficiency. Active inference addresses these challenges by minimizing prediction error (termed "surprise") through a dynamic model that balances perception and action. Our method integrates active inference with deep learning to manage lateral control in AVs, enabling them to perform lane following maneuvers within a simulated urban environment. We demonstrate that our model, despite its simplicity, effectively learns and generalizes from limited data without extensive retraining, significantly reducing computational demands. The proposed approach not only enhances the adaptability and performance of AVs in dynamic scenarios but also aligns closely with human-like driving behavior, leveraging a generative model to predict and adapt to environmental changes. Results from extensive experiments in the CARLA simulator show promising outcomes, outperforming traditional methods in terms of adaptability and efficiency, thereby advancing the potential of active inference in real-world autonomous driving applications.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 非線形ユニタリダイナミクスのための量子および古典的アルゴリズム

Quantum and classical algorithms for nonlinear unitary dynamics ( http://arxiv.org/abs/2407.07685v1 )

ライセンス: Link先を確認
Noah Brüstle, Nathan Wiebe, (参考訳) ハミルトニアンシミュレーションと線形微分方程式の量子アルゴリズムは、より一般的に、実世界の関心の高い問題の集合において古典的コンピュータよりも指数関数的なスピードアップを提供する。 しかし、これを非線形問題に拡張することは困難であることが証明されており、指数的な下界は時間スケールで証明されている。 これらの境界に一致する量子アルゴリズムを提供する。 具体的には、時間の進化に対して $T$, 誤差耐性 $\epsilon$ および $c$ という形の非線型微分方程式に対して、微分作用素へのクエリの数は、強い非線型性の極限における$e^{o(T\|B\|)} の量子下界のスケーリングに近づく。 最後に,Euler法に基づく古典的アルゴリズムを導入し,制約された場合の量子アルゴリズムへのコンパラブルなスケーリングと,符号問題がない場合の量子アルゴリズムへのコンパラブルなスケーリングを行う経路積分に基づくランダムな古典的アルゴリズムを提案する。

Quantum algorithms for Hamiltonian simulation and linear differential equations more generally have provided promising exponential speed-ups over classical computers on a set of problems with high real-world interest. However, extending this to a nonlinear problem has proven challenging, with exponential lower bounds having been demonstrated for the time scaling. We provide a quantum algorithm matching these bounds. Specifically, we find that for a non-linear differential equation of the form $\frac{d|u\rangle}{dt} = A|u\rangle + B|u\rangle^{\otimes2}$ for evolution of time $T$, error tolerance $\epsilon$ and $c$ dependent on the strength of the nonlinearity, the number of queries to the differential operators that approaches the scaling of the quantum lower bound of $e^{o(T\|B\|)}$ queries in the limit of strong non-linearity. Finally, we introduce a classical algorithm based on the Euler method allowing comparably scaling to the quantum algorithm in a restricted case, as well as a randomized classical algorithm based on path integration that acts as a true analogue to the quantum algorithm in that it scales comparably to the quantum algorithm in cases where sign problems are absent.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# ディラトンブラックホールの背景におけるN粒子状態のボゾン及びフェルミオンコヒーレンス

Bosonic and fermionic coherence of N-partite states in the background of a dilaton black hole ( http://arxiv.org/abs/2407.07688v1 )

ライセンス: Link先を確認
Wen-Mei Li, Shu-Min Wu, (参考訳) 我々は,ガーフィンクル・ホロウィッツ・ストロミンジャー(GHS)ディラトンブラックホールの事象地平線付近にN個の観測者が浮かぶとき,自由ボソニック場とフェルミオン場に対するGHZおよびW状態のN粒子コヒーレンスについて検討した。 我々は、ディラトンブラックホールの文脈において、物理的にアクセス可能かつ到達不能なコヒーレンスの両方を含む、N粒子コヒーレンスに関するより一般的な解析式を導出する。 ボーソニック場のコヒーレンスはフェルミオン場のコヒーレンスよりも大きく、フェルミオン場の絡み合いはディラトン時空のボソニック場のコヒーレンスよりも大きいことが判明した。 さらに、W状態のコヒーレンスはGHZ状態のコヒーレンスよりも大きいが、GHZ状態の絡み合いは曲線時空のW状態のコヒーレンスよりも大きい。 これらの結果は、相対論的量子情報処理には、適切な量子資源と異なる種類の粒子を用いるべきであることを示唆している。

We study the N-partite coherences of GHZ and W states for free bosonic and fermionic fields when any n observers hover near the event horizon of a Garfinkle-Horowitz-Strominger (GHS) dilaton black hole. We derive the more general analytical expressions for N-partite coherence, encompassing both physically accessible and inaccessible coherences in the context of the dilaton black hole. It has been found that the coherence of the bosonic field is greater than that of the fermionic field, while the entanglement of the fermionic field is greater than that of the bosonic field in dilaton spacetime. Additionally, the coherence of the W state is greater than that of the GHZ state, whereas the entanglement of the GHZ state is greater than that of the W state in curved spacetime. These results suggest that we should utilize suitable quantum resources and different types of particles for relativistic quantum information tasks.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 捕捉イオン量子ビットのスケーラブルで高忠実な全電子制御

Scalable, high-fidelity all-electronic control of trapped-ion qubits ( http://arxiv.org/abs/2407.07694v1 )

ライセンス: Link先を確認
C. M. Löschnauer, J. Mosca Toba, A. C. Hughes, S. A. King, M. A. Weber, R. Srinivas, R. Matt, R. Nourshargh, D. T. C. Allcock, C. J. Ballance, C. Matthiesen, M. Malinowski, T. P. Harty, (参考訳) 量子コンピューティングにおける中心的な課題は、大規模に高忠実な量子ゲートを実装することである。 しかし、キュービット制御に対する既存の多くのアプローチは、スケールパフォーマンスのトレードオフに悩まされており、有用なデバイスの開発への進歩を妨げている。 ここでは、このボトルネックを緩和する電子的に制御された閉じ込められたイオン量子コンピュータのビジョンを示す。 本アーキテクチャでは,マイクロファブリケートチップ内の電流伝達トレースと局所チューニング電極を用いて,デバイスサイズに関係なく低雑音・クロストークの量子ゲートを行う。 提案手法を検証するため, 最大10キュービットまで制御可能な7ゾーンイオントラップにおいて, 低ノイズサイト選択型単一および2キュービットゲートを実験的に実証した。 我々は99.99916(7)%の忠実度を持つ電子シングルキュービットゲートを実装し、デバイス間のクロストークの低い一貫した性能を示す。 また, 連続系の動作に対して, 99.97(1)%の忠実度と長期安定性能を有する2量子最大絡み合い状態も電子的に生成する。 これらの最先端の結果は、電子的に制御されたイオン量子ビットに基づいてこれらの技術を大規模量子コンピュータに直接スケーリングする方法を検証する。

The central challenge of quantum computing is implementing high-fidelity quantum gates at scale. However, many existing approaches to qubit control suffer from a scale-performance trade-off, impeding progress towards the creation of useful devices. Here, we present a vision for an electronically controlled trapped-ion quantum computer that alleviates this bottleneck. Our architecture utilizes shared current-carrying traces and local tuning electrodes in a microfabricated chip to perform quantum gates with low noise and crosstalk regardless of device size. To verify our approach, we experimentally demonstrate low-noise site-selective single- and two-qubit gates in a seven-zone ion trap that can control up to 10 qubits. We implement electronic single-qubit gates with 99.99916(7)% fidelity, and demonstrate consistent performance with low crosstalk across the device. We also electronically generate two-qubit maximally entangled states with 99.97(1)% fidelity and long-term stable performance over continuous system operation. These state-of-the-art results validate the path to directly scaling these techniques to large-scale quantum computers based on electronically controlled trapped-ion qubits.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 次世代情報時代のアフリカの民主主義--AIによるプロパガンダへの挑戦と対策

African Democracy in the Era of Generative Disinformation: Challenges and Countermeasures against AI-Generated Propaganda ( http://arxiv.org/abs/2407.07695v1 )

ライセンス: Link先を確認
Chinasa T. Okolo, (参考訳) 生成AIの否定的な影響に関する顕著な議論を踏まえ、新たな研究領域では、選挙に参加するアフリカ市民に対するAI生成プロパガンダの現在および推定影響を調査している。 アフリカ全体では、ナイジェリア、ブルキナファソ、ガボンなどの国々で選挙結果やクーデターに影響を及ぼすAI生成プロパガンダの疑いがあり、この領域における包括的な研究の必要性を強調している。 本稿では, アフリカにおける生成的AI駆動型偽情報の普及に伴うリスクを明らかにするとともに, 政府, 市民社会, アカデミア, 一般市民の役割を, 責任ある開発, 実践的利用, 堅牢なAIガバナンスにおいて同時に検討することを目的とする。 本稿では, アフリカにおける選挙関連プロパガンダにおける生成AIの活用を事例として, アフリカ政府がAI生成プロパガンダの効果を効果的に抑制する方法について考察する。 続いて、偽情報の否定的な影響を軽減し、偽情報の拡散に対抗するリテラシー活動に市民を積極的に関与させる新たなイニシアチブの可能性を探り、政府の規制強化を提唱する。 全体として、この研究は、アフリカにおける民主的プロセスにおけるAI生成プロパガンダの潜在的影響の理解を高め、これらの多面的課題に対処するための利害関係者のための実行可能な戦略を提案する。

In light of prominent discourse around the negative implications of generative AI, an emerging area of research is investigating the current and estimated impacts of AI-generated propaganda on African citizens participating in elections. Throughout Africa, there have already been suspected cases of AI-generated propaganda influencing electoral outcomes or precipitating coups in countries like Nigeria, Burkina Faso, and Gabon, underscoring the need for comprehensive research in this domain. This paper aims to highlight the risks associated with the spread of generative AI-driven disinformation within Africa while concurrently examining the roles of government, civil society, academia, and the general public in the responsible development, practical use, and robust governance of AI. To understand how African governments might effectively counteract the impact of AI-generated propaganda, this paper presents case studies illustrating the current usage of generative AI for election-related propaganda in Africa. Subsequently, this paper discusses efforts by fact-checking organisations to mitigate the negative impacts of disinformation, explores the potential for new initiatives to actively engage citizens in literacy efforts to combat disinformation spread, and advocates for increased governmental regulatory measures. Overall, this research seeks to increase comprehension of the potential ramifications of AI-generated propaganda on democratic processes within Africa and propose actionable strategies for stakeholders to address these multifaceted challenges.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 連続時間結晶における自発対称性の破れ

Revealing spontaneous symmetry breaking in continuous time crystals ( http://arxiv.org/abs/2407.07697v1 )

ライセンス: Link先を確認
Yuanjiang Tang, Chenyang Wang, Bei Liu, Jin Peng, Chao Liang, Yaohua Li, Xian Zhao, Cuicui Lu, Shuang Zhang, Yong-Chun Liu, (参考訳) 自然対称性の破れは、素粒子の出現から物質の相転移まで、物理学において重要な役割を果たす。 連続時間変換対称性の自発的な破れは、連続時間結晶(CTC)と呼ばれる新しい物質の状態をもたらす。 周期的な駆動を必要としない周期的な発振を示し、繰り返し実現される発振の相対位相はランダムである。 しかし、CTCの自発的対称性の破れ、特にランダム位相の背後にあるメカニズムはいまだ解明されていない。 本稿では,多様体トポロジーと近カオス運動という,異なる機構に基づく2種類のCTCを実験的に提案する。 熱原子アンサンブル中のCTCの両タイプを, スピンスピン非線形相互作用を計測フィードバック方式で人工的に合成することによって観察する。 我々の研究は、CTCの実現のための一般的なレシピを提供し、様々なシステムにおけるCTCの探索の道を開く。

Spontaneous symmetry breaking plays a pivotal role in physics ranging from the emergence of elementary particles to the phase transitions of matter. The spontaneous breaking of continuous time translation symmetry leads to a novel state of matter named continuous time crystal (CTC). It exhibits periodic oscillation without the need for periodic driving, and the relative phases for repetitively realized oscillations are random. However, the mechanism behind the spontaneous symmetry breaking in CTCs, particularly the random phases, remains elusive. Here we propose and experimentally realize two types of CTCs based on distinct mechanisms: manifold topology and near-chaotic motion. We observe both types of CTCs in thermal atomic ensembles by artificially synthesizing spin-spin nonlinear interactions through a measurement-feedback scheme. Our work provides general recipes for the realization of CTCs, and paves the way for exploring CTCs in various systems.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# データ汚染下における分断等角予測

Split Conformal Prediction under Data Contamination ( http://arxiv.org/abs/2407.07700v1 )

ライセンス: Link先を確認
Jase Clarkson, Wenkai Xu, Mihai Cucuringu, Gesine Reinert, (参考訳) コンフォーマル予測(Conformal prediction)とは、データ交換可能な仮定の下で任意の予測モデルから予測間隔や集合を構築するための非パラメトリック手法である。 予測セットの限界被覆に関する理論的保証が伴い、分割共形予測変種はモデルトレーニングと比較して計算コストが極めて低いことから人気がある。 データ汚染条件下での分割共形予測のロバスト性について検討し、キャリブレーションスコアのごく一部がバルクと異なる分布から引き出されると仮定する。 クリーンな」テストポイントで評価した場合, 破損したデータの影響を定量的に評価し, 数値実験による検証を行った。 さらに,汚染ロバスト・コンフォーマル予測(Contamination Robust Conformal Prediction)と呼ぶ分類設定の調整を提案し,合成データと実データの両方を用いて本手法の有効性を検証する。

Conformal prediction is a non-parametric technique for constructing prediction intervals or sets from arbitrary predictive models under the assumption that the data is exchangeable. It is popular as it comes with theoretical guarantees on the marginal coverage of the prediction sets and the split conformal prediction variant has a very low computational cost compared to model training. We study the robustness of split conformal prediction in a data contamination setting, where we assume a small fraction of the calibration scores are drawn from a different distribution than the bulk. We quantify the impact of the corrupted data on the coverage and efficiency of the constructed sets when evaluated on "clean" test points, and verify our results with numerical experiments. Moreover, we propose an adjustment in the classification setting which we call Contamination Robust Conformal Prediction, and verify the efficacy of our approach using both synthetic and real datasets.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# アジャイル医療機器開発におけるセキュリティ保証事例の役割評価

Evaluating the Role of Security Assurance Cases in Agile Medical Device Development ( http://arxiv.org/abs/2407.07704v1 )

ライセンス: Link先を確認
Max Fransson, Adam Andersson, Mazen Mohamad, Jan-Philipp Steghöfer, (参考訳) 医療機器のサイバーセキュリティ問題は患者の安全を脅かし、悪用された場合に害を与える可能性がある。 したがって、標準と規制は、そのような機器のベンダーに対して、サイバーセキュリティのリスクの評価と、それらの緩和に関する説明を提供するよう要求する。 セキュリティ保証ケース(SAC)は、これらの要素を構造化された引数としてキャプチャする。 SACをコンパイルするには、ドメイン固有の規則と要件を考慮し、考慮すべき方法を取る必要があります。 このケーススタディでは、確立されたアジャイル開発ワークフローを備えた大手医療機器メーカーの文脈で、SACを構築するためのアプローチであるCASCADEを評価する。 開発プロセスにおける規制状況と適応性について検討する。 医療機器産業におけるSACの適合性について検討した。 SACが内部および外部ニーズをサポートする17のユースケースを特定した。 リスクアセスメントマトリックスからの情報をSACに組み込むことで、安全保証への接続を実現することができる。 開発プロセスへの統合は、設計レビューと製品リリースのための新しい役割とルール、そして完了の定義のための追加の基準を導入することで達成できる。 また,CASCADEを組み込んだSACがISO 14971などの医療分野の基準を満たしていることも示す。

Cybersecurity issues in medical devices threaten patient safety and can cause harm if exploited. Standards and regulations therefore require vendors of such devices to provide an assessment of the cybersecurity risks as well as a description of their mitigation. Security assurance cases (SACs) capture these elements as a structured argument. Compiling an SAC requires taking domain-specific regulations and requirements as well as the way of working into account. In this case study, we evaluate CASCADE, an approach for building SAC in the context of a large medical device manufacturer with an established agile development workflow. We investigate the regulatory context as well as the adaptations needed in the development process. Our results show the suitability of SACs in the medical device industry. We identified 17 use cases in which an SAC supports internal and external needs. The connection to safety assurance can be achieved by incorporating information from the risk assessment matrix into the SAC. Integration into the development process can be achieved by introducing a new role and rules for the design review and the release to production as well as additional criteria for the definition of done. We also show that SACs built with CASCADE fulfill the requirements of relevant standards in the medical domain such as ISO 14971.
翻訳日:2024-07-11 16:22:15 公開日:2024-07-10
# 二乗量子ビット測定の整合性について

On compatibility of binary qubit measurements ( http://arxiv.org/abs/2407.07711v1 )

ライセンス: Link先を確認
Dmitry Grinko, Roope Uola, (参考訳) 量子測定のどのセットが同時読み出しを可能にするかを決めることは、量子測定理論における中心的な問題である。 この問題は基礎的な観点からだけでなく、非互換な測定によって引き起こされる量子相関問題にも直接的な応用がある。 中心的ではあるが、一般的な測定セットの不適合性を決定するための分析的基準はごくわずかである。 この研究はブールハイパーキューブとそのフーリエ変換で定義される関数を通してこの問題にアプローチする。 この問題の修正は, 有限集合の偏りのない二乗量子ビット測定において, 完全幾何的可測性を実現し, 偏りのある場合に必要な条件を与えることを示す。 我々は、量子ステアリングの領域における我々の結果について議論し、そこでそれらがステアリングの不平等の族へと変換する。 ある不偏性条件を満たすとき、これらの基準は厳密であり、信頼された当事者が量子ビットを保持するときの操舵問題を完全に特徴づけ、信頼されていない当事者は有限数のバイナリ測定を行う。 さらに、この結果が不整合性を測定するための2次コーンプログラミングアプローチにどのように向けられているのかを議論し、これを主に使われる半定型プログラミングベース手法と比較する。 我々は,既存の測度の不整合性に関する予想をfalsifyにするために,我々の手法を用いる。

Deciding which sets of quantum measurements allow a simultaneous readout is a central problem in quantum measurement theory. The problem is relevant not only from the foundational perspective but also has direct applications in quantum correlation problems fueled by incompatible measurements. Although central, only a few analytical criteria exist for deciding the incompatibility of general sets of measurements. This work approaches the problem through functions defined on the Boolean hypercube and their Fourier transformations. We show that this reformulation of the problem leads to a complete geometric characterisation of joint measurability of any finite set of unbiased binary qubit measurements and gives a necessary condition for the biased case. We discuss our results in the realm of quantum steering, where they translate into a family of steering inequalities. When certain unbiasedness conditions are fulfilled, these criteria are tight, hence fully characterizing the steering problem when the trusted party holds a qubit, and the untrusted party performs any finite number of binary measurements. We further discuss how our results point towards a second-order cone programming approach to measurement incompatibility and compare this to the predominantly used semi-definite programming-based techniques. We use our approach to falsify an existing conjecture on measurement incompatibility of special sets of measurements.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# Deep-Graph-Sprints: 連続時間動的グラフにおける高速化表現学習

Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2407.07712v1 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Aparício, Hugo Ferreira, Pedro Ribeiro, Pedro Bizarro, (参考訳) 連続時間動的グラフ(CTDG)は相互接続された進化するシステムのモデリングに不可欠である。 これらのグラフから知識を抽出する従来の手法は、しばしば機能工学やディープラーニングに依存している。 機能エンジニアリングは手動と時間集約的な工芸機能によって制限されるが、ディープラーニングアプローチは高い推論遅延に悩まされており、リアルタイムアプリケーションでは実用的ではない。 本稿では,低遅延推論条件のCTDG上での効率的な表現学習を目的とした,新しいディープラーニングアーキテクチャであるDeep-Graph-Sprints(DGS)を紹介する。 我々は、5つの多様なデータセットを用いてDGSを最先端の機能工学とグラフニューラルネットワークの手法と比較した。 その結果、DGSは、テストベンチマークの他のディープラーニングアプローチと比較して、推論速度を最大12倍に改善しながら、競争性能を向上していることが示された。 本手法は,CTDGの深層表現学習と低遅延応用要件のギャップを効果的に埋めるものである。

Continuous-time dynamic graphs (CTDGs) are essential for modeling interconnected, evolving systems. Traditional methods for extracting knowledge from these graphs often depend on feature engineering or deep learning. Feature engineering is limited by the manual and time-intensive nature of crafting features, while deep learning approaches suffer from high inference latency, making them impractical for real-time applications. This paper introduces Deep-Graph-Sprints (DGS), a novel deep learning architecture designed for efficient representation learning on CTDGs with low-latency inference requirements. We benchmark DGS against state-of-the-art feature engineering and graph neural network methods using five diverse datasets. The results indicate that DGS achieves competitive performance while improving inference speed up to 12x compared to other deep learning approaches on our tested benchmarks. Our method effectively bridges the gap between deep representation learning and low-latency application requirements for CTDGs.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# SvANet:小さな医療用オブジェクトセグメンテーションのためのスケール可変アテンションベースネットワーク

SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmentation ( http://arxiv.org/abs/2407.07720v1 )

ライセンス: Link先を確認
Wei Dai, (参考訳) 早期発見と正確な診断は悪性疾患の再発のリスクを予測し、効果的治療の確率を高めることができる。 軽度の感染部位を有する軽度の症候群は、異常な警告であり、疾患の早期診断の最前線である。 畳み込みニューラルネットワーク(CNN)のようなディープラーニングアルゴリズムは、自然または医学的なオブジェクトを分割するために使われ、有望な結果を示している。 しかし、画像内の小さな領域の医療対象を分析することは、CNNにおける畳み込みやプール操作によって引き起こされる情報損失と圧縮欠陥のため、依然として課題である。 これらの損失と欠陥は、ネットワークが深まるにつれて、特に小さな医療オブジェクトにとって、ますます顕著になる。 これらの課題に対処するために,医用画像における小型物体分割を正確に行うための,新しいスケール可変アテンションベースネットワーク(SvANet)を提案する。 SvANetはモンテカルロ・アテンション、スケール可変アテンション、ビジョン・トランスフォーマーで構成されており、クロススケールな特徴を取り入れ、小さな医療オブジェクトの識別を強化するために圧縮アーティファクトを緩和している。 定量的実験の結果、SvANetは96.12%、96.11%、89.79%、84.15%、80.25%、73.05%、および72.58%を達成し、それぞれKiTS23、ISIC 2018、ATLAS、PolypGen、TioNet、FIVES、SpermHealthの各データセットの画像領域の1%未満を占める腎臓腫瘍、皮膚病変、肝腫瘍、ポリープ、外科切除細胞、網膜血管、精子の分画係数を推定した。

Early detection and accurate diagnosis can predict the risk of malignant disease transformation, thereby increasing the probability of effective treatment. A mild syndrome with small infected regions is an ominous warning and is foremost in the early diagnosis of diseases. Deep learning algorithms, such as convolutional neural networks (CNNs), have been used to segment natural or medical objects, showing promising results. However, analyzing medical objects of small areas in images remains a challenge due to information losses and compression defects caused by convolution and pooling operations in CNNs. These losses and defects become increasingly significant as the network deepens, particularly for small medical objects. To address these challenges, we propose a novel scale-variant attention-based network (SvANet) for accurate small-scale object segmentation in medical images. The SvANet consists of Monte Carlo attention, scale-variant attention, and vision transformer, which incorporates cross-scale features and alleviates compression artifacts for enhancing the discrimination of small medical objects. Quantitative experimental results demonstrate the superior performance of SvANet, achieving 96.12%, 96.11%, 89.79%, 84.15%, 80.25%, 73.05%, and 72.58% in mean Dice coefficient for segmenting kidney tumors, skin lesions, hepatic tumors, polyps, surgical excision cells, retinal vasculatures, and sperms, which occupy less than 1% of the image areas in KiTS23, ISIC 2018, ATLAS, PolypGen, TissueNet, FIVES, and SpermHealth datasets, respectively.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# PaliGemma: 転送のための多用途3B VLM

PaliGemma: A versatile 3B VLM for transfer ( http://arxiv.org/abs/2407.07726v1 )

ライセンス: Link先を確認
Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai, (参考訳) PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 移動に有効な多目的で広く理解可能なベースモデルであるように訓練されている。 さまざまなオープンワールドタスクにおいて、強力なパフォーマンスを実現している。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。

PaliGemma is an open Vision-Language Model (VLM) that is based on the SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. It achieves strong performance on a wide variety of open-world tasks. We evaluate PaliGemma on almost 40 diverse tasks including standard VLM benchmarks, but also more specialized tasks such as remote-sensing and segmentation.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# SaMoye: 特徴距離と合成に基づくゼロショット歌声変換

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis ( http://arxiv.org/abs/2407.07728v1 )

ライセンス: Link先を確認
Zihao Wang, Le Ma, Yan Liu, Kejun Zhang, (参考訳) 歌唱音声変換(SVC)は、歌唱者の声をオリジナルコンテンツを保持しつつ、特定の楽曲中の声を他の歌手に変換することを目的としている。 そこで我々は,ゼロショット多対多歌唱音声変換を実現するために,SaMoyeと名づけたエンドツーエンド機能不整合モデルを提案する。 SaMoyeは、歌声の特徴をそれぞれコンテンツ機能、音色機能、ピッチ機能に分解する。 コンテンツ機能はGPTモデルを用いて拡張され、歌詞の音素と交差予測を行う。 SaMoyeは、音色の特徴をターゲットの歌手に置き換えることで、変換された音声で音楽を生成することができる。 また、ゼロショット性能を保証するために、非並列な大規模データセットを構築します。 データセットは、少なくとも10,000人の歌手を含む1500kの純粋なボーカルクリップで構成されている。

Singing voice conversion (SVC) aims to convert a singer's voice in a given music piece to another singer while keeping the original content. We propose an end-to-end feature disentanglement-based model, which we named SaMoye, to enable zero-shot many-to-many singing voice conversion. SaMoye disentangles the features of the singing voice into content features, timbre features, and pitch features respectively. The content features are enhanced using a GPT-based model to perform cross-prediction with the phoneme of the lyrics. SaMoye can generate the music with converted voice by replacing the timbre features with the target singer. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance. The dataset consists of 1500k pure singing vocal clips containing at least 10,000 singers.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# ケーラー非線形振動子における位相遷移

Topological Transitions in a Kerr Nonlinear Oscillator ( http://arxiv.org/abs/2407.07729v1 )

ライセンス: Link先を確認
Juan Lin, Shou-Bang Yang, Fan Wu, Zhen-Biao Yang, (参考訳) カー非線形発振器(KNO)は、連続変数量子ビット基底状態の符号化に適した一対の定常固有状態、反対位相のコヒーレント状態をサポートする。 定常状態部分空間内に閉じ込められたKNOの任意制御は、システムのクエンチ速度に対する物理的観測値の線形応答によるベリー曲率の抽出を可能にし、KNOにおける位相の効果的な評価法を提供する。 代替として、KNOに「断熱へのショートカット」を採用する制御は、加速された断熱的固有状態の進化を通じてトポロジーの探索を可能にし、3つの物理観測物全てを測定する。 位相遷移は、それぞれベリー曲率の積分と新しい極角関係から得られる第1チャーン数のパラメータ空間全体へのジャンプによって明らかにされる。 我々の戦略は、連続変数系のトポロジカル遷移を測定する方法である。

A Kerr nonlinear oscillator (KNO) supports a pair of steady eigenstates, coherent states with opposite phases, that are good for the encoding of continuous variable qubit basis states. Arbitrary control of the KNO confined within the steady state subspace allows extraction of the Berry curvature through the linear response of the physical observable to the quench velocity of the system, providing an effective method for the characterization of topology in the KNO. As an alternative, the control adopting the "shortcut to adiabaticity" to the KNO enables the exploration of the topology through accelerated adiabatic eigenstate evolution to measure all three physical observables. Topological transitions are revealed by the jump of the first Chern number, obtained respectively from the integral of the Berry curvature and of the new polar angle relation, over the whole parameter space. Our strategy paves the way for measuring topological transitions in continuous variable systems.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# プラグアンドプレイ型透かしベースモデルによるNeRFの著作権保護

Protecting NeRFs' Copyright via Plug-And-Play Watermarking Base Model ( http://arxiv.org/abs/2407.07735v1 )

ライセンス: Link先を確認
Qi Song, Ziyuan Luo, Ka Chun Cheung, Simon See, Renjie Wan, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元シーン表現の鍵となる手法となっている。 NeRFの台頭と影響力の高まりにより、その知的財産の保護がますます重要になっている。 本稿では,NeRF の著作権保護のためのプラグイン・アンド・プレイ戦略を採用した \textbf{NeRFProtector} を提案する。 NeRFProtectorはトレーニング済みの透かしベースモデルを使用しており、NeRFの作成者はNeRFを作成しながらバイナリメッセージを直接埋め込むことができる。 我々のプラグアンドプレイ特性により、NeRF作成者は過度な修正を加えることなく、柔軟にNeRF変種を選択することができる。 新たに設計したプログレッシブ蒸留を利用して,先進的なニューラルレンダリング手法に匹敵する性能を示す。 我々のプロジェクトは以下の通りである。

Neural Radiance Fields (NeRFs) have become a key method for 3D scene representation. With the rising prominence and influence of NeRF, safeguarding its intellectual property has become increasingly important. In this paper, we propose \textbf{NeRFProtector}, which adopts a plug-and-play strategy to protect NeRF's copyright during its creation. NeRFProtector utilizes a pre-trained watermarking base model, enabling NeRF creators to embed binary messages directly while creating their NeRF. Our plug-and-play property ensures NeRF creators can flexibly choose NeRF variants without excessive modifications. Leveraging our newly designed progressive distillation, we demonstrate performance on par with several leading-edge neural rendering methods. Our project is available at: \url{https://qsong2001.github.io/NeRFProtector}.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# ユーザレベル差分プライバシを用いた大規模言語モデルの微調整

Fine-Tuning Large Language Models with User-Level Differential Privacy ( http://arxiv.org/abs/2407.07737v1 )

ライセンス: Link先を確認
Zachary Charles, Arun Ganesh, Ryan McKenna, H. Brendan McMahan, Nicole Mitchell, Krishna Pillutla, Keith Rush, (参考訳) ユーザレベルの差分プライバシ(DP)を用いて,大規模言語モデル(LLM)をトレーニングするための実用的かつスケーラブルなアルゴリズムを検討した。 1)サンプルレベルサンプリング(ELS)と,(2)ユーザレベルのサンプリング(ULS)とユーザごとの勾配クリッピングの2種類のDP-SGDについて検討した。 我々は,ESSの厳密なプライバシー保証を計算できる新しいユーザレベルDP会計士を導出する。 これを用いて、ALSは特定の設定でULSより優れるが、ULSは一般的に、各ユーザが多様なサンプルコレクションを持つ場合に、より良い結果が得られることを示す。 我々は,固定計算予算下での合成平均推定とLLM微調整タスクの実験により,本研究の検証を行った。 ULS は(1) 強いプライバシー保証が必要か、(2) 計算予算が大きいかという設定で大幅に改善されている。 特に、LLM互換のトレーニングアルゴリズムにフォーカスすることで、数十万人のユーザを持つ数十万のパラメータとデータセットを持つモデルにスケールできます。

We investigate practical and scalable algorithms for training large language models (LLMs) with user-level differential privacy (DP) in order to provably safeguard all the examples contributed by each user. We study two variants of DP-SGD with: (1) example-level sampling (ELS) and per-example gradient clipping, and (2) user-level sampling (ULS) and per-user gradient clipping. We derive a novel user-level DP accountant that allows us to compute provably tight privacy guarantees for ELS. Using this, we show that while ELS can outperform ULS in specific settings, ULS generally yields better results when each user has a diverse collection of examples. We validate our findings through experiments in synthetic mean estimation and LLM fine-tuning tasks under fixed compute budgets. We find that ULS is significantly better in settings where either (1) strong privacy guarantees are required, or (2) the compute budget is large. Notably, our focus on LLM-compatible training algorithms allows us to scale to models with hundreds of millions of parameters and datasets with hundreds of thousands of users.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# LSM: 自動運転における車線検出システムの安全性評価のための総合指標

LSM: A Comprehensive Metric for Assessing the Safety of Lane Detection Systems in Autonomous Driving ( http://arxiv.org/abs/2407.07740v1 )

ライセンス: Link先を確認
Jörg Gamerdinger, Sven Teufel, Stephan Amann, Georg Volk, Oliver Bringmann, (参考訳) 自動車の環境の総合的な認識と環境の正しい解釈は、自動運転車の安全な運転に不可欠である。 周囲の物体の知覚は、軌道計画のような更なるタスクの主要な構成要素である。 しかし、安全な軌道計画には、物体の検出だけでなく、乾燥可能な地域や車線回廊の検出も必要である。 最初のアプローチでは、オブジェクト検出の高度な安全性評価が検討されているが、レーン検出の評価には十分な安全性指標が欠けている。 物体検出の安全性指標と同様に、車線検出の評価には、道路タイプや道路幅のシーンのセマンティクス、検出範囲、車両速度に組み込まれていない検出の潜在的な原因などの追加要因が考慮されるべきである。 そこで本稿では,これらの要因を考慮し,容易に解釈可能な安全性スコアを決定することにより,車線検出システムの安全性を評価することのできる車線安全基準(LSM)を提案する。 我々は,異なるレーン検出手法を用いて,様々な仮想シナリオにおけるオフライン安全基準を評価し,最先端のパフォーマンス指標と比較した。

Comprehensive perception of the vehicle's environment and correct interpretation of the environment are crucial for the safe operation of autonomous vehicles. The perception of surrounding objects is the main component for further tasks such as trajectory planning. However, safe trajectory planning requires not only object detection, but also the detection of drivable areas and lane corridors. While first approaches consider an advanced safety evaluation of object detection, the evaluation of lane detection still lacks sufficient safety metrics. Similar to the safety metrics for object detection, additional factors such as the semantics of the scene with road type and road width, the detection range as well as the potential causes of missing detections, incorporated by vehicle speed, should be considered for the evaluation of lane detection. Therefore, we propose the Lane Safety Metric (LSM), which takes these factors into account and allows to evaluate the safety of lane detection systems by determining an easily interpretable safety score. We evaluate our offline safety metric on various virtual scenarios using different lane detection approaches and compare it with state-of-the-art performance metrics.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# 確率的非エルミタンハミルトニアンを用いた量子ダイナミクス

Quantum Dynamics with Stochastic Non-Hermitian Hamiltonians ( http://arxiv.org/abs/2407.07746v1 )

ライセンス: Link先を確認
Pablo Martinez-Azcona, Aritra Kundu, Avadh Saxena, Adolfo del Campo, Aurelia Chenu, (参考訳) 我々は,非エルミート・ハミルトニアンの反エルミート部分における確率的摂動によって生じる量子力学を考察し,ゆらぎのある利得と損失を記述した。 雑音平均力学を規定するマスター方程式は、新しいデファスティングの形式を記述している。 得られた状態の進化を特徴付け、その純度を分析する。 そのような力学の新たな性質は確率的散逸的量子ビットで示される。 解析結果から, ノイズの付加は, 定常状態の多様性を増し, 状態浄化の可能性も高め, 力学のリッチな制御を可能にすることが示された。

We study the quantum dynamics generated by a non-Hermitian Hamiltonian subject to stochastic perturbations in its anti-Hermitian part, describing fluctuating gains and losses. The master equation governing the noise-average dynamics describes a new form of dephasing. We characterize the resulting state evolution and analyze its purity. The novel properties of such dynamics are illustrated in a stochastic dissipative qubit. Our analytical results show that adding noise allows for a rich control of the dynamics, with a greater diversity of steady states and the possibility of state purification.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# 極低深さにおけるランダムユニタリ

Random unitaries in extremely low depth ( http://arxiv.org/abs/2407.07754v1 )

ライセンス: Link先を確認
Thomas Schuster, Jonas Haferkamp, Hsin-Yuan Huang, (参考訳) 1D線を含む任意の幾何学上のランダムな量子回路は、深さ$\log n$$$で$n$ qubits以上の近似ユニタリな設計をすることができることを証明している。 同様の方法で、擬似ランダムユニタリ(PRU)を1D回路で$\text{poly} \log n $ depth、および$\text{poly} \log \log n $ depth で全接続回路で$\text{poly} \log n $ depth で構築する。 3つのケースすべてにおいて、$n$依存は最適であり、既知の結果よりも指数関数的に改善される。 これらの浅い量子回路は複雑さが低く、短距離の絡み合いしか生じないが、指数複雑性を持つユニタリとは区別できない。 我々の構成は、局所乱ユニタリを$\log n$-sized または $\text{poly} \log n$-sized qubits のパッチに結び付け、すべての$n$ qubits 上の大域的乱ユニタリを形成する。 設計の場合、局所ユニタリは、およそ$k$-設計の既存の構成から引き出され、従って$k$の最適スケーリングを継承する。 PRU の場合、局所ユニタリは PRU を形成すると推測される既存のユニタリアンサンブルから引き出される。 本研究の応用例としては,1次元ログ深度クリフォード回路を用いた古典的影が深部回路と同等に強力であることの証明,低複雑性物理系学習における超ポリノミカル量子の優位性を示すこと,およびトポロジカル秩序による物質相の認識のための量子硬度を確立することなどが挙げられる。

We prove that random quantum circuits on any geometry, including a 1D line, can form approximate unitary designs over $n$ qubits in $\log n$ depth. In a similar manner, we construct pseudorandom unitaries (PRUs) in 1D circuits in $\text{poly} \log n $ depth, and in all-to-all-connected circuits in $\text{poly} \log \log n $ depth. In all three cases, the $n$ dependence is optimal and improves exponentially over known results. These shallow quantum circuits have low complexity and create only short-range entanglement, yet are indistinguishable from unitaries with exponential complexity. Our construction glues local random unitaries on $\log n$-sized or $\text{poly} \log n$-sized patches of qubits to form a global random unitary on all $n$ qubits. In the case of designs, the local unitaries are drawn from existing constructions of approximate unitary $k$-designs, and hence also inherit an optimal scaling in $k$. In the case of PRUs, the local unitaries are drawn from existing unitary ensembles conjectured to form PRUs. Applications of our results include proving that classical shadows with 1D log-depth Clifford circuits are as powerful as those with deep circuits, demonstrating superpolynomial quantum advantage in learning low-complexity physical systems, and establishing quantum hardness for recognizing phases of matter with topological order.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# 球面ニューラルサーフェスによるニューラルジオメトリー処理

Neural Geometry Processing via Spherical Neural Surfaces ( http://arxiv.org/abs/2407.07755v1 )

ライセンス: Link先を確認
Romy Williamson, Niloy J. Mitra, (参考訳) ニューラルサーフェス(例えば、ニューラルマップエンコーディング、ディープ暗黙、ニューラルラディアンスフィールド)は、その一般的な構造(例えば、多層パーセプトロン)と近代的な学習ベースのセットアップとの容易な統合により、最近人気を集めている。 従来,多角形メッシュで表面形状を解析・操作するために設計された,幾何処理アルゴリズムの豊富なツールボックスが存在している。 しかしながら、神経表現は通常、幾何処理アルゴリズムを適用する前に、離散化されメッシュに変換される。 これは不満足で、私たちが示しているように、不要です。 そこで本研究では,0 種数に対する球面表現(球面パラメトリゼーション)を提案し,この表現に基づいてコア幾何学演算子を直接計算する方法を実証する。 すなわち、表面の正規形と第1および第2基本形を構築し、表面上のスカラー/ベクトル場上で表面勾配、表面偏差およびラプラスベルトラミ作用素を計算する方法を示す。 これらの演算子によって、不要なメッシュ化なしに、ニューラル表現に直接作用する幾何学的処理ツールが作成できます。 本研究では,(ニューラル)スペクトル解析,熱流,平均曲率流における図形的応用を実証し,等尺形状の変動に対するロバスト性を示す。 我々はどちらも理論的な定式化を提案し、それらの数値推定を検証した。 ニューラルサーフェス表現と古典幾何学処理アルゴリズムを体系的に結びつけることで、この研究はニューラルジオメトリー処理を実現する上で重要な要素となると信じている。

Neural surfaces (e.g., neural map encoding, deep implicits and neural radiance fields) have recently gained popularity because of their generic structure (e.g., multi-layer perceptron) and easy integration with modern learning-based setups. Traditionally, we have a rich toolbox of geometry processing algorithms designed for polygonal meshes to analyze and operate on surface geometry. However, neural representations are typically discretized and converted into a mesh, before applying any geometry processing algorithm. This is unsatisfactory and, as we demonstrate, unnecessary. In this work, we propose a spherical neural surface representation (a spherical parametrization) for genus-0 surfaces and demonstrate how to compute core geometric operators directly on this representation. Namely, we show how to construct the normals and the first and second fundamental forms of the surface, and how to compute the surface gradient, surface divergence and Laplace Beltrami operator on scalar/vector fields defined on the surface. These operators, in turn, enable us to create geometry processing tools that act directly on the neural representations without any unnecessary meshing. We demonstrate illustrative applications in (neural) spectral analysis, heat flow and mean curvature flow, and our method shows robustness to isometric shape variations. We both propose theoretical formulations and validate their numerical estimates. By systematically linking neural surface representations with classical geometry processing algorithms, we believe this work can become a key ingredient in enabling neural geometry processing.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# ChatGPTは計算理論をパスできるのか?

Can ChatGPT Pass a Theory of Computing Course? ( http://arxiv.org/abs/2407.07757v1 )

ライセンス: Link先を確認
Matei A. Golesteanu, Garrett B. Vowinkel, Ryan E. Dougherty, (参考訳) 大規模言語モデル(LLM)は、数学的な問題、特に計算理論(ToC)のコースにおいて、かなり困難であった。 本稿では,我々のToCコースとChatGPT LLMに関する2つの実験について述べる。 最初に,ChatGPTのToCコース合格能力を評価した。 第2に、トピックと構造に関する他のToCオファリングの選択に対応するために、サンプルToC質問と回答のデータベースを作成しました。 これらの質問に対して、ChatGPTのアウトプットをそれぞれスコア付けしました。 全体として、ChatGPTはToCコースをパスでき、一般的な形式定義を理解し、"シンプルな"スタイルの質問に答えるのに十分である。 しかし、ChatGPTはしばしば証明のようなオープンな応答において非意味な主張をする。

Large Language Models (LLMs) have had considerable difficulty when prompted with mathematical questions, especially those within theory of computing (ToC) courses. In this paper, we detail two experiments regarding our own ToC course and the ChatGPT LLM. For the first, we evaluated ChatGPT's ability to pass our own ToC course's exams. For the second, we created a database of sample ToC questions and responses to accommodate other ToC offerings' choices for topics and structure. We scored each of ChatGPT's outputs on these questions. Overall, we determined that ChatGPT can pass our ToC course, and is adequate at understanding common formal definitions and answering "simple"-style questions, e.g., true/false and multiple choice. However, ChatGPT often makes nonsensical claims in open-ended responses, such as proofs.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-10
# トラップイオン系クォートを用いた一般化トフォリゲート実現のスケーラブル化

Scalable improvement of the generalized Toffoli gate realization using trapped-ion-based qutrits ( http://arxiv.org/abs/2407.07758v1 )

ライセンス: Link先を確認
Anastasiia S. Nikolaeva, Ilia V. Zalivako, Alexander S. Borisenko, Nikita V. Semenin, Kristina P. Galstyan, Andrey E. Korolkov, Evgeniy O. Kiktenko, Ksenia Yu. Khabarova, Ilya A. Semerikov, Aleksey K. Fedorov, Nikolay N. Kolachevsky, (参考訳) Toffoliゲートの効率的な実装は、Groverの探索やShorの整数分解など、様々な量子アルゴリズムの実行において概念的に重要である。 しかし、トフォリゲートの直接実現には、2ビットゲートの数の禁止的な増加か、またはアンシラ量子ビットを使用するかが必要である。 ここでは, 3-, 4-qubit および 5-qubit のトフォリゲートの場合に対して, $^{171}$Yb$^{+}$capt-ion-based dual-type optic-microwave qutrits (d=3$) を用いてトフォリゲートの実現のスケーラブルな改善を実験的に示す。 モルマー・ソレンセンゲートを基本2粒子操作として, 標準クビット分解法と, 上層階をアンシラとして用いるクビット分解法を比較した。 提案手法では, アンシラレベルの大域的な制御しか必要とせず, 提案手法の実験的実装を単純化する。 マルチキュービットゲートの場合のアプローチのスケーラブルな改善を推定する。 予想通り、このアプローチを量子ビットの集合として活用すること(d\geq4$)と組み合わせることで、我々のアプローチは様々な量子アルゴリズムのより効率的な実現につながるかもしれない。 3つのイオンを用いたGroverの探索において、クォートをベースとした分解を行い、平均アルゴリズム性能の10%向上を実験的に実証した。

An efficient implementation of the Toffoli gate is of conceptual importance for running various quantum algorithms, including Grover's search and Shor's integer factorization. However, direct realizations of the Toffoli gate require either a prohibitive growth of the number of two-qubit gates or using ancilla qubits, whereas both of these resources are limited in the current generation of noisy intermediate-scale quantum devices. Here we experimentally demonstrate a scalable improvement of the realization of the Toffoli gate using $^{171}$Yb$^{+}$ trapped-ion-based dual-type optic-microwave qutrits ($d=3$) for the cases of three-, four-qubit and five-qubit versions of the Toffoli gate. With the use of the Molmer-Sorensen gate as a basic two-particle operation, we compare the standard qubit decomposition with the qutrit approach, where upper levels are used as ancillas. The presented decomposition requires only global control of the ancilla levels, which simplifies experimental implementation of the proposed approach. We present an estimation of the scalable improvement of our approach in the case of multi-qubit gates. As we expect, by combining this approach with the leveraging qudits ($d\geq4$) as a set of qubits, our approach may lead to a more efficient realization of various quantum algorithms. With qutrit-based decomposition in Grover's search with three ions, we experimentally demonstrate the 10\% increase in the average algorithm performance.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# ロバストビデオオブジェクトセグメンテーションのための空間意味的特徴の学習

Learning Spatial-Semantic Features for Robust Video Object Segmentation ( http://arxiv.org/abs/2407.07760v1 )

ライセンス: Link先を確認
Xin Li, Deshui Miao, Zhenyu He, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang, (参考訳) 対象の部位のあいまいさや、オクルージョン、背景のぼやけ、長期の変動によって引き起こされるアイデンティティの混乱により、複数の類似したオブジェクトを、長期ビデオで複雑または別々に追跡し、セグメンテーションすることは本質的に困難である。 本稿では,このような問題に対処するために,空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。 具体的には,意味的埋め込みブロックと空間依存モデリングブロックからなる空間意味ネットワークを構築し,事前学習したViT特徴とグローバルな意味的特徴と局所的な空間的特徴とを関連づけ,包括的対象表現を提供する。 さらに,問合せ伝搬中の対象オブジェクトの最も識別性の高い部分に着目し,雑音の蓄積を緩和し,効果的な長期的問合せ伝搬を保証するための,マスク付きクロスアテンションモジュールを開発した。 実験の結果、提案手法は、DAVIS2017テスト(89.1%)、YoutubeVOS 2019(88.5%)、MOSE(75.1%)、LVOSテスト(73.0%)、LVOS val(75.1%)を含む複数のデータセットに新たな最先端性能を設定し、提案手法の有効性と一般化能力を示した。 すべてのソースコードとトレーニング済みのモデルを公開します。

Tracking and segmenting multiple similar objects with complex or separate parts in long-term videos is inherently challenging due to the ambiguity of target parts and identity confusion caused by occlusion, background clutter, and long-term variations. In this paper, we propose a robust video object segmentation framework equipped with spatial-semantic features and discriminative object queries to address the above issues. Specifically, we construct a spatial-semantic network comprising a semantic embedding block and spatial dependencies modeling block to associate the pretrained ViT features with global semantic features and local spatial features, providing a comprehensive target representation. In addition, we develop a masked cross-attention module to generate object queries that focus on the most discriminative parts of target objects during query propagation, alleviating noise accumulation and ensuring effective long-term query propagation. The experimental results show that the proposed method set a new state-of-the-art performance on multiple datasets, including the DAVIS2017 test (89.1%), YoutubeVOS 2019 (88.5%), MOSE (75.1%), LVOS test (73.0%), and LVOS val (75.1%), which demonstrate the effectiveness and generalization capacity of the proposed method. We will make all source code and trained models publicly available.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# ゲーム学習の学習と動機づけ的影響--コンピュータサイエンス教育における対面学習とオンライン学習の比較

Learning and Motivational Impact of Game-Based Learning: Comparing Face-to-Face and Online Formats on Computer Science Education ( http://arxiv.org/abs/2407.07762v1 )

ライセンス: Link先を確認
Daniel López-Fernández, Aldo Gordillo, Jennifer Pérez, Edmundo Tovar, (参考訳) コントリビューション:本論文は,教師によるコンピュータサイエンス教育における教育用ビデオゲームの学習とモチベーションへの影響を分析し,対面型とオンライン型(リモート型)の両フォーマットでの有効性を比較した。 本研究は, 対面型 (コントロールグループ) でプレイした217名の生徒と, オンライン型 (実験グループ) でプレイした104名の生徒を比較した。 背景: 現実的なビデオゲームはコンピュータサイエンス教育において有効であることが証明されているが、これらのゲームの有効性が、フォーマット、対面、オンラインに関わらず、同じであるかどうかはまだ不明である。 さらに、オーサリングツールによって作成されたゲームの使用も、ほとんど調査されていない。 研究課題:コンピュータサイエンスの学生の学習とモチベーションの観点から、教師による教育用ビデオゲームは有効か? 教師による教育用ビデオゲームの有効性は、対面型かオンライン型かによって異なるのか? 方法論: 対面型, オンライン型, 対面型, 対面型, 対面型, オンライン型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対面型, 対位型, 対位型, 対位型, 対位型, 対位型, 対位型, 対位型, 対位型, 対位 321人のコンピュータサイエンスの学生が、ソフトウェア設計を学ぶことを目的とした教師による教育用ビデオゲームをプレイした。 その結果,教師が指導する教育用ビデオゲームは,対面型とオンライン型の両方において,知識獲得とモチベーションにおいて極めて効果的であることが判明した。 また, 対面型を用いた場合, 学生の知覚は肯定的であった。

Contribution: This article analyzes the learning and motivational impact of teacher-authored educational video games on computer science education and compares its effectiveness in both face-to-face and online (remote) formats. This work presents comparative data and findings obtained from 217 students who played the game in a face-to-face format (control group) and 104 students who played the game in an online format (experimental group). Background: Serious video games have been proven effective at computer science education, however, it is still unknown whether the effectiveness of these games is the same regardless of their format, face-to-face or online. Moreover, the usage of games created through authoring tools has barely been explored. Research Questions: Are teacher-authored educational video games effective in terms of learning and motivation for computer science students? Does the effectiveness of teacher-authored educational video games depend on whether they are used in a face-to-face or online format? Methodology: A quasi-experiment has been conducted by using three instruments (pre-test, post-test, and questionnaire) with the purpose of comparing the effectiveness of game-based learning in face-to-face and online formats. A total of 321 computer science students played a teacher-authored educational video game aimed to learn about software design. Findings: The results reveal that teacher-authored educational video games are highly effective in terms of knowledge acquisition and motivation both in face-to-face and online formats. The results also show that some students' perceptions were more positive when a face-to-face format was used.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# S&D Messenger:ジェネリック・セミスーパービジョン・メディカルイメージ・セグメンテーションのためのセマンティックとドメイン知識の交換

S&D Messenger: Exchanging Semantic and Domain Knowledge for Generic Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.07763v1 )

ライセンス: Link先を確認
Qixiang Zhang, Haonan Wang, Xiaomeng Li, (参考訳) 半監督型医用画像分割(SSMIS)は,医療分野における手動ラベリングの課題に対処するための,有望な解決策として登場した。 しかし、現実的なシナリオでは、データセット内にドメインのバリエーションがしばしば存在し、半教師付き医療領域一般化(Semi-MDG)や教師なし医療領域適応(UMDA)のような派生的なシナリオが導かれる。 本稿では,3つのタスク全てをマスターする汎用フレームワークを開発することを目的とする。 セグメンテーションのパフォーマンスに関する明示的なセマンティック知識と、一般化可能性に関する豊富なドメイン知識は、それぞれラベル付き集合とラベルなし集合にのみ存在する。 このような不一致は、半教師付き設定下で両方の知識を効果的に理解することを妨げる。 この課題に対処するため,ラベル付きセットとラベルなしセット間の直接的な知識提供を容易にするセマンティック・アンド・ドメイン・ナレッジ・メッセンジャー(S&D Messenger)を開発した。 SSMIS(+7.5%)、UMDA(+5.6%)、Semi-MDGタスク(+1.14%)の6つのベンチマークデータセットでは、特定のタスク用に設計された最先端のメソッドと比較して、単純な擬似ラベル方式が大幅に改善できる。

Semi-supervised medical image segmentation (SSMIS) has emerged as a promising solution to tackle the challenges of time-consuming manual labeling in the medical field. However, in practical scenarios, there are often domain variations within the datasets, leading to derivative scenarios like semi-supervised medical domain generalization (Semi-MDG) and unsupervised medical domain adaptation (UMDA). In this paper, we aim to develop a generic framework that masters all three tasks. We notice a critical shared challenge across three scenarios: the explicit semantic knowledge for segmentation performance and rich domain knowledge for generalizability exclusively exist in the labeled set and unlabeled set respectively. Such discrepancy hinders existing methods from effectively comprehending both types of knowledge under semi-supervised settings. To tackle this challenge, we develop a Semantic & Domain Knowledge Messenger (S&D Messenger) which facilitates direct knowledge delivery between the labeled and unlabeled set, and thus allowing the model to comprehend both of them in each individual learning flow. Equipped with our S&D Messenger, a naive pseudo-labeling method can achieve huge improvement on six benchmark datasets for SSMIS (+7.5%), UMDA (+5.6%), and Semi-MDG tasks (+1.14%), compared with state-of-the-art methods designed for specific tasks.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# PosFormer: 位置フォレスト変換器を用いた複雑な手書き数学的表現の認識

PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer ( http://arxiv.org/abs/2407.07764v1 )

ライセンス: Link先を確認
Tongkun Guan, Chengyu Lin, Wei Shen, Xiaokang Yang, (参考訳) 手書き数学的表現認識(HMER)は、デジタル教育や自動化オフィスなどの人間と機械の相互作用シナリオに広く応用されている。 近年,表現画像のLaTeXシーケンスを直接予測することで,エンコーダ・デコーダアーキテクチャを用いたシーケンスベースモデルが広く採用されている。 しかし、これらの手法はLaTeXが提供する構文規則のみを暗黙的に学習し、複雑な構造的関係と多様な手書きスタイルによってシンボルの位置と階層的関係を記述できない可能性がある。 この課題を克服するために,HMER のための位置森林変換器 (PosFormer) を提案する。 具体的には、まず、数学的表現を森林構造としてモデル化し、シンボル間の相対的な位置関係を解析する位置森を設計する。 追加のアノテーションを必要とせずに、各シンボルはその相対的な空間位置を示すために森の位置識別子が割り当てられる。 第2に,シーケンシャルベースデコーダアーキテクチャにおけるHMERの注意を正確に捉えるために,暗黙の注意補正モジュールを提案する。 広範な実験によりPosFormerの優位性が検証され、これは最先端の手法である2.03%/1.22%/2.00%、1.83%、および4.62%の利益を1行のCROHME 2014/2016/2019、複数行のM2E、複雑なMNEデータセットにおいて、追加のレイテンシや計算コストなしで継続的に上回っている。 コードはhttps://github.com/SJTU-DeepVisionLab/PosFormerで入手できる。

Handwritten Mathematical Expression Recognition (HMER) has wide applications in human-machine interaction scenarios, such as digitized education and automated offices. Recently, sequence-based models with encoder-decoder architectures have been commonly adopted to address this task by directly predicting LaTeX sequences of expression images. However, these methods only implicitly learn the syntax rules provided by LaTeX, which may fail to describe the position and hierarchical relationship between symbols due to complex structural relations and diverse handwriting styles. To overcome this challenge, we propose a position forest transformer (PosFormer) for HMER, which jointly optimizes two tasks: expression recognition and position recognition, to explicitly enable position-aware symbol feature representation learning. Specifically, we first design a position forest that models the mathematical expression as a forest structure and parses the relative position relationships between symbols. Without requiring extra annotations, each symbol is assigned a position identifier in the forest to denote its relative spatial position. Second, we propose an implicit attention correction module to accurately capture attention for HMER in the sequence-based decoder architecture. Extensive experiments validate the superiority of PosFormer, which consistently outperforms the state-of-the-art methods 2.03%/1.22%/2.00%, 1.83%, and 4.62% gains on the single-line CROHME 2014/2016/2019, multi-line M2E, and complex MNE datasets, respectively, with no additional latency or computational cost. Code is available at https://github.com/SJTU-DeepVisionLab/PosFormer.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# Ramsey理論と'Private Learning Implies Online Learning'理論

Ramsey Theorems for Trees and a General 'Private Learning Implies Online Learning' Theorem ( http://arxiv.org/abs/2407.07765v1 )

ライセンス: Link先を確認
Simone Fioravanti, Steve Hanneke, Shay Moran, Hilla Schefler, Iska Tsubari, (参考訳) この研究は、差分プライベート(DP)とオンライン学習との関係について研究を続けている。 Alon, Livni, Malliaris, and Moran (2019) は、二進概念クラスでは、与えられたクラスのDP可学習性は、有限のリトルストーン次元を持つことを意味することを示した。 それらの証明は Hodges (1997) によるモデル理論の結果に依存しており、これは大きなリトルストーン次元を持つ任意の二項概念クラスが大きな閾値のサブクラスを含むことを証明している。 Jung, Kim, and Tewari (2020) はこの証明を、有界なラベルを持つ多クラスPAC学習に拡張した。 残念なことに、Hodgesの結果は、有界ラベル空間を持つマルチクラスPAC学習や部分概念クラスのPAC学習など、他の自然環境には適用されない。 事実、Alon, Hanneke, Holzman, and Moran (2021) は、それを部分的な概念クラスの文脈におけるオープンな質問として明示的に残しており、同じ質問が一般的なマルチクラス設定で開かれている。 本稿では,これらの質問に対する肯定的な回答として,一般分類タスクにおいて,DP学習性はオンライン学習性を意味することを示す。 私たちの証明は、閾値に頼らずに、リトルストーンの木について直接的に理由を定めています。 我々は、木に対していくつかのラムゼー型定理を確立することでこれを達成し、これは独立した関心を持つかもしれない。

This work continues to investigate the link between differentially private (DP) and online learning. Alon, Livni, Malliaris, and Moran (2019) showed that for binary concept classes, DP learnability of a given class implies that it has a finite Littlestone dimension (equivalently, that it is online learnable). Their proof relies on a model-theoretic result by Hodges (1997), which demonstrates that any binary concept class with a large Littlestone dimension contains a large subclass of thresholds. In a follow-up work, Jung, Kim, and Tewari (2020) extended this proof to multiclass PAC learning with a bounded number of labels. Unfortunately, Hodges's result does not apply in other natural settings such as multiclass PAC learning with an unbounded label space, and PAC learning of partial concept classes. This naturally raises the question of whether DP learnability continues to imply online learnability in more general scenarios: indeed, Alon, Hanneke, Holzman, and Moran (2021) explicitly leave it as an open question in the context of partial concept classes, and the same question is open in the general multiclass setting. In this work, we give a positive answer to these questions showing that for general classification tasks, DP learnability implies online learnability. Our proof reasons directly about Littlestone trees, without relying on thresholds. We achieve this by establishing several Ramsey-type theorems for trees, which might be of independent interest.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# バングラデシュにおけるオンライン決済・銀行システムアプリに関する研究

An investigation of the Online Payment and Banking System Apps in Bangladesh ( http://arxiv.org/abs/2407.07766v1 )

ライセンス: Link先を確認
Shahriar Hasan Mickey, Muhammad Nur Yanhaona, (参考訳) 現在バングラデシュは、オンライン決済と銀行システムの進歩を促進するモバイルアプリケーションを通じて、この目標を達成することに重点を置いている。 これらのシステムのセキュリティレベルに関する知識が不足しているにも関わらず、現在、あまり考慮せずに頻繁に使用されている。 最小限のグローバルセット標準に従うかどうかを確認するため、利用可能なオープンソースアナライザとオープンソースツールを使用して、アプリケーションの静的および動的解析を行うことを選択します。 これにより、可能な限り機密情報を抽出し、OWASP.NETが設定したMASVSの標準に準拠しているかどうかを判断することが可能になる。 17をどう分析したかを示します。 例えば、データストレージに関連する脆弱性、脆弱性のある暗号要素、セキュアでないネットワーク通信、スキャナによって検出されたWebViewの安全でない利用などである。 これらのアウトプットは、ソースコードのレビューと動的解析を通じて、アプリケーションの広範な手動解析の必要性を示しています。 さらに、出力を検証するためにリバースエンジニアリングと動的アプローチを実装し、いくつかのアプリケーションがネットワーク通信の標準手法に従わないことを明らかにした。 さらに、現在進行中の調査の次の段階において、潜在的な脆弱性の残りを検証することを試みる。

Presently, Bangladesh is expending substantial efforts to digitize its national infrastructure, with a significant emphasis on achieving this goal through mobile applications that facilitate online payments and banking system advancements. Despite the lack of knowledge about the security level of these systems, they are currently in frequent use without much consideration. To observe whether they follow the minimum global set standards, we choose to conduct static and dynamic analysis of the applications using available open-source analyzers and open-source tools. This allows us to attempt to extract sensitive information, if possible, and determine whether the applications adhere to the standards of MASVS set by OWASP. We show how we analyzed 17 .apks and a SDK using open source scanner and discover security flaws to the applications, such as weaknesses related to data storage, vulnerable cryptographic elements, insecure network communications, and unsafe utilization of WebViews, detected by the scanner. These outputs demonstrate the need for extensive manual analysis of the application through source code review and dynamic analysis. We further implement reverse engineering and dynamic approach to verify the outputs and expose some applications do not comply with the standard method of network communication. Moreover, we attempt to verify the rest of the potential vulnerabilities in the next phase of our ongoing investigation.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# ソーシャルメディアコンテンツ生成のためのマルチタスクプロンプト語学習

Multi-task Prompt Words Learning for Social Media Content Generation ( http://arxiv.org/abs/2407.07771v1 )

ライセンス: Link先を確認
Haochen Xue, Chong Zhang, Chengzhi Liu, Fangyu Wu, Xiaobo Jin, (参考訳) インターネットの急速な発展は、人間の生活を大きく変えた。 人間はますます自分自身を表現し、ソーシャルメディアプラットフォーム上で他の人と交流している。 しかし、人工知能技術は人生の多くの面で広く使われてきたが、ソーシャルメディアコンテンツ制作におけるその応用はいまだに空白である。 そこで本研究では,話題分類,感情分析,シーン認識,キーワード抽出といった複数のタスクを組み合わせ,より包括的なプロンプト語を生成する,マルチモーダル情報融合に基づく新しいプロンプト語生成フレームワークを提案する。 その後、一連のプロンプト単語を含むテンプレートを用いてChatGPTを誘導し、高品質なツイートを生成する。 さらに、コンテンツ生成分野における有効かつ客観的な評価基準がない場合には、ChatGPTツールを使用して、アルゴリズムが生成した結果を評価し、コンテンツ生成アルゴリズムの大規模評価を可能にする。 広範なコンテンツ生成の評価結果から,手作業や他のクェーイング手法と比較してクェー語生成フレームワークが高品質なコンテンツを生成するのに対し,トピック分類,感情分析,シーン認識は内容の明瞭度と画像との整合性を著しく向上させることが示された。

The rapid development of the Internet has profoundly changed human life. Humans are increasingly expressing themselves and interacting with others on social media platforms. However, although artificial intelligence technology has been widely used in many aspects of life, its application in social media content creation is still blank. To solve this problem, we propose a new prompt word generation framework based on multi-modal information fusion, which combines multiple tasks including topic classification, sentiment analysis, scene recognition and keyword extraction to generate more comprehensive prompt words. Subsequently, we use a template containing a set of prompt words to guide ChatGPT to generate high-quality tweets. Furthermore, in the absence of effective and objective evaluation criteria in the field of content generation, we use the ChatGPT tool to evaluate the results generated by the algorithm, making large-scale evaluation of content generation algorithms possible. Evaluation results on extensive content generation demonstrate that our cue word generation framework generates higher quality content compared to manual methods and other cueing techniques, while topic classification, sentiment analysis, and scene recognition significantly enhance content clarity and its consistency with the image.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# Mobility VLA: 長期VLMとトポロジグラフを用いたマルチモーダルインストラクションナビゲーション

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs ( http://arxiv.org/abs/2407.07775v1 )

ライセンス: Link先を確認
Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang, Tsang-Wei Edward Lee, Wenhao Yu, Connor Schenck, David Rendleman, Dhruv Shah, Fei Xia, Jasmine Hsu, Jonathan Hoech, Pete Florence, Sean Kirmani, Sumeet Singh, Vikas Sindhwani, Carolina Parada, Chelsea Finn, Peng Xu, Sergey Levine, Jie Tan, (参考訳) ナビゲーション研究の究極的な目標は、自然言語や画像を含むマルチモーダル命令を理解し、有用なナビゲーションを実行するインテリジェントエージェントを構築することである。 そこで本研究では,MINT (Multimodal Instruction Navigation with Demo Tours) と呼ばれる,従来記録されていたデモビデオを通じて,事前の環境を提供するナビゲーションタスクのカテゴリについて検討する。 視覚言語モデル(VLM)の最近の進歩は、マルチモーダル入力の知覚と推論能力を示すものとして、この目標を達成する上で有望な道筋を示している。 しかしながら、VLMは典型的にはテキスト出力を予測するために訓練されており、ナビゲーションに最適な方法に関するオープンな研究課題である。 MINT を解決するために,環境理解と長文 VLM の共通感覚推論能力とトポロジグラフに基づくロバストな低レベルナビゲーションポリシを組み合わせた階層型視覚言語行動(VLA)ナビゲーションポリシーであるモビリティ VLA を提案する。 高レベルポリシーは、デモツアービデオとマルチモーダルユーザーインストラクションを入力として、ツアービデオのゴールフレームを見つけるための長文VLMで構成されている。 次に、低レベルのポリシーでは、ゴールフレームとオフラインで構築されたトポロジグラフを使用して、各ステップでロボットアクションを生成する。 我々は,836m^2実環境におけるモビリティVLAの評価を行い,プラスチック製の容器を持ちながら,それまで未解決であったマルチモーダル命令に対して,モビリティVLAは高いエンドツーエンドの成功率を示す。

An elusive goal in navigation research is to build an intelligent agent that can understand multimodal instructions including natural language and image, and perform useful navigation. To achieve this, we study a widely useful category of navigation tasks we call Multimodal Instruction Navigation with demonstration Tours (MINT), in which the environment prior is provided through a previously recorded demonstration video. Recent advances in Vision Language Models (VLMs) have shown a promising path in achieving this goal as it demonstrates capabilities in perceiving and reasoning about multimodal inputs. However, VLMs are typically trained to predict textual output and it is an open research question about how to best utilize them in navigation. To solve MINT, we present Mobility VLA, a hierarchical Vision-Language-Action (VLA) navigation policy that combines the environment understanding and common sense reasoning power of long-context VLMs and a robust low-level navigation policy based on topological graphs. The high-level policy consists of a long-context VLM that takes the demonstration tour video and the multimodal user instruction as input to find the goal frame in the tour video. Next, a low-level policy uses the goal frame and an offline constructed topological graph to generate robot actions at every timestep. We evaluated Mobility VLA in a 836m^2 real world environment and show that Mobility VLA has a high end-to-end success rates on previously unsolved multimodal instructions such as "Where should I return this?" while holding a plastic bin.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# WorldAPIs: 世界は、何つのAPIを持つべきか?

WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment ( http://arxiv.org/abs/2407.07778v1 )

ライセンス: Link先を確認
Jiefu Ou, Arda Uzunoglu, Benjamin Van Durme, Daniel Khashabi, (参考訳) AIシステムは、API呼び出しを介してアクセスされる原始的なアクションや余裕を通じて、物理的環境における決定を行う。 AIエージェントを現実世界にデプロイするには、多数のハイレベルなアクションが伴うが、既存のエボディードシミュレータは、限られたドメイン・サリアントなAPIを提供する。 万能なエンボディエージェントに必要なプリミティブアクション(API)の数と、それらがどのようなものになるべきか、という疑問が自然に浮かび上がっています。 wikiHowチュートリアルがさまざまなヒューマン記述タスクをカバーしていると仮定すると、これらの命令をカバーするのに必要なAPIの空間は何だろうか? 我々は,wikiHow 命令をエージェントの配置ポリシーに基礎付けることで,新たな API を反復的に誘導するフレームワークを提案する。 大規模言語モデル(LLM)の具体化計画における近年の成功に触発されて,エージェントポリシとしてPythonプログラムを生成するために GPT-4 を操り,APIの宇宙をブートストラップすることを提案する。 1)APIのシードセットを再利用し、次に 2) 必要に応じて新しいAPIコールを作成する。 この思考実験の焦点は、実行可能性ではなく、これらのAPIを定義することである。 提案したパイプラインをwikiHowチュートリアルの命令に適用する。 チュートリアルのごく一部(0.5%)では、物理世界の多種多様なタスクを捉えるのに必要な300以上のAPIのアクションスペースを誘導します。 帰納出力の詳細な自動的および人為的分析により、提案したパイプラインがAPIの効果的な再利用と作成を可能にしていることが明らかになった。 さらに、手作業によるレビューでは、既存のシミュレータがインジェクションされたAPIの小さなサブセット(トップ50の頻繁なAPIの9つ)しかサポートしていないことが判明し、アクションリッチな実施環境の開発を動機付けている。

AI systems make decisions in physical environments through primitive actions or affordances that are accessed via API calls. While deploying AI agents in the real world involves numerous high-level actions, existing embodied simulators offer a limited set of domain-salient APIs. This naturally brings up the questions: how many primitive actions (APIs) are needed for a versatile embodied agent, and what should they look like? We explore this via a thought experiment: assuming that wikiHow tutorials cover a wide variety of human-written tasks, what is the space of APIs needed to cover these instructions? We propose a framework to iteratively induce new APIs by grounding wikiHow instruction to situated agent policies. Inspired by recent successes in large language models (LLMs) for embodied planning, we propose a few-shot prompting to steer GPT-4 to generate Pythonic programs as agent policies and bootstrap a universe of APIs by 1) reusing a seed set of APIs; and then 2) fabricate new API calls when necessary. The focus of this thought experiment is on defining these APIs rather than their executability. We apply the proposed pipeline on instructions from wikiHow tutorials. On a small fraction (0.5%) of tutorials, we induce an action space of 300+ APIs necessary for capturing the rich variety of tasks in the physical world. A detailed automatic and human analysis of the induction output reveals that the proposed pipeline enables effective reuse and creation of APIs. Moreover, a manual review revealed that existing simulators support only a small subset of the induced APIs (9 of the top 50 frequent APIs), motivating the development of action-rich embodied environments.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# 多言語信頼度アライメントによるクロスドメインオブジェクト検出

Cross Domain Object Detection via Multi-Granularity Confidence Alignment based Mean Teacher ( http://arxiv.org/abs/2407.07780v1 )

ライセンス: Link先を確認
Jiangming Chen, Li Liu, Wanxia Deng, Zhen Liu, Yu Liu, Yingmei Wei, Yongxiang Liu, (参考訳) クロスドメインオブジェクト検出は、注釈付きソースドメインから知識を転送することで、ラベルなしターゲットドメインのオブジェクト検出器を学習する。 しかし, 相互学習のボトルネックである擬似ラベリングについては, さらに検討が続けられている。 本研究では,カテゴリレベルの過信,インスタンスレベルのタスクの信頼性の不整合,イメージレベルの信頼の誤認など,予測の信頼性の誤調整が,トレーニングプロセスにおけるノイズの多い擬似ラベルの注入につながり,対象領域に準最適性能をもたらすことを見出した。 この問題を解決するために,クロスドメインオブジェクト検出のためのMGCAMT(Multi-Granularity Confidence Alignment Mean Teacher)と呼ばれる新しいフレームワークを提案する。 具体的には,カテゴリレベルでの信頼度を精度に合わせるために,EDL(Evidential Deep Learning)に基づくカテゴリ不確実性をモデル化するための分類信頼度調整(CCA)を提案し,不確実性を考慮した選択戦略によってカテゴリ不正確なラベルをフィルタリングする。 さらに、分類とローカライゼーションのインスタンスレベルのミスアライメントを軽減するため、タスク信頼度アライメント(TCA)を設計し、2つのタスクブランチ間の相互作用を強化し、各分類特徴が回帰の最適な特徴を適応的に特定できるようにする。 最後に,イメージ重視信頼アライメント (FCA) を擬似ラベル学習の別の方法,すなわち平均教師ネットワークからのオリジナル出力を用いてラベル代入なしで教師付き学習を行い,対象画像の全体的情報に集中する。 これら3つの手続きは、協調学習の観点から互いに恩恵を受ける。

Cross domain object detection learns an object detector for an unlabeled target domain by transferring knowledge from an annotated source domain. Promising results have been achieved via Mean Teacher, however, pseudo labeling which is the bottleneck of mutual learning remains to be further explored. In this study, we find that confidence misalignment of the predictions, including category-level overconfidence, instance-level task confidence inconsistency, and image-level confidence misfocusing, leading to the injection of noisy pseudo label in the training process, will bring suboptimal performance on the target domain. To tackle this issue, we present a novel general framework termed Multi-Granularity Confidence Alignment Mean Teacher (MGCAMT) for cross domain object detection, which alleviates confidence misalignment across category-, instance-, and image-levels simultaneously to obtain high quality pseudo supervision for better teacher-student learning. Specifically, to align confidence with accuracy at category level, we propose Classification Confidence Alignment (CCA) to model category uncertainty based on Evidential Deep Learning (EDL) and filter out the category incorrect labels via an uncertainty-aware selection strategy. Furthermore, to mitigate the instance-level misalignment between classification and localization, we design Task Confidence Alignment (TCA) to enhance the interaction between the two task branches and allow each classification feature to adaptively locate the optimal feature for the regression. Finally, we develop imagery Focusing Confidence Alignment (FCA) adopting another way of pseudo label learning, i.e., we use the original outputs from the Mean Teacher network for supervised learning without label assignment to concentrate on holistic information in the target image. These three procedures benefit from each other from a cooperative learning perspective.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# ベイズ逆問題における勾配自由推論のための逐次カルマンモンテカルロ

Sequential Kalman Monte Carlo for gradient-free inference in Bayesian inverse problems ( http://arxiv.org/abs/2407.07781v1 )

ライセンス: Link先を確認
Richard D. P. Grumitt, Minas Karamanis, Uroš Seljak, (参考訳) Ensemble Kalman Inversion (EKI) は、高価なフォワードモデルを用いた逆問題の効率的な解法として提案されている。 しかし,本手法は,前方から後方への移動におけるガウス測度列の進行と,前方モデルが線型であるという仮定に基づいている。 本研究では,シークエンシャル・カルマン・カルマン・カルマン・カルマン・カルマン・インバージョン(FAKI)を,シークエンシャル・カルマン・カルマン・カルマン・カルマン・インバージョン(SKMC)・カルマン・インバージョン(FAKI)を用いて,ベイズ的逆問題における効率的な勾配のない推論を行う。 FAKIは正規化フロー(NF)を用いて、EKIのターゲット対策のガウスアンザッツを緩和する。 NFはガウス潜在空間と原データ空間の間の可逆写像を学習することができ、ガウス化されたNF潜在空間でEKI更新を実行することができる。 しかし、FAKIだけでは、EKIのモデル線形性仮定を正すことはできない。 したがって, 粒子分布の誤差は, 不正確な後モーメント推定を与えるために複雑になる。 本研究では, 適応SMCアニール方式で各ターゲットの粒子分布を初期化するために, EKI と FAKI を用い, t-プレコンディショニングした Crank-Nicolson (tpCN) 更新を行い, ターゲットに応じて粒子を分散させる。 これらのSKMCサンプリング器の性能を3つの挑戦的な数値ベンチマークで示し、各温度レベルで重み付けされた再サンプリングが重要となる標準SMCと比較して、収束率を著しく改善したことを示す。 SKMCのサンプル実装コードはhttps://github.com/RichardGrumitt/KalmanMCで公開されている。

Ensemble Kalman Inversion (EKI) has been proposed as an efficient method for solving inverse problems with expensive forward models. However, the method is based on the assumption that we proceed through a sequence of Gaussian measures in moving from the prior to the posterior, and that the forward model is linear. In this work, we introduce Sequential Kalman Monte Carlo (SKMC) samplers, where we exploit EKI and Flow Annealed Kalman Inversion (FAKI) within a Sequential Monte Carlo (SMC) sampling scheme to perform efficient gradient-free inference in Bayesian inverse problems. FAKI employs normalizing flows (NF) to relax the Gaussian ansatz of the target measures in EKI. NFs are able to learn invertible maps between a Gaussian latent space and the original data space, allowing us to perform EKI updates in the Gaussianized NF latent space. However, FAKI alone is not able to correct for the model linearity assumptions in EKI. Errors in the particle distribution as we move through the sequence of target measures can therefore compound to give incorrect posterior moment estimates. In this work we consider the use of EKI and FAKI to initialize the particle distribution for each target in an adaptive SMC annealing scheme, before performing t-preconditioned Crank-Nicolson (tpCN) updates to distribute particles according to the target. We demonstrate the performance of these SKMC samplers on three challenging numerical benchmarks, showing significant improvements in the rate of convergence compared to standard SMC with importance weighted resampling at each temperature level. Code implementing the SKMC samplers is available at https://github.com/RichardGrumitt/KalmanMC.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# AIレッドチームにおけるヒューマンファクタ - ソーシャルコンピューティングとコラボレーティブコンピューティングの視点から

The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing ( http://arxiv.org/abs/2407.07786v1 )

ライセンス: Link先を確認
Alice Qian Zhang, Ryland Shaw, Jacy Reese Anthis, Ashlee Milton, Emily Tseng, Jina Suh, Lama Ahmad, Ram Shankar Siva Kumar, Julian Posada, Benjamin Shestakofsky, Sarah T. Roberts, Mary L. Gray, (参考訳) 汎用AIの急速な進歩は、軍事およびサイバーセキュリティアプリケーションから派生した敵対的テストの実践である"レッドチーム"に大きな関心を呼んだ。 AI Red Teamingは、レッドチームの選択方法、テストの実施方法におけるバイアスや盲点、有害なコンテンツによる心理的影響など、ヒューマンファクタに関する多くの疑問を提起する。 HCIとCSCWの文献は、データラベリング、コンテンツモデレーション、アルゴリズム監査を含む関連するプラクティスを調査している。 しかし、レッドチーム自体を調査した人はほとんどいない。 このワークショップは、この実践にまつわる概念的および経験的課題を考察し、しばしば非開示協定によって不透明にされる。 将来の研究は、公正からメンタルヘルス、その他の潜在的な害のある分野まで幅広いトピックを探求することができる。 我々は、創造性、革新、思慮深い振り返りでこれらの課題に取り組み始めることができる研究者や実践者のコミュニティを促進することを目的としています。

Rapid progress in general-purpose AI has sparked significant interest in "red teaming," a practice of adversarial testing originating in military and cybersecurity applications. AI red teaming raises many questions about the human factor, such as how red teamers are selected, biases and blindspots in how tests are conducted, and harmful content's psychological effects on red teamers. A growing body of HCI and CSCW literature examines related practices-including data labeling, content moderation, and algorithmic auditing. However, few, if any, have investigated red teaming itself. This workshop seeks to consider the conceptual and empirical challenges associated with this practice, often rendered opaque by non-disclosure agreements. Future studies may explore topics ranging from fairness to mental health and other areas of potential harm. We aim to facilitate a community of researchers and practitioners who can begin to meet these challenges with creativity, innovation, and thoughtful reflection.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# 粗粒度強化学習による連続制御

Continuous Control with Coarse-to-fine Reinforcement Learning ( http://arxiv.org/abs/2407.07787v1 )

ライセンス: Link先を確認
Younggyo Seo, Jafar Uruç, Stephen James, (参考訳) 近年、強化学習(RL)アルゴリズムのサンプル効率の改善が進んでいるが、実環境に実際に展開可能なRLアルゴリズムを設計することは依然として課題である。 本稿では,RLエージェントの連続的な動作空間へのズームインを粗大な方法で訓練するフレームワークであるCRLについて述べる。 私たちのキーとなるアイデアは、手順を繰り返すことでアクションを出力するエージェントを訓練することです。 一 連続的な作用空間を複数の間隔に区分すること (ii)次のレベルでさらに離散化するために、最高Q値の区間を選択する。 次に、CRLフレームワークに、Coarse-to-fine Q-Network (CQN)と呼ばれる具体的な値ベースのアルゴリズムを導入する。 実験の結果,CQN は環境相互作用や専門家による実演を多用した 20 個の疎逆 RLBench 操作タスクにおいて,RL と行動クローンベースラインを著しく上回っていることがわかった。 また、CQNはオンライントレーニングの数分後に現実世界の操作タスクをしっかりと学習していることも示している。

Despite recent advances in improving the sample-efficiency of reinforcement learning (RL) algorithms, designing an RL algorithm that can be practically deployed in real-world environments remains a challenge. In this paper, we present Coarse-to-fine Reinforcement Learning (CRL), a framework that trains RL agents to zoom-into a continuous action space in a coarse-to-fine manner, enabling the use of stable, sample-efficient value-based RL algorithms for fine-grained continuous control tasks. Our key idea is to train agents that output actions by iterating the procedure of (i) discretizing the continuous action space into multiple intervals and (ii) selecting the interval with the highest Q-value to further discretize at the next level. We then introduce a concrete, value-based algorithm within the CRL framework called Coarse-to-fine Q-Network (CQN). Our experiments demonstrate that CQN significantly outperforms RL and behavior cloning baselines on 20 sparsely-rewarded RLBench manipulation tasks with a modest number of environment interactions and expert demonstrations. We also show that CQN robustly learns to solve real-world manipulation tasks within a few minutes of online training.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# BiGym: デモ駆動のモバイル双方向操作ベンチマーク

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark ( http://arxiv.org/abs/2407.07788v1 )

ライセンス: Link先を確認
Nikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James, (参考訳) モバイル双方向のデモ駆動ロボット操作のための新しいベンチマークと学習環境であるBiGymを紹介した。 BiGymには、シンプルなターゲットから複雑なキッチンクリーニングまで、40の多様なタスクがホーム環境に設定されている。 実世界のロボット軌道に現れる多彩なモダリティを反映し,実世界のパフォーマンスを正確に把握する。 BiGymは、プロプリセプティブデータやRGBなどの視覚入力、カメラビューからの深さなど、さまざまな観察をサポートする。 BiGymのユーザビリティを検証するため、環境内における最先端の模倣学習アルゴリズムとデモ駆動強化学習アルゴリズムを徹底的にベンチマークし、今後の可能性について議論する。

We introduce BiGym, a new benchmark and learning environment for mobile bi-manual demo-driven robotic manipulation. BiGym features 40 diverse tasks set in home environments, ranging from simple target reaching to complex kitchen cleaning. To capture the real-world performance accurately, we provide human-collected demonstrations for each task, reflecting the diverse modalities found in real-world robot trajectories. BiGym supports a variety of observations, including proprioceptive data and visual inputs such as RGB, and depth from 3 camera views. To validate the usability of BiGym, we thoroughly benchmark the state-of-the-art imitation learning algorithms and demo-driven reinforcement learning algorithms within the environment and discuss the future opportunities.
翻訳日:2024-07-11 16:02:46 公開日:2024-07-10
# シーリングのライジング:動的ビュースイッチングによる競合のないローカル特徴マッチング

Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching ( http://arxiv.org/abs/2407.07789v1 )

ライセンス: Link先を確認
Xiaoyong Lu, Songlin Du, (参考訳) 現代の特徴マッチング手法では、最適化能力の向上を優先し、結果の理論的上限である接地真実マッチング(英語版)と出力の整合性を改善する。 しかし、これらの拡張は、小規模な画像におけるマッチング可能な点の不足、密集した方法での競合の一致、スパース法におけるキーポイント・リピータビリティの信頼など、地道整合を直接妨げる根本的な問題に対処することができない。 本稿では3つの側面からマッチングのシーリングを向上するRCMという特徴マッチング手法を提案する。 1) RCMは, 画像対を戦略的に切り替えることで, 画像中の一致点の不足に対処する動的ビュー切替機構を導入している。 2) RCM は競合のない粗いマッチングモジュールを提案し,複数対1のマッチング戦略によって対象画像の競合に対処する。 3)半スパースパラダイムと粗大なアーキテクチャを統合することにより,RCMは高効率とグローバル検索の両方の利点を保ち,キーポイントの再現性への依存を緩和する。 その結果、RCMにより、ターゲット画像において、ソース画像のより整合性のある点が、徹底的かつ矛盾のない方法で一致し、グラウンドトルースマッチが260%増加する。 総合的な実験により、RCMは最先端の手法と比較して顕著な性能と効率を示した。

Current feature matching methods prioritize improving modeling capabilities to better align outputs with ground-truth matches, which are the theoretical upper bound on matching results, metaphorically depicted as the "ceiling". However, these enhancements fail to address the underlying issues that directly hinder ground-truth matches, including the scarcity of matchable points in small scale images, matching conflicts in dense methods, and the keypoint-repeatability reliance in sparse methods. We propose a novel feature matching method named RCM, which Raises the Ceiling of Matching from three aspects. 1) RCM introduces a dynamic view switching mechanism to address the scarcity of matchable points in source images by strategically switching image pairs. 2) RCM proposes a conflict-free coarse matching module, addressing matching conflicts in the target image through a many-to-one matching strategy. 3) By integrating the semi-sparse paradigm and the coarse-to-fine architecture, RCM preserves the benefits of both high efficiency and global search, mitigating the reliance on keypoint repeatability. As a result, RCM enables more matchable points in the source image to be matched in an exhaustive and conflict-free manner in the target image, leading to a substantial 260% increase in ground-truth matches. Comprehensive experiments show that RCM exhibits remarkable performance and efficiency in comparison to state-of-the-art methods.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# LLMに基づくマルチエージェントコミュニティにおける操作知識の洪水拡散

Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities ( http://arxiv.org/abs/2407.07791v1 )

ライセンス: Link先を確認
Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu, (参考訳) マルチエージェントシステムにおける大規模言語モデル(LLM)の急速な採用は、協調問題解決や自律交渉など、様々なアプリケーションにおけるその印象的な機能を強調している。 しかし、これらのLLMベースのマルチエージェントシステムのセキュリティへの影響は、特に操作された知識の普及に関して、十分に研究されていない。 本稿では,信頼されたプラットフォームにおける実世界のマルチエージェント展開を反映した,詳細な脅威モデルと包括的なシミュレーション環境を構築することで,この問題を考察する。 そこで本研究では,暗黙的な操作を行うことなく,操作された知識(事実や有害な知識)が拡散する可能性を体系的に探索する,説得力注入と操作的知識注入を含む新たな2段階攻撃手法を提案する。 本手法は,無意識で偽造情報を拡散するために,攻撃者が悪用できる世界知識を扱う上で,LLMの本質的な脆弱性を利用する。 広範囲にわたる実験により, エージェントコミュニケーションにおける基礎的能力の低下を伴わずに, LLMをベースとしたエージェントを誘導し, 有害な知識を拡散させることが実証された。 さらに、これらの操作は、いくつかの良性エージェントが将来的なインタラクションのために操作されたチャット履歴を格納し、検索する一般的な検索拡張生成フレームワークを通じて継続可能であることを示す。 この永続性は、相互作用が終わった後も、良性エージェントは操作された知識の影響を受け続けることを示している。 LLMベースのマルチエージェントシステムにおいて,「ガード」エージェントや高度なファクトチェックツールの導入など,操作された知識の拡散に対する堅牢な防御の必要性を強調し,セキュリティ上の重大なリスクを明らかにした。

The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. However, the security implications of these LLM-based multi-agent systems have not been thoroughly investigated, particularly concerning the spread of manipulated knowledge. In this paper, we investigate this critical issue by constructing a detailed threat model and a comprehensive simulation environment that mirrors real-world multi-agent deployments in a trusted platform. Subsequently, we propose a novel two-stage attack method involving Persuasiveness Injection and Manipulated Knowledge Injection to systematically explore the potential for manipulated knowledge (i.e., counterfactual and toxic knowledge) spread without explicit prompt manipulation. Our method leverages the inherent vulnerabilities of LLMs in handling world knowledge, which can be exploited by attackers to unconsciously spread fabricated information. Through extensive experiments, we demonstrate that our attack method can successfully induce LLM-based agents to spread both counterfactual and toxic knowledge without degrading their foundational capabilities during agent communication. Furthermore, we show that these manipulations can persist through popular retrieval-augmented generation frameworks, where several benign agents store and retrieve manipulated chat histories for future interactions. This persistence indicates that even after the interaction has ended, the benign agents may continue to be influenced by manipulated knowledge. Our findings reveal significant security risks in LLM-based multi-agent systems, emphasizing the imperative need for robust defenses against manipulated knowledge spread, such as introducing ``guardian'' agents and advanced fact-checking tools.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 逆問題に対する適応的獲得政策の強化学習

Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems ( http://arxiv.org/abs/2407.07794v1 )

ライセンス: Link先を確認
Gianluigi Silvestri, Fabio Valerio Massoli, Tribhuvanesh Orekondy, Afshin Abdi, Arash Behboodi, (参考訳) 高次元信号を得るためのコストのかかるプロセスを緩和するための有望な方法は、限られた低次元の測定値を取得し、信号の構造的事前を利用して、過度に決定された逆問題を解決することである。 本稿では, 適応的な取得方式に着目し, 測定回数の削減に留意する。 そこで本研究では,測定を逐次収集する強化学習に基づく手法を提案する。 提案手法は, 連続行動空間における一般逆問題に適用し, 回復アルゴリズムを共同学習する。 また,理論解析から得られた知見を用いて,変分定式化を用いた手法の確率的設計を提案する。 我々は、複数のデータセットと2つの測定空間(ガウス、ラドン)でアプローチを評価した。 その結果,低取得地平線設定における適応戦略の利点が確認できた。

A promising way to mitigate the expensive process of obtaining a high-dimensional signal is to acquire a limited number of low-dimensional measurements and solve an under-determined inverse problem by utilizing the structural prior about the signal. In this paper, we focus on adaptive acquisition schemes to save further the number of measurements. To this end, we propose a reinforcement learning-based approach that sequentially collects measurements to better recover the underlying signal by acquiring fewer measurements. Our approach applies to general inverse problems with continuous action spaces and jointly learns the recovery algorithm. Using insights obtained from theoretical analysis, we also provide a probabilistic design for our methods using variational formulation. We evaluate our approach on multiple datasets and with two measurement spaces (Gaussian, Radon). Our results confirm the benefits of adaptive strategies in low-acquisition horizon settings.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# グリッドベースのゲームコンペティションによる大規模言語モデルの評価 - 拡張可能なLLMベンチマークとリーダボード

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard ( http://arxiv.org/abs/2407.07796v1 )

ライセンス: Link先を確認
Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper, (参考訳) 我々は,Tic-Tac-Toe,Connect-Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たな拡張可能なベンチマークを導入する。 GitHubで公開されているオープンソースのゲームシミュレーションコードにより、LLMは、リーダボードランキングとさらなる分析のために、JSON、CSV、TXT、PNGフォーマットで詳細なデータファイルと競合し、生成することができる。 本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet ,Google の Gemini 1.5 Pro と Gemini 1.5 Flash ,OpenAI の GPT-4 Turbo と GPT-4o ,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。 また、他のLSMからの結果の提出を奨励します。 本研究は,3種類のゲームに対して,リスト,イラスト,イメージの3つの異なるプロンプト型を用いて,2,310試合(それぞれ7 LLMとランダムプレイヤーの5セッション)をシミュレーションした。 その結果,異なるゲームやプロンプトタイプ間でのLLM性能の有意な変動が明らかとなり,勝敗率や失格率,機会分析の欠如,無効な移動解析が報告された。 リーダボードと結果マトリックスの詳細は、GitHubでオープンアクセスデータとして公開されている。 本研究は,特定の訓練を受けていないゲームにおけるLLMの能力の理解を深め,ルール理解と戦略的思考の評価に役立てるものである。 AGI(Artificial General Intelligence)への道のりとして、この研究は、複雑な意思決定シナリオにおける将来的な実用性を探究し、戦略的な思考能力を照らし、ゲームベースのフレームワークにおけるLSMの限界についてさらなる調査を行うための指針を提供するための基礎となる。

We introduce a novel and extensible benchmark for large language models (LLMs) through grid-based games such as Tic-Tac-Toe, Connect-Four, and Gomoku. The open-source game simulation code, available on GitHub, allows LLMs to compete and generates detailed data files in JSON, CSV, TXT, and PNG formats for leaderboard rankings and further analysis. We present the results of games among leading LLMs, including Claude 3.5 Sonnet and Claude 3 Sonnet by Anthropic, Gemini 1.5 Pro and Gemini 1.5 Flash by Google, GPT-4 Turbo and GPT-4o by OpenAI, and Llama3-70B by Meta. We also encourage submissions of results from other LLMs. In total, we simulated 2,310 matches (5 sessions for each pair among 7 LLMs and a random player) across three types of games, using three distinct prompt types: list, illustration, and image. The results revealed significant variations in LLM performance across different games and prompt types, with analysis covering win and disqualification rates, missed opportunity analysis, and invalid move analysis. The details of the leaderboard and result matrix data are available as open-access data on GitHub. This study enhances our understanding of LLMs' capabilities in playing games they were not specifically trained for, helping to assess their rule comprehension and strategic thinking. On the path to Artificial General Intelligence (AGI), this study lays the groundwork for future exploration into their utility in complex decision-making scenarios, illuminating their strategic thinking abilities and offering directions for further inquiry into the limits of LLMs within game-based frameworks.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# Attribute or Abstain: 長期ドキュメントアシスタントとしての大規模言語モデル

Attribute or Abstain: Large Language Models as Long Document Assistants ( http://arxiv.org/abs/2407.07799v1 )

ライセンス: Link先を確認
Jan Buchmann, Xiao Liu, Iryna Gurevych, (参考訳) LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。 LLMは、その応答を支持する証拠を提供し、検証可能性を高める。 既存の属性に対するアプローチはRAG設定でのみ評価されている。 これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。 これにより、属性の長い文書特定評価が欠落する。 このギャップを埋めるために、LABは6つの多種多様文書タスクを属性付きでベンチマークし、異なる大きさの4つのLLMに対して属性の異なるアプローチを実験する。 反応生成と証拠抽出を一つのステップで行うと、ほとんどの場合、最も良い結果が得られます。 我々は,「中道のロスト」現象が帰属に有効であるかどうかを考察するが,この現象は見つからない。 また、モデルが複雑なクレームのエビデンスの提供に苦労しているため、単純な応答を持つデータセットで応答品質を予測できるが、複雑なレスポンスには当てはまらないこともわかりました。 さらなる調査のために、コードとデータをリリースします。

LLMs can help humans working with long documents, but are known to hallucinate. Attribution can increase trust in LLM responses: The LLM provides evidence that supports its response, which enhances verifiability. Existing approaches to attribution have only been evaluated in RAG settings, where the initial retrieval confounds LLM performance. This is crucially different from the long document setting, where retrieval is not needed, but could help. Thus, a long document specific evaluation of attribution is missing. To fill this gap, we present LAB, a benchmark of 6 diverse long document tasks with attribution, and experiment with different approaches to attribution on 4 LLMs of different sizes, both prompted and fine-tuned. We find that citation, i.e. response generation and evidence extraction in one step, mostly performs best. We investigate whether the ``Lost in the Middle'' phenomenon exists for attribution, but do not find this. We also find that evidence quality can predict response quality on datasets with simple responses, but not so for complex responses, as models struggle with providing evidence for complex claims. We release code and data for further investigation.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# AVCap:字幕化のためのテキストトークンとしてオーディオ・ビジュアル機能を活用する

AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning ( http://arxiv.org/abs/2407.07801v1 )

ライセンス: Link先を確認
Jongsuk Kim, Jiwon Shin, Junmo Kim, (参考訳) 近年、表現学習と言語モデルの進歩により、オートマチック・キャプション(AC)は新たな高みに発展し、人間レベルの記述の生成が可能になった。 これらの進歩を生かして,音声-視覚的キャプションに適用可能な,シンプルかつ強力なベースラインアプローチである \textbf{AVCap}, \textbf{A}udio-\textbf{V}isual \textbf{Cap}tioning framework を提案する。 AVCapは音声視覚機能をテキストトークンとして利用しており、性能だけでなく、モデルの拡張性と拡張性にも多くの利点がある。 AVCapは、最適なオーディオ-視覚エンコーダアーキテクチャの探索、生成されたテキストの特性に応じた事前訓練されたモデルの適応、キャプションにおけるモダリティ融合の有効性の調査の3つの重要な側面に基づいて設計されている。 我々のメソッドは、すべてのメトリクスで既存の音声-視覚キャプションメソッドよりも優れており、コードはhttps://github.com/JongSuk1/AVCapで利用可能である。

In recent years, advancements in representation learning and language models have propelled Automated Captioning (AC) to new heights, enabling the generation of human-level descriptions. Leveraging these advancements, we propose \textbf{AVCap}, an \textbf{A}udio-\textbf{V}isual \textbf{Cap}tioning framework, a simple yet powerful baseline approach applicable to audio-visual captioning. AVCap utilizes audio-visual features as text tokens, which has many advantages not only in performance but also in the extensibility and scalability of the model. AVCap is designed around three pivotal dimensions: the exploration of optimal audio-visual encoder architectures, the adaptation of pre-trained models according to the characteristics of generated text, and the investigation into the efficacy of modality fusion in captioning. Our method outperforms existing audio-visual captioning methods across all metrics and the code is available on https://github.com/JongSuk1/AVCap
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# ROSA: 効率的なファインチューニングのためのランダム部分空間適応

ROSA: Random Subspace Adaptation for Efficient Fine-Tuning ( http://arxiv.org/abs/2407.07802v1 )

ライセンス: Link先を確認
Marawan Gamal Abdel Hameed, Aristides Milios, Siva Reddy, Guillaume Rabusseau, (参考訳) モデルトレーニングは推論よりもはるかに多くのメモリを必要とする。 パラメータ効率のよい微細チューニング(PEFT)手法は、少ないメモリでダウンストリームタスクに大規模なモデルを適用する手段を提供する。 しかしながら、アダプタやプロンプトチューニング、ローランク適応(LoRA)といった既存の手法では、推論時に遅延オーバーヘッドを発生させるか、フル微調整と比較してサブパーダウンストリームのパフォーマンスを達成する。 本研究では,従来のPEFT手法よりも高い性能を示す手法であるRandom Subspace Adaptation (ROSA)を提案する。 従来の方法とは対照的に、ROSAは任意に大きな次元の部分空間を適用でき、フルファインタニングの近似がより良くできる。 理論的および実験的に、ROSAは実行時に追加メモリを消費することなく、LoRAよりも厳密に表現できることを示した。 PEFT法は自然言語処理領域において特に有用であり,完全な微調整を行うスケールでモデルが動作するため,自然言語生成(NLG)と自然言語理解(NLU)の2つの共通シナリオにおいて,ROSAをそれぞれGPT-2とRoBERTaで評価する。 ほぼすべてのGLUEタスク ROSA が LoRA をかなり上回り、また NLG タスクでは LoRA を上回ります。 私たちのコードはhttps://github.com/rosa-paper/rosaで利用可能です。

Model training requires significantly more memory, compared with inference. Parameter efficient fine-tuning (PEFT) methods provide a means of adapting large models to downstream tasks using less memory. However, existing methods such as adapters, prompt tuning or low-rank adaptation (LoRA) either introduce latency overhead at inference time or achieve subpar downstream performance compared with full fine-tuning. In this work we propose Random Subspace Adaptation (ROSA), a method that outperforms previous PEFT methods by a significant margin, while maintaining a zero latency overhead during inference time. In contrast to previous methods, ROSA is able to adapt subspaces of arbitrarily large dimension, better approximating full-finetuning. We demonstrate both theoretically and experimentally that this makes ROSA strictly more expressive than LoRA, without consuming additional memory during runtime. As PEFT methods are especially useful in the natural language processing domain, where models operate on scales that make full fine-tuning very expensive, we evaluate ROSA in two common NLP scenarios: natural language generation (NLG) and natural language understanding (NLU) with GPT-2 and RoBERTa, respectively. We show that on almost every GLUE task ROSA outperforms LoRA by a significant margin, while also outperforming LoRA on NLG tasks. Our code is available at https://github.com/rosa-paper/rosa
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# Android静的解析におけるコールグラフの音性

Call Graph Soundness in Android Static Analysis ( http://arxiv.org/abs/2407.07804v1 )

ライセンス: Link先を確認
Jordan Samhi, René Just, Tegawendé F. Bissyandé, Michael D. Ernst, Jacques Klein, (参考訳) 静的解析は理論上は正しいが、実装がプログラムのすべてのコードを分析するのに失敗することがある。 このような省略は、ツールのアウトプットの有効性に対する深刻な脅威である。 私たちの研究は、これらの欠落の頻度を初めて測定しました。 これまで研究者やアナリストは、静的解析で何が見逃されているのか、どんなコードが見逃されているのか、そしてこれらの欠落の背景にある理由を知らなかった。 このギャップに対処するため、静的解析ツール13と、1000のAndroidアプリで動的解析を実行しました。 静的解析ではなくても、動的解析ではどんな方法であっても不健全である。 本研究の成果は以下のとおりである。 1)外部フレームワークを中心に構築されたアプリは静的アナライザに挑戦する。 平均して、13の静的解析ツールは、動的に実行されたメソッドの61%をキャプチャできなかった。 2) コールグラフ構築における高精度な精度は, 高いレベルの不協和性のシノニムである。 これには、リフレクションに対処するDroidRAのような特定のメカニズム用に特別に調整されたものが含まれる。 また、EdgeMinerのような体系的なアプローチも含み、Androidフレームワークのすべてのコールバックを体系的にキャプチャする。 (4) 音質を損なうグラフ構築を課題とするエントリーポイント手法のモデル化。

Static analysis is sound in theory, but an implementation may unsoundly fail to analyze all of a program's code. Any such omission is a serious threat to the validity of the tool's output. Our work is the first to measure the prevalence of these omissions. Previously, researchers and analysts did not know what is missed by static analysis, what sort of code is missed, or the reasons behind these omissions. To address this gap, we ran 13 static analysis tools and a dynamic analysis on 1000 Android apps. Any method in the dynamic analysis but not in a static analysis is an unsoundness. Our findings include the following. (1) Apps built around external frameworks challenge static analyzers. On average, the 13 static analysis tools failed to capture 61% of the dynamically-executed methods. (2) A high level of precision in call graph construction is a synonym for a high level of unsoundness; (3) No existing approach significantly improves static analysis soundness. This includes those specifically tailored for a given mechanism, such as DroidRA to address reflection. It also includes systematic approaches, such as EdgeMiner, capturing all callbacks in the Android framework systematically. (4) Modeling entry point methods challenges call graph construction which jeopardizes soundness.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# SUMix: セマンティック情報と不確実情報との混成

SUMix: Mixup with Semantic and Uncertain Information ( http://arxiv.org/abs/2407.07805v1 )

ライセンス: Link先を確認
Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo Gao, (参考訳) ディープニューラルネットワークの一般化能力を改善するために、様々なディープラーニングタスクにミックスアップデータ拡張アプローチが適用されている。 CutMixやSaliencyMixなど、既存のアプローチでは、あるイメージのパッチを別のイメージのパッチにランダムに置き換えて、混合イメージを生成する。 同様に、対応するラベルは、固定比$\lambda$ by lで線形に結合される。 2つの画像中のオブジェクトは混合プロセス中に重複する可能性があるため、混合サンプルで意味情報が破損する。 この場合、混合画像は混合ラベル情報と一致しない。 さらに、このようなラベルはディープラーニングモデルのトレーニングを誤解させ、結果としてパフォーマンスが低下する可能性がある。 そこで我々は,SUMixという新しい手法を提案し,混合率と混合試料の不確かさを学習した。 まず、正確な混合比を計算するために、学習可能な類似度関数を設計する。 第2に,混合試料の不確かさをモデル化するための正規化用語としてアプローチを検討する。 我々は5つの画像ベンチマーク実験を行い、その実験結果から、異なるカットベース混合手法による分類器の性能向上が可能であることが示唆された。 ソースコードはhttps://github.com/JinXins/SUMix.comで入手できる。

Mixup data augmentation approaches have been applied for various tasks of deep learning to improve the generalization ability of deep neural networks. Some existing approaches CutMix, SaliencyMix, etc. randomly replace a patch in one image with patches from another to generate the mixed image. Similarly, the corresponding labels are linearly combined by a fixed ratio $\lambda$ by l. The objects in two images may be overlapped during the mixing process, so some semantic information is corrupted in the mixed samples. In this case, the mixed image does not match the mixed label information. Besides, such a label may mislead the deep learning model training, which results in poor performance. To solve this problem, we proposed a novel approach named SUMix to learn the mixing ratio as well as the uncertainty for the mixed samples during the training process. First, we design a learnable similarity function to compute an accurate mix ratio. Second, an approach is investigated as a regularized term to model the uncertainty of the mixed samples. We conduct experiments on five image benchmarks, and extensive experimental results imply that our method is capable of improving the performance of classifiers with different cutting-based mixup approaches. The source code is available at https://github.com/JinXins/SUMix.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 大規模言語モデルにおけるトランスフォーマーアライメント

Transformer Alignment in Large Language Models ( http://arxiv.org/abs/2407.07810v1 )

ライセンス: Link先を確認
Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan, (参考訳) 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、その成功を導く内部メカニズムの正確な理解が不可欠である。 我々は,LSMを高次元の離散的,結合的,非線形,動的システムによる埋め込み変換とみなす。 この観点は、変換器ブロックを通過する個々のトークンの軌跡の追跡を動機付け、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。 公開されている38個の LLM の解析において、残余ヤコビアンの上と右の特異ベクトルのアライメント、および線形性および層ワイド指数的成長の出現を明らかにする。 注目すべきは、アライメントの増大$\textit{ positively correlates}$とモデルのパフォーマンスが相関していることである。 トレーニング後の指標は,無作為初期化重みによる測定に比べて有意に改善し,変圧器のトレーニングが有意な影響を浮き彫りにした。 これらの知見は、これまで見過ごされてきた顕著な規則性のレベルを明らかにし、動的解釈を強化し、LLMアーキテクチャのより深い理解と最適化の道を開いた。

Large Language Models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. We regard LLMs as transforming embeddings via a discrete, coupled, nonlinear, dynamical system in high dimensions. This perspective motivates tracing the trajectories of individual tokens as they pass through transformer blocks, and linearizing the system along these trajectories through their Jacobian matrices. In our analysis of 38 openly available LLMs, we uncover the alignment of top left and right singular vectors of Residual Jacobians, as well as the emergence of linearity and layer-wise exponential growth. Notably, we discover that increased alignment $\textit{positively correlates}$ with model performance. Metrics evaluated post-training show significant improvement in comparison to measurements made with randomly initialized weights, highlighting the significant effects of training in transformers. These findings reveal a remarkable level of regularity that has previously been overlooked, reinforcing the dynamical interpretation and paving the way for deeper understanding and optimization of LLM architectures.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# デジッタ空間における絡み合いエントロピーの数値計算

A Numerical Calculation of Entanglement Entropy in de Sitter Space ( http://arxiv.org/abs/2407.07811v1 )

ライセンス: Link先を確認
Konstantinos Boutivas, Dimitrios Katsinis, Georgios Pastras, Nikolaos Tetradis, (参考訳) デ・シッター空間における質量を持たないスカラー場の絡み合いエントロピーは、絡み合う表面の半径、ハッブル定数、UVカットオフなどの複数のスケールに依存する。 Bunch-Davies真空におけるこれらのスケールへの依存性を決定するために格子モデルを用いて高精度な数値計算を行う。 準水平エンタングリング半径に対する平坦空間エントロピーのド・ジッター補正を導出する。 有限サイズ効果の構造を解析し、角運動量を持つ理論のセクターの絡み合いエントロピーへの寄与が、地平線を越えて広がる全体系の大きさに対数的に依存することを示す。

The entanglement entropy of a massless scalar field in de Sitter space depends on multiple scales, such as the radius of the entangling surface, the Hubble constant and the UV cutoff. We perform a high-precision numerical calculation using a lattice model in order to determine the dependence on these scales in the Bunch-Davies vacuum. We derive the leading de Sitter corrections to the flat-space entanglement entropy for subhorizon entangling radii. We analyze the structure of the finite-size effects and we show that the contribution to the entanglement entropy of the sector of the theory with vanishing angular momentum depends logarithmically on the size of the overall system, which extends beyond the horizon.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 20年代における深部ステレオマッチングに関する調査

A Survey on Deep Stereo Matching in the Twenties ( http://arxiv.org/abs/2407.07816v1 )

ライセンス: Link先を確認
Fabio Tosi, Luca Bartolomei, Matteo Poggi, (参考訳) ステレオマッチングは半世紀に及ぶ歴史に近づきつつあるが、ディープラーニングのおかげで過去10年間に急速な進化が見られた。 2010年代後半の以前の調査では、この革命の最初の段階をカバーしていたが、最後の5年間の研究は、この分野にさらなる画期的な進展をもたらした。 本稿は,このギャップを2重に埋めることを目的としており,まず,2020年代に再定義された建築設計の先駆的発展と画期的なパラダイムに焦点をあて,最新のステレオマッチングの展開を詳細に検討し,これらの課題の包括的分類を提供し,それに対応するための最先端技術を探究する。 アーキテクチャの革新と重要な課題の両方をレビューすることで、深いステレオマッチングの全体像を提供し、さらなる調査を必要とする特定の領域を強調します。 Awesome-Deep-Stereo-Matching (https://github.com/fabiotosi92/Awesome-Deep-Stereo-Matching)リポジトリで、ディープステレオマッチングに関する論文をカタログ化する、定期的に更新されたプロジェクトページを維持しています。

Stereo matching is close to hitting a half-century of history, yet witnessed a rapid evolution in the last decade thanks to deep learning. While previous surveys in the late 2010s covered the first stage of this revolution, the last five years of research brought further ground-breaking advancements to the field. This paper aims to fill this gap in a two-fold manner: first, we offer an in-depth examination of the latest developments in deep stereo matching, focusing on the pioneering architectural designs and groundbreaking paradigms that have redefined the field in the 2020s; second, we present a thorough analysis of the critical challenges that have emerged alongside these advances, providing a comprehensive taxonomy of these issues and exploring the state-of-the-art techniques proposed to address them. By reviewing both the architectural innovations and the key challenges, we offer a holistic view of deep stereo matching and highlight the specific areas that require further investigation. To accompany this survey, we maintain a regularly updated project page that catalogs papers on deep stereo matching in our Awesome-Deep-Stereo-Matching (https://github.com/fabiotosi92/Awesome-Deep-Stereo-Matching) repository.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# Daisy:リピートタンパク質キュレーションの統合サービス

Daisy: An integrated repeat protein curation service ( http://arxiv.org/abs/2407.07817v1 )

ライセンス: Link先を確認
Manuel Bezerra-Brandao, Ronaldo Romario Tunque Cahui, Layla Hirsh, (参考訳) タンデムのタンパク質の同定、分類、キュレーションは、専門家による手作業による処理、処理能力、時間を必要とする複雑なプロセスである。 近年,このプロセスに有用なタンパク質構造予測と繰り返し分類に機械学習を適用する技術が進歩している。 しかし、リピートタンパク質の研究を補うためにデータベースやソフトウェアを必要としたサービスはない。 本発表では、ダイジー(Daisy)という、リピートタンパク質キュレーションWebサービスについて紹介する。 このサービスは、タンパク質データバンク(PDB)とAlphaFold Databaseエントリを処理して、タンデムの識別を繰り返すことができる。 さらに、アルゴリズムを用いて、Pfam hidden Markov model (HMM) のライブラリに対してシーケンスを検索する。 繰り返し分類は、RepeatsDBを通じて特定された家族に関連付けられている。 この予測は、ReUPredアルゴリズムの実行を強化し、繰り返しユニットの識別プロセスを早めるためと考えられる。 このサービスは、関連するPDBとAlphaFoldの構造をすべてUniProtプロテオームレジストリで操作することも可能だ。 可用性: Daisy Webサービスは Daisy.bioinformatica.org で自由にアクセスできる。

Tandem repeats in proteins identification, classification and curation is a complex process that requires manual processing from experts, processing power and time. There are recent and relevant advances applying machine learning for protein structure prediction and repeat classification that are useful for this process. However, no service contemplates required databases and software to supplement researching on repeat proteins. In this publication we present Daisy, an integrated repeat protein curation web service. This service can process Protein Data Bank (PDB) and the AlphaFold Database entries for tandem repeats identification. In addition, it uses an algorithm to search a sequence against a library of Pfam hidden Markov model (HMM). Repeat classifications are associated with the identified families through RepeatsDB. This prediction is considered for enhancing the ReUPred algorithm execution and hastening the repeat units identification process. The service can also operate every associated PDB and AlphaFold structure with a UniProt proteome registry. Availability: The Daisy web service is freely accessible at daisy.bioinformatica.org.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 分類の誤用:一部のクラスは、他のクラスよりも分類の誤用が多い

The Misclassification Likelihood Matrix: Some Classes Are More Likely To Be Misclassified Than Others ( http://arxiv.org/abs/2407.07818v1 )

ライセンス: Link先を確認
Daniel Sikar, Artur Garcez, Robin Bloomfield, Tillman Weyde, Kaleem Peeroo, Naman Singh, Maeve Hutchinson, Mirela Reljan-Delaney, (参考訳) 本研究では、分散シフト下でのニューラルネットワーク予測の信頼性を定量化するための新しいツールとして、MLM(Misclassification Likelihood Matrix)を紹介した。 MLMは、訓練されたニューラルネットワークとクラスセントロイドの予測との距離を測定するために、ソフトマックス出力とクラスタリング技術を活用して得られる。 これらの距離を分析することで、MDMはモデルの分類ミスの傾向を包括的に把握し、意思決定者が最も一般的で重要なエラーの原因を特定することを可能にする。 MLMは、モデル改善の優先順位付けと許容されるリスクレベルに基づく決定しきい値の設定を可能にする。 このアプローチは、分散シフトをシミュレートするために、畳み込みニューラルネットワーク(CNN)とデータセットの摂動バージョンを使用して、MNISTデータセット上で評価される。 その結果、予測の信頼性を評価する上でのMLMの有効性を実証し、ニューラルネットワークの解釈可能性やリスク軽減能力を高める可能性を強調した。 この研究の意義は、複雑な現実世界の環境における意思決定の安全性と信頼性を改善するために、自動運転車などの自動運転システムで進行中の応用において、画像分類を超えて拡張されている。

This study introduces the Misclassification Likelihood Matrix (MLM) as a novel tool for quantifying the reliability of neural network predictions under distribution shifts. The MLM is obtained by leveraging softmax outputs and clustering techniques to measure the distances between the predictions of a trained neural network and class centroids. By analyzing these distances, the MLM provides a comprehensive view of the model's misclassification tendencies, enabling decision-makers to identify the most common and critical sources of errors. The MLM allows for the prioritization of model improvements and the establishment of decision thresholds based on acceptable risk levels. The approach is evaluated on the MNIST dataset using a Convolutional Neural Network (CNN) and a perturbed version of the dataset to simulate distribution shifts. The results demonstrate the effectiveness of the MLM in assessing the reliability of predictions and highlight its potential in enhancing the interpretability and risk mitigation capabilities of neural networks. The implications of this work extend beyond image classification, with ongoing applications in autonomous systems, such as self-driving cars, to improve the safety and reliability of decision-making in complex, real-world environments.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 自動予測を受理する時と判断する時

When to Accept Automated Predictions and When to Defer to Human Judgment? ( http://arxiv.org/abs/2407.07821v1 )

ライセンス: Link先を確認
Daniel Sikar, Artur Garcez, Tillman Weyde, Robin Bloomfield, Kaleem Peeroo, (参考訳) 自動意思決定の信頼性と安全性を確保することが重要です。 機械学習におけるデータ分散シフトが信頼できない結果をもたらすことはよく知られている。 本稿では,分布シフト下での予測の信頼性を評価するための新しい手法を提案する。 我々は、トレーニングされたニューラルネットワークの出力がどのように変化するかをクラスタリングを用いて分析し、出力とクラスセントロイド間の距離を測定する。 本稿では,分布変化による予測の信頼度を評価する指標として,この距離を提案する。 与えられたクラスの全ての正しい予測に対して、平均ソフトマックス出力を表すセントロイドを持つクラスタに各予測を割り当てる。 次に、クラスに対する安全性閾値を、不正確な予測から与えられたクラスセントロイドへの最小距離として定義する。 我々は,畳み込みニューラルネットワークと視覚変換器を用いて,MNISTとCIFAR-10データセットのアプローチを評価する。 その結果,本手法は,これらのデータセットやネットワークモデルに対して一貫したものであり,自動予測がいつ受け入れられるか,また分布シフトが与えられたら人間オペレータにいつ延期されるべきかを,提案手法が効率的に判断できることを示した。

Ensuring the reliability and safety of automated decision-making is crucial. It is well-known that data distribution shifts in machine learning can produce unreliable outcomes. This paper proposes a new approach for measuring the reliability of predictions under distribution shifts. We analyze how the outputs of a trained neural network change using clustering to measure distances between outputs and class centroids. We propose this distance as a metric to evaluate the confidence of predictions under distribution shifts. We assign each prediction to a cluster with centroid representing the mean softmax output for all correct predictions of a given class. We then define a safety threshold for a class as the smallest distance from an incorrect prediction to the given class centroid. We evaluate the approach on the MNIST and CIFAR-10 datasets using a Convolutional Neural Network and a Vision Transformer, respectively. The results show that our approach is consistent across these data sets and network models, and indicate that the proposed metric can offer an efficient way of determining when automated predictions are acceptable and when they should be deferred to human operators given a distribution shift.
翻訳日:2024-07-11 15:53:02 公開日:2024-07-10
# 水平を越えるプローブとしての絡み合いエントロピー

Entanglement Entropy as a Probe Beyond the Horizon ( http://arxiv.org/abs/2407.07824v1 )

ライセンス: Link先を確認
Konstantinos Boutivas, Dimitrios Katsinis, Georgios Pastras, Nikolaos Tetradis, (参考訳) デ・ジッター空間における自由体の絡み合いエントロピーは、そのモードのスクイーズによって強化される。 この拡張は、水平線を超えて広がる可能性があるシステム全体のサイズに対数的に依存する絡み合いエントロピーの項を誘導することを示した。 宇宙論では、系の大きさは空間的に有限な宇宙の大きさ、またはインフレーションの開始時に地平線から出る第1モードの波長と同一視できる。

The entanglement entropy of a free field in de Sitter space is enhanced by the squeezing of its modes. We show analytically that the expansion induces a term in the entanglement entropy that depends logarithmically on the size of the overall system, which may extend beyond the horizon. In cosmology the size of the system can be identified with the size of a spatially finite universe, or with the wavelength of the first mode that exited the horizon in the beginning of inflation.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# RT-LA-VocE:リアルタイム低SNR音声強調

RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2407.07825v1 )

ライセンス: Link先を確認
Honglie Chen, Rodrigo Mira, Stavros Petridis, Maja Pantic, (参考訳) 本稿では,将来的な入力に頼ることなく,ライブビデオストリームとノイズの多い音声ストリームから,クリーンな音声フレームを生成することを目的とする。 この目的のために,40msの入力フレームで因果的リアルタイム推論を行うために,最先端の非因果的音声・視覚音声強調モデルであるLA-VocEのすべてのコンポーネントを完全に再設計するRT-LA-VocEを提案する。 我々は、過去のフレームのみに依存する新しいビジュアルおよびオーディオエンコーダを考案し、トランスフォーマーエンコーダをEmformerに置き換え、新しい因果神経ボコーダC-HiFi-GANを設計する。 一般的なAVSpeechデータセットでは、我々のアルゴリズムがすべてのリアルタイムシナリオで最先端の結果を達成することを示す。 さらに重要なことは、各コンポーネントは、アルゴリズムのレイテンシを理論上の最小 (40ms) に抑えつつ、1フレームあたり28.15msの低エンドツーエンド処理レイテンシを保ち、フレーム毎のリアルタイム化を最小限の遅延で実現する。

In this paper, we aim to generate clean speech frame by frame from a live video stream and a noisy audio stream without relying on future inputs. To this end, we propose RT-LA-VocE, which completely re-designs every component of LA-VocE, a state-of-the-art non-causal audio-visual speech enhancement model, to perform causal real-time inference with a 40ms input frame. We do so by devising new visual and audio encoders that rely solely on past frames, replacing the Transformer encoder with the Emformer, and designing a new causal neural vocoder C-HiFi-GAN. On the popular AVSpeech dataset, we show that our algorithm achieves state-of-the-art results in all real-time scenarios. More importantly, each component is carefully tuned to minimize the algorithm latency to the theoretical minimum (40ms) while maintaining a low end-to-end processing latency of 28.15ms per frame, enabling real-time frame-by-frame enhancement with minimal delay.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 畳み込みニューラルネットワークを用いたランダムグラフの安定性推定

Estimating the stability number of a random graph using convolutional neural networks ( http://arxiv.org/abs/2407.07827v1 )

ライセンス: Link先を確認
Randy Davila, (参考訳) グラフ組合せ最適化問題は広く適用可能であり、例えば旅行セールスマンや施設の位置問題を考えると計算が困難である。 本稿では,グラフ画像に畳み込みニューラルネットワーク(CNN)を用いることにより,乱数グラフとネットワークの組合せ特性の濃度を推定できる可能性について検討する。 具体的には、ランダムグラフの修正隣接行列の画像表現を、CNNモデルのトレーニングサンプルとして使用し、ランダムグラフの安定性数を予測する。 本手法は,組合せ最適化問題にディープラーニングを適用する可能性を示す。

Graph combinatorial optimization problems are widely applicable and notoriously difficult to compute; for example, consider the traveling salesman or facility location problems. In this paper, we explore the feasibility of using convolutional neural networks (CNNs) on graph images to predict the cardinality of combinatorial properties of random graphs and networks. Specifically, we use image representations of modified adjacency matrices of random graphs as training samples for a CNN model to predict the stability number of random graphs; where the stability number is the cardinality of a maximum set of vertices containing no pairwise adjacency. Our approach demonstrates the potential for applying deep learning in combinatorial optimization problems.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# Gromov-Monge Gapを用いた幾何保存による遠方表現学習

Disentangled Representation Learning through Geometry Preservation with the Gromov-Monge Gap ( http://arxiv.org/abs/2407.07829v1 )

ライセンス: Link先を確認
Théo Uscidda, Luca Eyring, Karsten Roth, Fabian Theis, Zeynep Akata, Marco Cuturi, (参考訳) 不整合表現を教師なしで学習することは、機械学習における根本的な課題である。 これを解決することで、一般化、解釈可能性、公平性といった他の問題を解き放つことができる。 一般に解くのは非常に難しいが、最近の研究は、局所等長法のような幾何学的制約を活用できる追加の仮定の下で、解離は証明可能であることを示した。 そこで本研究では,2次最適輸送に基づく非交叉表現学習の新たな視点を提案する。 具体的には、異なる空間で支持される分布間の等尺写像を求めるGromov-Monge設定の問題を定式化する。 本稿では,Gromov-Monge-Gap (GMG)を提案する。これは,異なる空間上で支持される2つの分布間の任意のプッシュフォワード写像の幾何保存を定量化する正規化器である。 4つの標準ベンチマークにおいて, GMG正則化の有効性を示す。 さらに, 幾何保存は, 標準的な再構成目的を使わずに非教師付き非教師付き非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非管理者型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師型非教師

Learning disentangled representations in an unsupervised manner is a fundamental challenge in machine learning. Solving it may unlock other problems, such as generalization, interpretability, or fairness. While remarkably difficult to solve in general, recent works have shown that disentanglement is provably achievable under additional assumptions that can leverage geometrical constraints, such as local isometry. To use these insights, we propose a novel perspective on disentangled representation learning built on quadratic optimal transport. Specifically, we formulate the problem in the Gromov-Monge setting, which seeks isometric mappings between distributions supported on different spaces. We propose the Gromov-Monge-Gap (GMG), a regularizer that quantifies the geometry-preservation of an arbitrary push-forward map between two distributions supported on different spaces. We demonstrate the effectiveness of GMG regularization for disentanglement on four standard benchmarks. Moreover, we show that geometry preservation can even encourage unsupervised disentanglement without the standard reconstruction objective - making the underlying model decoder-free, and promising a more practically viable and scalable perspective on unsupervised disentanglement.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# RoBus: 制御可能な道路ネットワークと建設レイアウト生成のためのマルチモーダルデータセット

RoBus: A Multimodal Dataset for Controllable Road Networks and Building Layouts Generation ( http://arxiv.org/abs/2407.07835v1 )

ライセンス: Link先を確認
Tao Li, Ruihang Li, Huangnan Zheng, Shanding Ye, Shijian Li, Zhijie Pan, (参考訳) 道路ネットワークと建築レイアウトに焦点を当てた3D都市の自動生成は、都市デザイン、マルチメディアゲーム、自動運転シミュレーションの応用に高い需要がある。 生成AIの急増により、ディープラーニングモデルに基づいた都市レイアウトの設計が容易になった。 しかし、高品質なデータセットとベンチマークの欠如は、道路ネットワークの生成やレイアウト構築において、これらのデータ駆動手法の進歩を妨げる。 さらに,グラフィクスを解析対象として捉え,実際的な応用に欠かせない都市特性を,生成過程を制御するために考慮する研究はほとんどない。 これらの問題を緩和するため,道路ネットワークとビルディングレイアウト(RoBus)の制御可能な生成のための評価指標を備えたマルチモーダルデータセットを導入した。 RoBusデータセットは、画像、グラフィック、テキストとしてフォーマットされており、全世界で約80,000km^2$のペア化されたサンプルは72,400ドルである。 我々は,RoBusデータセットを統計的に分析し,既存の道路網と建築レイアウト生成手法の有効性を検証した。 さらに,道路配向や建物密度などの都市特性を取り入れた新たなベースラインを,RoBusデータセットを用いて道路網や建物配置を生成するプロセスにおいて設計し,都市自動設計の実践性を向上する。 RoBusデータセットとその関連コードはhttps://github.com/tourlics/RoBus_Datasetで公開されている。

Automated 3D city generation, focusing on road networks and building layouts, is in high demand for applications in urban design, multimedia games and autonomous driving simulations. The surge of generative AI facilitates designing city layouts based on deep learning models. However, the lack of high-quality datasets and benchmarks hinders the progress of these data-driven methods in generating road networks and building layouts. Furthermore, few studies consider urban characteristics, which generally take graphics as analysis objects and are crucial for practical applications, to control the generative process. To alleviate these problems, we introduce a multimodal dataset with accompanying evaluation metrics for controllable generation of Road networks and Building layouts (RoBus), which is the first and largest open-source dataset in city generation so far. RoBus dataset is formatted as images, graphics and texts, with $72,400$ paired samples that cover around $80,000km^2$ globally. We analyze the RoBus dataset statistically and validate the effectiveness against existing road networks and building layouts generation methods. Additionally, we design new baselines that incorporate urban characteristics, such as road orientation and building density, in the process of generating road networks and building layouts using the RoBus dataset, enhancing the practicality of automated urban design. The RoBus dataset and related codes are published at https://github.com/tourlics/RoBus_Dataset.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 分解・比較整合性:タスク分解整合性比較によるVLMの解答信頼性の測定

Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison ( http://arxiv.org/abs/2407.07840v1 )

ライセンス: Link先を確認
Qian Yang, Weixiang Yan, Aishwarya Agrawal, (参考訳) 膨大な進歩にもかかわらず、現在の最先端のビジョン・ランゲージ・モデル(VLM)はまだ完璧には程遠い。 幻覚を起こす傾向があり、偏りのある反応を生じさせる。 このような状況下では、VLMによって生成された所定の応答の信頼性を評価する方法が有用である。 解答確率を用いた不確実性の推定や、素早い信頼生成といった既存の手法は、しばしば過度な自信に悩まされる。 他の方法は自己整合性比較を用いるが、確認バイアスに影響される。 これらを緩和するために、信頼性測定のための \textbf{De}compose と \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) を提案する。 VLMの内部推論プロセスを用いて生成した直接回答と、VLMが生成するサブ問合せと推論に分解して得られる間接回答の一貫性を比較することにより、VLMの直接回答の信頼性を測定する。 3つのVLMを用いた6つの視覚言語タスクを対象とした実験は,既存の手法と比較して,タスク精度との相関性が良好であることを示す。

Despite tremendous advancements, current state-of-the-art Vision-Language Models (VLMs) are still far from perfect. They tend to hallucinate and may generate biased responses. In such circumstances, having a way to assess the reliability of a given response generated by a VLM is quite useful. Existing methods, such as estimating uncertainty using answer likelihoods or prompt-based confidence generation, often suffer from overconfidence. Other methods use self-consistency comparison but are affected by confirmation biases. To alleviate these, we propose \textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) for reliability measurement. By comparing the consistency between the direct answer generated using the VLM's internal reasoning process, and the indirect answers obtained by decomposing the question into sub-questions and reasoning over the sub-answers produced by the VLM, \texttt{DeCC} measures the reliability of VLM's direct answer. Experiments across six vision-language tasks with three VLMs show \texttt{DeCC}'s reliability estimation achieves better correlation with task accuracy compared to the existing methods.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 計算病理における組込みアグリゲーション手法のベンチマーク:臨床データの観点から

Benchmarking Embedding Aggregation Methods in Computational Pathology: A Clinical Data Perspective ( http://arxiv.org/abs/2407.07841v1 )

ライセンス: Link先を確認
Shengjia Chen, Gabriele Campanella, Abdulkadir Elmas, Aryeh Stock, Jennifer Zeng, Alexandros D. Polydorides, Adam J. Schoenfeld, Kuan-lin Huang, Jane Houldsworth, Chad Vanderbilt, Thomas J. Fuchs, (参考訳) 人工知能(AI)の最近の進歩、特に基礎モデル(FM)の自己教師型学習は、医療画像と計算病理学(CPath)に革命をもたらしている。 デジタル全スライド画像(WSI)の解析における一定の課題は、何万ものタイルレベルの画像埋め込みをスライドレベルの表現に集約する問題である。 TCGAのようなゲノム研究のためのデータセットがメソッド開発に広く使われているため、臨床実践からの診断スライドにおけるこれらの技術の性能は不十分に調査されている。 本研究は, 診断評価, バイオマーカー分類, 結果予測を含む9つの臨床的課題を対象とした, スライドレベルアグリゲーション手法の徹底的なベンチマーク分析を行う。 1)ドメイン固有の(ヒストロジカルイメージ)FMからの埋め込みは、集約メソッド全体にわたって、一般的なImageNetベースのモデルよりも優れています。 2) 空間認識アグリゲータは, ImageNet事前学習モデルを用いた場合, FMを用いた場合ではなく, 性能を著しく向上させる。 (3) 全てのタスクにおいて単一のモデルが優れているわけではなく, 空間認識モデルでは期待されるような一般的な優位性は示さない。 これらの知見は、より適応的で普遍的な集約技術の必要性を強調し、病理学における臨床AIの進化的なニーズを満たすためのツールの今後の研究を導くものである。 この作業で使用されるコードは、 \url{https://github.com/fuchs-lab-public/CPath_SABenchmark}で公開されている。

Recent advances in artificial intelligence (AI), in particular self-supervised learning of foundation models (FMs), are revolutionizing medical imaging and computational pathology (CPath). A constant challenge in the analysis of digital Whole Slide Images (WSIs) is the problem of aggregating tens of thousands of tile-level image embeddings to a slide-level representation. Due to the prevalent use of datasets created for genomic research, such as TCGA, for method development, the performance of these techniques on diagnostic slides from clinical practice has been inadequately explored. This study conducts a thorough benchmarking analysis of ten slide-level aggregation techniques across nine clinically relevant tasks, including diagnostic assessment, biomarker classification, and outcome prediction. The results yield following key insights: (1) Embeddings derived from domain-specific (histological images) FMs outperform those from generic ImageNet-based models across aggregation methods. (2) Spatial-aware aggregators enhance the performance significantly when using ImageNet pre-trained models but not when using FMs. (3) No single model excels in all tasks and spatially-aware models do not show general superiority as it would be expected. These findings underscore the need for more adaptable and universally applicable aggregation techniques, guiding future research towards tools that better meet the evolving needs of clinical-AI in pathology. The code used in this work is available at \url{https://github.com/fuchs-lab-public/CPath_SABenchmark}.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 視覚変換器を用いた車両再識別におけるロバスト性に対するアスペクト比の変動に関する研究

Study on Aspect Ratio Variability toward Robustness of Vision Transformer-based Vehicle Re-identification ( http://arxiv.org/abs/2407.07842v1 )

ライセンス: Link先を確認
Mei Qiu, Lauren Christopher, Lingxi Li, (参考訳) ビジョントランスフォーマー(ViT)は、車両再識別(ReID)タスクに優れています。 しかし、画像またはビデオ入力の非二乗アスペクト比は、再識別性能に大きな影響を及ぼす可能性がある。 本稿では,様々なアスペクト比で学習したモデルを融合した新しいViTベースのReIDフレームワークを提案する。 私たちの主な貢献は3倍です。 i)VeRi-776とVaviIDデータセットのアスペクト比性能を分析し、原画像のアスペクト比に基づいて入力設定を誘導する。 (II) ViT パッチ中にパッチワイド・ミックスアップ・イン・イメージを導入し(空間的注意スコアによる誘導)、オブジェクトアスペクト比の整合性を改善するために不均一なストライドを実装した。 3) モデルロバスト性を高めたReIDネットワークを融合する動的特徴量を提案する。 提案手法は,平均精度が91.0\%,平均精度が80.9\%,平均精度が91.0\%,平均精度が80.9\%であった。

Vision Transformers (ViTs) have excelled in vehicle re-identification (ReID) tasks. However, non-square aspect ratios of image or video input might significantly affect the re-identification performance. To address this issue, we propose a novel ViT-based ReID framework in this paper, which fuses models trained on a variety of aspect ratios. Our main contributions are threefold: (i) We analyze aspect ratio performance on VeRi-776 and VehicleID datasets, guiding input settings based on aspect ratios of original images. (ii) We introduce patch-wise mixup intra-image during ViT patchification (guided by spatial attention scores) and implement uneven stride for better object aspect ratio matching. (iii) We propose a dynamic feature fusing ReID network, enhancing model robustness. Our ReID method achieves a significantly improved mean Average Precision (mAP) of 91.0\% compared to the the closest state-of-the-art (CAL) result of 80.9\% on VehicleID dataset.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 単一分子磁石におけるスピン/フォノンダイナミクス:II. スピン/フォノンエンタングルメン

Spin/Phonon Dynamics in Single Molecular Magnets: II. spin/phonon entanglemen ( http://arxiv.org/abs/2407.07843v1 )

ライセンス: Link先を確認
Nosheen Younas, Yu Zhang, Andrei Piryatinski, Eric R Bittner, (参考訳) 分子磁石におけるスピン-フォノン相互作用を探索するための新しい量子埋め込み法を提案する。 この技術は様々なスピン/フォノン結合を限られた数の自由度に集約し、完全な量子力学的処理を可能にする。 システム全体を「システム」と「バス」のサブアンサンブルに正確に分解することで、従来の難解な問題を単純化し、モデストスケールのコンピュータで解けるようにする。 本手法の有効性は,中心バナジウム原子上に無対電子を持つ単一分子qubit \ce{VOPc(OH)8}のスピン緩和と脱落時間について検討することによって実証する。 このモード投影法を用いることで、単一スピンキュービットから投射されたフォノン自由度への量子情報のフローを追従できる数値的正確な量子力学計算をこのシステム上で行うことができる。 提案手法の有効性を実証し, 量子ビットシステムの量子特性をさらに最適化するために, 環境を設計する方法を提案する。

We introduce a new quantum embedding method to explore spin-phonon interactions in molecular magnets. This technique consolidates various spin/phonon couplings into a limited number of collective degrees of freedom, allowing for a fully quantum mechanical treatment. By precisely factorizing the entire system into "system" and "bath" sub-ensembles, our approach simplifies a previously intractable problem, making it solvable on modest-scale computers. We demonstrate the effectiveness of this method by studying the spin relaxation and dephasing times of the single-molecule qubit \ce{VOPc(OH)8}, which features a lone unpaired electron on the central vanadium atom. By using this mode projection method, we are able to perform numerical exact quantum dynamical calculation on this system which allows us to follow the flow of quantum information from the single spin qubit into the projected phonon degrees of freedom. Our results demonstrate both the utility of the method and suggest how one can engineer the environment as to further optimize the quantum properties of a qubit system.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# OV-DINO:Language-Aware Selective Fusionによるオープンボキャブラリ検出

OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion ( http://arxiv.org/abs/2407.07844v1 )

ライセンス: Link先を確認
Hao Wang, Pengzhen Ren, Zequn Jie, Xiao Dong, Chengjian Feng, Yinlong Qian, Lin Ma, Dongmei Jiang, Yaowei Wang, Xiangyuan Lan, Xiaodan Liang, (参考訳) オープン語彙検出は、トレーニング中に遭遇しないものを含むクラス名に基づいてオブジェクトを検出する必要があるため、困難なタスクである。 既存の手法では、さまざまな大規模データセットの事前トレーニングを通じて、強力なゼロショット検出機能を示している。 しかし、これらのアプローチは依然として2つの大きな課題に直面している。 一 エンド・ツー・エンド・トレーニングのための多様なデータ・ソースを普遍的に統合する方法、及び (II) 言語認識能力を活用して地域レベルの相互モダリティ理解を効果的に活用する方法。 これらの課題に対処するため、我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。 具体的には、異なるデータソースを検出中心のデータに統一することにより、エンドツーエンドのトレーニングを可能にし、擬似ラベル生成からノイズを除去するUnified Data Integration(UniDI)パイプラインを導入する。 さらに,Language-Aware Selective Fusion (LASF)モジュールを提案する。 提案したOV-DINOを一般のオープン語彙検出ベンチマークデータセットで評価し,COCOデータセットで50.6\%,LVISデータセットで40.0\%をゼロショットで達成し,その強力な一般化能力を示した。 さらに、COCO上の細調整されたOV-DINOは58.4 % APを達成し、多くの既存の手法を同じバックボーンで上回っている。 OV-DINOのコードは \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO} で入手できる。

Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training on diverse large-scale datasets. However, these approaches still face two primary challenges: (i) how to universally integrate diverse data sources for end-to-end training, and (ii) how to effectively leverage the language-aware capability for region-level cross-modality understanding. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which pre-trains on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enable the language-aware ability of the model through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmark datasets, achieving state-of-the-art results with an AP of 50.6\% on the COCO dataset and 40.0\% on the LVIS dataset in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4\% AP, outperforming many existing methods with the same backbone. The code for OV-DINO will be available at \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO}.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 非繰り返しパラメータを持つパラメトリゼーションクリフォード回路におけるパラメトリゼーション回転とアダマールゲートの最適数

Optimal number of parametrized rotations and Hadamard gates in parametrized Clifford circuits with non-repeated parameters ( http://arxiv.org/abs/2407.07846v1 )

ライセンス: Link先を確認
Vivien Vandaele, Simon Perdrix, Christophe Vuillot, (参考訳) 量子回路における非クリフォードゲートの数とパラメタライズド量子回路におけるパラメタライズドローテーションの数を削減できる効率的なアルゴリズムを提案する。 この方法は、単一の回転ゲートにマージできる回転を見つけることで構成される。 このアプローチはすでに検討されており、多くの最適化アルゴリズムにおいて前処理の手順として使われており、特にアダマールゲートの数を最適化したり、クリフォード$+T$回路で$T$ゲートの数を最適化するために使われる。 我々のアルゴリズムは類似の手法よりも複雑であり、内部アダマールゲートの少ない回路では特に効率的である。 さらに,この手法はクリフォードゲートと非繰り返しパラメータを持つパラメトリゼーション回転からなるパラメトリゼーション回路に対して最適であることを示す。 同じタイプのパラメタライズド量子回路に対して、アダマールゲートと内部アダマールゲートの数を最適化する前の手順が最適であることを示す。 この手法は、パラメタライズドローテーションの数を最適に削減するために、我々の低複素性アルゴリズムで顕著に用いられている。

We present an efficient algorithm to reduce the number of non-Clifford gates in quantum circuits and the number of parametrized rotations in parametrized quantum circuits. The method consists in finding rotations that can be merged into a single rotation gate. This approach has already been considered before and is used as a pre-processing procedure in many optimization algorithms, notably for optimizing the number of Hadamard gates or the number of $T$ gates in Clifford$+T$ circuits. Our algorithm has a better complexity than similar methods and is particularly efficient for circuits with a low number of internal Hadamard gates. Furthermore, we show that this approach is optimal for parametrized circuits composed of Clifford gates and parametrized rotations with non-repeated parameters. For the same type of parametrized quantum circuits, we also prove that a previous procedure optimizing the number of Hadamard gates and internal Hadamard gates is optimal. This procedure is notably used in our low-complexity algorithm for optimally reducing the number of parametrized rotations.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# ReLU変圧器における層依存性活性化空間パターンの解明

Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers ( http://arxiv.org/abs/2407.07848v1 )

ライセンス: Link先を確認
Cody Wild, Jesper Anderson, (参考訳) 以前の研究では、ReLUトランスフォーマー内のMLPは高いレベルの空間性を示し、その活性化の多くは任意のトークンに対してゼロに等しいことが示されている。 私たちは、トレーニングの過程でトークンレベルのスパーシリティがどのように進化するか、シーケンスやバッチの過程で広範囲のスパーシティパターンにどのように接続するかをより深く調査し、小さなトランスフォーマー内の異なるレイヤが、両方のフロントに明確にレイヤ固有のパターンを示すことを実証しています。 特に、ネットワークの第一層と最後の層は、空間性との関係を多くの点で逆転させ、モデルの異なる深さで学習される特徴表現の構造に影響を及ぼすことを実証する。 さらに、ReLU次元の現象を「消し去る」ことを探り、「ニューロン死」は、単に異常な結果や誤って発生するのではなく、トレーニングのダイナミクスによって引き起こされていることを示す証拠を提示する。

Previous work has demonstrated that MLPs within ReLU Transformers exhibit high levels of sparsity, with many of their activations equal to zero for any given token. We build on that work to more deeply explore how token-level sparsity evolves over the course of training, and how it connects to broader sparsity patterns over the course of a sequence or batch, demonstrating that the different layers within small transformers exhibit distinctly layer-specific patterns on both of these fronts. In particular, we demonstrate that the first and last layer of the network have distinctive and in many ways inverted relationships to sparsity, and explore implications for the structure of feature representations being learned at different depths of the model. We additionally explore the phenomenon of ReLU dimensions "turning off", and show evidence suggesting that "neuron death" is being primarily driven by the dynamics of training, rather than simply occurring randomly or accidentally as a result of outliers.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# OpenDiLoCo: グローバルに分散した低コミュニケーショントレーニングのためのオープンソースフレームワーク

OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training ( http://arxiv.org/abs/2407.07852v1 )

ライセンス: Link先を確認
Sami Jaghouar, Jack Min Ong, Johannes Hagemann, (参考訳) OpenDiLoCoは、大規模言語モデルのための分散低コミュニケーション(DiLoCo)トレーニング手法のオープンソース実装と複製である。 私たちはDiLoCo実験の再現可能な実装を提供し、Hivemindライブラリを使用したスケーラブルで分散化されたトレーニングフレームワークでそれを提供します。 我々は,90~95%の計算利用を維持しながら,2大陸と3カ国でモデルをトレーニングすることで,その効果を実証した。 さらに,アルゴリズムの計算効率,作業者数の拡張性に着目し,FP16を用いて勾配を全て再現できることを示す。 さらに,OpenDiLoCoを原作品の3倍のサイズに拡張し,数十億のパラメータモデルの有効性を実証した。

OpenDiLoCo is an open-source implementation and replication of the Distributed Low-Communication (DiLoCo) training method for large language models. We provide a reproducible implementation of the DiLoCo experiments, offering it within a scalable, decentralized training framework using the Hivemind library. We demonstrate its effectiveness by training a model across two continents and three countries, while maintaining 90-95% compute utilization. Additionally, we conduct ablations studies focusing on the algorithm's compute efficiency, scalability in the number of workers and show that its gradients can be all-reduced using FP16 without any performance degradation. Furthermore, we scale OpenDiLoCo to 3x the size of the original work, demonstrating its effectiveness for billion parameter models.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# パッチサイズの進行的成長:資源効率のよいカリキュラム学習による高密度予測課題

Progressive Growing of Patch Size: Resource-Efficient Curriculum Learning for Dense Prediction Tasks ( http://arxiv.org/abs/2407.07853v1 )

ライセンス: Link先を確認
Stefan M. Fischer, Lina Felsner, Richard Osuala, Johannes Kiechle, Daniel M. Lang, Jan C. Peeken, Julia A. Schnabel, (参考訳) 本研究では,資源効率の高い暗黙的なカリキュラム学習手法であるPatch Sizeのプログレッシブグロース(Progressive Growing of Patch Size)を紹介する。 我々のカリキュラムのアプローチは、モデルトレーニング中にパッチサイズを拡大することで定義され、タスクの難しさが徐々に増大する。 我々は,カリキュラムをnnU-Netフレームワークに統合し,メディカルセグメンテーション宣言の10タスクの方法論を評価した。 提案手法により,従来の定型パッチサイズトレーニングと比較して,ランタイム,計算コスト,CO$_{2}$のネットワークトレーニングの排出量を大幅に削減できる。 実験では,カリキュラムのアプローチにより収束性が改善された。 私たちは10のMSDタスクのうち7つのDice Scoreについて、パッチサイズを一定にトレーニングした標準的なnnU-Netトレーニングよりも優れています。 私たちの知識を最大限に活用するために、我々のプログレッシブグロース・オブ・パッチサイズは、コンピュータビジョンの分野におけるパッチサイズという形でサンプル長のカリキュラムを成功させた最初の例です。 私たちのコードは \url{https://github.com} で公開されています。

In this work, we introduce Progressive Growing of Patch Size, a resource-efficient implicit curriculum learning approach for dense prediction tasks. Our curriculum approach is defined by growing the patch size during model training, which gradually increases the task's difficulty. We integrated our curriculum into the nnU-Net framework and evaluated the methodology on all 10 tasks of the Medical Segmentation Decathlon. With our approach, we are able to substantially reduce runtime, computational costs, and CO$_{2}$ emissions of network training compared to classical constant patch size training. In our experiments, the curriculum approach resulted in improved convergence. We are able to outperform standard nnU-Net training, which is trained with constant patch size, in terms of Dice Score on 7 out of 10 MSD tasks while only spending roughly 50\% of the original training runtime. To the best of our knowledge, our Progressive Growing of Patch Size is the first successful employment of a sample-length curriculum in the form of patch size in the field of computer vision. Our code is publicly available at \url{https://github.com}.
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 検索型世代チャットボットの構築に関するFACTS

FACTS About Building Retrieval Augmented Generation-based Chatbots ( http://arxiv.org/abs/2407.07858v1 )

ライセンス: Link先を確認
Rama Akkiraju, Anbang Xu, Deepak Bora, Tan Yu, Lu An, Vishal Seth, Aaditya Shukla, Pritam Gundecha, Hridhay Mehta, Ashwin Jha, Prithvi Raj, Abhinav Balasubramanian, Murali Maram, Guru Muthusamy, Shivakesh Reddy Annepally, Sidney Knowles, Min Du, Nick Burnett, Sean Javiya, Ashok Marannan, Mamta Kumari, Surbhi Jha, Ethan Dereszenski, Anupam Chakraborty, Subhash Ranjan, Amina Terfai, Anoop Surya, Tracey Mercer, Vinodh Kumar Thanigachalam, Tamar Bar, Sanjana Krishnan, Samy Kilaru, Jasmine Jaksic, Nave Algarici, Jacob Liberman, Joey Conway, Sonu Nayyar, Justin Boitano, (参考訳) 生成AIを活用したエンタープライズチャットボットは、従業員の生産性を高めるための重要なアプリケーションとして登場しつつある。 Retrieval Augmented Generation (RAG)、Large Language Models (LLM)、LangchainやLlamaindexといったオーケストレーションフレームワークは、これらのチャットボットを構築する上で不可欠である。 しかし、効果的なエンタープライズチャットボットの作成は困難であり、精巧なRAGパイプラインエンジニアリングが必要である。 これには、微調整された埋め込みとLCM、ベクトルデータベースからのドキュメントの抽出、クエリのリフレッシュ、結果の再評価、プロンプトの設計、ドキュメントアクセスコントロールの尊重、参照を含む簡潔な応答の提供、個人情報の保護、オーケストレーションエージェントの構築が含まれる。 我々は、IT/HRのメリット、財務利益、一般的なコンテンツという3つのNVIDIAチャットボットの経験に基づいて、RAGベースのチャットボットを構築するためのフレームワークを提案する。 FACTSフレームワーク(フレッシュネス、アーキテクチャ、コスト、テスト、セキュリティ)を導入し、15のRAGパイプライン制御ポイントを提示し、大小のLLM間の精度-遅延トレードオフに関する実証的な結果を提供する。 私たちの知る限りでは、この論文は企業レベルのチャットボットをセキュアに構築するためのソリューションだけでなく、その要因の全体像を提供する最初の論文です。 です。

Enterprise chatbots, powered by generative AI, are emerging as key applications to enhance employee productivity. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), and orchestration frameworks like Langchain and Llamaindex are crucial for building these chatbots. However, creating effective enterprise chatbots is challenging and requires meticulous RAG pipeline engineering. This includes fine-tuning embeddings and LLMs, extracting documents from vector databases, rephrasing queries, reranking results, designing prompts, honoring document access controls, providing concise responses, including references, safeguarding personal information, and building orchestration agents. We present a framework for building RAG-based chatbots based on our experience with three NVIDIA chatbots: for IT/HR benefits, financial earnings, and general content. Our contributions are three-fold: introducing the FACTS framework (Freshness, Architectures, Cost, Testing, Security), presenting fifteen RAG pipeline control points, and providing empirical results on accuracy-latency tradeoffs between large and small LLMs. To the best of our knowledge, this is the first paper of its kind that provides a holistic view of the factors as well as solutions for building secure enterprise-grade chatbots."
翻訳日:2024-07-11 15:43:17 公開日:2024-07-10
# 拡散モデルによる空間と時間制御

Controlling Space and Time with Diffusion Models ( http://arxiv.org/abs/2407.07860v1 )

ライセンス: Link先を確認
Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet, (参考訳) 本稿では,4Dノベル・ビュー・シンセシス(NVS)のためのケースド拡散モデルである4DiMについて述べる。 4Dトレーニングデータの可用性の制限による課題を克服するため、3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータに対する共同トレーニングを提案し、これを実現する新しいアーキテクチャを提案する。 さらに,SfM推定データのキャリブレーションを,一眼レフカメラ制御のための単眼メートル深度推定器を用いて行うことを提唱する。 モデル評価には,従来の3次元NVSの拡散モデルと比較して,現状の評価手法の欠点を補足し克服するための新しい指標を導入するとともに,時間的ダイナミクスを扱う能力も追加する。 4DiMは、パノラマ縫合の改善、ビデオ翻訳のためのポーズ付きビデオ、その他いくつかのタスクにも使用されている。 概要はhttps://4d-diffusion.github.ioを参照のこと。

We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# グリーンスクリーンの強化によりロボットマニピュレーションにおけるシーンの一般化が可能に

Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation ( http://arxiv.org/abs/2407.07868v1 )

ライセンス: Link先を確認
Eugene Teoh, Sumit Patidar, Xiao Ma, Stephen James, (参考訳) 視覚に基づく新しい環境に対する操作ポリシーの一般化は、限られた探索の難しい領域のままである。 現在のプラクティスでは、ひとつの場所にデータを集め、このデータを使って模倣学習や強化学習のポリシーを訓練し、同じ場所にポリシーをデプロイする。 しかし、このアプローチはスケーラビリティに欠けており、各タスクに複数のロケーションでデータ収集を必要とする。 本稿では,主にグリーンスクリーンを特徴とする場所でデータを収集する手法を提案する。 背景テクスチャをグリーンスクリーン上にオーバーレイするためにクロマキーアルゴリズムを用いたグリーンスクリーン拡張(GreenAug)を導入する。 850以上のトレーニングデモと8.2kの評価エピソードによる広範囲な実世界の実証研究を通じて、GreenAugは、向上、標準的なコンピュータビジョンの増強、パフォーマンスにおける以前の生成拡張メソッドを超越していることを示した。 アルゴリズムのノベルティは主張されていないが、我々の論文はデータ収集の実践の根本的な変化を提唱している。 今後の研究における実世界の実証はグリーンスクリーンを活用すべきであり、続いてGreenAugを適用すべきである。 GreenAugは、ポリシーの一般化を視覚的に異なる新しい場所に開放し、ロボット学習における現在の場面の一般化の限界に対処する。

Generalising vision-based manipulation policies to novel environments remains a challenging area with limited exploration. Current practices involve collecting data in one location, training imitation learning or reinforcement learning policies with this data, and deploying the policy in the same location. However, this approach lacks scalability as it necessitates data collection in multiple locations for each task. This paper proposes a novel approach where data is collected in a location predominantly featuring green screens. We introduce Green-screen Augmentation (GreenAug), employing a chroma key algorithm to overlay background textures onto a green screen. Through extensive real-world empirical studies with over 850 training demonstrations and 8.2k evaluation episodes, we demonstrate that GreenAug surpasses no augmentation, standard computer vision augmentation, and prior generative augmentation methods in performance. While no algorithmic novelties are claimed, our paper advocates for a fundamental shift in data collection practices. We propose that real-world demonstrations in future research should utilise green screens, followed by the application of GreenAug. We believe GreenAug unlocks policy generalisation to visually distinct novel locations, addressing the current scene generalisation limitations in robot learning.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# サンプリングのための動的計測輸送とニューラルPDE解法

Dynamical Measure Transport and Neural PDE Solvers for Sampling ( http://arxiv.org/abs/2407.07873v1 )

ライセンス: Link先を確認
Jingtong Sun, Julius Berner, Lorenz Richter, Marius Zeinhofer, Johannes Müller, Kamyar Azizzadenesheli, Anima Anandkumar, (参考訳) 確率密度からサンプリングするタスクは、動的測度輸送(Dynamical measure transport)として知られる、トラクタブル密度関数をターゲットに輸送するものとして、アプローチすることができる。 本研究では, 偏微分方程式(PDE)によって記述される決定的あるいは確率的進化を用いて, 原理化された統一的な枠組みによってそれに取り組む。 このフレームワークは、時間反転の概念に頼ることなく、拡散モデルやシュリンガーブリッジのような従来の軌道に基づくサンプリング手法を取り入れている。 さらに,本手法では, 正規化定数やデータサンプルを必要とせずに, 複雑な対象から抽出する, 輸送タスクを解くための新しい数値手法を提案する。 我々は物理インフォームドニューラルネットワーク(PINN)を用いて、それぞれのPDE解を近似し、概念的および計算上の優位性を暗示する。 特に、PINNはシミュレーションと離散化のない最適化が可能であり、非常に効率的に訓練できるため、他の方法と比較してサンプリングタスクのモードカバレッジが大幅に向上する。 さらに, ガウスニュートン法を微調整することで, サンプリング精度の向上が期待できる。

The task of sampling from a probability density can be approached as transporting a tractable density function to the target, known as dynamical measure transport. In this work, we tackle it through a principled unified framework using deterministic or stochastic evolutions described by partial differential equations (PDEs). This framework incorporates prior trajectory-based sampling methods, such as diffusion models or Schr\"odinger bridges, without relying on the concept of time-reversals. Moreover, it allows us to propose novel numerical methods for solving the transport task and thus sampling from complicated targets without the need for the normalization constant or data samples. We employ physics-informed neural networks (PINNs) to approximate the respective PDE solutions, implying both conceptional and computational advantages. In particular, PINNs allow for simulation- and discretization-free optimization and can be trained very efficiently, leading to significantly better mode coverage in the sampling task compared to alternative methods. Moreover, they can readily be fine-tuned with Gauss-Newton methods to achieve high accuracy in sampling.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# Toto: 可観測性のための時系列最適化トランス

Toto: Time Series Optimized Transformer for Observability ( http://arxiv.org/abs/2407.07874v1 )

ライセンス: Link先を確認
Ben Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal, (参考訳) この技術レポートでは、Datadogが開発した時系列予測のための新しい最先端基盤モデルであるTime Series Optimized Transformer for Observability (Toto)について述べる。 電気や気象などの領域における一般時系列ベンチマークの最先端化に加えて、このモデルは観測可能性指標に特化して調整された初めての汎用時系列予測基盤モデルである。 Totoは、現在発行されているすべての時系列基礎モデルの中で最大である、1兆の時系列データポイントのデータセットでトレーニングされた。 公開されている時系列データセットに加えて、Totoのトレーニングに使われるデータの75%は、Datadogプラットフォームから完全に匿名の数値メトリックデータポイントで構成されている。 実験では、Totoは観測可能性データに基づく既存の時系列基礎モデルよりも優れています。 これはまた、汎用的な予測タスクに優れ、複数のオープンベンチマークデータセットで最先端のゼロショットパフォーマンスを達成する。

This technical report describes the Time Series Optimized Transformer for Observability (Toto), a new state of the art foundation model for time series forecasting developed by Datadog. In addition to advancing the state of the art on generalized time series benchmarks in domains such as electricity and weather, this model is the first general-purpose time series forecasting foundation model to be specifically tuned for observability metrics. Toto was trained on a dataset of one trillion time series data points, the largest among all currently published time series foundation models. Alongside publicly available time series datasets, 75% of the data used to train Toto consists of fully anonymous numerical metric data points from the Datadog platform. In our experiments, Toto outperforms existing time series foundation models on observability data. It does this while also excelling at general-purpose forecasting tasks, achieving state-of-the-art zero-shot performance on multiple open benchmark datasets.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 行動モデルとしての生成画像

Generative Image as Action Models ( http://arxiv.org/abs/2407.07875v1 )

ライセンス: Link先を確認
Mohit Shridhar, Yat Long Lo, Stephen James, (参考訳) 画像生成拡散モデルは、画像編集や新しいビュー合成などの新機能を解放するために微調整されている。 ビジュモータ制御のための画像生成モデルも同じようにアンロックできますか? RGB画像のターゲットとして安定拡散を微調整する行動閉鎖剤GENIMAを提案する。 これらの画像は、視覚的目標をジョイントポジションのシーケンスにマッピングするコントローラに送られます。 RLBench 25 と実世界の操作タスク9 について GENIMA について検討した。 画像空間にアクションを持ち上げることで、インターネット事前学習拡散モデルは、特にシーンの摂動に対する堅牢性や新しいオブジェクトへの一般化において、最先端のビズモータアプローチより優れたポリシーを生成することができる。 提案手法は, 奥行き, キーポイント, 動きプランナーなどの先行性に欠けるにもかかわらず, 3次元エージェントと競合する。

Image-generation diffusion models have been fine-tuned to unlock new capabilities such as image-editing and novel view synthesis. Can we similarly unlock image-generation models for visuomotor control? We present GENIMA, a behavior-cloning agent that fine-tunes Stable Diffusion to 'draw joint-actions' as targets on RGB images. These images are fed into a controller that maps the visual targets into a sequence of joint-positions. We study GENIMA on 25 RLBench and 9 real-world manipulation tasks. We find that, by lifting actions into image-space, internet pre-trained diffusion models can generate policies that outperform state-of-the-art visuomotor approaches, especially in robustness to scene perturbations and generalizing to novel objects. Our method is also competitive with 3D agents, despite lacking priors such as depth, keypoints, or motion-planners.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 浅低周波回路からの近似ユニタリ$k$-Designs

Approximate Unitary $k$-Designs from Shallow, Low-Communication Circuits ( http://arxiv.org/abs/2407.07876v1 )

ライセンス: Link先を確認
Nicholas LaRacuente, Felix Leditzky, (参考訳) ランダムユニタリは量子情報や関連分野において有用であるが、限られた資源で生成することは困難である。 近似ユニタリ$k$-デザインは、平均が最初の$k$モーメントまでの(一様)ランダムアンサンブルに近いようなユニタリと測度のアンサンブルである。 近似の特に強い概念は相対誤差におけるハールランダムネスからの距離の境界であり、近似設計は正確な設計を含む凸結合として記述できる。 我々はサブシステム間の通信がシステムサイズで$O(1)$である乗法誤り近似単位の$k$-designアンサンブルを構築する。 これらの構造は交互射影法を用いて重なり合うハール・ツワールを解析し、2ドルのノルムに関してフル・ツワールへの収束速度に制限を与える。 フォン・ノイマン部分代数指数を用いて系次元を置換し、2ノルム距離は系の大きさに付加的な依存を加えることなく相対誤差に変換する。 これらの構成を再帰することにより、$O \big ( (k \log k + \log m + \log(1/\epsilon) ) k\, \text{polylog}(k) \big )$ depth, ここで$m$はシステム全体の次元であり、$\epsilon$は近似誤差である。 この線形深度構成は[Harrow and Mehraban 2023, Open Issue 1]の1つの変種に答える。 さらに、下線深度スキームによって生じる絡み合いは、空間格子上の領域法則に従って、全系サイズで対数的な補正を行う。

Random unitaries are useful in quantum information and related fields but hard to generate with limited resources. An approximate unitary $k$-design is an ensemble of unitaries and measure over which the average is close to a Haar (uniformly) random ensemble up to the first $k$ moments. A particularly strong notion of approximation bounds the distance from Haar randomness in relative error: the approximate design can be written as a convex combination involving an exact design and vice versa. We construct multiplicative-error approximate unitary $k$-design ensembles for which communication between subsystems is $O(1)$ in the system size. These constructions use the alternating projection method to analyze overlapping Haar twirls, giving a bound on the convergence speed to the full twirl with respect to the $2$-norm. Using the von Neumann subalgebra indices to replace system dimension, the 2-norm distance converts to relative error without introducing any additional dependence on system size. Via recursion on these constructions, we construct a scheme yielding relative error designs in $O \big ( (k \log k + \log m + \log(1/\epsilon) ) k\, \text{polylog}(k) \big )$ depth, where $m$ is the dimension of the complete system and $\epsilon$ the approximation error. This sublinear depth construction answers one variant of [Harrow and Mehraban 2023, Open Problem 1]. Moreover, entanglement generated by the sublinear depth scheme follows area laws on spatial lattices up to corrections logarithmic in the full system size.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 言語モデルのロバストアライメントに向けて:分散ロバスト化直接選好最適化

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization ( http://arxiv.org/abs/2407.07880v1 )

ライセンス: Link先を確認
Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jiawei Chen, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He, (参考訳) 本研究では,Large Language Models(LLM)と人間の嗜好を整合させる手法であるDPO(Direct Preference Optimization)のトレーニングデータセットにおけるノイズの課題に対処する。 ノイズを低品質なデータポイントを含むポイントワイズノイズと、選好ランクに影響を及ぼす誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。 分散ロバスト最適化(DRO)を用いて,これらのノイズに対するDPOの弾力性を高める。 我々の理論的な洞察は、DPOがDROの原理を本質的に組み込んでおり、その雑音抵抗に重要な役割を果たす正規化係数$\beta$で、点方向の雑音に頑健性を与えることを示している。 このフレームワークを拡張して、最悪の場合のペアワイズシナリオに対して最適化することにより、ペアワイズロバストネスを統合する分散ロバスト化DPO(Dr. DPO)を導入する。 DPOの新しいハイパーパラメータ$\beta'$は、データペアの信頼性を微調整し、ノイズの多いトレーニング環境での探索とエクスプロイトの戦略的バランスを提供する。 実験による評価の結果,DPOは優先データセットにおける生成テキストの品質と応答精度を大幅に向上し,ノイズのない環境でもノイズのない環境でも性能が向上することが示された。 コードはhttps://github.com/junkangwu/Dr_DPOで公開されている。

This study addresses the challenge of noise in training datasets for Direct Preference Optimization (DPO), a method for aligning Large Language Models (LLMs) with human preferences. We categorize noise into pointwise noise, which includes low-quality data points, and pairwise noise, which encompasses erroneous data pair associations that affect preference rankings. Utilizing Distributionally Robust Optimization (DRO), we enhance DPO's resilience to these types of noise. Our theoretical insights reveal that DPO inherently embeds DRO principles, conferring robustness to pointwise noise, with the regularization coefficient $\beta$ playing a critical role in its noise resistance. Extending this framework, we introduce Distributionally Robustifying DPO (Dr. DPO), which integrates pairwise robustness by optimizing against worst-case pairwise scenarios. The novel hyperparameter $\beta'$ in Dr. DPO allows for fine-tuned control over data pair reliability, providing a strategic balance between exploration and exploitation in noisy training environments. Empirical evaluations demonstrate that Dr. DPO substantially improves the quality of generated text and response accuracy in preference datasets, showcasing enhanced performance in both noisy and noise-free settings. The code is available at https://github.com/junkangwu/Dr_DPO.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 繰り返しシンドローム測定によるデコヒート量子メモリの情報ダイナミクス--双対アプローチ

Information dynamics in decohered quantum memory with repeated syndrome measurements: a dual approach ( http://arxiv.org/abs/2407.07882v1 )

ライセンス: Link先を確認
Jacob Hauser, Yimu Bao, Shengqi Sang, Ali Lavasani, Utkarsh Agrawal, Matthew P. A. Fisher, (参考訳) 測定は、デコヒートされた量子メモリ内のエラーを検出することができ、アクティブなエラー訂正によりメモリ時間を増やすことができる。 このメカニズムのこれまでの理解は,測定結果に基づく誤り訂正アルゴリズムの性能評価に重点を置いている。 そこで本研究では,コヒーレントな情報と相対エントロピーを用いて,量子メモリ内の情報力学を連続的な測定により本質的に特徴付ける。 パウリの誤差と雑音の安定度測定を対象とする$d$次元安定化器コードの力学を考察し,情報理論診断のための$(d+1)$D$次元統計力学モデルを開発した。 我々のモデルは、これまで得られた最適復号化アルゴリズムのモデルと双対であり、量子メモリにおける潜在的な復号化遷移は、統計力学モデルにおける熱相転移として再び現れる。 我々は、このモデルを明示的に導出し、サーフェスコード、繰り返しコード、XZZXコードという3つの例で情報符号化における位相遷移を研究する。

Measurements can detect errors in a decohered quantum memory allowing active error correction to increase the memory time. Previous understanding of this mechanism has focused on evaluating the performance of error correction algorithms based on measurement results. In this work, we instead intrinsically characterize the information dynamics in a quantum memory under repeated measurements, using coherent information and relative entropy. We consider the dynamics of a $d$-dimensional stabilizer code subject to Pauli errors and noisy stabilizer measurements and develop a $(d+1)$-dimensional statistical mechanics model for the information-theoretic diagnostics. Our model is dual to the model previously obtained for the optimal decoding algorithm, and the potential decoding transition in the quantum memory again manifests as a thermal phase transition in the statistical mechanics model. We explicitly derive the model and study the phase transition in information encoding in three examples: surface codes, repetition codes, and the XZZX code.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 野菜ピーリング : 拘束性脱酸性マニピュレーションの1例

Vegetable Peeling: A Case Study in Constrained Dexterous Manipulation ( http://arxiv.org/abs/2407.07884v1 )

ライセンス: Link先を確認
Tao Chen, Eric Cousineau, Naveen Kuppuswamy, Pulkit Agrawal, (参考訳) 最近の研究は、特に手動物体の方向転換において、器用な操作の問題に対処する上で大きな進歩を遂げている。 しかし、下流タスクのために開発されたデクスタラス制御コントローラの潜在的利用を探求する既存の研究はほとんどない。 本研究では,食品の皮剥きに対する拘束的外反操作に着目した。 食品の剥がしは、方向転換コントローラに様々な制約を課し、例えば、手は、方向転換後の物体を確実に保持する必要がある。 そこで我々は,後続の剥離作業を容易にするリオリエンテーション制御系を学習するための簡単なシステムを提案する。 ビデオは、https://taochenshh.github.io/projects/veg-peeling.comで公開されている。

Recent studies have made significant progress in addressing dexterous manipulation problems, particularly in in-hand object reorientation. However, there are few existing works that explore the potential utilization of developed dexterous manipulation controllers for downstream tasks. In this study, we focus on constrained dexterous manipulation for food peeling. Food peeling presents various constraints on the reorientation controller, such as the requirement for the hand to securely hold the object after reorientation for peeling. We propose a simple system for learning a reorientation controller that facilitates the subsequent peeling task. Videos are available at: https://taochenshh.github.io/projects/veg-peeling.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 触覚皮膚による手指内翻訳の学習 : せん断・正常力センシングを用いて

Learning In-Hand Translation Using Tactile Skin With Shear and Normal Force Sensing ( http://arxiv.org/abs/2407.07885v1 )

ライセンス: Link先を確認
Jessica Yin, Haozhi Qi, Jitendra Malik, James Pikul, Mark Yim, Tess Hellebrekers, (参考訳) 近年の強化学習 (RL) と触覚感覚の進歩は, デキスタス操作を著しく進歩させた。 しかし,これらの手法は触覚シミュレーションと実世界とのギャップにより,簡易な触覚信号を利用することが多い。 3次せん断力と2次正規力のゼロショット・シミュレートを可能にする触覚皮膚センサモデルを提案する。 このモデルを用いて,手書き内訳にスライディングコンタクトを利用するRLポリシーを開発した。 触覚知覚が様々な未確認物体の特性やロボットの手の向きにどう適応するかを評価するために、広範囲にわたる実世界の実験を行った。 私たちの3軸触覚ポリシーは、せん断力のみ、正常力のみ、あるいはプロプレセプションのみを使用するベースラインを一貫して上回ります。 Webサイト: https://jessicayin.github.io/tactile-skin-rl/

Recent progress in reinforcement learning (RL) and tactile sensing has significantly advanced dexterous manipulation. However, these methods often utilize simplified tactile signals due to the gap between tactile simulation and the real world. We introduce a sensor model for tactile skin that enables zero-shot sim-to-real transfer of ternary shear and binary normal forces. Using this model, we develop an RL policy that leverages sliding contact for dexterous in-hand translation. We conduct extensive real-world experiments to assess how tactile sensing facilitates policy adaptation to various unseen object properties and robot hand orientations. We demonstrate that our 3-axis tactile policies consistently outperform baselines that use only shear forces, only normal forces, or only proprioception. Website: https://jessicayin.github.io/tactile-skin-rl/
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# AdaptiGraph: ロボットマニピュレーションのための物質適応型グラフベースニューラルダイナミクス

AdaptiGraph: Material-Adaptive Graph-Based Neural Dynamics for Robotic Manipulation ( http://arxiv.org/abs/2407.07889v1 )

ライセンス: Link先を確認
Kaifeng Zhang, Baoyu Li, Kris Hauser, Yunzhu Li, (参考訳) 予測モデルは、多くのロボットシステムにおいて重要な要素である。 しかし、様々な変形可能な物体、特に未知の物理的性質を持つ物体に対する正確な予測モデルの構築は、依然として重要な課題である。 本稿では,学習に基づく動的モデリング手法であるAdaptiGraphについて紹介する。 AdaptiGraphは、物質ビットを粒子として表現し、粒子の動きを予測するためにグラフニューラルネットワーク(GNN)を使用する、非常に柔軟なグラフベースのニューラルダイナミクス(GBND)フレームワークを利用している。 その重要な革新は、物理特性の異なる多種多様な物質の運動を再訓練せずに予測できる統一的な物理特性条件付きGBNDモデルである。 オンライン展開中に新しい材料に遭遇すると、AdaptiGraphは数ショットのモデル適応のために物理的プロパティ最適化プロセスを利用し、観測されたインタラクションデータに適合するようにした。 適応されたモデルは、剛性、粒度、圧力の中心など様々な物理的特性に適応しながら、動的を正確にシミュレートし、ロープ、粒状媒体、硬質箱、布などの様々な変形可能な材料の運動を予測することができる。 実世界の多種多様な変形可能な物体の予測と操作について,非物質条件および非適応モデルよりも優れた予測精度とタスク習熟度を示す。 プロジェクトページはhttps://robopil.github.io/adaptigraph/ で公開されている。

Predictive models are a crucial component of many robotic systems. Yet, constructing accurate predictive models for a variety of deformable objects, especially those with unknown physical properties, remains a significant challenge. This paper introduces AdaptiGraph, a learning-based dynamics modeling approach that enables robots to predict, adapt to, and control a wide array of challenging deformable materials with unknown physical properties. AdaptiGraph leverages the highly flexible graph-based neural dynamics (GBND) framework, which represents material bits as particles and employs a graph neural network (GNN) to predict particle motion. Its key innovation is a unified physical property-conditioned GBND model capable of predicting the motions of diverse materials with varying physical properties without retraining. Upon encountering new materials during online deployment, AdaptiGraph utilizes a physical property optimization process for a few-shot adaptation of the model, enhancing its fit to the observed interaction data. The adapted models can precisely simulate the dynamics and predict the motion of various deformable materials, such as ropes, granular media, rigid boxes, and cloth, while adapting to different physical properties, including stiffness, granular size, and center of pressure. On prediction and manipulation tasks involving a diverse set of real-world deformable objects, our method exhibits superior prediction accuracy and task proficiency over non-material-conditioned and non-adaptive models. The project page is available at https://robopil.github.io/adaptigraph/ .
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# テストタスク・コンファウンドの評価と創発に関する研修

Training on the Test Task Confounds Evaluation and Emergence ( http://arxiv.org/abs/2407.07890v1 )

ライセンス: Link先を確認
Ricardo Dominguez-Olmedo, Florian E. Dorner, Moritz Hardt, (参考訳) 本研究では,テストタスクのトレーニングと呼ぶ大規模言語モデルの評価における根本的な問題について検討する。 テストデータのトレーニングやリーク、データ汚染といった誤ったプラクティスとは異なり、テストタスクのトレーニングは誤った実践ではありません。 むしろこの用語は、言語モデルの事前訓練段階にタスク関連データを含める一連のテクニックを記述している。 テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを実証する。 我々は、あるモデルファミリが他のモデルファミリよりも優れているように見えることは、テストタスクにおける異なるレベルのトレーニングによって説明できるかもしれないと論じる。 そこで本研究では,評価前の同一タスク関連データとの比較により,各モデルを微調整することにより,テストタスクのトレーニングを効果的に調整する手法を提案する。 次に、テストタスクのトレーニングを調整すれば、創発的な振る舞いのインスタンスは、ほぼ消滅することを示す。 これはまた、評価指標の選択によって説明できない創発的行動の報告例にも適用される。 本研究は,ベンチマークや創発的能力研究に幅広い影響を及ぼす大規模言語モデルの評価について,新たな視点を提示する。

We study a fundamental problem in the evaluation of large language models that we call training on the test task. Unlike wrongful practices like training on the test data, leakage, or data contamination, training on the test task is not a malpractice. Rather, the term describes a growing set of techniques to include task-relevant data in the pretraining stage of a language model. We demonstrate that training on the test task confounds both relative model evaluations and claims about emergent capabilities. We argue that the seeming superiority of one model family over another may be explained by a different degree of training on the test task. To this end, we propose an effective method to adjust for training on the test task by fine-tuning each model under comparison on the same task-relevant data before evaluation. We then show that instances of emergent behavior largely vanish once we adjust for training on the test task. This also applies to reported instances of emergent behavior that cannot be explained by the choice of evaluation metric. Our work promotes a new perspective on the evaluation of large language models with broad implications for benchmarking and the study of emergent capabilities.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 準定常状態前処理のための量子アルゴリズム

Quantum Algorithm to Prepare Quasi-Stationary States ( http://arxiv.org/abs/2407.07893v1 )

ライセンス: Link先を確認
Samuel J. Garratt, Soonwon Choi, (参考訳) 量子力学はエネルギー固有状態の構造を通して解析することができる。 しかし、多体設定では、有限温度に関連する固有状態を作成するには、システムサイズと指数関数的にスケーリングする必要がある。 本研究では,高密度多体スペクトルの狭い窓にエネルギーを供給し,準定常状態を生成する効率的な量子探索アルゴリズムを提案する。 システムサイズと多項式のスケーリングでは、逆多項式エネルギー幅の状態を生成し、多体のダイナミクスを多項式時間まで解析することができる。 このアルゴリズムは量子特異値変換と量子信号処理に基づいており、測定に基づくアプローチよりも2次的なスピードアップを提供する。 このアルゴリズムは,多体量子系における熱化と流体力学のメカニズムを解明するためのプリミティブとしてどのように利用できるのかを論じる。

Quantum dynamics can be analyzed via the structure of energy eigenstates. However, in the many-body setting, preparing eigenstates associated with finite temperatures requires time scaling exponentially with system size. In this work we present an efficient quantum search algorithm which produces quasi-stationary states, having energies supported within narrow windows of a dense many-body spectrum. In time scaling polynomially with system size, the algorithm produces states with inverse polynomial energy width, which can in turn be used to analyze many-body dynamics out to polynomial times. The algorithm is based on quantum singular value transformations and quantum signal processing, and provides a quadratic speedup over measurement-based approaches. We discuss how this algorithm can be used as a primitive to investigate the mechanisms underlying thermalization and hydrodynamics in many-body quantum systems.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# LLaVA-NeXTインターリーブ:大規模マルチモーダルモデルにおけるマルチイメージ・ビデオ・3次元処理

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models ( http://arxiv.org/abs/2407.07895v1 )

ライセンス: Link先を確認
Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li, (参考訳) ビジュアル・インストラクション・チューニングはLMM(Large Multimodal Models)の能力向上に大きく貢献している。 しかし、既存のオープンLMMは、主にシングルイメージタスクに焦点を合わせており、それらのマルチイメージシナリオへの応用は、まだ検討されていない。 さらに、以前のLMM研究では、異なるシナリオに別々に取り組み、新たな機能を持つクロスシナリオを一般化することは不可能である。 この目的のために,LMMにおけるマルチイメージ,マルチフレーム(ビデオ),マルチビュー(3D),マルチパッチ(シングルイメージ)シナリオを同時に扱うLLaVA-NeXT-Interleaveを導入する。 これらの機能を実現するために、インターリーブされたデータフォーマットを一般的なテンプレートとみなし、1,177.6kのサンプルでM4-Instructデータセットをコンパイルし、14のタスクと41のデータセットで4つのプライマリドメインにまたがる。 また,LMMのマルチイメージ性能を総合的に評価するために,LLaVA-Interleave Benchをキュレートする。 大規模な実験を通じて、LLaVA-NeXT-Interleaveは、マルチイメージ、ビデオ、および3Dベンチマークにおいて、シングルイメージタスクのパフォーマンスを維持しながら、主要な結果を達成する。 さらに、当社のモデルは、例えば、異なる設定やモダリティ間でタスクを転送するといった、いくつかの新興機能も備えています。 コードはhttps://github.com/LLaVA-VL/LLaVA-NeXTで入手できる。

Visual instruction tuning has made considerable strides in enhancing the capabilities of Large Multimodal Models (LMMs). However, existing open LMMs largely focus on single-image tasks, their applications to multi-image scenarios remains less explored. Additionally, prior LMM research separately tackles different scenarios, leaving it impossible to generalize cross scenarios with new emerging capabilities. To this end, we introduce LLaVA-NeXT-Interleave, which simultaneously tackles Multi-image, Multi-frame (video), Multi-view (3D), and Multi-patch (single-image) scenarios in LMMs. To enable these capabilities, we regard the interleaved data format as a general template and compile the M4-Instruct dataset with 1,177.6k samples, spanning 4 primary domains with 14 tasks and 41 datasets. We also curate the LLaVA-Interleave Bench to comprehensively evaluate the multi-image performance of LMMs. Through extensive experiments, LLaVA-NeXT-Interleave achieves leading results in multi-image, video, and 3D benchmarks, while maintaining the performance of single-image tasks. Besides, our model also exhibits several emerging capabilities, e.g., transferring tasks across different settings and modalities. Code is available at https://github.com/LLaVA-VL/LLaVA-NeXT
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# ペンタゴナルフォトニック結晶ミラー:ニューラルトポロジー最適化による加速強化されたスケーラブルライトセイル

Pentagonal Photonic Crystal Mirrors: Scalable Lightsails with Enhanced Acceleration via Neural Topology Optimization ( http://arxiv.org/abs/2407.07896v1 )

ライセンス: Link先を確認
L. Norder, S. Yin, M. J. de Jong, F. Stallone, H. Aydogmus, P. M. Sberna, M. A. Bessa, R. A. Norte, (参考訳) Starshot Breakthrough Initiativeは、20年以内に1グラムのマイクロチッププローブをAlpha Centauriに送ることを目的としている。 このミッションには、ナノテクノロジーの基礎に挑戦する照明材料が必要であり、光学、材料科学、構造工学の革新を必要としている。 あらゆる次元で最小限にしなければならないマイクロチップのペイロードとは異なり、このようなライトセイルは、反射率を高め質量を減らすために、ナノスケールの厚さと数十億のナノスケールの穴を持つメートルスケールの寸法を必要とする。 我々の研究は、ニューラルトポロジー最適化を採用し、新しい五角形格子型フォトニック結晶(PhC)の反射体を明らかにした。 最適化された設計は加速時間を短縮し、打ち上げコストを大幅に削減した。 重要な点として、これらのデザインは、コストのオーダー・オブ・マグニチュード(英語版)削減によるライトセール材の製造を可能にする。 我々は60 x 60 mm$^2$, 200nmの厚さの単層リフレクターを10億個以上のナノスケール特性で孔食し, 今までで最高のアスペクト比のナノフォトニック素子を作製した。 我々はm$^2$あたり9000倍のコスト削減を達成した。 スターショットライトセイルにはいくつかの厳しい要件があるが、最終的には大規模に製造するコストによって駆動される。 ここでは、照明材料の開発における課題と解決の可能性を強調し、コスト効率のよい次世代宇宙探査のためのナノフォトニクスのスケーリングの可能性を示す。

The Starshot Breakthrough Initiative aims to send one-gram microchip probes to Alpha Centauri within 20 years, using gram-scale lightsails propelled by laser-based radiation pressure, reaching velocities nearing a fifth of light speed. This mission requires lightsail materials that challenge the fundamentals of nanotechnology, requiring innovations in optics, material science and structural engineering. Unlike the microchip payload, which must be minimized in every dimension, such lightsails need meter-scale dimensions with nanoscale thickness and billions of nanoscale holes to enhance reflectivity and reduce mass. Our study employs neural topology optimization, revealing a novel pentagonal lattice-based photonic crystal (PhC) reflector. The optimized designs shorten acceleration times, therefore lowering launch costs significantly. Crucially, these designs also enable lightsail material fabrication with orders-of-magnitude reduction in costs. We have fabricated a 60 x 60 mm$^2$, 200nm thick, single-layer reflector perforated with over a billion nanoscale features; the highest aspect-ratio nanophotonic element to date. We achieve this with nearly 9,000 times cost reduction per m$^2$. Starshot lightsails will have several stringent requirements but will ultimately be driven by costs to build at scale. Here we highlight challenges and possible solutions in developing lightsail materials - showcasing the potential of scaling nanophotonics for cost-effective next-generation space exploration.
翻訳日:2024-07-11 15:33:18 公開日:2024-07-10
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v5 )

ライセンス: Link先を確認
Hongyuan Lu, Haoran Yang, Haoyang Huang, Dongdong Zhang, Wai Lam, Furu Wei, (参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は膨大であるにもかかわらず、レアワードの翻訳に苦慮している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 この目的のために,入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを増強し,LLMの翻訳能力を引き出す新しい手法であるCoDを提案する。 CoDによるChatGPTの拡張は、FLORES-200の完全なテストセット上で、MNMTの13倍のchrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を大きく増加させることを示している。 さらに,多言語辞書のチェーン化の重要性や,低リソース言語における数ショットのデモに対するCoDの優位性も示している。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 低ランクニューラルネットワークの学習におけるハネシング直交性

Harnessing Orthogonality to Train Low-Rank Neural Networks ( http://arxiv.org/abs/2401.08505v4 )

ライセンス: Link先を確認
Daniel Coquelin, Katharina Flügel, Marie Weiel, Nicholas Kiefer, Charlotte Debus, Achim Streit, Markus Götz, (参考訳) 本研究は,ニューラルネットワークの学習力学を,トレーニングを通じて重みの特異値分解(SVD)を分析することによって研究する。 本研究は,多次元重みのSVD表現における直交基底がトレーニング中に安定していることを明らかにする。 そこで我々は,ニューラルネットワークの固有直交性を利用した新しいトレーニング手法であるOrthogonality-Informed Adaptive Low-Rank(OIALR)トレーニングを紹介した。 OIALRは、さまざまなデータセットと確立されたネットワークアーキテクチャのベンチマークで示されているように、既存のトレーニングワークフローを最小限の精度でシームレスに統合する。 適切なハイパーパラメータチューニングによって、OIALRは最先端のモデルを含む従来のトレーニング設定を超えることができる。

This study explores the learning dynamics of neural networks by analyzing the singular value decomposition (SVD) of their weights throughout training. Our investigation reveals that an orthogonal basis within each multidimensional weight's SVD representation stabilizes during training. Building upon this, we introduce Orthogonality-Informed Adaptive Low-Rank (OIALR) training, a novel training method exploiting the intrinsic orthogonality of neural networks. OIALR seamlessly integrates into existing training workflows with minimal accuracy loss, as demonstrated by benchmarking on various datasets and well-established network architectures. With appropriate hyperparameter tuning, OIALR can surpass conventional training setups, including those of state-of-the-art models.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformer for Text Detoxification (英語)

SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification ( http://arxiv.org/abs/2407.05449v2 )

ライセンス: Link先を確認
Elisei Rykov, Konstantin Zaytsev, Ivan Anisimov, Alexandr Voronin, (参考訳) 本稿では,SmurfCat チームの PAN-2024 コンペティションにおける多言語テキストの解法を提案する。 機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。 得られたデータを用いて,mT0 や Aya などの多言語列列列列モデルをテキストデトックス化タスクで微調整した。 最終モデルにORPOアライメント手法を適用した。 我々の最終モデルはわずか37億のパラメータしか持たず、ウクライナ語の最先端結果と他の言語の最先端結果が得られる。 競技では, 自動評価では0.52点, 最終評価では0.74点で2位となった。

This paper presents a solution for the Multilingual Text Detoxification task in the PAN-2024 competition of the SmurfCat team. Using data augmentation through machine translation and a special filtering procedure, we collected an additional multilingual parallel dataset for text detoxification. Using the obtained data, we fine-tuned several multilingual sequence-to-sequence models, such as mT0 and Aya, on a text detoxification task. We applied the ORPO alignment technique to the final model. Our final model has only 3.7 billion parameters and achieves state-of-the-art results for the Ukrainian language and near state-of-the-art results for other languages. In the competition, our team achieved first place in the automated evaluation with a score of 0.52 and second place in the final human evaluation with a score of 0.74.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 量子作用素に対する局所同変表現の学習

Learning local equivariant representations for quantum operators ( http://arxiv.org/abs/2407.06053v2 )

ライセンス: Link先を確認
Zhanghao Zhouyin, Zixi Gan, Shishir Kumar Pandey, Linfeng Zhang, Qiangqiang Gu, (参考訳) 密度汎関数理論(DFT)フレームワークにおけるハミルトン行列、重なり合い、密度行列などの量子作用素行列の予測は、材料特性を理解するために重要である。 現在の手法は個々の演算子に焦点を合わせ、大規模システムの効率性とスケーラビリティに苦慮することが多い。 本稿では、複数の量子演算子を予測するための新しい深層学習モデルSLEM(厳密な局所化同変メッセージパス)を紹介し、計算効率を劇的に向上させながら最先端の精度を実現する。 SLEMの重要な革新は、その厳密な局所性に基づく設計であり、物理対称性を維持しながら量子テンソルの局所的同変表現を構築することである。 これにより、効果的な受容場を拡張することなく複雑な多体依存が可能となり、データ効率と転送性が向上する。 革新的なSO(2)畳み込み法を用いて、SLEMは高次テンソル積の計算複雑性を低減し、従って基底集合に$f$と$g$の軌道を必要とするシステムを扱うことができる。 SLEMの能力は多種多様な2次元および3次元材料にまたがって実証し,限られた訓練データでも高い精度を達成できることを示した。 SLEMの設計は効率的な並列化を促進し、DFTシミュレーションをデバイスレベルのサイズを持つシステムに拡張し、大規模量子シミュレーションと高スループット材料発見の新たな可能性を開く。

Predicting quantum operator matrices such as Hamiltonian, overlap, and density matrices in the density functional theory (DFT) framework is crucial for understanding material properties. Current methods often focus on individual operators and struggle with efficiency and scalability for large systems. Here we introduce a novel deep learning model, SLEM (strictly localized equivariant message-passing) for predicting multiple quantum operators, that achieves state-of-the-art accuracy while dramatically improving computational efficiency. SLEM's key innovation is its strict locality-based design, constructing local, equivariant representations for quantum tensors while preserving physical symmetries. This enables complex many-body dependence without expanding the effective receptive field, leading to superior data efficiency and transferability. Using an innovative SO(2) convolution technique, SLEM reduces the computational complexity of high-order tensor products and is therefore capable of handling systems requiring the $f$ and $g$ orbitals in their basis sets. We demonstrate SLEM's capabilities across diverse 2D and 3D materials, achieving high accuracy even with limited training data. SLEM's design facilitates efficient parallelization, potentially extending DFT simulations to systems with device-level sizes, opening new possibilities for large-scale quantum simulations and high-throughput materials discovery.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 半自動研削(SAG)ミルのリアルタイム最適化のための自動外乱検出機能付きディジタルツイン

Digital twin with automatic disturbance detection for real-time optimization of a semi-autogenous grinding (SAG) mill ( http://arxiv.org/abs/2407.06216v2 )

ライセンス: Link先を確認
Paulina Quintanilla, Francisco Fernández, Cristobal Mancilla, Matías Rojas, Mauricio Estrada, Daniel Navia, (参考訳) 本研究は、エキスパートシステムによって制御される半自動研削(SAG)工場におけるディジタルツインの開発と検証について述べる。 デジタルツインは、専門家制御のためのファジィ論理、規制制御のための状態空間モデル、SAGミルプロセスのためのリカレントニューラルネットワークの3つのモジュールで構成されている。 モデルは68時間のデータでトレーニングされ、8時間のテストデータで検証された。 30秒のサンプリング時間で2.5分間の地平線内でのミルの挙動を予測する。 障害検出は、再トレーニングの必要性を評価し、デジタルツインは、SAGミルをエキスパート制御システムで監督する約束を示す。 今後は、このデジタルツインを産業的検証を伴うリアルタイム最適化戦略に統合することに注力する。

This work describes the development and validation of a digital twin for a semi-autogenous grinding (SAG) mill controlled by an expert system. The digital twin consists of three modules emulating a closed-loop system: fuzzy logic for the expert control, a state-space model for regulatory control, and a recurrent neural network for the SAG mill process. The model was trained with 68 hours of data and validated with 8 hours of test data. It predicts the mill's behavior within a 2.5-minute horizon with a 30-second sampling time. The disturbance detection evaluates the need for retraining, and the digital twin shows promise for supervising the SAG mill with the expert control system. Future work will focus on integrating this digital twin into real-time optimization strategies with industrial validation.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 自己監督型病理基盤モデルの臨床ベンチマーク

A Clinical Benchmark of Public Self-Supervised Pathology Foundation Models ( http://arxiv.org/abs/2407.06508v2 )

ライセンス: Link先を確認
Gabriele Campanella, Shengjia Chen, Ruchika Verma, Jennifer Zeng, Aryeh Stock, Matt Croken, Brandon Veremis, Abdulkadir Elmas, Kuan-lin Huang, Ricky Kwan, Jane Houldsworth, Adam J. Schoenfeld, Chad Vanderbilt, (参考訳) 病理基礎モデルのトレーニングにおける自己教師あり学習(SSL)の利用は,ここ数年で著しく増加している。 特に、大量の臨床データに基づいて訓練されたいくつかのモデルが、ここ数ヶ月で一般公開されている。 これにより、計算病理学の科学的研究が大幅に強化され、研究と臨床展開のギャップを埋める助けとなる。 異なるサイズの公立基礎モデルの可用性が向上し、異なるデータセット上で異なるアルゴリズムを用いて訓練されるようになると、複数の臓器や疾患にまたがる様々な臨床関連タスクにおいて、それらのモデルの性能を比較するためのベンチマークを確立することが重要となる。 本研究は、がん診断を含む臨床関連エンドポイントに関連する臨床スライドと、2つの医療センターから標準的な病院手術中に発生する各種バイオマーカーからなる病理データセットの収集について述べる。 これらのデータセットを利用して、公共病理基盤モデルの性能を体系的に評価し、新しい基礎モデルをトレーニングし、適切な事前学習モデルを選択するためのベストプラクティスに関する洞察を提供する。

The use of self-supervised learning (SSL) to train pathology foundation models has increased substantially in the past few years. Notably, several models trained on large quantities of clinical data have been made publicly available in recent months. This will significantly enhance scientific research in computational pathology and help bridge the gap between research and clinical deployment. With the increase in availability of public foundation models of different sizes, trained using different algorithms on different datasets, it becomes important to establish a benchmark to compare the performance of such models on a variety of clinically relevant tasks spanning multiple organs and diseases. In this work, we present a collection of pathology datasets comprising clinical slides associated with clinically relevant endpoints including cancer diagnoses and a variety of biomarkers generated during standard hospital operation from two medical centers. We leverage these datasets to systematically assess the performance of public pathology foundation models and provide insights into best practices for training new foundation models and selecting appropriate pretrained models.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# TriQXNet:不確かさを定量化した解釈可能な並列古典量子フレームワークによる太陽風データからのDst指数予測

TriQXNet: Forecasting Dst Index from Solar Wind Data Using an Interpretable Parallel Classical-Quantum Framework with Uncertainty Quantification ( http://arxiv.org/abs/2407.06658v2 )

ライセンス: Link先を確認
Md Abrar Jahin, M. F. Mridha, Zeyar Aung, Nilanjan Dey, R. Simon Sherratt, (参考訳) 太陽風による地球の磁場へのエネルギー移動による地磁気嵐は、GPS、衛星通信、電力網といった重要なインフラを破壊する可能性がある。 暴風雨時(Dst)指数は、嵐の強度を測定する。 実時間太陽風データを用いた経験的、物理学に基づく、および機械学習モデルの進歩にもかかわらず、極端に地磁気事象を正確に予測することは、ノイズやセンサーの故障のために難しいままである。 本研究は、Dst予測のためのハイブリッド古典量子ニューラルネットワークであるTriQXNetを紹介する。 我々のモデルは、古典的および量子コンピューティング、共形予測、およびハイブリッドアーキテクチャ内に説明可能なAI(XAI)を統合する。 高品質な入力データを確保するために,特徴選択,正規化,集約,計算を含む包括的前処理パイプラインを開発した。 TriQXNetはNASAのACEとNOAAのDSCOVR衛星からの事前処理された太陽風データを処理し、現在の時間と次の時間におけるDst指数を予測する。 TriQXNetは13の最先端ハイブリッドディープラーニングモデルより優れており、根平均2乗誤差は9.27ナノテラス(nT)である。 10倍のクロスバリッドペアTテストによる厳密な評価により,95%の信頼性で優れた性能が確認された。 コンフォーマル予測技術は、運用上の決定に不可欠である定量的不確実性を提供する一方、ShapTimeのようなXAIメソッドは解釈可能性を高める。 比較分析では、TriQXNetの予測精度が優れていること、地磁気嵐予測に対する新たな期待レベルを設定し、宇宙天気予報における古典的量子ハイブリッドモデルの可能性を強調している。

Geomagnetic storms, caused by solar wind energy transfer to Earth's magnetic field, can disrupt critical infrastructure like GPS, satellite communications, and power grids. The disturbance storm-time (Dst) index measures storm intensity. Despite advancements in empirical, physics-based, and machine-learning models using real-time solar wind data, accurately forecasting extreme geomagnetic events remains challenging due to noise and sensor failures. This research introduces TriQXNet, a novel hybrid classical-quantum neural network for Dst forecasting. Our model integrates classical and quantum computing, conformal prediction, and explainable AI (XAI) within a hybrid architecture. To ensure high-quality input data, we developed a comprehensive preprocessing pipeline that included feature selection, normalization, aggregation, and imputation. TriQXNet processes preprocessed solar wind data from NASA's ACE and NOAA's DSCOVR satellites, predicting the Dst index for the current hour and the next, providing vital advance notice to mitigate geomagnetic storm impacts. TriQXNet outperforms 13 state-of-the-art hybrid deep-learning models, achieving a root mean squared error of 9.27 nanoteslas (nT). Rigorous evaluation through 10-fold cross-validated paired t-tests confirmed its superior performance with 95% confidence. Conformal prediction techniques provide quantifiable uncertainty, which is essential for operational decisions, while XAI methods like ShapTime enhance interpretability. Comparative analysis shows TriQXNet's superior forecasting accuracy, setting a new level of expectations for geomagnetic storm prediction and highlighting the potential of classical-quantum hybrid models in space weather forecasting.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# マルチモーダル・セルフインストラクション:言語モデルを用いた合成抽象画像と視覚的推論インストラクション

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model ( http://arxiv.org/abs/2407.07053v2 )

ライセンス: Link先を確認
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang, (参考訳) 現在の大きなマルチモーダルモデル(LMM)の多くは、自然のシーンや肖像画の写真を既に理解することができるが、抽象的なイメージ、例えばチャート、地図、レイアウト、視覚的推論などの理解は、まだごく初歩的なままである。 彼らはしばしば、時計から時間を読み、フローチャートを理解し、道路地図を使ってルートを計画するといった単純な日々のタスクに苦労する。 そこで我々は,大規模な抽象画像と視覚的推論命令を日常のシナリオで合成するために,大規模言語モデルとそのコード機能を利用するマルチモーダル・セルフインストラクトを設計する。 私たちの戦略は、チャート、テーブル、シミュレートされたマップ、ダッシュボード、フローチャート、関係グラフ、フロアプラン、ビジュアルパズルという8つのビジュアルシナリオのための11,193のインストラクションを備えたマルチモーダルベンチマークを作成しています。 このベンチマークは単純な線と幾何学的要素で構築され、抽象的イメージ理解、空間関係推論、視覚的要素誘導において、Claude-3.5-Sonnet や GPT-4o のような最も先進的な LMM の欠点を明らかにする。 さらに, 合成データの質を検証するため, 62,476の合成チャート, 表, 道路地図の指示を用いてLMMを微調整する。 その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクに潜在的な利点が示された。 我々のコードは以下の通りである。

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. \textbf{This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs} like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: \url{https://github.com/zwq2018/Multi-modal-Self-instruct}.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# エージェントのインターネット: コラボレーションインテリジェンスのための異種エージェントのWebを織る

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence ( http://arxiv.org/abs/2407.07061v2 )

ライセンス: Link先を確認
Weize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、高い能力を持つ自律エージェントの開発への道を開いた。 しかし、既存のマルチエージェントフレームワークは、自身のエコシステム内で定義されたエージェントに依存するため、多様な有能なサードパーティエージェントの統合に苦慮することが多い。 また、ほとんどのフレームワークはシングルデバイス設定に限定されているため、分散環境をシミュレートする上でも課題に直面している。 さらに、これらのフレームワークはハードコードされた通信パイプラインに依存しており、動的タスク要求への適応性を制限する。 インターネットの概念に触発されて,LLMベースのマルチエージェントコラボレーションのためのフレキシブルでスケーラブルなプラットフォームを提供することにより,これらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。 汎用アシスタントタスク、具体化されたAIタスク、検索強化された生成ベンチマークに関する広範な実験を通じて、IoAは最先端のベースラインを一貫して上回り、異種エージェント間の効果的なコラボレーションを促進する能力を示す。 IoAは、エージェントがシームレスに協力してより大きなインテリジェンスと能力を達成する、インターネットのような環境で多様なエージェントをリンクするステップである。 コードベースは \url{https://github.com/OpenBMB/IoA} でリリースされています。

The rapid advancement of large language models (LLMs) has paved the way for the development of highly capable autonomous agents. However, existing multi-agent frameworks often struggle with integrating diverse capable third-party agents due to reliance on agents defined within their own ecosystems. They also face challenges in simulating distributed environments, as most frameworks are limited to single-device setups. Furthermore, these frameworks often rely on hard-coded communication pipelines, limiting their adaptability to dynamic task requirements. Inspired by the concept of the Internet, we propose the Internet of Agents (IoA), a novel framework that addresses these limitations by providing a flexible and scalable platform for LLM-based multi-agent collaboration. IoA introduces an agent integration protocol, an instant-messaging-like architecture design, and dynamic mechanisms for agent teaming and conversation flow control. Through extensive experiments on general assistant tasks, embodied AI tasks, and retrieval-augmented generation benchmarks, we demonstrate that IoA consistently outperforms state-of-the-art baselines, showcasing its ability to facilitate effective collaboration among heterogeneous agents. IoA represents a step towards linking diverse agents in an Internet-like environment, where agents can seamlessly collaborate to achieve greater intelligence and capabilities. Our codebase has been released at \url{https://github.com/OpenBMB/IoA}.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 3次元ガウス線トレーシング:粒子シーンの高速トレーシング

3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes ( http://arxiv.org/abs/2407.07090v2 )

ライセンス: Link先を確認
Nicolas Moenne-Loccoz, Ashkan Mirzaei, Or Perel, Riccardo de Lutio, Janick Martinez Esturo, Gavriel State, Sanja Fidler, Nicholas Sharp, Zan Gojcic, (参考訳) 3次元ガウススプラッティングのような粒子に基づく放射場表現は、複雑なシーンの再構成と再レンダリングにおいて大きな成功を収めている。 既存のほとんどの方法は、ラスタ化によって粒子を描画し、それらを選別順序で処理する空間タイルに投影する。 この研究は代わりに粒子をトレースし、境界体積階層を構築し、高性能なGPUレイトレーシングハードウェアを使用して各ピクセルにレイをキャストする。 半透明な粒子を多量に効率的に処理するために,高速な光線三角形の交点を利用するために境界メッシュで粒子をカプセル化し,深度順に交点のバッチをシェードする特殊なレンダリングアルゴリズムについて述べる。 レイトレーシングの利点はコンピュータグラフィックスでよく知られており、影や反射のような二次的な照明効果のための非コヒーレントな光線を処理すること、ロボット工学に共通する高度に歪んだカメラのレンダリング、統計的に光線をサンプリングすることなどである。 我々のレンダラでは、この柔軟性はラスタ化に比べてほとんどコストがかからない。 実験は、我々のアプローチの速度と精度、およびコンピュータグラフィックスとビジョンにおけるいくつかの応用を実証する。 さらに、粒子ヒット数を大幅に削減する一般化されたカーネル関数の簡単な使用を含む、基本ガウス表現に関する関連する改善を提案する。

Particle-based representations of radiance fields such as 3D Gaussian Splatting have found great success for reconstructing and re-rendering of complex scenes. Most existing methods render particles via rasterization, projecting them to screen space tiles for processing in a sorted order. This work instead considers ray tracing the particles, building a bounding volume hierarchy and casting a ray for each pixel using high-performance GPU ray tracing hardware. To efficiently handle large numbers of semi-transparent particles, we describe a specialized rendering algorithm which encapsulates particles with bounding meshes to leverage fast ray-triangle intersections, and shades batches of intersections in depth-order. The benefits of ray tracing are well-known in computer graphics: processing incoherent rays for secondary lighting effects such as shadows and reflections, rendering from highly-distorted cameras common in robotics, stochastically sampling rays, and more. With our renderer, this flexibility comes at little cost compared to rasterization. Experiments demonstrate the speed and accuracy of our approach, as well as several applications in computer graphics and vision. We further propose related improvements to the basic Gaussian representation, including a simple use of generalized kernel functions which significantly reduces particle hit counts.
翻訳日:2024-07-11 11:58:55 公開日:2024-07-10
# 未知状態を用いた実時間ホロスティックロボットの姿勢推定

Real-time Holistic Robot Pose Estimation with Unknown States ( http://arxiv.org/abs/2402.05655v3 )

ライセンス: Link先を確認
Shikun Ban, Juling Fan, Xiaoxuan Ma, Wentao Zhu, Yu Qiao, Yizhou Wang, (参考訳) RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。 従来の手法は有望な性能を達成してきたが、そのほとんどはロボットの内部状態、例えば接地型ロボット関節角の完全な知識を前提としている。 しかし、この仮定は現実的な状況では必ずしも有効ではない。 マルチロボットのコラボレーションや人間とロボットのインタラクションのような現実世界のアプリケーションでは、ロボットの関節状態は共有されず、信頼できないこともある。 一方, 従来のロボットの動作推定手法は, 計算負荷が重いため, リアルタイムアプリケーションをサポートできない。 本研究は,RGB画像からリアルタイムロボットのポーズ推定を行う上で,既知のロボットの状態を必要としない効率的なフレームワークを提案する。 本手法では,ロボットの状態パラメータ,キーポイント位置,ルート深さを推定し,各タスクにニューラルネットワークモジュールを用いて学習とシミュレートを容易にする。 特に、繰り返し最適化することなく、単一のフィードフォワードパスでの推論を実現する。 提案手法は,最先端の精度で12倍の速度向上を実現し,実時間で総合的なロボットのポーズ推定を可能にする。 コードとモデルはhttps://github.com/Oliverbansk/Holistic-Robot-Pose-Estimationで公開されている。

Estimating robot pose from RGB images is a crucial problem in computer vision and robotics. While previous methods have achieved promising performance, most of them presume full knowledge of robot internal states, e.g. ground-truth robot joint angles. However, this assumption is not always valid in practical situations. In real-world applications such as multi-robot collaboration or human-robot interaction, the robot joint states might not be shared or could be unreliable. On the other hand, existing approaches that estimate robot pose without joint state priors suffer from heavy computation burdens and thus cannot support real-time applications. This work introduces an efficient framework for real-time robot pose estimation from RGB images without requiring known robot states. Our method estimates camera-to-robot rotation, robot state parameters, keypoint locations, and root depth, employing a neural network module for each task to facilitate learning and sim-to-real transfer. Notably, it achieves inference in a single feed-forward pass without iterative optimization. Our approach offers a 12-time speed increase with state-of-the-art accuracy, enabling real-time holistic robot pose estimation for the first time. Code and models are available at https://github.com/Oliverbansk/Holistic-Robot-Pose-Estimation.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# SCAR: スタイル一貫性を考慮した応答ランク付けによる大規模言語モデルの効率的なインストラクションチューニング

SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking ( http://arxiv.org/abs/2406.10882v4 )

ライセンス: Link先を確認
Zhuang Li, Yuncheng Hua, Thuy-Trang Vu, Haolan Zhan, Lizhen Qu, Gholamreza Haffari, (参考訳) 近年の研究では、人間の専門家による一貫した応答スタイルを維持し、トレーニングセットにおけるデータ品質を向上させることで、微調整された大規模言語モデル(LLM)の性能を大幅に向上し、必要なトレーニング例の数を削減できることが示されている。 しかし、スタイルの正確な定義と、スタイル、データ品質、LLMパフォーマンスの関係は、まだ不明である。 本研究は、応答スタイルをプレゼンテーションスタイルとコンポジションスタイルに分解し、類似品質のトレーニングデータのうち、高いスタイル整合性を持つものがLLM性能の向上につながることを明らかにする。 そこで本研究では,SCAR(Style Consistency-Aware Response Ranking)を導入する。 完全なデータセットの上位25%から0.7%まで、最もスタイルに一貫性のある例を選択することで、微調整されたLLMは、コーディングとオープンエンドの質問回答ベンチマークにおいて、データセット全体でトレーニングされたモデルのパフォーマンスにマッチまたは超えることができる。 コードとデータはhttps://github.com/zhuang-li/SCAR で公開されている。

Recent studies have shown that maintaining a consistent response style by human experts and enhancing data quality in training sets can significantly improve the performance of fine-tuned Large Language Models (LLMs) while reducing the number of training examples needed. However, the precise definition of style and the relationship between style, data quality, and LLM performance remains unclear. This research decomposes response style into presentation and composition styles and finds that, among training data of similar quality, those with higher style consistency lead to better LLM performance. Inspired by this, we introduce Style Consistency-Aware Response Ranking (SCAR), which automatically prioritizes instruction-response pairs in the training set based on their response stylistic consistency. By selecting the most style-consistent examples, ranging from the top 25% to 0.7% of the full dataset, the fine-tuned LLMs can match or even surpass the performance of models trained on the entire dataset in coding and open-ended question-answering benchmarks. Code and data are available at https://github.com/zhuang-li/SCAR .
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# アインシュタイン-ポドルスキー-ローゼンステアリング基準と三部構造系の相関行列によるモノガミー関係

Einstein-Podolsky-Rosen Steering Criterion and Monogamy Relation via Correlation Matrices in Tripartite Systems ( http://arxiv.org/abs/2406.13290v3 )

ライセンス: Link先を確認
Li-Juan Li, Xiao-Gang Fan, Xue-Ke Song, Liu Ye, Dong Wang, (参考訳) 量子ステアリングは、量子力学において最もよく知られた非局所現象の1つであると考えられている。 エンタングルメントやベル非局所性とは異なり、量子ステアリングの非対称性は片側デバイス非依存の量子情報処理に不可欠である。 バイパルタイトシステムのステアリング検出には多くの進歩があったが、トリパルタイトシステムにおけるEPRステアリングの基準は依然として困難で不十分である。 本稿では,まず,相関行列を用いて,任意の3ビット状態に対する新規かつ有望な操舵基準を導出する。 さらに, 派生基準に基づいて, システムのトライパートライトステアリングとサブシステムのバイパートライトステアリングとのモノガミー関係を提案する。 最後に, ステアリング基準とモノガミーの関係を, いくつかの代表例を用いて示す。 この研究で提示された結果と手法は、近い将来、真のマルチパーティイト・ステアリングを捕捉する上で有益であると信じている。

Quantum steering is considered as one of the most well-known nonlocal phenomena in quantum mechanics. Unlike entanglement and Bell non-locality, the asymmetry of quantum steering makes it vital for one-sided device-independent quantum information processing. Although there has been much progress on steering detection for bipartite systems, the criterion for EPR steering in tripartite systems remains challenging and inadequate. In this paper, we firstly derive a novel and promising steering criterion for any three-qubit states via correlation matrix. Furthermore, we propose the monogamy relation between the tripartite steering of system and the bipartite steering of subsystems based on the derived criterion. Finally, as illustrations, we demonstrate the performance of the steering criterion and the monogamy relation by means of several representative examples. We believe that the results and methods presented in this work could be beneficial to capture genuine multipartite steering in the near future.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# DiffuseHigh: 構造誘導による無訓練プログレッシブ高分解能画像合成

DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance ( http://arxiv.org/abs/2406.18459v3 )

ライセンス: Link先を確認
Younghyun Kim, Geunmin Hwang, Junyu Zhang, Eunbyung Park, (参考訳) 近年、大規模な生成モデルが急増し、コンピュータビジョンの広大な分野が発達した。 特に、高忠実度画像生成の可能性から、テキスト・画像拡散モデルが様々な領域で広く採用されている。 それにもかかわらず、既存の大規模拡散モデルは1K解像度の画像を生成するために限られており、これは現代の商用応用の要求を満たすには程遠い。 高解像度画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状といった成果物によってマージされることが多い。 上記の問題に対処するには、通常、高解像度データセットのトレーニングや微調整が必要になります。 しかし、大規模な高解像度コンテンツやかなりの計算資源の収集が困難であることから、この取り組みは大きな課題となる。 いくつかの先行作品では代替案が提案されているが、しばしば説得力のある結果が得られない。 そこで本研究では,高分解能画像を生成するために,生成した低分解能画像を完全に活用する新しいプログレッシブ・アプローチを提案する。 本手法は,計算コストを大幅に削減する追加トレーニングや微調整の必要性を回避している。 その結果,本手法の有効性と有効性について検討した。 プロジェクトページ: https://yhyun225.github.io/DiffusHigh/

Recent surge in large-scale generative models has spurred the development of vast fields in computer vision. In particular, text-to-image diffusion models have garnered widespread adoption across diverse domain due to their potential for high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generate images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher resolution datasets. However, this undertaking poses a formidable challenge due to the difficulty in collecting large-scale high-resolution contents and substantial computational resources. While several preceding works have proposed alternatives, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond its original capability and propose a novel progressive approach that fully utilizes generated low-resolution image to guide the generation of higher resolution image. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. Project page: https://yhyun225.github.io/DiffusHigh/
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# 物体検出の形式的検証

Formal Verification of Object Detection ( http://arxiv.org/abs/2407.01295v3 )

ライセンス: Link先を確認
Avraham Raviv, Yizhak Y. Elboher, Michelle Aluf-Medina, Yael Leibovich Weiss, Omer Cohen, Roy Assa, Guy Katz, Hillel Kugler, (参考訳) Deep Neural Networks(DNN)は、現実世界のアプリケーションではユビキタスだが、エラーや敵攻撃に対して脆弱である。 この研究は、コンピュータビジョンモデルの安全性を確保するために正式な検証を適用するという課題に取り組み、画像分類を超えてオブジェクト検出まで検証を拡張した。 本稿では,オブジェクト検出モデルのロバスト性を形式的検証を用いて証明するための一般的な定式化と,最先端の検証ツールと互換性のある実装戦略の概要を提案する。 本手法により,分類モデルの検証を目的としたこれらのツールのオブジェクト検出への応用が可能となった。 対象検出のための様々な攻撃を定義し、敵入力がニューラルネットワークの出力を損なう様々な方法を説明する。 いくつかの共通データセットやネットワーク上で実施した実験では、オブジェクト検出モデルにおける潜在的なエラーを明らかにし、システムの脆弱性を強調し、これらの新しいドメインに形式的検証を拡張する必要性を強調した。 この研究は、幅広いコンピュータビジョンアプリケーションにまたがって形式的検証を統合するためのさらなる研究の道を開く。

Deep Neural Networks (DNNs) are ubiquitous in real-world applications, yet they remain vulnerable to errors and adversarial attacks. This work tackles the challenge of applying formal verification to ensure the safety of computer vision models, extending verification beyond image classification to object detection. We propose a general formulation for certifying the robustness of object detection models using formal verification and outline implementation strategies compatible with state-of-the-art verification tools. Our approach enables the application of these tools, originally designed for verifying classification models, to object detection. We define various attacks for object detection, illustrating the diverse ways adversarial inputs can compromise neural network outputs. Our experiments, conducted on several common datasets and networks, reveal potential errors in object detection models, highlighting system vulnerabilities and emphasizing the need for expanding formal verification to these new domains. This work paves the way for further research in integrating formal verification across a broader range of computer vision applications.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# GSD : 3次元再構成のためのビューガイド付きガウススプラッティング拡散法

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2407.04237v2 )

ライセンス: Link先を確認
Yuxuan Mu, Xinxin Zuo, Chuan Guo, Yilin Wang, Juwei Lu, Xiaofeng Wu, Songcen Xu, Peng Dai, Youliang Yan, Li Cheng, (参考訳) 単一視点からの3次元オブジェクト再構成のためのガウススプラッティング(GS)表現に基づく拡散モデルアプローチであるGSDを提案する。 以前の作品は不整合な3D幾何学や不整合表現による中間レンダリング品質に悩まされていた。 我々は,最近の最先端の3D明示表現,ガウススプラッティング,無条件拡散モデルを活用することで,これらの欠点を解決するための一歩を踏み出した。 このモデルは、GS楕円体の集合で表される3Dオブジェクトを生成することを学習する。 これらの強力な3D前駆体は、無条件で学習するが、拡散モデルは、さらなるモデル微調整をすることなく、ビュー誘導再構成の準備が整う。 これは、効率的かつフレキシブルなスプレイティング機能とガイドデノナイジングサンプリングプロセスにより、微細な2次元特徴を伝播させることによって達成される。 さらに、2次元拡散モデルを用いてレンダリングの忠実度を高め、レンダリング画像の研磨・再利用により再構成GSの品質を向上させる。 最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。 挑戦的な実世界のCO3Dデータセットの実験は、我々のアプローチの優位性を実証している。 プロジェクトページ: $\href{https://yxmu.foo/GSD/}{\text{this https URL}}$

We present GSD, a diffusion model approach based on Gaussian Splatting (GS) representation for 3D object reconstruction from a single view. Prior works suffer from inconsistent 3D geometry or mediocre rendering quality due to improper representations. We take a step towards resolving these shortcomings by utilizing the recent state-of-the-art 3D explicit representation, Gaussian Splatting, and an unconditional diffusion model. This model learns to generate 3D objects represented by sets of GS ellipsoids. With these strong generative 3D priors, though learning unconditionally, the diffusion model is ready for view-guided reconstruction without further model fine-tuning. This is achieved by propagating fine-grained 2D features through the efficient yet flexible splatting function and the guided denoising sampling process. In addition, a 2D diffusion model is further employed to enhance rendering fidelity, and improve reconstructed GS quality by polishing and re-using the rendered images. The final reconstructed objects explicitly come with high-quality 3D structure and texture, and can be efficiently rendered in arbitrary views. Experiments on the challenging real-world CO3D dataset demonstrate the superiority of our approach. Project page: $\href{https://yxmu.foo/GSD/}{\text{this https URL}}$
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# LMSeg:大規模3次元ランドスケープメッシュの効率的かつ正確なセマンティックセグメンテーションのためのディープグラフメッセージパッシングネットワーク

LMSeg: A deep graph message-passing network for efficient and accurate semantic segmentation of large-scale 3D landscape meshes ( http://arxiv.org/abs/2407.04326v2 )

ライセンス: Link先を確認
Zexian Huang, Kourosh Khoshelham, Gunditj Mirring Traditional Owners Corporation, Martin Tomko, (参考訳) 大規模3次元ランドスケープメッシュのセマンティックセグメンテーションは,空間解析や自動マッピング,対象物体の局所化,都市計画・開発など,様々な地理空間的応用において重要である。 これは、現実世界の環境を理解し分析するために、効率的で正確な3D認識システムを必要とする。 しかし、従来のメッシュセグメンテーション手法は、3Dスケープメッシュデータセットの複雑さと大きすぎるため、小さなオブジェクトを正確にセグメンテーションし、計算効率を維持するという課題に直面している。 本稿では,大規模3次元ランドスケープメッシュ上でのセマンティックセマンティックセグメンテーションを効率的かつ正確に行うために,エンドツーエンドのディープグラフメッセージパッシングネットワークであるLMSegを提案する。 提案手法は、メッシュのバリセントリックな双対グラフを入力とし、ディープメッセージパスニューラルネットワークを用いて、バリセントリックなグラフ構造から幾何学的および空間的特徴を階層的に捉え、テクスチャ化されたメッシュから複雑な意味情報を学習する。 偏心グラフの階層的および局所的なプーリングは、LMSegの効果的な幾何集約モジュールとともに、様々な複雑な風景において、小さくて不規則なメッシュオブジェクトの高速な推論と正確なセグメンテーションを可能にする。 2つのベンチマークデータセット(自然景観と都市景観)の大規模な実験により、LMSegは既存の学習ベースセグメンテーション手法よりも、オブジェクトセグメンテーションの精度と計算効率において著しく優れていることが示された。 さらに,本手法は多様な景観にまたがる強力な一般化能力を示し,メッシュ密度や景観トポロジに対する堅牢なレジリエンスを示す。

Semantic segmentation of large-scale 3D landscape meshes is pivotal for various geospatial applications, including spatial analysis, automatic mapping and localization of target objects, and urban planning and development. This requires an efficient and accurate 3D perception system to understand and analyze real-world environments. However, traditional mesh segmentation methods face challenges in accurately segmenting small objects and maintaining computational efficiency due to the complexity and large size of 3D landscape mesh datasets. This paper presents an end-to-end deep graph message-passing network, LMSeg, designed to efficiently and accurately perform semantic segmentation on large-scale 3D landscape meshes. The proposed approach takes the barycentric dual graph of meshes as inputs and applies deep message-passing neural networks to hierarchically capture the geometric and spatial features from the barycentric graph structures and learn intricate semantic information from textured meshes. The hierarchical and local pooling of the barycentric graph, along with the effective geometry aggregation modules of LMSeg, enable fast inference and accurate segmentation of small-sized and irregular mesh objects in various complex landscapes. Extensive experiments on two benchmark datasets (natural and urban landscapes) demonstrate that LMSeg significantly outperforms existing learning-based segmentation methods in terms of object segmentation accuracy and computational efficiency. Furthermore, our method exhibits strong generalization capabilities across diverse landscapes and demonstrates robust resilience against varying mesh densities and landscape topologies.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# 眼底写真を用いた緑内障診断のためのグラフガイドテスト時間適応

Graph-Guided Test-Time Adaptation for Glaucoma Diagnosis using Fundus Photography ( http://arxiv.org/abs/2407.04396v2 )

ライセンス: Link先を確認
Qian Zeng, Le Zhang, Yipeng Liu, Ce Zhu, Fan Zhang, (参考訳) 緑内障は世界中で不可逆的な盲目の原因となっている。 眼底画像を用いたディープラーニングアプローチは緑内障の早期診断を大幅に改善してきたが、異なるデバイスや場所(ドメインシフトとして知られる)の画像の変化は、実世界の環境で事前訓練されたモデルの使用に挑戦している。 そこで我々は,緑内障の診断モデルを未知のテスト環境に一般化するための新しいグラフ誘導テスト時間適応(GTTA)フレームワークを提案する。 GTTAは、基礎画像のトポロジ的情報をモデルトレーニングに統合し、モデルの転送可能性を高め、スプリアス相関の学習リスクを低減する。 推論中、GTTAは、信頼性の高いクラス条件推定と整合性正規化によって、ソーストレーニングされた分類器をターゲットパターンに段階的に適応させる、新しいテストタイムトレーニング目標を導入した。 クロスドメイン緑内障診断ベンチマークの実験は、異なるバックボーンネットワーク下での全体的なフレームワークと個々のコンポーネントの優位性を実証している。

Glaucoma is a leading cause of irreversible blindness worldwide. While deep learning approaches using fundus images have largely improved early diagnosis of glaucoma, variations in images from different devices and locations (known as domain shifts) challenge the use of pre-trained models in real-world settings. To address this, we propose a novel Graph-guided Test-Time Adaptation (GTTA) framework to generalize glaucoma diagnosis models to unseen test environments. GTTA integrates the topological information of fundus images into the model training, enhancing the model's transferability and reducing the risk of learning spurious correlation. During inference, GTTA introduces a novel test-time training objective to make the source-trained classifier progressively adapt to target patterns with reliable class conditional estimation and consistency regularization. Experiments on cross-domain glaucoma diagnosis benchmarks demonstrate the superiority of the overall framework and individual components under different backbone networks.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# OneRestore: 複合劣化のためのユニバーサル復元フレームワーク

OneRestore: A Universal Restoration Framework for Composite Degradation ( http://arxiv.org/abs/2407.04621v4 )

ライセンス: Link先を確認
Yu Guo, Yuan Gao, Yuxu Lu, Huilin Zhu, Ryan Wen Liu, Shengfeng He, (参考訳) 現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。 この事実にもかかわらず、既存の修復手法は通常、孤立した分解タイプをターゲットにしており、複数の劣化要因が共存する環境では不足している。 本研究は, このギャップを埋めるために, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。 本研究では,適応的かつ制御可能なシーン復元を目的とした,新しいトランスフォーマーベースのフレームワークであるOneRestoreを提案する。 提案フレームワークは,劣化したシーンディスクリプタと画像特徴を融合したユニークなクロスアテンション機構を利用して,ニュアンスド復元を実現する。 本モデルでは,手動テキスト埋め込みから視覚属性に基づく自動抽出まで,多目的な入力シーン記述を可能にする。 モデル制約を補強するために, 余剰劣化画像を負のサンプルとして用いて, 複合劣化修復損失を増大させる。 合成および実世界のデータセットの比較結果は、OneRestoreが優れたソリューションであることを示している。

In real-world scenarios, image impairments often manifest as composite degradations, presenting a complex interplay of elements such as low light, haze, rain, and snow. Despite this reality, existing restoration methods typically target isolated degradation types, thereby falling short in environments where multiple degrading factors coexist. To bridge this gap, our study proposes a versatile imaging model that consolidates four physical corruption paradigms to accurately represent complex, composite degradation scenarios. In this context, we propose OneRestore, a novel transformer-based framework designed for adaptive, controllable scene restoration. The proposed framework leverages a unique cross-attention mechanism, merging degraded scene descriptors with image features, allowing for nuanced restoration. Our model allows versatile input scene descriptors, ranging from manual text embeddings to automatic extractions based on visual attributes. Our methodology is further enhanced through a composite degradation restoration loss, using extra degraded images as negative samples to fortify model constraints. Comparative results on synthetic and real-world datasets demonstrate OneRestore as a superior solution, significantly advancing the state-of-the-art in addressing complex, composite degradations.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# 素晴らしいモデルがたくさんあることによる驚くべきこと

Amazing Things Come From Having Many Good Models ( http://arxiv.org/abs/2407.04846v2 )

ライセンス: Link先を確認
Cynthia Rudin, Chudi Zhong, Lesia Semenova, Margo Seltzer, Ronald Parr, Jiachang Liu, Srikar Katta, Jon Donnelly, Harry Chen, Zachery Boner, (参考訳) レオ・ブレイマン(Leo Breiman)が提唱したラショウモン効果は、同じデータセットに対して同様に良い予測モデルが存在するという現象を記述している。 この現象は多くの実際のデータセットで発生し、その場合マジックとスターネーションの両方を引き起こすが、ほとんどが魔法である。 羅生門効果に着目して、この視点は、特に非決定論的(ノイズの多い)セッティングにおける表型データ問題に対して、機械学習に対する考え方を変えることを提案する。 本稿は,(1)単純かつ高精度なモデルの存在,(2)公正性や単調性といったユーザの好みに対処する柔軟性,(3)予測の不確実性,公平性,説明,(4)信頼性のある変数の重要度,(5)アルゴリズムの選択,特に,与えられた問題に適したアルゴリズムの高度な知識の提供,(6)公共政策について論じる。 また、羅生門効果の発生時期と理由についても論じる。 私たちのゴールは、Rashomon効果が社会の複雑な問題に対する機械学習の利用に大きな影響を与えるかを説明することです。

The Rashomon Effect, coined by Leo Breiman, describes the phenomenon that there exist many equally good predictive models for the same dataset. This phenomenon happens for many real datasets and when it does, it sparks both magic and consternation, but mostly magic. In light of the Rashomon Effect, this perspective piece proposes reshaping the way we think about machine learning, particularly for tabular data problems in the nondeterministic (noisy) setting. We address how the Rashomon Effect impacts (1) the existence of simple-yet-accurate models, (2) flexibility to address user preferences, such as fairness and monotonicity, without losing performance, (3) uncertainty in predictions, fairness, and explanations, (4) reliable variable importance, (5) algorithm choice, specifically, providing advanced knowledge of which algorithms might be suitable for a given problem, and (6) public policy. We also discuss a theory of when the Rashomon Effect occurs and why. Our goal is to illustrate how the Rashomon Effect can have a massive impact on the use of machine learning for complex problems in society.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# 3次元視覚接地のためのマルチブランチ協調学習ネットワーク

Multi-branch Collaborative Learning Network for 3D Visual Grounding ( http://arxiv.org/abs/2407.05363v2 )

ライセンス: Link先を確認
Zhipeng Qian, Yiwei Ma, Zhekai Lin, Jiayi Ji, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji, (参考訳) 3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。 しかし、既存の協調的なアプローチは、1つのタスクの結果に大きく依存し、もう1つのタスクの予測を行い、効果的なコラボレーションを制限する。 3DRECタスクと3DRESタスクに個別のブランチを採用することで、各タスクの特定の情報を学ぶ能力が向上し、補完的な知識が得られます。 そこで本研究では、3DRECタスクと3DRESタスクの独立ブランチを含むMCLNフレームワークを提案する。 これにより、各タスクの専用の探索と、ブランチ間の効果的な調整が可能になる。 さらに,これらの分岐間の相互強化を容易にするために,相対的スーパーポイントアグリゲーション (RSA) モジュールと適応的ソフトアライメント (ASA) モジュールを導入する。 これらのモジュールは2つの分岐からの予測結果の正確なアライメントに大きく貢献し、モジュールにキー位置への注意を割り当てるよう指示した。 その結果,3DRECではAcc@0.5,3DRESでは3.96%,3DRECではAcc@0.5,mIoUでは3DRESでは3.96%の増加が得られた。

3D referring expression comprehension (3DREC) and segmentation (3DRES) have overlapping objectives, indicating their potential for collaboration. However, existing collaborative approaches predominantly depend on the results of one task to make predictions for the other, limiting effective collaboration. We argue that employing separate branches for 3DREC and 3DRES tasks enhances the model's capacity to learn specific information for each task, enabling them to acquire complementary knowledge. Thus, we propose the MCLN framework, which includes independent branches for 3DREC and 3DRES tasks. This enables dedicated exploration of each task and effective coordination between the branches. Furthermore, to facilitate mutual reinforcement between these branches, we introduce a Relative Superpoint Aggregation (RSA) module and an Adaptive Soft Alignment (ASA) module. These modules significantly contribute to the precise alignment of prediction results from the two branches, directing the module to allocate increased attention to key positions. Comprehensive experimental evaluation demonstrates that our proposed method achieves state-of-the-art performance on both the 3DREC and 3DRES tasks, with an increase of 2.05% in Acc@0.5 for 3DREC and 3.96% in mIoU for 3DRES.
翻訳日:2024-07-11 11:51:02 公開日:2024-07-10
# SBoRA: 地域重み更新による低ランク適応

SBoRA: Low-Rank Adaptation with Regional Weight Updates ( http://arxiv.org/abs/2407.05413v2 )

ライセンス: Link先を確認
Lai-Man Po, Yuyang Liu, Haoxuan Wu, Tianqi Zhang, Wing-Yin Yu, Zeyu Jiang, Kun Li, (参考訳) 本稿では,Low-Rank Adaptation (LoRA) とOrthogonal Adaptation (Orthogonal Adaptation) の先駆的な業績を生かした,大規模言語モデルのためのパラメータ効率の良い微調整手法であるStandard Basis LoRA(SBoRA)を紹介する。 SBoRAは、学習性能を高めながら、LoRAの計算およびメモリ要求をさらに削減する。 直交標準基底ベクトルを利用してAまたはBのいずれかの低ランク行列を初期化することにより、SBoRAは局所的な重み更新とメモリ効率の良い微調整を可能にする。 このアプローチは、SBoRA-FAとSBoRA-FBの2つの変種を生み出し、そこでは、行列の1つだけが更新され、結果として、行や列の多数がスパース更新行列となる。 その結果、微調整されたモデルの重量の大部分は、事前訓練された重量から変化しないままとなった。 このSBoRAの特徴は、局所的な体重の更新が起こり、新しいタスクに効率的に適応する人間の脳のモジュラー構造を思い出させる。 実験の結果,Lora よりも SBoRA-FA の方が,コモンセンス推論や算術推論など,様々な微調整タスクにおいて優れていることが示された。 さらに、様々なスケールの量子化LLaMAモデルにおけるQSBoRAの有効性を評価し、新しいタスクへの効率的な適応の可能性を強調した。 コードはhttps://github.com/cityuhkai/SBoRAで公開されている。

This paper introduces Standard Basis LoRA (SBoRA), a novel parameter-efficient fine-tuning approach for Large Language Models that builds upon the pioneering works of Low-Rank Adaptation (LoRA) and Orthogonal Adaptation. SBoRA further reduces the computational and memory requirements of LoRA while enhancing learning performance. By leveraging orthogonal standard basis vectors to initialize one of the low-rank matrices, either A or B, SBoRA enables regional weight updates and memory-efficient fine-tuning. This approach gives rise to two variants, SBoRA-FA and SBoRA-FB, where only one of the matrices is updated, resulting in a sparse update matrix with a majority of zero rows or columns. Consequently, the majority of the fine-tuned model's weights remain unchanged from the pre-trained weights. This characteristic of SBoRA, wherein regional weight updates occur, is reminiscent of the modular organization of the human brain, which efficiently adapts to new tasks. Our empirical results demonstrate the superiority of SBoRA-FA over LoRA in various fine-tuning tasks, including commonsense reasoning and arithmetic reasoning. Furthermore, we evaluate the effectiveness of QSBoRA on quantized LLaMA models of varying scales, highlighting its potential for efficient adaptation to new tasks. Code is available at https://github.com/cityuhkai/SBoRA
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 任意のセゲ関数に対する無限量子信号処理

Infinite quantum signal processing for arbitrary Szegő functions ( http://arxiv.org/abs/2407.05634v2 )

ライセンス: Link先を確認
Michel Alexis, Lin Lin, Gevorg Mnatsakanyan, Christoph Thiele, Jiasu Wang, (参考訳) Szeg\H{o} 関数は対数積分可能性条件を満たす関数であり、量子信号処理表現を許容するほとんどすべての関数を含む。 我々はリーマン・ヒルベルト・ワイスアルゴリズムと呼ばれる新しいアルゴリズムを導入し、他のすべての位相因子とは独立に任意の位相因子を計算できる。 我々のアルゴリズムは任意のSzeg\H{o}関数の位相係数を計算するための最初の安定な数値アルゴリズムでもある。 安定性の証明は、スペクトル理論の要素を用いた非線形フーリエ解析においてリーマン・ヒルベルト分解問題を解くことを含む。

We provide a complete solution to the problem of infinite quantum signal processing for the class of Szeg\H{o} functions, which are functions that satisfy a logarithmic integrability condition and include almost any function that allows for a quantum signal processing representation. We do so by introducing a new algorithm called the Riemann-Hilbert-Weiss algorithm, which can compute any individual phase factor independent of all other phase factors. Our algorithm is also the first provably stable numerical algorithm for computing phase factors of any arbitrary Szeg\H{o} function. The proof of stability involves solving a Riemann-Hilbert factorization problem in nonlinear Fourier analysis using elements of spectral theory.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# コーンビームCT画像からの歯の識別と3次元境界箱抽出の効率化

An efficient method to automate tooth identification and 3D bounding box extraction from Cone Beam CT Images ( http://arxiv.org/abs/2407.05892v2 )

ライセンス: Link先を確認
Ignacio Garrido Botella, Ignacio Arranz Águeda, Juan Carlos Armenteros Carmona, Oleg Vorontsov, Fernando Bayón Robledo, Evgeny Solovykh, Obrubov Aleksandr Andreevich, Adrián Alonso Barriuso, (参考訳) Cone Beam Computed Tomography (CBCT) 画像からの歯の正確な識別, 局在, 分離は, 歯の病態解析に不可欠である。 個々の歯のモデリングは、特に充填やその他の修復物が人工物を導入する場合、困難で複雑である。 本稿では,CBCT画像から歯を自動検出,識別,抽出する手法を提案する。 本手法では,3次元画像を軸スライスに分割して画像検出を行う。 歯は1段階の物体検出器を用いてピンポイントされラベル付けされる。 その後、境界ボックスをデライン化して識別し、各歯の3次元表現を生成する。 提案手法は歯科分析ツールの伝具にうまく組み込まれている。

Accurate identification, localization, and segregation of teeth from Cone Beam Computed Tomography (CBCT) images are essential for analyzing dental pathologies. Modeling an individual tooth can be challenging and intricate to accomplish, especially when fillings and other restorations introduce artifacts. This paper proposes a method for automatically detecting, identifying, and extracting teeth from CBCT images. Our approach involves dividing the three-dimensional images into axial slices for image detection. Teeth are pinpointed and labeled using a single-stage object detector. Subsequently, bounding boxes are delineated and identified to create three-dimensional representations of each tooth. The proposed solution has been successfully integrated into the dental analysis tool Dentomo.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 4次元逆流は高密度な3次元表現学習者である

4D Contrastive Superflows are Dense 3D Representation Learners ( http://arxiv.org/abs/2407.06190v2 )

ライセンス: Link先を確認
Xiang Xu, Lingdong Kong, Hui Shuai, Wenwei Zhang, Liang Pan, Kai Chen, Ziwei Liu, Qingshan Liu, (参考訳) 自動運転の分野では、正確な3D認識が基礎となっている。 しかし、そのようなモデルを開発するには、コストと労力のかかるプロセスである広範囲な人間のアノテーションに依存します。 データ表現学習の観点から、この課題に対処するために、時空間事前学習の目的を確立するために連続的なLiDARカメラペアを利用する新しいフレームワークであるSuperFlowを紹介する。 SuperFlowは2つの重要な設計を統合することで際立っている。 1) 特徴学習中の点雲密度変化に対する感度を高める高密度・疎整整合正則化、及び 2) 簡易なセンサキャリブレーションから有意義な時間的手がかりを抽出するフローベースコントラスト学習モジュール。 学習効率をさらに高めるため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。 11の異種LiDARデータセットに対する大規模な比較およびアブレーション研究は、我々の有効性と優越性を検証した。 さらに,2次元および3次元のバックボーンを事前トレーニング中にスケールアップし,LiDARに基づく知覚のための3次元基礎モデルの今後の研究に光を当てることにより,いくつかの興味深い新興特性を観察する。

In the realm of autonomous driving, accurate 3D perception is the foundation. However, developing such models relies on extensive human annotations -- a process that is both costly and labor-intensive. To address this challenge from a data representation learning perspective, we introduce SuperFlow, a novel framework designed to harness consecutive LiDAR-camera pairs for establishing spatiotemporal pretraining objectives. SuperFlow stands out by integrating two key designs: 1) a dense-to-sparse consistency regularization, which promotes insensitivity to point cloud density variations during feature learning, and 2) a flow-based contrastive learning module, carefully crafted to extract meaningful temporal cues from readily available sensor calibrations. To further boost learning efficiency, we incorporate a plug-and-play view consistency module that enhances the alignment of the knowledge distilled from camera views. Extensive comparative and ablation studies across 11 heterogeneous LiDAR datasets validate our effectiveness and superiority. Additionally, we observe several interesting emerging properties by scaling up the 2D and 3D backbones during pretraining, shedding light on the future research of 3D foundation models for LiDAR-based perception.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 自動運転における安全性の向上--エンド・ツー・エンドナビゲーションにおける潜在状態拡散モデルの統合

Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation ( http://arxiv.org/abs/2407.06317v2 )

ライセンス: Link先を確認
Jianuo Huang, Zhenlong Fang, (参考訳) 自動運転の進歩により、移動計画やナビゲーションにおける安全性の確保がますます重要になっている。 しかし、ほとんどのエンドツーエンドの計画手法は安全性の欠如に悩まされている。 本研究は、CMDP(Constrained Markov Decision Processs)として定式化された自動運転の制御最適化問題における安全性問題に対処する。 複雑な高次元状態空間における制約を効果的に管理するために,条件付きバリュー・アット・リスクに基づくソフト・アクター・クリティカルを用いて,ポリシー最適化のための新しいモデルベースアプローチを提案する。 本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。 政策最適化は拡張ラグランジアン法を採用し、遅延拡散モデルを利用して将来の軌道を予測しシミュレーションする。 この2つのアプローチは、環境を安全にナビゲートするだけでなく、環境の不確実性を考慮した流通モデルを統合することで、政策のパフォーマンスを向上する。 シミュレーションと実環境の両方で実施した実証評価では,既存の手法よりも安全性,効率,意思決定能力が優れていた。

With the advancement of autonomous driving, ensuring safety during motion planning and navigation is becoming more and more important. However, most end-to-end planning methods suffer from a lack of safety. This research addresses the safety issue in the control optimization problem of autonomous driving, formulated as Constrained Markov Decision Processes (CMDPs). We propose a novel, model-based approach for policy optimization, utilizing a conditional Value-at-Risk based Soft Actor Critic to manage constraints in complex, high-dimensional state spaces effectively. Our method introduces a worst-case actor to guide safe exploration, ensuring rigorous adherence to safety requirements even in unpredictable scenarios. The policy optimization employs the Augmented Lagrangian method and leverages latent diffusion models to predict and simulate future trajectories. This dual approach not only aids in navigating environments safely but also refines the policy's performance by integrating distribution modeling to account for environmental uncertainties. Empirical evaluations conducted in both simulated and real environment demonstrate that our approach outperforms existing methods in terms of safety, efficiency, and decision-making capabilities.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 浅部ニューラルネットワークを用いた三階有限差重み付き本質的に非振動方式

A third-order finite difference weighted essentially non-oscillatory scheme with shallow neural network ( http://arxiv.org/abs/2407.06333v2 )

ライセンス: Link先を確認
Kwanghyuk Park, Xinjuan Chen, Dongjin Lee, Jiaxi Gu, Jae-Hun Jung, (参考訳) 本稿では, 双曲的保存法則のニューラルネットワークに基づく, 本質的に非振動性(WENO)スキームの有限差分について述べる。 平均二乗誤差と平均二乗誤差の2つの損失関数を用いて、WENO3-JS重みをラベルとして計算する。 各損失関数は、ニューラルネットワークからの重みとWENO3-JS重みの差を第1成分が比較し、第2成分がニューラルネットワークの出力重みと線形重みとを一致させる2つの成分からなる。 損失関数の前者では、ニューラルネットワークがWENOプロパティに従うように強制されるため、後処理層は不要である。 さらに、後者は不連続性に関するパフォーマンスの向上につながります。 ニューラルネットワーク構造として、正規化未分割差分からなるデルタ層を用いて、計算効率を高めるための浅部ニューラルネットワーク(SNN)を選択する。 これらのWENO3-SNNスキームは, WENO3-JSとWENO3-Zのシミュレーションと比較して, 1次元実例で優れた結果を示し, 2次元実例で改善された挙動を示した。

In this paper, we introduce the finite difference weighted essentially non-oscillatory (WENO) scheme based on the neural network for hyperbolic conservation laws. We employ the supervised learning and design two loss functions, one with the mean squared error and the other with the mean squared logarithmic error, where the WENO3-JS weights are computed as the labels. Each loss function consists of two components where the first component compares the difference between the weights from the neural network and WENO3-JS weights, while the second component matches the output weights of the neural network and the linear weights. The former of the loss function enforces the neural network to follow the WENO properties, implying that there is no need for the post-processing layer. Additionally the latter leads to better performance around discontinuities. As a neural network structure, we choose the shallow neural network (SNN) for computational efficiency with the Delta layer consisting of the normalized undivided differences. These constructed WENO3-SNN schemes show the outperformed results in one-dimensional examples and improved behavior in two-dimensional examples, compared with the simulations from WENO3-JS and WENO3-Z.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# コンピュータビジョンと機械学習を用いた高速フェノタイピング

High-Throughput Phenotyping using Computer Vision and Machine Learning ( http://arxiv.org/abs/2407.06354v2 )

ライセンス: Link先を確認
Vivaan Singhvi, Langalibalele Lunga, Pragya Nidhi, Chris Keum, Varrun Prakash, (参考訳) 高スループット表現型は、植物表現型の非破壊的で効率的な評価である。 近年、大規模データセットの処理効率を高め、特定の形質を抽出する手法を開発することで、植物を表現型化するプロセスを改善するために機械学習と結合されている。 従来の研究では、ディープニューラルネットワークを自動カメラでタンデムに応用することで、これらの課題を前進させる方法が開発されてきたが、研究されているデータセットはしばしば物理的なラベルを除外している。 本研究では,オークリッジ国立研究所が提供した1,672枚のPopulus Trichocarpaの画像と,処理(制御や干ばつ),ブロック,行,位置,遺伝子型を示す白いラベルを用いたデータセットを用いた。 光文字認識(OCR)は植物上でこれらのラベルを読み取るのに用いられ、機械学習アルゴリズムと併用した画像分割技術は形態分類に使われ、機械学習モデルはそれらの分類に基づいて治療を予測するために用いられ、解析されたEXIFタグは葉の大きさと表現型間の相関を見出すために使用された。 我々のOCRモデルは、非ヌルテキスト抽出に対して94.31%の精度を持ち、情報をスプレッドシートに正確に配置できることがわかった。 分類モデルでは, 葉の形状, 色, 褐色の斑点が62.82%, 植物処理が60.08%であった。 最後に,葉の大きさを評価するのを妨げたEXIFタグから欠落したいくつかの重要な情報を同定した。 表現型と条件の相関性の評価を阻害する情報も欠落していた。 しかし、今後の研究はこれらの特徴を評価するために改善される可能性がある。

High-throughput phenotyping refers to the non-destructive and efficient evaluation of plant phenotypes. In recent years, it has been coupled with machine learning in order to improve the process of phenotyping plants by increasing efficiency in handling large datasets and developing methods for the extraction of specific traits. Previous studies have developed methods to advance these challenges through the application of deep neural networks in tandem with automated cameras; however, the datasets being studied often excluded physical labels. In this study, we used a dataset provided by Oak Ridge National Laboratory with 1,672 images of Populus Trichocarpa with white labels displaying treatment (control or drought), block, row, position, and genotype. Optical character recognition (OCR) was used to read these labels on the plants, image segmentation techniques in conjunction with machine learning algorithms were used for morphological classifications, machine learning models were used to predict treatment based on those classifications, and analyzed encoded EXIF tags were used for the purpose of finding leaf size and correlations between phenotypes. We found that our OCR model had an accuracy of 94.31% for non-null text extractions, allowing for the information to be accurately placed in a spreadsheet. Our classification models identified leaf shape, color, and level of brown splotches with an average accuracy of 62.82%, and plant treatment with an accuracy of 60.08%. Finally, we identified a few crucial pieces of information absent from the EXIF tags that prevented the assessment of the leaf size. There was also missing information that prevented the assessment of correlations between phenotypes and conditions. However, future studies could improve upon this to allow for the assessment of these features.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 大規模言語モデルを用いたシナリオシミュレーションによる最適意思決定

Optimal Decision Making Through Scenario Simulations Using Large Language Models ( http://arxiv.org/abs/2407.06486v2 )

ライセンス: Link先を確認
Sumedh Rasal, E. J. Hauer, (参考訳) 大規模言語モデル(LLM)の急速な進化は、様々な領域にまたがってアプリケーションを著しく拡張し、複雑な問題へのアプローチと解決の仕方を変えました。 当初、テキスト中の後続の単語を予測するために考案されたこれらのモデルは、クエリの基盤となるコンテキストを理解して応答するように、元の設計を変換した。 現在、LLMはエッセイ、詩、物語、さらにはソフトウェア開発など、かつては恐ろしく思えたタスクを定期的に実行しています。 彼らの能力が拡大し続けるにつれて、より洗練されたドメインでの彼らのパフォーマンスへの期待も高まります。 これらの進歩にもかかわらず、LSMは依然として重大な課題に直面しており、特に計画旅行や複数の実行可能な選択肢の選択など、複雑な意思決定を必要とするシナリオにおいてである。 これらのタスクは、様々な結果の微妙な理解と、LLMの典型的な運用範囲外にある異なる選択の結果を予測する能力を必要とすることが多い。 本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。 LLMがユーザから複数のオプションやパラメータを要求できるようにすることで,意思決定プロセス内に最適化機能を統合する動的フレームワークを導入する。 この関数は、与えられた選択肢を分析し、潜在的な結果をシミュレートし、事前定義された基準のセットに基づいて最も有利な解を決定するように設計されている。 この手法を利用することで、LLMは複雑な多変数問題に対する最適化された最適ソリューションを提供し、実世界のアプリケーションにおけるそれらの実用性と有効性を大幅に向上させることができる。 このアプローチはLLMの機能的包絡を広げるだけでなく、より自律的でインテリジェントなシステムが高度な意思決定タスクをサポートするための道を開く。

The rapid evolution of Large Language Models (LLMs) has markedly expanded their application across diverse domains, transforming how complex problems are approached and solved. Initially conceived to predict subsequent words in texts, these models have transcended their original design to comprehend and respond to the underlying contexts of queries. Today, LLMs routinely perform tasks that once seemed formidable, such as writing essays, poems, stories, and even developing software code. As their capabilities continue to grow, so too do the expectations of their performance in even more sophisticated domains. Despite these advancements, LLMs still encounter significant challenges, particularly in scenarios requiring intricate decision-making, such as planning trips or choosing among multiple viable options. These tasks often demand a nuanced understanding of various outcomes and the ability to predict the consequences of different choices, which are currently outside the typical operational scope of LLMs. This paper proposes an innovative approach to bridge this capability gap. By enabling LLMs to request multiple potential options and their respective parameters from users, our system introduces a dynamic framework that integrates an optimization function within the decision-making process. This function is designed to analyze the provided options, simulate potential outcomes, and determine the most advantageous solution based on a set of predefined criteria. By harnessing this methodology, LLMs can offer tailored, optimal solutions to complex, multi-variable problems, significantly enhancing their utility and effectiveness in real-world applications. This approach not only expands the functional envelope of LLMs but also paves the way for more autonomous and intelligent systems capable of supporting sophisticated decision-making tasks.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 自己監督型実像復調のための非対称マスク方式

Asymmetric Mask Scheme for Self-Supervised Real Image Denoising ( http://arxiv.org/abs/2407.06514v2 )

ライセンス: Link先を確認
Xiangyu Liao, Tianheng Zheng, Jiayu Zhong, Pingping Zhang, Chao Ren, (参考訳) 近年, 自己監督型復調法が大きな成功を収め, 画像修復の分野で重要な役割を担っている。 その中でも、ブラインドスポットネットワークに基づく手法は最も典型的なタイプであり、多くの研究者の注目を集めている。 ブラインドスポット操作の導入は、ノイズからノイズへのアイデンティティマッピングを防止できるが、ネットワーク設計における受容的フィールドに対する厳密な要求を課し、全体的な性能を制限している。 この課題に対処するために,視覚障害者のための自己指導型聴覚訓練のためのマスク方式を提案し,ネットワーク構造設計の制約を取り除く。 さらに,推測中の全画像のデノベーションを実現するため,マルチマスク方式を提案する。 提案手法は,非対称マスク方式をトレーニングや推論に用い,既存の実雑音画像データセットの最先端性能を実現する。 すべてのソースコードが一般公開される予定だ。

In recent years, self-supervised denoising methods have gained significant success and become critically important in the field of image restoration. Among them, the blind spot network based methods are the most typical type and have attracted the attentions of a large number of researchers. Although the introduction of blind spot operations can prevent identity mapping from noise to noise, it imposes stringent requirements on the receptive fields in the network design, thereby limiting overall performance. To address this challenge, we propose a single mask scheme for self-supervised denoising training, which eliminates the need for blind spot operation and thereby removes constraints on the network structure design. Furthermore, to achieve denoising across entire image during inference, we propose a multi-mask scheme. Our method, featuring the asymmetric mask scheme in training and inference, achieves state-of-the-art performance on existing real noisy image datasets. All the source code will be made available to the public.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# FinCon: 金融意思決定の強化を目的とした概念的言語強化型LLMマルチエージェントシステム

FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making ( http://arxiv.org/abs/2407.06567v2 )

ライセンス: Link先を確認
Yangyang Yu, Zhiyuan Yao, Haohang Li, Zhiyang Deng, Yupeng Cao, Zhi Chen, Jordan W. Suchow, Rong Liu, Zhenyu Cui, Denghui Zhang, Koduvayur Subbalakshmi, Guojun Xiong, Yueru He, Jimin Huang, Dong Li, Qianqian Xie, (参考訳) 大規模言語モデル(LLM)は、複雑なタスクの実行において顕著な可能性を示し、様々な金融アプリケーションでますます活用されている。 しかし、高品質な金融投資の意思決定は依然として困難である。 これらのタスクは、すべての決定に対して揮発性環境と複数のインタラクションを必要とし、リターンを最大化し、リスクを管理するのに十分なインテリジェンスを必要とします。 LLMは、人間のチームを超えたエージェントシステムの開発や、見事な投資リターンを得るために使われてきたが、マルチソース情報合成を強化し、タイムリーな経験改善を通じて意思決定結果を最適化する機会は、まだ探索されていない。 本稿では,多様なFINancialタスクに適した概念的言語強化を備えたLLMベースのマルチエージェントフレームワークであるFinConを紹介する。 実世界の効果的な投資会社組織構造にインスパイアされたFinConは、マネージャが分析するコミュニケーション階層を利用している。 この構造は、自然言語の相互作用を通じて統一目標に向けて、同期されたクロスファンクショナルエージェントの協調を可能にし、各エージェントを人間よりも大きなメモリ容量で装備する。 さらに、FinConのリスクコントロールコンポーネントは、体系的な投資信条を更新するための自己基準機構をエピソード的に開始することで、意思決定品質を向上させる。 概念化された信念は、将来のエージェントの行動の言葉による強化として機能し、知識更新を必要とする適切なノードに選択的に伝播することができる。 この機能は、不要なピアツーピア通信コストを低減しつつ、パフォーマンスを著しく向上させる。 さらにFinConは、単一株式取引やポートフォリオ管理など、さまざまな金融業務において強力な一般化能力を示している。

Large language models (LLMs) have demonstrated notable potential in conducting complex tasks and are increasingly utilized in various financial applications. However, high-quality sequential financial investment decision-making remains challenging. These tasks require multiple interactions with a volatile environment for every decision, demanding sufficient intelligence to maximize returns and manage risks. Although LLMs have been used to develop agent systems that surpass human teams and yield impressive investment returns, opportunities to enhance multi-sourced information synthesis and optimize decision-making outcomes through timely experience refinement remain unexplored. Here, we introduce the FinCon, an LLM-based multi-agent framework with CONceptual verbal reinforcement tailored for diverse FINancial tasks. Inspired by effective real-world investment firm organizational structures, FinCon utilizes a manager-analyst communication hierarchy. This structure allows for synchronized cross-functional agent collaboration towards unified goals through natural language interactions and equips each agent with greater memory capacity than humans. Additionally, a risk-control component in FinCon enhances decision quality by episodically initiating a self-critiquing mechanism to update systematic investment beliefs. The conceptualized beliefs serve as verbal reinforcement for the future agent's behavior and can be selectively propagated to the appropriate node that requires knowledge updates. This feature significantly improves performance while reducing unnecessary peer-to-peer communication costs. Moreover, FinCon demonstrates strong generalization capabilities in various financial tasks, including single stock trading and portfolio management.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# エントロピー法:データ圧縮とLLMパフォーマンスの背後にある物語

Entropy Law: The Story Behind Data Compression and LLM Performance ( http://arxiv.org/abs/2407.06645v2 )

ライセンス: Link先を確認
Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen, (参考訳) データは大きな言語モデル(LLM)の基盤であるが、すべてのデータがモデル学習に役立つわけではない。 慎重に選択されたデータは、計算オーバーヘッドをはるかに少なくしてLLMの能力を引き出すことができる。 多くの場合,データ選択における個々のサンプルの品質評価に重点を置いているが,サンプル間の組合せ効果は無視されている。 各標本が完全な品質であっても、それらの組み合わせは固有の均一性や矛盾のためにLLMを教えるのに最適である。 本稿では,LLMの性能とデータ選択の関係を明らかにすることを目的とする。 LLMの情報圧縮特性に着想を得て,LLMの性能とデータ圧縮率を結びつける「エントロピー法則」と,データセットの情報冗長性と,このデータセットに符号化された固有知識の習得を反映した第1のエポックトレーニング損失を明らかにする。 理論的推論と経験的評価の両方を通して、モデル性能はトレーニングデータの圧縮比と負の相関関係にあり、通常、トレーニング損失は低い。 エントロピー法則の知見に基づいて,低圧縮比を示すデータサブセットの優先順位付けを目的とした,LLMのトレーニングのための,非常に効率的で普遍的なデータ選択法である「textbf{ZIP}」を提案する。 多様なデータを選択する多段階アルゴリズムに基づいて、良好な多様性を持つ優れたデータサブセットを得ることができる。 異なるLLMバックボーンとアライメントステージにおけるエントロピー法則とZIPの優位性を検証するために、広範囲にわたる実験が行われた。 また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。

Data is the cornerstone of large language models (LLMs), but not all data is useful for model learning. Carefully selected data can better elicit the capabilities of LLMs with much less computational overhead. Most methods concentrate on evaluating the quality of individual samples in data selection, while the combinatorial effects among samples are neglected. Even if each sample is of perfect quality, their combinations may be suboptimal in teaching LLMs due to their intrinsic homogeneity or contradiction. In this paper, we aim to uncover the underlying relationships between LLM performance and data selection. Inspired by the information compression nature of LLMs, we uncover an ``entropy law'' that connects LLM performance with data compression ratio and first-epoch training loss, which reflect the information redundancy of a dataset and the mastery of inherent knowledge encoded in this dataset, respectively. Through both theoretical deduction and empirical evaluation, we find that model performance is negatively correlated to the compression ratio of training data, which usually yields a lower training loss. Based on the findings of the entropy law, we propose a quite efficient and universal data selection method named \textbf{ZIP} for training LLMs, which aim to prioritize data subsets exhibiting a low compression ratio. Based on a multi-stage algorithm that selects diverse data in a greedy manner, we can obtain a good data subset with satisfactory diversity. Extensive experiments have been conducted to validate the entropy law and the superiority of ZIP across different LLM backbones and alignment stages. We also present an interesting application of entropy law that can detect potential performance risks at the beginning of model training.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# Chat-Edit-3D:テキストによるインタラクティブな3Dシーン編集

Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts ( http://arxiv.org/abs/2407.06842v2 )

ライセンス: Link先を確認
Shuangkang Fang, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Wenrui Ding, Shuchang Zhou, Ming-Hsuan Yang, (参考訳) 視覚言語事前学習モデルに基づく画像コンテンツ操作に関する最近の研究は、テキスト駆動の3Dシーン編集に効果的に拡張されている。 しかし、既存の3Dシーン編集方式には欠点があり、さらにインタラクティブなデザインを妨げている。 このようなスキームは、通常、テキスト入力におけるユーザの柔軟性を制限する固定された入力パターンに固執する。 さらに、それらの編集機能は、単一のまたは少数の2次元視覚モデルによって制限されており、これらのモデルを3次元再構成プロセスに統合するために複雑なパイプライン設計が必要である。 上記の課題に対処するため,CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。CE3Dは,ユーザからの任意のテキスト入力を可能とし,その意図を解釈し,それに対応する視覚専門家モデルの自律的実行を容易にする,大規模言語モデルを中心にしている。 さらに,Hash-Atlasを用いた3次元シーンビュー表現方式を設計し,3次元シーンの編集を2次元アトラス画像に転送する。 この設計は、2D編集と3D再構成プロセスの完全な疎結合を実現し、複雑な融合設計を必要とせずに、CE3Dが様々な既存の2Dまたは3Dビジュアルモデルを柔軟に統合することを可能にする。 実験結果から,CE3Dは複数の視覚モデルを効果的に統合し,多様な編集視覚効果を実現し,シーン理解と多ラウンド対話機能を有することがわかった。 コードはhttps://sk-fun.fun/CE3D.comで入手できる。

Recent work on image content manipulation based on vision-language pre-training models has been effectively extended to text-driven 3D scene editing. However, existing schemes for 3D scene editing still exhibit certain shortcomings, hindering their further interactive design. Such schemes typically adhere to fixed input patterns, limiting users' flexibility in text input. Moreover, their editing capabilities are constrained by a single or a few 2D visual models and require intricate pipeline design to integrate these models into 3D reconstruction processes. To address the aforementioned issues, we propose a dialogue-based 3D scene editing approach, termed CE3D, which is centered around a large language model that allows for arbitrary textual input from users and interprets their intentions, subsequently facilitating the autonomous invocation of the corresponding visual expert models. Furthermore, we design a scheme utilizing Hash-Atlas to represent 3D scene views, which transfers the editing of 3D scenes onto 2D atlas images. This design achieves complete decoupling between the 2D editing and 3D reconstruction processes, enabling CE3D to flexibly integrate a wide range of existing 2D or 3D visual models without necessitating intricate fusion designs. Experimental results demonstrate that CE3D effectively integrates multiple visual models to achieve diverse editing visual effects, possessing strong scene comprehension and multi-round dialog capabilities. The code is available at https://sk-fun.fun/CE3D.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# PEER:マルチエージェントフレームワークとチューニングメソッドによるドメイン特化タスクのエキスパート化

PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods ( http://arxiv.org/abs/2407.06985v2 )

ライセンス: Link先を確認
Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu, (参考訳) ドメイン固有のアプリケーションでは、正確なプロンプトを付加したGPT-4(Retrieval-Augmented Generation (RAG))が顕著な可能性を示しているが、パフォーマンス、コスト、データプライバシの重大な三重項に直面している。 ハイパフォーマンスには高度な処理技術が必要だが、複雑なワークフロー内で複数のエージェントを管理することは、しばしばコストと困難さを証明している。 これを解決するために、PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介します。 これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。 コストとデータのプライバシに関する懸念から、企業は、GPT-4のようなプロプライエタリなモデルからカスタムモデルに移行し、コスト、セキュリティ、パフォーマンスのバランスを保っている。 我々は、効率的なモデルチューニングのためのオンラインデータとユーザフィードバックを活用する産業プラクティスを開発した。 本研究は、ドメイン固有の問題解決にマルチエージェントシステムを適用し、効果的なエージェントチューニング戦略を実装するためのベストプラクティスガイドラインを提供する。 GPT-4の性能は95.0%で、コストを効果的に管理し、データのプライバシーを確保する。

In domain-specific applications, GPT-4, augmented with precise prompts or Retrieval-Augmented Generation (RAG), shows notable potential but faces the critical tri-lemma of performance, cost, and data privacy. High performance requires sophisticated processing techniques, yet managing multiple agents within a complex workflow often proves costly and challenging. To address this, we introduce the PEER (Plan, Execute, Express, Review) multi-agent framework. This systematizes domain-specific tasks by integrating precise question decomposition, advanced information retrieval, comprehensive summarization, and rigorous self-assessment. Given the concerns of cost and data privacy, enterprises are shifting from proprietary models like GPT-4 to custom models, striking a balance between cost, security, and performance. We developed industrial practices leveraging online data and user feedback for efficient model tuning. This study provides best practice guidelines for applying multi-agent systems in domain-specific problem-solving and implementing effective agent tuning strategies. Our empirical studies, particularly in the financial question-answering domain, demonstrate that our approach achieves 95.0% of GPT-4's performance, while effectively managing costs and ensuring data privacy.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# CAPformer: 低照度画像強調のための圧縮対応事前学習トランス

CAPformer: Compression-Aware Pre-trained Transformer for Low-Light Image Enhancement ( http://arxiv.org/abs/2407.07056v2 )

ライセンス: Link先を確認
Wei Wang, Zhi Jin, (参考訳) 低照度画像強調(LLIE)は携帯電話の撮影需要の急増とともに進歩しているが、既存の多くの方法では圧縮を無視している。 ほとんどのLLIEメソッドはこれを見落とし、その有効性を妨げている。 本研究では,JPEG圧縮が低照度画像に与える影響について検討し,暗黒領域の低画素値の広さによるJPEGによる重大な情報損失を明らかにした。 そこで本研究では,非圧縮低照度画像からロスレス情報を学習するために,新しい事前学習戦略を取り入れたCompression-Aware Pre-trained Transformer (CAPformer)を提案する。 さらに、BGSA(Brightness-Guided Self-Attention)機構は、合理的な情報収集を促進する。 LLIEの圧縮効果を軽減し,資源制約のあるシナリオにおいてLLIEを改善する可能性を示す実験を行った。

Low-Light Image Enhancement (LLIE) has advanced with the surge in phone photography demand, yet many existing methods neglect compression, a crucial concern for resource-constrained phone photography. Most LLIE methods overlook this, hindering their effectiveness. In this study, we investigate the effects of JPEG compression on low-light images and reveal substantial information loss caused by JPEG due to widespread low pixel values in dark areas. Hence, we propose the Compression-Aware Pre-trained Transformer (CAPformer), employing a novel pre-training strategy to learn lossless information from uncompressed low-light images. Additionally, the proposed Brightness-Guided Self-Attention (BGSA) mechanism enhances rational information gathering. Experiments demonstrate the superiority of our approach in mitigating compression effects on LLIE, showcasing its potential for improving LLIE in resource-constrained scenarios.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10
# 付加的製造モニタリングにおけるプライバシーと透明性のバランスをとるための説明可能な超次元計算

Explainable Hyperdimensional Computing for Balancing Privacy and Transparency in Additive Manufacturing Monitoring ( http://arxiv.org/abs/2407.07066v2 )

ライセンス: Link先を確認
Fardin Jalil Piran, Prathyush P. Poduval, Hamza Errahmouni Barkam, Mohsen Imani, Farhad Imani, (参考訳) In-situ Sensingは、学習モデルとともに、付加的製造(AM)プロセスにおいて永続的な欠陥問題に対処するユニークな機会を提供する。 しかし、この統合は、データ漏洩、センサーデータ妥協、モデル反転攻撃などの重要なデータプライバシー上の懸念を導入し、部品設計、材料構成、マシンパラメータに関する重要な詳細を明らかにしている。 数学的保証の下でデータにノイズを注入する差分プライバシー(DP)モデルは、センシングデータのトレースを隠蔽することによって、データユーティリティとプライバシの微妙なバランスを提供する。 しかし、ブラックボックスとして機能する学習モデルへのノイズの導入は、特定のノイズレベルがモデルの精度に与える影響を予測するのを複雑にしている。 本研究は,ベクトル記号パラダイムの説明可能性を活用して,内部監視の精度に対するノイズの影響を予測し,操作効率を維持しながら機密データの保護を行う,差分プライバシー・高次元コンピューティング(DP-HD)フレームワークを提案する。 オーバーハング異常を検出するためのAMの現実の高速融解プールデータに対する実験結果から,DP-HDは操作効率,予測精度,堅牢なプライバシ保護を実現し,最先端の機械学習(ML)モデルより優れていることが示された。 例えば、同じレベルのプライバシー保護を実装する場合(プライバシー予算が1に設定されている)、我々のモデルは94.43%の精度を達成し、ResNet50 (52.30%)、GoogLeNet (23.85%)、AlexNet (55.78%)、DenseNet201 (69.13%)、EfficientNet B2 (40.81%)といった従来のモデルのパフォーマンスを上回った。 特にDP-HDは、プライバシーの制約が高い場合、精度が著しく低下する現在のモデルとは異なり、プライバシーを高めるために設計された大きなノイズ付加の下で高性能を維持している。

In-situ sensing, in conjunction with learning models, presents a unique opportunity to address persistent defect issues in Additive Manufacturing (AM) processes. However, this integration introduces significant data privacy concerns, such as data leakage, sensor data compromise, and model inversion attacks, revealing critical details about part design, material composition, and machine parameters. Differential Privacy (DP) models, which inject noise into data under mathematical guarantees, offer a nuanced balance between data utility and privacy by obscuring traces of sensing data. However, the introduction of noise into learning models, often functioning as black boxes, complicates the prediction of how specific noise levels impact model accuracy. This study introduces the Differential Privacy-HyperDimensional computing (DP-HD) framework, leveraging the explainability of the vector symbolic paradigm to predict the noise impact on the accuracy of in-situ monitoring, safeguarding sensitive data while maintaining operational efficiency. Experimental results on real-world high-speed melt pool data of AM for detecting overhang anomalies demonstrate that DP-HD achieves superior operational efficiency, prediction accuracy, and robust privacy protection, outperforming state-of-the-art Machine Learning (ML) models. For example, when implementing the same level of privacy protection (with a privacy budget set at 1), our model achieved an accuracy of 94.43%, surpassing the performance of traditional models such as ResNet50 (52.30%), GoogLeNet (23.85%), AlexNet (55.78%), DenseNet201 (69.13%), and EfficientNet B2 (40.81%). Notably, DP-HD maintains high performance under substantial noise additions designed to enhance privacy, unlike current models that suffer significant accuracy declines under high privacy constraints.
翻訳日:2024-07-11 11:41:07 公開日:2024-07-10