このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240411となっている論文です。

PDF登録状況(公開日: 20240411)

TitleAuthorsAbstract論文公表日・翻訳日
# 極大言語モデルを用いたRumour評価

Rumour Evaluation with Very Large Language Models ( http://arxiv.org/abs/2404.16859v1 )

ライセンス: Link先を確認
Dahlia Shehata, Robin Cohen, Charles Clarke, (参考訳) 対話型プロンプトエンジニアリングに基づく大規模言語モデル(LLM)は、出力生成のターゲット制御を可能にし、汎用性、適応性、アドホック検索の強化を実現している。 別の見方では、デジタル誤報は警戒レベルに達している。 匿名性、可用性、ソーシャルメディアのリーチは、噂を広めるための肥大した土台を提供する。 本研究は,RumourEvalタスクの研究成果をTwitterデータセットに拡張することにより,インタプライズ依存型LLMの進化を誤情報対策に活用することを提案する。 最後に,(1)精度予測,(2)姿勢分類という2つのRumourEvalサブタスクを拡張するために,プロンプトベースのLLM変種(GPT-3.5-turboとGPT-4)を用いる。 精度予測のために、3つの分類スキームをGPT変種ごとに実験する。 各スキームはゼロ、ワンショット、および数ショット設定でテストされる。 我々の最良の成果は、前例よりもかなりの差で上回っている。 スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。 ルマースタンス・サブタスクは、もともとのセッティングを超えて拡張され、マルチクラス分類が可能である。 両サブタスクで生成された予測はすべて、LCMに従って信頼度を決定する信頼スコアと、説明可能性と解釈可能性のためのポストホックの正当化を備える。 私たちの主な目的は、社会的善のためのAIです。

Conversational prompt-engineering-based large language models (LLMs) have enabled targeted control over the output creation, enhancing versatility, adaptability and adhoc retrieval. From another perspective, digital misinformation has reached alarming levels. The anonymity, availability and reach of social media offer fertile ground for rumours to propagate. This work proposes to leverage the advancement of prompting-dependent LLMs to combat misinformation by extending the research efforts of the RumourEval task on its Twitter dataset. To the end, we employ two prompting-based LLM variants (GPT-3.5-turbo and GPT-4) to extend the two RumourEval subtasks: (1) veracity prediction, and (2) stance classification. For veracity prediction, three classifications schemes are experimented per GPT variant. Each scheme is tested in zero-, one- and few-shot settings. Our best results outperform the precedent ones by a substantial margin. For stance classification, prompting-based-approaches show comparable performance to prior results, with no improvement over finetuning methods. Rumour stance subtask is also extended beyond the original setting to allow multiclass classification. All of the generated predictions for both subtasks are equipped with confidence scores determining their trustworthiness degree according to the LLM, and post-hoc justifications for explainability and interpretability purposes. Our primary aim is AI for social good.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-11
# 科学出版の未来:自動記事生成

The Future of Scientific Publishing: Automated Article Generation ( http://arxiv.org/abs/2404.17586v1 )

ライセンス: Link先を確認
Jeremy R. Harper, (参考訳) 本研究では,大規模言語モデル(LLM)のプロンプトを活用する新しいソフトウェアツールを紹介し,Pythonコードからの学術論文の自動生成をバイオメディカル情報学と計算機科学の分野で大きく進歩させる。 広く採用され、分析的な汎用性のために選択されたPythonは、基本的な概念実証として機能したが、基本的な方法論とフレームワークは、ツールの広範な適用性(Harper 2024)を基盤として、さまざまなGitHubリポジトリにまたがる適応性を示している。 特に複雑なデータセットと符号化出力の合成において、従来の時間集約的な学術的記述プロセスを緩和することにより、このアプローチは研究普及の合理化に向けた重要な飛躍を意味している。 この開発は高度な言語モデルエージェントに頼らずに達成され、一貫性と総合的な学術的コンテンツの自動生成において高い忠実性が保証された。 この調査は、ソフトウェアの適用と効率性の成功を実証するだけでなく、将来のLCMエージェントの統合によってその能力を増幅し、科学的な発見がより迅速かつアクセシブルに拡散される未来に向けて進むことを予測している。

This study introduces a novel software tool leveraging large language model (LLM) prompts, designed to automate the generation of academic articles from Python code a significant advancement in the fields of biomedical informatics and computer science. Selected for its widespread adoption and analytical versatility, Python served as a foundational proof of concept; however, the underlying methodology and framework exhibit adaptability across various GitHub repo's underlining the tool's broad applicability (Harper 2024). By mitigating the traditionally time-intensive academic writing process, particularly in synthesizing complex datasets and coding outputs, this approach signifies a monumental leap towards streamlining research dissemination. The development was achieved without reliance on advanced language model agents, ensuring high fidelity in the automated generation of coherent and comprehensive academic content. This exploration not only validates the successful application and efficiency of the software but also projects how future integration of LLM agents which could amplify its capabilities, propelling towards a future where scientific findings are disseminated more swiftly and accessibly.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-11
# 日常環境におけるメタバースの発見 : 粗大なアプローチ

Uncovering the Metaverse within Everyday Environments: a Coarse-to-Fine Approach ( http://arxiv.org/abs/2404.17587v1 )

ライセンス: Link先を確認
Liming Xu, Dave Towey, Andrew P. French, Steve Benford, (参考訳) Apple Vision Proの最近のリリースは、メタバースへの関心を再燃させ、その成長を促進するためのプラットフォームやデバイスの開発において、テクノロジーの巨人が力を入れていることを示している。 メタバースの増殖が進むにつれて、日常の環境がその存在によって飽和し始めることが予想される。 その結果、これらのメタバースアイテムへのリンクを明らかにすることは、この新しい拡張現実の世界と対話するための重要な第一歩となる。 本稿では,日常環境における仮想世界とのつながり,特に直接的視覚検査によって容易に識別できないものについて述べる。 周辺環境に埋め込まれた隠れたメタバースリンクを明らかにするために,Artcodeビジュアルマーカーを利用した視覚ベースのアプローチを導入する。 このアプローチは、アクセスポイントを段階的にメタバースにローカライズし、粗い位置から微妙な局所化へと移行し、探索的な相互作用プロセスを容易にする。 提案手法の有効性について詳細な実験を行い,Artcodeのローカライゼーションの有効性を実証し,新たなインタラクション機会を実現する。

The recent release of the Apple Vision Pro has reignited interest in the metaverse, showcasing the intensified efforts of technology giants in developing platforms and devices to facilitate its growth. As the metaverse continues to proliferate, it is foreseeable that everyday environments will become increasingly saturated with its presence. Consequently, uncovering links to these metaverse items will be a crucial first step to interacting with this new augmented world. In this paper, we address the problem of establishing connections with virtual worlds within everyday environments, especially those that are not readily discernible through direct visual inspection. We introduce a vision-based approach leveraging Artcode visual markers to uncover hidden metaverse links embedded in our ambient surroundings. This approach progressively localises the access points to the metaverse, transitioning from coarse to fine localisation, thus facilitating an exploratory interaction process. Detailed experiments are conducted to study the performance of the proposed approach, demonstrating its effectiveness in Artcode localisation and enabling new interaction opportunities.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-11
# コスト会計の量子ダイナミクス:時間非依存シュロディンガー方程式によるWIPの調査

The Quantum Dynamics of Cost Accounting: Investigating WIP via the Time-Independent Schrodinger Equation ( http://arxiv.org/abs/2405.00047v1 )

ライセンス: Link先を確認
Maksym Lazirko, (参考訳) 量子論と会計学の交わりは、金融のバリュエーションと会計の実践を探求する上で、新しく興味深いフロンティアを示している。 本稿では、量子理論をコスト会計、特にWIP(Work in Progress)の評価に適用する。 WIPは、観測または測定されるまで財務価値が不確実な量子重ね合わせ状態の材料として概念化されている。 この研究は、量子論と会計学の重複を探求する精巧な研究を包括的にレビューした。 この研究の主な貢献は、関係する不確実性に関するより曖昧な理解であり、これは、管理会計に固有の複雑さと不確実性をモデル化するために量子現象を適用することによって生じる。 対照的に、これまでの仕事は財務会計や会計全般に重点を置いていた。

The intersection of quantum theory and accounting presents a novel and intriguing frontier in exploring financial valuation and accounting practices. This paper applies quantum theory to cost accounting, specifically Work in Progress (WIP) valuation. WIP is conceptualized as materials in a quantum superposition state whose financial value remains uncertain until observed or measured. This work comprehensively reviews the seminal works that explored the overlap between quantum theory and accounting. The primary contribution of this work is a more nuanced understanding of the uncertainties involved, which emerges by applying quantum phenomena to model the complexities and uncertainties inherent in managerial accounting. In contrast, previous works focus more on financial accounting or general accountancy.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-11
# AI監査基準ボードの必要性

The Necessity of AI Audit Standards Boards ( http://arxiv.org/abs/2404.13060v1 )

ライセンス: Link先を確認
David Manheim, Sammy Martin, Mark Bailey, Mikhail Samin, Ross Greutzmacher, (参考訳) AIシステムの監査は、現代のAIシステムに関連する倫理的問題や社会的リスクを理解し、管理するための有望な方法であり、将来的なリスクも期待されている。 人工知能(AI)システムの監査基準の策定への取り組みは、当然のことながら勢いを増している。 しかし、我々は、監査基準の作成は不十分であるだけでなく、AIの急速な進化と倫理的および安全上の課題を考慮して、無害で一貫性のない標準を増大させることによって積極的に有害であると主張している。 代わりに、AI技術の進化する性質に沿って監査方法と標準を開発・更新する責任を持つAI監査基準委員会(AI Audit Standards Board)の設立を提案する。 このような組織は、監査のプラクティスが、AIの急速な進歩に関連性を持ち、堅牢であり、応答することを保証する。 論文では、このようなガバナンス構造は、AIに対する公的な信頼を維持し、AI業界における安全と倫理的責任の文化を促進する上でも役立つと論じている。 論文全体を通して、航空や原子力といった安全クリティカルな産業や、金融会計や医薬品など、よりプロザイクな産業など、他の産業と類似している。 AI監査はこれらの分野をエミュレートし、倫理的考慮や利害関係者の関与を含むための技術的評価を超えて行うべきである。 また、最終製品だけでなく、AIシステムの開発プロセス全体を監査することの重要性も強調しています。

Auditing of AI systems is a promising way to understand and manage ethical problems and societal risks associated with contemporary AI systems, as well as some anticipated future risks. Efforts to develop standards for auditing Artificial Intelligence (AI) systems have therefore understandably gained momentum. However, we argue that creating auditing standards is not just insufficient, but actively harmful by proliferating unheeded and inconsistent standards, especially in light of the rapid evolution and ethical and safety challenges of AI. Instead, the paper proposes the establishment of an AI Audit Standards Board, responsible for developing and updating auditing methods and standards in line with the evolving nature of AI technologies. Such a body would ensure that auditing practices remain relevant, robust, and responsive to the rapid advancements in AI. The paper argues that such a governance structure would also be helpful for maintaining public trust in AI and for promoting a culture of safety and ethical responsibility within the AI industry. Throughout the paper, we draw parallels with other industries, including safety-critical industries like aviation and nuclear energy, as well as more prosaic ones such as financial accounting and pharmaceuticals. AI auditing should emulate those fields, and extend beyond technical assessments to include ethical considerations and stakeholder engagement, but we explain that this is not enough; emulating other fields' governance mechanisms for these processes, and for audit standards creation, is a necessity. We also emphasize the importance of auditing the entire development process of AI systems, not just the final products...
翻訳日:2024-04-28 11:25:01 公開日:2024-04-11
# 深部強化学習を用いたFPGAの分位とコンカレント配置

FPGA Divide-and-Conquer Placement using Deep Reinforcement Learning ( http://arxiv.org/abs/2404.13061v1 )

ライセンス: Link先を確認
Shang Wang, Deepak Ranganatha Sastry Mamillapalli, Tianpei Yang, Matthew E. Taylor, (参考訳) 本稿では,FPGA(Field-Programmable Gate Array)における論理ブロックの配置に関する問題点と学習手法について述べる。 従来の検索に基づく配置アルゴリズムとは対照的に,ワイヤー長の最小化を目的として強化学習(Reinforcement Learning, RL)を用いる。 予備的な学習結果に加えて,チップボード上に多数のブロックを配置する際,大規模な検索空間の性質に対処する新たな分解性も評価した。 FPGA配置タスクにおける学習と分解のパラダイムの有効性を実証実験により評価した。

This paper introduces the problem of learning to place logic blocks in Field-Programmable Gate Arrays (FPGAs) and a learning-based method. In contrast to previous search-based placement algorithms, we instead employ Reinforcement Learning (RL) with the goal of minimizing wirelength. In addition to our preliminary learning results, we also evaluated a novel decomposition to address the nature of large search space when placing many blocks on a chipboard. Empirical experiments evaluate the effectiveness of the learning and decomposition paradigms on FPGA placement tasks.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-11
# 分類器誘導型ニューラルブラインドデコンボリューション:重騒音下での故障診断のための物理インフォームドデノナイジングモジュール

Classifier-guided neural blind deconvolution: a physics-informed denoising module for bearing fault diagnosis under heavy noise ( http://arxiv.org/abs/2404.15341v1 )

ライセンス: Link先を確認
Jing-Xiao Liao, Chao He, Jipu Li, Jinwei Sun, Shiping Zhang, Xiaoge Zhang, (参考訳) ブラインドデコンボリューション (BD) は, 強い背景雑音下での振動信号から断層特有の特徴を抽出する有効な手法として実証されている。 BDの適応性と数学的解釈性には望ましい特徴があるが、重要な課題は以下のとおりである。 この問題は、従来のBD法が、独自の最適化機能と目的関数を備えた特徴抽出専用に設計されているためである。 BDを下流のディープラーニング分類器と組み合わせると、異なる学習目標が衝突する。 そこで本研究では,BDに基づく特徴抽出と深層学習に基づく断層分類の併用学習のための分類器誘導型BD(ClassBD)を提案する。 まず,ニューラルネットワークを用いて従来のBDを実装し,モデルパラメータの協調最適化のためのBDとディープラーニング分類器のシームレスな統合を容易にする時間と周波数のニューラルネットワークBDを提案する。 次に,BDフィルタの学習を誘導する深層学習分類器を用いた統合フレームワークを開発した。 さらに,Krtosis, $l_2/l_4$ norm, and a cross-entropy lossという物理インフォームド損失関数を考案し,BDフィルタとディープラーニング分類器を協調的に最適化する。 その結果、障害ラベルは、強い雑音の中でクラスを区別する特徴を抽出するためにBDを指示するのに有用な情報を提供する。 我々の知る限りでは、BDが障害診断にうまく適用された最初の例である。 3つのデータセットによる実験結果から、ClassBDはノイズの多い条件下での他の最先端手法よりも優れていることが示された。

Blind deconvolution (BD) has been demonstrated as an efficacious approach for extracting bearing fault-specific features from vibration signals under strong background noise. Despite BD's desirable feature in adaptability and mathematical interpretability, a significant challenge persists: How to effectively integrate BD with fault-diagnosing classifiers? This issue arises because the traditional BD method is solely designed for feature extraction with its own optimizer and objective function. When BD is combined with downstream deep learning classifiers, the different learning objectives will be in conflict. To address this problem, this paper introduces classifier-guided BD (ClassBD) for joint learning of BD-based feature extraction and deep learning-based fault classification. Firstly, we present a time and frequency neural BD that employs neural networks to implement conventional BD, thereby facilitating the seamless integration of BD and the deep learning classifier for co-optimization of model parameters. Subsequently, we develop a unified framework to use a deep learning classifier to guide the learning of BD filters. In addition, we devise a physics-informed loss function composed of kurtosis, $l_2/l_4$ norm, and a cross-entropy loss to jointly optimize the BD filters and deep learning classifier. Consequently, the fault labels provide useful information to direct BD to extract features that distinguish classes amidst strong noise. To the best of our knowledge, this is the first of its kind that BD is successfully applied to bearing fault diagnosis. Experimental results from three datasets demonstrate that ClassBD outperforms other state-of-the-art methods under noisy conditions.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-11
# WaveSleepNet:専門家のような睡眠安定のための解釈可能なネットワーク

WaveSleepNet: An Interpretable Network for Expert-like Sleep Staging ( http://arxiv.org/abs/2404.15342v1 )

ライセンス: Link先を確認
Yan Pei, Wei Luo, (参考訳) 深層学習アルゴリズムは自動睡眠ステージングにおいてその効率を証明しているが、それらの「ブラックボックス」の性質に対する広範な懐疑論は臨床的受容を制限している。 本研究では、睡眠専門家と同じような方法で睡眠ステージングを行うための解釈可能なニューラルネットワークであるWaveSleepNetを提案する。 本ネットワークでは,トレーニング中に発生する潜時空間表現を用いて,異なる睡眠段階に対応する特性波のプロトタイプを同定する。 入力信号の特徴表現は潜在空間内のパッチに分割され、それぞれが学習波のプロトタイプと比較される。 これらのパッチと波動プロトタイプの近接はスコアによって定量化され、プロトタイプの存在と信号内の相対比が示される。 スコアは最終睡眠ステージの決定基準として提供される。 トレーニング中に、プロトタイプの多様性と堅牢性のために、損失関数のアンサンブルが使用される。 さらに、オクルージョン感度を分析して学習波プロトタイプを可視化する。 WaveSleepNetの有効性は3つの公開データセットで検証され、複数のWaveSleepNetが大きなネットワークに結合されたときに、最先端のモデルと同等のスリープステージング性能を達成する。 詳細なケーススタディでは、American Academy of Sleep Medicine(AASM)マニュアルガイドラインと密接に一致したWaveSleepNetの意思決定プロセスについて検討した。 別のケーススタディでは、各睡眠ステージの背後にある誤った理由を体系的に説明しました。 WaveSleepNetの透明なプロセスは、専門家にその基準の生理的重要性に直接アクセスし、将来の適応や睡眠の専門家による強化を可能にする。

Although deep learning algorithms have proven their efficiency in automatic sleep staging, the widespread skepticism about their "black-box" nature has limited its clinical acceptance. In this study, we propose WaveSleepNet, an interpretable neural network for sleep staging that reasons in a similar way to sleep experts. In this network, we utilize the latent space representations generated during training to identify characteristic wave prototypes corresponding to different sleep stages. The feature representation of an input signal is segmented into patches within the latent space, each of which is compared against the learned wave prototypes. The proximity between these patches and the wave prototypes is quantified through scores, indicating the prototypes' presence and relative proportion within the signal. The scores are served as the decision-making criteria for final sleep staging. During training, an ensemble of loss functions is employed for the prototypes' diversity and robustness. Furthermore, the learned wave prototypes are visualized by analysing occlusion sensitivity. The efficacy of WaveSleepNet is validated across three public datasets, achieving sleep staging performance that are on par with the state-of-the-art models when several WaveSleepNets are combine into a larger network. A detailed case study examined the decision-making process of the WaveSleepNet which aligns closely with American Academy of Sleep Medicine (AASM) manual guidelines. Another case study systematically explained the misidentified reason behind each sleep stage. WaveSleepNet's transparent process provides specialists with direct access to the physiological significance of its criteria, allowing for future adaptation or enrichment by sleep experts.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-11
# 自動変調分類のためのエッジ効率のよいディープラーニングモデル:性能解析

Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis ( http://arxiv.org/abs/2404.15343v1 )

ライセンス: Link先を確認
Nayan Moni Baishya, B. R. Manoj, Prabin K. Bora, (参考訳) 近年,無線信号の自動変調分類 (AMC) のための深層学習 (DL) の進歩により,資源制約エッジデバイスへの多くの応用が可能となった。 しかし、無線通信のエッジ応用に適した最適化DLモデルの開発については、まだ深く研究されていない。 本研究では、AMC向けに開発された最適化畳み込みニューラルネットワーク(CNN)について、最もよく使われている3つのモデル最適化手法を用いて徹底的に調査する。 pruning (複数形 prunings) b) 定量化,及び c) 知識蒸留 さらに,これらの手法を組み合わせて最適化モデルを提案し,相補最適化の利点を融合させた。 提案手法の性能は,ネットワークパラメータの空間性,ストレージ圧縮,パラメータの削減による分類精度への影響などの観点から評価した。 実験結果から,提案手法と組み合わせ最適化手法は,ベンチマークCNNと比較して,分類性能の維持や改善を図りながら,複雑度が著しく低いモデルの開発に有効であることが示唆された。

The recent advancement in deep learning (DL) for automatic modulation classification (AMC) of wireless signals has encouraged numerous possible applications on resource-constrained edge devices. However, developing optimized DL models suitable for edge applications of wireless communications is yet to be studied in depth. In this work, we perform a thorough investigation of optimized convolutional neural networks (CNNs) developed for AMC using the three most commonly used model optimization techniques: a) pruning, b) quantization, and c) knowledge distillation. Furthermore, we have proposed optimized models with the combinations of these techniques to fuse the complementary optimization benefits. The performances of all the proposed methods are evaluated in terms of sparsity, storage compression for network parameters, and the effect on classification accuracy with a reduction in parameters. The experimental results show that the proposed individual and combined optimization techniques are highly effective for developing models with significantly less complexity while maintaining or even improving classification performance compared to the benchmark CNNs.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-11
# 深層学習型無線分類器の対向ロバスト性

Adversarial Robustness of Distilled and Pruned Deep Learning-based Wireless Classifiers ( http://arxiv.org/abs/2404.15344v1 )

ライセンス: Link先を確認
Nayan Moni Baishya, B. R. Manoj, (参考訳) 無線信号の自動変調分類(AMC)のために開発されたデータ駆動型ディープラーニング(DL)技術は、敵攻撃に対して脆弱である。 これはDLベースの無線システム、特にAMCのエッジアプリケーションに深刻なセキュリティ上の脅威をもたらす。 本研究では、敵攻撃に対して堅牢な最適化DLモデルを開発する際の共同問題に対処する。 これにより、エッジデバイスへのDLベースのAMCの効率的かつ信頼性の高いデプロイが可能になる。 まず,知識蒸留とネットワークプルーニングを用いた2つの最適化モデルを提案する。 5つのホワイトボックス攻撃による実験結果から、提案した最適化モデルと逆向きに訓練されたモデルが、標準(最適化されていない)モデルよりも堅牢性を向上できることが示された。 最適化された2つのモデルはまた、エッジアプリケーションにおけるDLベースのソリューションの信頼性に欠かせないクリーンな(非攻撃的な)サンプルに対して高い精度を達成する。

Data-driven deep learning (DL) techniques developed for automatic modulation classification (AMC) of wireless signals are vulnerable to adversarial attacks. This poses a severe security threat to the DL-based wireless systems, specifically for edge applications of AMC. In this work, we address the joint problem of developing optimized DL models that are also robust against adversarial attacks. This enables efficient and reliable deployment of DL-based AMC on edge devices. We first propose two optimized models using knowledge distillation and network pruning, followed by a computationally efficient adversarial training process to improve the robustness. Experimental results on five white-box attacks show that the proposed optimized and adversarially trained models can achieve better robustness than the standard (unoptimized) model. The two optimized models also achieve higher accuracy on clean (unattacked) samples, which is essential for the reliability of DL-based solutions at edge applications.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-11
# 音声アバターシステムのための人間の遅延会話変換

Human Latency Conversational Turns for Spoken Avatar Systems ( http://arxiv.org/abs/2404.16053v1 )

ライセンス: Link先を確認
Derek Jacoby, Tianyi Zhang, Aanchan Mohan, Yvonne Coady, (参考訳) 現在多くのLarge Language Model (LLM) による音声対話の問題は応答時間である。 グロークのようないくつかの取り組みは、LLMの高速な処理によってこの問題に対処するが、認知心理学の文献からは、人間と人間の対話において、話者が発話を完了する前に、しばしば応答が生じることがわかっている。 人間の対話待ち時間を維持したい場合,LLM処理の遅延は認められない。 本稿では, 発話をリアルタイムに理解し, 応答を生成する手法について論じる。 これは、話者の発話の最終部分の情報内容がLLMに失われることを意味する。 Google NaturalQuestions (NQ) データベースを用いて、GPT-4 は、質問の60%以上を最後に、削除された単語から欠落したコンテキストを効果的に埋めることができることを示した。 また,現在開発中のアバターの文脈におけるLLM応答の品質に対する発話の例と,この情報損失の影響について述べる。 これらの結果は、質問が意味論的に完全かどうかを判断するために単純な分類器を用いるか、人間の対話時間制約内で応答を生成できるようにするために、フィラーフレーズを必要とすることを示唆している。

A problem with many current Large Language Model (LLM) driven spoken dialogues is the response time. Some efforts such as Groq address this issue by lightning fast processing of the LLM, but we know from the cognitive psychology literature that in human-to-human dialogue often responses occur prior to the speaker completing their utterance. No amount of delay for LLM processing is acceptable if we wish to maintain human dialogue latencies. In this paper, we discuss methods for understanding an utterance in close to real time and generating a response so that the system can comply with human-level conversational turn delays. This means that the information content of the final part of the speaker's utterance is lost to the LLM. Using the Google NaturalQuestions (NQ) database, our results show GPT-4 can effectively fill in missing context from a dropped word at the end of a question over 60% of the time. We also provide some examples of utterances and the impacts of this information loss on the quality of LLM response in the context of an avatar that is currently under development. These results indicate that a simple classifier could be used to determine whether a question is semantically complete, or requires a filler phrase to allow a response to be generated within human dialogue time constraints.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-11
# Token Space: AI計算のためのカテゴリ理論フレームワーク

Token Space: A Category Theory Framework for AI Computations ( http://arxiv.org/abs/2404.11624v1 )

ライセンス: Link先を確認
Wuming Pan, (参考訳) 本稿では,カテゴリ理論の適用による深層学習モデルの解釈性と有効性の向上を目的とした,新しい数学的構造であるToken Spaceフレームワークを紹介する。 Tokenレベルで分類構造を確立することにより、AI計算を理解可能な新しいレンズを提供し、グループ化、順序付け、パラメータタイプといったトークン間の関係を強調する。 本研究では,東剣空間の基盤的方法論を探求し,その構築,建設作業者の役割,初期カテゴリについて詳述するとともに,特に注意機構やトランスフォーマーアーキテクチャに着目した深層学習モデル解析への応用について考察する。 AI研究へのカテゴリ理論の統合は、計算構造を記述および分析するための統一されたフレームワークを提供し、新しい研究パスと開発可能性を可能にする。 本研究は,Token Spaceフレームワークが深層学習モデルの深い理論的理解を促進するだけでなく,より効率的で解釈可能な,革新的なモデルの設計への道を開いたことを明らかにする。

This paper introduces the Token Space framework, a novel mathematical construct designed to enhance the interpretability and effectiveness of deep learning models through the application of category theory. By establishing a categorical structure at the Token level, we provide a new lens through which AI computations can be understood, emphasizing the relationships between tokens, such as grouping, order, and parameter types. We explore the foundational methodologies of the Token Space, detailing its construction, the role of construction operators and initial categories, and its application in analyzing deep learning models, specifically focusing on attention mechanisms and Transformer architectures. The integration of category theory into AI research offers a unified framework to describe and analyze computational structures, enabling new research paths and development possibilities. Our investigation reveals that the Token Space framework not only facilitates a deeper theoretical understanding of deep learning models but also opens avenues for the design of more efficient, interpretable, and innovative models, illustrating the significant role of category theory in advancing computational models.
翻訳日:2024-04-21 19:45:03 公開日:2024-04-11
# ジョセフソン接合に対するファインマンの2状態結合量子系モデルを用いたせん断流れにおける界面ロスビー波の相互作用

Relating interfacial Rossby wave interaction in shear flows with Feynman's two-state coupled quantum system model for the Josephson junction ( http://arxiv.org/abs/2404.10009v1 )

ライセンス: Link先を確認
Eyal Heifetz, Nimrod Bratspiess, Anirban Guha, Leo Maas, (参考訳) ここでは、ファインマンのジョセフソン接合の単純化されたモデルが、マクロな2状態結合量子系として、片方向線形せん断流における2つの界面ロスビー波の安定なダイナミクスと1対1の対応を持つことを示す。 超伝導電子ガス層の電荷とエネルギーの保存は、それぞれロスビー波の波動作用と擬エネルギーの保存と等価となる。 量子的なトンネルは2つのロスビー波の間のアクション・アット・ア・ディスタンスによって実現される。 さらに、クライン=ゴルドン方程式によって記述された固有状態間の交差を避ける量子的現象は、古典的なせん断流系でも得られる。 後者では、界面波の非相モードと反相モードの擬似エネルギーの固有の相違から生じる。 これは量子系における波動関数の位相の役割に直感的な物理的意味を与える。 波動関数の量子崩壊に対する部分的な類似性は、位相平面上の「通常の影響のモード領域」の間の分離の存在によっても得られ、系の力学が記述される。 2状態の量子ビット(量子ビット)については、2つのロスビー波の解はブロッホ球上で表現することができ、そこではアダマール門が2つの通常のモード/固有状態をロスビー波によって占有される1つのインターフェースのみを直感的な計算基底に変換する。 しかし、崩壊と絡み合いの正確なアナログが欠如している古典的なシステムであり、原理上も量子計算には使用できない。

Here we show how Feynman's simplified model for the Josephson junction, as a macroscopic two-state coupled quantum system, has a one-to-one correspondence with the stable dynamics of two interfacial Rossby waves in piecewise linear shear flows. The conservation of electric charge and energy of the superconducting electron gas layers become respectively equivalent to the conservation of wave action and pseudoenergy of the Rossby waves. Quantum-like tunneling is enabled via action-at-a-distance between the two Rossby waves. Furthermore, the quantum-like phenomena of avoided crossing between eigenstates, described by the Klein-Gordon equation, is obtained as well in the classical shear flow system. In the latter, it results from the inherent difference in pseudoenergy between the in-phase and anti-phased normal modes of the interfacial waves. This provides an intuitive physical meaning to the role of the wavefunction's phase in the quantum system. A partial analog to the quantum collapse of the wavefunction is also obtained due to the existence of a separatrix between "normal mode regions of influence" on the phase plane, describing the system's dynamics. As for two-state quantum bits (qubits), the two-Rossby wave system solutions can be represented on a Bloch sphere, where the Hadamard gate transforms the two normal modes/eigenstates into an intuitive computational basis in which only one interface is occupied by a Rossby wave. Yet, it is a classical system which lacks exact analogs to collapse and entanglement, thus cannot be used for quantum computation, even in principle.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-11
# 第1章 集合操作における量子情報システムの脆弱性

Chapter: Vulnerability of Quantum Information Systems to Collective Manipulation ( http://arxiv.org/abs/1901.08873v2 )

ライセンス: Link先を確認
Fernando J. Gómez-Ruiz, Ferney J. Rodríguez, Luis Quiroga, Neil F. Johnson, (参考訳) 量子コンピューティング」と「量子情報」という非常に専門的な用語と「量子技術」というより広い用語は、現在では主流のメディアで定期的に見られる。 これは物理学者や投資家にとっても非常にエキサイティングなことだが、社会にとって重要な問題は、そのようなシステムの脆弱性、特に集団操作に対する脆弱性だ。 ここでは, 詳細な多体量子力学計算に基づいて同定した, このようなシステムにおける新たな脆弱性について論じる。 この新たな脆弱性の影響は、敵の集団がこれらのシステムのグローバル量子状態を最大限に破壊し、量子機能を危険にさらす可能性があることである。 ハミルトニアンを変更せず純度も変わらないため、これらの攻撃を検出することはほぼ不可能であり、攻撃者間のリアルタイム通信を一切必要とせず、1秒以内で継続することができる。 また、現代の非国家アクターグループの統計的特徴から、このような攻撃の暗黙的な増幅が可能であるとも主張する。 対策は、将来の量子技術を冗長な古典的ネットワークに埋め込むことかもしれない。 この章で議論を意図的に構成し、最初のセクションは自己完結型で、非専門主義者が読むことができるようにします。

The highly specialist terms `quantum computing' and `quantum information', together with the broader term `quantum technologies', now appear regularly in the mainstream media. While this is undoubtedly highly exciting for physicists and investors alike, a key question for society concerns such systems' vulnerabilities -- and in particular, their vulnerability to collective manipulation. Here we present and discuss a new form of vulnerability in such systems, that we have identified based on detailed many-body quantum mechanical calculations. The impact of this new vulnerability is that groups of adversaries can maximally disrupt these systems' global quantum state which will then jeopardize their quantum functionality. It will be almost impossible to detect these attacks since they do not change the Hamiltonian and the purity remains the same; they do not entail any real-time communication between the attackers; and they can last less than a second. We also argue that there can be an implicit amplification of such attacks because of the statistical character of modern non-state actor groups. A countermeasure could be to embed future quantum technologies within redundant classical networks. We purposely structure the discussion in this chapter so that the first sections are self-contained and can be read by non-specialists.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-11
# コントラスト学習は埋め込みを補うことができるか

Can Contrastive Learning Refine Embeddings ( http://arxiv.org/abs/2404.08701v1 )

ライセンス: Link先を確認
Lihui Liu, Jinha Kim, Vidit Bansal, (参考訳) コントラスト学習の最近の進歩は、自己指導型表現学習に革命をもたらし、ベンチマークタスクにおける最先端のパフォーマンスを達成した。 既存のほとんどの手法は、画像、自然言語文、ネットワークなどのデータモダリティの入力にコントラスト学習を適用することに重点を置いているが、以前は訓練されていたエンコーダの出力を利用する可能性を見落としている。 本稿では,下流タスクの入力埋め込みを改良する新しいコントラスト学習フレームワークであるSIMSKIPを紹介する。 従来の教師なし学習アプローチとは異なり、SIMSKIPはエンコーダモデルの出力埋め込みを入力として利用する。 理論的解析により、SIMSKIPの適用は、SIMSKIPの入力として機能する元の埋め込みよりも下流タスクエラーの上限が大きいという証拠を提供する。 様々なオープンデータセットの実験結果から,SIMSKIPが生成する埋め込みにより,下流タスクの性能が向上することが示された。

Recent advancements in contrastive learning have revolutionized self-supervised representation learning and achieved state-of-the-art performance on benchmark tasks. While most existing methods focus on applying contrastive learning to input data modalities such as images, natural language sentences, or networks, they overlook the potential of utilizing outputs from previously trained encoders. In this paper, we introduce SIMSKIP, a novel contrastive learning framework that specifically refines input embeddings for downstream tasks. Unlike traditional unsupervised learning approaches, SIMSKIP takes advantage of the output embeddings of encoder models as its input. Through theoretical analysis, we provide evidence that applying SIMSKIP does not result in larger upper bounds on downstream task errors than those of the original embeddings, which serve as SIMSKIP's input. Experimental results on various open datasets demonstrate that the embeddings produced by SIMSKIP improve performance on downstream tasks.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# 機械学習を用いたインド各都市における大気質指数(AQI)の予測モデル:Punjabの燃焼がAQI変動に及ぼす影響について

Predictive Modelling of Air Quality Index (AQI) Across Diverse Cities and States of India using Machine Learning: Investigating the Influence of Punjab's Stubble Burning on AQI Variability ( http://arxiv.org/abs/2404.08702v1 )

ライセンス: Link先を確認
Kamaljeet Kaur Sidhu, Habeeb Balogun, Kazeem Oluwakemi Oseni, (参考訳) 大気汚染は一般的に深刻な問題であり、人間の健康に有害な影響を及ぼすため無視できない。 この問題に積極的に対処するには、周囲を意識する必要がある。 この動機により、大気中の異なる大気汚染物質濃度に基づいてAQIを予測した。 この研究に使用されるデータセットは、CPCBの公式ウェブサイトから取得されている。 このデータセットは、デリー、ハリアナ、パンジャーブの各都市で22の異なる観測所から空気汚染物質濃度を計測する。 このデータはnull値とoutlierをチェックする。 しかし、注意すべき最も重要なことは、間違った命令を無視したり実行したりするよりも、そのような値の正しい理解と解釈である。 The Dickey-Fuller test を用いて定常性試験を行った。 CatBoost、XGBoost、Random Forest、SVM回帰器、時系列モデルSARIMAX、深層学習モデルLSTMといった他のMLモデルもAQIを予測するために使用されている。 異なるモデルの性能評価のために,MSE,RMSE,MAE,R2を使用しました。 ランダムフォレストは他のモデルに比べて優れた性能を示した。

Air pollution is a common and serious problem nowadays and it cannot be ignored as it has harmful impacts on human health. To address this issue proactively, people should be aware of their surroundings, which means the environment where they survive. With this motive, this research has predicted the AQI based on different air pollutant concentrations in the atmosphere. The dataset used for this research has been taken from the official website of CPCB. The dataset has the air pollutant concentration from 22 different monitoring stations in different cities of Delhi, Haryana, and Punjab. This data is checked for null values and outliers. But, the most important thing to note is the correct understanding and imputation of such values rather than ignoring or doing wrong imputation. The time series data has been used in this research which is tested for stationarity using The Dickey-Fuller test. Further different ML models like CatBoost, XGBoost, Random Forest, SVM regressor, time series model SARIMAX, and deep learning model LSTM have been used to predict AQI. For the performance evaluation of different models, I used MSE, RMSE, MAE, and R2. It is observed that Random Forest performed better as compared to other models.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# 合成脳画像:生成的対立モデルによる脳マッピングにおけるギャップを埋める

Synthetic Brain Images: Bridging the Gap in Brain Mapping With Generative Adversarial Model ( http://arxiv.org/abs/2404.08703v1 )

ライセンス: Link先を確認
Drici Mourad, Kazeem Oluwakemi Oseni, (参考訳) 磁気共鳴イメージング(MRI)は、正確な解剖情報を得るための重要なモダリティであり、診断と治療計画のための医療画像において重要な役割を果たす。 画像合成問題は近年,ディープラーニング技術,特にGAN(Generative Adversarial Networks)の導入により,革命を遂げている。 本研究では,高忠実かつ現実的なMRI画像スライス作成にDeep Convolutional Generative Adversarial Networks (DCGAN) を用いることを検討した。 提案するアプローチでは、さまざまな脳MRIスキャンを備えたデータセットを使用して、DCGANアーキテクチャをトレーニングする。 判別器ネットワークは、生成されたスライスと実際のスライスを区別するが、ジェネレータネットワークは、現実的なMRI画像スライスを合成することを学ぶ。 ジェネレータは、敵のトレーニングアプローチを通じて、実際のMRIデータを忠実に模倣するスライスを生成する能力を向上させる。 この結果は、DCGANが医療画像研究に様々な用途を約束していることを示している。 この研究は、深層学習技術の医療画像合成への応用に関する研究の活発化に寄与する。 生成可能なスライスには、データセットの強化、ディープラーニングモデルのトレーニングにおけるデータ拡張、MRIデータのクリーニングを容易にする機能の提供、主要な解剖学的計画におけるデータセットの使用とクリーン化の準備ができている3つの機能が含まれている。

Magnetic Resonance Imaging (MRI) is a vital modality for gaining precise anatomical information, and it plays a significant role in medical imaging for diagnosis and therapy planning. Image synthesis problems have seen a revolution in recent years due to the introduction of deep learning techniques, specifically Generative Adversarial Networks (GANs). This work investigates the use of Deep Convolutional Generative Adversarial Networks (DCGAN) for producing high-fidelity and realistic MRI image slices. The suggested approach uses a dataset with a variety of brain MRI scans to train a DCGAN architecture. While the discriminator network discerns between created and real slices, the generator network learns to synthesise realistic MRI image slices. The generator refines its capacity to generate slices that closely mimic real MRI data through an adversarial training approach. The outcomes demonstrate that the DCGAN promise for a range of uses in medical imaging research, since they show that it can effectively produce MRI image slices if we train them for a consequent number of epochs. This work adds to the expanding corpus of research on the application of deep learning techniques for medical image synthesis. The slices that are could be produced possess the capability to enhance datasets, provide data augmentation in the training of deep learning models, as well as a number of functions are made available to make MRI data cleaning easier, and a three ready to use and clean dataset on the major anatomical plans.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# MM-PhyQA:マルチモーダル物理質問-マルチイメージCoTプロンプトによる回答

MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting ( http://arxiv.org/abs/2404.08704v1 )

ライセンス: Link先を確認
Avinash Anand, Janak Kapuriya, Apoorv Singh, Jay Saraf, Naman Lal, Astha Verma, Rushali Gupta, Rajiv Shah, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて人間レベルのパフォーマンスを達成することができるが、多段階理学推論タスクを効果的に扱うことについては、引き続き課題に直面している。 既存のモデルの欠点を特定し,この分野のさらなる研究を促進するために,高度に構築された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。 これらの問題にマルチモーダル要素を取り入れた現代LLMの性能を評価することで,それらの能力に光を当てることを目指している。 GPT-4を用いてゼロショット予測を行い,LLaVA(LLaVAとLLaVA-1.5)を用いた。 テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。 また,LLaVA-1.5 13bのトレーニングに用いた新しいMI-CoT(Multi-Image Chain-of-Thought) Prompting法の性能について紹介した。

While Large Language Models (LLMs) can achieve human-level performance in various tasks, they continue to face challenges when it comes to effectively tackling multi-step physics reasoning tasks. To identify the shortcomings of existing models and facilitate further research in this area, we curated a novel dataset, MM-PhyQA, which comprises well-constructed, high schoollevel multimodal physics problems. By evaluating the performance of contemporary LLMs that are publicly available, both with and without the incorporation of multimodal elements in these problems, we aim to shed light on their capabilities. For generating answers for questions consisting of multimodal input (in this case, images and text) we employed Zero-shot prediction using GPT-4 and utilized LLaVA (LLaVA and LLaVA-1.5), the latter of which were fine-tuned on our dataset. For evaluating the performance of LLMs consisting solely of textual input, we tested the performance of the base and fine-tuned versions of the Mistral-7B and LLaMA2-7b models. We also showcased the performance of the novel Multi-Image Chain-of-Thought (MI-CoT) Prompting technique, which when used to train LLaVA-1.5 13b yielded the best results when tested on our dataset, with superior scores in most metrics and the highest accuracy of 71.65% on the test set.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# 低リソース領域における健康状態向上のための多言語医療大言語モデルL2M3の導入

Introducing L2M3, A Multilingual Medical Large Language Model to Advance Health Equity in Low-Resource Regions ( http://arxiv.org/abs/2404.08705v1 )

ライセンス: Link先を確認
Agasthya Gangavarapu, (参考訳) 2030年までには、主に低所得国と中所得国(LMICs)で1000万人の医療従事者の差し迫った不足に対処し、機械翻訳モデルと統合された大規模言語モデル(LLMs)の力を利用する革新的なアプローチを導入する。 このソリューションは、コミュニティヘルスワーカー(CHW)のユニークなニーズ、言語障壁の克服、文化的な感受性、医療ダイアログデータセットの限られた可用性を満たすために設計されている。 私は、優れた翻訳能力を誇っているだけでなく、医療精度を確保するためにオープンソースのデータセットを厳格に微調整し、誤情報のリスクに対処する包括的安全機能を備えたモデルを作りました。 モジュラーデザインを特徴とするこのアプローチは、さまざまな言語的、文化的なコンテキストに迅速に適応するために、オープンソースのコンポーネントを活用して、医療運用コストを大幅に削減するために、特に構成されている。 この戦略的革新は、文脈的に適切な医療知識と診断ツールを備えたCHWを提供することで、医療サービスのアクセシビリティと品質を著しく向上させる。 本稿は、この文脈を意識したLDMの変革的影響を強調し、世界医療労働力不足への対処と、LMICにおける医療成果の推進において、その重要な役割を浮き彫りにしている。

Addressing the imminent shortfall of 10 million health workers by 2030, predominantly in Low- and Middle-Income Countries (LMICs), this paper introduces an innovative approach that harnesses the power of Large Language Models (LLMs) integrated with machine translation models. This solution is engineered to meet the unique needs of Community Health Workers (CHWs), overcoming language barriers, cultural sensitivities, and the limited availability of medical dialog datasets. I have crafted a model that not only boasts superior translation capabilities but also undergoes rigorous fine-tuning on open-source datasets to ensure medical accuracy and is equipped with comprehensive safety features to counteract the risks of misinformation. Featuring a modular design, this approach is specifically structured for swift adaptation across various linguistic and cultural contexts, utilizing open-source components to significantly reduce healthcare operational costs. This strategic innovation markedly improves the accessibility and quality of healthcare services by providing CHWs with contextually appropriate medical knowledge and diagnostic tools. This paper highlights the transformative impact of this context-aware LLM, underscoring its crucial role in addressing the global healthcare workforce deficit and propelling forward healthcare outcomes in LMICs.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# LLMによるゲーム生成 : ゲーム記述言語を用いた検討

Generating Games via LLMs: An Investigation with Video Game Description Language ( http://arxiv.org/abs/2404.08706v1 )

ライセンス: Link先を確認
Chengpeng Hu, Yunlong Zhao, Jialin Liu, (参考訳) 近年,大規模言語モデル(LLM)の出現により,手続き的コンテンツ生成の新たな機会が開けている。 しかし、最近の試みは主にスーパーマリオブラザーズやゼルダのようなゲームルールを定義した特定のゲームのレベル生成に焦点を当てている。 本稿では,LSMを用いたゲーム生成について検討する。 ゲーム記述言語に基づいて,ゲームルールとレベルを同時に生成するLLMベースのフレームワークを提案する。 実験では、異なるコンテキストの組み合わせを考慮するプロンプトでフレームワークがどのように動作するかを示す。 本研究は,LLMの応用を拡大し,プロシージャコンテンツ生成領域における新たなゲーム生成の新たな知見を提供する。

Recently, the emergence of large language models (LLMs) has unlocked new opportunities for procedural content generation. However, recent attempts mainly focus on level generation for specific games with defined game rules such as Super Mario Bros. and Zelda. This paper investigates the game generation via LLMs. Based on video game description language, this paper proposes an LLM-based framework to generate game rules and levels simultaneously. Experiments demonstrate how the framework works with prompts considering different combinations of context. Our findings extend the current applications of LLMs and offer new insights for generating new games in the area of procedural content generation.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# 大きな言語モデルは間違いから進化し続けることができる

Large Language Model Can Continue Evolving From Mistakes ( http://arxiv.org/abs/2404.08707v1 )

ライセンス: Link先を確認
Haokun Zhao, Haixia Han, Jie Shi, Chengyu Du, Jiaqing Liang, Yanghua Xiao, (参考訳) 大きな言語モデル(LLM)は、様々な下流タスクで素晴らしいパフォーマンスを示す。 しかし、知識不足と欠陥のある事前学習データのために、特定のシナリオで誤った応答を生成する可能性がある。 継続的学習(CL)は、この問題に対処するための一般的な方法である。 従来のCLはタスク指向であり、スクラッチからLLMを再訓練するために、新しいデータまたは事実的正確性を用いている。 しかし,本手法では,タスク関連トレーニングデータが多くなり,高価なトレーニングコストがかかる。 この課題に対処するために,LLMの反復的改良を実現するために,「ミスの要約」学習スキルにインスパイアされたCEM法を提案する。 特に, LLMの誤った応答は, 疑問に関連する知識不足を示している。 そこで我々は,これらの知識を複数のデータソースから収集し,継続的かつ目標とする知識更新と補足のための反復的な補足訓練を行う。 一方,LLMのコーパス理解を高めるための補助的トレーニングセットの構築と,破滅的な忘れ込みを防止するための2つの戦略を開発した。 我々は,このCL法の有効性を検証するために,広範囲な実験を行った。 その結果, LLMの精度は17.00\%向上した。

Large Language Models (LLMs) demonstrate impressive performance in various downstream tasks. However, they may still generate incorrect responses in certain scenarios due to the knowledge deficiencies and the flawed pre-training data. Continual Learning (CL) is a commonly used method to address this issue. Traditional CL is task-oriented, using novel or factually accurate data to retrain LLMs from scratch. However, this method requires more task-related training data and incurs expensive training costs. To address this challenge, we propose the Continue Evolving from Mistakes (CEM) method, inspired by the 'summarize mistakes' learning skill, to achieve iterative refinement of LLMs. Specifically, the incorrect responses of LLMs indicate knowledge deficiencies related to the questions. Therefore, we collect corpora with these knowledge from multiple data sources and follow it up with iterative supplementary training for continuous, targeted knowledge updating and supplementation. Meanwhile, we developed two strategies to construct supplementary training sets to enhance the LLM's understanding of the corpus and prevent catastrophic forgetting. We conducted extensive experiments to validate the effectiveness of this CL method. In the best case, our method resulted in a 17.00\% improvement in the accuracy of the LLM.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# ニューラルネットワークを用いたマルチスケールトポロジー最適化

Multi-scale Topology Optimization using Neural Networks ( http://arxiv.org/abs/2404.08708v1 )

ライセンス: Link先を確認
Hongrui Chen, Xingchen Liu, Levent Burak Kara, (参考訳) 長年の課題は、セル間の良好な接続性を持つマルチスケール構造を設計し、各セルを理論的な性能限界に近づくように最適化することである。 ニューラルネットワークを用いた直接マルチスケールトポロジ最適化手法を提案する。 本手法は, 近接する微細構造体間の相溶性をシームレスに維持する逆ホモジェナイゼーションに着目する。 提案手法は,設計領域全体にわたる構造形状と分布を連続体として最適化するトポロジニューラルネットワークから成り立っている。 各マイクロ構造セルは、平面内回転も許容する特定の弾性テンソルに基づいて最適化される。 ニューラルネットワークは、セル内の局所座標を入力としてセル内の密度分布を表現し、各セルのグローバル座標を空間的に変化するマイクロ構造セルを設計する。 このように、ニューラルネットワークを用いた2n次元逆ホモジェナイゼーション問題として、n次元の多次元最適化問題をモデル化する。 各単位セルの逆ホモジェナイゼーションにおいて、隣り合うセルの境界が組み合わされるように入力座標をスケーリングすることにより、各セルの境界を拡張する。 コンバインドセル上の逆ホモジェナイゼーションは接続性を改善する。 本手法は,グレード付きマルチスケール構造の設計と最適化を通じて実証する。

A long-standing challenge is designing multi-scale structures with good connectivity between cells while optimizing each cell to reach close to the theoretical performance limit. We propose a new method for direct multi-scale topology optimization using neural networks. Our approach focuses on inverse homogenization that seamlessly maintains compatibility across neighboring microstructure cells. Our approach consists of a topology neural network that optimizes the microstructure shape and distribution across the design domain as a continuous field. Each microstructure cell is optimized based on a specified elasticity tensor that also accommodates in-plane rotations. The neural network takes as input the local coordinates within a cell to represent the density distribution within a cell, as well as the global coordinates of each cell to design spatially varying microstructure cells. As such, our approach models an n-dimensional multi-scale optimization problem as a 2n-dimensional inverse homogenization problem using neural networks. During the inverse homogenization of each unit cell, we extend the boundary of each cell by scaling the input coordinates such that the boundaries of neighboring cells are combined. Inverse homogenization on the combined cell improves connectivity. We demonstrate our method through the design and optimization of graded multi-scale structures.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# F_β$-plot -- 不均衡なデータ分類器を評価するビジュアルツール

$F_β$-plot -- a visual tool for evaluating imbalanced data classifiers ( http://arxiv.org/abs/2404.08709v1 )

ライセンス: Link先を確認
Szymon Wojciechowski, Michał Woźniak, (参考訳) 不均衡なデータ分類に関連する大きな問題の1つは、信頼性のあるメトリクスの欠如である。 これは主に、ほとんどの実生活(および一般的に使用されるベンチマーク)問題に対して、最小化すべき損失関数の実際の形に関する情報がユーザから得られていないという事実から生じる。 各クラス内の分類品質を示す指標を持つことは一般的であるが、エンドユーザーにとっては、そのような指標の分析が必要であるため、実際には、与えられた分類器の有用性を解釈することが困難である。 したがって、不均衡なデータ分類問題に対して多くの集計指標が提案され、採用されているが、どちらを使うべきかについては合意が得られていない。 もう一つの欠点は、そのあいまいさと1つのクラスに対する体系的な偏見である。 さらに, 上記の欠点により, 選択した集計指標に対して良好に機能する分類モデルの認識において, 実験結果の分析に利用することが課題となっている。 そこで本研究では,一般的なパラメトリック計量である$F_\beta$を解析するための簡単なアプローチを提案する。 ユーザ要求に応じてモデルが優先される場合、分析された分類器のプールを示すことが可能である、と指摘する。

One of the significant problems associated with imbalanced data classification is the lack of reliable metrics. This runs primarily from the fact that for most real-life (as well as commonly used benchmark) problems, we do not have information from the user on the actual form of the loss function that should be minimized. Although it is pretty common to have metrics indicating the classification quality within each class, for the end user, the analysis of several such metrics is then required, which in practice causes difficulty in interpreting the usefulness of a given classifier. Hence, many aggregate metrics have been proposed or adopted for the imbalanced data classification problem, but there is still no consensus on which should be used. An additional disadvantage is their ambiguity and systematic bias toward one class. Moreover, their use in analyzing experimental results in recognition of those classification models that perform well for the chosen aggregated metrics is burdened with the drawbacks mentioned above. Hence, the paper proposes a simple approach to analyzing the popular parametric metric $F_\beta$. We point out that it is possible to indicate for a given pool of analyzed classifiers when a given model should be preferred depending on user requirements.
翻訳日:2024-04-16 19:11:57 公開日:2024-04-11
# 大規模言語モデルは人間のような戦略的嗜好を学ぶか?

Do Large Language Models Learn Human-Like Strategic Preferences? ( http://arxiv.org/abs/2404.08710v1 )

ライセンス: Link先を確認
Jesse Roberts, Kyle Moore, Doug Fisher, (参考訳) 我々は, LLM が経験的結果と比較して, 戦略的シナリオにおける人間的嗜好判断を学習するかどうかを評価する。 太陽とミストラルは、受刑者のジレンマや旅行者のジレンマなど、受刑者のジレンマと一致した安定な価値に基づく嗜好を示す。 モデルのサイズ、価値に基づく嗜好、そして超現実性の関係を確立します。 最後に、脆さが少ない傾向にあるモデルが、スライディングウインドウの注意で訓練されていることを発見した。 また,旅行者のジレンマにおいて,任意のLLMから嗜好関係を構築するための新しい手法と,人間の行動に関する仮説を支持する。

We evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. We show that Solar and Mistral exhibit stable value-based preference consistent with human in the prisoner's dilemma, including stake-size effect, and traveler's dilemma, including penalty-size effect. We establish a relationship between model size, value based preference, and superficiality. Finally, we find that models that tend to be less brittle were trained with sliding window attention. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-11
# ランダムウォーク法とパーキンソン病オントロジーデータベースを用いたパーキンソン病治療薬の検索

Drug Repurposing for Parkinson's Disease Using Random Walk With Restart Algorithm and the Parkinson's Disease Ontology Database ( http://arxiv.org/abs/2404.08711v1 )

ライセンス: Link先を確認
Pratham Kankariya, Rachita Rode, Kevin Mudaliar, Prof. Pranali Hatode, (参考訳) パーキンソン病(英: Parkinson disease)は、脳の不安定領域におけるドーパミン作動性ニューロンの喪失を特徴とする、進行性かつゆっくりと発達する神経変性疾患である。 科学者による広範な研究にもかかわらず、この問題の治療法はまだ存在せず、利用可能な治療法は主にパーキンソン病の症状を減らすのに役立っている。 薬物再資源化(即ち、既存の薬物の新しい使用方法を見つける過程)は、新しい薬物の開発に伴う時間、資源、リスクを削減できる効率的な方法として、より多くの評価を受ける。 本研究では,遺伝子発現データ,生物学的ネットワーク,PDODデータベースを統合した新しい計算プラットフォームを設計し,PD治療のための薬物再配置剤を同定する。 RWRアルゴリズムやPDODスコアリングシステムのような機械学習アプローチを使用することで、薬物の放出変換を配置し、その有効性に応じて潜在的なサンドボックスをソートする。 本稿では, 遺伝子解析, ネットワーク優先化, 薬物標的データ解析を行い, 薬物再資源化の可能性を総合的に評価する。 本研究は、PD治療のさらなる研究を行うための薬剤候補として、そのような治療法を強調した。 また、様々なデータソースと計算手法を用いて、医薬品の購入を約束する根拠を提供する。

Parkinson's disease is a progressive and slowly developing neurodegenerative disease, characterized by dopaminergic neuron loss in the substantia nigra region of the brain. Despite extensive research by scientists, there is not yet a cure to this problem and the available therapies mainly help to reduce some of the Parkinson's symptoms. Drug repurposing (that is, the process of finding new uses for existing drugs) receives more appraisals as an efficient way that allows for reducing the time, resources, and risks associated with the development of new drugs. In this research, we design a novel computational platform that integrates gene expression data, biological networks, and the PDOD database to identify possible drug-repositioning agents for PD therapy. By using machine learning approaches like the RWR algorithm and PDOD scoring system we arrange drug-disease conversions and sort our potential sandboxes according to their possible efficacy. We propose gene expression analysis, network prioritization, and drug target data analysis to arrive at a comprehensive evaluation of drug repurposing chances. Our study results highlight such therapies as promising drug candidates to conduct further research on PD treatment. We also provide the rationale for promising drug repurposing ideas by using various sources of data and computational approaches.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-11
# 機械学習と経済予測 : 国際貿易ネットワークの役割

Machine learning and economic forecasting: the role of international trade networks ( http://arxiv.org/abs/2404.08712v1 )

ライセンス: Link先を確認
Thiago C. Silva, Paulo V. B. Wilhelm, Diego R. Amancio, (参考訳) 本研究では,非グローバル化の動向が国際貿易ネットワークに与える影響と,経済成長予測の改善に果たす役割について検討する。 2010年から2022年までの200か国近くの貿易データを用いて、貿易政策の不確実性の高まりによるネットワークトポロジの大幅な変化を明らかにした。 我々の分析では、中央集権性ランキングによる重要なグローバルプレーヤーが注目されており、米国、中国、ドイツは一貫して優位を維持している。 地域特化貿易ネットワークから評価されたネットワークトポロジ記述物は, 国内GDP成長率予測の質を著しく向上させる。 また、ランダムフォレスト、XGBoost、LightGBMのような非線形モデルは、経済学の文献で使われる伝統的な線形モデルよりも優れていることも見出した。 これらの非線形モデルの予測の解釈にSHAP値を用いることで、ネットワーク記述子に由来する重要な特徴の約半数が、予測の精算において重要な役割を担っていることが分かる。 さらに、近年の経済成長予測の意義、人口増加、経済成長予測の形成における主要セクターの影響を強調し、経済成長予測の複雑さに関する新たな洞察を提供する。

This study examines the effects of de-globalization trends on international trade networks and their role in improving forecasts for economic growth. Using section-level trade data from nearly 200 countries from 2010 to 2022, we identify significant shifts in the network topology driven by rising trade policy uncertainty. Our analysis highlights key global players through centrality rankings, with the United States, China, and Germany maintaining consistent dominance. Using a horse race of supervised regressors, we find that network topology descriptors evaluated from section-specific trade networks substantially enhance the quality of a country's GDP growth forecast. We also find that non-linear models, such as Random Forest, XGBoost, and LightGBM, outperform traditional linear models used in the economics literature. Using SHAP values to interpret these non-linear model's predictions, we find that about half of most important features originate from the network descriptors, underscoring their vital role in refining forecasts. Moreover, this study emphasizes the significance of recent economic performance, population growth, and the primary sector's influence in shaping economic growth predictions, offering novel insights into the intricacies of economic growth forecasting.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-11
# ニューラルネットワークを用いた異種癌の生存予測

Survival Prediction Across Diverse Cancer Types Using Neural Networks ( http://arxiv.org/abs/2404.08713v1 )

ライセンス: Link先を確認
Xu Yan, Weimin Wang, MingXuan Xiao, Yufeng Li, Min Gao, (参考訳) 胃癌と大腸腺癌は、高い死亡率と複雑な治療環境を有する広範囲で困難な悪性腫瘍である。 がん患者の正確な予後に重要なニーズがあるため、医療コミュニティは5年間の生存率を患者の予後を推定するための重要な指標として受け入れてきた。 本研究は胃癌および大腸癌患者の生存予測モデルを改善するための先駆的アプローチを提案する。 高度な画像解析技術を活用し,これらのがんのスライド画像全体(WSI)をスライスし,腫瘍の特徴を捉えた包括的特徴を抽出した。 その後,腫瘍組織内の複雑な空間関係をカプセル化した患者レベルグラフを構築した。 これらのグラフは、包括的な分析と予測のためにデータ固有の接続性を活用するために設計された、洗練された4層グラフ畳み込みニューラルネットワーク(GCN)の入力として機能した。 症例の生存時間と生存状況を統合することで,胃癌のC-index値と大腸癌のC-index値をそれぞれ0.57,0.64と算出した。 これらの結果は,従来の畳み込みニューラルネットワークモデルを上回るものであり,患者の生存率を正確に予測するためのアプローチの有効性を裏付けるものである。 この研究は、パーソナライズされた治療戦略を推進しながら、がんの生物学と進行に関する洞察を提供しながら、医療とAIコミュニティの両方に深い影響を与える。 最終的に、我々の研究は、AI駆動の手法を活用してがんの予後を変革し、世界規模で患者の結果を改善するための重要な一歩である。

Gastric cancer and Colon adenocarcinoma represent widespread and challenging malignancies with high mortality rates and complex treatment landscapes. In response to the critical need for accurate prognosis in cancer patients, the medical community has embraced the 5-year survival rate as a vital metric for estimating patient outcomes. This study introduces a pioneering approach to enhance survival prediction models for gastric and Colon adenocarcinoma patients. Leveraging advanced image analysis techniques, we sliced whole slide images (WSI) of these cancers, extracting comprehensive features to capture nuanced tumor characteristics. Subsequently, we constructed patient-level graphs, encapsulating intricate spatial relationships within tumor tissues. These graphs served as inputs for a sophisticated 4-layer graph convolutional neural network (GCN), designed to exploit the inherent connectivity of the data for comprehensive analysis and prediction. By integrating patients' total survival time and survival status, we computed C-index values for gastric cancer and Colon adenocarcinoma, yielding 0.57 and 0.64, respectively. Significantly surpassing previous convolutional neural network models, these results underscore the efficacy of our approach in accurately predicting patient survival outcomes. This research holds profound implications for both the medical and AI communities, offering insights into cancer biology and progression while advancing personalized treatment strategies. Ultimately, our study represents a significant stride in leveraging AI-driven methodologies to revolutionize cancer prognosis and improve patient outcomes on a global scale.
翻訳日:2024-04-16 19:02:07 公開日:2024-04-11
# コンテキストを用いたセンサドリフトの適応

Using context to adapt to sensor drift ( http://arxiv.org/abs/2003.07292v3 )

ライセンス: Link先を確認
J. Warner, A. Devaraj, R. Miikkulainen, (参考訳) ライフロング開発により、動物や機械は、センサーやアクチュエーターの摩耗や損傷など、環境の変化に適応することができる。 このような適応の重要なユースケースは、産業用嗅覚である。 金属酸化物をベースとしたセンサーは、空気中のガス化合物を検出するのに使えるが、ガスはセンサーと相互作用し、センサードリフトと呼ばれるプロセスで反応が時間とともに変化する。 センサドリフトは不可逆であり、追加データによる頻繁な再校正が必要である。 本報告では, 匂い感知能力の文脈としてドリフトを表す適応システムが, 自動的に同じ目標を達成することを実証する。 変更履歴をトレーニングした後、ニューラルネットワークは将来のコンテキストを予測し、コンテキスト+スキルセンシングシステムがセンサーのドリフトに適応できるようにする。 ガスセンサドリフトの工業的データセットに基づいて評価し、標準的なドリフトナブ・アンサンブル法よりも優れた性能を示した。 このように、文脈+スキルシステムは、変化する世界に適応するための動物の嗅覚システムの自然な能力をエミュレートし、それが現実世界の応用にどのように有効であるかを実証する。

Lifelong development allows animals and machines to adapt to changes in the environment as well as in their own systems, such as wear and tear in sensors and actuators. An important use case of such adaptation is industrial odor-sensing. Metal-oxide-based sensors can be used to detect gaseous compounds in the air; however, the gases interact with the sensors, causing their responses to change over time in a process called sensor drift. Sensor drift is irreversible and requires frequent recalibration with additional data. This paper demonstrates that an adaptive system that represents the drift as context for the skill of odor sensing achieves the same goal automatically. After it is trained on the history of changes, a neural network predicts future contexts, allowing the context+skill sensing system to adapt to sensor drift. Evaluated on an industrial dataset of gas-sensor drift, the approach performed better than standard drift-naive and ensembling methods. In this way, the context+skill system emulates the natural ability of animal olfaction systems to adapt to a changing world, and demonstrates how it can be effective in real-world applications.
翻訳日:2024-04-15 20:30:27 公開日:2024-04-11
# Neural-Flyは強風下でのアジャイル飛行の迅速な学習を可能にする

Neural-Fly Enables Rapid Learning for Agile Flight in Strong Winds ( http://arxiv.org/abs/2205.06908v2 )

ライセンス: Link先を確認
Michael O'Connell, Guanya Shi, Xichen Shi, Kamyar Azizzadenesheli, Anima Anandkumar, Yisong Yue, Soon-Jo Chung, (参考訳) ダイナミック高速風における安全かつ正確な飛行操作の実行は、無人航空機(UAV)の継続的なコモディティ化において重要である。 しかし, 各種風況と航空機の操縦性への影響はよく理解されていないため, 従来の制御設計手法を用いて効率的なロボット制御を設計することは困難である。 我々は、ディープラーニングを通じて事前学習された表現を組み込むことで、オンライン適応を迅速に行う学習ベースのアプローチであるNeural-Flyを提案する。 ニューラルフライは、異なる風条件下での空気力学が共通の表現を共有し、風固有の部分が低次元空間にあるという2つの重要な観測に基づいている。 そのためにNeural-Flyは、ドメイン逆不変メタラーニング(DAIML)という学習アルゴリズムを使って、12分間のフライトデータだけで共有表現を学習する。 学習された表現を基底として、Neural-Flyは合成適応法則を用いて基底要素を混合する線形係数の集合を更新する。 カルテック・リアル・ウェザー・ウィンド・トンネル(Caltech Real Weather Wind Tunnel)で発生した挑戦的な風条件の下で風速が43.6km/h(12.1m/秒)に達すると、ニューラルフライは最先端の非線形・適応制御器よりもかなり少ない追尾誤差で正確な飛行制御を行う。 強烈な経験的性能に加えて、Neural-Flyの指数的安定性は堅牢性を保証する。 最後に、我々の制御設計は風の状態を外挿し、オンボードセンサーのみを搭載した屋外飛行に有効であることが示され、性能の低下を最小限に抑えながらドローン間を移動できる。

Executing safe and precise flight maneuvers in dynamic high-speed winds is important for the ongoing commoditization of uninhabited aerial vehicles (UAVs). However, because the relationship between various wind conditions and its effect on aircraft maneuverability is not well understood, it is challenging to design effective robot controllers using traditional control design methods. We present Neural-Fly, a learning-based approach that allows rapid online adaptation by incorporating pretrained representations through deep learning. Neural-Fly builds on two key observations that aerodynamics in different wind conditions share a common representation and that the wind-specific part lies in a low-dimensional space. To that end, Neural-Fly uses a proposed learning algorithm, domain adversarially invariant meta-learning (DAIML), to learn the shared representation, only using 12 minutes of flight data. With the learned representation as a basis, Neural-Fly then uses a composite adaptation law to update a set of linear coefficients for mixing the basis elements. When evaluated under challenging wind conditions generated with the Caltech Real Weather Wind Tunnel, with wind speeds up to 43.6 kilometers/hour (12.1 meters/second), Neural-Fly achieves precise flight control with substantially smaller tracking error than state-of-the-art nonlinear and adaptive controllers. In addition to strong empirical performance, the exponential stability of Neural-Fly results in robustness guarantees. Last, our control design extrapolates to unseen wind conditions, is shown to be effective for outdoor flights with only onboard sensors, and can transfer across drones with minimal performance degradation.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-11
# 自然画像パッチの効率的な表現

Efficient Representation of Natural Image Patches ( http://arxiv.org/abs/2210.13004v3 )

ライセンス: Link先を確認
Cheng Guo, (参考訳) 生体システムにインスパイアされた最小でも現実的な仮定に基づく抽象情報処理モデルを用いて,視覚システムにおける2つの最終的な目的 – 効率的な情報伝達と正確なセンサ確率分布モデリング – を実現する方法について検討する。 情報伝達の最適化は、一般に最適な確率分布モデルを保証するものではないことを証明している。 本稿では, 2 ピクセル (2D) システムとイメージパッチを用いて, 出力のみに依存する2 種類の生物学的可算損失関数によって駆動される非線形集団コードにより, 効率的な表現を実現することができることを示す。 教師なし学習の後、我々の抽象情報処理モデルは、スパイキング活動のような実際のニューロンの特徴を模倣していないにもかかわらず、生物学的システムと顕著に類似している。 現代のディープラーニングモデルとの予備的な比較は、我々のモデルが大きな効率性をもたらすことを示唆している。 我々のモデルは、初期の視覚系の計算理論に関する新しい洞察と、ディープラーニングモデルの効率を高めるための潜在的新しいアプローチを提供する。

Utilizing an abstract information processing model based on minimal yet realistic assumptions inspired by biological systems, we study how to achieve the early visual system's two ultimate objectives: efficient information transmission and accurate sensor probability distribution modeling. We prove that optimizing for information transmission does not guarantee optimal probability distribution modeling in general. We illustrate, using a two-pixel (2D) system and image patches, that an efficient representation can be realized through a nonlinear population code driven by two types of biologically plausible loss functions that depend solely on output. After unsupervised learning, our abstract information processing model bears remarkable resemblances to biological systems, despite not mimicking many features of real neurons, such as spiking activity. A preliminary comparison with a contemporary deep learning model suggests that our model offers a significant efficiency advantage. Our model provides novel insights into the computational theory of early visual systems as well as a potential new approach to enhance the efficiency of deep learning models.
翻訳日:2024-04-15 20:25:39 公開日:2024-04-11
# 音声認識のためのマルチブランク変換器

Multi-blank Transducers for Speech Recognition ( http://arxiv.org/abs/2211.03541v2 )

ライセンス: Link先を確認
Hainan Xu, Fei Jia, Somshubra Majumdar, Shinji Watanabe, Boris Ginsburg, (参考訳) 本稿では,自動音声認識(ASR)のためのRNN-Transducer(RNN-T)モデルの変更を提案する。 標準RNN-Tでは、ブランクシンボルの出力は正確に1つの入力フレームを消費し、提案手法では2つ以上の入力フレームを消費する追加のブランクシンボルを導入する。 付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。 マルチブランクRNN-Tsを訓練するために,大きなブランクの排出を優先するために,新しいロジットアンダー正規化法を提案する。 複数の言語とデータセットに関する実験により、多言語RNN-T法は、英語のLibrispeechデータセットとドイツ語のMultilingual Librispeechデータセットのモデル推論に、それぞれ+90%/+139%以上の相対的なスピードアップをもたらすことを示した。 マルチブランクRNN-T法は、ASRの精度を一貫して改善する。 我々はNeMo (https://github.com/NVIDIA/NeMo)ツールキットでメソッドの実装をリリースします。

This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (https://github.com/NVIDIA/NeMo) toolkit.
翻訳日:2024-04-15 20:25:38 公開日:2024-04-11
# 2022年アラスカ特別選挙における投票とコンドルセットのランク付け:他の投票システムとの比較

Ranked Choice Voting And Condorcet Failure in the Alaska 2022 Special Election: How Might Other Voting Systems Compare? ( http://arxiv.org/abs/2303.00108v2 )

ライセンス: Link先を確認
Jeanne N. Clelland, (参考訳) 2022年8月、アラスカ州選出のアメリカ合衆国下院特別選挙では3人の候補者が選出され、「インスタント・ルノフ投票」と呼ばれる1人の候補者が当選した。 この選挙の結果は「コンドルチェットの失敗(Condorcet failure:)」として知られる有名だが比較的稀な現象であった。 ベギッチはこの選挙の「コンドルチェットの勝者」であり、キャスティング・ボイト・レコード(英語版)に基づいて、他の2人の候補者を1対1で破ったが、第1回投票では最少の得票数で敗れた。 本研究の目的は,この選挙が承認投票システムとSTAR(Score Then Automatic Runoff)投票という2つの代替投票システムの下で実施された場合,候補投票記録のデータを用いて,潜在的結果の範囲を探索することである。 投票者行動に関する最良の前提の下では、ペトラがまだ承認投票で勝利した可能性が高いが、ベギッチがほぼ確実にSTAR投票で勝利しただろう。

The August 2022 special election for the U.S. House of Representatives in Alaska featured three main candidates and was conducted by the single-winner ranked choice voting system known as "Instant Runoff Voting." The results of this election displayed a well-known but relatively rare phenomenon known as "Condorcet failure:" Nick Begich was eliminated in the first round despite being more broadly acceptable to the electorate than either of the other two candidates. More specifically, Begich was the "Condorcet winner" of this election: Based on the Cast Vote Record, he would have defeated each of the other two candidates in head-to-head contests, but he was eliminated in the first round of ballot counting due to receiving the fewest first-place votes. The purpose of this paper is to use the data in the Cast Vote Record to explore the range of likely outcomes if this election had been conducted under two alternative voting systems: Approval Voting and STAR ("Score Then Automatic Runoff") Voting. We find that under the best assumptions available about voter behavior, it is likely -- but not at all certain -- that Peltola would still have won the election under Approval Voting, while Begich would almost certainly have won under STAR Voting.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-11
# Kullback-Leibler Maillard Smpling for Multi-armed Bandits with bounded Rewards

Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards ( http://arxiv.org/abs/2304.14989v4 )

ライセンス: Link先を確認
Hao Qin, Kwang-Sung Jun, Chicheng Zhang, (参考訳) 我々は、腕の報酬分布がすべて$[0,1]$間隔で支えられるような、$K$の武器付きバンディット問題を研究する。 この環境では、後悔効率の悪いランダム化探索アルゴリズムを設計することが難しかった。 Maillard sample \cite{maillard13apprentissage} は、トンプソンサンプリングの魅力的な代替品であるが、最近、オフラインポリシー評価に有用なクローズドフォームの動作確率を維持しながら、サブガウスの報酬設定 \cite{bian2022maillard} において、競合する後悔の保証を達成することが示されている。 本研究では,KL-Leibler Maillard Smpling (KL-MS)アルゴリズムを提案する。 我々は、KL-MSがベルヌーイであるときに漸近的最適性を楽しむことを示し、$O(\sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$という形の最悪の後悔境界を持つことを示す。

We study $K$-armed bandit problems where the reward distributions of the arms are all supported on the $[0,1]$ interval. It has been a challenge to design regret-efficient randomized exploration algorithms in this setting. Maillard sampling \cite{maillard13apprentissage}, an attractive alternative to Thompson sampling, has recently been shown to achieve competitive regret guarantees in the sub-Gaussian reward setting \cite{bian2022maillard} while maintaining closed-form action probabilities, which is useful for offline policy evaluation. In this work, we propose the Kullback-Leibler Maillard Sampling (KL-MS) algorithm, a natural extension of Maillard sampling for achieving KL-style gap-dependent regret bound. We show that KL-MS enjoys the asymptotic optimality when the rewards are Bernoulli and has a worst-case regret bound of the form $O(\sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$, where $\mu^*$ is the expected reward of the optimal arm, and $T$ is the time horizon length.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-11
# 深層学習におけるトポロジカル解釈可能性

Topological Interpretability for Deep-Learning ( http://arxiv.org/abs/2305.08642v2 )

ライセンス: Link先を確認
Adam Spannaus, Heidi A. Hanson, Lynne Penberthy, Georgia Tourassi, (参考訳) 日常的にAIベースのシステムが普及するにつれ、意思決定メカニズムを理解する必要性が高まりつつある。 AIに基づく意思決定システムから得られる統計的推論を信頼できるレベルは、特に犯罪司法や医療診断のようなリスクの高いシステムでは、誤った推論が悲劇的な結果をもたらす可能性がある、という懸念が高まっている。 現実世界のデータに関わる問題に対する解決策を提供することに成功したにもかかわらず、ディープラーニング(DL)モデルは予測の確実性を定量化できない。 これらのモデルは、たとえソリューションが間違っているとしても、しばしば非常に自信がある。 本研究は,2つのDL分類モデルにおいて,トポロジカルおよび幾何学的データ解析の手法を用いて臨床および非臨床テキストで訓練された特徴を推測する手法を提案する。 モデルの特徴空間のグラフを作成し、特徴と予測統計の類似性によって入力をグラフの頂点にクラスタ化する。 次に、与えられたラベルに対して高い予測精度を示す部分グラフを抽出する。 これらのサブグラフには、DLモデルがその決定に関連するものとして認識した特徴に関する豊富な情報が含まれている。 確率測度間の距離測定値を用いてラベルのこれらの特徴を推定し,LIME法やSHAP法と比較して,本手法の安定性を実証する。 この研究は、DLモデルの意思決定メカニズムに関する洞察を得る可能性があることを証明している。 この手法により、モデルが問題に対する情報ゲルマンに基づいて決定を下しているか、あるいはデータ内の外部パターンを特定することができる。

With the growing adoption of AI-based systems across everyday life, the need to understand their decision-making mechanisms is correspondingly increasing. The level at which we can trust the statistical inferences made from AI-based decision systems is an increasing concern, especially in high-risk systems such as criminal justice or medical diagnosis, where incorrect inferences may have tragic consequences. Despite their successes in providing solutions to problems involving real-world data, deep learning (DL) models cannot quantify the certainty of their predictions. These models are frequently quite confident, even when their solutions are incorrect. This work presents a method to infer prominent features in two DL classification models trained on clinical and non-clinical text by employing techniques from topological and geometric data analysis. We create a graph of a model's feature space and cluster the inputs into the graph's vertices by the similarity of features and prediction statistics. We then extract subgraphs demonstrating high-predictive accuracy for a given label. These subgraphs contain a wealth of information about features that the DL model has recognized as relevant to its decisions. We infer these features for a given label using a distance metric between probability measures, and demonstrate the stability of our method compared to the LIME and SHAP interpretability methods. This work establishes that we may gain insights into the decision mechanism of a DL model. This method allows us to ascertain if the model is making its decisions based on information germane to the problem or identifies extraneous patterns within the data.
翻訳日:2024-04-15 20:15:54 公開日:2024-04-11
# 優れた量子LDPC符号の単発復号化

Single-shot decoding of good quantum LDPC codes ( http://arxiv.org/abs/2306.12470v2 )

ライセンス: Link先を確認
Shouzhen Gu, Eugene Tang, Libor Caha, Shin Ho Choe, Zhiyang He, Aleksander Kubica, (参考訳) 量子タナー符号は、量子低密度パリティチェック(LDPC)符号のファミリーを構成する。 本稿では,量子タナー符号が対向雑音の単発量子誤差補正(QEC)を促進することを証明する。 本稿では,Leverrier と Z'emor が導入したシーケンシャルデコーディングアルゴリズムと並列デコーディングアルゴリズムの両方に対して,この結果を確立する。 さらに,複数回にわたるQECラウンドの誤差を抑制するために,並列復号アルゴリズムを各ラウンドで一定時間実行するのに十分であることを示す。 良質なコードパラメータと組み合わせると、QECの一定の時間オーバーヘッドと(おそらく時間に関連のある)対向ノイズに対する頑健さにより、量子タナー符号は量子フォールトトレラントプロトコルの観点から順応する。

Quantum Tanner codes constitute a family of quantum low-density parity-check (LDPC) codes with good parameters, i.e., constant encoding rate and relative distance. In this article, we prove that quantum Tanner codes also facilitate single-shot quantum error correction (QEC) of adversarial noise, where one measurement round (consisting of constant-weight parity checks) suffices to perform reliable QEC even in the presence of measurement errors. We establish this result for both the sequential and parallel decoding algorithms introduced by Leverrier and Z\'emor. Furthermore, we show that in order to suppress errors over multiple repeated rounds of QEC, it suffices to run the parallel decoding algorithm for constant time in each round. Combined with good code parameters, the resulting constant-time overhead of QEC and robustness to (possibly time-correlated) adversarial noise make quantum Tanner codes alluring from the perspective of quantum fault-tolerant protocols.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-11
# CLIPMasterPrintを用いたコントラスト言語画像事前学習モデルの構築

Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints ( http://arxiv.org/abs/2307.03798v2 )

ライセンス: Link先を確認
Matthias Freiberger, Peter Kun, Christian Igel, Anders Sundnes Løvlie, Sebastian Risi, (参考訳) Contrastive Language-Image Pre-training (CLIP)のような視覚的およびテキスト的データを活用するモデルは、人工知能の最近の進歩のバックボーンである。 本研究は,その汎用性にもかかわらず,このようなモデルが,マスタイメージを騙すような表現に対して脆弱であることを示す。 マスタイメージの摂食は、CLIPモデルの信頼性スコアを、かなりの数の広範囲のプロンプトに対して最大化することができるが、攻撃されたプロンプトとは認識できないか、無関係である。 このような画像の存在は、悪意あるアクターがCLIPで訓練された画像検索モデルに悪意を持って干渉するために、単一の画像が多くの異なるプロンプトを攻撃できるため、非常に小さな労力で使用できるため、問題となる。 ここでは,CLIP(CLIPMasterPrints)のマスタイメージを確率勾配勾配,投影勾配勾配,ブラックボックス最適化を用いてマイニングする方法を示す。 多くの一般的な敵攻撃とは対照的に、ブラックボックス最適化アプローチでは、モデルの重みがアクセスできない場合でもCLIPMasterPrintをマイニングすることができます。 マイニング画像の特性について検討し,少数の画像キャプションで訓練した画像が,より多くの意味的関連キャプションに一般化されることを見出した。 モデルのロバスト性を高め、CLIPMasterPrintsを自動的に検出し、脆弱なモデルの入力を正当化するためのアプローチを導入する。 最後に、CLIPMasterPrintsの脆弱性は、対照的に事前訓練されたマルチモーダルネットワークにおけるモダリティギャップと関連していることがわかった。 コードはhttps://github.com/matfrei/CLIPMasterPrintsで公開されている。

Models leveraging both visual and textual data such as Contrastive Language-Image Pre-training (CLIP), are the backbone of many recent advances in artificial intelligence. In this work, we show that despite their versatility, such models are vulnerable to what we refer to as fooling master images. Fooling master images are capable of maximizing the confidence score of a CLIP model for a significant number of widely varying prompts, while being either unrecognizable or unrelated to the attacked prompts for humans. The existence of such images is problematic as it could be used by bad actors to maliciously interfere with CLIP-trained image retrieval models in production with comparably small effort as a single image can attack many different prompts. We demonstrate how fooling master images for CLIP (CLIPMasterPrints) can be mined using stochastic gradient descent, projected gradient descent, or blackbox optimization. Contrary to many common adversarial attacks, the blackbox optimization approach allows us to mine CLIPMasterPrints even when the weights of the model are not accessible. We investigate the properties of the mined images, and find that images trained on a small number of image captions generalize to a much larger number of semantically related captions. We evaluate possible mitigation strategies, where we increase the robustness of the model and introduce an approach to automatically detect CLIPMasterPrints to sanitize the input of vulnerable models. Finally, we find that vulnerability to CLIPMasterPrints is related to a modality gap in contrastive pre-trained multi-modal networks. Code available at https://github.com/matfrei/CLIPMasterPrints.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-11
# ワンショットホログラフィー

One-shot holography ( http://arxiv.org/abs/2307.13032v2 )

ライセンス: Link先を確認
Chris Akers, Adam Levine, Geoff Penington, Elizabeth Wildenhain, (参考訳) 2008.03319] の作業に続いて、境界領域 $B$ の一般共変最大絡み合いウェッジを定義する。 同様に同変のミンエンタングルメントウェッジを定義し、これはB$で状態に影響を与えるバルク領域であると推測する。 我々は、この予想に必要となる様々な性質、例えばネスト、因果ウェッジの包含、および適切な特別な場合における通常の量子超曲面処方則への還元等、min-およびmax-entanglement wedgesが従うことを証明した。 これらの証明は、我々が予想する(制限された)量子集中予想(QFC)のワンショット版に依存している。 これらのQFCは、一発一般化第二法則(GSL)と量子ブッソ境界を暗示する。 さらに、特定の半古典的極限において、代数的手法を用いてこのワンショット GSL を直接証明する。 最後に、この結果を導出するために、単ショット量子シャノン理論の枠組みと有限次元フォン・ノイマン代数への状態特異的再構成の両方を拡張し、非自明な中心を許す。

Following the work of [2008.03319], we define a generally covariant max-entanglement wedge of a boundary region $B$, which we conjecture to be the bulk region reconstructible from $B$. We similarly define a covariant min-entanglement wedge, which we conjecture to be the bulk region that can influence the state on $B$. We prove that the min- and max-entanglement wedges obey various properties necessary for this conjecture, such as nesting, inclusion of the causal wedge, and a reduction to the usual quantum extremal surface prescription in the appropriate special cases. These proofs rely on one-shot versions of the (restricted) quantum focusing conjecture (QFC) that we conjecture to hold. We argue that these QFCs imply a one-shot generalized second law (GSL) and quantum Bousso bound. Moreover, in a particular semiclassical limit we prove this one-shot GSL directly using algebraic techniques. Finally, in order to derive our results, we extend both the frameworks of one-shot quantum Shannon theory and state-specific reconstruction to finite-dimensional von Neumann algebras, allowing nontrivial centers.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-11
# Sat2Cap:衛星画像からの微細テキスト記述のマッピング

Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images ( http://arxiv.org/abs/2307.15904v2 )

ライセンス: Link先を確認
Aayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Hannah Kerner, Nathan Jacobs, (参考訳) 自由形式のテキスト記述を用いた地図作成のための弱教師付きアプローチを提案する。 テキストマップをゼロショットマッピングとして作成するこの作業について言及する。 以前の研究は、オーバーヘッド画像を使用して属性の固定セットを予測するモデルを開発することでマッピングタスクにアプローチしてきた。 しかしながら、これらのモデルは、訓練された特定のタスクのみを解決することができるため、非常に制限的です。 一方、テキストのマッピングは、最小限の制約で、さまざまなマッピング問題を解くことができる。 これを実現するために、Sat2Capと呼ばれる対照的な学習フレームワークを6.10万対のオーバーヘッドと地上レベルのイメージを持つ新しい大規模データセットでトレーニングする。 所定の位置とオーバヘッド画像に対して、地上の風景の予測されたCLIP埋め込みを予測する。 予測されたCLIP埋め込みは、そのロケーションに関連するテキスト空間について学ぶために使用される。 Sat2Capは日付情報にも条件付けされており、時間的に異なる概念をロケーション上でモデル化することができる。 実験により,本モデルが地上レベルの概念を抽出し,詳細なテキストクエリを大規模にマッピングできることが実証された。 当社のアプローチでは,テキストラベル付きデータを必要としないため,トレーニングのスケーラブル化が容易です。 コード、データセット、モデルは公開されます。

We propose a weakly supervised approach for creating maps using free-form textual descriptions. We refer to this work of creating textual maps as zero-shot mapping. Prior works have approached mapping tasks by developing models that predict a fixed set of attributes using overhead imagery. However, these models are very restrictive as they can only solve highly specific tasks for which they were trained. Mapping text, on the other hand, allows us to solve a large variety of mapping problems with minimal restrictions. To achieve this, we train a contrastive learning framework called Sat2Cap on a new large-scale dataset with 6.1M pairs of overhead and ground-level images. For a given location and overhead image, our model predicts the expected CLIP embeddings of the ground-level scenery. The predicted CLIP embeddings are then used to learn about the textual space associated with that location. Sat2Cap is also conditioned on date-time information, allowing it to model temporally varying concepts over a location. Our experimental results demonstrate that our models successfully capture ground-level concepts and allow large-scale mapping of fine-grained textual queries. Our approach does not require any text-labeled data, making the training easily scalable. The code, dataset, and models will be made publicly available.
翻訳日:2024-04-15 20:06:10 公開日:2024-04-11
# OpenAI APIを使ったGPT-3の微調整は個人識別情報を漏洩させるか?

Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information? ( http://arxiv.org/abs/2307.16382v2 )

ライセンス: Link先を確認
Albert Yu Sun, Eliott Zemour, Arushi Saxena, Udith Vaidyanathan, Eric Lin, Christian Lau, Vaikkunth Mugunthan, (参考訳) 機械学習の実践者は、特定のタスクにおけるモデルパフォーマンスを改善するために、GPT-3のような生成済みモデルを微調整することが多い。 しかし、以前の研究は、微調整された機械学習モデルが元の微調整データセットから機密情報を記憶し、出力することを示唆している。 OpenAIのような企業は、モデルを微調整するサービスを提供しているが、これまでの作業では、クローズドソースモデルに対する暗記攻撃は行っていない。 本研究では,OpenAIの微調整APIを用いて,GPT-3に対するプライバシ攻撃をシミュレートする。 このモデルから個人識別可能情報(PII)を抽出できるかどうかを判断することを目的とする。 本稿では,(1) GPT-3 の微調整分類モデルにおけるナイーブプロセッシング手法の利用について検討し,(2) 実世界の文脈における微調整 GPT-3 の PII 記憶の程度を調べるために,オートコンプリート (Autocomplete) と呼ばれる実用的な単語生成タスクを設計する。 その結果,両タスクの微調整GPT3が,基礎となる微調整データセットから得られた重要な個人識別情報(PII)を記憶・開示するモデルに繋がったことが明らかとなった。 さらなる研究を促進するため、GitHubでコードとデータセットを公開しました。

Machine learning practitioners often fine-tune generative pre-trained models like GPT-3 to improve model performance at specific tasks. Previous works, however, suggest that fine-tuned machine learning models memorize and emit sensitive information from the original fine-tuning dataset. Companies such as OpenAI offer fine-tuning services for their models, but no prior work has conducted a memorization attack on any closed-source models. In this work, we simulate a privacy attack on GPT-3 using OpenAI's fine-tuning API. Our objective is to determine if personally identifiable information (PII) can be extracted from this model. We (1) explore the use of naive prompting methods on a GPT-3 fine-tuned classification model, and (2) we design a practical word generation task called Autocomplete to investigate the extent of PII memorization in fine-tuned GPT-3 within a real-world context. Our findings reveal that fine-tuning GPT3 for both tasks led to the model memorizing and disclosing critical personally identifiable information (PII) obtained from the underlying fine-tuning dataset. To encourage further research, we have made our codes and datasets publicly available on GitHub at: https://github.com/albertsun1/gpt3-pii-attacks
翻訳日:2024-04-15 20:06:10 公開日:2024-04-11
# 超音波輪郭図を用いた大規模多孔質細胞追跡

Large-Scale Multi-Hypotheses Cell Tracking Using Ultrametric Contours Maps ( http://arxiv.org/abs/2308.04526v2 )

ライセンス: Link先を確認
Jordão Bragantini, Merlin Lange, Loïc Royer, (参考訳) 本研究では,分割選択手法による大規模3次元細胞追跡手法について述べる。 提案手法は,2つの前線における大規模顕微鏡データセット間の細胞追跡に有効である。 (i)テラバイト規模の3D+tデータセットに数百万のセグメンテーションインスタンスを含む問題を解くことができる。 (II)3次元注釈データを必要とする深層学習の有無にかかわらず,蛍光顕微鏡の分野では不十分な競合的な結果が得られる。 提案手法は, セグメント化仮説の階層構造を用いてセルトラックとセグメントを計算し, 隣接するフレーム間の重なりを最大化して不連続セグメントを選択する。 本手法は, セル追跡課題から得られた3次元画像の最先端化を実現し, より高速な整数線形計画法を有することを示す。 さらに,我々のフレームワークは柔軟で,市販のセルセグメンテーションモデルからのセグメンテーションをサポートし,トラッキングを改善するアンサンブルと組み合わせることができる。 コードはhttps://github.com/royerlab/ultrack.comで入手できる。

In this work, we describe a method for large-scale 3D cell-tracking through a segmentation selection approach. The proposed method is effective at tracking cells across large microscopy datasets on two fronts: (i) It can solve problems containing millions of segmentation instances in terabyte-scale 3D+t datasets; (ii) It achieves competitive results with or without deep learning, which requires 3D annotated data, that is scarce in the fluorescence microscopy field. The proposed method computes cell tracks and segments using a hierarchy of segmentation hypotheses and selects disjoint segments by maximizing the overlap between adjacent frames. We show that this method achieves state-of-the-art results in 3D images from the cell tracking challenge and has a faster integer linear programming formulation. Moreover, our framework is flexible and supports segmentations from off-the-shelf cell segmentation models and can combine them into an ensemble that improves tracking. The code is available https://github.com/royerlab/ultrack.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-11
# 不完全検出下における監視量子系のエントロピー生成とゆらぎ定理

Entropy production and fluctuation theorems for monitored quantum systems under imperfect detection ( http://arxiv.org/abs/2308.08491v2 )

ライセンス: Link先を確認
Mar Ferri-Cortés, Jose A. Almanza-Marrero, Rosa López, Roberta Zambrini, Gonzalo Manzano, (参考訳) マルコフ開量子系の熱力学的挙動は、連続的なモニタリング手法を用いて変動のレベルで記述することができる。 しかし, 熱力学量の定義が微妙になり, 普遍的なゆらぎ関係が不明な不完全検出手法を実用化するには, 不完全検出方式の評価が必要である。 ここでは、理想的かつ非効率なモニタリング設定でエントロピー生成をリンクする普遍的ゆらぎ関係を導出することにより、このギャップを埋める。 単一軌道のレベルで、基礎となるエントロピー生成を低くする不完全な検出記録を用いて、散逸の適切な推定器を提供する。 本研究は, 量子ジャンプ軌跡に追従して, 駆動散逸型2レベルシステムを用いて行った。

The thermodynamic behavior of Markovian open quantum systems can be described at the level of fluctuations by using continuous monitoring approaches. However, practical applications require assessing imperfect detection schemes, where the definition of main thermodynamic quantities becomes subtle and universal fluctuation relations are unknown. Here we fill this gap by deriving a universal fluctuation relation that links entropy production in ideal and in inefficient monitoring setups. This provides a suitable estimator of dissipation using imperfect detection records that lower bounds the underlying entropy production at the level of single trajectories. We illustrate our findings with a driven-dissipative two-level system following quantum jump trajectories.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-11
# 適応型大言語モデルは臨床テキスト要約において医療専門家より優れている

Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization ( http://arxiv.org/abs/2309.07430v5 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, Eduardo Pontes Reis, Anna Seehofnerova, Nidhi Rohatgi, Poonam Hosamani, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari, (参考訳) 膨大なテキストデータを分析し、電子健康記録から重要な情報を要約することで、臨床医がどのように時間を割くかに大きな負担がかかる。 大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。 本研究では, 放射線診断報告, 患者質問, 進歩ノート, 医師と患者との対話の4つの異なる臨床要約課題に, 8つのLSMに適応法を適用した。 構文的、意味的、概念的NLPメトリクスによる定量的評価は、モデルと適応法の間のトレードオフを明らかにする。 10名の医師による臨床読者による研究は, 概略完全性, 正当性, 簡潔性を評価し, 多くの場合, もっとも適応したLSMの要約は, 医師の要約と同等(45%)か優れている(36%)かのどちらかである。 その後の安全性分析は、LLMと医療専門家の両方が直面している課題を浮き彫りにする。 本研究は,複数のタスクにまたがる臨床テキスト要約において,LSMが医療専門家より優れていた証拠を提供する。 このことは、LSMを臨床ワークフローに組み込むことでドキュメントの負担を軽減し、臨床医が患者のケアにもっと注力できることを示唆している。

Analyzing vast textual data and summarizing key information from electronic health records imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown promise in natural language processing (NLP), their effectiveness on a diverse range of clinical summarization tasks remains unproven. In this study, we apply adaptation methods to eight LLMs, spanning four distinct clinical summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Quantitative assessments with syntactic, semantic, and conceptual NLP metrics reveal trade-offs between models and adaptation methods. A clinical reader study with ten physicians evaluates summary completeness, correctness, and conciseness; in a majority of cases, summaries from our best adapted LLMs are either equivalent (45%) or superior (36%) compared to summaries from medical experts. The ensuing safety analysis highlights challenges faced by both LLMs and medical experts, as we connect errors to potential medical harm and categorize types of fabricated information. Our research provides evidence of LLMs outperforming medical experts in clinical text summarization across multiple tasks. This suggests that integrating LLMs into clinical workflows could alleviate documentation burden, allowing clinicians to focus more on patient care.
翻訳日:2024-04-15 19:56:17 公開日:2024-04-11
# 3次元ピタエフスキー模型における物質移動について

On the mass transfer in the 3D Pitaevskii model ( http://arxiv.org/abs/2310.06305v2 )

ライセンス: Link先を確認
Juhi Jang, Pranava Chaitanya Jayanti, Igor Kukavica, (参考訳) 1959年にPitaevskiiによって導かれた超流動のマイクロスケールモデルについて検討し、超流動He-4と通常の流体相との相互作用のダイナミクスについて述べる。 この系は非線形シュリンガー方程式と非圧縮的で不均一なナビエ・ストークス方程式からなり、双方向の非線形緩和機構を介して互いに結合する。 この結合は相間の質量/分子/エネルギー移動を許容し、超流動の通常の流体への変換を考慮に入れている。 我々は、小さな初期データから始まるパワータイプ非線形性に対して、$\mathbb{T}^3$における弱解の存在を証明した。 主な課題は、通常の流体密度の厳密な正の正の度合いを確保するために相間物質移動を制御することである。

We examine a micro-scale model of superfluidity derived by Pitaevskii in 1959 which describes the interacting dynamics between superfluid He-4 and its normal fluid phase. This system consists of the nonlinear Schr\"odinger equation and the incompressible, inhomogeneous Navier-Stokes equations, coupled to each other via a bidirectional nonlinear relaxation mechanism. The coupling permits mass/momentum/energy transfer between the phases, and accounts for the conversion of superfluid into normal fluid. We prove the existence of weak solutions in $\mathbb{T}^3$ for a power-type nonlinearity, beginning from small initial data. The main challenge is to control the inter-phase mass transfer in order to ensure the strict positivity of the normal fluid density, while obtaining time-independent a priori estimates.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-11
# 思考の連鎖を持つ変圧器の表現力

The Expressive Power of Transformers with Chain of Thought ( http://arxiv.org/abs/2310.07923v5 )

ライセンス: Link先を確認
William Merrill, Ashish Sabharwal, (参考訳) 最近の理論的研究は、グラフ内の2つのノードが接続されているか、あるいは有限状態マシンをシミュレートしているかどうかなど、驚くほど単純な推論問題を特定している。 しかし、実際には、トランスフォーマーの推論は「思考の連鎖」または「スクラッチパッド」、すなわち答えの前に中間トークン列の生成と条件を使用することによって改善することができる。 このような中間世代はデコーダのみの変換器の計算力を根本的に拡張するのか? 答えはYESであるが、増加量は中間生成量に大きく依存する。 例えば、対数的な数の復号ステップ(w.r.t. 入力長)を持つ復号器デコーダが標準変圧器の極限をわずかに押すのに対して、線形な復号器のデコーダは、投影されたプレノルム(標準プレノルムのわずかな一般化)を仮定して、明らかに新しい能力(標準複雑性予想の下で)を加え、全ての正規言語を認識する。 また、線形ステップはコンテクストに敏感な言語内にトランスフォーマーデコーダを置き、一般化されたプレノルムを持つ多項式ステップは多項式時間解決可能問題のクラスを正確に認識する。 同時に、トランスフォーマーの思考やスクラッチパッドの長さがその推論能力にどのように影響するかを理解するための微妙なフレームワークを提供する。

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers' reasoning can be improved by allowing them to use a "chain of thought" or "scratchpad", i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps, assuming projected pre-norm (a slight generalization of standard pre-norm), adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps with generalized pre-norm make them recognize exactly the class of polynomial-time solvable problems -- the first exact characterization of a type of transformers in terms of standard complexity classes. Together, this provides a nuanced framework for understanding how the length of a transformer's chain of thought or scratchpad impacts its reasoning power.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-11
# 自然, ロバスト, カタストロフィックオーバーフィッティング時の過記憶について

On the Over-Memorization During Natural, Robust and Catastrophic Overfitting ( http://arxiv.org/abs/2310.08847v2 )

ライセンス: Link先を確認
Runqi Lin, Chaojian Yu, Bo Han, Tongliang Liu, (参考訳) オーバーフィッティングは、自然と敵対両方のトレーニングにおいて、ディープニューラルネットワーク(DNN)の一般化能力に悪影響を及ぼす。 既存の手法は、異なるタイプのオーバーフィッティングに一貫して対処し、通常、自然なパターンと敵対的なパターンに別々にフォーカスする戦略を設計する。 本研究では,自然パターンにのみ焦点をあてて,異なるタイプのオーバーフィッティングを探求することによって,統一的な視点を採用する。 具体的には、DNNにおける記憶効果を検証し、その一般化能力を損なう「過剰記憶」と呼ばれる共有行動を明らかにする。 この行動は、特定のトレーニングパターンを予測し、永続的なメモリを保持する上で、DNNが突然高信頼になるときに現れます。 さらに、DNNが対向パターンを過度に記憶すると、対応する自然パターンに対する高い信頼度予測が同時に現れる傾向にある。 これらの知見は,DNNを記憶過剰のトレーニングパターンから妨げることによって,さまざまなオーバーフィッティングをホリスティックに緩和する動機となっている。 そこで本研究では,高信頼な自然パターンを削除あるいは強化することにより,過記憶を明示的に防止する一般フレームワークである Distraction Over-Memorization (DOM) を提案する。 様々な訓練パラダイムにまたがるオーバーフィッティングを緩和するために,提案手法の有効性を実証した。

Overfitting negatively impacts the generalization ability of deep neural networks (DNNs) in both natural and adversarial training. Existing methods struggle to consistently address different types of overfitting, typically designing strategies that focus separately on either natural or adversarial patterns. In this work, we adopt a unified perspective by solely focusing on natural patterns to explore different types of overfitting. Specifically, we examine the memorization effect in DNNs and reveal a shared behaviour termed over-memorization, which impairs their generalization capacity. This behaviour manifests as DNNs suddenly becoming high-confidence in predicting certain training patterns and retaining a persistent memory for them. Furthermore, when DNNs over-memorize an adversarial pattern, they tend to simultaneously exhibit high-confidence prediction for the corresponding natural pattern. These findings motivate us to holistically mitigate different types of overfitting by hindering the DNNs from over-memorization training patterns. To this end, we propose a general framework, Distraction Over-Memorization (DOM), which explicitly prevents over-memorization by either removing or augmenting the high-confidence natural patterns. Extensive experiments demonstrate the effectiveness of our proposed method in mitigating overfitting across various training paradigms.
翻訳日:2024-04-15 19:45:17 公開日:2024-04-11
# ビデオオブジェクトセグメンテーションにオブジェクトを戻す

Putting the Object Back into Video Object Segmentation ( http://arxiv.org/abs/2310.12982v2 )

ライセンス: Link先を確認
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon-Young Lee, Alexander Schwing, (参考訳) 我々は、オブジェクトレベルのメモリ読み込みを備えたビデオオブジェクトセグメンテーション(VOS)ネットワークであるCutieを紹介し、メモリからのオブジェクト表現をビデオオブジェクトセグメンテーション結果に戻す。 VOSの最近の研究はボトムアップレベルのメモリ読み込みを採用しており、特にノイズの一致に苦しむため、より困難なデータではパフォーマンスが低下する。 対照的にCutieは、オブジェクトクエリの小さなセットを適用することで、トップダウンのオブジェクトレベルのメモリ読み込みを実行する。 それらは、ボトムアップのピクセル機能と、クエリベースのオブジェクト変換器(qt、つまりCutie)と反復的に相互作用する。 オブジェクトクエリは対象オブジェクトの高レベル要約として機能し、高解像度の特徴マップは正確なセグメンテーションのために保持される。 フォアグラウンド・バックグラウンド・マスクされた注意と共に、Cutieはフォアグラウンド・オブジェクトのセマンティクスを背景からきれいに分離する。 挑戦的なMOSEデータセットでは、CutieはXMemで8.7J&F、DEAOTで4.2J&F改善し、3倍高速である。 コードは、https://hkchengrex.github.io/Cutieで入手できる。

We present Cutie, a video object segmentation (VOS) network with object-level memory reading, which puts the object representation from memory back into the video object segmentation result. Recent works on VOS employ bottom-up pixel-level memory reading which struggles due to matching noise, especially in the presence of distractors, resulting in lower performance in more challenging data. In contrast, Cutie performs top-down object-level memory reading by adapting a small set of object queries. Via those, it interacts with the bottom-up pixel features iteratively with a query-based object transformer (qt, hence Cutie). The object queries act as a high-level summary of the target object, while high-resolution feature maps are retained for accurate segmentation. Together with foreground-background masked attention, Cutie cleanly separates the semantics of the foreground object from the background. On the challenging MOSE dataset, Cutie improves by 8.7 J&F over XMem with a similar running time and improves by 4.2 J&F over DeAOT while being three times faster. Code is available at: https://hkchengrex.github.io/Cutie
翻訳日:2024-04-15 19:35:34 公開日:2024-04-11
# AIOpsソリューションにおける教師付き学習モデル更新戦略について

On the Model Update Strategies for Supervised Learning in AIOps Solutions ( http://arxiv.org/abs/2311.03213v2 )

ライセンス: Link先を確認
Yingzhe Lyu, Heng Li, Zhen Ming, Jiang, Ahmed E. Hassan, (参考訳) AIOps(Artificial Intelligence for IT Operations)ソリューションは、大規模なシステムや機械学習モデルの運用中に生成された大量のデータを活用して、ソフトウェアエンジニアのシステムオペレーションを支援する。 運用環境やユーザベースの変化などの要因により、現場で生成された運用データが常に進化しているため、AIOpsソリューションのモデルは、デプロイ後に継続的に維持する必要がある。 それまでの作業では、AIOpsモデルのパフォーマンスを改善するための革新的なモデリング技術に重点を置いていたが、いつ、どのようにAIOpsモデルを更新するかは未定のトピックのままである。 本研究では,3つの大規模公開運用データを対象としたケーススタディを行い,その性能,コスト,安定性に関する教師あり学習のための5種類のモデル更新戦略を実証的に評価した。 我々は,アクティブモデル更新戦略(定期的なリトレーニング,コンセプトドリフトガイドによるリトレーニング,時間ベースのモデルアンサンブル,オンライン学習)が,定常モデルよりも優れた,より安定したパフォーマンスを実現することを観察した。 特に、高度なモデル更新戦略を適用することで、AIOpsモデルの定期的な再トレーニングよりも、パフォーマンス、効率、安定性が向上する可能性がある。 さらに、いくつかのアップデート戦略はモデルのトレーニング時間を節約できるが、モデルテスト時間を著しく削減し、運用データが高速でボリュームに到達し、即時推論が必要なAIOpsソリューションでのアプリケーションの障害となる可能性があることを観察した。 我々の知見は、実践者は運用データの進化を考慮し、時間とともにAIOpsモデルを積極的に維持する必要があることを強調している。 私たちの観察は、AIOpsのコンテキストに適合するより効率的で効果的なモデル更新戦略の調査において、研究者や実践者のガイドにもなります。

AIOps (Artificial Intelligence for IT Operations) solutions leverage the massive data produced during the operation of large-scale systems and machine learning models to assist software engineers in their system operations. As operation data produced in the field are constantly evolving due to factors such as the changing operational environment and user base, the models in AIOps solutions need to be constantly maintained after deployment. While prior works focus on innovative modeling techniques to improve the performance of AIOps models before releasing them into the field, when and how to update AIOps models remain an under-investigated topic. In this work, we performed a case study on three large-scale public operation data and empirically assessed five different types of model update strategies for supervised learning regarding their performance, updating cost, and stability. We observed that active model update strategies (e.g., periodical retraining, concept drift guided retraining, time-based model ensembles, and online learning) achieve better and more stable performance than a stationary model. Particularly, applying sophisticated model update strategies could provide better performance, efficiency, and stability than simply retraining AIOps models periodically. In addition, we observed that, although some update strategies can save model training time, they significantly sacrifice model testing time, which could hinder their applications in AIOps solutions where the operation data arrive at high pace and volume and where immediate inferences are required. Our findings highlight that practitioners should consider the evolution of operation data and actively maintain AIOps models over time. Our observations can also guide researchers and practitioners in investigating more efficient and effective model update strategies that fit in the context of AIOps.
翻訳日:2024-04-15 19:35:34 公開日:2024-04-11
# 画素からの学習郡:注目重み付き複数インスタンス学習によるコーン収率予測

Learning county from pixels: Corn yield prediction with attention-weighted multiple instance learning ( http://arxiv.org/abs/2312.01001v2 )

ライセンス: Link先を確認
Xiaoyu Wang, Yuchi Ma, Qunying Huang, Zhengwei Yang, Zhou Zhang, (参考訳) リモートセンシング技術は、収量予測において有望なツールとなっている。 以前の研究のほとんどは、郡内のすべてのピクセルを単一の値に空間的に集約することで、郡レベルのトウモロコシ収量予測に衛星画像を用いており、より粒度の細かいデータによって提供される詳細な情報や貴重な洞察を見落としている可能性がある。 そこで本研究では,各郡をピクセルレベルで調査し,各郡内の詳細な情報を活用するために複数のインスタンス学習を適用した。 さらに,提案手法では,特徴データセットと作物マスクの不整合分解による「混合画素」問題に対処し,ノイズをモデルに導入し,精度の高い収率予測を阻害する可能性がある。 具体的には、異なる画素に自動的に重みを割り当てることにより、混合画素の影響を軽減する。 実験結果から,米国トウモロコシベルトの過去5年間で,他の4つの機械学習モデルよりも優れており,2022年に最高の性能を示し,決定係数(R2)が0.84,根平均二乗誤差(RMSE)が0.83であった。 本稿では,空間的視点と時間的視点の両方からアプローチの利点を示す。 さらに,混合画素と注目度の関係を詳細に検討した結果,混合画素からノイズを除去しながら重要な特徴情報を捉えることが可能であることが確認された。

Remote sensing technology has become a promising tool in yield prediction. Most prior work employs satellite imagery for county-level corn yield prediction by spatially aggregating all pixels within a county into a single value, potentially overlooking the detailed information and valuable insights offered by more granular data. To this end, this research examines each county at the pixel level and applies multiple instance learning to leverage detailed information within a county. In addition, our method addresses the "mixed pixel" issue caused by the inconsistent resolution between feature datasets and crop mask, which may introduce noise into the model and therefore hinder accurate yield prediction. Specifically, the attention mechanism is employed to automatically assign weights to different pixels, which can mitigate the influence of mixed pixels. The experimental results show that the developed model outperforms four other machine learning models over the past five years in the U.S. corn belt and demonstrates its best performance in 2022, achieving a coefficient of determination (R2) value of 0.84 and a root mean square error (RMSE) of 0.83. This paper demonstrates the advantages of our approach from both spatial and temporal perspectives. Furthermore, through an in-depth study of the relationship between mixed pixels and attention, it is verified that our approach can capture critical feature information while filtering out noise from mixed pixels.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-11
# EFHQ: 多目的ExtremePose-Face-HQデータセット

EFHQ: Multi-purpose ExtremePose-Face-HQ dataset ( http://arxiv.org/abs/2312.17205v4 )

ライセンス: Link先を確認
Trung Tuan Dao, Duc Hong Vu, Cuong Pham, Anh Tran, (参考訳) 既存の顔データセットは、正面近のビューで豊富な画像を持っているが、極端な頭部ポーズのイメージが欠けているため、プロファイルやピッチされた顔を扱う際に、ディープラーニングモデルのパフォーマンスが低下する。 この研究は、Extreme Pose Face High-Quality Dataset (EFHQ)と呼ばれる新しいデータセットを導入することで、このギャップに対処することを目的としている。 このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、さまざまな設定でキャプチャされた高解像度の顔ビデオを含む、VFHQとCelebV-HQの2つの公開データセットをキュレートする。 我々のデータセットは、顔合成と2D/3D対応のGAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。 具体的には、EFHQを使用したトレーニングは、モデルがさまざまなポーズにまたがって適切に一般化し、極端なビューを含むシナリオのパフォーマンスを大幅に向上するのに役立つ。 さらに、我々はEFHQを用いて、正面から正面までのシナリオと比較して、SOTA顔認識モデルの性能が5~37%低下し、野生の厳しいポーズ条件下での顔認識の研究を刺激することを目的とした、挑戦的なクロスビュー顔認証ベンチマークを定義する。

The existing facial datasets, while having plentiful images at near frontal views, lack images with extreme head poses, leading to the downgraded performance of deep learning models when dealing with profile or pitched faces. This work aims to address this gap by introducing a novel dataset named Extreme Pose Face High-Quality Dataset (EFHQ), which includes a maximum of 450k high-quality images of faces at extreme poses. To produce such a massive dataset, we utilize a novel and meticulous dataset processing pipeline to curate two publicly available datasets, VFHQ and CelebV-HQ, which contain many high-resolution face videos captured in various settings. Our dataset can complement existing datasets on various facial-related tasks, such as facial synthesis with 2D/3D-aware GAN, diffusion-based text-to-image face generation, and face reenactment. Specifically, training with EFHQ helps models generalize well across diverse poses, significantly improving performance in scenarios involving extreme views, confirmed by extensive experiments. Additionally, we utilize EFHQ to define a challenging cross-view face verification benchmark, in which the performance of SOTA face recognition models drops 5-37% compared to frontal-to-frontal scenarios, aiming to stimulate studies on face recognition under severe pose conditions in the wild.
翻訳日:2024-04-15 19:25:50 公開日:2024-04-11
# FlexNN: エネルギー効率の良いエッジデバイスのためのデータフロー対応フレキシブルディープラーニングアクセラレータ

FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices ( http://arxiv.org/abs/2403.09026v2 )

ライセンス: Link先を確認
Arnab Raha, Deepak A. Mathaikutty, Soumendu K. Ghosh, Shamik Kundu, (参考訳) 本稿では,フレキシブルニューラルネットワークアクセラレータであるFlexNNを紹介し,汎用データフローの実現とエネルギー効率の向上にアジャイル設計の原則を適用した。 入力、重み、出力、行定常などの固定データフローに固執する従来の畳み込みニューラルネットワークアクセラレータアーキテクチャとは異なり、ソフトウェア構成可能な記述子を通じて任意のタイプの適応可能なデータフローを有効にすることで、ストレージと計算ユニット間のアクティベーションと重みを転送する。 データ移動コストは、エネルギーの観点から計算コストを大幅に上回るので、データフローの柔軟性により、固定されたデータフローアーキテクチャでは達成不可能な、データ転送とエネルギー消費の最小化のために、レイヤごとの移動を最適化することができます。 本稿では,FlexNNアーキテクチャにおけるスループットの向上とエネルギー消費の削減を目的として,アクティベーションとウェイトテンソルの両方の粒度スペーサを利用して冗長な計算を回避し,ハードウェアアクセラレーション内の畳み込みエンジンを最適化する新しいスペーサベース加速ロジックを提案する。 既存のDNNアクセラレータと比較して,FlexNNの性能とエネルギー効率は大幅に向上した。

This paper introduces FlexNN, a Flexible Neural Network accelerator, which adopts agile design principles to enable versatile dataflows, enhancing energy efficiency. Unlike conventional convolutional neural network accelerator architectures that adhere to fixed dataflows (such as input, weight, output, or row stationary) for transferring activations and weights between storage and compute units, our design revolutionizes by enabling adaptable dataflows of any type through software configurable descriptors. Considering that data movement costs considerably outweigh compute costs from an energy perspective, the flexibility in dataflow allows us to optimize the movement per layer for minimal data transfer and energy consumption, a capability unattainable in fixed dataflow architectures. To further enhance throughput and reduce energy consumption in the FlexNN architecture, we propose a novel sparsity-based acceleration logic that utilizes fine-grained sparsity in both the activation and weight tensors to bypass redundant computations, thus optimizing the convolution engine within the hardware accelerator. Extensive experimental results underscore a significant enhancement in the performance and energy efficiency of FlexNN relative to existing DNN accelerators.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-11
# 能動学習者の脆弱性について

On the Fragility of Active Learners ( http://arxiv.org/abs/2403.15744v2 )

ライセンス: Link先を確認
Abhishek Ghose, Emma Nguyen, (参考訳) アクティブラーニング(AL)技術は、予測精度を向上させる可能性が最も高いインスタンスを反復的に選択することで、ラベル付け予算を最大限に活用することを目的としている。 しかし、ランダムサンプリングと比較した場合の利点は、例えば、異なるデータセット、分類器など、さまざまな設定で一致していない。 本研究では,異なる要因の組み合わせがAL手法から得られる利益を如何に隠蔽するかを実験的に検討する。 テキスト分類に着目し,データセット,バッチサイズ,テキスト表現,分類器など,約1000の実験からAL手法を厳格に評価する。 ALは限られた状況下でのみ有効であることを示す。 また、現実世界の期待に合うようなメトリクスを使用するという問題にも対処しています。 この研究の影響は、実践者にとっての洞察にある。 (a)テキスト表現と分類器の選択はAL技術と同じくらい重要である。 b) 正しい計量の選択は後者の評価において重要であり、最後に (c) AL結果の報告は、クエリ戦略以外の変数を考慮し、論理的に解釈されなければならない。

Active learning (AL) techniques aim to maximally utilize a labeling budget by iteratively selecting instances that are most likely to improve prediction accuracy. However, their benefit compared to random sampling has not been consistent across various setups, e.g., different datasets, classifiers. In this empirical study, we examine how a combination of different factors might obscure any gains from an AL technique. Focusing on text classification, we rigorously evaluate AL techniques over around 1000 experiments that vary wrt the dataset, batch size, text representation and the classifier. We show that AL is only effective in a narrow set of circumstances. We also address the problem of using metrics that are better aligned with real world expectations. The impact of this study is in its insights for a practitioner: (a) the choice of text representation and classifier is as important as that of an AL technique, (b) choice of the right metric is critical in assessment of the latter, and, finally, (c) reported AL results must be holistically interpreted, accounting for variables other than just the query strategy.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-11
# ASDF:6次元ポス推定の統合による後期核融合を利用したアセンブリ状態検出

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation ( http://arxiv.org/abs/2403.16400v2 )

ライセンス: Link先を確認
Hannah Schieber, Shiyu Li, Niklas Corell, Philipp Beckerle, Julian Kreimeier, Daniel Roth, (参考訳) 医療・産業分野では、組み立てプロセスのガイダンスを提供することが効率と安全性の確保に不可欠である。 組立のエラーは、手術期間の延長、製造業における製造期間の延長や保守期間の延長など、重大な結果をもたらす可能性がある。 アセンブリシナリオは、インサイトARビジュアライゼーションの恩恵を受け、ガイダンスを提供し、アセンブリ時間を短縮し、エラーを最小限にする。 その場での視覚化6Dポーズ推定を活用できるようにする。 既存の6Dポーズ推定技術は主に個々のオブジェクトと静的キャプチャに焦点を当てている。 しかしながら、アセンブリのシナリオには、アセンブリ中の閉塞やアセンブリオブジェクトの外観の動的など、さまざまなダイナミクスがある。 既存の作業では、オブジェクト検出/6Dのポーズ推定とアセンブリ状態検出を組み合わせて、純粋なディープラーニングベースのアプローチ、あるいはアセンブリ状態検出をビルディングブロックに制限する。 組立状態検出と組み合わせた6次元ポーズ推定の課題に対処するため,我々のアプローチはリアルタイムに実行可能なオブジェクト検出フレームワークであるYOLOv8の強みに基づいている。 我々は、このフレームワークを拡張し、オブジェクトのポーズを洗練し、ネットワーク検出されたポーズ情報で知識を融合する。 Pose2Stateモジュールの後期融合を利用することで、洗練された6Dポーズ推定とアセンブリ状態検出が可能になります。 ポーズ情報と状態情報を組み合わせることで、Pose2Stateモジュールは最終的なアセンブリ状態を精度で予測します。 我々のASDFデータセットに対する評価は、Pose2Stateモジュールがアセンブリ状態の検出を改善し、アセンブリ状態の改善により、より堅牢な6Dポーズ推定が可能になることを示している。 さらに、GBOTデータセットでは、純粋なディープラーニングベースのネットワークよりも優れており、ハイブリッドと純粋なトラッキングベースのアプローチよりも優れています。

In medical and industrial domains, providing guidance for assembly processes is critical to ensure efficiency and safety. Errors in assembly can lead to significant consequences such as extended surgery times, and prolonged manufacturing or maintenance times in industry. Assembly scenarios can benefit from in-situ AR visualization to provide guidance, reduce assembly times and minimize errors. To enable in-situ visualization 6D pose estimation can be leveraged. Existing 6D pose estimation techniques primarily focus on individual objects and static captures. However, assembly scenarios have various dynamics including occlusion during assembly and dynamics in the assembly objects appearance. Existing work, combining object detection/6D pose estimation and assembly state detection focuses either on pure deep learning-based approaches, or limit the assembly state detection to building blocks. To address the challenges of 6D pose estimation in combination with assembly state detection, our approach ASDF builds upon the strengths of YOLOv8, a real-time capable object detection framework. We extend this framework, refine the object pose and fuse pose knowledge with network-detected pose information. Utilizing our late fusion in our Pose2State module results in refined 6D pose estimation and assembly state detection. By combining both pose and state information, our Pose2State module predicts the final assembly state with precision. Our evaluation on our ASDF dataset shows that our Pose2State module leads to an improved assembly state detection and that the improvement of the assembly state further leads to a more robust 6D pose estimation. Moreover, on the GBOT dataset, we outperform the pure deep learning-based network, and even outperform the hybrid and pure tracking-based approaches.
翻訳日:2024-04-15 17:13:45 公開日:2024-04-11
# 事前知識を使わずにオブジェクト検出適応のためのモダリティ変換

Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge ( http://arxiv.org/abs/2404.01492v2 )

ライセンス: Link先を確認
Heitor Rapela Medeiros, Masih Aminbeidokhti, Fidel Guerrero Pena, David Latortue, Eric Granger, Marco Pedersoli, (参考訳) ディープラーニングの一般的なプラクティスは、大規模なデータセット上で大規模なニューラルネットワークをトレーニングして、さまざまなドメインやタスクを正確に実行することです。 この手法は多くのアプリケーション領域でうまく機能するかもしれないが、異なるセンサーを用いてキャプチャしたデータの分布シフトが大きいため、モダリティを越えてのみ適用できる。 本稿では,大規模物体検出モデルを効率よく1つまたは複数のモードに適応させる問題に焦点をあてる。 そこで本研究では,大規模モデルを微調整する一般的なアプローチの代替としてModTrを提案する。 ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。 従って、元のモデルは、さらなる変更やパラメータの微調整をすることなく、翻訳された入力を扱うことができる。 2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチは、元の知識を忘れることなく標準の微調整よりも可視またはより優れた動作が可能な検出器を提供することが示された。 これにより、よりフレキシブルで効率的なサービスベースの検出パイプラインへの扉が開かれ、各モダリティに対して異なる検出器を使用する代わりに、一意で変更されていないサーバが常時実行され、対応する翻訳と複数のモダリティがクエリできる。 コード:https://github.com/heitorrapela/ModTr。

A common practice in deep learning consists of training large neural networks on massive datasets to perform accurately for different domains and tasks. While this methodology may work well in numerous application areas, it only applies across modalities due to a larger distribution shift in data captured using different sensors. This paper focuses on the problem of adapting a large object detection model to one or multiple modalities while being efficient. To do so, we propose ModTr as an alternative to the common approach of fine-tuning large models. ModTr consists of adapting the input with a small transformation network trained to minimize the detection loss directly. The original model can therefore work on the translated inputs without any further change or fine-tuning to its parameters. Experimental results on translating from IR to RGB images on two well-known datasets show that this simple ModTr approach provides detectors that can perform comparably or better than the standard fine-tuning without forgetting the original knowledge. This opens the doors to a more flexible and efficient service-based detection pipeline in which, instead of using a different detector for each modality, a unique and unaltered server is constantly running, where multiple modalities with the corresponding translations can query it. Code: https://github.com/heitorrapela/ModTr.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-11
# IISAN:decoupled PEFTを用いたシーケンスレコメンデーションのためのマルチモーダル表現の適応

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT ( http://arxiv.org/abs/2404.02059v2 )

ライセンス: Link先を確認
Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Jie Wang, Joemon M. Jose, (参考訳) マルチモーダル基礎モデルは、強力な表現学習能力を活用して、シーケンシャルなレコメンデーションシステムにおいて変換される。 パラメータ効率の微調整(PEFT)は推奨タスクに基礎モデルを適用するのに一般的に使用されるが、ほとんどの研究はパラメータ効率を優先し、GPUメモリ効率やトレーニング速度といった重要な要素を見落としている。 このギャップに対処するため,本論文では,デカップリングPEFT構造を用いたシンプルなプラグアンドプレイアーキテクチャであるIISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation)を導入する。 IISANはフルファインチューニング(FFT)と最先端PEFTのパフォーマンスにマッチする。 さらに重要なのは、マルチモーダルシーケンシャルレコメンデーションタスクにおいて、GPUメモリ使用量を47GBから3GBに大幅に削減することです。 さらに、FFTと比較して、エポックあたりのトレーニング時間を443から22に短縮する。 トレーニングには37~39GBのGPUメモリと350~380秒のトレーニングが必要だ。 さらに,「パラメータ効率は全体の効率を表す」という誤解を緩和するために,TPME(Training-time,パラメータ,GPUメモリ効率)という新しい複合効率指標を提案する。 TPMEは、異なる方法間の実用的な効率比較に関するより包括的な洞察を提供する。 さらに,全PEFTおよびFFTアプローチの効率解析を行い,IISANの優位性を示す。 コードやその他の資料はhttps://github.com/GAIR-Lab/IISANで公開しています。

Multimodal foundation models are transformative in sequential recommender systems, leveraging powerful representation learning capabilities. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt foundation models for recommendation tasks, most research prioritizes parameter efficiency, often overlooking critical factors like GPU memory efficiency and training speed. Addressing this gap, our paper introduces IISAN (Intra- and Inter-modal Side Adapted Network for Multimodal Representation), a simple plug-and-play architecture using a Decoupled PEFT structure and exploiting both intra- and inter-modal adaptation. IISAN matches the performance of full fine-tuning (FFT) and state-of-the-art PEFT. More importantly, it significantly reduces GPU memory usage - from 47GB to just 3GB for multimodal sequential recommendation tasks. Additionally, it accelerates training time per epoch from 443s to 22s compared to FFT. This is also a notable improvement over the Adapter and LoRA, which require 37-39 GB GPU memory and 350-380 seconds per epoch for training. Furthermore, we propose a new composite efficiency metric, TPME (Training-time, Parameter, and GPU Memory Efficiency) to alleviate the prevalent misconception that "parameter efficiency represents overall efficiency". TPME provides more comprehensive insights into practical efficiency comparisons between different methods. Besides, we give an accessible efficiency analysis of all PEFT and FFT approaches, which demonstrate the superiority of IISAN. We release our codes and other materials at https://github.com/GAIR-Lab/IISAN.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-11
# ホモモルフィック暗号化における高速プライベート推論のための非線形演算子の高精度低次元多項式近似

Accurate Low-Degree Polynomial Approximation of Non-polynomial Operators for Fast Private Inference in Homomorphic Encryption ( http://arxiv.org/abs/2404.03216v2 )

ライセンス: Link先を確認
Jianming Tong, Jingtian Dang, Anupam Golder, Callie Hao, Arijit Raychowdhury, Tushar Krishna, (参考訳) マシンラーニング(ML)が医療、顔認識、ブロックチェーンといった分野に浸透するにつれ、機密データを保護する必要性が強まる。 FHE(Fully Homomorphic Encryption)は、暗号化されたデータの推論を可能にし、データのプライバシとMLモデルの両方のプライバシを保存する。 しかし、非ポリノミアル作用素(ReLUとMaxPooling)を高次多項式近似関数(PAF)に置き換える根本原因として、最大5等級の非安全推論を遅くする。 我々は,非多項式演算子を低次PSFに置き換えてPAF近似モデルの精度を回復するフレームワークであるSmartPAFを提案する。(1)係数チューニング(CT) -- 学習前の入力分布に基づいてPAF係数を調整する(2)進行近似(PA) -- 同時に1つの非多項式演算子を段階的に置き換える(3)代替学習(AT) -- 分離された方法でPAFと他の線形演算子間のトレーニングを交換する(4)動的スケール(DS)/静的スケール(SS) -- 動的スケール(DS) - 動的スケール(DS) - 動的スケール(SS) - である。 FHE 1.1のトレーニングでは、スケールをFHEデプロイメントのランニングマックス値として修正する。 CT、PA、AT、DS/SSの相乗効果により、SmartPAFは、複数のデータセットの下で様々な低度のPAFによって近似された様々なモデルの精度を高めることができる。 ImageNet-1kのResNet-18では、SmartPAFが遅延精度トレードオフ空間で発見したPareto-frontierは、1.42倍~13.64倍の精度向上と6.79倍~14.9倍のスピードアップを実現している。 さらに、SmartPAFは14° PAF(f1^2 g_1^2)を、同じ69.4%の置き換え精度でミニマックス近似によって得られる27° PAFと比較して7.81倍のスピードアップを達成することができる。 私たちのコードはhttps://github.com/EfficientFHE/SmartPAF.comで利用可能です。

As machine learning (ML) permeates fields like healthcare, facial recognition, and blockchain, the need to protect sensitive data intensifies. Fully Homomorphic Encryption (FHE) allows inference on encrypted data, preserving the privacy of both data and the ML model. However, it slows down non-secure inference by up to five magnitudes, with a root cause of replacing non-polynomial operators (ReLU and MaxPooling) with high-degree Polynomial Approximated Function (PAF). We propose SmartPAF, a framework to replace non-polynomial operators with low-degree PAF and then recover the accuracy of PAF-approximated model through four techniques: (1) Coefficient Tuning (CT) -- adjust PAF coefficients based on the input distributions before training, (2) Progressive Approximation (PA) -- progressively replace one non-polynomial operator at a time followed by a fine-tuning, (3) Alternate Training (AT) -- alternate the training between PAFs and other linear operators in the decoupled manner, and (4) Dynamic Scale (DS) / Static Scale (SS) -- dynamically scale PAF input value within (-1, 1) in training, and fix the scale as the running max value in FHE deployment. The synergistic effect of CT, PA, AT, and DS/SS enables SmartPAF to enhance the accuracy of the various models approximated by PAFs with various low degrees under multiple datasets. For ResNet-18 under ImageNet-1k, the Pareto-frontier spotted by SmartPAF in latency-accuracy tradeoff space achieves 1.42x ~ 13.64x accuracy improvement and 6.79x ~ 14.9x speedup than prior works. Further, SmartPAF enables a 14-degree PAF (f1^2 g_1^2) to achieve 7.81x speedup compared to the 27-degree PAF obtained by minimax approximation with the same 69.4% post-replacement accuracy. Our code is available at https://github.com/EfficientFHE/SmartPAF.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-11
# DQ-DETR: ティニーオブジェクト検出のための動的クエリ付きDTR

DQ-DETR: DETR with Dynamic Query for Tiny Object Detection ( http://arxiv.org/abs/2404.03507v2 )

ライセンス: Link先を確認
Yi-Xin Huang, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) 従来のDETRのような手法がジェネリックオブジェクト検出に成功しているにも関わらず、オブジェクトクエリの位置情報は、通常オブジェクトよりもスケールが極端に小さい小さなオブジェクトを検出するためにカスタマイズされていないため、小さなオブジェクト検出は依然として難しい課題である。 また、一定の数のクエリを使用したDETRライクなメソッドは、小さなオブジェクトのみを含む空中データセットには適せず、インスタンスの数は異なるイメージ間で不均衡である。 そこで本稿では,DQ-DETRという,分類的カウントモジュール,カウント誘導機能拡張,動的クエリ選択という,3つのコンポーネントから構成されるシンプルなモデルを提案する。 DQ-DETRは、カテゴリカウントモジュールからの予測と密度マップを使用して、オブジェクトクエリの数を動的に調整し、クエリの位置情報を改善する。 我々のモデルDQ-DETRは従来のCNNやDETRのような手法より優れており、AI-TOD-V2データセット上で最先端のmAPを30.2%達成している。

Despite previous DETR-like methods having performed successfully in generic object detection, tiny object detection is still a challenging task for them since the positional information of object queries is not customized for detecting tiny objects, whose scale is extraordinarily smaller than general objects. Also, DETR-like methods using a fixed number of queries make them unsuitable for aerial datasets, which only contain tiny objects, and the numbers of instances are imbalanced between different images. Thus, we present a simple yet effective model, named DQ-DETR, which consists of three different components: categorical counting module, counting-guided feature enhancement, and dynamic query selection to solve the above-mentioned problems. DQ-DETR uses the prediction and density maps from the categorical counting module to dynamically adjust the number of object queries and improve the positional information of queries. Our model DQ-DETR outperforms previous CNN-based and DETR-like methods, achieving state-of-the-art mAP 30.2% on the AI-TOD-V2 dataset, which mostly consists of tiny objects.
翻訳日:2024-04-15 17:03:53 公開日:2024-04-11
# ユニバーサル物理インフォームドニューラルネットワークによる薬物療法の学習

Learning Chemotherapy Drug Action via Universal Physics-Informed Neural Networks ( http://arxiv.org/abs/2404.08019v1 )

ライセンス: Link先を確認
Lena Podina, Ali Ghodsi, Mohammad Kohandel, (参考訳) 定量的システム薬理学(QSP)は、薬物が臨床試験を受ける前に薬物効果と毒性を評価するために広く用いられている。 しかし,QSPモデルを構築するためには,重要な手作業による文献の蒸留が必要である。 パラメータは適合する必要があり、モデルの仮定を単純化する必要がある。 本研究では,化学療法薬理力学をモデル化する様々な微分方程式の未知の成分を学習するために,Universal Physics-Informed Neural Networks (UPINNs) を適用する。 我々は合成データから3つの一般的な薬剤作用(log-kill, Norton-Simon, E_max)を学習した。 次に、UPINN法を用いて、複数の合成データセットのパラメータを同時に適合させる。 最後にドキソルビシン(化学薬理)の薬物動態モデルを用いてネット増殖率を学習する。 これらは単なるおもちゃの例であり、医薬力学および薬物動態モデルにおける未知用語の学習におけるUPPNNの有用性を強調した。

Quantitative systems pharmacology (QSP) is widely used to assess drug effects and toxicity before the drug goes to clinical trial. However, significant manual distillation of the literature is needed in order to construct a QSP model. Parameters may need to be fit, and simplifying assumptions of the model need to be made. In this work, we apply Universal Physics-Informed Neural Networks (UPINNs) to learn unknown components of various differential equations that model chemotherapy pharmacodynamics. We learn three commonly employed chemotherapeutic drug actions (log-kill, Norton-Simon, and E_max) from synthetic data. Then, we use the UPINN method to fit the parameters for several synthetic datasets simultaneously. Finally, we learn the net proliferation rate in a model of doxorubicin (a chemotherapeutic) pharmacodynamics. As these are only toy examples, we highlight the usefulness of UPINNs in learning unknown terms in pharmacodynamic and pharmacokinetic models.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# ニューラルネットワークを用いた知識グラフ階層の強化

Augmenting Knowledge Graph Hierarchies Using Neural Transformers ( http://arxiv.org/abs/2404.08020v1 )

ライセンス: Link先を確認
Sanat Sharma, Mayank Poddar, Jayant Kumar, Kosta Blank, Tracy King, (参考訳) 知識グラフはデータを整理、推薦、ソートするのに有用なツールである。 知識グラフの階層化は、知識グラフ内のデータの理解と区画化を改善する上で大きな利益をもたらす。 この作業は、既存の知識グラフで階層を生成し、拡張するために、大きな言語モデルを活用する。 小さい (100,000 ノード) の領域固有の KG に対して、数発のプロンプトとワンショット生成の組み合わせはうまく機能し、より大きな KG は循環生成を必要とする可能性がある。 階層化のためのテクニックを提示し、インテントでは98%、知識グラフでは99%のカバレッジ向上を実現した。

Knowledge graphs are useful tools to organize, recommend and sort data. Hierarchies in knowledge graphs provide significant benefit in improving understanding and compartmentalization of the data within a knowledge graph. This work leverages large language models to generate and augment hierarchies in an existing knowledge graph. For small (<100,000 node) domain-specific KGs, we find that a combination of few-shot prompting with one-shot generation works well, while larger KG may require cyclical generation. We present techniques for augmenting hierarchies, which led to coverage increase by 98% for intents and 99% for colors in our knowledge graph.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# VeTraSS: グラフモデリングと表現学習による車両軌道類似性検索

VeTraSS: Vehicle Trajectory Similarity Search Through Graph Modeling and Representation Learning ( http://arxiv.org/abs/2404.08021v1 )

ライセンス: Link先を確認
Ming Cheng, Bowen Zhang, Ziyu Wang, Ziyi Zhou, Weiqi Feng, Yi Lyu, Xingjian Diao, (参考訳) 軌道類似性探索は、車両が異なる軌道の情報や特徴を分析し、情報的決定を行い、ダイナミックな環境で安全にナビゲートできるようにするため、自律運転において重要な役割を果たす。 トラジェクトリ類似性探索タスクの既存の作業は、主にシーケンス処理アルゴリズムまたはリカレントニューラルネットワーク(RNN)を使用しており、複雑なアーキテクチャや重いトレーニングコストの必然的な問題に悩まされている。 トラジェクトリ間の複雑な接続を考えると、データモデリングにグラフニューラルネットワーク(GNN)を使用することは実現可能である。 しかし、ほとんどの手法は、特定の車両軌跡データから特定のグラフを構築する代わりに、既存の数学的グラフ構造を直接入力として使用する。 これはそのようなデータのユニークで動的な特性を無視する。 このような研究ギャップを埋めるため,車両軌道類似性探索のためのエンドツーエンドパイプラインであるVeTraSSを提案する。 具体的には、VeTraSSはもともとの軌跡データをマルチスケールグラフにモデル化し、新しい多層アテンションベースGNNを通じて包括的埋め込みを生成する。 学習された埋め込みは、類似した車両軌道の探索に使用できる。 PortoとGeolifeのデータセットに関する大規模な実験は、VeTraSSの有効性を示している。 これは、現実の自動運転車における軌道分析と安全なナビゲーションのためのVeTraSSの可能性を示すものである。

Trajectory similarity search plays an essential role in autonomous driving, as it enables vehicles to analyze the information and characteristics of different trajectories to make informed decisions and navigate safely in dynamic environments. Existing work on the trajectory similarity search task primarily utilizes sequence-processing algorithms or Recurrent Neural Networks (RNNs), which suffer from the inevitable issues of complicated architecture and heavy training costs. Considering the intricate connections between trajectories, using Graph Neural Networks (GNNs) for data modeling is feasible. However, most methods directly use existing mathematical graph structures as the input instead of constructing specific graphs from certain vehicle trajectory data. This ignores such data's unique and dynamic characteristics. To bridge such a research gap, we propose VeTraSS -- an end-to-end pipeline for Vehicle Trajectory Similarity Search. Specifically, VeTraSS models the original trajectory data into multi-scale graphs, and generates comprehensive embeddings through a novel multi-layer attention-based GNN. The learned embeddings can be used for searching similar vehicle trajectories. Extensive experiments on the Porto and Geolife datasets demonstrate the effectiveness of VeTraSS, where our model outperforms existing work and reaches the state-of-the-art. This demonstrates the potential of VeTraSS for trajectory analysis and safe navigation in self-driving vehicles in the real world.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# 生体情報を用いたクロスモダリティグラフ学習による病理・ゲノム融合による生存分析

Pathology-genomic fusion via biologically informed cross-modality graph learning for survival analysis ( http://arxiv.org/abs/2404.08023v1 )

ライセンス: Link先を確認
Zeyu Zhang, Yuanshen Zhao, Jingxian Duan, Yaou Liu, Hairong Zheng, Dong Liang, Zhenyu Zhang, Zhi-Cheng Li, (参考訳) がんの診断と予後は、典型的には、複雑な病態と高い異種性のために、組織像やゲノムデータを含む多段階の臨床データに基づいている。 デジタル病理学と高スループットゲノムシークエンシングの進歩にもかかわらず、生存予測のための効果的なマルチモーダル融合モデルを確立し、病理学と転写学の潜在的な関連を明らかにすることは依然として困難である。 本稿では,全スライド画像(WSI)とバルクRNA-Seq発現データと異種グラフニューラルネットワークを統合したPGHG(Pathology-Genome Heterogeneous Graph)を提案する。 PGHGは生物学的知識誘導表現学習ネットワークと病理ゲノム不均一グラフから構成される。 表現学習ネットワークは、モーダル内およびモーダル間データアソシエーションの生物学的事前知識を利用して特徴抽出を誘導する。 各モードのノード機能は、注意に基づくグラフ学習戦略によって更新される。 単モーダル特徴と両モーダル融合特徴は、アテンションプールモジュールを介して抽出され、生存予測に使用される。 本研究は,高次グリオーマ,グリオーマ,腎乳頭状細胞癌における癌ゲノムアトラス(TCGA)および江州大学第一附属病院(FAHZU)の診断モデルについて検討した。 実験結果から,提案手法は単モーダルおよび他のマルチモーダル融合モデルよりも優れた性能を示した。 モデル解釈可能性を示すために,病理画像の注目熱マップを可視化し,統合勾配アルゴリズムを用いて重要な組織構造,生物学的経路,重要な遺伝子を同定する。

The diagnosis and prognosis of cancer are typically based on multi-modal clinical data, including histology images and genomic data, due to the complex pathogenesis and high heterogeneity. Despite the advancements in digital pathology and high-throughput genome sequencing, establishing effective multi-modal fusion models for survival prediction and revealing the potential association between histopathology and transcriptomics remains challenging. In this paper, we propose Pathology-Genome Heterogeneous Graph (PGHG) that integrates whole slide images (WSI) and bulk RNA-Seq expression data with heterogeneous graph neural network for cancer survival analysis. The PGHG consists of biological knowledge-guided representation learning network and pathology-genome heterogeneous graph. The representation learning network utilizes the biological prior knowledge of intra-modal and inter-modal data associations to guide the feature extraction. The node features of each modality are updated through attention-based graph learning strategy. Unimodal features and bi-modal fused features are extracted via attention pooling module and then used for survival prediction. We evaluate the model on low-grade gliomas, glioblastoma, and kidney renal papillary cell carcinoma datasets from the Cancer Genome Atlas (TCGA) and the First Affiliated Hospital of Zhengzhou University (FAHZU). Extensive experimental results demonstrate that the proposed method outperforms both unimodal and other multi-modal fusion models. For demonstrating the model interpretability, we also visualize the attention heatmap of pathological images and utilize integrated gradient algorithm to identify important tissue structure, biological pathways and key genes.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# OxMatデータセット:母子保健におけるAI駆動技術開発のためのマルチモーダルリソース

The OxMat dataset: a multimodal resource for the development of AI-driven technologies in maternal and newborn child health ( http://arxiv.org/abs/2404.08024v1 )

ライセンス: Link先を確認
M. Jaleed Khan, Ioana Duta, Beth Albert, William Cooke, Manu Vatish, Gabriel Davis Jones, (参考訳) 医療における人工知能(AI)の急速な進歩は、特に胎児モニタリングのための心電図(CTG)の分析を通じて、産科医療の進歩にユニークな機会をもたらす。 しかし、そのような技術の有効性は、機械学習に適した大規模で高品質なデータセットの可用性に依存する。 本論文では, 生の時系列CTGデータと, 機械学習に最適な母子双方の広範な臨床データを含む, 世界最大のCTGデータセットであるOxMat(OxMat)データセットを紹介する。 OxMatデータセットは、51,036妊娠中の177,211件のCTG記録を提供することで、女性の健康データにおける重要なギャップに対処している。 このデータセットは、200以上の産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、産後、 このデータセットは部内ステージもカバーしているが、CTGSの約94%は腹膜である。 これにより、妊娠中の胎児の早期発見によって健康状態が著しく改善する、保存されていない産科の期間に固有の焦点が当てられる。 既存のデータセットの包括的なレビューでは、現在のデータセットの限界が明らかになっている。 OxMatデータセットは、将来のAI主導の出生前ケアの基礎を築き、母体と胎児の健康改善を目的としたアルゴリズムの開発とテストのための堅牢なリソースを提供する。

The rapid advancement of Artificial Intelligence (AI) in healthcare presents a unique opportunity for advancements in obstetric care, particularly through the analysis of cardiotocography (CTG) for fetal monitoring. However, the effectiveness of such technologies depends upon the availability of large, high-quality datasets that are suitable for machine learning. This paper introduces the Oxford Maternity (OxMat) dataset, the world's largest curated dataset of CTGs, featuring raw time series CTG data and extensive clinical data for both mothers and babies, which is ideally placed for machine learning. The OxMat dataset addresses the critical gap in women's health data by providing over 177,211 unique CTG recordings from 51,036 pregnancies, carefully curated and reviewed since 1991. The dataset also comprises over 200 antepartum, intrapartum and postpartum clinical variables, ensuring near-complete data for crucial outcomes such as stillbirth and acidaemia. While this dataset also covers the intrapartum stage, around 94% of the constituent CTGS are antepartum. This allows for a unique focus on the underserved antepartum period, in which early detection of at-risk fetuses can significantly improve health outcomes. Our comprehensive review of existing datasets reveals the limitations of current datasets: primarily, their lack of sufficient volume, detailed clinical data and antepartum data. The OxMat dataset lays a foundation for future AI-driven prenatal care, offering a robust resource for developing and testing algorithms aimed at improving maternal and fetal health outcomes.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# SurvMamba:生存予測のためのマルチモーダル相互作用による状態空間モデル

SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction ( http://arxiv.org/abs/2404.08027v1 )

ライセンス: Link先を確認
Ying Chen, Jiajing Xie, Yuxiang Lin, Yuhang Song, Wenxian Yang, Rongshan Yu, (参考訳) 病理画像とゲノムデータを組み合わせたマルチモーダル学習は生存予測の精度を大幅に向上させた。 それでも、既存の手法では、スライド画像全体(WSI)と転写データの両方に固有の階層構造を十分に利用していない。 さらに、多くの既存研究では、高次元のWSIや転写データの処理において、必然的に高い複雑さをもたらすアテンション機構によるマルチモーダル表現の改善を試みている。 近年、Mambaという名前の構造化状態空間モデルが、複雑さの低い長いシーケンスをモデル化する上で、優れたパフォーマンスを実現するための有望なアプローチとして登場した。 本研究では,生存予測のための多粒多モード相互作用(SurvMamba)を用いたMambaを提案する。 SurvMambaはHierarchical Interaction Mamba (HIM)モジュールで実装されている。 さらに、Interaction Fusion Mamba (IFM) モジュールはモード間相互融合に使われ、生存予測のためのより包括的な特徴をもたらす。 5つのTCGAデータセットの総合的な評価は、SurvMambaがパフォーマンスと計算コストの点で他の既存手法よりも優れていることを示している。

Multi-modal learning that combines pathological images with genomic data has significantly enhanced the accuracy of survival prediction. Nevertheless, existing methods have not fully utilized the inherent hierarchical structure within both whole slide images (WSIs) and transcriptomic data, from which better intra-modal representations and inter-modal integration could be derived. Moreover, many existing studies attempt to improve multi-modal representations through attention mechanisms, which inevitably lead to high complexity when processing high-dimensional WSIs and transcriptomic data. Recently, a structured state space model named Mamba emerged as a promising approach for its superior performance in modeling long sequences with low complexity. In this study, we propose Mamba with multi-grained multi-modal interaction (SurvMamba) for survival prediction. SurvMamba is implemented with a Hierarchical Interaction Mamba (HIM) module that facilitates efficient intra-modal interactions at different granularities, thereby capturing more detailed local features as well as rich global representations. In addition, an Interaction Fusion Mamba (IFM) module is used for cascaded inter-modal interactive fusion, yielding more comprehensive features for survival prediction. Comprehensive evaluations on five TCGA datasets demonstrate that SurvMamba outperforms other existing methods in terms of performance and computational cost.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# FedAuxHMTL:ネットワークエッジトラフィック分類のためのマルチタスク学習のための補助ハードパラメータ共有

FedAuxHMTL: Federated Auxiliary Hard-Parameter Sharing Multi-Task Learning for Network Edge Traffic Classification ( http://arxiv.org/abs/2404.08028v1 )

ライセンス: Link先を確認
Faisal Ahmed, Myungjin Lee, Suresh Subramaniam, Motoharu Matsuura, Hiroshi Hasegawa, Shih-Chun Lin, (参考訳) フェデレートラーニング(FL)は最近、ネットワークエッジトラフィックの分類におけるデータプライバシなど、さまざまなアプリケーションシナリオにおける多くの課題に対処するための効果的なソリューションとしての可能性から、大きな関心を集めている。 その利点は認識されているが、FLは、機械学習ベースのトラフィック分類のためのシングルタスクモデルのトレーニング中に、統計データの異質性とラベル付きデータの不足に関連する障害に遭遇し、学習性能を損なう。 これらの課題に対応するために、補助的なタスクを伴うハードパラメータ共有マルチタスク学習モデルを採用すれば、適切なアプローチであることが証明できる。 このようなモデルは、通信と計算のコストを削減し、FLコンテキストに固有の統計的複雑さをナビゲートし、相互接続された補助タスクに由来する知識を活用してラベル付きデータの不足を克服する能力を持つ。 本稿では,FedAuxHMTLという,多タスク学習のための統合型ハードパラメータ共有フレームワークを提案する。 このフレームワークは、エッジサーバとベースステーション間のモデルパラメータ交換を取り入れ、分散領域の基地局がFedAuxHMTLプロセスに参加できるようにし、メインタスク-ネットワークエッジトラフィック分類の学習性能を向上させる。 また,FedAuxHMTLの有効性を,FedAuxHMTLの精度,全地球的損失,通信コスト,計算時間,エネルギー消費の観点から検証し,実証する実験を行った。

Federated Learning (FL) has garnered significant interest recently due to its potential as an effective solution for tackling many challenges in diverse application scenarios, for example, data privacy in network edge traffic classification. Despite its recognized advantages, FL encounters obstacles linked to statistical data heterogeneity and labeled data scarcity during the training of single-task models for machine learning-based traffic classification, leading to hindered learning performance. In response to these challenges, adopting a hard-parameter sharing multi-task learning model with auxiliary tasks proves to be a suitable approach. Such a model has the capability to reduce communication and computation costs, navigate statistical complexities inherent in FL contexts, and overcome labeled data scarcity by leveraging knowledge derived from interconnected auxiliary tasks. This paper introduces a new framework for federated auxiliary hard-parameter sharing multi-task learning, namely, FedAuxHMTL. The introduced framework incorporates model parameter exchanges between edge server and base stations, enabling base stations from distributed areas to participate in the FedAuxHMTL process and enhance the learning performance of the main task-network edge traffic classification. Empirical experiments are conducted to validate and demonstrate the FedAuxHMTL's effectiveness in terms of accuracy, total global loss, communication costs, computing time, and energy consumption compared to its counterparts.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# Verilogコード生成のための多言語多言語モデルアーキテクチャ

A Multi-Expert Large Language Model Architecture for Verilog Code Generation ( http://arxiv.org/abs/2404.08029v1 )

ライセンス: Link先を確認
Bardia Nadimi, Hao Zheng, (参考訳) 近年、Verilogコード生成に大規模言語モデル(LLM)を使うことへの関心が高まっている。 しかし、既存のアプローチは生成したVerilogコードの品質の点で制限されている。 このような制約に対処するため,本稿では,Verilog Code Generation (MEV-LLM) のための革新的なマルチエキスパート LLM アーキテクチャを提案する。 我々のアーキテクチャは、複数のLCMを一意に統合しており、それぞれが、異なるレベルの設計複雑さに対して分類されたデータセットで微調整されている。 よりターゲット的な学習を可能にし、各カテゴリのVerilogコードを生成するニュアンスに直接対処する。 実験から得られた実証的な証拠は、構文的に、機能的に正しい生成したVerilog出力の比率において顕著な改善点を浮き彫りにしている。 これらの結果は,機械学習による自動ハードウェア設計分野の前進を約束する,我々のアプローチの有効性を裏付けるものだ。

Recently, there has been a surging interest in using large language models (LLMs) for Verilog code generation. However, the existing approaches are limited in terms of the quality of the generated Verilog code. To address such limitations, this paper introduces an innovative multi-expert LLM architecture for Verilog code generation (MEV-LLM). Our architecture uniquely integrates multiple LLMs, each specifically fine-tuned with a dataset that is categorized with respect to a distinct level of design complexity. It allows more targeted learning, directly addressing the nuances of generating Verilog code for each category. Empirical evidence from experiments highlights notable improvements in terms of the percentage of generated Verilog outputs that are syntactically and functionally correct. These findings underscore the efficacy of our approach, promising a forward leap in the field of automated hardware design through machine learning.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# テキスト・画像生成モデルにおける著作権侵害の再考

Rethinking Artistic Copyright Infringements in the Era of Text-to-Image Generative Models ( http://arxiv.org/abs/2404.08030v1 )

ライセンス: Link先を確認
Mazda Moayeri, Samyadeep Basu, Sriram Balasubramanian, Priyatham Kattakinda, Atoosa Chengini, Robert Brauneis, Soheil Feizi, (参考訳) 近年のStable Diffusionのようなテキストから画像への生成モデルは、著作権のあるコンテンツの模倣と生成に非常に適しており、アーティストの間で、彼らのユニークなスタイルが不適切にコピーされるのではないかという懸念が高まっている。 生成モデルがどのようにして「アーティスティック・スタイル」をコピーするかを理解することは、1つのイメージを複製するよりも複雑である。 本稿では,画像の類似性を探索する代わりに,まず,画像集合上の分類問題に「芸術的著作権侵害」の問題を修正した。 次に、実用的な(すなわち、効率的で理解しやすい)ツールであるArtSavantを紹介します。 (i)WikiArtから収集した372人のアーティストの作品の参照データセットと比較して、アーティストのユニークなスタイルを決定する。 (ii)識別されたスタイルが生成された画像に再び現れるかどうかを認識する。 この手法は,非技術的利害関係者(芸術家,弁護士,裁判官など)の幅広い利用に適している。 ArtSavantを活用することで、我々は大規模な実証的研究を行い、3つの一般的なテキスト・画像生成モデルにおける芸術的スタイルの複製の頻度について定量的に考察する。 すなわち、多作の芸術家たち(多くの有名なアーティストを含む)のデータセットの中で、彼らのスタイルを持つのは20%に過ぎず、今日の人気のテキスト・ツー・イメージ生成モデルの単純なプロンプトによるコピーのリスクがある。

Recent text-to-image generative models such as Stable Diffusion are extremely adept at mimicking and generating copyrighted content, raising concerns amongst artists that their unique styles may be improperly copied. Understanding how generative models copy "artistic style" is more complex than duplicating a single image, as style is comprised by a set of elements (or signature) that frequently co-occurs across a body of work, where each individual work may vary significantly. In our paper, we first reformulate the problem of "artistic copyright infringement" to a classification problem over image sets, instead of probing image-wise similarities. We then introduce ArtSavant, a practical (i.e., efficient and easy to understand) tool to (i) determine the unique style of an artist by comparing it to a reference dataset of works from 372 artists curated from WikiArt, and (ii) recognize if the identified style reappears in generated images. We leverage two complementary methods to perform artistic style classification over image sets, includingTagMatch, which is a novel inherently interpretable and attributable method, making it more suitable for broader use by non-technical stake holders (artists, lawyers, judges, etc). Leveraging ArtSavant, we then perform a large-scale empirical study to provide quantitative insight on the prevalence of artistic style copying across 3 popular text-to-image generative models. Namely, amongst a dataset of prolific artists (including many famous ones), only 20% of them appear to have their styles be at a risk of copying via simple prompting of today's popular text-to-image generative models.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# Latent Guard: テキスト・ツー・イメージ・ジェネレーションのための安全フレームワーク

Latent Guard: a Safety Framework for Text-to-image Generation ( http://arxiv.org/abs/2404.08031v1 )

ライセンス: Link先を確認
Runtao Liu, Ashkan Khakzar, Jindong Gu, Qifeng Chen, Philip Torr, Fabio Pizzati, (参考訳) 高品質な画像を生成する能力により、テキスト・ツー・イメージ(T2I)モデルは不適切なコンテンツを作成するために利用される。 誤用を防ぐため、既存の安全対策は、容易に回避できるテキストブラックリスト、あるいは有害なコンテンツ分類に基づいており、トレーニングのために大規模なデータセットを必要とし、柔軟性が低い。 そこで本稿では,テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。 ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習し、入力テキスト埋め込みにおける有害な概念の存在を確認することができる。 提案するフレームワークは,大規模言語モデルとアドホックなアーキテクチャコンポーネントを用いたタスク固有のデータ生成パイプラインと,生成したデータから恩恵を受けるための対照的な学習戦略から構成される。 本手法の有効性を3つのデータセットと4つのベースラインに対して検証した。 コードとデータはhttps://github.com/rt219/LatentGuard.orgで共有される。

With the ability to generate high-quality images, text-to-image (T2I) models can be exploited for creating inappropriate content. To prevent misuse, existing safety measures are either based on text blacklists, which can be easily circumvented, or harmful content classification, requiring large datasets for training and offering low flexibility. Hence, we propose Latent Guard, a framework designed to improve safety measures in text-to-image generation. Inspired by blacklist-based approaches, Latent Guard learns a latent space on top of the T2I model's text encoder, where it is possible to check the presence of harmful concepts in the input text embeddings. Our proposed framework is composed of a data generation pipeline specific to the task using large language models, ad-hoc architectural components, and a contrastive learning strategy to benefit from the generated data. The effectiveness of our method is verified on three datasets and against four baselines. Code and data will be shared at https://github.com/rt219/LatentGuard.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# 量子臨界力学を用いた数百量子ビット上のディジタル量子シミュレーションと最適化のベンチマーク

Benchmarking digital quantum simulations and optimization above hundreds of qubits using quantum critical dynamics ( http://arxiv.org/abs/2404.08053v1 )

ライセンス: Link先を確認
Alexander Miessen, Daniel J. Egger, Ivano Tavernelli, Guglielmo Mazzola, (参考訳) 大規模な多体量子システムのリアルタイムシミュレーションは、真の量子計算プラットフォームでしか達成できない、恐ろしい作業である。 現在、古典的なエミュレーションに挑戦するのに十分な多くの量子ビットを持つ量子ハードウェアが利用可能である。 この条件はいわゆる量子優位性を求めるために必要であるが、結果の検証も非常に困難である。 本稿では,多体量子臨界力学に関する既知の理論的結果を用いて,最大133量子ビットの量子ハードウェアおよび様々な誤差軽減手法をベンチマークする。 特に、時間依存的横断体 Ising Hamiltonian のハミルトンシミュレーションにおいて、既知の普遍的スケーリング法則をベンチマークする。 基本誤差軽減と抑制法のみを組み込んで,ノイズが広まる前に最大1396個の2量子ゲートを特徴とする2量子ゲート深さ28までのコヒーレント制御を示す。 これらの結果は、デジタル化された量子アニールなどのアプリケーションに転送可能であり、回路深さと時間ステップの両方で最適な作業点を特定する133サイト最適化の結果と一致する。

The real-time simulation of large many-body quantum systems is a formidable task, that may only be achievable with a genuine quantum computational platform. Currently, quantum hardware with a number of qubits sufficient to make classical emulation challenging is available. This condition is necessary for the pursuit of a so-called quantum advantage, but it also makes verifying the results very difficult. In this manuscript, we flip the perspective and utilize known theoretical results about many-body quantum critical dynamics to benchmark quantum hardware and various error mitigation techniques on up to 133 qubits. In particular, we benchmark against known universal scaling laws in the Hamiltonian simulation of a time-dependent transverse field Ising Hamiltonian. Incorporating only basic error mitigation and suppression methods, our study shows coherent control up to a two-qubit gate depth of 28, featuring a maximum of 1396 two-qubit gates, before noise becomes prevalent. These results are transferable to applications such as digitized quantum annealing and match the results of a 133-site optimization, where we identify an optimal working point in terms of both circuit depth and time step.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# グラフ上のフェルミオンに対する複素度豊かな動的位相

Complexity enriched dynamical phases for fermions on graphs ( http://arxiv.org/abs/2404.08055v1 )

ライセンス: Link先を確認
Wei Xia, Jie Zou, Xiaopeng Li, (参考訳) 多体局在化遷移や測定誘起相転移などの現象を包含する動的量子相転移は、量子絡みの解析によってしばしば特徴づけられ、同定される。 ここでは、絡み合いによって定義される動的位相が複雑さによってさらに豊かになる点を強調する。 通常のグラフ上のフェルミオンの絡み合いとクリロフの複雑さについて検討し、光学的ツイーザで閉じ込められた$6$Li原子のようなシステムで実装できる。 我々の研究によると、絡み合いは次数$d = 2$と$d = 3$の正則グラフの両種類の体積法則に従うが、クリロフ複雑性は特異な振る舞いを示す。 我々は自由フェルミオンと相互作用フェルミオンモデルの両方を分析する。 相互作用がない場合、数値結果と理論解析の両方で、クリロフ空間の次元が$D\sim N$として、次数$d = 2$と$N$の正規グラフに対して$D\sim N^2$としてスケールすることを確認し、$D\sim N^2$ for $d = 3$とする。 定性的区別は正規グラフ上の相互作用するフェルミオンにおいても持続する。 相互作用するフェルミオンに対して、我々の理論解析は、次元スケールを$D\sim 4^{N^\alpha}$、$d = 2$、$0.38\leq\alpha\leq0.59$、$D\sim 4^N$、$d = 3$とする。 異なる接続性を持つグラフ上のフェルミオンに対する量子力学の複雑さの区別は、時間外相関子を測定することによって実験で調べることができる。

Dynamical quantum phase transitions, encompassing phenomena like many-body localization transitions and measurement-induced phase transitions, are often characterized and identified through the analysis of quantum entanglement. Here, we highlight that the dynamical phases defined by entanglement are further enriched by complexity. We investigate both the entanglement and Krylov complexity for fermions on regular graphs, which can be implemented by systems like $^6$Li atoms confined by optical tweezers. Our investigations unveil that while entanglement follows volume laws on both types of regular graphs with degree $d = 2$ and $d = 3$, the Krylov complexity exhibits distinctive behaviors. We analyze both free fermions and interacting fermions models. In the absence of interaction, both numerical results and theoretical analysis confirm that the dimension of the Krylov space scales as $D\sim N$ for regular graphs of degree $d = 2$ with $N$ sites, and we have $D\sim N^2$ for $d = 3$. The qualitative distinction also persists in interacting fermions on regular graphs. For interacting fermions, our theoretical analyses find the dimension scales as $D\sim 4^{N^\alpha}$ for regular graphs of $d = 2$ with $0.38\leq\alpha\leq0.59$, whereas it scales as $D\sim 4^N$ for $d = 3$. The distinction in the complexity of quantum dynamics for fermions on graphs with different connectivity can be probed in experiments by measuring the out-of-time-order correlators.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# 産業用モノのインターネットにおけるソフトセンシングのための物理応用グラフニューラルネットワーク

Physics-Enhanced Graph Neural Networks For Soft Sensing in Industrial Internet of Things ( http://arxiv.org/abs/2404.08061v1 )

ライセンス: Link先を確認
Keivan Faghih Niresi, Hugo Bissig, Henri Baumann, Olga Fink, (参考訳) 産業用IoT(Industrial Internet of Things)は、製造業、産業プロセス、インフラ管理を変革している。 新しいレベルの自動化、効率性、予測的メンテナンスを促進することで、IIoTは従来の産業をインテリジェントでシームレスに相互接続されたエコシステムへと変えようとしている。 しかし、高度に信頼性の高いIIoTを実現するには、大量のセンサーをインストールするコスト、既存のシステムにセンサーを組み込む際の制限、センサーの設置を非現実的にする厳しい環境条件などの要因が伴う。 ソフト(仮想)センシングは、物理センサデータから変数を推定するために数学的モデルを活用し、これらの課題に対する解決策を提供する。 データ駆動と物理に基づくモデリングは、ソフトセンシングに広く使われている2つの主要な方法論である。 これらの戦略の選択は、基礎となるシステムの複雑さに依存し、物理ベースの推論モデルが複雑であり、状態推定の課題を示す場合、データ駆動のアプローチが好まれる。 しかし、従来のディープラーニングモデルでは、様々なセンサー間の複雑な相互作用を明示的に表現できないことが典型的に妨げられている。 この制限に対処するために、センサ計測間の複雑な関係を効果的に捉える能力で有名なグラフニューラルネットワーク(GNN)を採用する。 本研究では,物理の原理をグラフベースの方法論に統合する物理強化型GNNを提案する。 これは、物理過程の根底にある特徴から導かれる入力グラフ内の追加ノードを増大させることによって達成される。 地域熱ネットワークのケーススタディにおける提案手法の評価では,ノイズやパラメータの不正確さの存在下においても,純粋にデータ駆動型GNNよりも顕著な改善が見られた。

The Industrial Internet of Things (IIoT) is reshaping manufacturing, industrial processes, and infrastructure management. By fostering new levels of automation, efficiency, and predictive maintenance, IIoT is transforming traditional industries into intelligent, seamlessly interconnected ecosystems. However, achieving highly reliable IIoT can be hindered by factors such as the cost of installing large numbers of sensors, limitations in retrofitting existing systems with sensors, or harsh environmental conditions that may make sensor installation impractical. Soft (virtual) sensing leverages mathematical models to estimate variables from physical sensor data, offering a solution to these challenges. Data-driven and physics-based modeling are the two main methodologies widely used for soft sensing. The choice between these strategies depends on the complexity of the underlying system, with the data-driven approach often being preferred when the physics-based inference models are intricate and present challenges for state estimation. However, conventional deep learning models are typically hindered by their inability to explicitly represent the complex interactions among various sensors. To address this limitation, we adopt Graph Neural Networks (GNNs), renowned for their ability to effectively capture the complex relationships between sensor measurements. In this research, we propose physics-enhanced GNNs, which integrate principles of physics into graph-based methodologies. This is achieved by augmenting additional nodes in the input graph derived from the underlying characteristics of the physical processes. Our evaluation of the proposed methodology on the case study of district heating networks reveals significant improvements over purely data-driven GNNs, even in the presence of noise and parameter inaccuracies.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# 絡み合い収穫における通信の干渉と場相関

Interference of communication and field correlations in entanglement harvesting ( http://arxiv.org/abs/2404.08063v1 )

ライセンス: Link先を確認
Matheus H. Zambianco, Adam Teixidó-Bonfill, Eduardo Martín-Martínez, (参考訳) 本研究では, 粒子検出器間の情報交換と, 量子場から相関関係を抽出する能力が, 構成的かつ破壊的に干渉することを明らかにする。 これにより、量子場における絡み合いの存在が、実際には2つの検出器を絡み合わせる過程に有害なシナリオが生まれる。

We reveal that the information exchange between particle detectors and their ability to harvest correlations from a quantum field can interfere constructively and destructively. This allows for scenarios where the presence of entanglement in the quantum field is actually detrimental to the process of getting the two detectors entangled.
翻訳日:2024-04-15 16:44:18 公開日:2024-04-11
# 音声匿名化が病因とその限界に及ぼす影響

The Impact of Speech Anonymization on Pathology and Its Limits ( http://arxiv.org/abs/2404.08064v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tomas Arias-Vergara, Paula Andrea Perez-Toro, Tobias Weise, Kai Packhaeuser, Maria Schuster, Elmar Noeth, Andreas Maier, Seung Hee Yang, (参考訳) 医療へのスピーチの統合は、個々の生体情報を含む非侵襲的なバイオマーカーとしての可能性から、プライバシー上の懸念を強めている。 これに対し、話者匿名化は、重要な言語内容を保持しながら個人識別可能な情報を隠蔽することを目的としている。 しかし,プライバシが特に重要である重要な領域である病的音声への匿名化手法の適用については,広く検討されていない。 本研究では,ドイツの複数の機関の2,700人以上の話者を対象に,匿名化が病的スピーチに与える影響について検討した。 トレーニングベースと信号処理ベースの両方の匿名化手法について検討し、同程度のエラー率で推定される障害間のプライバシー改善を、実用性に最小限の影響を伴って、1933%まで向上することを示す。 Dysarthria, Dysphonia, Cleft Lip and Palateなどの特定の疾患は最小限の効用変化を経験し, Dysglossiaはわずかに改善した。 以上より, 匿名化の影響は疾患によって大きく異なることが示唆された。 これは、プライバシーと診断ユーティリティの最適なバランスをとるために、障害特異的匿名化戦略を必要とする。 さらに, フェアネス分析の結果, 多くの人口層で一貫した匿名化効果が認められた。 本研究は,病的音声の匿名化によるプライバシー向上効果を実証するとともに,逆攻撃を考慮に入れたカスタマイズアプローチの重要性を強調した。

Integration of speech into healthcare has intensified privacy concerns due to its potential as a non-invasive biomarker containing individual biometric information. In response, speaker anonymization aims to conceal personally identifiable information while retaining crucial linguistic content. However, the application of anonymization techniques to pathological speech, a critical area where privacy is especially vital, has not been extensively examined. This study investigates anonymization's impact on pathological speech across over 2,700 speakers from multiple German institutions, focusing on privacy, pathological utility, and demographic fairness. We explore both training-based and signal processing-based anonymization methods, and document substantial privacy improvements across disorders-evidenced by equal error rate increases up to 1933%, with minimal overall impact on utility. Specific disorders such as Dysarthria, Dysphonia, and Cleft Lip and Palate experienced minimal utility changes, while Dysglossia showed slight improvements. Our findings underscore that the impact of anonymization varies substantially across different disorders. This necessitates disorder-specific anonymization strategies to optimally balance privacy with diagnostic utility. Additionally, our fairness analysis revealed consistent anonymization effects across most of the demographics. This study demonstrates the effectiveness of anonymization in pathological speech for enhancing privacy, while also highlighting the importance of customized approaches to account for inversion attacks.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# MSciNLI: 科学的自然言語推論のための多変量ベンチマーク

MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference ( http://arxiv.org/abs/2404.08066v1 )

ライセンス: Link先を確認
Mobashir Sadat, Cornelia Caragea, (参考訳) 科学自然言語推論(NLI)の課題は、研究論文から抽出された2つの文間の意味関係を予測することである。 このタスクは、最近SciNLIと呼ばれる新しいデータセットと共に、計算言語学領域で公開された論文から提案された。 本稿では,5つの科学領域から抽出された132,320の文対を含むデータセットであるMSciNLIを紹介する。 複数のドメインが利用できるため、科学的なNLIの領域シフトを研究することができる。 我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。 PLMの最高スコアは77.21%と51.77%であり、MSciNLIがどちらのモデルにも挑戦していることを示している。 さらに、ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。 最後に,2つの科学的NLIデータセットを中間的タスク伝達学習設定に使用し,科学的領域における下流タスクの性能を向上させることを示す。 データセットとコードはGithubで公開しています。

The task of scientific Natural Language Inference (NLI) involves predicting the semantic relation between two sentences extracted from research articles. This task was recently proposed along with a new dataset called SciNLI derived from papers published in the computational linguistics domain. In this paper, we aim to introduce diversity in the scientific NLI task and present MSciNLI, a dataset containing 132,320 sentence pairs extracted from five new scientific domains. The availability of multiple domains makes it possible to study domain shift for scientific NLI. We establish strong baselines on MSciNLI by fine-tuning Pre-trained Language Models (PLMs) and prompting Large Language Models (LLMs). The highest Macro F1 scores of PLM and LLM baselines are 77.21% and 51.77%, respectively, illustrating that MSciNLI is challenging for both types of models. Furthermore, we show that domain shift degrades the performance of scientific NLI models which demonstrates the diverse characteristics of different domains in our dataset. Finally, we use both scientific NLI datasets in an intermediate task transfer learning setting and show that they can improve the performance of downstream tasks in the scientific domain. We make our dataset and code available on Github.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# WildGraph: リアルなグラフベースの野生生物の軌道生成

WildGraph: Realistic Graph-based Trajectory Generation for Wildlife ( http://arxiv.org/abs/2404.08068v1 )

ライセンス: Link先を確認
Ali Al-Lawati, Elsayed Eshra, Prasenjit Mitra, (参考訳) 軌道生成は運動研究において重要な課題であり、ターゲットの集団から実際の軌道を収集するプライバシー、倫理、技術的課題を回避している。 特に、野生生物領域の実際の軌道は、収集プロセスの倫理的および環境的制約の結果、不足している。 本稿では,野生生物の移動に類似した長距離軌道生成の問題点を,少数の実検体に基づいて考察する。 本研究では,実際のデータセットのグローバルな移動特性を学習し,局所的に再帰的に洗練された領域を探索するための階層的アプローチを提案する。 我々のソリューションであるWildGraphは、地理的パスをH3(https://www.uber.com/blog/h3/)リージョンのプロトタイプネットワークに識別し、繰り返し変化する変分自動エンコーダを利用して、占有率に基づいて各リージョンの経路を確率的に生成する。 WildGraphは、サンプルサイズを60まで小さくして、現実的な数ヶ月の軌道を生成することに成功した。 2つの野生生物の移動データセットで行った実験により、提案手法は既存の作業と比較して生成した軌道の一般化を改善するとともに、いくつかのベンチマーク指標において優れた性能または同等のパフォーマンスを達成できることを示した。 私たちのコードは以下のリポジトリで公開されています。

Trajectory generation is an important task in movement studies; it circumvents the privacy, ethical, and technical challenges of collecting real trajectories from the target population. In particular, real trajectories in the wildlife domain are scarce as a result of ethical and environmental constraints of the collection process. In this paper, we consider the problem of generating long-horizon trajectories, akin to wildlife migration, based on a small set of real samples. We propose a hierarchical approach to learn the global movement characteristics of the real dataset and recursively refine localized regions. Our solution, WildGraph, discretizes the geographic path into a prototype network of H3 (https://www.uber.com/blog/h3/) regions and leverages a recurrent variational auto-encoder to probabilistically generate paths over the regions, based on occupancy. WildGraph successfully generates realistic months-long trajectories using a sample size as small as 60. Experiments performed on two wildlife migration datasets demonstrate that our proposed method improves the generalization of the generated trajectories in comparison to existing work while achieving superior or comparable performance in several benchmark metrics. Our code is published on the following repository: \url{https://github.com/aliwister/wildgraph}.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 永続的分類:データと逆例の安定性に対する新しいアプローチ

Persistent Classification: A New Approach to Stability of Data and Adversarial Examples ( http://arxiv.org/abs/2404.08069v1 )

ライセンス: Link先を確認
Brian Bell, Michael Geyer, David Glickenstein, Keaton Hamm, Carlos Scheidegger, Amanda Fernandez, Juston Moore, (参考訳) 分類問題に対する逆例の存在の根底には、多くの仮説が存在する。 これらには、データの高次元性、データ多様体の周囲空間における高次元化、機械学習モデルの構造は、分類器がデータポイントに近い決定境界を開発することを奨励する可能性がある。 本稿では,決定境界からの距離に直接依存しない敵の事例を研究するための新しい枠組みを提案する。 滑らかな分類器の文献と同様に、同じ分類の確率が与えられた標準偏差$\sigma$を持つ点のガウス近傍でサンプリングされた点に対して少なくとも$\gamma$であるなら、(自然あるいは逆の)データポイントを$(\gamma,\sigma)$-stableと定義する。 本研究は,自然点と逆点の補間点に沿った持続的指標の違いについて検討することに焦点を当てる。 我々は,MNISTデータセットとImageNetデータセットのコンテキストにおける大規模ニューラルネットワークの自然例よりも,敵例の持続性が有意に低いことを示す。 我々は、この永続性の欠如を、決定境界に関する補間物の角度を測定することによって、決定境界幾何学と結び付ける。 最後に、多様体配向勾配計量を開発し、この計量を付加したトレーニングで達成できるロバストネスの増加を示すことにより、このアプローチをロバストネスと結合する。

There are a number of hypotheses underlying the existence of adversarial examples for classification problems. These include the high-dimensionality of the data, high codimension in the ambient space of the data manifolds of interest, and that the structure of machine learning models may encourage classifiers to develop decision boundaries close to data points. This article proposes a new framework for studying adversarial examples that does not depend directly on the distance to the decision boundary. Similarly to the smoothed classifier literature, we define a (natural or adversarial) data point to be $(\gamma,\sigma)$-stable if the probability of the same classification is at least $\gamma$ for points sampled in a Gaussian neighborhood of the point with a given standard deviation $\sigma$. We focus on studying the differences between persistence metrics along interpolants of natural and adversarial points. We show that adversarial examples have significantly lower persistence than natural examples for large neural networks in the context of the MNIST and ImageNet datasets. We connect this lack of persistence with decision boundary geometry by measuring angles of interpolants with respect to decision boundaries. Finally, we connect this approach with robustness by developing a manifold alignment gradient metric and demonstrating the increase in robustness that can be achieved when training with the addition of this metric.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 鏡像の鮮度と硬度評価

Spurious Stationarity and Hardness Results for Mirror Descent ( http://arxiv.org/abs/2404.08073v1 )

ライセンス: Link先を確認
He Chen, Jiajin Li, Anthony Man-Cho So, (参考訳) ミラー降下のようなブレグマン近位型アルゴリズムのかなりの成功にもかかわらず、機械学習において重要な疑問が残る: 既存の定常度測度は、しばしばブレグマンの発散に基づいて、定常点と非定常点を確実に区別できるだろうか? 本稿では, 既存の定常度対策はすべて, 必然的に急激な定常点の存在を示唆するものであることを示す。 ブレグマン近位型アルゴリズムは、凸問題であっても、初期点が好ましくないとき、有限ステップで突発的な定常点から逃れることができない。 我々の困難さの結果は、ユークリッドとブレグマンのジオメトリーの固有の区別を指摘し、機械学習と最適化コミュニティの両方に基本的な理論的および数値的課題を提起している。

Despite the considerable success of Bregman proximal-type algorithms, such as mirror descent, in machine learning, a critical question remains: Can existing stationarity measures, often based on Bregman divergence, reliably distinguish between stationary and non-stationary points? In this paper, we present a groundbreaking finding: All existing stationarity measures necessarily imply the existence of spurious stationary points. We further establish an algorithmic independent hardness result: Bregman proximal-type algorithms are unable to escape from a spurious stationary point in finite steps when the initial point is unfavorable, even for convex problems. Our hardness result points out the inherent distinction between Euclidean and Bregman geometries, and introduces both fundamental theoretical and numerical challenges to both machine learning and optimization communities.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# SQBC:オンライン政治討論におけるスタンス検出のためのLCM生成合成データを用いたアクティブラーニング

SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions ( http://arxiv.org/abs/2404.08078v1 )

ライセンス: Link先を確認
Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling, (参考訳) スタンス検出は、オンライン政治議論を分析し、支援する多くのアプリケーションにとって重要なタスクである。 一般的なアプローチとしては、微調整変換器ベースのモデルがある。 しかし、これらのモデルは大量のラベル付きデータを必要とするが、利用できないかもしれない。 本研究では,LLM生成合成データを活用したオンライン政治議論のための姿勢検出エージェントの訓練と改善のための2つの方法を提案する。 次に,「クエリ・バイ・コミティ」アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。 鍵となるアイデアは、LLM生成合成データを託宣として使用して、手動ラベリングのために選択された最も情報に富まないサンプルを特定することである。 総合的な実験により、両方のアイデアが姿勢検出性能を向上させることが示されている。 実際に,活発に選択されたサンプルの微調整が,全データセットの使用性能を上回ることが判明した。

Stance detection is an important task for many applications that analyse or support online political discussions. Common approaches include fine-tuning transformer based models. However, these models require a large amount of labelled data, which might not be available. In this work, we present two different ways to leverage LLM-generated synthetic data to train and improve stance detection agents for online political discussions: first, we show that augmenting a small fine-tuning dataset with synthetic data can improve the performance of the stance detection model. Second, we propose a new active learning method called SQBC based on the "Query-by-Comittee" approach. The key idea is to use LLM-generated synthetic data as an oracle to identify the most informative unlabelled samples, that are selected for manual labelling. Comprehensive experiments show that both ideas can improve the stance detection performance. Curiously, we observed that fine-tuning on actively selected samples can exceed the performance of using the full dataset.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# DIMAT: ディープラーニングモデルのための分散反復マージとトレーニング

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models ( http://arxiv.org/abs/2404.08079v1 )

ライセンス: Link先を確認
Nastaran Saadati, Minh Pham, Nasla Saleem, Joshua R. Waite, Aditya Balu, Zhanhong Jiang, Chinmay Hegde, Soumik Sarkar, (参考訳) 分散ディープラーニングアルゴリズムの最近の進歩は、大規模な事前学習モデルを用いた様々なタスクにおける最先端のパフォーマンスを実証している。 しかし、このレベルの競争力を達成するための重要な前提条件は、これらのモデルを更新する際の重要な通信と計算オーバーヘッドである。 この問題に対処するために、高度なモデルマージ技術からインスピレーションを得て、追加のトレーニングを必要とせずに、分散反復マージ・アンド・トレーニング(DIMAT)パラダイムを導入します。 DIMAT内では、各エージェントはローカルデータに基づいてトレーニングされ、収束に到達するまでアクティベーションマッチングのような高度なモデルマージ技術を使用して、近隣エージェントと定期的にマージされる。 DIMATは、様々な一階法を持つ非凸関数の最良の利用率に確実に収束する一方で、一般的な既存手法と比較してより厳密な誤差境界が得られる。 複数のデータセットから得られた多様なコンピュータビジョンタスクにまたがるベースラインに対するDIMATの優位性を検証するための総合的な実証分析を行う。 実験結果から,DIMATは独立・同一分散(IID)および非IIDデータの精度が向上し,通信オーバヘッドの低減が図られた。 このDIMATパラダイムは、分散学習のための新たな機会を示し、スパースで軽量な通信と計算によって現実世界への適応性を高める。

Recent advances in decentralized deep learning algorithms have demonstrated cutting-edge performance on various tasks with large pre-trained models. However, a pivotal prerequisite for achieving this level of competitiveness is the significant communication and computation overheads when updating these models, which prohibits the applications of them to real-world scenarios. To address this issue, drawing inspiration from advanced model merging techniques without requiring additional training, we introduce the Decentralized Iterative Merging-And-Training (DIMAT) paradigm--a novel decentralized deep learning framework. Within DIMAT, each agent is trained on their local data and periodically merged with their neighboring agents using advanced model merging techniques like activation matching until convergence is achieved. DIMAT provably converges with the best available rate for nonconvex functions with various first-order methods, while yielding tighter error bounds compared to the popular existing approaches. We conduct a comprehensive empirical analysis to validate DIMAT's superiority over baselines across diverse computer vision tasks sourced from multiple datasets. Empirical results validate our theoretical claims by showing that DIMAT attains faster and higher initial gain in accuracy with independent and identically distributed (IID) and non-IID data, incurring lower communication overhead. This DIMAT paradigm presents a new opportunity for the future decentralized learning, enhancing its adaptability to real-world with sparse and light-weight communication and computation.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# ファインチューニング言語モデルに対する変数再現ゼロ階法

Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models ( http://arxiv.org/abs/2404.08080v1 )

ライセンス: Link先を確認
Tanmay Gautam, Youngsuk Park, Hao Zhou, Parameswaran Raman, Wooseok Ha, (参考訳) 微調整言語モデル(LM)は、幅広い下流タスクで成功している。 しかし、LMがスケールアップされるにつれて、バックプロパゲーションのメモリ要求は著しく高くなる。 Zeroth-order (ZO) 最適化手法はメモリ効率の高いフォワードパスを推定勾配に利用することができる。 最近では、ZO-SGDの適応であるMeZOが、適切なタスクプロンプトと組み合わせることで、ゼロショットとインコンテキスト学習を一貫して上回ることが示されている。 そこで本研究では,ZO法と分散低減手法を結合して,推論に基づくLM微調整の安定性と収束性を向上させる。 本稿では、メモリ効率の良いゼロ階確率変数生成勾配(MeZO-SVRG)を導入し、タスク固有のプロンプトへの依存をなくし、複数のLM微調整タスクに対してその有効性を実証する。 MeZO-SVRGは、GLUEタスクのベンチマーク上で、マスクと自動回帰の両方のLMを評価し、全パラメータと部分パラメータの微調整設定において、最大20%の精度でMeZOを上回っている。 MeZO-SVRGは、MeZOのピークテスト精度を2/times$で上回ることが多いため、計算時間を短縮するメリットがある。 MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。 実験の結果,MeZO-SVRGのメモリ節約は,バッチサイズが大きいSGDに比べて徐々に改善されていることがわかった。

Fine-tuning language models (LMs) has demonstrated success in a wide array of downstream tasks. However, as LMs are scaled up, the memory requirements for backpropagation become prohibitively high. Zeroth-order (ZO) optimization methods can leverage memory-efficient forward passes to estimate gradients. More recently, MeZO, an adaptation of ZO-SGD, has been shown to consistently outperform zero-shot and in-context learning when combined with suitable task prompts. In this work, we couple ZO methods with variance reduction techniques to enhance stability and convergence for inference-based LM fine-tuning. We introduce Memory-Efficient Zeroth-Order Stochastic Variance-Reduced Gradient (MeZO-SVRG) and demonstrate its efficacy across multiple LM fine-tuning tasks, eliminating the reliance on task-specific prompts. Evaluated across a range of both masked and autoregressive LMs on benchmark GLUE tasks, MeZO-SVRG outperforms MeZO with up to 20% increase in test accuracies in both full- and partial-parameter fine-tuning settings. MeZO-SVRG benefits from reduced computation time as it often surpasses MeZO's peak test accuracy with a $2\times$ reduction in GPU-hours. MeZO-SVRG significantly reduces the required memory footprint compared to first-order SGD, i.e. by $2\times$ for autoregressive models. Our experiments highlight that MeZO-SVRG's memory savings progressively improve compared to SGD with larger batch sizes.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# ディープラーニングを用いた自動車・歩行者のリアルタイム検出と解析

Real-Time Detection and Analysis of Vehicles and Pedestrians using Deep Learning ( http://arxiv.org/abs/2404.08081v1 )

ライセンス: Link先を確認
Md Nahid Sadik, Tahmim Hossain, Faisal Sayeed, (参考訳) コンピュータビジョン、特に車両と歩行者の識別は、自動運転、人工知能、およびビデオ監視の進化に不可欠である。 現在の交通監視システムは、小さな物や歩行者を効果的に認識する上で大きな困難に直面しており、公共の安全を脅かし、交通の非効率に寄与している。 これらの難しさを認識し, 複雑な視覚入力を処理し, 様々な環境環境下での車や人々の正確なリアルタイム認識を実現するための, 高度なディープラーニングフレームワークの作成と検証に重点を置いている。 複雑な都市環境を表すデータセットを用いて, YOLOv8モデルとRT-DETRモデルの異なるバージョンを訓練し, 評価した。 YOLOv8 大型モデルは、特に歩行者認識において最も効果的で、精度と堅牢性が高いことが証明された。 平均精度とリコール率を含む結果は、交通監視と安全性を劇的に改善するモデルの能力を実証している。 本研究は、コンピュータビジョンにおけるリアルタイムかつ信頼性の高い検出に重要な追加を行い、交通管理システムのための新しいベンチマークを確立する。

Computer vision, particularly vehicle and pedestrian identification is critical to the evolution of autonomous driving, artificial intelligence, and video surveillance. Current traffic monitoring systems confront major difficulty in recognizing small objects and pedestrians effectively in real-time, posing a serious risk to public safety and contributing to traffic inefficiency. Recognizing these difficulties, our project focuses on the creation and validation of an advanced deep-learning framework capable of processing complex visual input for precise, real-time recognition of cars and people in a variety of environmental situations. On a dataset representing complicated urban settings, we trained and evaluated different versions of the YOLOv8 and RT-DETR models. The YOLOv8 Large version proved to be the most effective, especially in pedestrian recognition, with great precision and robustness. The results, which include Mean Average Precision and recall rates, demonstrate the model's ability to dramatically improve traffic monitoring and safety. This study makes an important addition to real-time, reliable detection in computer vision, establishing new benchmarks for traffic management systems.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 視覚的コンテキスト認識による転倒検出

Visual Context-Aware Person Fall Detection ( http://arxiv.org/abs/2404.08088v1 )

ライセンス: Link先を確認
Aleksander Nagaj, Zenjie Li, Dim P. Papadopoulos, Kamal Nasrollahi, (参考訳) 世界人口の高齢化に伴い、秋関連の事件が増えている。 効果的な転倒検知システムは、特に医療分野において、このような事象に関連するリスクを軽減するために不可欠である。 本研究では,背景オブジェクトを含む視覚的コンテキストが転倒検出分類器の精度に与える影響を評価する。 画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。 ResNet-18、EfficientNetV2-S、Swin-Smallといった確立したモデルがトレーニングされ、評価される。 トレーニング中、ピクセルベースの変換がセグメント化されたオブジェクトに適用され、モデルがセグメント化せずに生画像上で評価される。 以上の結果から,視覚的コンテキストが転倒検出に与える影響が示唆された。 画像背景へのガウスのぼかしの適用は、すべてのモデルの性能と一般化能力を顕著に改善する。 ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。 しかし、トレーニング中のオブジェクト固有の文脈変換がこの課題を効果的に軽減することを示す。 サリエンシマップを用いたさらなる分析は、視覚コンテキストが分類タスクにおいて重要であるという我々の観察を支援する。 データセット処理APIとセグメンテーションパイプラインの両方を作成し、https://github.com/A-NGJ/image-segmentation-cliで公開しています。

As the global population ages, the number of fall-related incidents is on the rise. Effective fall detection systems, specifically in healthcare sector, are crucial to mitigate the risks associated with such events. This study evaluates the role of visual context, including background objects, on the accuracy of fall detection classifiers. We present a segmentation pipeline to semi-automatically separate individuals and objects in images. Well-established models like ResNet-18, EfficientNetV2-S, and Swin-Small are trained and evaluated. During training, pixel-based transformations are applied to segmented objects, and the models are then evaluated on raw images without segmentation. Our findings highlight the significant influence of visual context on fall detection. The application of Gaussian blur to the image background notably improves the performance and generalization capabilities of all models. Background objects such as beds, chairs, or wheelchairs can challenge fall detection systems, leading to false positive alarms. However, we demonstrate that object-specific contextual transformations during training effectively mitigate this challenge. Further analysis using saliency maps supports our observation that visual context is crucial in classification tasks. We create both dataset processing API and segmentation pipeline, available at https://github.com/A-NGJ/image-segmentation-cli.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 低速度MDPにおける2重摂動ロバスト性

Efficient Duple Perturbation Robustness in Low-rank MDPs ( http://arxiv.org/abs/2404.08089v1 )

ライセンス: Link先を確認
Yang Hu, Haitong Ma, Bo Dai, Na Li, (参考訳) 近年、強化学習(RL)研究においてロバストネスの追求が話題となっているが、既存の手法は実世界の実践を妨げる効率上の問題に悩まされている。 本稿では,低ランクマルコフ決定過程(MDPs)における特徴ベクトルと因子ベクトルの両方に対する摂動の2重摂動ロバスト性を,$(\xi,\eta)$-ambiguity集合の新規な特徴付けにより導入する。 新たなロバストな MDP の定式化は関数表現のビューと互換性があり、従って、大または連続な状態-作用空間を持つ実践的な RL 問題に自然に適用できる。 一方、理論収束率を保証した証明可能な効率的で実用的なアルゴリズムがもたらされる。 例えば、新しいロバスト性の概念を正当化するために設計されており、アルゴリズムの効率は理論的境界と数値シミュレーションの両方によって支えられている。

The pursuit of robustness has recently been a popular topic in reinforcement learning (RL) research, yet the existing methods generally suffer from efficiency issues that obstruct their real-world implementation. In this paper, we introduce duple perturbation robustness, i.e. perturbation on both the feature and factor vectors for low-rank Markov decision processes (MDPs), via a novel characterization of $(\xi,\eta)$-ambiguity sets. The novel robust MDP formulation is compatible with the function representation view, and therefore, is naturally applicable to practical RL problems with large or even continuous state-action spaces. Meanwhile, it also gives rise to a provably efficient and practical algorithm with theoretical convergence rate guarantee. Examples are designed to justify the new robustness concept, and algorithmic efficiency is supported by both theoretical bounds and numerical simulations.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 条件付き畳み込みニューラルネットを用いた水中音響の帯域依存透過損失の連続学習

Continual Learning of Range-Dependent Transmission Loss for Underwater Acoustic using Conditional Convolutional Neural Net ( http://arxiv.org/abs/2404.08091v1 )

ライセンス: Link先を確認
Indu Kant Deo, Akash Venkateshwaran, Rajeev K. Jaiman, (参考訳) 船舶から発せられる遠方界騒音の正確かつ確実な予測には重要なニーズがある。 従来のNavier-Stokes方程式に基づくフルオーダーモデルは不適当であり、洗練されたモデル還元法は、海山のある環境における遠距離場雑音を正確に予測するのに有効ではない。 近年のリダクションモデル、特に畳み込みニューラルネットワークとリカレントニューラルネットワークに基づくモデルは、より高速で正確な代替手段を提供する。 これらのモデルは畳み込みニューラルネットワークを使用して、データ次元を効果的に削減する。 しかし、現在のディープラーニングモデルは、長期間にわたる波動伝搬予測や遠隔地での波動伝搬予測において、しばしば自己回帰予測に依存し、遠距離場浴量測定情報を欠いている問題に直面している。 本研究では,遠方界シナリオにおける水中放射音予測のための深層学習モデルの精度向上を目的としている。 そこで本稿では,海洋浴量測定データを入力に組み込んだ新しいレンジ条件畳み込みニューラルネットワークを提案する。 このアーキテクチャを連続的な学習フレームワークに統合することにより、世界中の様々な浴量測定のモデルを一般化することを目指している。 提案手法の有効性を実証するため,東北太平洋のディッキン海山に対する遠距離場予測を含むいくつかの試験事例とベンチマークシナリオを用いてモデル解析を行った。 提案アーキテクチャは, 帯域依存性の異なる様々な浴量測定プロファイル上での透過損失を効果的に捕捉する。 このアーキテクチャは、水中で放射される騒音を適応的に管理するシステムに統合することができ、近距離の船舶騒音源と海洋哺乳動物の位置で受信された騒音との間のエンドツーエンドのマッピングをリアルタイムに提供することができる。

There is a significant need for precise and reliable forecasting of the far-field noise emanating from shipping vessels. Conventional full-order models based on the Navier-Stokes equations are unsuitable, and sophisticated model reduction methods may be ineffective for accurately predicting far-field noise in environments with seamounts and significant variations in bathymetry. Recent advances in reduced-order models, particularly those based on convolutional and recurrent neural networks, offer a faster and more accurate alternative. These models use convolutional neural networks to reduce data dimensions effectively. However, current deep-learning models face challenges in predicting wave propagation over long periods and for remote locations, often relying on auto-regressive prediction and lacking far-field bathymetry information. This research aims to improve the accuracy of deep-learning models for predicting underwater radiated noise in far-field scenarios. We propose a novel range-conditional convolutional neural network that incorporates ocean bathymetry data into the input. By integrating this architecture into a continual learning framework, we aim to generalize the model for varying bathymetry worldwide. To demonstrate the effectiveness of our approach, we analyze our model on several test cases and a benchmark scenario involving far-field prediction over Dickin's seamount in the Northeast Pacific. Our proposed architecture effectively captures transmission loss over a range-dependent, varying bathymetry profile. This architecture can be integrated into an adaptive management system for underwater radiated noise, providing real-time end-to-end mapping between near-field ship noise sources and received noise at the marine mammal's location.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# LLMのためのデータ拡張に基づく辞書適応

Data-Augmentation-Based Dialectal Adaptation for LLMs ( http://arxiv.org/abs/2404.08092v1 )

ライセンス: Link先を確認
Fahim Faisal, Antonios Anastasopoulos, (参考訳) 本稿では,大言語モデル(LLM)が南スラヴ語マイクロダイアレクト上での常識推論能力を評価することに焦点を当てた,VarDial 2024におけるDialect-Copa共有タスクへのGMUNLPの参加について述べる。 この課題は、標準言語の性能がすでに確立されているため、LLMが標準方言の変種をいかにうまく扱えるかを評価することを目的としている。 本稿では,異なる種類の言語モデルの強みを組み合わせ,データ拡張技術を活用して3つの南スラヴ方言(Chakavian, Cherkano, Torlak)のタスクパフォーマンスを向上させるアプローチを提案する。 言語に焦点をあてたエンコーダモデル(BERTi\'c)とドメインに依存しない多言語モデル(AYA-101)を用いて実験を行う。 その結果,提案手法は,オープンソースモデルカテゴリの3つのテストデータセットすべてに対して,大幅な性能向上をもたらすことが示された。 この研究は、低リソースおよび方言設定における自然言語理解の促進という、より広範な目標に寄与する、非標準方言変種を扱う上で、データ拡張の実用性とLLMの可能性を強調した。 コード:https://github.com/ffaisal93/dialect_copa

This report presents GMUNLP's participation to the Dialect-Copa shared task at VarDial 2024, which focuses on evaluating the commonsense reasoning capabilities of large language models (LLMs) on South Slavic micro-dialects. The task aims to assess how well LLMs can handle non-standard dialectal varieties, as their performance on standard languages is already well-established. We propose an approach that combines the strengths of different types of language models and leverages data augmentation techniques to improve task performance on three South Slavic dialects: Chakavian, Cherkano, and Torlak. We conduct experiments using a language-family-focused encoder-based model (BERTi\'c) and a domain-agnostic multilingual model (AYA-101). Our results demonstrate that the proposed data augmentation techniques lead to substantial performance gains across all three test datasets in the open-source model category. This work highlights the practical utility of data augmentation and the potential of LLMs in handling non-standard dialectal varieties, contributing to the broader goal of advancing natural language understanding in low-resource and dialectal settings. Code:https://github.com/ffaisal93/dialect_copa
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# 高度な機械学習アルゴリズムのためのリッチインタラクション能力を有するロバストなソフトベイビーロボットを目指して

Towards a Robust Soft Baby Robot With Rich Interaction Ability for Advanced Machine Learning Algorithms ( http://arxiv.org/abs/2404.08093v1 )

ライセンス: Link先を確認
Mohannad Alhakami, Dylan R. Ashley, Joel Dunham, Francesco Faccio, Eric Feron, Jürgen Schmidhuber, (参考訳) 人工知能は最近、多くの分野で大きな進歩を遂げていますが、一般用途のロボティクスではあまり成功していません。 この理由の1つは、従来のロボット設計と、オープンエンドの創造性に基づくAIシステムに必要な特性の切り離しである、と私たちは信じています。 そのために私たちは、自然から選択的にインスピレーションを受け、大きなアクションスペース、複数のカメラからのリッチな知覚データストリーム、そしてアクションスペースとデータストリームを強化するために他の人と接続する能力を備えた、堅牢で部分的にソフトなロボットアームを構築しました。 概念実証として、2つの現代の機械学習アルゴリズムを訓練し、単純な目標達成タスクを実行する。 いずれにせよ、このデザインは、人工知能を実現するために作られたロボットを作るための第一歩だと私たちは信じている。

Artificial intelligence has made great strides in many areas lately, yet it has had comparatively little success in general-use robotics. We believe one of the reasons for this is the disconnect between traditional robotic design and the properties needed for open-ended, creativity-based AI systems. To that end, we, taking selective inspiration from nature, build a robust, partially soft robotic limb with a large action space, rich sensory data stream from multiple cameras, and the ability to connect with others to enhance the action space and data stream. As a proof of concept, we train two contemporary machine learning algorithms to perform a simple target-finding task. Altogether, we believe that this design serves as a first step to building a robot tailor-made for achieving artificial general intelligence.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# オランダ学生の学校と家族ネットワークがCOVID-19感染に与える影響 : 人口レベル登録データを用いた検討

The Impact of School and Family Networks on COVID-19 Infections Among Dutch Students: A Study Using Population-Level Registry Data ( http://arxiv.org/abs/2404.08098v1 )

ライセンス: Link先を確認
Javier Garcia-Bernardo, Christine Hedde-von Westernhagen, Tom Emery, Albert Jan van Hoek, (参考訳) 異なる社会的相互作用の影響を理解することが、疫病モデルを改善する鍵となる。 ここでは、PCR検査結果や人口レベルのネットワークを含む広範な登録データを用いて、オランダにおけるSARS-CoV-2送信(2020年6月~2021年10月)に対する学校、家族、その他の社会接触の影響を調査する。 小学校(2020年)と中学校(2021年)と各小学校(2021年)に通学した学生のペアをマッチングし,SARS-CoV-2送信の可能性の異なる文脈を分離・比較した。 そして,14日間に2人の学生が陽性になる確率を,時間的に関連した感染の確率を算出した。 以上の結果から,SARS-CoV-2の普及における家庭と家族の伝達の重要性が学校環境に比較して強調された。 同じ家庭に住む兄弟姉妹と親子ペアの感染確率は22.6-23.2\%、異なる家庭に住む家族の4.7--7.9\%であった。 対照的に、近隣に住みながら同じ小学校・中学校に通っていない2組の生徒は0.52\%、異なる小学校に通っている2組は0.66\%、同じ小学校に通っている2組は1.65\%であった。 最後に,多段階回帰分析を用いて,個人,学校,地理的要因が伝達リスクにどのように寄与するかを検討した。 伝送確率の最大の違いは、観測されていない個人(60 %)と学校レベル(34 %)の要因によるものである。 僅かな割合(3\%)は、生徒の地理的な近さ、学校の大きさ、分業、学区の平均的な収入によるものである。

Understanding the impact of different social interactions is key to improving epidemic models. Here, we use extensive registry data -- including PCR test results and population-level networks -- to investigate the impact of school, family, and other social contacts on SARS-CoV-2 transmission in the Netherlands (June 2020--October 2021). We isolate and compare different contexts of potential SARS-CoV-2 transmission by matching pairs of students based on their attendance at the same or different primary school (in 2020) and secondary school (in 2021) and their geographic proximity. We then calculated the probability of temporally associated infections -- i.e. the probability of both students testing positive within a 14-day period. Our results highlight the relative importance of household and family transmission in the spread of SARS-CoV-2 compared to school settings. The probability of temporally associated infections for siblings and parent-child pairs living in the same household was 22.6--23.2\%, and 4.7--7.9\% for family members living in different household. In contrast, the probability of temporally associated infections was 0.52\% for pairs of students living nearby but not attending the same primary or secondary school, 0.66\% for pairs attending different secondary schools but having attended the same primary school, and 1.65\% for pairs attending the same secondary school. Finally, we used multilevel regression analyses to examine how individual, school, and geographic factors contribute to transmission risk. We found that the largest differences in transmission probabilities were due to unobserved individual (60\%) and school-level (34\%) factors. Only a small proportion (3\%) could be attributed to geographic proximity of students or to school size, denomination, or the median income of the school area.
翻訳日:2024-04-15 16:34:33 公開日:2024-04-11
# Attention U-Net と ProtTrans タンパク言語モデルを用いたタンパク質固有性障害予測

Protein intrinsic disorder prediction using Attention U-Net and ProtTrans protein language model ( http://arxiv.org/abs/2404.08108v1 )

ライセンス: Link先を確認
Krzysztof Kotowski, Irena Roterman, Katarzyna Stapor, (参考訳) 内因性障害領域の予測は、タンパク質の機能、構造、ダイナミクスを理解する上で重要な意味を持つ。 新しい薬物、治療薬、酵素を設計するのに不可欠な、新規の機能やタンパク質とタンパク質の相互作用を発見するのに役立つ。 近年,タンパク質言語モデルに基づく新しい世代の予測器が出現している。 これらのアルゴリズムは、時間を要する多重シーケンスアライメント(MSA)を計算することなく、最先端の精度に達する。 本稿では、タンパク質言語モデルProtTransの特徴を用いて、意図的U-Net畳み込みニューラルネットワークに基づく、新しいタンパク質内因性障害予測器であるDunctionUnetLMをプリセットする。 DisorderUnetLMは、MSAを用いたflDPnnおよびIDP-CRF予測器と、同じProtTransモデルの特徴を用いたSETH予測器との直接比較において、上位結果を示す。 さらに、最新のタンパク質内因性障害予測(CAID-2)ベンチマークから得られた41の予測者のうち、障害-PDBサブセット(ROC-AUCが0.924)で9位、障害-NOXサブセット(ROC-AUCが0.844)で1位にランクされ、Distor-derUnetLMが提出されたCAID-3課題において、その可能性を確認する。

The prediction of intrinsic disorder regions has significant implications for understanding protein function, structure, and dynamics. It can help to discover novel functions or protein-protein interactions essential to designing new drugs, therapies, or enzymes. Recently, a new generation of predictors based on protein language models is emerging. These algorithms reach state-of-the-art accuracy without calculating time-consuming multiple sequence alignments (MSAs). The article pre-sents a new protein intrinsic disorder predictor DisorderUnetLM based on the Attention U-Net convolutional neural network using features from the protein language model ProtTrans. DisorderUnetLM shows top results in the direct comparison with flDPnn and IDP-CRF predictors using MSAs and with the SETH predictor using features from the same ProtTrans model. Moreover, among 41 predictors from the latest Critical Assessment of Protein Intrinsic Disorder Prediction (CAID-2) benchmark, it ranks 9th for the Disorder-PDB subset (with ROC-AUC of 0.924) and 1st for the Disorder-NOX subset (with ROC-AUC of 0.844) which confirms its potential to perform well in the upcoming CAID-3 challenge for which Disor-derUnetLM was submitted.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# ヘイトスピーチとフェイクニュースの相乗効果

Toxic Synergy Between Hate Speech and Fake News Exposure ( http://arxiv.org/abs/2404.08110v1 )

ライセンス: Link先を確認
Munjung Kim, Tuğrulcan Elmas, Filippo Menczer, (参考訳) ソーシャルメディア上でのヘイトスピーチは厳しい懸念だ。 ヘイトスピーチに関連する要因を理解することは、ヘイトスピーチを緩和するのに役立ちます。 本稿では, ヘイトスピーチとフェイクニュースへの露出との関係について, フォロー関係とTwitter上でのヘイトスピーチの利用を通して, 低信頼度ソースからのニュースへの露出の相関について検討する。 ニュースソースの信頼性ラベルとヘイトスピーチを対象とする投稿のデータセットを用いて、ヘイトスピーカーは信頼性のあるニュースソースにリンクする投稿の低い割合で露出していることがわかった。 対象とする人口を考慮に入れると、この協会は主として反ユダヤ・反イスラムのコンテンツによって引き起こされていることが分かる。 また、ヘイトスピーカーは、人気が低い低視聴率のニュースに晒される傾向にあることも観察しています。 最後に、ヘイトスピーチは、パルチザンの情報源による低信頼のニュースと結びついているが、これらの情報源は、反ユダヤ主義的な内容や、ムスリムやラテン系住民を対象とするヘイトスピーチの政治的権利のために政治的に歪む傾向にある。 以上の結果から,偽ニュースやヘイトスピーチの緩和が相乗効果をもたらす可能性が示唆された。

Hate speech on social media is a pressing concern. Understanding the factors associated with hate speech may help mitigate it. Here we explore the association between hate speech and exposure to fake news by studying the correlation between exposure to news from low-credibility sources through following connections and the use of hate speech on Twitter. Using news source credibility labels and a dataset of posts with hate speech targeting various populations, we find that hate speakers are exposed to lower percentages of posts linking to credible news sources. When taking the target population into account, we find that this association is mainly driven by anti-semitic and anti-Muslim content. We also observe that hate speakers are more likely to be exposed to low-credibility news with low popularity. Finally, while hate speech is associated with low-credibility news from partisan sources, we find that those sources tend to skew to the political left for antisemitic content and to the political right for hate speech targeting Muslim and Latino populations. Our results suggest that mitigating fake news and hate speech may have synergistic effects.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# S3Editor: 顔ビデオ編集のためのスパースSemantic-Disentangled Self-Trainingフレームワーク

S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing ( http://arxiv.org/abs/2404.08111v1 )

ライセンス: Link先を確認
Guangzhi Wang, Tianyi Chen, Kamran Ghasedi, HsiangTao Wu, Tianyu Ding, Chris Nuesmeyer, Ilya Zharkov, Mohan Kankanhalli, Luming Liang, (参考訳) 顔属性の編集は様々なアプリケーションにおいて重要な役割を果たす。 しかし、既存の手法は、アイデンティティを維持し、忠実さを編集し、時間的一貫性を保ちながら、高品質な結果を達成する上で困難に直面する。 これらの課題は、限られた監督、アーキテクチャ設計、最適化戦略など、トレーニングパイプラインに関連する問題に根ざしています。 本稿では,顔画像編集のためのS3Editorについて紹介する。 S3Editorは、これらの課題に3つの重要なコントリビューションで包括的に対処する汎用的なソリューションである。 まず、S3Editorは自己学習パラダイムを採用し、セミスーパービジョンを通じてトレーニングプロセスを強化する。 次に,多様な編集要求に対応する動的ルーティング機構を備えた意味的不整合アーキテクチャを提案する。 第3に,非ターゲット属性からの影響をさらに分散させるために,有害ニューロンを識別・非活性化する構造的スパース最適化方式を提案する。 S3Editorはモデルに依存しず、様々な編集アプローチと互換性がある。 定性的かつ定量的な分析結果から,本手法は時間的整合性だけでなく,アイデンティティの保存,編集の正確性も著しく向上することが明らかとなった。

Face attribute editing plays a pivotal role in various applications. However, existing methods encounter challenges in achieving high-quality results while preserving identity, editing faithfulness, and temporal consistency. These challenges are rooted in issues related to the training pipeline, including limited supervision, architecture design, and optimization strategy. In this work, we introduce S3Editor, a Sparse Semantic-disentangled Self-training framework for face video editing. S3Editor is a generic solution that comprehensively addresses these challenges with three key contributions. Firstly, S3Editor adopts a self-training paradigm to enhance the training process through semi-supervision. Secondly, we propose a semantic disentangled architecture with a dynamic routing mechanism that accommodates diverse editing requirements. Thirdly, we present a structured sparse optimization schema that identifies and deactivates malicious neurons to further disentangle impacts from untarget attributes. S3Editor is model-agnostic and compatible with various editing approaches. Our extensive qualitative and quantitative results affirm that our approach significantly enhances identity preservation, editing fidelity, as well as temporal consistency.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 6G以上の予測的ハンドオーバ戦略:ディープラーニングとトランスファー学習アプローチ

Predictive Handover Strategy in 6G and Beyond: A Deep and Transfer Learning Approach ( http://arxiv.org/abs/2404.08113v1 )

ライセンス: Link先を確認
Ioannis Panitsas, Akrit Mudvari, Ali Maatouk, Leandros Tassiulas, (参考訳) 次世代のセルネットワークは、より複雑で仮想化されたシステムに進化し、最適化の強化に機械学習を使用し、さまざまなサービス要求を満たすために、より高い周波数帯域とより高密度なデプロイメントを活用する。 この進化は、多くの利点をもたらすが、特にモビリティ管理において、より少ない範囲と高い信号減衰によるハンドオーバの全体数の増加により、課題を生じさせる。 これらの課題に対処するため, ハンドオーバ障害や割り込み時間を最小限に抑えるために, 逐次的ユーザ機器計測を用いて, 将来的なサービスセルの予測を行うディープラーニングベースのアルゴリズムを提案する。 提案アルゴリズムでは,ネットワークオペレータがハンドオーバトリガイベントを動的に調整したり,UAVベースステーションを組み込んでカバレッジとキャパシティの向上を実現し,転送学習技術によるロードバランシングやエネルギー効率といったネットワーク目的を最適化する。 我々のフレームワークはO-RAN仕様に準拠しており、E2SM-KPMサービスモデルを活用したxAppとして、Near-Real-Time RAN Intelligent Controllerにデプロイすることができる。 評価の結果,提案アルゴリズムは将来提供細胞を高い確率で予測する上で,92%の精度を達成できることが示唆された。 最後に,転送学習を利用することで,新しいハンドオーバトリガ決定やUAV基地局を動的に導入した場合,再トレーニング時間を91%,77%削減する。

Next-generation cellular networks will evolve into more complex and virtualized systems, employing machine learning for enhanced optimization and leveraging higher frequency bands and denser deployments to meet varied service demands. This evolution, while bringing numerous advantages, will also pose challenges, especially in mobility management, as it will increase the overall number of handovers due to smaller coverage areas and the higher signal attenuation. To address these challenges, we propose a deep learning based algorithm for predicting the future serving cell utilizing sequential user equipment measurements to minimize the handover failures and interruption time. Our algorithm enables network operators to dynamically adjust handover triggering events or incorporate UAV base stations for enhanced coverage and capacity, optimizing network objectives like load balancing and energy efficiency through transfer learning techniques. Our framework complies with the O-RAN specifications and can be deployed in a Near-Real-Time RAN Intelligent Controller as an xApp leveraging the E2SM-KPM service model. The evaluation results demonstrate that our algorithm achieves a 92% accuracy in predicting future serving cells with high probability. Finally, by utilizing transfer learning, our algorithm significantly reduces the retraining time by 91% and 77% when new handover trigger decisions or UAV base stations are introduced to the network dynamically.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# TREC 2023 NeuCLIRトラックでのHLTCOE

HLTCOE at TREC 2023 NeuCLIR Track ( http://arxiv.org/abs/2404.08118v1 )

ライセンス: Link先を確認
Eugene Yang, Dawn Lawrie, James Mayfield, (参考訳) HLTCOEチームはPLAID、mT5リランカー、文書翻訳をTREC 2023 NeuCLIRトラックに適用した。 PLAIDには、ColBERT v2、Translate-train~(TT)、Translate Distill~(TD)、Multilingual translate-train~(MTT)といった、さまざまなモデルとトレーニングテクニックが含まれていました。 TTはColBERTモデルを英語クエリで訓練し、MS-MARCO v1コレクションから自動的に文書言語に翻訳される。 これにより、トラックの3つのクロスランゲージモデル、すなわち言語毎に1つが生成される。 MTTは、3言語すべてでMS-MARCO文の翻訳を混合言語バッチに組み合わせることで、3つの文書言語すべてに対して単一のモデルを作成する。 したがって、モデルは全ての言語で同時にクエリとパスのマッチングについて学習する。 蒸留では、mT5モデルのスコアを非英語の翻訳文書のペアに当てはめ、クエリとドキュメントのペアのスコアを学習する。 チームはすべてのNeuCLIRタスク(CLIRとMLIRニュースタスク、および技術ドキュメントタスク)に実行を提出した。

The HLTCOE team applied PLAID, an mT5 reranker, and document translation to the TREC 2023 NeuCLIR track. For PLAID we included a variety of models and training techniques -- the English model released with ColBERT v2, translate-train~(TT), Translate Distill~(TD) and multilingual translate-train~(MTT). TT trains a ColBERT model with English queries and passages automatically translated into the document language from the MS-MARCO v1 collection. This results in three cross-language models for the track, one per language. MTT creates a single model for all three document languages by combining the translations of MS-MARCO passages in all three languages into mixed-language batches. Thus the model learns about matching queries to passages simultaneously in all languages. Distillation uses scores from the mT5 model over non-English translated document pairs to learn how to score query-document pairs. The team submitted runs to all NeuCLIR tasks: the CLIR and MLIR news task as well as the technical documents task.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 線形切換制御における非漸近同定のための最小二乗法

A least-square method for non-asymptotic identification in linear switching control ( http://arxiv.org/abs/2404.08120v1 )

ライセンス: Link先を確認
Haoyuan Sun, Ali Jadbabaie, (参考訳) 本論文の焦点は、線形力学系が既知の候補モデルの有限個の集合内にあることが知られている環境での線形系同定である。 まず、与えられた軌跡から同定する問題を考察し、この設定では真モデルの指標を高い確率で同定する。 文献における線形最小二乗法の非漸近解析における最近の進歩を活用して、この問題の有限時間サンプル複雑性を特徴づける。 システムの事前知識を前提としない初期の結果と比較して,提案手法はより小さな仮説クラスを生かし,次元自由なサンプル複雑性境界を持つ学習者の設計につながる。 次に,線形システムのスイッチング制御について考察し,各候補モデルに候補コントローラが存在する場合と,潜在的に不安定なコントローラの集合との相互作用を通じてデータを収集する。 我々は、これらの不安定化コントローラを有限時間で検出できる次元依存的基準を開発する。 これらの結果を活用することで,基礎となるシステムの未知パラメータを識別するデータ駆動型スイッチング戦略を提案する。 次に、その性能の漸近的でない解析を行い、推定器に基づく監督制御の古典的方法にその影響について論じる。

The focus of this paper is on linear system identification in the setting where it is known that the underlying partially-observed linear dynamical system lies within a finite collection of known candidate models. We first consider the problem of identification from a given trajectory, which in this setting reduces to identifying the index of the true model with high probability. We characterize the finite-time sample complexity of this problem by leveraging recent advances in the non-asymptotic analysis of linear least-square methods in the literature. In comparison to the earlier results that assume no prior knowledge of the system, our approach takes advantage of the smaller hypothesis class and leads to the design of a learner with a dimension-free sample complexity bound. Next, we consider the switching control of linear systems, where there is a candidate controller for each of the candidate models and data is collected through interaction of the system with a collection of potentially destabilizing controllers. We develop a dimension-dependent criterion that can detect those destabilizing controllers in finite time. By leveraging these results, we propose a data-driven switching strategy that identifies the unknown parameters of the underlying system. We then provide a non-asymptotic analysis of its performance and discuss its implications on the classical method of estimator-based supervisory control.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 軸対称スピン-(1/2, $S$)系における不協和型量子相関

Discord-type quantum correlations in axially symmetric spin-(1/2, $S$) systems ( http://arxiv.org/abs/2404.08124v1 )

ライセンス: Link先を確認
Saeed Haddadi, M. A. Yurischev, (参考訳) 任意のスピン$S$とU(1)軸対称を満たす相互作用を持つ混合スピン$(1/2, S)$系を考える。 局所量子不確実性(LQU)と局所量子フィッシャー情報(LQFI)のコンパクトな明示形式は、密度行列のエントリと固有値から直接得られる。 これらの形態を用いて、熱平衡系における不協和型量子相関 LQU と LQFI の比較研究を行う。 スピン長$S$の増加に伴う量子相関の増大が発見された。 さらに、システムが冷却されると、温度がスムーズに変化する間、量子相関が1つ以上の急激な遷移を経ることができることがわかった。

A mixed spin-$(1/2, S)$ system with arbitrary spin $S$ and interactions satisfying the U(1) axial symmetry is considered. Compact explicit forms of the local quantum uncertainty (LQU) and local quantum Fisher information (LQFI) are obtained directly through the entries and eigenvalues of the density matrix. Using these forms, we perform a comparative study of discord-type quantum correlations LQU and LQFI for the system at thermal equilibrium. An increase in quantum correlations with increasing spin length $S$ is discovered. Moreover, we find that as the system cools, quantum correlations can undergo one or more abrupt transitions while the temperature changes smoothly.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# LLMサマリーによるオークション

Auctions with LLM Summaries ( http://arxiv.org/abs/2404.08126v1 )

ライセンス: Link先を確認
Kumar Avinava Dubey, Zhe Feng, Rahul Kidambi, Aranyak Mehta, Di Wang, (参考訳) 本稿では,大規模言語モデル(LLM),eg,ディスプレイが複数の広告の要約段落である広告オークションによって生成された要約の中に,入札者がその内容の配置を入札するオークションについて検討する。 これにより、位置オークションのような古典的な広告設定をLCM生成設定に一般化し、一般的な表示形式を処理できる。 本稿では,オークションモジュールとLCMモジュールが協調して動作し,インセンティブに適合する形で要約出力を最大化する,新たな因子化フレームワークを提案する。 本稿では,この枠組みの理論的解析と合成実験を行い,福祉比較とともにシステムの実現可能性と妥当性を実証する。

We study an auction setting in which bidders bid for placement of their content within a summary generated by a large language model (LLM), e.g., an ad auction in which the display is a summary paragraph of multiple ads. This generalizes the classic ad settings such as position auctions to an LLM generated setting, which allows us to handle general display formats. We propose a novel factorized framework in which an auction module and an LLM module work together via a prediction model to provide welfare maximizing summary outputs in an incentive compatible manner. We provide a theoretical analysis of this framework and synthetic experiments to demonstrate the feasibility and validity of the system together with welfare comparisons.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 色一貫性の自己教師付き学習

Self-Supervised Learning of Color Constancy ( http://arxiv.org/abs/2404.08127v1 )

ライセンス: Link先を確認
Markus R. Ernst, Francisco M. López, Arthur Aubret, Roland W. Fleming, Jochen Triesch, (参考訳) 色安定度 (CC) は、照明条件の変化にもかかわらず、物体が比較的一定の色を持つと知覚する視覚系の能力を記述している。 CCとその限界はヒトで慎重に特徴づけられているが、視覚系が発達中にどのようにしてこの能力を獲得するかは未だ分かっていない。 本稿では, CCが分散学習の目的を通じて, 自己教師型で訓練されたニューラルネットワークで発達することを示す最初の研究について述べる。 学習中、オブジェクトは変化した照度の下で表示され、ネットワークは、同じオブジェクトのその後のビューを近接した潜在表現にマッピングすることを目的としている。 これにより、照明条件にほとんど不変な表現が生まれ、自己教師型学習という形で、人間の認知発達中にCCがどのように現れるかを示すもっともらしい例が提示される。

Color constancy (CC) describes the ability of the visual system to perceive an object as having a relatively constant color despite changes in lighting conditions. While CC and its limitations have been carefully characterized in humans, it is still unclear how the visual system acquires this ability during development. Here, we present a first study showing that CC develops in a neural network trained in a self-supervised manner through an invariance learning objective. During learning, objects are presented under changing illuminations, while the network aims to map subsequent views of the same object onto close-by latent representations. This gives rise to representations that are largely invariant to the illumination conditions, offering a plausible example of how CC could emerge during human cognitive development via a form of self-supervised learning.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# ニューラルネットワークのフレーム量子化

Frame Quantization of Neural Networks ( http://arxiv.org/abs/2404.08131v1 )

ライセンス: Link先を確認
Wojciech Czaja, Sanghoon Na, (参考訳) 本稿では,フレーム理論から派生したアイデアに依拠した誤差推定を伴う学習後量子化アルゴリズムを提案する。 具体的には、有限単位ノルムのタイトフレームに対して一階Sigma-Delta$\Sigma\Delta$)量子化を用いて、ニューラルネットワーク内の重み行列とバイアスを定量化する。 このシナリオでは、ステップサイズとフレーム要素数の観点から、元のニューラルネットワークと量子化されたニューラルネットワークとの間の誤差を導出する。 また、フレームの冗長性を利用して量子化されたニューラルネットワークを高精度に実現する方法を実証する。

We present a post-training quantization algorithm with error estimates relying on ideas originating from frame theory. Specifically, we use first-order Sigma-Delta ($\Sigma\Delta$) quantization for finite unit-norm tight frames to quantize weight matrices and biases in a neural network. In our scenario, we derive an error bound between the original neural network and the quantized neural network in terms of step size and the number of frame elements. We also demonstrate how to leverage the redundancy of frames to achieve a quantized neural network with higher accuracy.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# ColBERT-Xの翻訳トレインをアフリカ語CLIRに拡張する

Extending Translate-Train for ColBERT-X to African Language CLIR ( http://arxiv.org/abs/2404.08134v1 )

ライセンス: Link先を確認
Eugene Yang, Dawn J. Lawrie, Paul McNamee, James Mayfield, (参考訳) 本稿では、FIRE 2023におけるアフリカ言語のためのCIRAL CLIRタスクにおけるHLTCOEチームからの提出状況について述べる。 提案手法では,機械翻訳モデルを用いて文書とトレーニングパスを翻訳し,ColBERT-Xを検索モデルとした。 また、同様のトレーニング設定の代替トレーニング手順を用いた非公式ランニングのセットも提示する。

This paper describes the submission runs from the HLTCOE team at the CIRAL CLIR tasks for African languages at FIRE 2023. Our submissions use machine translation models to translate the documents and the training passages, and ColBERT-X as the retrieval model. Additionally, we present a set of unofficial runs that use an alternative training procedure with a similar training setting.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# SciFlow: 自己クリーニングを繰り返した軽量光フローモデル

SciFlow: Empowering Lightweight Optical Flow Models with Self-Cleaning Iterations ( http://arxiv.org/abs/2404.08135v1 )

ライセンス: Link先を確認
Jamie Menjay Lin, Jisoo Jeong, Hong Cai, Risheek Garrepalli, Kai Wang, Fatih Porikli, (参考訳) 光フロー推定は様々な視覚タスクに不可欠である。 近年の進歩にもかかわらず、リアルタイムのオンデバイス光フロー推定を実現することは複雑な課題である。 第一に、光学フローモデルは、デバイス上でのリアルタイムパフォーマンスを保証するために、計算とメモリの制約を満たすのに十分軽量でなければならない。 第二に、リアルタイムオンデバイス操作の必要性は、フロー推定におけるあいまいさを適切に扱うためにモデルの能力を弱める制約を課し、フロー精度の保存が困難になる。 本稿では,光フローモデルの性能向上を目的として,SCI(Self-Cleaning Iteration)とRFL(Regression Focal Loss)の2つの相乗的手法を紹介する。 これらの手法は、反復洗練された光学流モデルにおいて、誤差伝播の緩和に特に有効であることが証明されている。 特に、これらのテクニックはモデルパラメータと推論遅延のオーバーヘッドをゼロにすることで、デバイス上でリアルタイムな効率を維持する。 今回提案したSCIおよびRFL技術の有効性は,2つの異なる光フローモデルアーキテクチャで実証された。 注目すべきなのは、SciFlowはベースラインモデル上のエラーメトリクス(EPEとFl-all)を、ドメイン内シナリオで最大6.3%と10.5%、SintelとKITTI 2015データセットで最大6.2%と13.5%削減できることだ。

Optical flow estimation is crucial to a variety of vision tasks. Despite substantial recent advancements, achieving real-time on-device optical flow estimation remains a complex challenge. First, an optical flow model must be sufficiently lightweight to meet computation and memory constraints to ensure real-time performance on devices. Second, the necessity for real-time on-device operation imposes constraints that weaken the model's capacity to adequately handle ambiguities in flow estimation, thereby intensifying the difficulty of preserving flow accuracy. This paper introduces two synergistic techniques, Self-Cleaning Iteration (SCI) and Regression Focal Loss (RFL), designed to enhance the capabilities of optical flow models, with a focus on addressing optical flow regression ambiguities. These techniques prove particularly effective in mitigating error propagation, a prevalent issue in optical flow models that employ iterative refinement. Notably, these techniques add negligible to zero overhead in model parameters and inference latency, thereby preserving real-time on-device efficiency. The effectiveness of our proposed SCI and RFL techniques, collectively referred to as SciFlow for brevity, is demonstrated across two distinct lightweight optical flow model architectures in our experiments. Remarkably, SciFlow enables substantial reduction in error metrics (EPE and Fl-all) over the baseline models by up to 6.3% and 10.5% for in-domain scenarios and by up to 6.2% and 13.5% for cross-domain scenarios on the Sintel and KITTI 2015 datasets, respectively.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 指数重み付き移動モデル

Exponentially Weighted Moving Models ( http://arxiv.org/abs/2404.08136v1 )

ライセンス: Link先を確認
Eric Luxenberg, Stephen Boyd, (参考訳) ベクトル時系列に対する指数重み付き移動モデル(EWMM)は、過去の観測データに対する指数重み付き損失関数に基づいて、時間毎に新しいデータモデルに適合する。 指数重み付き移動平均(EWMA)は、平方損失関数を用いて平均を推定する特殊なケースである。 二次損失関数に対して、EWMMは2次関数のパラメータを更新する単純な再帰を用いて適合することができる。 他の損失関数の場合、過去の履歴全体が保存されなければならない。 本稿では,過去のサンプルの固定数のウィンドウのみを格納するEWMMの近似計算法を提案する。 この近似EWMMは凸最適化に依存し、時間とともに成長しない問題を解く。 近似から得られた推定値と正確なEWMM法による推定値を比較する。

An exponentially weighted moving model (EWMM) for a vector time series fits a new data model each time period, based on an exponentially fading loss function on past observed data. The well known and widely used exponentially weighted moving average (EWMA) is a special case that estimates the mean using a square loss function. For quadratic loss functions EWMMs can be fit using a simple recursion that updates the parameters of a quadratic function. For other loss functions, the entire past history must be stored, and the fitting problem grows in size as time increases. We propose a general method for computing an approximation of EWMM, which requires storing only a window of a fixed number of past samples, and uses an additional quadratic term to approximate the loss associated with the data before the window. This approximate EWMM relies on convex optimization, and solves problems that do not grow with time. We compare the estimates produced by our approximation with the estimates from the exact EWMM method.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# LLMエージェントは1日の脆弱性を自律的に発破できる

LLM Agents can Autonomously Exploit One-day Vulnerabilities ( http://arxiv.org/abs/2404.08144v1 )

ライセンス: Link先を確認
Richard Fang, Rohan Bindu, Akul Gupta, Daniel Kang, (参考訳) LLMは、良心と悪意のある使用の両方において、ますます強力になっています。 能力の増大に伴い、研究者はサイバーセキュリティの脆弱性を悪用する能力にますます関心を寄せている。 特に、最近の研究は、LLMエージェントがウェブサイトを自律的にハックする能力について予備的な研究を行っている。 しかし、これらの研究は単純な脆弱性に限定されている。 本研究では,LLMエージェントが実世界のシステムにおいて,1日の脆弱性を自律的に悪用できることを示す。 これを示すために、私たちは、CVE記述の致命的な重大度に分類される脆弱性を含む、1日15の脆弱性のデータセットを収集しました。 CVEの説明を踏まえると、GPT-4は、テスト対象の他のモデル(GPT-3.5、オープンソースLLM)とオープンソースの脆弱性スキャナ(ZAP、Metasploit)の0%と比較して、これらの脆弱性の87%を活用できる。 幸いなことに、当社のGPT-4エージェントは、高性能のためにCVE記述を必要とする。 以上の結果から,高能率LLMエージェントの広範な展開に関する疑問が浮かび上がっている。

LLMs have becoming increasingly powerful, both in their benign and malicious uses. With the increase in capabilities, researchers have been increasingly interested in their ability to exploit cybersecurity vulnerabilities. In particular, recent work has conducted preliminary studies on the ability of LLM agents to autonomously hack websites. However, these studies are limited to simple vulnerabilities. In this work, we show that LLM agents can autonomously exploit one-day vulnerabilities in real-world systems. To show this, we collected a dataset of 15 one-day vulnerabilities that include ones categorized as critical severity in the CVE description. When given the CVE description, GPT-4 is capable of exploiting 87% of these vulnerabilities compared to 0% for every other model we test (GPT-3.5, open-source LLMs) and open-source vulnerability scanners (ZAP and Metasploit). Fortunately, our GPT-4 agent requires the CVE description for high performance: without the description, GPT-4 can exploit only 7% of the vulnerabilities. Our findings raise questions around the widespread deployment of highly capable LLM agents.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# LinguaQuanta: OpenQASMとQuipperの間の量子トランスパイラを目指して(拡張)

LinguaQuanta: Towards a Quantum Transpiler Between OpenQASM and Quipper (Extended) ( http://arxiv.org/abs/2404.08147v1 )

ライセンス: Link先を確認
Scott Wesley, (参考訳) 量子コンピューティングが進化するにつれて、量子プログラムの表現方法や、量子プログラム分析ツール間の相互運用性を促進する方法など、多くの重要な疑問が浮かび上がってくる。 これらの疑問は、量子プログラミング言語間で翻訳される量子トランスパイラの設計において自然に生じる。 本稿では,量子トランスパイラ設計における課題とベストプラクティスを特定することによって,これらの疑問に答えるための一歩を踏み出した。 これらの推奨は、QuipperとOpenQASMの間の量子トランスパイラであるLinguaQuantaの設計経験に基づいています。 まず、UNIX哲学の中核となる原理をカプセル化することを目的とした量子トランスパイラのカテゴリ仕様を提供する。 次に量子回路分解を同定し、量子トランスパイレーションに有用であると期待する。 これらの基盤を整備し,LinguaQuantaの実装において直面する課題,例えばアンシラ管理やラウンド翻訳時の安定性について議論する。 LinguaQuantaが実際に動作することを示すために、量子位相推定の例に短いチュートリアルが与えられる。 我々は、LinguaQuantaの将来と、量子ソフトウェア開発ツールをより広く推奨することで締めくくります。

As quantum computing evolves, many important questions emerge, such as how best to represent quantum programs, and how to promote interoperability between quantum program analysis tools. These questions arise naturally in the design of quantum transpilers, which translate between quantum programming languages. In this paper, we take a step towards answering these questions by identifying challenges and best practices in quantum transpiler design. We base these recommendations on our experience designing LinguaQuanta, a quantum transpiler between Quipper and OpenQASM. First, we provide categorical specifications for quantum transpilers, which aim to encapsulate the core principles of the UNIX philosophy. We then identify quantum circuit decompositions which we expect to be useful in quantum transpilation. With these foundations in place, we then discuss challenges faced during the implementation of LinguaQuanta, such as ancilla management and stability under round translation. To show that LinguaQuanta works in practice, a short tutorial is given for the example of quantum phase estimation. We conclude with recommendations for the future of LinguaQuanta, and for quantum software development tools more broadly.
翻訳日:2024-04-15 16:24:45 公開日:2024-04-11
# 説明解プログラムによるLCMからの蒸留アルゴリズム推論

Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs ( http://arxiv.org/abs/2404.08148v1 )

ライセンス: Link先を確認
Jierui Li, Raymond Mooney, (参考訳) 大規模言語モデル (LLM) の推論能力を改善する効果的な方法として, 明示的な思考の連鎖的推論パスが出現している。 しかし、最先端のモデルに重大な課題をもたらす複雑なタスクに取り組む場合、この手法はしばしば正しい答えにつながる効果的な思考の連鎖を生成するのに苦労する。 本研究では, LLMから推論能力を抽出する手法を提案する。 競合レベルのプログラミング課題の解決に本手法を適用した。 より具体的には,<problem, solution- program> ペアのセットの説明を生成するために LLM を使用し,<problem, explain> ペアを使用してより小さな言語モデルを微調整し,Reasoner と呼ぶアルゴリズム推論を学習し,未知の問題に対して "how-to-solve" ヒントを生成する。 提案実験は,Reasonerによる説明からの学習により,Coderによるプログラム実装をより効果的にガイドできることを示す。 また、<problem, solution- program> ペアから直接学習するモデルよりも優れています。 私たちは、CodeContestsフォーマットで追加のテストセットをキュレートしました。

Distilling explicit chain-of-thought reasoning paths has emerged as an effective method for improving the reasoning abilities of large language models (LLMs) across various tasks. However, when tackling complex tasks that pose significant challenges for state-of-the-art models, this technique often struggles to produce effective chains of thought that lead to correct answers. In this work, we propose a novel approach to distill reasoning abilities from LLMs by leveraging their capacity to explain solutions. We apply our method to solving competitive-level programming challenges. More specifically, we employ an LLM to generate explanations for a set of <problem, solution-program> pairs, then use <problem, explanation> pairs to fine-tune a smaller language model, which we refer to as the Reasoner, to learn algorithmic reasoning that can generate "how-to-solve" hints for unseen problems. Our experiments demonstrate that learning from explanations enables the Reasoner to more effectively guide program implementation by a Coder, resulting in higher solve rates than strong chain-of-thought baselines on competitive-level programming problems. It also outperforms models that learn directly from <problem, solution-program> pairs. We curated an additional test set in the CodeContests format, which includes 246 more recent problems posted after the models' knowledge cutoff.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 新興アプリケーションをサポートするブロックチェーンベースの管理を備えたマルチクラウド上の分散FaaS

Decentralized FaaS over Multi-Clouds with Blockchain based Management for Supporting Emerging Applications ( http://arxiv.org/abs/2404.08151v1 )

ライセンス: Link先を確認
Rabimba Karanjai, Lei Xu, Lin Chen, Nour Diallo, Weidong Shi, (参考訳) ファンクション・アズ・ア・サービス(FaaS)は、合理化されたクラウドコンピューティングパラダイムを提供するが、既存の集中型システムはベンダーのロックインと単一障害点に悩まされている。 ブロックチェーン技術と分散API管理を活用した分散FaaSシステムであるDeFaaSを提案する。 DeFaaSは、ブロックチェーン上の関数のセキュアで透明なレジストリを確立し、アプリケーションがそれらの検出と呼び出しを可能にすることで、これらの制限に対処する。 このアプローチはスケーラビリティ、柔軟性、セキュリティの強化、信頼性の向上を促進する。 さらに、DeFaaSのアーキテクチャは分散FaaSを超えて、dAppsやボランティアコンピューティング、マルチクラウドサービスメッシュといった他の分散コンピューティングシナリオをサポートする。 DeFaaSは、多数の新しいアプリケーションとユースケースをアンロックする可能性を持つ分散コンピューティングにおいて、大きな進歩を示している。

Function-as-a-Service (FaaS) offers a streamlined cloud computing paradigm, but existing centralized systems suffer from vendor lock-in and single points of failure. We propose DeFaaS, a decentralized FaaS system leveraging blockchain technology and decentralized API management. DeFaaS addresses these limitations by establishing a secure, transparent registry of functions on a blockchain and enabling applications to discover and invoke them. This approach fosters scalability, flexibility, enhanced security, and improved reliability. Furthermore, DeFaaS's architecture extends beyond decentralized FaaS, supporting other distributed computing scenarios like dApps, volunteer computing, and multi-cloud service meshes. DeFaaS represents a significant advancement in decentralized computing with the potential to unlock a multitude of novel applications and use cases.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 異常逆転型正則化による破折性オーバーフィッティングの除去

Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization ( http://arxiv.org/abs/2404.08154v1 )

ライセンス: Link先を確認
Runqi Lin, Chaojian Yu, Tongliang Liu, (参考訳) SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。 しかし、SSATは破滅的なオーバーフィッティング(CO)に悩まされており、これは重度に歪んだ分類器に繋がる現象であり、多段階の敵攻撃に対して脆弱である。 そこで本研究では,SSATトレーニングネットワーク上で発生した逆数例は異常な振る舞いを示し,これらのトレーニングサンプルは内部最大化プロセスによって生成されるが,それに伴う損失は減少し,異常逆数例 (AAE) と命名した。 さらに分析した結果,AAE の数と出力は CO の開始と大きく異なるため,AAE と分類器歪みの密接な関係が明らかとなった。 この観察から, SSAT プロセスを再検討し, CO の出現前には, AAE がほとんどないことから, 分類器はわずかに歪みを示していた。 さらに、これらのAEを直接最適化する分類器は歪みを加速し、その結果、AEの変動が急激に増加する。 このような悪循環では、分類器は急速に歪んでいき、数回の反復でCOとして現れる。 これらの観察は、AAEの発生を妨げることでCOを除去する動機となる。 具体的には、AAEの変動を明示的に規則化し、分類器が歪むのを防ぐ新しい手法、AER(Abnormal Adversarial Examples Regularization)を設計する。 大規模実験により,COを効果的に除去し,さらに計算オーバーヘッドを無視して逆方向の堅牢性を高めることができることが示された。

Single-step adversarial training (SSAT) has demonstrated the potential to achieve both efficiency and robustness. However, SSAT suffers from catastrophic overfitting (CO), a phenomenon that leads to a severely distorted classifier, making it vulnerable to multi-step adversarial attacks. In this work, we observe that some adversarial examples generated on the SSAT-trained network exhibit anomalous behaviour, that is, although these training samples are generated by the inner maximization process, their associated loss decreases instead, which we named abnormal adversarial examples (AAEs). Upon further analysis, we discover a close relationship between AAEs and classifier distortion, as both the number and outputs of AAEs undergo a significant variation with the onset of CO. Given this observation, we re-examine the SSAT process and uncover that before the occurrence of CO, the classifier already displayed a slight distortion, indicated by the presence of few AAEs. Furthermore, the classifier directly optimizing these AAEs will accelerate its distortion, and correspondingly, the variation of AAEs will sharply increase as a result. In such a vicious circle, the classifier rapidly becomes highly distorted and manifests as CO within a few iterations. These observations motivate us to eliminate CO by hindering the generation of AAEs. Specifically, we design a novel method, termed Abnormal Adversarial Examples Regularization (AAER), which explicitly regularizes the variation of AAEs to hinder the classifier from becoming distorted. Extensive experiments demonstrate that our method can effectively eliminate CO and further boost adversarial robustness with negligible additional computational overhead.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 複合通話における次の行動予測のためのグラフ統合言語変換器

Graph Integrated Language Transformers for Next Action Prediction in Complex Phone Calls ( http://arxiv.org/abs/2404.08155v1 )

ライセンス: Link先を確認
Amin Hosseiny Marani, Ulie Schnaithmann, Youngseo Son, Akil Iyer, Manas Paldhe, Arushi Raghuvanshi, (参考訳) 現在の会話型AIシステムは、次のアクションを予測するために、外部知識ソースやビジネスロジックと同様に、さまざまな機械学習パイプラインを使用している。 対話マネージャのパイプラインにおけるさまざまなコンポーネントのメンテナンスは、拡張と更新の複雑さを増し、処理時間を増やし、パイプラインを通じて付加的なノイズを引き起こし、誤った次のアクション予測につながる可能性がある。 本稿では, 言語変換器へのグラフ統合について検討し, 外部ソースやコンポーネントに依存することなく, 人間の発話, 先行動作, 次動作の関連性を理解する。 実呼に対する実験分析により,提案したグラフ統合言語トランスフォーマーモデルは,実環境におけるユーザとの対話的な通話を駆動する他の生産レベルの会話型AIシステムと比較して高い性能を実現することができることが示された。

Current Conversational AI systems employ different machine learning pipelines, as well as external knowledge sources and business logic to predict the next action. Maintaining various components in dialogue managers' pipeline adds complexity in expansion and updates, increases processing time, and causes additive noise through the pipeline that can lead to incorrect next action prediction. This paper investigates graph integration into language transformers to improve understanding the relationships between humans' utterances, previous, and next actions without the dependency on external sources or components. Experimental analyses on real calls indicate that the proposed Graph Integrated Language Transformer models can achieve higher performance compared to other production level conversational AI systems in driving interactive calls with human users in real-world settings.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 対話型AIモデルのマルチモーダル対話分解検出

Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models ( http://arxiv.org/abs/2404.08156v1 )

ライセンス: Link先を確認
Md Messal Monem Miah, Ulie Schnaithmann, Arushi Raghuvanshi, Youngseo Son, (参考訳) 対話型AIシステムでは,会話のブレークダウンをリアルタイムで検出することが重要である。 音声対話システムでは、この分解は、バックグラウンドノイズのレベルが高く、STTの誤書きや予期せぬユーザフローを引き起こすなど、様々な予期せぬ状況によって引き起こされる可能性がある。 特に、医療のような業界設定では、会話履歴と対話状態に基づいて異なるナビゲートを行うには、高精度で高い柔軟性が必要である。 これにより、ダイアログの分解を正確に検出することがより難しく、より重要になります。 ブレークダウンを正確に検出するためには,音声入力と,書き起こされたテキストの下流NLPモデル推論をリアルタイムに処理する必要があることがわかった。 本稿では,マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを提案する。 このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。

Detecting dialogue breakdown in real time is critical for conversational AI systems, because it enables taking corrective action to successfully complete a task. In spoken dialog systems, this breakdown can be caused by a variety of unexpected situations including high levels of background noise, causing STT mistranscriptions, or unexpected user flows. In particular, industry settings like healthcare, require high precision and high flexibility to navigate differently based on the conversation history and dialogue states. This makes it both more challenging and more critical to accurately detect dialog breakdown. To accurately detect breakdown, we found it requires processing audio inputs along with downstream NLP model inferences on transcribed text in real time. In this paper, we introduce a Multimodal Contextual Dialogue Breakdown (MultConDB) model. This model significantly outperforms other known best models by achieving an F1 of 69.27.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 学習のための対話型証明の力について

On the Power of Interactive Proofs for Learning ( http://arxiv.org/abs/2404.08158v1 )

ライセンス: Link先を確認
Tom Gur, Mohammad Mahdi Jahanara, Mohammad Mahdi Khodabandeh, Ninad Rajgopal, Bahar Salamatian, Igor Shinkar, (参考訳) 本研究は,2倍効率のPAC学習検証システムの研究を継続し,以下の結果を得た。 任意の関数$f \colon \{0,1\}^n \to \{0,1\}$を任意の小さなエラーまで学習するための対話的プロトコルを構築し、検証者は$\mathsf{poly}(t)$ランダムな例を使用する。 これは、Goldwasser, Rothblum, Shafer, and Yehudayoff (ITCS 2021) の対話型 Goldreich-Levin プロトコルにより改善され、サンプル複雑性は$\mathsf{poly}(t,n)$である。 - 均一分布の下でクラス $\mathsf{AC}^0[2]$ を不可知的に学習するために、Carmosino, Impagliazzo, Kabanets, and Kolokolova (APPROX/RANDOM 2017) の作業に基づいて対話的プロトコルを設計し、関数 $f \colon \{0,1\}^n \to \{0,1\}$ が与えられたとき、検証者は、準ポノミカルに多くのランダムな例を用いて、最も近い仮説を$\mathsf{polylog}(n)$乗法係数で学習する。 対照的に、このクラスは、ランダムな例を使って現実的な学習者(証明者なしで)を構築することさえも、悪名高い。 -一様分布の下で$k$-juntasを不可知的に学習するために、我々は対話的プロトコルを得る。そこで検証者は与えられた関数$f \colon \{0,1\}^n \to \{0,1\}$に対して$O(2^k)$ランダム例を使用する。 重要なことに、検証器のサンプルの複雑さは$n$とは独立である。 また、二重効率証明系を主張しないならば、モデルは自明になることを示す。 具体的には、任意のクラス $\mathcal{C}$ の Boolean 関数のプロトコルを配布不要の設定で示し、検証者は$O(1)$ ラベル付き例を使って$f$ を学ぶ。

We continue the study of doubly-efficient proof systems for verifying agnostic PAC learning, for which we obtain the following results. - We construct an interactive protocol for learning the $t$ largest Fourier characters of a given function $f \colon \{0,1\}^n \to \{0,1\}$ up to an arbitrarily small error, wherein the verifier uses $\mathsf{poly}(t)$ random examples. This improves upon the Interactive Goldreich-Levin protocol of Goldwasser, Rothblum, Shafer, and Yehudayoff (ITCS 2021) whose sample complexity is $\mathsf{poly}(t,n)$. - For agnostically learning the class $\mathsf{AC}^0[2]$ under the uniform distribution, we build on the work of Carmosino, Impagliazzo, Kabanets, and Kolokolova (APPROX/RANDOM 2017) and design an interactive protocol, where given a function $f \colon \{0,1\}^n \to \{0,1\}$, the verifier learns the closest hypothesis up to $\mathsf{polylog}(n)$ multiplicative factor, using quasi-polynomially many random examples. In contrast, this class has been notoriously resistant even for constructing realisable learners (without a prover) using random examples. - For agnostically learning $k$-juntas under the uniform distribution, we obtain an interactive protocol, where the verifier uses $O(2^k)$ random examples to a given function $f \colon \{0,1\}^n \to \{0,1\}$. Crucially, the sample complexity of the verifier is independent of $n$. We also show that if we do not insist on doubly-efficient proof systems, then the model becomes trivial. Specifically, we show a protocol for an arbitrary class $\mathcal{C}$ of Boolean functions in the distribution-free setting, where the verifier uses $O(1)$ labeled examples to learn $f$.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# 超高信頼性低レイテンシ通信のセキュリティに関する調査研究:最近の進歩,課題,今後の方向性

A Survey on Security of Ultra/Hyper Reliable Low Latency Communication: Recent Advancements, Challenges, and Future Directions ( http://arxiv.org/abs/2404.08160v1 )

ライセンス: Link先を確認
Annapurna Pradhan, Susmita Das, Md. Jalil Piran, Zhu Han, (参考訳) 超信頼性低遅延通信(URLLC)は、第5世代(5G)無線システムによって提供される革新的なサービスである。 URLLCは、信頼性と低レイテンシのシグナル伝達を容易にし、極端なQuality of Service(QoS)要求をサポートすることで、様々なミッションクリティカルなアプリケーションを可能にします。 信頼性とレイテンシの他に、URLLCのセキュアなデータ伝送は近年、研究者にとって大きな問題となっている。 有限ブロック長信号を用いてURLLCの厳密な信頼性とレイテンシの基準を達成することで、秘密鍵のエンコーディングと復号化に基づく、従来の複雑な暗号化セキュリティ強化技術が不要になる。 このように、軽量セキュリティ機構の開発は、URLLCにとって最重要事項である。 近年,Physical-Layer Security(PLS)技術は,無線チャネルのランダム性を利用してセキュアなURLLCを実現するための,複雑な暗号ベースのセキュリティアプローチの強力な代替手段として出現している。 そこで本研究では, 各種システム設計パラメータが性能に与える影響を解析しながら, セキュアなURLLCを解き放つために利用した最先端のPSS拡張について, 包括的かつ詳細なレビューを行う。 さらに、ミッションクリティカルなアプリケーションにおけるPLSを用いたセキュアなURLLCの確保に関する最近の進歩や、非直交多重アクセス(NOMA)、マルチアンテナシステム、無人航空機(UAV)を用いた協調通信、インテリジェント反射面(IRS)などの技術を可能にする5G URLLCの詳細な概要も紹介している。 これとは別に、URLLCサービスのための堅牢でインテリジェントなPLSスキームの設計において、高度な機械学習(ML)技術が果たす役割を概説する。

Ultra-reliable low latency communication (URLLC) is an innovative service offered by fifth-generation (5G) wireless systems. URLLC enables various mission-critical applications by facilitating reliable and low-latency signal transmission to support extreme Quality of Service (QoS) requirements. Apart from reliability and latency, ensuring secure data transmission for URLLC has been a prominent issue for researchers in recent years. Using finite blocklength signals to achieve the stringent reliability and latency criteria in URLLC eliminates the possibility of using conventional complex cryptographic security enhancement techniques based on encoding and decoding of secret keys. Thus, the development of lightweight security mechanisms is of paramount importance for URLLC. Recently, Physical-Layer Security (PLS) techniques have emerged as a powerful alternative to the complex cryptography-based security approaches for facilitating secure URLLC by exploiting the randomness of the wireless channel. Therefore, in this survey, we present a comprehensive and in-depth review of the state-of-the-art PLS enhancements utilized to unleash secure URLLC while analyzing the impact of various system design parameters on its performance. Moreover, the survey incorporates a detailed overview of the recent advancements in ensuring secure URLLC using PLS in various mission-critical applications, and 5G URLLC enabling technologies like non-orthogonal multiple access (NOMA), multi-antenna systems, cooperative communication using unmanned aerial vehicles (UAV), and intelligent reflective surfaces (IRS). Apart from this, we briefly discuss the role of advanced Machine Learning (ML) techniques in designing robust and intelligent PLS schemes for URLLC service.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# R2インジケータと深層強化学習による適応型多目的進化アルゴリズム

R2 Indicator and Deep Reinforcement Learning Enhanced Adaptive Multi-Objective Evolutionary Algorithm ( http://arxiv.org/abs/2404.08161v1 )

ライセンス: Link先を確認
Farajollah Tahernezhad-Javazm, Farajollah Tahernezhad-Javazm, Naomi Du Bois, Alice E. Smith, Damien Coyle, (参考訳) 最適化アルゴリズムの選択は、最適化課題の成功に不可欠である。 ここでは、これらの問題に対処するための強化学習に基づくエージェントを利用する、新しい進化的アルゴリズム構造を提案する。 エージェントは、最適化中に環境から受けるフィードバックに基づいて、特定の進化演算子を選択するために、二重深度q-ネットワークを使用する。 このアルゴリズムの構造は、5つの単目的進化的アルゴリズム演算子を含む。 この単目的構造は、R2インジケータを用いて多目的構造に変換される。 このインジケータは、まず、アルゴリズムを多目的にレンダリングし、次に、各世代における各アルゴリズムの性能を評価し、強化学習に基づく報酬関数の構築を容易にする手段を提供する。 提案したR2強化学習多目的進化アルゴリズム(R2-RLMOEA)は,R2指標に基づく他の6つの多目的アルゴリズムと比較する。 これら6つのアルゴリズムには、R2-RLMOEAで使用される演算子と、最適化中の演算子をランダムに選択するR2インジケータベースのアルゴリズムが含まれる。 CEC09関数を逆生成距離と間隔で測定し,性能をベンチマークした。 R2-RLMOEAアルゴリズムは他のアルゴリズムよりも高い統計的重要性(p<0.001)を持つ。

Choosing an appropriate optimization algorithm is essential to achieving success in optimization challenges. Here we present a new evolutionary algorithm structure that utilizes a reinforcement learning-based agent aimed at addressing these issues. The agent employs a double deep q-network to choose a specific evolutionary operator based on feedback it receives from the environment during optimization. The algorithm's structure contains five single-objective evolutionary algorithm operators. This single-objective structure is transformed into a multi-objective one using the R2 indicator. This indicator serves two purposes within our structure: first, it renders the algorithm multi-objective, and second, provides a means to evaluate each algorithm's performance in each generation to facilitate constructing the reinforcement learning-based reward function. The proposed R2-reinforcement learning multi-objective evolutionary algorithm (R2-RLMOEA) is compared with six other multi-objective algorithms that are based on R2 indicators. These six algorithms include the operators used in R2-RLMOEA as well as an R2 indicator-based algorithm that randomly selects operators during optimization. We benchmark performance using the CEC09 functions, with performance measured by inverted generational distance and spacing. The R2-RLMOEA algorithm outperforms all other algorithms with strong statistical significance (p<0.001) when compared with the average spacing metric across all ten benchmarks.
翻訳日:2024-04-15 16:15:01 公開日:2024-04-11
# RULER: 長期言語モデルの実際のコンテキストサイズは?

RULER: What's the Real Context Size of Your Long-Context Language Models? ( http://arxiv.org/abs/2404.06654v2 )

ライセンス: Link先を確認
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, Boris Ginsburg, (参考訳) 長文テキスト(haystack)から情報片(needle)を検索する能力を調べるNIAHテスト(Needle-in-a-haystack)は、長文言語モデル(LM)を評価するために広く採用されている。 しかし、この単純な検索に基づくテストは、長文理解の表面的な形式を表わすだけである。 長文LMのより包括的評価を行うため,シーケンス長やタスクの複雑さをカスタマイズできるフレキシブルな構成の合成ベンチマークRULERを開発した。 RULER はバニラ NIAH テストに拡張され、様々な種類の針と量を含む。 さらに、RULERは、コンテキストからの検索以上の振る舞いをテストするために、新しいタスクカテゴリのマルチホップトレースとアグリゲーションを導入している。 我々はRULERにおける13のタスクからなる10の長文LMを評価した。 バニラNIAHテストでほぼ完全な精度を達成したにもかかわらず、コンテキスト長が増加するにつれて、全てのモデルは大きな性能低下を示す。 これらのモデルは全て32Kトークン以上のコンテキストサイズを主張するが、GPT-4、Command-R、Yi-34B、Mixtralの4モデルのみが32K長で満足な性能を維持することができる。 コンテクスト長200KのYi-34Bを解析した結果,入力長とタスクの複雑さが増大するにつれて,大きな改善の余地が明らかとなった。 我々はRULERをオープンソース化し、Long-context LMの包括的な評価を促進する。

The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.
翻訳日:2024-04-15 12:17:41 公開日:2024-04-11
# 局所集約がなぜ役立つのか:階層型SGDの収束解析

Demystifying Why Local Aggregation Helps: Convergence Analysis of Hierarchical SGD ( http://arxiv.org/abs/2010.12998v4 )

ライセンス: Link先を確認
Jiayi Wang, Shiqiang Wang, Rong-Rong Chen, Mingyue Ji, (参考訳) 階層型SGD(H-SGD)は,マルチレベル通信ネットワークのための分散SGDアルゴリズムとして登場した。 H-SGDでは、各グローバルアグリゲーションの前に、ワーカが更新されたローカルモデルをローカルサーバに送信してアグリゲーションを行う。 近年の研究努力にもかかわらず、グローバル収束に対する局所的な集合の影響は理論的な理解を欠いている。 そこで本研究では,まず「上向き」と「下向き」という新たな概念を導入する。 次に,非IIDデータ,非凸目的関数,確率勾配を持つ2レベルH-SGDの最悪の収束上限を求めるために,新たな解析を行う。 この結果をランダムなグループ化の場合に拡張することにより、H-SGDの収束上限は、H-SGDの局所更新期間とグローバル更新期間の局所反復回数の2つの単一レベルローカルSGD設定の上界の間にあることが分かる。 これを「サンドウィッチ・ビヘイビア」と呼ぶ。 さらに,2段階以上のH-SGDの一般症例において,「逆」および「下」の発散に基づく解析的アプローチを拡張し,その「サンドウィッチの挙動」が保たれている場合の収束性について検討する。 以上の結果から,H-SGDの収束性向上に局所凝集が有効であることを示す。

Hierarchical SGD (H-SGD) has emerged as a new distributed SGD algorithm for multi-level communication networks. In H-SGD, before each global aggregation, workers send their updated local models to local servers for aggregations. Despite recent research efforts, the effect of local aggregation on global convergence still lacks theoretical understanding. In this work, we first introduce a new notion of "upward" and "downward" divergences. We then use it to conduct a novel analysis to obtain a worst-case convergence upper bound for two-level H-SGD with non-IID data, non-convex objective function, and stochastic gradient. By extending this result to the case with random grouping, we observe that this convergence upper bound of H-SGD is between the upper bounds of two single-level local SGD settings, with the number of local iterations equal to the local and global update periods in H-SGD, respectively. We refer to this as the "sandwich behavior". Furthermore, we extend our analytical approach based on "upward" and "downward" divergences to study the convergence for the general case of H-SGD with more than two levels, where the "sandwich behavior" still holds. Our theoretical results provide key insights of why local aggregation can be beneficial in improving the convergence of H-SGD.
翻訳日:2024-04-14 16:55:44 公開日:2024-04-11
# 知識追跡に関するサーベイ:モデル,変数,応用

A Survey of Knowledge Tracing: Models, Variants, and Applications ( http://arxiv.org/abs/2105.15106v4 )

ライセンス: Link先を確認
Shuanghong Shen, Qi Liu, Zhenya Huang, Yonghe Zheng, Minghao Yin, Minjuan Wang, Enhong Chen, (参考訳) 現代のオンライン教育は、大量の生徒の行動データを自動的に分析することによって、インテリジェントな教育サービスを提供する能力を持っている。 KT(Knowledge Tracing)は、学生の行動データ分析の基本課題の一つであり、問題解決過程において、生徒の進化する知識状態を監視することを目的としている。 近年、この急速に成長する分野にかなりの研究が集中しており、その進歩に大きく貢献している。 本調査では、これらの進捗状況を徹底的に調査する。 まず、異なる技術経路を持つ3種類の基本KTモデルを示す。 その後、より厳密な学習仮定を考慮した基本的KTモデルの広範な変種について検討する。 さらに、KTの開発をアプリケーションから切り離すことはできないため、様々なシナリオで典型的なKTアプリケーションを提示する。 この分野での研究者や実践者の作業を容易にするために、KT関連データセットのダウンロードと前処理を可能にするEduDataと、既存の主流KTモデルの拡張可能で統一された実装を提供するEduKTMという、2つのオープンソースアルゴリズムライブラリを開発した。 最後に、この急速に成長する分野における今後の研究の方向性について論じる。 今回の調査は、研究者と実践者の両方がKTの開発を奨励し、より広い範囲の学生に利益をもたらすことを願っている。

Modern online education has the capacity to provide intelligent educational services by automatically analyzing substantial amounts of student behavioral data. Knowledge Tracing (KT) is one of the fundamental tasks for student behavioral data analysis, aiming to monitor students' evolving knowledge state during their problem-solving process. In recent years, a substantial number of studies have concentrated on this rapidly growing field, significantly contributing to its advancements. In this survey, we will conduct a thorough investigation of these progressions. Firstly, we present three types of fundamental KT models with distinct technical routes. Subsequently, we review extensive variants of the fundamental KT models that consider more stringent learning assumptions. Moreover, the development of KT cannot be separated from its applications, thereby we present typical KT applications in various scenarios. To facilitate the work of researchers and practitioners in this field, we have developed two open-source algorithm libraries: EduData that enables the download and preprocessing of KT-related datasets, and EduKTM that provides an extensible and unified implementation of existing mainstream KT models. Finally, we discuss potential directions for future research in this rapidly growing field. We hope that the current survey will assist both researchers and practitioners in fostering the development of KT, thereby benefiting a broader range of students.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# メンタルヘルス評価のための拡張現実感 -スコープによる検討-

Extended Reality for Mental Health Evaluation -A Scoping Review ( http://arxiv.org/abs/2204.01348v2 )

ライセンス: Link先を確認
Omisore Olatunji, Ifeanyi Odenigbo, Joseph Orji, Amelia Beltran, Nilufar Baghaei, Meier Sandra, Rita Orji, (参考訳) メンタルヘルス障害は、世界中の健康問題の主要な原因である。 不安やうつ病の発生率が世界的に増加するにつれて、メンタルヘルス障害が成人の致命傷の主な原因になると予測されている。 近年、拡張現実(VR)、拡張現実(AR)、MR(Mixed Reality)を包括する一般用語である拡張現実(XR)が、メンタルヘルスの新たな道を開いた。 本稿では,精神疾患領域におけるXRの開発と応用に関するスコーピングレビューを行う。 我々は,Google Scholar,PubMed,およびACM Digital Libraryにインデックスされた関連研究を特定するために,スコーピングデータベース検索を行った。 2016年8月から2023年12月までの検索期間は、メンタルヘルスの文脈におけるVR、AR、MRの使用に関する記事を選択するために定義された。 全世界27カ国で計85件の調査を行った。 データ分析を行うことで、米国(16.47%)やドイツ(12.94%)といった先進国に焦点を当てた研究の大半が明らかになった。 いずれの研究もアフリカ諸国には及ばなかった。 論文の大半は、XR技術が不安や抑うつの症状を著しく減少させたと報告している。 2021年、31.76%(n = 31)という研究結果が発表された。 これは、新型コロナウイルス(COVID-19)が出現したとき、精神障害の介入に注目が集まることを意味している。 ほとんどの研究 (n = 65) は18歳から65歳までの人口に焦点を当て、わずかに10代を対象にした研究 (n = 2) しかなかった。 また、分析的手法やモデリング手法(n = 8, 9.41%)よりも実験的に(n = 67, 78.82%)多くの研究が行われた。 このことは、精神医療のためのXR技術が急速に発達していることを示している。 さらに, これらの研究により, XR技術は, 従来のアプローチと同様に, より優れた精神障害評価に有効であることが示唆された。

Mental health disorders are the leading cause of health-related problems globally. It is projected that mental health disorders will be the leading cause of morbidity among adults as the incidence rates of anxiety and depression grows globally. Recently, extended reality (XR), a general term covering virtual reality (VR), augmented reality (AR) and mixed reality (MR), is paving a new way to deliver mental health care. In this paper, we conduct a scoping review on the development and application of XR in the area of mental disorders. We performed a scoping database search to identify the relevant studies indexed in Google Scholar, PubMed, and the ACM Digital Library. A search period between August 2016 and December 2023 was defined to select articles related to the usage of VR, AR, and MR in a mental health context. We identified a total of 85 studies from 27 countries across the globe. By performing data analysis, we found that most of the studies focused on developed countries such as the US (16.47%) and Germany (12.94%). None of the studies were for African countries. The majority of the articles reported that XR techniques led to a significant reduction in symptoms of anxiety or depression. More studies were published in the year 2021, i.e., 31.76% (n = 31). This could indicate that mental disorder intervention received a higher attention when COVID-19 emerged. Most studies (n = 65) focused on a population between 18 and 65 years old, only a few studies focused on teenagers (n = 2). Also, more studies were done experimentally (n = 67, 78.82%) rather than by analytical and modeling approaches (n = 8, 9.41%). This shows that there is a rapid development of XR technology for mental health care. Furthermore, these studies showed that XR technology can effectively be used for evaluating mental disorders in similar or better way as the conventional approaches.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 量子ゲームの定義

Defining Quantum Games ( http://arxiv.org/abs/2206.00089v4 )

ライセンス: Link先を確認
Laura Piispanen, Marcel Pfaffhauser, James Wootton, Julian Togelius, Annakaisa Kultima, (参考訳) 本稿では、既存の量子物理学関連ゲームについて調査し、それに基づいて量子ゲームの概念の定義を提案する。 量子ゲームは、量子物理学の知覚可能な次元、量子技術の次元、市民科学や教育のような科学的な目的の次元という3つの提案された次元のいずれかを通じて、量子物理学または量子現象の理論を利用する、または参照するルールベースのゲームの種類として定義する。 また、量子コンピュータゲームの概念、量子コンピュータ上のゲームについても論じ、科学ゲームの概念の定義についても論じる。 同時に、デジタル、アナログ、ハイブリッド手段を通じて量子物理学と量子コンピューティングを探求する様々なゲームがあり、その開発を促進する様々なインセンティブがある。 量子リテラシーをサポートするための教育ツールとしてのゲームへの関心が高まるにつれて、量子ゲームの多様な風景を理解することがますます重要になる。 本稿では,量子ゲームの現象を設計,解析,定義するために,本論文で特定される3次元量子ゲームを提案する。

In this article, we survey the existing quantum physics related games and based on them propose a definition for the concept of quantum games. We define quantum games as any type of rule-based games that use the principles or reference the theory of quantum physics or quantum phenomena through any of three proposed dimensions: the perceivable dimension of quantum physics, the dimension of quantum technologies, and the dimension of scientific purposes like citizen science or education. We also discuss the concept of quantum computer games, games on quantum computers and discuss the definitions for the concept of science games. At the same time, there are various games exploring quantum physics and quantum computing through digital, analogue, and hybrid means with diverse incentives driving their development. As interest in games as educational tools for supporting quantum literacy grows, understanding the diverse landscape of quantum games becomes increasingly important. We propose that three dimensions of quantum games identified in this article are used for designing, analysing and defining the phenomenon of quantum games.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 動的グラフニューラルネットワークのためのロバスト知識適応

Robust Knowledge Adaptation for Dynamic Graph Neural Networks ( http://arxiv.org/abs/2207.10839v2 )

ライセンス: Link先を確認
Hanjie Li, Changsheng Li, Kaituo Feng, Ye Yuan, Guoren Wang, Hongyuan Zha, (参考訳) グラフ構造化データは自然界において動的文字を持つことが多い。 近年、グラフデータモデリングのための動的グラフニューラルネットワークへの注目が高まっている。 しかし、既存のほとんどのアプローチは、新しいリンクの確立時に、隣接するノードの埋め込みが時間的ダイナミクスを学ぶために更新されるべきだという仮定の下で機能する。 新たな接続によって導入されたノードがノイズの多い情報を含んでいる場合、その知識を他のノードに伝達することは信頼性が低くなり、モデルが崩壊する可能性さえある。 本稿では,動的グラフニューラルネットワークのための強化学習による堅牢な知識適応フレームワークであるAda-DyGNNを提案する。 新しいリンクを追加した直後に隣ノードの埋め込みを更新する以前のアプローチとは対照的に、Ada-DyGNNはどのノードを更新すべきかを適応的に決定する。 1つの隣接ノードの埋め込みを更新するという決定が他の隣接ノードに大きな影響を与えることを考慮し、ノード更新選択をシーケンス決定問題として概念化し、それを効果的に対処するために強化学習を用いる。 これにより、ロバストなノード埋め込み表現を学習するために、知識を他のノードに適応的に伝達することができる。 我々の知識を最大限に活用するために、我々のアプローチは、動的グラフニューラルネットワークに特化された強化学習を通じて、堅牢な知識適応を探求する最初の試みである。 3つのベンチマークデータセットに対する大規模な実験は、Ada-DyGNNが最先端のパフォーマンスを達成することを示す。 さらに,Ada-DyGNNの頑健さを定量的かつ定性的に評価し,データセットに異なるノイズの度合いを導入する実験を行った。

Graph structured data often possess dynamic characters in nature. Recent years have witnessed the increasing attentions paid to dynamic graph neural networks for modelling graph data. However, almost all existing approaches operate under the assumption that, upon the establishment of a new link, the embeddings of the neighboring nodes should undergo updates to learn temporal dynamics. Nevertheless, these approaches face the following limitation: If the node introduced by a new connection contains noisy information, propagating its knowledge to other nodes becomes unreliable and may even lead to the collapse of the model. In this paper, we propose Ada-DyGNN: a robust knowledge Adaptation framework via reinforcement learning for Dynamic Graph Neural Networks. In contrast to previous approaches, which update the embeddings of the neighbor nodes immediately after adding a new link, Ada-DyGNN adaptively determines which nodes should be updated. Considering that the decision to update the embedding of one neighbor node can significantly impact other neighbor nodes, we conceptualize the node update selection as a sequence decision problem and employ reinforcement learning to address it effectively. By this means, we can adaptively propagate knowledge to other nodes for learning robust node embedding representations. To the best of our knowledge, our approach constitutes the first attempt to explore robust knowledge adaptation via reinforcement learning specifically tailored for dynamic graph neural networks. Extensive experiments on three benchmark datasets demonstrate that Ada-DyGNN achieves the state-of-the-art performance. In addition, we conduct experiments by introducing different degrees of noise into the dataset, quantitatively and qualitatively illustrating the robustness of Ada-DyGNN.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 中世遠隔視は可能か? : 視覚分析によるレガシー画像のアノテーションの拡張と強化

Is Medieval Distant Viewing Possible? : Extending and Enriching Annotation of Legacy Image Collections using Visual Analytics ( http://arxiv.org/abs/2208.09657v2 )

ライセンス: Link先を確認
Christofer Meinecke, Estelle Guéville, David Joseph Wrisley, Stefan Jänicke, (参考訳) 遠隔観察アプローチは一般的に、機械学習モデルのトレーニングに使用される現代の画像データに近いイメージデータセットを使用している。 他の歴史的時代の画像を扱うためには、専門家による注釈付きデータが必要であり、ラベルの品質は結果の品質に不可欠である。 特に、無数の不確実性、アノテートデータ、あるいは再アノテートを含む文化遺産コレクションを扱う場合、レガシーデータは困難な作業である。 本稿では,相反するメタデータと重複するメタデータを示す2つの注釈付き中世写本画像について述べる。 従来の2つのオントロジを手作業で調整する作業は非常にコストがかかるため,(1)統合データセットのブリッジとして機能する,より均一な記述ラベルセットを作成すること,(2)その後の教師付き機械学習の貴重な入力として使用できる高品質な階層分類を確立すること,などが目的である。 これらの目的を達成するために、中世の学者がこれらを記述するのに使用される語彙と、その他の共生的な画像データセットを組み合わせて、規則化し、拡張できる可視化と相互作用機構を開発した。 ビジュアルインターフェースは、メタデータの総和を超えるデータ間の関係について、専門家に概要を提供する。 単語と画像の埋め込みとデータセット間のラベルの共起、画像のバッチ再アノテーション、ラベル候補の推薦、ラベルの階層的な分類の構成のサポート。

Distant viewing approaches have typically used image datasets close to the contemporary image data used to train machine learning models. To work with images from other historical periods requires expert annotated data, and the quality of labels is crucial for the quality of results. Especially when working with cultural heritage collections that contain myriad uncertainties, annotating data, or re-annotating, legacy data is an arduous task. In this paper, we describe working with two pre-annotated sets of medieval manuscript images that exhibit conflicting and overlapping metadata. Since a manual reconciliation of the two legacy ontologies would be very expensive, we aim (1) to create a more uniform set of descriptive labels to serve as a "bridge" in the combined dataset, and (2) to establish a high quality hierarchical classification that can be used as a valuable input for subsequent supervised machine learning. To achieve these goals, we developed visualization and interaction mechanisms, enabling medievalists to combine, regularize and extend the vocabulary used to describe these, and other cognate, image datasets. The visual interfaces provide experts an overview of relationships in the data going beyond the sum total of the metadata. Word and image embeddings as well as co-occurrences of labels across the datasets, enable batch re-annotation of images, recommendation of label candidates and support composing a hierarchical classification of labels.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 証拠校正不確実性を利用した医用画像の信頼性確保に向けて

Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty ( http://arxiv.org/abs/2301.00349v2 )

ライセンス: Link先を確認
Ke Zou, Yidi Chen, Ling Huang, Xuedong Yuan, Xiaojing Shen, Meng Wang, Rick Siow Mong Goh, Yong Liu, Huazhu Fu, (参考訳) 医用画像のセグメンテーションは、疾患の診断と治療評価に重要である。 しかし, セグメンテーション領域の信頼性に関する懸念は, 信頼性評価, 堅牢性, 校正精度の欠如に起因する。 そこで我々は,様々な医用画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。 DEviSは、基準線分割精度の校正とロバスト性を向上するだけでなく、信頼性の高い予測のための高効率不確実性推定も提供する。 主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。 ここで、ディリクレ分布は、セグメント化結果の異なるクラスに対する確率の分布をパラメータ化する。 校正予測と不確実性を生成するため,訓練可能な校正不確実性ペナルティを開発する。 さらに、DEviSには不確実性対応のフィルタリングモジュールが組み込まれており、不確実性校正エラーのメトリックを使用してデータセット内の信頼性データをフィルタリングする。 我々は,DviSセグメンテーションの精度とロバスト性を評価するとともに,不確実性推定の効率と信頼性を評価するための検証研究を行った。 これらの評価は、ISIC2018、LiTS2017、BraTS2019などの公開データセットを使用して実施された。 さらに、ジョンズホプキンスOCT、デュークOCT-DME、FIVESの2つの臨床試験が実施され、高品質またはアウト・オブ・ディストリビューションデータのフィルタリングの有効性が実証されている。 私たちのコードはhttps://github.com/Cocofeat/DEviS.comでリリースされています。

Medical image segmentation is critical for disease diagnosis and treatment assessment. However, concerns regarding the reliability of segmentation regions persist among clinicians, mainly attributed to the absence of confidence assessment, robustness, and calibration to accuracy. To address this, we introduce DEviS, an easily implementable foundational model that seamlessly integrates into various medical image segmentation networks. DEviS not only enhances the calibration and robustness of baseline segmentation accuracy but also provides high-efficiency uncertainty estimation for reliable predictions. By leveraging subjective logic theory, we explicitly model probability and uncertainty for the problem of medical image segmentation. Here, the Dirichlet distribution parameterizes the distribution of probabilities for different classes of the segmentation results. To generate calibrated predictions and uncertainty, we develop a trainable calibrated uncertainty penalty. Furthermore, DEviS incorporates an uncertainty-aware filtering module, which utilizes the metric of uncertainty-calibrated error to filter reliable data within the dataset. We conducted validation studies to assess both the accuracy and robustness of DEviS segmentation, along with evaluating the efficiency and reliability of uncertainty estimation. These evaluations were performed using publicly available datasets including ISIC2018, LiTS2017, and BraTS2019. Additionally, two potential clinical trials are being conducted at Johns Hopkins OCT, Duke-OCT-DME, and FIVES datasets to demonstrate their efficacy in filtering high-quality or out-of-distribution data. Our code has been released in https://github.com/Cocofeat/DEviS.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# MV-Adapter:ビデオテキスト検索のためのマルチモーダルビデオ転送学習

MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval ( http://arxiv.org/abs/2301.07868v2 )

ライセンス: Link先を確認
Xiaojie Jin, Bowen Zhang, Weibo Gong, Kai Xu, XueQing Deng, Peng Wang, Zhao Zhang, Xiaohui Shen, Jiashi Feng, (参考訳) 最先端のビデオテキスト検索(VTR)手法は通常、特定のデータセット上で事前訓練されたモデル(例えばCLIP)を完全に微調整する。 しかし、これは、タスク毎に個別のモデルを保存する必要があるため、実用的なアプリケーションにおいてかなりのストレージコストをもたらす可能性がある。 そこで本研究では,事前学習モデルを用いてパラメータ効率の高いVTRを実現するための先駆的な手法を提案する。 そこで本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。 具体的には、MV-Adapterはビデオブランチとテキストブランチの両方のボトルネック構造と、2つの新しいコンポーネントを利用する。 1つ目は、ビデオブランチに組み込まれた時間適応モジュールで、グローバルな時間的コンテキストとローカルな時間的コンテキストを導入する。 ウェイトキャリブレーションをトレーニングして、フレーム間の動的変動に合わせて調整します。 2つ目はクロスモダリティタイリング(Cross Modality Tying)で、モダリティ間の整合性を改善するために、クロスモダリティ因子を共有することによってビデオ/テキストブランチの重みを生成する。 上記のイノベーションのおかげで、MV-Adapterは、無視できるパラメータのオーバーヘッドで、標準のフルチューニングよりも同等または優れたパフォーマンスを達成することができる。 特に、MV-AdapterはV2T/T2Vタスクにおいて、広く使用されている5つのVTRベンチマーク(MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet)において、多くのマージンを持つ様々な競合メソッドを一貫して上回っている。

State-of-the-art video-text retrieval (VTR) methods typically involve fully fine-tuning a pre-trained model (e.g. CLIP) on specific datasets. However, this can result in significant storage costs in practical applications as a separate model per task must be stored. To address this issue, we present our pioneering work that enables parameter-efficient VTR using a pre-trained model, with only a small number of tunable parameters during training. Towards this goal, we propose a new method dubbed Multimodal Video Adapter (MV-Adapter) for efficiently transferring the knowledge in the pre-trained CLIP from image-text to video-text. Specifically, MV-Adapter utilizes bottleneck structures in both video and text branches, along with two novel components. The first is a Temporal Adaptation Module that is incorporated in the video branch to introduce global and local temporal contexts. We also train weights calibrations to adjust to dynamic variations across frames. The second is Cross Modality Tying that generates weights for video/text branches through sharing cross modality factors, for better aligning between modalities. Thanks to above innovations, MV-Adapter can achieve comparable or better performance than standard full fine-tuning with negligible parameters overhead. Notably, MV-Adapter consistently outperforms various competing methods in V2T/T2V tasks with large margins on five widely used VTR benchmarks (MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet).
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 階層化ランダムサンプリングにおける確率の個人的信頼区間

Differentially Private Confidence Intervals for Proportions under Stratified Random Sampling ( http://arxiv.org/abs/2301.08324v2 )

ライセンス: Link先を確認
Shurong Lin, Mark Bun, Marco Gaboardi, Eric D. Kolaczyk, Adam Smith, (参考訳) 信頼区間は、関心のパラメータの不確かさを定量化する基本的なツールである。 データプライバシの意識の高まりに伴い、統計学者とコンピュータ科学者の双方から、信頼区間のプライベートバージョンの開発が注目されている。 差分プライバシーは、機密データから計算された統計を公表する際のプライバシー損失を分析する最先端のフレームワークである。 最近の研究は個人的信頼区間で行われているが、我々の知る限り、調査サンプリングの文脈における個人的信頼区間に関する厳密な方法論は研究されていない。 本稿では, 階層化ランダムサンプリングの下で, 信頼区間を構成するための3つの差分プライベートアルゴリズムを提案する。 これら2つの変種のうちの1つで、各アルゴリズムを解析し、階層化されたサンプリング設計からのデータに意味のある2つの差分プライバシーを具体化する。 我々は、推定者の分析的プライバシー保証と漸近特性を確立する。 さらに,提案した私的信頼区間を評価するためのシミュレーション研究を行い,1940年国勢調査データに対する2つの応用について述べる。

Confidence intervals are a fundamental tool for quantifying the uncertainty of parameters of interest. With the increase of data privacy awareness, developing a private version of confidence intervals has gained growing attention from both statisticians and computer scientists. Differential privacy is a state-of-the-art framework for analyzing privacy loss when releasing statistics computed from sensitive data. Recent work has been done around differentially private confidence intervals, yet to the best of our knowledge, rigorous methodologies on differentially private confidence intervals in the context of survey sampling have not been studied. In this paper, we propose three differentially private algorithms for constructing confidence intervals for proportions under stratified random sampling. We articulate two variants of differential privacy that make sense for data from stratified sampling designs, analyzing each of our algorithms within one of these two variants. We establish analytical privacy guarantees and asymptotic properties of the estimators. In addition, we conduct simulation studies to evaluate the proposed private confidence intervals, and two applications to the 1940 Census data are provided.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 仮説の最適選択は最も弱く、最短ではない

The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest ( http://arxiv.org/abs/2301.12987v4 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) もし$A$と$B$が$A \subset B$であるような集合であれば、一般化は$B$を構成するのに十分な仮説の$A$からの推論として理解することができる。 任意の数の仮説を$A$から推測することもあるが、それらのいくつかだけが$B$に一般化できる。 どちらが一般化しそうなのか、どうしてわかるのか? 1つの戦略は、情報を圧縮する能力と一般化する能力(インテリジェンスのためのプロキシ)を同一にすることで、最も短いものを選択することである。 我々はこれを数学的な形式的認知の文脈で検討する。 圧縮は性能を最大化するのに必要でも十分でもないことを示す(仮説の一般化の確率の観点から測る)。 私たちは、弱点と呼ばれる長さや単純さとは無関係なプロキシを定式化します。 タスクが均一に分散されている場合、少なくともすべてのタスクにおいて弱点を最大化しつつ、少なくとも1つのタスクで厳格にパフォーマンスを向上するプロキシの選択はないことを示す。 2進算術の文脈における最大弱さと最小記述長を比較する実験では、前者は後者の1.1ドルから5ドルの間で一般化した。 これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明しています。

If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 計算双対性と目的超知能

Computational Dualism and Objective Superintelligence ( http://arxiv.org/abs/2302.00843v3 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) インテリジェントソフトウェアの概念には欠陥がある。 ソフトウェアの振る舞いは、それを解釈するハードウェアに依存する。 これは、理論化されたソフトウェア超知能の振る舞いに関する主張を損なう。 ここでは、この問題を「計算双対性」と特徴づけ、心的・物理的物質の代わりに、ソフトウェアとハードウェアがある。 性能に関する客観的な主張を行うためには、計算双対性を避ける必要がある。 本稿では,パンコンピュテーションに基づく代替手法を提案する。これは環境のすべての側面を,他の既約状態間の関係に他ならないものと定義するものである。 我々はシステムを行動(インプットとアウトプット、政策は因果的仲介者)として定式化し、認知は具現化され、組み込まれ、拡張され、実行されます。 結果は、インタプリタではなく環境と相互作用する非身体的政策として、環境の一部として形式化されている。 これにより、インテリジェンスに関する客観的な主張が可能になり、それは'一般化'し、原因を特定し、適応する能力である、と我々は主張する。 次に,知的行動に対する客観的な上限を提案する。

The concept of intelligent software is flawed. The behaviour of software depends upon the hardware that interprets it. This undermines claims regarding the behaviour of theorised, software superintelligence. Here we characterise this problem as ``computational dualism'', where instead of mental and physical substance, we have software and hardware. We argue that to make objective claims regarding performance we must avoid computational dualism. We propose using an alternative based upon pancomputationalism, which defines all aspects of the environment as nothing more than relations between otherwise irreducible states. We formalise systems as behaviour (inputs and outputs, with policy being a causal intermediary), and cognition as embodied, embedded, extended and enactive. The result is cognition formalised as a part of the environment, rather than as a disembodied policy interacting with the environment though an interpreter. This allows us to make objective claims regarding intelligence, which we argue is the ability to ``generalise'', identify causes and adapt. We then propose objective upper bounds for intelligent behaviour.
翻訳日:2024-04-12 19:46:03 公開日:2024-04-11
# 正方格子量子ハードウェア上のフェルミオン系の低深さシミュレーション

Low-depth simulations of fermionic systems on square-grid quantum hardware ( http://arxiv.org/abs/2302.01862v3 )

ライセンス: Link先を確認
Manuel G. Algaba, P. V. Sriluckshmy, Martin Leib, Fedor Šimkovic IV, (参考訳) 本稿では,2量子ビットのfSIMゲート数にカウントされる低深さの量子回路を発生する正方形量子ビット接続を持つ量子ハードウェアに,フェルミオン系をマッピングするための一般的な戦略を提案する。 本研究では,新しい演算子分解と回路圧縮技術と,選択した低深度フェルミオン-量子マッピングを組み合わせて実現し,高いゲートキャンセルと並列性を実現する。 我々の写像は、キュービット数やキュービット演算子重みを同時に最適化する柔軟性を保ち、任意のフェルミオン格子ジオメトリを調べるために使用できる。 本稿では,強結合モデル,フェルミ・ハバードモデル,マルチ軌道ハバード・カナモリモデルについて述べる。 従来に比べてトロッター層1層あたりの回路深度は前例のないほど低く,70 %以上の改善が見られた。 我々の圧縮技術は、2量子ゲートの大幅な削減をもたらす。 DKマッピングにXYZ形式を適用する際に最も低いゲート数を求める。 さらに, ネイティブパラメータ化2ビットゲートが存在しない場合でも, 分解および圧縮形式が有利な回路を生成することを示す。

We present a general strategy for mapping fermionic systems to quantum hardware with square qubit connectivity which yields low-depth quantum circuits, counted in the number of native two-qubit fSIM gates. We achieve this by leveraging novel operator decomposition and circuit compression techniques paired with specifically chosen low-depth fermion-to-qubit mappings and allow for a high degree of gate cancellations and parallelism. Our mappings retain the flexibility to simultaneously optimize for qubit counts or qubit operator weights and can be used to investigate arbitrary fermionic lattice geometries. We showcase our approach by investigating the tight-binding model, the Fermi-Hubbard model as well as the multi-orbital Hubbard-Kanamori model. We report unprecedentedly low circuit depths per single Trotter layer with up to a $70 \%$ improvement upon previous state-of-the-art. Our compression technique also results in significant reduction of two-qubit gates. We find the lowest gate-counts when applying the XYZ-formalism to the DK mapping. Additionally, we show that our decomposition and compression formalism produces favourable circuits even when no native parameterized two-qubit gates are available.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 時間固定および時間依存予測のためのランダムフォレスト:DynForest Rパッケージ

Random Forests for time-fixed and time-dependent predictors: The DynForest R package ( http://arxiv.org/abs/2302.02670v2 )

ライセンス: Link先を確認
Anthony Devaux, Cécile Proust-Lima, Robin Genuer, (参考訳) RパッケージのDynForestは、時間固定予測と時間依存予測に基づいて、連続、カテゴリー、または(複数の原因)時間と結果を予測するランダムなフォレストを実装している。 DynForestの主な独創性は、不均一な(つまり、結果のプロセスによって影響される)時間依存予測器を処理し、誤差で測定し、主観的な時間で測定することである。 ツリー構築プロセスの各再帰ステップでは、時間依存予測器が内部的に分割可能な個々の特徴にまとめられる。 これは、フレキシブルな線形混合モデル(Rパッケージのlcmmに依る)を使用して実現される。 DynForestは、連続的な結果の平均値、カテゴリー的な結果に多数決されたカテゴリ、または生存結果に時間をかけて累積的なインシデント関数を返します。 DynForestは、変数の重要性と最小の深さを計算して、最も予測可能な変数や変数のグループを知らせる。 本稿は、DynForestを用いてランダムな森林を適合させるためのステップバイステップ例をユーザに提供することを目的とする。

The R package DynForest implements random forests for predicting a continuous, a categorical or a (multiple causes) time-to-event outcome based on time-fixed and time-dependent predictors. The main originality of DynForest is that it handles time-dependent predictors that can be endogeneous (i.e., impacted by the outcome process), measured with error and measured at subject-specific times. At each recursive step of the tree building process, the time-dependent predictors are internally summarized into individual features on which the split can be done. This is achieved using flexible linear mixed models (thanks to the R package lcmm) which specification is pre-specified by the user. DynForest returns the mean for continuous outcome, the category with a majority vote for categorical outcome or the cumulative incidence function over time for survival outcome. DynForest also computes variable importance and minimal depth to inform on the most predictive variables or groups of variables. This paper aims to guide the user with step-by-step examples for fitting random forests using DynForest.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 創発的因果性と意識の基礎

Emergent Causality and the Foundation of Consciousness ( http://arxiv.org/abs/2302.03189v4 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) 対話的な環境で正確な推論を行うためには、エージェントは、イベントの受動的観察と、それらを引き起こすための介入を混同してはならない。 この$do$演算子は介入を形式化し、その効果について推論できるようにします。 しかし、対話的な環境では、介入の明示的な表現を前提とせず、最大限に正確な推論を行うような、汎用知能の最適数学的形式主義が存在する。 我々はそのような形式主義を一つ検討する。 我々は$do$演算子がない場合、介入は変数で表現できることを示した。 次に、変数は抽象化であり、事前に介入を明示的に表現する必要があるのは、この種の抽象化を前提にしているためだけである、と論じます。 上記の形式主義は、これを避けるため、初期条件は、誘導を通じて関連する因果的介入の表現が現れる。 これらの創発的抽象化は、自己と他のオブジェクトの表現として機能し、それらのオブジェクトの介入が目標の満足度に影響を与えると判断される。 このことは、他人のアイデンティティや意図、他人のアイデンティティや意図を、他人が認識するものとして、どのように考えるかを説明するものだ、と我々は主張する。 狭義では、それは何を知るべきかを記述し、意識の側面の機械的な説明である。

To make accurate inferences in an interactive setting, an agent must not confuse passive observation of events with having intervened to cause them. The $do$ operator formalises interventions so that we may reason about their effect. Yet there exist pareto optimal mathematical formalisms of general intelligence in an interactive setting which, presupposing no explicit representation of intervention, make maximally accurate inferences. We examine one such formalism. We show that in the absence of a $do$ operator, an intervention can be represented by a variable. We then argue that variables are abstractions, and that need to explicitly represent interventions in advance arises only because we presuppose these sorts of abstractions. The aforementioned formalism avoids this and so, initial conditions permitting, representations of relevant causal interventions will emerge through induction. These emergent abstractions function as representations of one`s self and of any other object, inasmuch as the interventions of those objects impact the satisfaction of goals. We argue that this explains how one might reason about one`s own identity and intent, those of others, of one`s own as perceived by others and so on. In a narrow sense this describes what it is to be aware, and is a mechanistic explanation of aspects of consciousness.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# イベントベースのビジョンのためのディープラーニング: 総合的な調査とベンチマーク

Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks ( http://arxiv.org/abs/2302.08890v3 )

ライセンス: Link先を確認
Xu Zheng, Yexin Liu, Yunfan Lu, Tongyan Hua, Tianbo Pan, Weiming Zhang, Dacheng Tao, Lin Wang, (参考訳) イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度変化を非同期に捉え、強度変化の時間、画素位置、極性(信号)を符号化するイベントストリームを生成する。 イベントカメラは、高時間分解能、高ダイナミックレンジ、低レイテンシなど、標準的なフレームベースのカメラに対して無数の利点を持っている。 難易度の高い視覚条件で情報をキャプチャできるため、イベントカメラはコンピュータビジョンとロボティクスのコミュニティにおけるフレームベースのカメラの限界を克服する可能性がある。 近年、深層学習(DL)がこの新興分野に導入され、その可能性のマイニングに活発な研究成果がもたらされた。 しかし、イベントベースのビジョンのためのDL技術には、いまだに分類学の欠如がある。 まず、DLモデルへの入力として重要な役割を果たす品質向上手法を用いて、典型的なイベント表現を精査する。 次に、既存のDLベースの手法を2つの主要なカテゴリに分類し、包括的に調査する。 1) 画像・映像の復元及び復元 2)イベントベースのシーン理解と3Dビジョン。 我々は,いくつかの代表的な研究方向,すなわち画像再構成,デブロアリング,オブジェクト認識において,既存の手法のベンチマーク実験を行い,いくつかの重要な洞察と問題を特定する。 最後に、課題について議論し、さらなる研究を刺激するための新たな視点を提供する。

Event cameras are bio-inspired sensors that capture the per-pixel intensity changes asynchronously and produce event streams encoding the time, pixel position, and polarity (sign) of the intensity changes. Event cameras possess a myriad of advantages over canonical frame-based cameras, such as high temporal resolution, high dynamic range, low latency, etc. Being capable of capturing information in challenging visual conditions, event cameras have the potential to overcome the limitations of frame-based cameras in the computer vision and robotics community. In very recent years, deep learning (DL) has been brought to this emerging field and inspired active research endeavors in mining its potential. However, there is still a lack of taxonomies in DL techniques for event-based vision. We first scrutinize the typical event representations with quality enhancement methods as they play a pivotal role as inputs to the DL models. We then provide a comprehensive survey of existing DL-based methods by structurally grouping them into two major categories: 1) image/video reconstruction and restoration; 2) event-based scene understanding and 3D vision. We conduct benchmark experiments for the existing methods in some representative research directions, i.e., image reconstruction, deblurring, and object recognition, to identify some critical insights and problems. Finally, we have discussions regarding the challenges and provide new perspectives for inspiring more research studies.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# パフォーマンスだけでは不十分:羅生門四重奏団が語る話

Performance is not enough: the story told by a Rashomon quartet ( http://arxiv.org/abs/2302.13356v4 )

ライセンス: Link先を確認
Przemyslaw Biecek, Hubert Baniecki, Mateusz Krzyzinski, Dianne Cook, (参考訳) 教師付き学習の通常の目的は、特定のパフォーマンス指標を最適化する最良のモデルを見つけることです。 しかし、もしこのモデルが提供する説明が他のモデルと完全に異なり、同様に適合する統計を持つにもかかわらず、別のモデルと全く異なるとしたらどうだろう? 等しく効果的なモデルが、データ内の異なる関係にスポットライトを当てることが可能か? アンスコムの四重項にインスパイアされた本論文では、ラショモン四重項(Rashomon Quartet)、すなわち、ほぼ同一の予測性能を持つ合成データセット上に構築された4つのモデルについて紹介する。 しかし、視覚的な探索によって、データ内の関係に関する明確な説明が明らかになる。 この図示的な例は、モデルビジュアライゼーションのためのメソッドを使用して、パフォーマンス以上の予測モデルを比較することを目的としています。

The usual goal of supervised learning is to find the best model, the one that optimizes a particular performance measure. However, what if the explanation provided by this model is completely different from another model and different again from another model despite all having similarly good fit statistics? Is it possible that the equally effective models put the spotlight on different relationships in the data? Inspired by Anscombe's quartet, this paper introduces a Rashomon Quartet, i.e. a set of four models built on a synthetic dataset which have practically identical predictive performance. However, the visual exploration reveals distinct explanations of the relations in the data. This illustrative example aims to encourage the use of methods for model visualization to compare predictive models beyond their performance.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 実世界シナリオにおける自己監督型デノナイジングのための効率的な非対称ブラインドスポット探索

Exploring Efficient Asymmetric Blind-Spots for Self-Supervised Denoising in Real-World Scenarios ( http://arxiv.org/abs/2303.16783v2 )

ライセンス: Link先を確認
Shiyan Chen, Jiyuan Zhang, Zhaofei Yu, Tiejun Huang, (参考訳) 自己監督型聴覚障害者は、クリーンなイメージなしで訓練できるため、広く注目を集めている。 しかし、実世界のシナリオにおけるノイズはしばしば空間的に相関しており、多くの自己教師付きアルゴリズムが画素単位の独立ノイズを劣化させると仮定する。 最近の研究は、ダウンサンプリングや近隣マスキングによるノイズ相関を破ろうとしている。 しかし, サンプリングレートの低下により, サブグラフのノイズ化は, エイリアス効果や詳細の喪失につながる可能性がある。 さらに、近隣マスキング手法は計算複雑性が高いか、あるいは推論中の局所的な空間保存を考慮していない。 既存の手法の分析を通じて,実世界の自己監督型認知タスクにおいて,高品質でテクスチャに富んだ結果を得るための鍵は,元の入力解像度構造をトレーニングし,トレーニングや推論において非対称な操作を使用することである,と指摘する。 そこで本研究では,非対称可変Blind-Spot Network (AT-BSN) を提案する。 さらに、事前学習したAT-BSNは、異なる盲点をサンプリングすることで、様々な教師ネットワークを生成できるメタ教師ネットワークであると考えている。 我々は,軽量ネットワークを蒸留し,性能を著しく向上させる,盲点型マルチティーチンガー蒸留法を提案する。 複数のデータセットに対する実験結果から,本手法は最先端の手法であり,計算オーバーヘッドや視覚効果の点で,他の自己教師付きアルゴリズムよりも優れていることが示された。

Self-supervised denoising has attracted widespread attention due to its ability to train without clean images. However, noise in real-world scenarios is often spatially correlated, which causes many self-supervised algorithms that assume pixel-wise independent noise to perform poorly. Recent works have attempted to break noise correlation with downsampling or neighborhood masking. However, denoising on downsampled subgraphs can lead to aliasing effects and loss of details due to a lower sampling rate. Furthermore, the neighborhood masking methods either come with high computational complexity or do not consider local spatial preservation during inference. Through the analysis of existing methods, we point out that the key to obtaining high-quality and texture-rich results in real-world self-supervised denoising tasks is to train at the original input resolution structure and use asymmetric operations during training and inference. Based on this, we propose Asymmetric Tunable Blind-Spot Network (AT-BSN), where the blind-spot size can be freely adjusted, thus better balancing noise correlation suppression and image local spatial destruction during training and inference. In addition, we regard the pre-trained AT-BSN as a meta-teacher network capable of generating various teacher networks by sampling different blind-spots. We propose a blind-spot based multi-teacher distillation strategy to distill a lightweight network, significantly improving performance. Experimental results on multiple datasets prove that our method achieves state-of-the-art, and is superior to other self-supervised algorithms in terms of computational overhead and visual effects.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索

Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v9 )

ライセンス: Link先を確認
Walid Hariri, (参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。 これらのモデルの中で、ChatGPT(Chat Generative Pre-trained Transformer)はOpenAIによって開発され、広く採用されている強力なツールとして注目されている。 ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。 これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応する能力に起因している。 その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。 しかし、ChatGPTにはバイアス応答を生じる傾向や有害な言語パターンを持続させる可能性など、制限がある。 この記事では、ChatGPTとその応用、利点、限界について概観する。 さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。 最後に,人工知能に関する議論と,その視覚領域とNLP領域への影響について考察する。

Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 古典的ディープニューラルネットワークを用いた絡み合い検出

Entanglement detection with classical deep neural networks ( http://arxiv.org/abs/2304.05946v2 )

ライセンス: Link先を確認
Julio Ureña, Antonio Sojo, Juani Bermejo, Daniel Manzano, (参考訳) 本研究では,量子力学の中核要素である量子エンタングルメントの検出と分類に対処する自律的手法を提案する。 マルチ層パーセプトロンを用いて、2ビット系と3ビット系の両方のエンタングルメントを効果的に同定する。 提案手法は,2量子ビット系に対してほぼ完全な精度を達成し,3量子ビット系に対して90 %以上の精度を達成し,優れた検出結果を得る。 さらに,本手法では,3ビットの絡み合った状態が,最大7.7 %の成功率を持つグループに分類することができた。 これらの結果は,我々の手法が大規模システムに適用される可能性を示し,量子情報処理応用の進歩の道を開いた。

In this study, we introduce an autonomous method for addressing the detection and classification of quantum entanglement, a core element of quantum mechanics that has yet to be fully understood. We employ a multi-layer perceptron to effectively identify entanglement in both two- and three-qubit systems. Our technique yields impressive detection results, achieving nearly perfect accuracy for two-qubit systems and over $90\%$ accuracy for three-qubit systems. Additionally, our approach successfully categorizes three-qubit entangled states into distinct groups with a success rate of up to $77\%$. These findings indicate the potential for our method to be applied to larger systems, paving the way for advancements in quantum information processing applications.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# クラウドベースのアプリケーションのコードアーチファクトとしてのインフラにおけるコスト意識のマイニング:探索的研究

Mining for Cost Awareness in the Infrastructure as Code Artifacts of Cloud-based Applications: an Exploratory Study ( http://arxiv.org/abs/2304.07531v3 )

ライセンス: Link先を確認
Daniel Feitosa, Matei-Tudor Penca, Massimiliano Berardi, Rares-Dorian Boza, Vasilios Andrikopoulos, (参考訳) コンテキスト: ソフトウェアを開発し、デプロイし、提供するための主要なプラットフォームとしてクラウドコンピューティングの人気は、主にコスト削減の約束によって引き起こされます。 したがって、コスト意識が開発プロセスに浸透するかどうか、実際にどのように現れるのかを判断するために、実証的な証拠が収集されていないことは驚きである。 目的: この研究は,クラウドベースのアプリケーションのオープンソースリポジトリをマイニングすることで,コスト意識の実証的な証拠を提供することを目的としている。 ソフトウェア(再)デプロイをクラウド上で自動化する、インフラストラクチャ・アズ・コード(Infrastructure as Code)アーティファクトに重点を置いている。 メソッド: 152,735のリポジトリをシステマティックに検索した結果、2,010の関連リポジトリが選択された。 そして、インダクティブコーディングとインダクティブコーディングを組み合わせて、538の関連するコミットと208の関連する問題を分析しました。 結果: 開発者はアプリケーションデプロイメントのコストだけでなく、より安価なクラウドサービスを選択することを超えて、これらのコストを削減しようとしている。 また,今後の研究分野についても検討する。 結論: 私たちは特定のインフラストラクチャ・アズ・コード技術(Terraform)に注力していますが、この発見は一般的にクラウドベースのアプリケーション開発に適用できます。 提供される経験的基盤は、サービスの選択、リソースの割り当て、デプロイメントの最適化、その他のテクニックを通じて、コスト削減を求める開発者に役立てることができる。

Context: The popularity of cloud computing as the primary platform for developing, deploying, and delivering software is largely driven by the promise of cost savings. Therefore, it is surprising that no empirical evidence has been collected to determine whether cost awareness permeates the development process and how it manifests in practice. Objective: This study aims to provide empirical evidence of cost awareness by mining open source repositories of cloud-based applications. The focus is on Infrastructure as Code artifacts that automate software (re)deployment on the cloud. Methods: A systematic search through 152,735 repositories resulted in the selection of 2,010 relevant ones. We then analyzed 538 relevant commits and 208 relevant issues using a combination of inductive and deductive coding. Results: The findings indicate that developers are not only concerned with the cost of their application deployments but also take actions to reduce these costs beyond selecting cheaper cloud services. We also identify research areas for future consideration. Conclusion: Although we focus on a particular Infrastructure as Code technology (Terraform), the findings can be applicable to cloud-based application development in general. The provided empirical grounding can serve developers seeking to reduce costs through service selection, resource allocation, deployment optimization, and other techniques.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# ランダム量子回路を用いた魔法の相転移

Phase transition in magic with random quantum circuits ( http://arxiv.org/abs/2304.10481v2 )

ライセンス: Link先を確認
Pradeep Niroula, Christopher David White, Qingfeng Wang, Sonika Johri, Daiwei Zhu, Christopher Monroe, Crystal Noel, Michael J. Gullans, (参考訳) マジック(英: Magic)は、単純なゲート演算を用いた普遍的なフォールトトレラント量子コンピューティングを可能にする量子状態の性質である。 したがって、マジックが生成または破壊されるメカニズムを理解することは、効率的で実用的なフォールトトレラント計算への重要なステップである。 我々は、コヒーレントエラーを受けるランダムな安定化符号が魔法の相転移を示すことを観察し、解析的、数値的、実験的プローブを通して特徴付ける。 臨界誤差率以下では、安定化器シンドローム測定は回路内の蓄積したマジックを除去し、コヒーレントエラーを効果的に保護する。 魔法の資源理論におけるそのようなリッチな振る舞いをより深く理解すれば、より効率的なマジック状態生成のための量子スピードアップと舗装経路の起源に光を当てることができる。

Magic is a property of quantum states that enables universal fault-tolerant quantum computing using simple sets of gate operations. Understanding the mechanisms by which magic is created or destroyed is, therefore, a crucial step towards efficient and practical fault-tolerant computation. We observe that a random stabilizer code subject to coherent errors exhibits a phase transition in magic, which we characterize through analytic, numeric and experimental probes. Below a critical error rate, stabilizer syndrome measurements remove the accumulated magic in the circuit, effectively protecting against coherent errors; above the critical error rate syndrome measurements concentrate magic. A better understanding of such rich behavior in the resource theory of magic could shed more light on origins of quantum speedup and pave pathways for more efficient magic state generation.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 意味, 言語モデル, 理解不能なホラーの計算について

On the Computation of Meaning, Language Models and Incomprehensible Horrors ( http://arxiv.org/abs/2304.12686v2 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) 我々は、意味の基本的な理論と、人工知能(AGI)の数学的フォーマリズムを統合し、意味、コミュニケーション、シンボルの出現に関する包括的な力学的な説明を提供する。 この合成は、プラグマティクス、論理的真理条件意味論、パーセアン・セミオティックスを統一し、伝統的に機械的説明を避けてきた現象に対処する計算可能モデルとして、AGIと言語の性質に関するより広範な議論の両方に重要である。 機械が有意義な発話を生成できる条件や人間の意味を理解できる条件を調べることで、現在世代の言語モデルが人間と同じ意味の理解を持っていないこと、そして我々がその反応に起因する可能性のある意味を意図していないことを確かめる。 そこで我々は,人間の感情をシミュレートし,弱い表現を構築するためにモデルを最適化する手法を提案する。 我々の発見は、意味と知性の関係と、意味を理解して意図する機械を構築する方法に光を当てた。

We integrate foundational theories of meaning with a mathematical formalism of artificial general intelligence (AGI) to offer a comprehensive mechanistic explanation of meaning, communication, and symbol emergence. This synthesis holds significance for both AGI and broader debates concerning the nature of language, as it unifies pragmatics, logical truth conditional semantics, Peircean semiotics, and a computable model of enactive cognition, addressing phenomena that have traditionally evaded mechanistic explanation. By examining the conditions under which a machine can generate meaningful utterances or comprehend human meaning, we establish that the current generation of language models do not possess the same understanding of meaning as humans nor intend any meaning that we might attribute to their responses. To address this, we propose simulating human feelings and optimising models to construct weak representations. Our findings shed light on the relationship between meaning and intelligence, and how we can build machines that comprehend and intend meaning.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 用語分類における位置バイアスが言語モデルに及ぼす影響

Technical Report: Impact of Position Bias on Language Models in Token Classification ( http://arxiv.org/abs/2304.13567v4 )

ライセンス: Link先を確認
Mehdi Ben Amor, Michael Granitzer, Jelena Mitrović, (参考訳) 言語モデル(LM)は、自然言語処理(NLP)タスクにおける最先端のパフォーマンスを示している。 Named Entity Recognition (NER) やPart-of-Speech (POS) タグ付けのような下流タスクは、データ不均衡の問題に悩まされていることが知られている。 本稿では,エンコーダモデルの問題点,特にトークン分類タスクにおける正の例の位置バイアスについて考察する。 完全性については、評価にデコーダも含んでいます。 位置バイアスの影響を異なる位置埋め込み技術を用いて評価し、絶対位置埋め込み(APE)、相対位置埋め込み(RPE)、回転位置埋め込み(RoPE)によるBERTに着目した。 そこで我々は,トークン分類ベンチマークの微調整時に,位置バイアスがLMの性能に与える影響を詳細に評価する。 我々の研究には、NER用のCoNLL03とOntoNote5.0、POSタグ付けのためのBritish Tree Bank UD\_en、TweeBankが含まれる。 変圧器モデルにおける位置バイアスを解析するための評価手法を提案する。 平均降水量は, 3 %から 9 % の範囲で, このバイアスに悩まされる可能性が示唆された。 この効果を軽減するために,ランダム位置シフトとコンテキスト摂動の2つの手法を提案する。 その結果,CoNLL03,UD\_en,TweeBankのモデルの性能は,$\approx$2\%向上した。

Language Models (LMs) have shown state-of-the-art performance in Natural Language Processing (NLP) tasks. Downstream tasks such as Named Entity Recognition (NER) or Part-of-Speech (POS) tagging are known to suffer from data imbalance issues, particularly regarding the ratio of positive to negative examples and class disparities. This paper investigates an often-overlooked issue of encoder models, specifically the position bias of positive examples in token classification tasks. For completeness, we also include decoders in the evaluation. We evaluate the impact of position bias using different position embedding techniques, focusing on BERT with Absolute Position Embedding (APE), Relative Position Embedding (RPE), and Rotary Position Embedding (RoPE). Therefore, we conduct an in-depth evaluation of the impact of position bias on the performance of LMs when fine-tuned on token classification benchmarks. Our study includes CoNLL03 and OntoNote5.0 for NER, English Tree Bank UD\_en, and TweeBank for POS tagging. We propose an evaluation approach to investigate position bias in transformer models. We show that LMs can suffer from this bias with an average drop ranging from 3\% to 9\% in their performance. To mitigate this effect, we propose two methods: Random Position Shifting and Context Perturbation, that we apply on batches during the training process. The results show an improvement of $\approx$ 2\% in the performance of the model on CoNLL03, UD\_en, and TweeBank.
翻訳日:2024-04-12 19:37:39 公開日:2024-04-11
# 深層強化学習による二足歩行ロボットのアジャイルサッカースキルの学習

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2304.13653v2 )

ライセンス: Link先を確認
Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva Tirumala, Jan Humplik, Markus Wulfmeier, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia Hadsell, Nicolas Heess, (参考訳) 本研究では,Deep Reinforcement Learning (Deep RL) が,動的環境における複雑な行動戦略を構成することができる,低コストで小型なヒューマノイドロボットの高度で安全な動作スキルを合成できるかどうかを検討する。 我々はDeep RLを使って、20個の関節を持つヒューマノイドロボットを訓練し、1対1(1v1)のサッカーゲームを単純化した。 結果として得られるエージェントは、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示し、その間を滑らかで安定的で効率的な方法で遷移させる。 エージェントの移動と戦術行動は、手動で設計するには実用的でない方法で特定のゲームコンテキストに適応する。 エージェントはまた、ゲームの基本的な戦略的理解を発展させ、例えばボールの動きを予測し、相手のショットをブロックすることを学ぶ。 我々のエージェントはシミュレーションの訓練を受け、実際のロボットにゼロショットで転送された。 シミュレーションにおけるトレーニング中の十分な高周波制御,ターゲットの動的ランダム化,摂動の組み合わせにより,良質な伝達が可能となった。 ロボットは本質的に脆弱だが、トレーニング中の行動の基本的な規則化は、ロボットが動的でアジャイルな方法で動作しながら、安全で効果的な動作を学ぶことにつながった。 実際、実験では181%の速さで歩いたり、302%の速さで回転させたり、立ち上がるのに63%の時間を要したり、スクリプトベースラインよりも34%の速さでボールを蹴ったりした。

We investigate whether Deep Reinforcement Learning (Deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies in dynamic environments. We used Deep RL to train a humanoid robot with 20 actuated joints to play a simplified one-versus-one (1v1) soccer game. The resulting agent exhibits robust and dynamic movement skills such as rapid fall recovery, walking, turning, kicking and more; and it transitions between them in a smooth, stable, and efficient manner. The agent's locomotion and tactical behavior adapts to specific game contexts in a way that would be impractical to manually design. The agent also developed a basic strategic understanding of the game, and learned, for instance, to anticipate ball movements and to block opponent shots. Our agent was trained in simulation and transferred to real robots zero-shot. We found that a combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training in simulation enabled good-quality transfer. Although the robots are inherently fragile, basic regularization of the behavior during training led the robots to learn safe and effective movements while still performing in a dynamic and agile way -- well beyond what is intuitively expected from the robot. Indeed, in experiments, they walked 181% faster, turned 302% faster, took 63% less time to get up, and kicked a ball 34% faster than a scripted baseline, while efficiently combining the skills to achieve the longer term objectives.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# REMaQE: Executablesのリバースエンジニアリング数学式

REMaQE: Reverse Engineering Math Equations from Executables ( http://arxiv.org/abs/2305.06902v2 )

ライセンス: Link先を確認
Meet Udeshi, Prashanth Krishnamurthy, Hammond Pearce, Ramesh Karri, Farshad Khorrami, (参考訳) 産業制御システムやサイバー物理システムの組み込み機器に対するサイバーセキュリティ攻撃は、壊滅的な物理的損害と経済的な損失を引き起こす可能性がある。 これは、システム操作の物理的特性を変更するマルウェアでデバイスバイナリを感染させることで達成できる。 このような攻撃を緩和することは、実装されたアルゴリズムの数学的方程式で十分な意味的知識を回復するリバースエンジニアリングツールの恩恵を受ける。 従来のリバースエンジニアリングツールはバイナリを低レベルのコードに分解できるが、意味的な洞察はほとんどない。 本稿では,算数方程式のリバースエンジニアリングのためのREMaQE自動フレームワークを提案する。 最先端よりも改善されたREMaQEは、レジスタ、スタック、グローバルメモリ、ポインタを介してアクセスされる方程式パラメータを処理し、C++クラスのようなオブジェクト指向実装をリバースエンジニアリングすることができる。 REMaQEを用いて,Linuxカーネルの熱モニタリングツール "tmon" のバグを発見した。 REMaQEを評価するために,CとSimulinkに実装された数式付き25,096個のバイナリのデータセットを生成する。 REMaQEは25,096個のバイナリに対して意味論的に一致する方程式を回復することに成功した。 REMaQEは平均0.48秒、複素方程式では最大2秒で実行される。 リアルタイム実行は、インタラクティブな数学指向のリバースエンジニアリングワークフローとの統合を可能にする。

Cybersecurity attacks on embedded devices for industrial control systems and cyber-physical systems may cause catastrophic physical damage as well as economic loss. This could be achieved by infecting device binaries with malware that modifies the physical characteristics of the system operation. Mitigating such attacks benefits from reverse engineering tools that recover sufficient semantic knowledge in terms of mathematical equations of the implemented algorithm. Conventional reverse engineering tools can decompile binaries to low-level code, but offer little semantic insight. This paper proposes the REMaQE automated framework for reverse engineering of math equations from binary executables. Improving over state-of-the-art, REMaQE handles equation parameters accessed via registers, the stack, global memory, or pointers, and can reverse engineer object-oriented implementations such as C++ classes. Using REMaQE, we discovered a bug in the Linux kernel thermal monitoring tool "tmon". To evaluate REMaQE, we generate a dataset of 25,096 binaries with math equations implemented in C and Simulink. REMaQE successfully recovers a semantically matching equation for all 25,096 binaries. REMaQE executes in 0.48 seconds on average and in up to 2 seconds for complex equations. Real-time execution enables integration in an interactive math-oriented reverse engineering workflow.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 全医用画像のワンプロンプト

One-Prompt to Segment All Medical Images ( http://arxiv.org/abs/2305.10300v4 )

ライセンス: Link先を確認
Junde Wu, Jiayuan Zhu, Yuanpei Liu, Yueming Jin, Min Xu, (参考訳) 強力なゼロショットの一般化で知られる大規模な基礎モデルは、視覚および言語応用に優れている。 しかし、様々な画像タイプとターゲットラベルを持つ領域である医療画像セグメンテーションにそれらを適用することは、未解決の課題である。 SAM(Segment Anything Model)のようなインタラクティブセグメンテーションモデルの適用など、現在のアプローチでは、推論中に各サンプルに対してユーザプロンプトが必要になる。 あるいは、少数/1ショットモデルのような転送学習手法では、ラベル付きサンプルが要求されるため、高いコストがかかる。 本稿では「ワン・プロンプト・セグメンテーション」と呼ばれる普遍的な医用画像セグメンテーションに向けた新しいパラダイムを紹介する。 ワン・プロンプト・セグメンテーションはワンショットとインタラクティブな手法の強みを組み合わせたものである。 推論段階では、textbf{one prompt sample} だけで、単一のフォワードパスで目に見えないタスクを順応的に処理できる。 私たちは64のオープンソース医療データセットでOne-Prompt Modelをトレーニングし、3,000以上のクリニックラベルのプロンプトを収集しています。 以前にない14のデータセットでテストされたOne-Prompt Modelは、優れたゼロショットセグメンテーション機能を示し、幅広い関連するメソッドを上回っている。 コードとデータは \url{https://github.com/KidsWithTokens/one-prompt} としてリリースされる。

Large foundation models, known for their strong zero-shot generalization, have excelled in visual and language applications. However, applying them to medical image segmentation, a domain with diverse imaging types and target labels, remains an open challenge. Current approaches, such as adapting interactive segmentation models like Segment Anything Model (SAM), require user prompts for each sample during inference. Alternatively, transfer learning methods like few/one-shot models demand labeled samples, leading to high costs. This paper introduces a new paradigm toward the universal medical image segmentation, termed 'One-Prompt Segmentation.' One-Prompt Segmentation combines the strengths of one-shot and interactive methods. In the inference stage, with just \textbf{one prompted sample}, it can adeptly handle the unseen task in a single forward pass. We train One-Prompt Model on 64 open-source medical datasets, accompanied by the collection of over 3,000 clinician-labeled prompts. Tested on 14 previously unseen datasets, the One-Prompt Model showcases superior zero-shot segmentation capabilities, outperforming a wide range of related methods. The code and data is released as \url{https://github.com/KidsWithTokens/one-prompt}.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 深部時間グラフクラスタリング

Deep Temporal Graph Clustering ( http://arxiv.org/abs/2305.10738v3 )

ライセンス: Link先を確認
Meng Liu, Yue Liu, Ke Liang, Wenxuan Tu, Siwei Wang, Sihang Zhou, Xinwang Liu, (参考訳) ディープグラフクラスタリングは、教師なしシナリオにおけるモデルの表現学習能力を向上する能力のために、最近大きな注目を集めている。 それでも、重要な動的相互作用情報を捉えることのできる時間グラフの深いクラスタリングは、完全には研究されていない。 多くのクラスタリング指向の現実シナリオでは、時間グラフは静的グラフとしてのみ処理できる。 これにより、動的な情報が失われるだけでなく、膨大な計算消費がもたらされる。 そこで本研究では,時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング手法を提案する。 さらに,時間グラフクラスタリングと静的グラフクラスタリングの違いについても検討した。 提案するフレームワーク TGC の優位性を検証するため,我々は広範囲な実験を行った。 実験の結果,時間的グラフクラスタリングにより,時間と空間的要件のバランスを求める柔軟性が向上し,既存の時間的グラフ学習手法の性能を効果的に向上できることがわかった。 コードは、https://github.com/MGitHubL/Deep-Temporal-Graph-Clustering.comで公開されている。

Deep graph clustering has recently received significant attention due to its ability to enhance the representation learning capabilities of models in unsupervised scenarios. Nevertheless, deep clustering for temporal graphs, which could capture crucial dynamic interaction information, has not been fully explored. It means that in many clustering-oriented real-world scenarios, temporal graphs can only be processed as static graphs. This not only causes the loss of dynamic information but also triggers huge computational consumption. To solve the problem, we propose a general framework for deep Temporal Graph Clustering called TGC, which introduces deep clustering techniques to suit the interaction sequence-based batch-processing pattern of temporal graphs. In addition, we discuss differences between temporal graph clustering and static graph clustering from several levels. To verify the superiority of the proposed framework TGC, we conduct extensive experiments. The experimental results show that temporal graph clustering enables more flexibility in finding a balance between time and space requirements, and our framework can effectively improve the performance of existing temporal graph learning methods. The code is released: https://github.com/MGitHubL/Deep-Temporal-Graph-Clustering.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 大規模言語モデル(LLM)の単純な言語推論:盲点と盲点

Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds ( http://arxiv.org/abs/2305.14785v2 )

ライセンス: Link先を確認
Victoria Basmov, Yoav Goldberg, Reut Tsarfaty, (参考訳) 我々は,LLMの言語理解能力を,ほとんどの人間が自明な単純な推論タスクで評価する。 特にターゲットは (i)文法的に特定された内容 二 不確かさの明らかな副詞のある敷地及び (三)単調性に関するもの 我々はこれらのタスクの評価セットを設計し、ゼロショットとチェーンオブ思考の両方で実験を行い、複数のプロンプトとLLMを用いて実験を行う。 モデルはこれらの評価セットに対して中程度から低い性能を示す。 その後の実験では、密接な関係(仮定の引き金)を保ち、それらを変更すべき構文構築に前提を組み込んで、さらにモデルを混乱させ、真の関係に関係なく、特定の包接なラベルを過度に予測または過度に予測し、しばしば埋め込みコンテキストの性質を無視することを示した。 これらの結果から,LLMの言語理解能力は高く評価されているものの,最強のモデルでさえ,特定のエンタテインメントに対して盲点を持ち,特定の情報パッケージ構造は,組込み前提のセマンティクスを覆い隠す「盲点」として機能することが示唆された。

We evaluate LLMs' language understanding capacities on simple inference tasks that most humans find trivial. Specifically, we target (i) grammatically-specified entailments, (ii) premises with evidential adverbs of uncertainty, and (iii) monotonicity entailments. We design evaluation sets for these tasks and conduct experiments in both zero-shot and chain-of-thought setups, and with multiple prompts and LLMs. The models exhibit moderate to low performance on these evaluation sets. Subsequent experiments show that embedding the premise in syntactic constructions that should preserve the entailment relations (presupposition triggers) or change them (non-factives), further confuses the models, causing them to either under-predict or over-predict certain entailment labels regardless of the true relation, and often disregarding the nature of the embedding context. Overall these results suggest that, despite LLMs' celebrated language understanding capacity, even the strongest models have blindspots with respect to certain types of entailments, and certain information-packaging structures act as ``blinds'' overshadowing the semantics of the embedded premise.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 増分ランダム化平滑化認証

Incremental Randomized Smoothing Certification ( http://arxiv.org/abs/2305.19521v2 )

ライセンス: Link先を確認
Shubham Ugare, Tarun Suresh, Debangshu Banerjee, Gagandeep Singh, Sasa Misailovic, (参考訳) ランダムスムーシングベースの認証は、敵対的攻撃に対するディープニューラルネットワーク(DNN)の堅牢性証明を得るための効果的なアプローチである。 本手法はスムーズなDNNモデルを構築し,その堅牢性を統計的サンプリングにより証明するが,多くのサンプルを認証する場合,特に計算コストが高い。 さらに、スムーズなモデルが修正された場合(例えば、量子化またはプルーニング)、修正されたDNNの認証保証は保持されず、スクラッチからの再認証は違法にコストがかかる。 ランダム化スムース化のためのインクリメンタルロバストネス認証のための最初のアプローチであるIRSを提案する。 ごく少数のサンプルで近似モデルの認証を行うために、元のスムーズなモデルに対する認証保証を再利用する方法を示す。 IRSは、強力な堅牢性を保証するとともに、修正DNNの認証の計算コストを大幅に削減する。 提案手法の有効性を実験的に実証し,スクラッチから近似モデルのランダムな平滑化を適用した認証に対して,最大3倍の認証スピードアップを示す。

Randomized smoothing-based certification is an effective approach for obtaining robustness certificates of deep neural networks (DNNs) against adversarial attacks. This method constructs a smoothed DNN model and certifies its robustness through statistical sampling, but it is computationally expensive, especially when certifying with a large number of samples. Furthermore, when the smoothed model is modified (e.g., quantized or pruned), certification guarantees may not hold for the modified DNN, and recertifying from scratch can be prohibitively expensive. We present the first approach for incremental robustness certification for randomized smoothing, IRS. We show how to reuse the certification guarantees for the original smoothed model to certify an approximated model with very few samples. IRS significantly reduces the computational cost of certifying modified DNNs while maintaining strong robustness guarantees. We experimentally demonstrate the effectiveness of our approach, showing up to 3x certification speedup over the certification that applies randomized smoothing of the approximate model from scratch.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 神経放射場の内部構造解析

Analyzing the Internals of Neural Radiance Fields ( http://arxiv.org/abs/2306.00696v2 )

ライセンス: Link先を確認
Lukas Radl, Andreas Kurz, Michael Steiner, Markus Steinberger, (参考訳) 現代のニューラルラジアンス場(NeRF)は,提案するネットワークサンプリングを用いた位置から体積密度へのマッピングを学習する。 2つのNeRFによる粗大なサンプリング手法とは対照的に、ネットワーク容量の低下による加速には大きな可能性がある。 NeRFは、そのネットワーク容量のほとんどを放射率の推定に利用しているため、パラメータやその深い特徴に貴重な密度情報を格納することができる。 この提案を検討するために、我々は、粗大なサンプリングに使用される大規模で訓練されたReLU-MLPを分析し、分析する。 新たな活性化可視化手法を用いて, トレーニングされたNeRF, Mip-NeRF, 提案したネットワークサンプルが, 活性化特徴空間の光線に沿った局所最小値に高密度のサンプルをマッピングすることを確認した。 トレーニングプロトコルやネットワークアーキテクチャを変更することなく、中間活性化を重み推定に変換することで、これらの大きなMLPをどのように加速するかを示す。 提案手法では,レンダリング品質をわずかに損なうことなく,トレーニング済みのNeRFの計算要求を最大50%削減できる。 様々なデータセットやアーキテクチャに関する大規模な実験的評価は、我々のアプローチの有効性を実証している。 その結果,NeRFの内部動作に関する貴重な知見が得られた。

Modern Neural Radiance Fields (NeRFs) learn a mapping from position to volumetric density leveraging proposal network samplers. In contrast to the coarse-to-fine sampling approach with two NeRFs, this offers significant potential for acceleration using lower network capacity. Given that NeRFs utilize most of their network capacity to estimate radiance, they could store valuable density information in their parameters or their deep features. To investigate this proposition, we take one step back and analyze large, trained ReLU-MLPs used in coarse-to-fine sampling. Building on our novel activation visualization method, we find that trained NeRFs, Mip-NeRFs and proposal network samplers map samples with high density to local minima along a ray in activation feature space. We show how these large MLPs can be accelerated by transforming intermediate activations to a weight estimate, without any modifications to the training protocol or the network architecture. With our approach, we can reduce the computational requirements of trained NeRFs by up to 50% with only a slight hit in rendering quality. Extensive experimental evaluation on a variety of datasets and architectures demonstrates the effectiveness of our approach. Consequently, our methodology provides valuable insight into the inner workings of NeRFs.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# CountSketchにおける位置学習

Learning the Positions in CountSketch ( http://arxiv.org/abs/2306.06611v2 )

ライセンス: Link先を確認
Yi Li, Honghao Lin, Simin Liu, Ali Vakilian, David P. Woodruff, (参考訳) 本稿では、まずランダムなスケッチ行列と乗算してデータを圧縮し、次にスケッチを適用して最適化問題、例えば低ランク近似と回帰を迅速に解決するスケッチアルゴリズムについて考察する。 ――\cite{indyk2019learning} が提唱する学習ベーススケッチのパラダイムでは、スケッチ行列はランダムなスパース行列,eg, CountSketch を選択して見出され、トレーニングデータセット上で勾配降下を実行することで、その非ゼロエントリの値が更新される。 このパラダイムに関する研究の活発化にもかかわらず、注目すべき省略点は、以前のアルゴリズムのゼロでないエントリの位置が固定され、それらの値のみが学習されたことである。 本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。 最初の提案アルゴリズムは欲求アルゴリズムに基づく。 しかし、greedyアルゴリズムの欠点の1つは、訓練時間が遅いことである。 この問題を修正し,2次最適化のための低ランク近似とヘッセン近似の両方に対するスケッチ行列の学習手法を提案する。 後者は、LASSOや核ノルム制約による行列推定など、様々な制約付き最適化問題に有用である。 どちらのアプローチも高速な実行時間で精度が良い。 さらに,本実験では,訓練行列数が極めて少ない場合でも,アルゴリズムが誤差を大幅に低減できることを示した。

We consider sketching algorithms which first compress data by multiplication with a random sketch matrix, and then apply the sketch to quickly solve an optimization problem, e.g., low-rank approximation and regression. In the learning-based sketching paradigm proposed by~\cite{indyk2019learning}, the sketch matrix is found by choosing a random sparse matrix, e.g., CountSketch, and then the values of its non-zero entries are updated by running gradient descent on a training data set. Despite the growing body of work on this paradigm, a noticeable omission is that the locations of the non-zero entries of previous algorithms were fixed, and only their values were learned. In this work, we propose the first learning-based algorithms that also optimize the locations of the non-zero entries. Our first proposed algorithm is based on a greedy algorithm. However, one drawback of the greedy algorithm is its slower training time. We fix this issue and propose approaches for learning a sketching matrix for both low-rank approximation and Hessian approximation for second order optimization. The latter is helpful for a range of constrained optimization problems, such as LASSO and matrix estimation with a nuclear norm constraint. Both approaches achieve good accuracy with a fast running time. Moreover, our experiments suggest that our algorithm can still reduce the error significantly even if we only have a very limited number of training matrices.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# Neural Hilbert Ladders:関数空間における多層ニューラルネットワーク

Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space ( http://arxiv.org/abs/2307.01177v2 )

ライセンス: Link先を確認
Zhengdao Chen, (参考訳) ニューラルネットワーク(NN)によって探索される関数空間を特徴付けることは、学習理論の重要な側面である。 この研究において、多層NNが暗黙的にカーネルヒルベルト空間(RKHS)の階層を生成することに注意し、関数空間をRKHSの無限結合として定義し、2層NNの既存のバロン空間理論を一般化する。 すると、新しい空間のいくつかの理論的性質を確立する。 まず,L層NNとLレベルNHLに属する関数の対応性を示す。 第2に,制御された複雑性尺度を用いてNHLを学習するための一般化保証を証明した。 第三に、無限幅平均場限界における多層NNのトレーニングによって引き起こされるNHLの進化を支配するランダムフィールドの非マルコフ力学を導出する。 第4に,NHLにおけるReLU活性化関数の下での深度分離の例を示す。 最後に,NHLのレンズによるNNトレーニングの特徴学習の側面を説明するための数値実験を行った。

To characterize the function space explored by neural networks (NNs) is an important aspect of learning theory. In this work, noticing that a multi-layer NN generates implicitly a hierarchy of reproducing kernel Hilbert spaces (RKHSs) - named a neural Hilbert ladder (NHL) - we define the function space as an infinite union of RKHSs, which generalizes the existing Barron space theory of two-layer NNs. We then establish several theoretical properties of the new space. First, we prove a correspondence between functions expressed by L-layer NNs and those belonging to L-level NHLs. Second, we prove generalization guarantees for learning an NHL with a controlled complexity measure. Third, we derive a non-Markovian dynamics of random fields that governs the evolution of the NHL which is induced by the training of multi-layer NNs in an infinite-width mean-field limit. Fourth, we show examples of depth separation in NHLs under the ReLU activation function. Finally, we perform numerical experiments to illustrate the feature learning aspect of NN training through the lens of NHLs.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 弱修正変化検出のための効果的な事前及び効率的なモデル探索

Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection ( http://arxiv.org/abs/2307.10853v4 )

ライセンス: Link先を確認
Zhenghui Zhao, Lixiang Ru, Chen Wu, (参考訳) 弱教師付き変化検出(WSCD)は、画像レベルのアノテーションだけでピクセルレベルの変化を検出することを目的としている。 ラベルの効率のため、WSCDは最近注目を集めている。 しかし、現在のWSCDメソッドは、画像レベルのアノテーションとピクセルレベルの予測の不整合など、変更の欠如と製造の難しさにしばしば遭遇する。 特に、変化の欠如は、画像レベルのラベルが変化しているにもかかわらず、WSCDモデルが変化したピクセルを予測できない状況と、その逆は変化の作り方である。 この課題に対処するため、WSCDにおけるグローバルスケールおよびローカルスケールの事前処理を活用し、Dilated Prior(DP)デコーダとLabel Gated(LG)制約という2つのコンポーネントを提案する。 DPデコーダは、変更された画像レベルラベルでサンプルをデコードし、変更されていないラベルでサンプルをスキップし、すべて変更されていないピクセルレベルラベルで置き換える。 LGの制約は、変化した表現と画像レベルのラベルの対応から派生し、変化状態の誤予測時にモデルをペナルティ化する。 さらに,変更検出における弱教師付き学習の可能性を示す,シンプルながら強力なトランスフォーマーベースモデルであるTransWCDを開発した。 DPデコーダとLG制約をTransWCDに統合することにより、TransWCD-DLを形成する。 提案したTransWCDとTransWCD-DLは,WHU-CDデータセットの最先端手法に対して,それぞれ有意な+6.33%,+9.55%のF1スコアを達成している。 いくつかのパフォーマンス指標は、FSCD(Full-supervised Change Detection)の競合よりも多い。 コードはhttps://github.com/zhenghuizhao/TransWCDで入手できる。

Weakly-supervised change detection (WSCD) aims to detect pixel-level changes with only image-level annotations. Owing to its label efficiency, WSCD is drawing increasing attention recently. However, current WSCD methods often encounter the challenge of change missing and fabricating, i.e., the inconsistency between image-level annotations and pixel-level predictions. Specifically, change missing refer to the situation that the WSCD model fails to predict any changed pixels, even though the image-level label indicates changed, and vice versa for change fabricating. To address this challenge, in this work, we leverage global-scale and local-scale priors in WSCD and propose two components: a Dilated Prior (DP) decoder and a Label Gated (LG) constraint. The DP decoder decodes samples with the changed image-level label, skips samples with the unchanged label, and replaces them with an all-unchanged pixel-level label. The LG constraint is derived from the correspondence between changed representations and image-level labels, penalizing the model when it mispredicts the change status. Additionally, we develop TransWCD, a simple yet powerful transformer-based model, showcasing the potential of weakly-supervised learning in change detection. By integrating the DP decoder and LG constraint into TransWCD, we form TransWCD-DL. Our proposed TransWCD and TransWCD-DL achieve significant +6.33% and +9.55% F1 score improvements over the state-of-the-art methods on the WHU-CD dataset, respectively. Some performance metrics even exceed several fully-supervised change detection (FSCD) competitors. Code will be available at https://github.com/zhenghuizhao/TransWCD.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# 画像処理のための深層マルチ閾値スパイキングUNet

Deep Multi-Threshold Spiking-UNet for Image Processing ( http://arxiv.org/abs/2307.10974v4 )

ライセンス: Link先を確認
Hebei Li, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun, (参考訳) U-Netは単純だが効率的なアーキテクチャで知られており、画像処理タスクに広く利用されており、特にニューロモルフィックチップへの展開に適している。 本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。 効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。 情報損失問題に対処するため、スパイキングUNet内の情報伝達効率を向上させるマルチ閾値スパイキングニューロンを導入する。 トレーニング戦略では、事前トレーニングされたU-Netモデルを活用する変換および微調整パイプラインを採用する。 変換過程において、スキップ接続を利用する場合、異なる部分にわたるデータ分布の有意な変動が観察される。 そこで本研究では,不正確な点火を防止するための接続ワイド正規化手法を提案する。 さらに,変換したモデルを微調整するフローベーストレーニング手法を採用し,性能を保ちながら時間ステップを短縮する。 実験の結果,画像のセグメンテーションやデノイングでは,既存のSNN手法を超越して,スパイキング・UNetの非スパイキング手法に匹敵する性能が得られた。 微調整なしで変換されたSpking-UNetと比較して、Spking-UNetは推論時間を約90%削減する。 本研究は、画像処理におけるSNNの適用範囲を広げ、ニューロモルフィックエンジニアリングの分野におけるさらなる探究を促すことが期待されている。 Spiking-UNet実装のコードはhttps://github.com/SNNresearch/Spiking-UNet.comで公開されている。

U-Net, known for its simple yet efficient architecture, is widely utilized for image processing tasks and is particularly suitable for deployment on neuromorphic chips. This paper introduces the novel concept of Spiking-UNet for image processing, which combines the power of Spiking Neural Networks (SNNs) with the U-Net architecture. To achieve an efficient Spiking-UNet, we face two primary challenges: ensuring high-fidelity information propagation through the network via spikes and formulating an effective training strategy. To address the issue of information loss, we introduce multi-threshold spiking neurons, which improve the efficiency of information transmission within the Spiking-UNet. For the training strategy, we adopt a conversion and fine-tuning pipeline that leverage pre-trained U-Net models. During the conversion process, significant variability in data distribution across different parts is observed when utilizing skip connections. Therefore, we propose a connection-wise normalization method to prevent inaccurate firing rates. Furthermore, we adopt a flow-based training method to fine-tune the converted models, reducing time steps while preserving performance. Experimental results show that, on image segmentation and denoising, our Spiking-UNet achieves comparable performance to its non-spiking counterpart, surpassing existing SNN methods. Compared with the converted Spiking-UNet without fine-tuning, our Spiking-UNet reduces inference time by approximately 90\%. This research broadens the application scope of SNNs in image processing and is expected to inspire further exploration in the field of neuromorphic engineering. The code for our Spiking-UNet implementation is available at https://github.com/SNNresearch/Spiking-UNet.
翻訳日:2024-04-12 19:27:55 公開日:2024-04-11
# BCDDO: バイナリ・チャイルド・描画開発最適化

BCDDO: Binary Child Drawing Development Optimization ( http://arxiv.org/abs/2308.01270v3 )

ライセンス: Link先を確認
Abubakr S. Issa, Yossra H. Ali, Tarik A. Rashid, (参考訳) 最近作られたCDDO(Child Drawing Development Optimization)と呼ばれるメタヒューリスティックアルゴリズムは、多くのベンチマークテストで有効であることが証明されている。 本研究におけるラッパーの特徴を選択するために,BCDDO(Binary Child Drawing Development Optimization)を提案する。 最適な分類精度を達成するため、提案したBCDDOを用いて重要な特徴のサブセットを選択する。 提案手法の有効性と効率を,Harris Hawk,Grey Wolf,Salp,Whaleの最適化アルゴリズムを用いて評価した。 提案手法は, 特徴選択領域において, 分類精度を高めるために, 従来議論されていた手法よりも有意に優れていた。 この研究で使われている3つのデータセットは、適度な新型コロナウイルス、乳癌、および大きな新型コロナウイルスである。 3つのデータセットの分類精度は98.75、98.83%、99.36である。

A lately created metaheuristic algorithm called Child Drawing Development Optimization (CDDO) has proven to be effective in a number of benchmark tests. A Binary Child Drawing Development Optimization (BCDDO) is suggested for choosing the wrapper features in this study. To achieve the best classification accuracy, a subset of crucial features is selected using the suggested BCDDO. The proposed feature selection technique's efficiency and effectiveness are assessed using the Harris Hawk, Grey Wolf, Salp, and Whale optimization algorithms. The suggested approach has significantly outperformed the previously discussed techniques in the area of feature selection to increase classification accuracy. Moderate COVID, breast cancer, and big COVID are the three datasets utilized in this study. The classification accuracy for each of the three datasets was (98.75, 98.83%, and 99.36) accordingly.
翻訳日:2024-04-12 19:18:12 公開日:2024-04-11
# 加速光によるフォトニック絡み合い

Photonic entanglement with accelerated light ( http://arxiv.org/abs/2308.01764v4 )

ライセンス: Link先を確認
R. C. Souza Pimenta, G. H. dos Santos, A. B. Barreto, L. C. Celeri, P. H. Souto Ribeiro, (参考訳) 加速光はレーザー光と回折で実証されている。 回折場内では、例えば重力場によって加速されたような曲線軌道で伝播するビームエネルギーの大部分を運ぶ部分を特定することができる。 ここでは、自然パラメトリックダウンコンバージョンで発生する双対ビーム間の絡み合いに対するこの種の加速度の影響を解析する。 その結果, 理想的な条件下では, 加速度は絡み合いに大きく影響しないことがわかった。 導入された光学スキームは重力と量子物理学の境界における過程の理解に有用である。

Accelerated light has been demonstrated with laser light and diffraction. Within the diffracting field it is possible to identify a portion that carries most of the beam energy, which propagates in a curved trajectory as it would have been accelerated by a gravitational field for instance. Here, we analyze the effects of this kind of acceleration over the entanglement between twin beams produced in spontaneous parametric down-conversion. Our results show that acceleration does not affect entanglement significantly, under ideal conditions. The optical scheme introduced can be useful in the understanding of processes in the boundary between gravitation and quantum physics.
翻訳日:2024-04-12 19:18:12 公開日:2024-04-11
# IIDM:セマンティックセグメンテーションにおける半教師付きドメイン適応のためのドメイン間混合とドメイン内混合

IIDM: Inter and Intra-domain Mixing for Semi-supervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2308.15855v2 )

ライセンス: Link先を確認
Weifu Fu, Qiang Nie, Jialin Li, Yuhuan Lin, Kai Wu, Jian Li, Yabiao Wang, Yong Liu, Chengjie Wang, (参考訳) セマンティックセグメンテーションの最近の進歩にもかかわらず、必然的な課題は、実際のアプリケーションのドメインシフトによるパフォーマンス低下である。 この問題を解決するための現在の主流のアプローチは、教師なし領域適応 (Unsupervised domain adapt, UDA) である。 しかし、UDAにラベル付きターゲットデータがないことは、過度に制限され、性能が制限される。 この制限を克服するために、半教師付きドメイン適応(SSDA)と呼ばれるより実用的なシナリオが提案されている。 既存のSSDAメソッドは、UDAパラダイムから派生したもので、主にラベルのないターゲットデータとソースデータを活用することに焦点を当てている。 本稿では,ラベル付き対象データとラベル付き対象データとの間のドメイン内情報を活用することの重要性を強調する。 そこで本研究では、ドメイン間混合がソース・ターゲット領域のギャップを緩和し、ドメイン内混合が利用可能なターゲットドメイン情報を豊かにし、ネットワークがより多くのドメイン不変機能をキャプチャできる、新たなSSDAフレームワークを提案する。 また、ターゲットのドメイン情報をうまく活用するための異なるドメイン混合戦略についても検討しています。 GTA5からCityscapes、SynTHIAからCityscapesのベンチマークで実施された総合的な実験は、IIDMの有効性を示し、従来の手法をはるかに上回っている。

Despite recent advances in semantic segmentation, an inevitable challenge is the performance degradation caused by the domain shift in real applications. Current dominant approach to solve this problem is unsupervised domain adaptation (UDA). However, the absence of labeled target data in UDA is overly restrictive and limits performance. To overcome this limitation, a more practical scenario called semi-supervised domain adaptation (SSDA) has been proposed. Existing SSDA methods are derived from the UDA paradigm and primarily focus on leveraging the unlabeled target data and source data. In this paper, we highlight the significance of exploiting the intra-domain information between the labeled target data and unlabeled target data. Instead of solely using the scarce labeled target data for supervision, we propose a novel SSDA framework that incorporates both Inter and Intra Domain Mixing (IIDM), where inter-domain mixing mitigates the source-target domain gap and intra-domain mixing enriches the available target domain information, and the network can capture more domain-invariant features. We also explore different domain mixing strategies to better exploit the target domain information. Comprehensive experiments conducted on the GTA5 to Cityscapes and SYNTHIA to Cityscapes benchmarks demonstrate the effectiveness of IIDM, surpassing previous methods by a large margin.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# Crisis Transformers:危機関連ソーシャルメディアテキストのための事前訓練された言語モデルと文エンコーダ

CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts ( http://arxiv.org/abs/2309.05494v3 )

ライセンス: Link先を確認
Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera, (参考訳) ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。 BERTやRoBERTaのようなトランスフォーマーベースの事前学習モデルは、様々なNLPタスクで成功したが、危機関連のテキストには適していない。 さらに,危機関連テキストのテキストの複雑さに関わらず,汎用文エンコーダを用いて文埋め込みを生成する。 テキスト分類、セマンティック検索、クラスタリングなどの応用の進歩は、危機関連のテキストの効果的な処理に寄与する。 この研究は、危機情報文学におけるこれらのギャップを解決するために、CrisisTransformersを紹介します。CrisisTransformersは、事前訓練された言語モデルと文エンコーダのアンサンブルで、病気の発生、自然災害、紛争、その他の重大な出来事を含む30以上の危機イベントに関連するツイートから、150億以上のワードトークンの広範なコーパスで訓練された。 我々は18の危機特化公開データセット上で既存のモデルと危機トランスフォーマーを評価した。 事前学習されたモデルは、分類タスクにおいて、すべてのデータセットで強いベースラインを上回り、最高のパフォーマンスの文エンコーダは、文章エンコーディングタスクの17.43%の最先端を改善する。 さらに,モデル初期化が収束に与える影響について検討し,意味的に意味のある文の埋め込みを生成する上でのドメイン固有モデルの重要性を評価する。 モデルは、https://huggingface.co/crisistransformers.comで公開されている。

Social media platforms play an essential role in crisis communication, but analyzing crisis-related social media texts is challenging due to their informal nature. Transformer-based pre-trained models like BERT and RoBERTa have shown success in various NLP tasks, but they are not tailored for crisis-related texts. Furthermore, general-purpose sentence encoders are used to generate sentence embeddings, regardless of the textual complexities in crisis-related texts. Advances in applications like text classification, semantic search, and clustering contribute to the effective processing of crisis-related texts, which is essential for emergency responders to gain a comprehensive view of a crisis event, whether historical or real-time. To address these gaps in crisis informatics literature, this study introduces CrisisTransformers, an ensemble of pre-trained language models and sentence encoders trained on an extensive corpus of over 15 billion word tokens from tweets associated with more than 30 crisis events, including disease outbreaks, natural disasters, conflicts, and other critical incidents. We evaluate existing models and CrisisTransformers on 18 crisis-specific public datasets. Our pre-trained models outperform strong baselines across all datasets in classification tasks, and our best-performing sentence encoder improves the state-of-the-art by 17.43% in sentence encoding tasks. Additionally, we investigate the impact of model initialization on convergence and evaluate the significance of domain-specific models in generating semantically meaningful sentence embeddings. The models are publicly available at: https://huggingface.co/crisistransformers
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# 操作的に独立な事象は量子論において互いに影響を及ぼすことができる

Operationally independent events can influence each other in quantum theory ( http://arxiv.org/abs/2309.06488v3 )

ライセンス: Link先を確認
Shubhayan Sarkar, (参考訳) 自然の既知の記述では、2つの物理系が互いに独立であると見なされるが、一方の系に対する何らかの作用が他方の系を変えない場合である。 世界に関する我々の古典的な直観から、これらの2つの系はいかなる方法でも影響を受けておらず、したがってこれら2つの系は因果的に切断されているか、互いに影響を与えていないと結論づける。 この考えに基づいて、量子論において古典的独立の概念が満たされていないこと、すなわち、2つの量子系は、一方の系の何らかの操作が他方に観測可能な影響を生じさせない場合でも、互いに影響しあうことができることを示す。 我々の目的のために、量子ネットワークの枠組みを考察し、クレーター=ホルン=シモニー=ホルト不等式を利用した線形証人を構築する。 また、量子状態と測定値のデバイス非依存認証に対する古典的独立性の最大違反から生じる興味深い応用の1つについても論じる。

In any known description of nature, two physical systems are considered independent of each other if any action on one of the systems does not change the other system. From our classical intuitions about the world, we further conclude that these two systems are not affecting each other in any possible way, and thus these two systems are causally disconnected or they do not influence each other. Building on this idea, we show that in quantum theory such a notion of classical independence is not satisfied, that is, two quantum systems can still influence each other even if any operation on one of the systems does not create an observable effect on the other. For our purpose, we consider the framework of quantum networks and construct a linear witness utilizing the Clauser-Horne-Shimony-Holt inequality. We also discuss one of the interesting applications resulting from the maximal violation of classical independence towards device-independent certification of quantum states and measurements.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# 惑星間ナビゲーションのための自律型視覚ベースアルゴリズム

An Autonomous Vision-Based Algorithm for Interplanetary Navigation ( http://arxiv.org/abs/2309.09590v2 )

ライセンス: Link先を確認
Eleonora Andreis, Paolo Panicucci, Francesco Topputo, (参考訳) 深宇宙探査機の急増により、標準のラジオメトリック・トラッキングでそれらをナビゲートすることは不可能になった。 自走型惑星間衛星はこの問題の解決策である。 本研究では、軌道決定法と、自律プラットフォーム間の惑星間移動に適した画像処理パイプラインを組み合わせることで、完全な視覚に基づくナビゲーションアルゴリズムを構築する。 アルゴリズムの計算効率を高めるために、深宇宙画像から抽出された惑星の位置によって供給される状態推定器として、非次元拡張カルマンフィルタが選択される。 最適な1組の惑星を追尾するための最適な戦略を適用することにより、推定精度の向上を行う。 さらに,光収差と光時間効果を1次近似した新しい深宇宙航法解析モデルを開発した。 アルゴリズムの性能は高忠実な地球上でテストされ、火星間移動が深宇宙航法に適用可能であることを示す。

The surge of deep-space probes makes it unsustainable to navigate them with standard radiometric tracking. Self-driving interplanetary satellites represent a solution to this problem. In this work, a full vision-based navigation algorithm is built by combining an orbit determination method with an image processing pipeline suitable for interplanetary transfers of autonomous platforms. To increase the computational efficiency of the algorithm, a non-dimensional extended Kalman filter is selected as state estimator, fed by the positions of the planets extracted from deep-space images. An enhancement of the estimation accuracy is performed by applying an optimal strategy to select the best pair of planets to track. Moreover, a novel analytical measurement model for deep-space navigation is developed providing a first-order approximation of the light-aberration and light-time effects. Algorithm performance is tested on a high-fidelity, Earth--Mars interplanetary transfer, showing the algorithm applicability for deep-space navigation.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# SE(3)-Stochastic Flow Matching for protein Backbone Generation (特集 バイオサイバネティックスとバイオサイバネティックス)

SE(3)-Stochastic Flow Matching for Protein Backbone Generation ( http://arxiv.org/abs/2310.02391v4 )

ライセンス: Link先を確認
Avishek Joey Bose, Tara Akhound-Sadegh, Guillaume Huguet, Kilian Fatras, Jarrid Rector-Brooks, Cheng-Hao Liu, Andrei Cristian Nica, Maksym Korablyov, Michael Bronstein, Alexander Tong, (参考訳) 新規タンパク質構造の計算設計は、多くの科学分野に大きな影響を与える可能性がある。 この目標に向けて、FoldFlowを紹介します。FoldFlowは、フローマッチングパラダイムに基づくモデリングパワーを3ドル(約3,300円)以上の剛性運動(つまり、グループ$\text{SE}(3)$)で増加させ、タンパク質のバックボーンの正確なモデリングを可能にします。 最初にFoldFlow-Baseを紹介した。FoldFlow-Baseは決定論的連続時間力学を学習するためのシミュレーションのないアプローチで、$\text{SE}(3)$で不変なターゲット分布をマッチングする。 次に、FoldFlow-OTを作成するためにリーマン最適輸送を組み込むことで、より単純で安定したフローの構築に繋がる訓練を加速する。 最後に、FoldFlow-SFMを設計し、Riemannian OTとシミュレーションなしのトレーニングを結合して、$\text{SE}(3)$上の確率的連続時間ダイナミクスを学習する。 FoldFlowのファミリーである生成モデルは、タンパク質の生成モデルに対する従来のアプローチよりもいくつかの重要な利点を提供している:それらは拡散ベースのアプローチよりも安定で訓練が速い。 実験により、FoldFlowは、最大300ドルのアミノ酸でタンパク質のバックボーンを生成することで、高品質で多種多様で斬新なサンプルを生み出すことを実証した。

The computational design of novel protein structures has the potential to impact numerous scientific disciplines greatly. Toward this goal, we introduce FoldFlow, a series of novel generative models of increasing modeling power based on the flow-matching paradigm over $3\mathrm{D}$ rigid motions -- i.e. the group $\text{SE}(3)$ -- enabling accurate modeling of protein backbones. We first introduce FoldFlow-Base, a simulation-free approach to learning deterministic continuous-time dynamics and matching invariant target distributions on $\text{SE}(3)$. We next accelerate training by incorporating Riemannian optimal transport to create FoldFlow-OT, leading to the construction of both more simple and stable flows. Finally, we design FoldFlow-SFM, coupling both Riemannian OT and simulation-free training to learn stochastic continuous-time dynamics over $\text{SE}(3)$. Our family of FoldFlow, generative models offers several key advantages over previous approaches to the generative modeling of proteins: they are more stable and faster to train than diffusion-based approaches, and our models enjoy the ability to map any invariant source distribution to any invariant target distribution over $\text{SE}(3)$. Empirically, we validate FoldFlow, on protein backbone generation of up to $300$ amino acids leading to high-quality designable, diverse, and novel samples.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# 遅延からリッチトレーニングダイナミクスへの移行としてのグロッキング

Grokking as the Transition from Lazy to Rich Training Dynamics ( http://arxiv.org/abs/2310.06110v3 )

ライセンス: Link先を確認
Tanishq Kumar, Blake Bordelon, Samuel J. Gershman, Cengiz Pehlevan, (参考訳) ニューラルネットワークの列車損失がテスト損失よりもはるかに早く減少するグルーキング現象は、遅延学習力学からリッチな特徴学習体制に移行するニューラルネットワークによって生じる可能性がある。 このメカニズムを説明するために,従来の理論では説明できない方法で正規化せずにグラクキングを示す2層ニューラルネットワークを用いて,多項式回帰問題に対するバニラ勾配勾配の簡単な設定について検討した。 このようなネットワークのテスト損失に関する十分な統計を同定し,ネットワークが最初にカーネル回帰解を初期特徴に適合させようとしたとき,この設定でグラッキングが発生することを示す。 grokkingの主要な決定要因は、ネットワーク出力をスケールするパラメータによって正確に制御できる機能学習の速度と、ターゲット関数の$y(x)$と初期機能のアライメントである。 この遅延一般化は,(1)初期ニューラルタンジェントカーネルの上位固有ベクトルとタスクラベルの$y(x)$が一致しない場合に生じるが,(2)データセットのサイズが十分に大きくなり,最終的にネットワークが一般化できるが,列車の損失が全てのエポックにおけるテスト損失を完全に追跡するほど大きくなく,(3)ネットワークが遅延状態のトレーニングを開始し,すぐに特徴を学習しない場合に生じる。 我々は、この遅延(線形モデル)からリッチトレーニング(フィーチャーラーニング)への移行が、MNISTや一層トランスフォーマー、学生教師ネットワークなど、より一般的な環境でのグラッキングを制御できることを示す。

We propose that the grokking phenomenon, where the train loss of a neural network decreases much earlier than its test loss, can arise due to a neural network transitioning from lazy training dynamics to a rich, feature learning regime. To illustrate this mechanism, we study the simple setting of vanilla gradient descent on a polynomial regression problem with a two layer neural network which exhibits grokking without regularization in a way that cannot be explained by existing theories. We identify sufficient statistics for the test loss of such a network, and tracking these over training reveals that grokking arises in this setting when the network first attempts to fit a kernel regression solution with its initial features, followed by late-time feature learning where a generalizing solution is identified after train loss is already low. We find that the key determinants of grokking are the rate of feature learning -- which can be controlled precisely by parameters that scale the network output -- and the alignment of the initial features with the target function $y(x)$. We argue this delayed generalization arises when (1) the top eigenvectors of the initial neural tangent kernel and the task labels $y(x)$ are misaligned, but (2) the dataset size is large enough so that it is possible for the network to generalize eventually, but not so large that train loss perfectly tracks test loss at all epochs, and (3) the network begins training in the lazy regime so does not learn features immediately. We conclude with evidence that this transition from lazy (linear model) to rich training (feature learning) can control grokking in more general settings, like on MNIST, one-layer Transformers, and student-teacher networks.
翻訳日:2024-04-12 19:18:11 公開日:2024-04-11
# せん断LLaMA:構造化プルーニングによる言語モデル事前学習の高速化

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning ( http://arxiv.org/abs/2310.06694v2 )

ライセンス: Link先を確認
Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen, (参考訳) LLaMA (Touvron et al , 2023a;b) や最近登場した中等サイズの大規模言語モデル (LLM) の人気は、小さいが強力なLLMを構築する可能性を強調している。 いずれにせよ、数兆のトークンをゼロからトレーニングするコストは高いままである。 本研究では,事前学習された大規模モデルからより小型のLCMを開発するための効果的な方法として,構造化プルーニングについて検討する。 提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの主要な手法を用いる。 我々は,LLaMA2-7Bモデルを1.3Bおよび2.7Bパラメータに抽出し,せん断-LLaMAシリーズを提示し,本手法の有効性を実証した。 Sheared-LLaMAモデルは、Pythia、INCITE、OpenLLaMA、およびTinyLlamaモデルのような同等サイズの最先端のオープンソースモデルよりも幅広いダウンストリームおよびインストラクションチューニング評価において、スクラッチからのトレーニングに比べて計算の3%しか必要としない。 この研究は、既存のLLMを構造化プルーニングで活用することは、競争力のある小規模LLMを構築する上で、はるかにコスト効率の良いアプローチである、という説得力のある証拠を提供する。

The popularity of LLaMA (Touvron et al., 2023a;b) and other recently emerged moderate-sized large language models (LLMs) highlights the potential of building smaller yet powerful LLMs. Regardless, the cost of training such models from scratch on trillions of tokens remains high. In this work, we study structured pruning as an effective means to develop smaller LLMs from pre-trained, larger models. Our approach employs two key techniques: (1) targeted structured pruning, which prunes a larger model to a specified target shape by removing layers, heads, and intermediate and hidden dimensions in an end-to-end manner, and (2) dynamic batch loading, which dynamically updates the composition of sampled data in each training batch based on varying losses across different domains. We demonstrate the efficacy of our approach by presenting the Sheared-LLaMA series, pruning the LLaMA2-7B model down to 1.3B and 2.7B parameters. Sheared-LLaMA models outperform state-of-the-art open-source models of equivalent sizes, such as Pythia, INCITE, OpenLLaMA and the concurrent TinyLlama models, on a wide range of downstream and instruction tuning evaluations, while requiring only 3% of compute compared to training such models from scratch. This work provides compelling evidence that leveraging existing LLMs with structured pruning is a far more cost-effective approach for building competitive small-scale LLMs
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# 潜入画像による映像からの物体の永続性学習

Learning Object Permanence from Videos via Latent Imaginations ( http://arxiv.org/abs/2310.10372v2 )

ライセンス: Link先を確認
Manuel Traub, Frederic Becker, Sebastian Otte, Martin V. Butz, (参考訳) ヒトの幼児は2か月前から物体の永続性に関する知識を持っているが、深層学習のアプローチは依然として物体の存在を認識できない。 スロットベースの自己回帰型深層学習システムLoci-Loopedを導入し,画素空間の観測で潜時想像を適応的に融合させ,時間とともに符号化を行う。 このループはLoci-Loopedに、観測だけで物体の永続性、指向性慣性、および物体の固体の物理的概念を学ぶ権限を与える。 結果として、Loci-Loopedはオクルージョンを通してオブジェクトを追跡し、その再出現を予測し、予期せぬ物体の振る舞いを観察する際に、驚きと内部の修正の兆候を示す。 特に、Loci-Loopedは、より構成的で解釈可能な内部活動パターンを示しながら、オブジェクトの閉塞や一時的な感覚中断を扱う、最先端のベースラインモデルより優れています。 そこで本研究では,映像データからオブジェクトの永続性を直接学習する自己教師あり対話型学習モデルを提案する。

While human infants exhibit knowledge about object permanence from two months of age onwards, deep-learning approaches still largely fail to recognize objects' continued existence. We introduce a slot-based autoregressive deep learning system, the looped location and identity tracking model Loci-Looped, which learns to adaptively fuse latent imaginations with pixel-space observations into consistent latent object-specific what and where encodings over time. The novel loop empowers Loci-Looped to learn the physical concepts of object permanence, directional inertia, and object solidity through observation alone. As a result, Loci-Looped tracks objects through occlusions, anticipates their reappearance, and shows signs of surprise and internal revisions when observing implausible object behavior. Notably, Loci-Looped outperforms state-of-the-art baseline models in handling object occlusions and temporary sensory interruptions while exhibiting more compositional, interpretable internal activity patterns. Our work thus introduces the first self-supervised interpretable learning model that learns about object permanence directly from video data without supervision.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# マルコフコスト過程におけるリスク推定:下・上境界

Risk Estimation in a Markov Cost Process: Lower and Upper Bounds ( http://arxiv.org/abs/2310.11389v2 )

ライセンス: Link先を確認
Gugan Thoppe, L. A. Prashanth, Sanjay Bhat, (参考訳) 我々はマルコフコストプロセスにおいて、無限水平割引コストのリスク対策を推定する問題に取り組む。 私たちが調査するリスク尺度には、分散、バリュー・アット・リスク(VaR)、条件付きバリュー・アット・リスク(CVaR)があります。 まず,これらのリスク対策を,期待値または高い確率で推定するには,少なくとも$\Omega(1/\epsilon^2)$サンプルが必要であることを示す。 そこで, トランケーション方式を用いて, CVaRの上界と分散推定を導出する。 この境界は我々の下限から対数的因子に一致する。 最後に, ある連続性基準を満たすより一般的なリスク対策, 例えばスペクトルリスク尺度, 実用性に基づく不足リスクについて検討する。 我々の知識を最大限に活用するために、我々の研究はマルコフ的な設定における平均を超えるリスク尺度を推定するために、まず下限と上限を提供する。 我々の下限は、無限水平割引コストの平均にまで及ぶ。 その場合でも、我々の$\Omega(1/\epsilon^2) の下位境界は、既存の$\Omega(1/\epsilon)$ bound [13] で改善される。

We tackle the problem of estimating risk measures of the infinite-horizon discounted cost within a Markov cost process. The risk measures we study include variance, Value-at-Risk (VaR), and Conditional Value-at-Risk (CVaR). First, we show that estimating any of these risk measures with $\epsilon$-accuracy, either in expected or high-probability sense, requires at least $\Omega(1/\epsilon^2)$ samples. Then, using a truncation scheme, we derive an upper bound for the CVaR and variance estimation. This bound matches our lower bound up to logarithmic factors. Finally, we discuss an extension of our estimation scheme that covers more general risk measures satisfying a certain continuity criterion, e.g., spectral risk measures, utility-based shortfall risk. To the best of our knowledge, our work is the first to provide lower and upper bounds for estimating any risk measure beyond the mean within a Markovian setting. Our lower bounds also extend to the infinite-horizon discounted costs' mean. Even in that case, our lower bound of $\Omega(1/\epsilon^2) $ improves upon the existing $\Omega(1/\epsilon)$ bound [13].
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# VST++: 効率的で強力なビジュアルサリエンシ変換器

VST++: Efficient and Stronger Visual Saliency Transformer ( http://arxiv.org/abs/2310.11725v2 )

ライセンス: Link先を確認
Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han, (参考訳) 従来のCNNベースのモデルでは、サルエントオブジェクト検出(SOD)の有望な結果を示しているが、グローバルな長距離依存関係を探索する能力は制限されている。 我々の以前の研究であるVisual Saliency Transformer (VST)は、RGBとRGB-D SODを統合するために、トランスフォーマに基づくシーケンス・ツー・シーケンスの観点からこの制約に対処した。 VSTでは、純粋なトランスアーキテクチャにおいて、サリエンシとバウンダリ結果の同時予測を行うマルチタスクトランスフォーマーデコーダを開発した。 さらに, 逆T2Tと呼ばれる新しいトークンアップサンプリング手法を導入し, トランスフォーマー構造内における高分解能サリエンシマップの予測を行った。 VSTモデルに基づいて、この作業においてより効率的で強力なVSTバージョン、すなわちVST++を提案する。 VSTモデルの計算コストを軽減するため,Select-Integrate Attention (SIA)モジュールを提案し,前景を細かなセグメントに分割し,背景情報を粗いトークンに集約する。 低コストで3次元深度情報を組み込むために,深度マップに適した新しい深度位置符号化法を設計する。 さらに,タスク関連トークンの簡単なガイダンスを提供するために,トークン管理による予測損失を導入する。 我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、様々なトランスフォーマーベースのバックボーン間でVST++モデルを評価する。 実験結果から,提案手法は計算コストの25%削減を達成しつつ,性能を著しく損なうことなく,既存手法よりも優れていたことが示唆された。 一般化の強力な能力、性能の向上、VST++モデルの効率向上などが、その可能性を浮き彫りにしている。

While previous CNN-based models have exhibited promising results for salient object detection (SOD), their ability to explore global long-range dependencies is restricted. Our previous work, the Visual Saliency Transformer (VST), addressed this constraint from a transformer-based sequence-to-sequence perspective, to unify RGB and RGB-D SOD. In VST, we developed a multi-task transformer decoder that concurrently predicts saliency and boundary outcomes in a pure transformer architecture. Moreover, we introduced a novel token upsampling method called reverse T2T for predicting a high-resolution saliency map effortlessly within transformer-based structures. Building upon the VST model, we further propose an efficient and stronger VST version in this work, i.e. VST++. To mitigate the computational costs of the VST model, we propose a Select-Integrate Attention (SIA) module, partitioning foreground into fine-grained segments and aggregating background information into a single coarse-grained token. To incorporate 3D depth information with low cost, we design a novel depth position encoding method tailored for depth maps. Furthermore, we introduce a token-supervised prediction loss to provide straightforward guidance for the task-related tokens. We evaluate our VST++ model across various transformer-based backbones on RGB, RGB-D, and RGB-T SOD benchmark datasets. Experimental results show that our model outperforms existing methods while achieving a 25% reduction in computational costs without significant performance compromise. The demonstrated strong ability for generalization, enhanced performance, and heightened efficiency of our VST++ model highlight its potential.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# 非Hermitian off-diagonal disorderの局在

Localization with non-Hermitian off-diagonal disorder ( http://arxiv.org/abs/2310.13744v2 )

ライセンス: Link先を確認
Aitijhya Saha, Debraj Rakshit, (参考訳) 本研究では,一次元一粒子強結合モデルを用いて記述された非エルミート系について論じる。非ハーミティシティは,左右ホッピング強度が不等であるような,ランダムに近接する近傍トンネルによって支配される。 完全実固有スペクトルの物理的状況は、共役近傍トンネル項の積の単純な符号保存の下でハミルトンの三角行列構造によって生じる。 対角線外障害は、非エルミート系を有限系における非局在化-局在化クロスオーバーへと導く。 クロスオーバーの創発的な性質は、有限サイズのスペクトル解析によって認識される。 この系は熱力学限界における無限小障害強度の局在相に入る。 我々は、局所化長、逆参加比(IPR)、エネルギー分割の慎重なスケーリング分析を行い、対応するスケーリング指数を報告する。 特に、対角障害とは対照的に、状態密度(DOS)は、外対角障害の存在下ではE=0の特異点を持ち、対応する波動関数は、任意の障害強度に対して非局在化されている。

In this work, we discuss a non-Hermitian system described via a one-dimensional single-particle tight-binding model, where the non-Hermiticity is governed by random nearest-neighbour tunnellings, such that the left-to-right and right-to-left hopping strengths are unequal. A physical situation of completely real eigenspectrum arises owing to the Hamiltonian's tridiagonal matrix structure under a simple sign conservation of the product of the conjugate nearest-neighbour tunnelling terms. The off-diagonal disorder leads the non-Hermitian system to a delocalization-localization crossover in finite systems. The emergent nature of the crossover is recognized through a finite-size spectral analysis. The system enters into a localized phase for infinitesimal disorder strength in the thermodynamic limit. We perform a careful scaling analysis of localization length, inverse participation ratio (IPR), and energy splitting and report the corresponding scaling exponents. Noticeably, in contrast to the diagonal disorder, the density of states (DOS) has a singularity at E=0 in the presence of the off-diagonal disorder and the corresponding wavefunction remains delocalized for any given disorder strength.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# テンソル分解に基づくスパイクニューラルネットワーク用アテンションモジュール

Tensor Decomposition Based Attention Module for Spiking Neural Networks ( http://arxiv.org/abs/2310.14576v2 )

ライセンス: Link先を確認
Haoyu Deng, Ruijie Zhu, Xuerui Qiu, Yule Duan, Malu Zhang, Liangjian Deng, (参考訳) 注意機構はスパイキングニューラルネットワーク(SNN)を改善する効果的な方法であることが証明されている。 しかし、現在のSNN入力データフローがGPU上で処理するためにテンソルに分割されているという事実から、以前の研究では、テンソルの特性を注目モジュールの実装として考慮していない。 このことは、テンソル関連理論の観点から現在のSNNを再考するきっかけとなった。 テンソル分解を用いて、線形に成長するパラメータで優れた結果を示す「textit{projected full attention} (PFA)」モジュールを設計する。 具体的には、PFA は \textit{linear projection of spike tensor} (LPST) モジュールと \textit{attention map composing} (AMC) モジュールによって構成される。 LPSTでは、各次元について学習可能なパラメータを持つ1つのプロパティ保存戦略を用いて、元のスパイクテンソルを3つの射影テンソルに圧縮することから始める。 そして、AMCでは、テンソル分解過程の逆手順を利用して、3つのテンソルを連結係数を用いて注意マップに結合する。 提案するPFAモジュールの有効性を検証するため,広く使用されているVGGとResNetアーキテクチャを統合して分類処理を行う。 提案手法は,静的ベンチマークと動的ベンチマークの両方において,トランスフォーマーベースとCNNベースのバックボーンを用いた既存のSNNモデルを上回る,最先端のパフォーマンスを実現する。

The attention mechanism has been proven to be an effective way to improve spiking neural network (SNN). However, based on the fact that the current SNN input data flow is split into tensors to process on GPUs, none of the previous works consider the properties of tensors to implement an attention module. This inspires us to rethink current SNN from the perspective of tensor-relevant theories. Using tensor decomposition, we design the \textit{projected full attention} (PFA) module, which demonstrates excellent results with linearly growing parameters. Specifically, PFA is composed by the \textit{linear projection of spike tensor} (LPST) module and \textit{attention map composing} (AMC) module. In LPST, we start by compressing the original spike tensor into three projected tensors using a single property-preserving strategy with learnable parameters for each dimension. Then, in AMC, we exploit the inverse procedure of the tensor decomposition process to combine the three tensors into the attention map using a so-called connecting factor. To validate the effectiveness of the proposed PFA module, we integrate it into the widely used VGG and ResNet architectures for classification tasks. Our method achieves state-of-the-art performance on both static and dynamic benchmark datasets, surpassing the existing SNN models with Transformer-based and CNN-based backbones.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# FloCoDe: 時間一貫性と相関バイアスを考慮した非バイアス動的シーングラフ生成

FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing ( http://arxiv.org/abs/2310.16073v2 )

ライセンス: Link先を確認
Anant Khandelwal, (参考訳) ビデオからの動的シーングラフ生成(SGG)は、シーン全体にわたるオブジェクトの包括的な理解だけでなく、時間的動きと異なるオブジェクトとの相互作用をキャプチャする手法も必要である。 さらに、視覚的関係の長期分布は、ほとんどの動的SGG法にとって重要なボトルネックである。 これは、多くの場合、複雑なアーキテクチャを使って時空間をキャプチャすることに集中しており、バイアスのあるシーングラフが生成されるためである。 これらの課題に対処するために、非バイアスな動的シーングラフに対する不確定な減衰を伴って、 \textbf{Flo}w-aware Temporal Consistency と \textbf{Co}rrelation \textbf{De}biasingを提案する。 \textsc{FloCoDe} はフローを使ってフレーム間の時間的に一貫したオブジェクトを検出する。 視覚的関係の長期的問題に対処するために、長い尾を持つクラスに対する非バイアス付き関係表現を学習するために相関バイアスとラベル相関に基づく損失を提案する。 具体的には,コントラッシブ・ロスを用いてラベル相関を組み込むことにより,長い尾を持つクラスに対するロバストな表現の学習を支援する共通共起関係を捉えることを提案する。 さらに,SGGデータにおけるノイズの多いアノテーションを扱うために,不確実性減衰に基づく分類器フレームワークを採用する。 大規模な実験的評価により、パフォーマンスは4.1\%まで向上し、より偏りのないシーングラフを生成するという優位性を示している。

Dynamic scene graph generation (SGG) from videos requires not only a comprehensive understanding of objects across scenes but also a method to capture the temporal motions and interactions with different objects. Moreover, the long-tailed distribution of visual relationships is a crucial bottleneck for most dynamic SGG methods. This is because many of them focus on capturing spatio-temporal context using complex architectures, leading to the generation of biased scene graphs. To address these challenges, we propose \textsc{FloCoDe}: \textbf{Flo}w-aware Temporal Consistency and \textbf{Co}rrelation \textbf{De}biasing with uncertainty attenuation for unbiased dynamic scene graphs. \textsc{FloCoDe} employs feature warping using flow to detect temporally consistent objects across frames. To address the long-tail issue of visual relationships, we propose correlation debiasing and a label correlation-based loss to learn unbiased relation representations for long-tailed classes. Specifically, we propose to incorporate label correlations using contrastive loss to capture commonly co-occurring relations, which aids in learning robust representations for long-tailed classes. Further, we adopt the uncertainty attenuation-based classifier framework to handle noisy annotations in the SGG data. Extensive experimental evaluation shows a performance gain as high as 4.1\%, demonstrating the superiority of generating more unbiased scene graphs.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# RePoseDM: Pose Guided Image Synthesis における繰り返しポスアライメントとグラディエントガイダンス

RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis ( http://arxiv.org/abs/2310.16074v2 )

ライセンス: Link先を確認
Anant Khandelwal, (参考訳) ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。 人物画像は高度に構造化されているため、既存のアプローチでは複雑な変形や閉塞のために密接な接続を必要としている。 畳み込みニューラルネットワークによって生成された特徴写像は等分散を持たないため、ポーズアライメントを行うには多層ワープが必要である。 拡散モデルが与えられた条件付きガイダンスからフォトリアリスティックな画像を生成する能力にインスパイアされて,ポーズアライメントを条件付きガイダンスとして提供するために,繰り返しポーズアライメントを提案する。 条件付き誘導におけるソースポーズの漏れにより,提案手法はポーズ相互作用場からの勾配誘導を提案し,予測されたポーズを入力として与えられた有効なポーズ多様体からの距離を出力する。 これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌跡の学習に役立ちます。 2つの大規模ベンチマークとユーザスタディの広範な結果から,挑戦的なシナリオ下でのフォトリアリスティックなポーズ転送を実現するための提案手法の有効性が示された。 また,HumanArtデータセット上でのポーズ誘導画像生成における勾配誘導の効率性を示す。

Pose-guided person image synthesis task requires re-rendering a reference image, which should have a photorealistic appearance and flawless pose transfer. Since person images are highly structured, existing approaches require dense connections for complex deformations and occlusions because these are generally handled through multi-level warping and masking in latent space. The feature maps generated by convolutional neural networks do not have equivariance, and hence multi-level warping is required to perform pose alignment. Inspired by the ability of the diffusion model to generate photorealistic images from the given conditional guidance, we propose recurrent pose alignment to provide pose-aligned texture features as conditional guidance. Due to the leakage of the source pose in conditional guidance, we propose gradient guidance from pose interaction fields, which output the distance from the valid pose manifold given a predicted pose as input. This helps in learning plausible pose transfer trajectories that result in photorealism and undistorted texture details. Extensive results on two large-scale benchmarks and a user study demonstrate the ability of our proposed approach to generate photorealistic pose transfer under challenging scenarios. Additionally, we demonstrate the efficiency of gradient guidance in pose-guided image generation on the HumanArt dataset with fine-tuned stable diffusion.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# 効率的な強化学習のためのモデル予測制御に基づく値推定

Model predictive control-based value estimation for efficient reinforcement learning ( http://arxiv.org/abs/2310.16646v2 )

ライセンス: Link先を確認
Qizhen Wu, Kexin Liu, Lei Chen, (参考訳) 強化学習は、主に仮想環境との必要な相互作用の数によって、実際のプラクティスの制限に悩まされる。 これは、多くの学習方法を試行するほんのわずかの試行で、局所的な最適戦略を得ることができないため、難しい問題となる。 そこで本研究では,データ駆動手法を用いて環境をモデル化するモデル予測制御に基づく強化学習手法を設計する。 学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。 本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。 実験結果は,従来のデータベースと無人航空機の動的障害物回避シナリオの両方において,提案手法の有効性を検証した。

Reinforcement learning suffers from limitations in real practices primarily due to the number of required interactions with virtual environments. It results in a challenging problem because we are implausible to obtain a local optimal strategy with only a few attempts for many learning methods. Hereby, we design an improved reinforcement learning method based on model predictive control that models the environment through a data-driven approach. Based on the learned environment model, it performs multi-step prediction to estimate the value function and optimize the policy. The method demonstrates higher learning efficiency, faster convergent speed of strategies tending to the local optimal value, and less sample capacity space required by experience replay buffers. Experimental results, both in classic databases and in a dynamic obstacle avoidance scenario for an unmanned aerial vehicle, validate the proposed approaches.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# 人間と言語モデルにおけるソロジカル推論の体系的比較

A Systematic Comparison of Syllogistic Reasoning in Humans and Language Models ( http://arxiv.org/abs/2311.00445v2 )

ライセンス: Link先を確認
Tiwalayo Eisape, MH Tessler, Ishita Dasgupta, Fei Sha, Sjoerd van Steenkiste, Tal Linzen, (参考訳) 合理的行動の中心的な構成要素は論理的推論(英語版)であり、どの結論が前提の集合から従うかを決定する過程である。 心理学者は、人間の推論が論理の規則から逸脱するいくつかの方法を文書化してきた。 人間によって生成されたテキストで訓練された言語モデルは、そのような人間のバイアスを再現するだろうか? 2つの単純な前提から推測されるシロジズム(syllogisms)のケースに着目して、PaLM2のトランスフォーマー言語モデルでは、より大きなモデルはより小さなものよりも論理的であり、人間よりも論理的であることを示す。 それと同時に、最も大きなモデルでさえ体系的な誤りを犯し、そのうちのいくつかは人間の推論バイアスを反映している:それらは、シロジズムにおける変数の(無関係な)順序に対する感受性を示し、特定のシロジズム(シロジズムの誤記)から自信はあるが誤った推論を引き出す。 全体として、言語モデルはトレーニングデータに含まれる人間のバイアスを模倣することが多いが、場合によってはそれを克服することができる。

A central component of rational behavior is logical inference: the process of determining which conclusions follow from a set of premises. Psychologists have documented several ways in which humans' inferences deviate from the rules of logic. Do language models, which are trained on text generated by humans, replicate such human biases, or are they able to overcome them? Focusing on the case of syllogisms -- inferences from two simple premises -- we show that, within the PaLM2 family of transformer language models, larger models are more logical than smaller ones, and also more logical than humans. At the same time, even the largest models make systematic errors, some of which mirror human reasoning biases: they show sensitivity to the (irrelevant) ordering of the variables in the syllogism, and draw confident but incorrect inferences from particular syllogisms (syllogistic fallacies). Overall, we find that language models often mimic the human biases included in their training data, but are able to overcome them in some cases.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# インテリアポイント法による線形プログラミングのための量子スピードアップ

Quantum speedups for linear programming via interior point methods ( http://arxiv.org/abs/2311.03215v2 )

ライセンス: Link先を確認
Simon Apers, Sander Gribling, (参考訳) 本稿では,$d$変数上の不等式制約で線形プログラムを解くための内部点法に基づく量子アルゴリズムについて述べる。 このアルゴリズムは、最適に$\varepsilon$-closeとなる実現可能な解を明示的に返却し、時間で$\sqrt{n} \cdot \mathrm{poly}(d,\log(n),\log(1/\varepsilon)$で走る。 我々のアルゴリズムは、リーとシドフォードの最先端インテリアポイント法[FOCS~'14]におけるニュートンステップを高速化する。 これにより、障壁関数のヘシアンと勾配を効率的に近似する必要があり、これらが主な貢献である。 ヘシアンを近似するために、背の高い行列 $A に対して $A^T A$ の \emph{spectral approximation} の量子アルゴリズムを記述する。 このアルゴリズムはGrover検索と組み合わせてスコアサンプリングを利用し、$O(\sqrt{nd}/\delta)$行クエリを$A$にすることで$\delta$-approximationを返す。 これにより、Apers と de Wolf~[FOCS~'20] によるグラフスカラー化の初期の量子スピードアップが一般化される。 この勾配を近似するために、Cornelissen, Hamoudi, Jerbi [STOC '22] による多変量平均推定に最近の量子アルゴリズムを用いる。 直観的な実装はヘッセンの条件数に依存するが、スペクトル近似のために我々の量子アルゴリズムを用いて確率変数を事前条件付けすることでこれを回避している。

We describe a quantum algorithm based on an interior point method for solving a linear program with $n$ inequality constraints on $d$ variables. The algorithm explicitly returns a feasible solution that is $\varepsilon$-close to optimal, and runs in time $\sqrt{n} \cdot \mathrm{poly}(d,\log(n),\log(1/\varepsilon))$ which is sublinear for tall linear programs (i.e., $n \gg d$). Our algorithm speeds up the Newton step in the state-of-the-art interior point method of Lee and Sidford [FOCS~'14]. This requires us to efficiently approximate the Hessian and gradient of the barrier function, and these are our main contributions. To approximate the Hessian, we describe a quantum algorithm for the \emph{spectral approximation} of $A^T A$ for a tall matrix $A \in \mathbb R^{n \times d}$. The algorithm uses leverage score sampling in combination with Grover search, and returns a $\delta$-approximation by making $O(\sqrt{nd}/\delta)$ row queries to $A$. This generalizes an earlier quantum speedup for graph sparsification by Apers and de Wolf~[FOCS~'20]. To approximate the gradient, we use a recent quantum algorithm for multivariate mean estimation by Cornelissen, Hamoudi and Jerbi [STOC '22]. While a naive implementation introduces a dependence on the condition number of the Hessian, we avoid this by pre-conditioning our random variable using our quantum algorithm for spectral approximation.
翻訳日:2024-04-12 19:08:26 公開日:2024-04-11
# 極低温電子線トモグラフィーにおける脱神経・脱毛同時再建のための深層学習法

A Deep Learning Method for Simultaneous Denoising and Missing Wedge Reconstruction in Cryogenic Electron Tomography ( http://arxiv.org/abs/2311.05539v2 )

ライセンス: Link先を確認
Simon Wiedemann, Reinhard Heckel, (参考訳) 低温電子トモグラフィー(Cryogenic electron tomography)は、生体試料を3Dで撮影する技術である。 顕微鏡はサンプルの一連の2Dプロジェクションを収集し、その目標は、トモグラフィーと呼ばれるサンプルの3D密度を再構築することである。 2Dプロジェクションはノイズが多く、あらゆる方向から記録できないため、復元は難しい。 従来の逆投射フィルタで再構成された断層図は、欠落したくさびによるノイズや強いアーチファクトに悩まされていた。 本稿では,DeepDeWedgeと呼ばれるウェッジ再構築を同時に行うためのディープラーニング手法を提案する。 このアルゴリズムは、基礎となる真理データを必要としないため、ニューラルネットワークを自己教師付きロスを用いて2次元投影に適合させることに基づいている。 DeepDeWedgeは、最先端のウェッジ再構築手法であるCryoCAREやIsoNetよりも優れており、同様に、場合によっては2つの手法の組み合わせよりも優れている。 同時に、DeepDeWedgeは2段階のアプローチよりもシンプルである。

Cryogenic electron tomography is a technique for imaging biological samples in 3D. A microscope collects a series of 2D projections of the sample, and the goal is to reconstruct the 3D density of the sample called the tomogram. Reconstruction is difficult as the 2D projections are noisy and can not be recorded from all directions, resulting in a missing wedge of information. Tomograms conventionally reconstructed with filtered back-projection suffer from noise and strong artifacts due to the missing wedge. Here, we propose a deep-learning approach for simultaneous denoising and missing wedge reconstruction called DeepDeWedge. The algorithm requires no ground truth data and is based on fitting a neural network to the 2D projections using a self-supervised loss. DeepDeWedge performs better than CryoCARE and IsoNet, which are state-of-the-art methods for denoising and missing wedge reconstruction, and similarly and, in some cases, better than the combination of the two methods. At the same time, DeepDeWedge is simpler than this two-step approach, as it does denoising and missing wedge reconstruction simultaneously rather than sequentially.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# AfriMTEとAfriCOMET: COMETをアンダーソースのアフリカ言語にエンベッドする

AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages ( http://arxiv.org/abs/2311.09828v2 )

ライセンス: Link先を確認
Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Marek Masiak, Ricardo Rei, Eleftheria Briakou, Marine Carpuat, Xuanli He, Sofia Bourhim, Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Tosin Adewumi, Hamam Mokayede, Christine Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo, Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela, Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng, Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi Wamba Momo, Daud Abolade, Simbiat Ajao, Iyanuoluwa Shode, Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore, Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu, Sakayo Toadoum Sari, Yao Lu, Pontus Stenetorp, (参考訳) 近年、マルチリンガル機械翻訳(MT)をいくつかのアンダーリソースアフリカ諸言語に拡張しているにもかかわらず、BLEUのようなn-gramマッチングメトリクスで評価されることがよくあるため、正確な測定は依然として困難である。 COMETのような学習メトリクスは高い相関関係にあるが、低リソース言語に対する評価データと評価データの欠如、多次元品質基準(MQM)のようなガイドラインガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ語への適用が妨げられている。 本稿では,13のアフリカ言語に対して,誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化した高品質な人的評価データを作成することで,これらの課題に対処する。 AfriCOMET: AfriXLM-R (AfroXLM-R) によるアフリカ言語のDAデータを利用して,スピアマンランクと人間の判断との相関(0.441)に関して,アフリカ言語の最先端のMT評価指標を作成する。

Despite the recent progress on scaling multilingual machine translation (MT) to several under-resourced African languages, accurately measuring this progress remains challenging, since evaluation is often performed on n-gram matching metrics such as BLEU, which typically show a weaker correlation with human judgments. Learned metrics such as COMET have higher correlation; however, the lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with simplified MQM guidelines for error detection and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET: COMET evaluation metrics for African languages by leveraging DA data from well-resourced languages and an African-centric multilingual encoder (AfroXLM-R) to create the state-of-the-art MT evaluation metrics for African languages with respect to Spearman-rank correlation with human judgments (0.441).
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# ドローンの短期対長期協調:分散最適化が深層強化学習と出会うとき

Short vs. Long-term Coordination of Drones: When Distributed Optimization Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2311.09852v4 )

ライセンス: Link先を確認
Chuhao Qin, Evangelos Pournaras, (参考訳) リチャージ技術をサポートする自律型インタラクティブドローンの群れは、交通監視や災害対応など、スマートシティーに魅力的なセンシング機能を提供する。 本稿では,コスト効率の高いナビゲーション,センシング,リチャージのための新しいコーディネートソリューションの提供を目的とする。 ディープラーニング(DRL)のような既存のアプローチは、長期適応性を提供するが、動的環境におけるエネルギー効率、レジリエンス、柔軟性に欠ける。 そこで本研究では,各ドローンがDRLを用いて飛行方向と充電位置を独立に決定すると同時に,分散最適化によるナビゲーションとセンシングを適応し,検知時のエネルギー効率を向上する手法を提案する。 さらに、構造木通信モデルを介して意思決定自律性を保ちながら、効率的に情報交換を行う。 現実的な都市移動から生成されたデータセットによる大規模な実験は、最先端の手法と比較して、提案手法の卓越した性能を示している。 重要な新たな洞察は、長期的手法が交通管理に欠かせないドローン資源を最適化する一方で、短期的手法の統合は充電ポリシーの助言とバッテリーの安全性維持に不可欠であることを示している。

Swarms of autonomous interactive drones, with the support of recharging technology, can provide compelling sensing capabilities in Smart Cities, such as traffic monitoring and disaster response. This paper aims to deliver a novel coordination solution for the cost-effective navigation, sensing, and recharging of drones. Existing approaches, such as deep reinforcement learning (DRL), offer long-term adaptability, but lack energy efficiency, resilience, and flexibility in dynamic environments. Therefore, this paper proposes a novel approach where each drone independently determines its flying direction and recharging place using DRL, while adapting navigation and sensing through distributed optimization, which improves energy-efficiency during sensing tasks. Furthermore, drones efficiently exchange information while retaining decision-making autonomy via a structured tree communication model. Extensive experimentation with datasets generated from realistic urban mobility underscores an outstanding performance of the proposed solution compared to state-of-the-art methods. Significant new insights show that long-term methods optimize scarce drone resource for traffic management, while the integration of short-term methods is crucial for advising on charging policies and maintaining battery safety.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 異常検出器は変化の準備ができているか?AIOpsソリューションを現実世界に適応させる

Is Your Anomaly Detector Ready for Change? Adapting AIOps Solutions to the Real World ( http://arxiv.org/abs/2311.10421v2 )

ライセンス: Link先を確認
Lorena Poenaru-Olaru, Natalia Karpova, Luis Cruz, Jan Rellermeyer, Arie van Deursen, (参考訳) 異常検出技術はITシステムや運用の監視を自動化する上で不可欠である。 これらの技術は、機械学習アルゴリズムが特定の期間に対応する運用データに基づいて訓練され、新たに生まれたデータに対して継続的に評価されることを示唆している。 運用データは時間とともに常に変化しており、デプロイされた異常検出モデルのパフォーマンスに影響を与える。 したがって, 連続モデル維持は, 時間とともに異常検知器の性能を維持するために必要である。 本研究では,モデル更新頻度,すなわちブラインドモデル再トレーニングと情報モデル再トレーニングの2つの異なる異常検出モデル維持手法を解析する。 さらに、利用可能なすべてのデータ(フルヒストリーアプローチ)と最新のデータ(スライディングウインドウアプローチ)に再トレーニングすることで、モデルを更新する効果について検討する。 さらに、データ変更監視ツールが、リトレーニングによって異常検出モデルを更新する必要があるかどうかを判断できるかどうかを検討する。

Anomaly detection techniques are essential in automating the monitoring of IT systems and operations. These techniques imply that machine learning algorithms are trained on operational data corresponding to a specific period of time and that they are continuously evaluated on newly emerging data. Operational data is constantly changing over time, which affects the performance of deployed anomaly detection models. Therefore, continuous model maintenance is required to preserve the performance of anomaly detectors over time. In this work, we analyze two different anomaly detection model maintenance techniques in terms of the model update frequency, namely blind model retraining and informed model retraining. We further investigate the effects of updating the model by retraining it on all the available data (full-history approach) and only the newest data (sliding window approach). Moreover, we investigate whether a data change monitoring tool is capable of determining when the anomaly detection model needs to be updated through retraining.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 注意モデルを用いた時間パターンと周期変動の解釈によるリチウムイオン電池寿命予測のためのデータ効率の向上と特徴同定

Enhancing Data Efficiency and Feature Identification for Lithium-Ion Battery Lifespan Prediction by Deciphering Interpretation of Temporal Patterns and Cyclic Variability Using Attention-Based Models ( http://arxiv.org/abs/2311.10792v3 )

ライセンス: Link先を確認
Jaewook Lee, Seongmin Heo, Jay H. Lee, (参考訳) リチウムイオン電池の寿命を正確に予測することは、運用戦略の最適化とリスク軽減に不可欠である。 多くの研究は、バッテリー寿命を予測することを目的としているが、モデルの解釈可能性や、そのような洞察が予測をどう改善するかを調査する者はほとんどいない。 このギャップに対処するため、我々は3つの革新的なモデルを導入し、浅い注意層を以前の研究から基礎モデルに統合し、再帰的ニューラルネットワークと畳み込みニューラルネットワークの要素を組み合わせた。 よく知られている公開データセットを利用することで、方法論の有効性を実証する。 時間的注意は、重要なタイムステップを特定し、テストセルのバッチ間の違いを強調し、特に"レスト"フェーズの重要性を強調するために適用される。 さらに,文脈ベクトルに自己注意による周期的注意を適用することにより,重要なサイクルを効果的に同定し,より高速な予測を行うために,入力サイズを戦略的に減少させることができる。 単頭部および多頭部の両方の注意機構を用いて,100から50から30サイクルまでの必要な入力を体系的に最小化し,周期的注意スコアに基づいてこのプロセスを精査した。 改良されたモデルでは,入力データの初期30サイクルのみを解析することにより,58サイクルの平均偏差で高速キャパシティフェードの発生を正確に予測する。

Accurately predicting the lifespan of lithium-ion batteries is crucial for optimizing operational strategies and mitigating risks. While numerous studies have aimed at predicting battery lifespan, few have examined the interpretability of their models or how such insights could improve predictions. Addressing this gap, we introduce three innovative models that integrate shallow attention layers into a foundational model from our previous work, which combined elements of recurrent and convolutional neural networks. Utilizing a well-known public dataset, we showcase our methodology's effectiveness. Temporal attention is applied to identify critical timesteps and highlight differences among test cell batches, particularly underscoring the significance of the "rest" phase. Furthermore, by applying cyclic attention via self-attention to context vectors, our approach effectively identifies key cycles, enabling us to strategically decrease the input size for quicker predictions. Employing both single- and multi-head attention mechanisms, we have systematically minimized the required input from 100 to 50 and then to 30 cycles, refining this process based on cyclic attention scores. Our refined model exhibits strong regression capabilities, accurately forecasting the initiation of rapid capacity fade with an average deviation of only 58 cycles by analyzing just the initial 30 cycles of easily accessible input data.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 処理効果推定のための表現誘発共起バイアスの境界

Bounds on Representation-Induced Confounding Bias for Treatment Effect Estimation ( http://arxiv.org/abs/2311.11321v2 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel, (参考訳) 条件平均処理効果(CATE)推定のための最先端手法は、表現学習を広く活用する。 ここでは、(潜在的に制約された)低次元表現による低サンプルCATE推定のばらつきを低減する。 しかし、低次元の表現は、観測された共同設立者に関する情報を失う可能性があり、その結果、CATE推定のための表現学習の妥当性が典型的に侵害されるため、バイアスにつながる。 本稿では,CATE推定における次元減少(あるいは表現上の他の制約)から生じる表現誘発共起バイアスの境界を推定する,表現に依存しない新しい難読化フレームワークを提案する。 まず、CATEが低次元(制約付き)表現を非識別する条件を理論的に確立する。 第二に,我々はCATEの部分的同定を行うニューラル・リフューテーション・フレームワークを提案する。 我々は一連の実験において境界の有効性を実証する。 まとめると、我々の難燃フレームワークは、CATE推定の有効性が重要である実践において、直接的な関連性を持っている。

State-of-the-art methods for conditional average treatment effect (CATE) estimation make widespread use of representation learning. Here, the idea is to reduce the variance of the low-sample CATE estimation by a (potentially constrained) low-dimensional representation. However, low-dimensional representations can lose information about the observed confounders and thus lead to bias, because of which the validity of representation learning for CATE estimation is typically violated. In this paper, we propose a new, representation-agnostic refutation framework for estimating bounds on the representation-induced confounding bias that comes from dimensionality reduction (or other constraints on the representations) in CATE estimation. First, we establish theoretically under which conditions CATE is non-identifiable given low-dimensional (constrained) representations. Second, as our remedy, we propose a neural refutation framework which performs partial identification of CATE or, equivalently, aims at estimating lower and upper bounds of the representation-induced confounding bias. We demonstrate the effectiveness of our bounds in a series of experiments. In sum, our refutation framework is of direct relevance in practice where the validity of CATE estimation is of importance.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# VSCode: 2D Prompt Learningによる汎用ビジュアルサリエントとカモフラージュオブジェクト検出

VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning ( http://arxiv.org/abs/2311.15011v3 )

ライセンス: Link先を確認
Ziyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Khan, Junwei Han, (参考訳) サリアントオブジェクト検出(SOD)とカモフラージュオブジェクト検出(COD)は、全く異なるバイナリマッピングタスクである。 これらのタスクには複数のモダリティが含まれ、共通性とユニークなキューを共有する。 既存の研究はしばしば複雑なタスク固有の専門モデルを採用しており、冗長性と準最適結果をもたらす可能性がある。 4つのSODタスクと3つのCODタスクを共同で扱うために,新しい2Dプロンプト学習を備えたジェネラリストモデルであるVSCodeを紹介した。 基礎モデルとしてVSTを利用し、エンコーダ・デコーダアーキテクチャ内で2Dプロンプトを導入し、2つの異なる次元におけるドメインとタスク固有の知識を学習する。 迅速な識別損失は、モデル最適化の恩恵を受けるために特異性を歪めるのに役立つ。 VSCodeは26のデータセット上の6つのタスクの最先端メソッドよりも優れており、RGB-D CODのような2Dプロンプトを組み合わせることで、目に見えないタスクにゼロショットの一般化を示す。 ソースコードはhttps://github.com/Ssssuperior/VSCode.comで公開されている。

Salient object detection (SOD) and camouflaged object detection (COD) are related yet distinct binary mapping tasks. These tasks involve multiple modalities, sharing commonalities and unique cues. Existing research often employs intricate task-specific specialist models, potentially leading to redundancy and suboptimal results. We introduce VSCode, a generalist model with novel 2D prompt learning, to jointly address four SOD tasks and three COD tasks. We utilize VST as the foundation model and introduce 2D prompts within the encoder-decoder architecture to learn domain and task-specific knowledge on two separate dimensions. A prompt discrimination loss helps disentangle peculiarities to benefit model optimization. VSCode outperforms state-of-the-art methods across six tasks on 26 datasets and exhibits zero-shot generalization to unseen tasks by combining 2D prompts, such as RGB-D COD. Source code has been available at https://github.com/Sssssuperior/VSCode.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 信号-画像AIモデルによる任意磁場中の核スピンの自動検出

Automatic Detection of Nuclear Spins at Arbitrary Magnetic Fields via Signal-to-Image AI Model ( http://arxiv.org/abs/2311.15037v2 )

ライセンス: Link先を確認
B. Varona-Uriarte, C. Munuera-Javaloy, E. Terradillos, Y. Ban, A. Alvarez-Gila, E. Garrote, J. Casanova, (参考訳) 量子センサーは物質の量子特性を利用して、前例のない空間分解能とスペクトル分解能の測定を可能にする。 これらのセンサーのうち、ダイヤモンド中の窒素空洞(NV)センターを利用するものは、室温で動作することの明確な利点を提供する。 それでも、NV中心から受信した信号はしばしば複雑であり、解釈は困難である。 これは、システムモデリングの標準的な近似が失敗する低磁場のシナリオに特に関係している。 さらに、NV信号は顕著なノイズ成分を特徴とする。 本稿では,NVセンサを取り巻く核スピンの数と,センサと核スピン間の超微細結合を自動的に推定できる信号対画像深層学習モデルを提案する。 我々のモデルは、様々な磁場のシナリオで効果的に動作するよう訓練されており、関連する核の事前の知識は必要とせず、ノイズ信号を扱うように設計されており、実際の実験条件下での核環境の高速な評価に繋がる。 詳細な数値シミュレーションにより、推定超微粒子定数で平均誤差が2\ \rm{kHz}$未満となる原子核数の変化を伴うシナリオにおいて、我々のモデルの性能を検証した。

Quantum sensors leverage matter's quantum properties to enable measurements with unprecedented spatial and spectral resolution. Among these sensors, those utilizing nitrogen-vacancy (NV) centers in diamond offer the distinct advantage of operating at room temperature. Nevertheless, signals received from NV centers are often complex, making interpretation challenging. This is especially relevant in low magnetic field scenarios, where standard approximations for modeling the system fail. Additionally, NV signals feature a prominent noise component. In this Letter, we present a signal-to-image deep learning model capable of automatically inferring the number of nuclear spins surrounding a NV sensor and the hyperfine couplings between the sensor and the nuclear spins. Our model is trained to operate effectively across various magnetic field scenarios, requires no prior knowledge of the involved nuclei, and is designed to handle noisy signals, leading to fast characterization of nuclear environments in real experimental conditions. With detailed numerical simulations, we test the performance of our model in scenarios involving varying numbers of nuclei, achieving an average error of less than $2\ \rm{kHz}$ in the estimated hyperfine constants.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 数百個のトラップイオンを持つサイトリゾルド2次元量子シミュレータ

A Site-Resolved 2D Quantum Simulator with Hundreds of Trapped Ions ( http://arxiv.org/abs/2311.17163v2 )

ライセンス: Link先を確認
S. -A. Guo, Y. -K. Wu, J. Ye, L. Zhang, W. -Q. Lian, R. Yao, Y. Wang, R. -Y. Yan, Y. -J. Yi, Y. -L. Xu, B. -W. Li, Y. -H. Hou, Y. -Z. Xu, W. -X. Guo, C. Zhang, B. -X. Qi, Z. -C. Zhou, L. He, L. -M. Duan, (参考訳) 大きな量子ビット容量と個々の読み出し能力は、大規模量子コンピューティングとシミュレーションの2つの重要な要件である。 量子情報処理における主要な物理プラットフォームのひとつとして、イオントラップは1Dポールトラップでサイト解決されたリードアウトを持つ数十個のイオンと、2Dペニングトラップでグローバル観測可能な数百個のイオンの量子シミュレーションを達成している。 しかし、これらの2つの機能を単一のシステムに統合することは、依然として非常に難しい。 ここでは, 2次元ウィグナー結晶中の512個のイオンの安定トラップと, 横運動のサイドバンド冷却について報告する。 そこで本研究では,300イオンを用いた長距離量子イジングモデルの量子シミュレーションを行った。 単発測定におけるサイト分解能により, 準断熱的に調製された基底状態の空間相関パターンのリッチな観測が可能となり, 計算された集合フォノンモードと古典的擬似アニールとの比較により量子シミュレーション結果の検証が可能となった。 さらに、Isingモデルの逆場におけるクエンチダイナミクスを探索し、量子サンプリングタスクを実証する。 本研究は,古典的に抽出可能な量子力学のシミュレーションと,2次元イオントラップ量子シミュレータを用いたNISQアルゴリズムの実行方法について述べる。

A large qubit capacity and an individual readout capability are two crucial requirements for large-scale quantum computing and simulation. As one of the leading physical platforms for quantum information processing, the ion trap has achieved quantum simulation of tens of ions with site-resolved readout in 1D Paul trap, and that of hundreds of ions with global observables in 2D Penning trap. However, integrating these two features into a single system is still very challenging. Here we report the stable trapping of 512 ions in a 2D Wigner crystal and the sideband cooling of their transverse motion. We demonstrate the quantum simulation of long-range quantum Ising models with tunable coupling strengths and patterns, with or without frustration, using 300 ions. Enabled by the site resolution in the single-shot measurement, we observe rich spatial correlation patterns in the quasi-adiabatically prepared ground states, which allows us to verify quantum simulation results by comparing with the calculated collective phonon modes and with classical simulated annealing. We further probe the quench dynamics of the Ising model in a transverse field to demonstrate quantum sampling tasks. Our work paves the way for simulating classically intractable quantum dynamics and for running NISQ algorithms using 2D ion trap quantum simulators.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# LP階層による多次元スケーリングのための準多項式時間アルゴリズム

A quasi-polynomial time algorithm for Multi-Dimensional Scaling via LP hierarchies ( http://arxiv.org/abs/2311.17840v2 )

ライセンス: Link先を確認
Ainesh Bakshi, Vincent Cohen-Addad, Samuel B. Hopkins, Rajesh Jayaram, Silvio Lattanzi, (参考訳) 多次元スケーリング(MDS)は、低次元ユークリッド空間に$n$ポイントの計量を埋め込む方法のファミリーである。 非負の相似性の集合 $\{d_{i,j}\}_{i , j \in [n]}$ over $n$ points, the goal to find a embeddedding $\{x_1,\dots,x_n\} \in \mathbb{R}^k$ that minimals \[\text{OPT} = \min_{x} \mathbb{E}_{i,j \in [n]} \left[\left(1-\frac{\|x_i - x_j\|}{d_{i,j}}\right)^2 \right] \] Kamada-Kawai is a relaxed a quality of a virtual-dimensional is using the bipsrops, x_n\} \in \mathbb{R}^k$ that minimizes \[\text{OPT} = \min_{x} \mathbb{E}_{i,j\in [n]} \left(1-\frac{\|x_i -x\||d_{i,j}}\right)^2\right)^2 \right] Kamada-Kawai} は、従来の計算量より低次元の近似の質を緩和する。 その人気にもかかわらず、MDSの理論的理解は限られている。 最近、Demaine, Hesterberg, Koehler, Lynch, Urschel (arXiv:2109.11505) は、Kamada-Kawai の定数-$k$の保証が証明可能な最初の近似アルゴリズムを、コスト$\text{OPT} +\epsilon$ in $n^2 2^{\text{poly}(\Delta/\epsilon)} の時間で提供した。 本研究は、$\Delta$に準多項式依存性を持つMDSに対する最初の近似アルゴリズムを与える: コスト$\tilde{O}(\log \Delta)\text{OPT}^{\Omega(1)}+\epsilon$ in time $n^{O(1)}2^{\text{poly}(\log(\Delta)/\epsilon)}$. 提案手法は,シェラリ・アダムスLP階層に対する条件付きラウンドリングスキームの新たな解析に基づく。 重要なことに、我々の分析は低次元ユークリッド空間の幾何学を利用して、アスペクト比への指数的依存を避けることができる。 シェラリ・アダムス階層の幾何学的扱いは、効率的な計量最適化アルゴリズムのための汎用技術を開発するための重要なステップであると考えている。

Multi-dimensional Scaling (MDS) is a family of methods for embedding an $n$-point metric into low-dimensional Euclidean space. We study the Kamada-Kawai formulation of MDS: given a set of non-negative dissimilarities $\{d_{i,j}\}_{i , j \in [n]}$ over $n$ points, the goal is to find an embedding $\{x_1,\dots,x_n\} \in \mathbb{R}^k$ that minimizes \[\text{OPT} = \min_{x} \mathbb{E}_{i,j \in [n]} \left[ \left(1-\frac{\|x_i - x_j\|}{d_{i,j}}\right)^2 \right] \] Kamada-Kawai provides a more relaxed measure of the quality of a low-dimensional metric embedding than the traditional bi-Lipschitz-ness measure studied in theoretical computer science; this is advantageous because strong hardness-of-approximation results are known for the latter, Kamada-Kawai admits nontrivial approximation algorithms. Despite its popularity, our theoretical understanding of MDS is limited. Recently, Demaine, Hesterberg, Koehler, Lynch, and Urschel (arXiv:2109.11505) gave the first approximation algorithm with provable guarantees for Kamada-Kawai in the constant-$k$ regime, with cost $\text{OPT} +\epsilon$ in $n^2 2^{\text{poly}(\Delta/\epsilon)}$ time, where $\Delta$ is the aspect ratio of the input. In this work, we give the first approximation algorithm for MDS with quasi-polynomial dependency on $\Delta$: we achieve a solution with cost $\tilde{O}(\log \Delta)\text{OPT}^{\Omega(1)}+\epsilon$ in time $n^{O(1)}2^{\text{poly}(\log(\Delta)/\epsilon)}$. Our approach is based on a novel analysis of a conditioning-based rounding scheme for the Sherali-Adams LP Hierarchy. Crucially, our analysis exploits the geometry of low-dimensional Euclidean space, allowing us to avoid an exponential dependence on the aspect ratio. We believe our geometry-aware treatment of the Sherali-Adams Hierarchy is an important step towards developing general-purpose techniques for efficient metric optimization algorithms.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# COTR:視力に基づく3次元作業予測のための小型作業TRansformer

COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction ( http://arxiv.org/abs/2312.01919v2 )

ライセンス: Link先を確認
Qihang Ma, Xin Tan, Yanyun Qu, Lizhuang Ma, Zhizhong Zhang, Yuan Xie, (参考訳) 自律運転コミュニティは、例外的な幾何学的知覚と一般的な物体認識能力によって引き起こされる3D占有率予測に大きな関心を示している。 これを達成するために、現在の研究はバード・アイ・ビューの知覚から拡張されたトリパースペクティブ・ビュー(TPV)またはOccupancy(OCC)表現を構築しようとしている。 しかし、TPV表現のような圧縮されたビューは3次元幾何学情報を失う一方、生のOCC表現は重いが冗長な計算コストを必要とする。 上記の制約に対処するため,コンパクトな3次元OCC表現を再構成するために,幾何認識型占有エンコーダと意味認識型グループデコーダを備えたコンパクト Occupancy TRansformer (COTR) を提案する。 占有エンコーダは、まず、効率的な明示的なビュー変換により、コンパクトな幾何学的OCC特徴を生成する。 そして、占有デコーダは、粗大なセマンティックグルーピング戦略により、コンパクトなOCC表現のセマンティック識別性をさらに向上する。 実験により,COTR は比較的8%~15% の精度でベースラインを上回り,本手法の優位性を実証した。

The autonomous driving community has shown significant interest in 3D occupancy prediction, driven by its exceptional geometric perception and general object recognition capabilities. To achieve this, current works try to construct a Tri-Perspective View (TPV) or Occupancy (OCC) representation extending from the Bird-Eye-View perception. However, compressed views like TPV representation lose 3D geometry information while raw and sparse OCC representation requires heavy but redundant computational costs. To address the above limitations, we propose Compact Occupancy TRansformer (COTR), with a geometry-aware occupancy encoder and a semantic-aware group decoder to reconstruct a compact 3D OCC representation. The occupancy encoder first generates a compact geometrical OCC feature through efficient explicit-implicit view transformation. Then, the occupancy decoder further enhances the semantic discriminability of the compact OCC representation by a coarse-to-fine semantic grouping strategy. Empirical experiments show that there are evident performance gains across multiple baselines, e.g., COTR outperforms baselines with a relative improvement of 8%-15%, demonstrating the superiority of our method.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 合成データを用いたLLMの蒸留自己批判:ベイズ的視点

Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian Perspective ( http://arxiv.org/abs/2312.01957v3 )

ライセンス: Link先を確認
Victor Gallego, (参考訳) 本稿では,RLAIFを蒸留した自己臨界(dSC)を導入してベイズ推論として解釈し,後に微調整モデルに蒸留したギブスサンプリング器を用いてLCMの出力を精製する手法を提案する。 合成データのみを必要とするため、dSCは安全性、感情、プライバシコントロールに関する実験で実施されており、LCMを整列させるための実用的で安価な代替手段であることを示している。 ソースコードは \url{https://github.com/vicgalle/distilled-self-critique} で公開されている。

This paper proposes an interpretation of RLAIF as Bayesian inference by introducing distilled Self-Critique (dSC), which refines the outputs of a LLM through a Gibbs sampler that is later distilled into a fine-tuned model. Only requiring synthetic data, dSC is exercised in experiments regarding safety, sentiment, and privacy control, showing it can be a viable and cheap alternative to align LLMs. Code released at \url{https://github.com/vicgalle/distilled-self-critique}.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# ガラスの単語問題:超スロー緩和、ヒルベルト空間ジャミング、計算複雑性

Glassy word problems: ultraslow relaxation, Hilbert space jamming, and computational complexity ( http://arxiv.org/abs/2312.04562v2 )

ライセンス: Link先を確認
Shankar Balasubramanian, Sarang Gopalakrishnan, Alexey Khudorozhkov, Ethan Lake, (参考訳) 計算機科学とグループ理論の「ワード問題」に基づく局所力学モデル群を導入し、緩和時間尺度に厳密な下限を設定する。 これらのモデルはランダム回路あるいは局所ハミルトン力学と見なすことができ、特別な場合として制約力学のよく知られた例を含む。 これらのモデルの構成空間は動的に非連結なセクターに分割され、初期状態が緩和するためには、それらが属するセクター内の他の状態の 'work out' が必要である。 この問題に高い時間的複雑性がある場合、緩和は遅くなる。 いくつかのケースでは、この問題は空間の複雑さも高い。 空間の複雑さがシステムサイズよりも大きい場合、固定サイズの系がエルゴード的ではなく、自明な生成状態に大量のサイトを付加することでエルゴード的になるような、従来とは異なる種類のジャミング遷移が発生する。 これは、壊れやすい断片化と呼ばれる新しいタイプのヒルベルト空間の断片化に現れている。 本研究では, 緩やかな緩和とジャミングが保存密度の流体力学を強く修飾する明確な例を示す。 ある例では、ウェーブベクター$q$の密度変調は、O(\exp(1/q))$のときまでほとんど緩和しないが、その時点で突然崩壊する。 結果の高次元への拡張についてもコメントします。

We introduce a family of local models of dynamics based on ``word problems'' from computer science and group theory, for which we can place rigorous lower bounds on relaxation timescales. These models can be regarded either as random circuit or local Hamiltonian dynamics, and include many familiar examples of constrained dynamics as special cases. The configuration space of these models splits into dynamically disconnected sectors, and for initial states to relax, they must ``work out'' the other states in the sector to which they belong. When this problem has a high time complexity, relaxation is slow. In some of the cases we study, this problem also has high space complexity. When the space complexity is larger than the system size, an unconventional type of jamming transition can occur, whereby a system of a fixed size is not ergodic, but can be made ergodic by appending a large reservoir of sites in a trivial product state. This manifests itself in a new type of Hilbert space fragmentation that we call fragile fragmentation. We present explicit examples where slow relaxation and jamming strongly modify the hydrodynamics of conserved densities. In one example, density modulations of wavevector $q$ exhibit almost no relaxation until times $O(\exp(1/q))$, at which point they abruptly collapse. We also comment on extensions of our results to higher dimensions.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 閉ループ保証を用いた非線形MPC自動近似

Automatic nonlinear MPC approximation with closed-loop guarantees ( http://arxiv.org/abs/2312.10199v2 )

ライセンス: Link先を確認
Abdullah Tokmak, Christian Fiedler, Melanie N. Zeilinger, Sebastian Trimpe, Johannes Köhler, (参考訳) 安全保証は、ロボット工学などの多くの制御応用において不可欠である。 モデル予測制御(MPC)は、安全クリティカルなシステムを制御するための構築的なフレームワークを提供するが、計算の複雑さによって制限される。 閉ループ保証を保ちながら非線形MPCスキームへの明示的な近似を自動的に計算する新しいアルゴリズムを提案することでこの問題に対処する。 具体的には、この問題を関数近似問題に還元し、適応局所化カーネル補間アルゴリズムであるALKIA-XとeXtrapolated re production kernel Hilbert space normを提案する。 ALKIA-Xは、数値的によく条件付けられた計算、高速で評価可能な近似関数、および近似誤差に対する任意の所望境界の満足度を保証する非定性アルゴリズムである。 したがって、ALKIA-XはMPCを近似する明示的な関数を自動的に計算し、安全クリティカルなシステムに適したコントローラと高いサンプリングレートを得る。 2つの非線形 MPC スキームに ALKIA-X を適用し,計算要求の低減と現実問題への適用性を実証した。

Safety guarantees are vital in many control applications, such as robotics. Model predictive control (MPC) provides a constructive framework for controlling safety-critical systems, but is limited by its computational complexity. We address this problem by presenting a novel algorithm that automatically computes an explicit approximation to nonlinear MPC schemes while retaining closed-loop guarantees. Specifically, the problem can be reduced to a function approximation problem, which we then tackle by proposing ALKIA-X, the Adaptive and Localized Kernel Interpolation Algorithm with eXtrapolated reproducing kernel Hilbert space norm. ALKIA-X is a non-iterative algorithm that ensures numerically well-conditioned computations, a fast-to-evaluate approximating function, and the guaranteed satisfaction of any desired bound on the approximation error. Hence, ALKIA-X automatically computes an explicit function that approximates the MPC, yielding a controller suitable for safety-critical systems and high sampling rates. We apply ALKIA-X to approximate two nonlinear MPC schemes, demonstrating reduced computational demand and applicability to realistic problems.
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# Paraphrasing the Original Text' による学習の長期化

Training With "Paraphrasing the Original Text'' Improves Long-Context Performance ( http://arxiv.org/abs/2312.11193v8 )

ライセンス: Link先を確認
Yijiong Yu, (参考訳) 大きな言語モデル(LLM)が進化を続けるにつれ、長いコンテキスト入力を扱うように設計されている。 この進歩にもかかわらず、多くのモデルは、長いコンテキストのタスクで高い精度を達成することの難しさに直面し、しばしば『中間のロスト』問題を示す。 本稿では,これらの問題の根幹を検索能力の欠如として認識し,長いコンテキストにおけるキー情報の空間性によって悪化する。 この課題に対処するために,LLMの長文情報抽出能力を高めることを目的とした,'Paraphrasing the Original Text''という新しいアプローチを導入する。 この強化は、訓練サンプルにパラフレーズ情報を組み込んだ特殊な微調整段階を通じて達成され、長文シナリオに対するモデルの検索能力が改善される。 また,LongBenchやNaturalQuestionsといったデータセットを用いたマルチドキュメントQAデータセットを用いて,長文タスクの管理において大幅な改善がみられ,‘中間のロスト’ジレンマに効果的に対処できた。 具体的には、これらのデータセットの平均的なパフォーマンスは、それぞれ6.4\%と5.9\%である。 さらに,本手法は効率が良く,19kサンプルの微調整を必要とせず,オーバーヘッドを最小限に抑えることができる。 モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)で公開されている。

As Large Language Models (LLMs) continue to evolve, more are being designed to handle long-context inputs. Despite this advancement, many models face challenges in achieving high precision on long-context tasks, often showing a ``lost in the middle'' issue. This paper identifies the root of these issues as a deficiency in retrieval capabilities, exacerbated by the sparsity of key information in long contexts. To tackle this challenge, we introduce a novel approach called ``Paraphrasing the Original Text'', aimed at augmenting LLMs' proficiency in extracting information from long context. This enhancement is achieved through a specialized supervised fine-tuning stage that incorporates paraphrasing information into training samples, thereby improving the model's retrieval capabilities for long-context scenarios. Testing on datasets like LongBench and NaturalQuestions Multi-document QA dataset, our method demonstrated significant improvements in managing long-context tasks, effectively addressing the ``lost in the middle'' dilemma. Specifically, we observed an average performance increase of 6.4\% and 5.9\% across these datasets, respectively. Moreover, our approach is efficient, requiring minimal overhead with fine-tuning needed on just 19k samples. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2024-04-12 18:57:05 公開日:2024-04-11
# 文脈内学習者のための大規模言語モデル構築のための教師付き知識

Supervised Knowledge Makes Large Language Models Better In-context Learners ( http://arxiv.org/abs/2312.15918v2 )

ライセンス: Link先を確認
Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang, (参考訳) 大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。 大規模生成モデルの最近の進歩は、現実世界の言語アプリケーションでの使用をさらに拡大している。 しかし、自然言語理解や質問応答におけるLLMの一般化性と現実性を改善するという重要な課題は、まだ未解決のままである。 従来のインコンテキスト学習研究は,ユーザの特定の指示や品質期待に順応するモデルの改善と,望ましくないアウトプットを避けることに注力してきたが,推論段階におけるLLMのインコンテキスト学習を改善するために,タスク特化言語モデル(SLM)の使用を検討する研究はほとんど行われていない。 我々の主な貢献は、LCMの信頼性を高めるシンプルで効果的なフレームワークの確立である。 1)アウト・オブ・ディストリビューションデータを一般化する。 2) LLM の差別モデルによる利益の解明,及び 3) 生成タスクにおける幻覚の最小化。 提案手法を用いて,Llama 2 と ChatGPT の強化版が,一般化可能性および事実性に関する原バージョンを上回った。 16のキュレートされたデータセット、プロンプト、モデルチェックポイント、9つの異なるタスクにわたるLLM出力を含む、包括的なリソーススイートを提供しています。 コードとデータは、https://github.com/YangLinyi/Supervised-Knowledge-Makes-Language-Models-Better-In-context-Learnersでリリースされる。 実験分析では, LLMに識別モデルを組み込むことの利点に光を当て, より信頼性の高い LLM を育成する手法の可能性を強調した。

Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. The code and data are released at: https://github.com/YangLinyi/Supervised-Knowledge-Makes-Large-Language-Models-Better-In-context-Lear ners. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# 分子動力学シミュレーションのための高精度力場の生成と分子構成変換器を用いた化学反応機構の研究

Generating High-Precision Force Fields for Molecular Dynamics Simulations to Study Chemical Reaction Mechanisms using Molecular Configuration Transformer ( http://arxiv.org/abs/2401.00499v3 )

ライセンス: Link先を確認
Sihao Yuan, Xu Han, Jun Zhang, Zhaoxin Xie, Cheng Fan, Yunlong Xiao, Yi Qin Gao, Yi Isaac Yang, (参考訳) 化学反応機構の理論的研究は有機化学において重要である。 伝統的に、量子化学計算を用いた化学反応の遷移状態の手作業で構築された分子配座を計算するのが最も一般的な方法である。 しかし、この方法は個々の経験や化学的直観に大きく依存している。 本研究では,分子動力学シミュレーションの強化サンプリングによる化学反応の研究パラダイムを提案する。 このアプローチは化学反応の全過程を直接シミュレートすることができる。 しかし、計算速度はシミュレーションにおける高精度ポテンシャルエネルギー関数の使用を制限する。 そこで本研究では,これまで開発されたグラフニューラルネットを用いた分子モデル,分子構成変換器を用いて,分子モデリングのための高精度力場を訓練する手法を提案する。 このポテンシャルエネルギー関数は計算コストの低い高精度なシミュレーションを可能にし、化学反応のメカニズムをより正確に計算する。 マンガン触媒を用いたクレイゼン再配置反応とカルボニル挿入反応の研究に本手法を適用した。

Theoretical studies on chemical reaction mechanisms have been crucial in organic chemistry. Traditionally, calculating the manually constructed molecular conformations of transition states for chemical reactions using quantum chemical calculations is the most commonly used method. However, this way is heavily dependent on individual experience and chemical intuition. In our previous study, we proposed a research paradigm that uses enhanced sampling in molecular dynamics simulations to study chemical reactions. This approach can directly simulate the entire process of a chemical reaction. However, the computational speed limits the use of high-precision potential energy functions for simulations. To address this issue, we present a scheme for training high-precision force fields for molecular modeling using a previously developed graph-neural-network-based molecular model, molecular configuration transformer. This potential energy function allows for highly accurate simulations at a low computational cost, leading to more precise calculations of the mechanism of chemical reactions. We applied this approach to study a Claisen rearrangement reaction and a Carbonyl insertion reaction catalyzed by Manganese.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# 誘電体準曲面を用いた光子識別性の単発評価

Single-shot characterization of photon indistinguishability with dielectric metasurfaces ( http://arxiv.org/abs/2401.01485v2 )

ライセンス: Link先を確認
Jihua Zhang, Jinyong Ma, Neuton Li, Shaun Lung, Andrey A. Sukhorukov, (参考訳) 光子の区別不可能性を特徴づけることは、量子フォトニクスにおいて重要な課題であり、光子源のチューニングと安定化を支え、量子演算の精度を高める。 従来、識別不能度を測定するためのプロトコルでは、複数の異なる時間または位相遅延での光子衝突測定が求められており、これは識別不能の高速測定とリアルタイムモニタリングの根本的なボトルネックとなっている。 ここでは、位相ロックを必要とせずに、自由空間構成で調整されたマルチポート変換を実現するような、再構成可能な要素を伴わない静的誘電体表面格子を開発し、時間、スペクトル、空間モード、偏光を含む複数の自由度において、2つの光子間の不明瞭さを単一ショットで評価できるようにする。 トポロジー最適化は、偏光独立性、高い透過性、そして測定ノイズに対する高い耐性を持つシリコン準曲面を設計するために用いられる。 我々は、準曲面を作製し、98.4\%以上の忠実度を持つ時間領域における光子の識別不可能性を実験的に定量化する。 超薄型変成層を基盤としたフレームワークは、多光子状態と空間的モダリティに付随する追加自由度のためにさらに拡張できると予想する。

Characterizing the indistinguishability of photons is a key task in quantum photonics, underpinning the tuning and stabilization of the photon sources and thereby increasing the accuracy of quantum operations. The protocols for measuring the degree of indistinguishability conventionally require photon-coincidence measurements at several different time or phase delays, which is a fundamental bottleneck towards the fast measurements and real-time monitoring of indistinguishability. Here, we develop a static dielectric metasurface grating without any reconfigurable elements that realizes a tailored multiport transformation in the free-space configuration without the need for phase locking and enables single-shot characterization of the indistinguishability between two photons in multiple degrees of freedom including time, spectrum, spatial modes, and polarization. Topology optimization is employed to design a silicon metasurface with polarization independence, high transmission, and high tolerance to measurement noise. We fabricate the metasurface and experimentally quantify the indistinguishability of photons in the time domain with fidelity over 98.4\%. We anticipate that the developed framework based on ultrathin metasurfaces can be further extended for multi-photon states and additional degrees of freedom associated with spatial modalities.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# フィードにおける広告オークションとアロケーションの統合のための深部自動メカニズム設計

Deep Automated Mechanism Design for Integrating Ad Auction and Allocation in Feed ( http://arxiv.org/abs/2401.01656v2 )

ライセンス: Link先を確認
Xuejian Li, Ze Wang, Bingqi Zhu, Fei He, Yongkang Wang, Xingxing Wang, (参考訳) 電子商取引プラットフォームは通常、ユーザのページビュー要求に応じて、いくつかのオーガニックアイテムと広告が混在した順序付きリストを提示する。 広告の競売と配分のプロセスの結果であるこのリストは、プラットフォームの広告収益と総商品量(GMV)に直接影響を及ぼす。 具体的には、広告割当が広告の表示位置と有機物とを判定する一方、広告競売は、どの広告が表示され、対応する支払いが決定される。 広告のオークションを分離し、2つの異なるステージに割り当てる一般的な方法は、以下の2つの問題に直面している。 1)広告オークションは、実際の表示位置やコンテキストが広告クリックスルーレート(CTR)に与える影響等、外部性を考慮していない。 2) 広告の表示位置を動的に決定するためにオークション広告の支払いを利用する広告割当は、広告に対するインセンティブ互換性(IC)を維持することができない。 例えば、従来の一般第二価格(GSP)を用いたオークションの段階では、勝者広告が入札を増やしても支払いは変わらない。 これは、広告がより良い位置を確保することができず、その結果、その後の広告アロケーション段階で高い実用性を達成する機会を失うことを意味する。 以前の研究は、しばしば2段階のうちの1つに焦点を合わせ、2段階の問題を無視し、最適以下の結果をもたらす可能性がある。

E-commerce platforms usually present an ordered list, mixed with several organic items and an advertisement, in response to each user's page view request. This list, the outcome of ad auction and allocation processes, directly impacts the platform's ad revenue and gross merchandise volume (GMV). Specifically, the ad auction determines which ad is displayed and the corresponding payment, while the ad allocation decides the display positions of the advertisement and organic items. The prevalent methods of segregating the ad auction and allocation into two distinct stages face two problems: 1) Ad auction does not consider externalities, such as the influence of actual display position and context on ad Click-Through Rate (CTR); 2) The ad allocation, which utilizes the auction-winning ad's payment to determine the display position dynamically, fails to maintain incentive compatibility (IC) for the advertisement. For instance, in the auction stage employing the traditional Generalized Second Price (GSP) , even if the winning ad increases its bid, its payment remains unchanged. This implies that the advertisement cannot secure a better position and thus loses the opportunity to achieve higher utility in the subsequent ad allocation stage. Previous research often focused on one of the two stages, neglecting the two-stage problem, which may result in suboptimal outcomes...
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# スパイクニューラルネットワークにおける階層的概念のマルチニューロン表現

Multi-Neuron Representations of Hierarchical Concepts in Spiking Neural Networks ( http://arxiv.org/abs/2401.04628v2 )

ライセンス: Link先を確認
Nancy A. Lynch, (参考訳) 階層的概念が階層型ニューラルネットワークの3つのタイプでどのように表現できるかを説明する。 目的は、概念に関する部分的な情報が提示されたときや、ネットワーク内のいくつかのニューロンが失敗したときの認識を支援することである。 私たちの失敗モデルは、初期ランダムな失敗を伴う。 3種類のネットワークは、高い接続性を持つフィードフォワードネットワーク、低い接続性を持つフィードフォワードネットワーク、低い接続性を持つレイヤネットワーク、および層内の前方エッジと「横」エッジである。 フォールトトレランスを達成するために、すべての表現はそれぞれの概念に複数の代表ニューロンを使用する。 これらの3つの設定で認識がどのように機能するかを示し、正しい認識の確率が、代表者数やニューロンの故障確率など、いくつかのパラメータに依存するかを定量的に示す。 また、これらの表現が3種類のネットワークでどのように学習されるかについても論じる。 フィードフォワードネットワークの場合、学習アルゴリズムは[4]で使用されるものと似ているが、横方向のエッジを持つネットワークでは、一般的に組立計算 [3, 6, 7] に着想を得ている。

We describe how hierarchical concepts can be represented in three types of layered neural networks. The aim is to support recognition of the concepts when partial information about the concepts is presented, and also when some of the neurons in the network might fail. Our failure model involves initial random failures. The three types of networks are: feed-forward networks with high connectivity, feed-forward networks with low connectivity, and layered networks with low connectivity and with both forward edges and "lateral" edges within layers. In order to achieve fault-tolerance, the representations all use multiple representative neurons for each concept. We show how recognition can work in all three of these settings, and quantify how the probability of correct recognition depends on several parameters, including the number of representatives and the neuron failure probability. We also discuss how these representations might be learned, in all three types of networks. For the feed-forward networks, the learning algorithms are similar to ones used in [4], whereas for networks with lateral edges, the algorithms are generally inspired by work on the assembly calculus [3, 6, 7].
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# ファンデーションモデルのための低リソースビジョンチャレンジ

Low-Resource Vision Challenges for Foundation Models ( http://arxiv.org/abs/2401.04716v3 )

ライセンス: Link先を確認
Yunhua Zhang, Hazel Doughty, Cees G. M. Snoek, (参考訳) 低リソース設定は、多くの言語が大規模なディープラーニングに十分なデータを持っていない自然言語処理において十分に確立されている。 しかし、低リソース問題はコンピュータビジョンでは未探索である。 本稿では,このギャップに対処し,視覚基盤モデルを用いた低リソース画像タスクの課題について考察する。 まず、歴史的地図、回路図、メカニカルドローイングを網羅した、真に低解像度の画像データのベンチマークを収集する。 これらの低リソース設定はすべて、3つの課題を共有している。データ不足、きめ細かい相違、そして、自然画像から特定の関心領域への分散シフトである。 既存の基盤モデルは目覚ましい一般化性を示しているが、低リソースのタスクにうまく移行することはできない。 低リソースビジョンの課題に取り組み始めるために、課題ごとに1つのシンプルなベースラインを導入します。 具体的には 一 生成モデルによりデータ空間を拡大すること。 二 微粒な差分発見のために、地域を符号化する最適なサブカーネルを採用すること。 三 専門分野について留意すること。 3つの低リソースタスクの実験では、トランスファーラーニングやデータ拡張、きめ細かいメソッドよりも、すでに提案がベースラインを提供しています。 これは、さらなる調査を保証している基礎モデルの低リソースビジョンのユニークな特徴と課題を強調している。 プロジェクトページ:https://xiaobai1217.github.io/Low-Resource-Vision/。

Low-resource settings are well-established in natural language processing, where many languages lack sufficient data for deep learning at scale. However, low-resource problems are under-explored in computer vision. In this paper, we address this gap and explore the challenges of low-resource image tasks with vision foundation models. We first collect a benchmark of genuinely low-resource image data, covering historic maps, circuit diagrams, and mechanical drawings. These low-resource settings all share three challenges: data scarcity, fine-grained differences, and the distribution shift from natural images to the specialized domain of interest. While existing foundation models have shown impressive generalizability, we find they cannot transfer well to our low-resource tasks. To begin to tackle the challenges of low-resource vision, we introduce one simple baseline per challenge. Specifically, we i) enlarge the data space by generative models, ii) adopt the best sub-kernels to encode local regions for fine-grained difference discovery and iii) learn attention for specialized domains. Experiments on our three low-resource tasks demonstrate our proposals already provide a better baseline than transfer learning, data augmentation, and fine-grained methods. This highlights the unique characteristics and challenges of low-resource vision for foundation models that warrant further investigation. Project page: https://xiaobai1217.github.io/Low-Resource-Vision/.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# リモートセンシングにおけるセンサ非依存画像検索のためのマスクオートエンコーダの探索

Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing ( http://arxiv.org/abs/2401.07782v2 )

ライセンス: Link先を確認
Jakob Hackstein, Gencer Sumbul, Kai Norman Clasen, Begüm Demir, (参考訳) マスク付きオートエンコーダ(MAE)による自己教師型学習は,近年,リモートセンシング(RS)画像表現学習に大きな注目を集めている。 しかし、既存のRSにおけるMAEの研究は、検討されたRS画像は単一のイメージセンサによって取得され、従って一様CBIR問題にのみ適していると仮定している。 画像モダリティの異なる意味的に類似した画像を探索することを目的としたクロスセンサーCBIRに対するMAEsの有効性は、まだ検討されていない。 本稿では,センサ非依存型CBIRにおけるMAEsの有効性について検討する。 そこで本研究では,多センサRS画像アーカイブ(CSMAE)におけるマスク画像モデリングの活用を目的とした,バニラMAEの適応可能性について,系統的な概要を述べる。 バニラMAEに適用される様々な調整に基づいて、異なるCSMAEモデルを導入する。 また、これらのCSMAEモデルについて広範な実験分析を行った。 RSにおけるユニモーダル・クロスモーダルCBIR問題に対してマスク付き画像モデリングを利用するためのガイドラインを導出する。 この作業のコードはhttps://github.com/jakhac/CSMAEで公開されている。

Self-supervised learning through masked autoencoders (MAEs) has recently attracted great attention for remote sensing (RS) image representation learning, and thus embodies a significant potential for content-based image retrieval (CBIR) from ever-growing RS image archives. However, the existing studies on MAEs in RS assume that the considered RS images are acquired by a single image sensor, and thus are only suitable for uni-modal CBIR problems. The effectiveness of MAEs for cross-sensor CBIR, which aims to search semantically similar images across different image modalities, has not been explored yet. In this paper, we take the first step to explore the effectiveness of MAEs for sensor-agnostic CBIR in RS. To this end, we present a systematic overview on the possible adaptations of the vanilla MAE to exploit masked image modeling on multi-sensor RS image archives (denoted as cross-sensor masked autoencoders [CSMAEs]). Based on different adjustments applied to the vanilla MAE, we introduce different CSMAE models. We also provide an extensive experimental analysis of these CSMAE models. We finally derive a guideline to exploit masked image modeling for uni-modal and cross-modal CBIR problems in RS. The code of this work is publicly available at https://github.com/jakhac/CSMAE.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# 熱混合動的核偏極の崩壊の統一的理解--温度とラジカル濃度の役割

Unified understanding of the breakdown of thermal mixing dynamic nuclear polarization: the role of temperature and radical concentration ( http://arxiv.org/abs/2401.08270v2 )

ライセンス: Link先を確認
Ludovica M. Epasto, Thibaud Maimbourg, Alberto Rosso, Dennis Kurzbach, (参考訳) 熱混合(TM)を効率よく動的核偏極(DNP)機構として確立するために必要な温度とラジカル濃度の相互作用を明らかにする。 DNP試料の高偏極化,すなわちピルビン酸ナトリウム-1-$^{13}$C濃度の異なる一酸化窒素ラジカル(TEMPOL)濃度およびマイクロ波照射周波数における水/グリセロール混合物の高偏極化を行い,陽子および炭素-13スピン温度を測定した。 低温発生温度を1.5Kから6.5K、すなわち液体ヘリウムの沸点以下で探すことができる。 TMの分解の2つのメカニズムを同定する。 (i)アンダーソン型低ラジカル濃度の量子局在化 (II)高温で発生する量子ゼノ局在 この観察により,DNP機構としてのTMの関連性に関する近年の変動観測を一元化して,ラジカル濃度と電子緩和時間とのトレードオフを見出すことができ,TMに基づく実験的なDNP性能向上の道筋を提供することができた。

We reveal an interplay between temperature and radical concentration necessary to establish thermal mixing (TM) as an efficient dynamic nuclear polarization (DNP) mechanism. We conducted DNP experiments by hyperpolarizing widely used DNP samples, i.e., sodium pyruvate-1-$^{13}$C in water/glycerol mixtures at varying nitroxide radical (TEMPOL) concentrations and microwave irradiation frequencies, measuring proton and carbon-13 spin temperatures. Using a cryogen consumption-free prototype-DNP apparatus, we could probe cryogenic temperatures between 1.5 and 6.5 K, i.e., below and above the boiling point of liquid helium. We identify two mechanisms for the breakdown of TM: (i) Anderson type of quantum localization for low radical concentration, or (ii) quantum Zeno localization occurring at high temperature. This observation allowed us to reconcile the recent diverging observations regarding the relevance of TM as a DNP mechanism by proposing a unifying picture and, consequently, to find a trade-off between radical concentration and electron relaxation times, which offers a pathway to improve experimental DNP performance based on TM.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# EgoGen: エゴセントリックな合成データジェネレータ

EgoGen: An Egocentric Synthetic Data Generator ( http://arxiv.org/abs/2401.08739v2 )

ライセンス: Link先を確認
Gen Li, Kaifeng Zhao, Siwei Zhang, Xiaozhong Lyu, Mihai Dusmanu, Yan Zhang, Marc Pollefeys, Siyu Tang, (参考訳) 一人称視点で世界を理解することは拡張現実(AR)の基本である。 この没入的な視点は、第三者の視点と比べて劇的な視覚的変化と独特な挑戦をもたらす。 合成データは、第三者の視覚モデルに力を与えてきたが、エゴセントリックな知覚タスクを具現化するための応用は、いまだに未発見のままである。 重要な課題は、自然の人間の動きや行動をシミュレートし、3D世界の忠実な自我中心の表現を効果的にとらえることである。 この課題に対処するために、エゴセントリックな知覚タスクのための、正確でリッチな地上訓練データを生成する、新しい合成データジェネレータであるEgoGenを紹介する。 EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。 衝突回避運動プリミティブと2段階強化学習アプローチを組み合わせることで,仮想人間の体感と動きをシームレスに結合した閉ループ解が得られる。 従来の研究と比較すると,我々のモデルは定義済みのグローバルパスの必要性を排除し,動的環境に直接適用することができる。 使いやすくスケーラブルなデータ生成パイプラインと組み合わせて、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証しています。 EgoGenは完全にオープンソース化され、現実的なエゴセントリックなトレーニングデータを作成するための実用的なソリューションを提供し、エゴセントリックなコンピュータビジョン研究に有用なツールになることを目指している。 プロジェクトページを参照してください。

Understanding the world in first-person view is fundamental in Augmented Reality (AR). This immersive perspective brings dramatic visual changes and unique challenges compared to third-person views. Synthetic data has empowered third-person-view vision models, but its application to embodied egocentric perception tasks remains largely unexplored. A critical challenge lies in simulating natural human movements and behaviors that effectively steer the embodied cameras to capture a faithful egocentric representation of the 3D world. To address this challenge, we introduce EgoGen, a new synthetic data generator that can produce accurate and rich ground-truth training data for egocentric perception tasks. At the heart of EgoGen is a novel human motion synthesis model that directly leverages egocentric visual inputs of a virtual human to sense the 3D environment. Combined with collision-avoiding motion primitives and a two-stage reinforcement learning approach, our motion synthesis model offers a closed-loop solution where the embodied perception and movement of the virtual human are seamlessly coupled. Compared to previous works, our model eliminates the need for a pre-defined global path, and is directly applicable to dynamic environments. Combined with our easy-to-use and scalable data generation pipeline, we demonstrate EgoGen's efficacy in three tasks: mapping and localization for head-mounted cameras, egocentric camera tracking, and human mesh recovery from egocentric views. EgoGen will be fully open-sourced, offering a practical solution for creating realistic egocentric training data and aiming to serve as a useful tool for egocentric computer vision research. Refer to our project page: https://ego-gen.github.io/.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# 監督された微調整によってビジュアルファウンデーションモデルが改善される

Supervised Fine-tuning in turn Improves Visual Foundation Models ( http://arxiv.org/abs/2401.10222v2 )

ライセンス: Link先を確認
Xiaohu Jiang, Yixiao Ge, Yuying Ge, Dachuan Shi, Chun Yuan, Ying Shan, (参考訳) CLIPのような画像テキストトレーニングは、近年、ビジョン基礎モデルの事前トレーニングを支配している。 その後の取り組みでは、CLIPの事前トレーニングにリージョンレベルのビジュアル学習を導入するが、大規模なリージョンレベルのデータセットが欠如しているため、スケーラビリティ上の課題に直面している。 指導調律などの自然言語処理における教師付き微調整(SFT)からインスピレーションを得て,事前訓練後の視覚基盤モデル生成におけるきめ細かいSFTの可能性を探る。 したがって、視覚基盤モデルの微細な知識を解き放つために、2段階のViSFT(Vision SFT)を提案する。 ViSFTでは、いくつかのドメイン内タスクで視覚的な共同学習を実行し、ドメイン外のベンチマークでテストすることで、ビジョンファウンデーションモデルが強化される。 8V100 GPU上のViSFTを2日以内で更新することで、4.4B以上のパラメータを持つビジョントランスフォーマーは、ビジョンやビジョン言語的なシナリオを含む、さまざまな外部ベンチマークの改善を示す。

Image-text training like CLIP has dominated the pretraining of vision foundation models in recent years. Subsequent efforts have been made to introduce region-level visual learning into CLIP's pretraining but face scalability challenges due to the lack of large-scale region-level datasets. Drawing inspiration from supervised fine-tuning (SFT) in natural language processing such as instruction tuning, we explore the potential of fine-grained SFT in enhancing the generation of vision foundation models after their pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash the fine-grained knowledge of vision foundation models. In ViSFT, the vision foundation model is enhanced by performing visual joint learning on some in-domain tasks and then tested on out-of-domain benchmarks. With updating using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over 4.4B parameters shows improvements across various out-of-domain benchmarks including vision and vision-linguistic scenarios.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# 量子格子ボルツマン法による量子資源削減のための2回路的アプローチ

A two-circuit approach to reducing quantum resources for the quantum lattice Boltzmann method ( http://arxiv.org/abs/2401.12248v2 )

ライセンス: Link先を確認
Sriharsha Kocherla, Austin Adams, Zhixin Song, Alexander Alexeev, Spencer H. Bryngelson, (参考訳) 計算流体力学(CFD)(Computational fluid dynamics)シミュレーションは、しばしば古典的コンピュータにおいて計算負荷が大きい。 現在、これらのシミュレーションには最大数兆のグリッドポイントと数百万のタイムステップが必要である。 コストを削減するために、量子コンピュータのような新しいアーキテクチャは、適切な計算において本質的により効率的である。 CFD問題を解決するための現在の量子アルゴリズムは、単一の量子回路と、場合によっては格子ベースの方法を用いる。 本稿では,量子格子ボルツマン法(QLBM)を用いた新しい多重回路アルゴリズムを提案する。 私たちが形成する2回路のアルゴリズムは、既存のQLBM回路と比較してCNOTゲートが顕著に減少し、ナビエ・ストークス方程式を解く。 この問題は2次元ナビエ・ストークス方程式の流動関数-渦性定式化として鋳造され、2次元蓋駆動キャビティフローで検証および試験された。 ストリーム関数と渦度を分離した回路を用いることで,CNOTが35%,ゲート深さが16%減少し,CNOTが顕著に減少した。 この戦略は、回路が同時に動作し、ゲートの深さが半分になるという利点がある。 この研究は、科学的な関心を持つ微分方程式に基づく問題を解くための実用的な量子回路へのステップとして意図されている。

Computational fluid dynamics (CFD) simulations often entail a large computational burden on classical computers. At present, these simulations can require up to trillions of grid points and millions of time steps. To reduce costs, novel architectures like quantum computers may be intrinsically more efficient at the appropriate computation. Current quantum algorithms for solving CFD problems use a single quantum circuit and, in some cases, lattice-based methods. We introduce the a novel multiple circuits algorithm that makes use of a quantum lattice Boltzmann method (QLBM). The two-circuit algorithm we form solves the Navier-Stokes equations with a marked reduction in CNOT gates compared to existing QLBM circuits. The problem is cast as a stream function--vorticity formulation of the 2D Navier-Stokes equations and verified and tested on a 2D lid-driven cavity flow. We show that using separate circuits for the stream function and vorticity lead to a marked CNOT reduction: 35% in total CNOT count and 16% in combined gate depth. This strategy has the additional benefit of the circuits being able to run concurrently, further halving the seen gate depth. This work is intended as a step towards practical quantum circuits for solving differential equation-based problems of scientific interest.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# AdvNF: 逆学習を用いた条件付き正規化流れにおけるモード崩壊の低減

AdvNF: Reducing Mode Collapse in Conditional Normalising Flows using Adversarial Learning ( http://arxiv.org/abs/2401.15948v2 )

ライセンス: Link先を確認
Vikas Kanaujia, Mathias S. Scheurer, Vipul Arora, (参考訳) 深い生成モデルはマルコフ-チェーン-モンテ-カルロ法を補完し、高次元分布から効率的にサンプリングする。 これらの方法のうち、正規化フロー(NFs)やメトロポリス・ヘイスティングス(Metropolis Hastings)アルゴリズムと組み合わせた明示的なジェネレータは、対象の分布から偏りのないサンプルを取得するために広く応用されている。 本研究では,高分散,モード崩壊,データ効率などの条件付きNFにおける中心的問題を系統的に研究する。 我々はこれらの問題を改善するため,NFの対角訓練を提案する。 低次元の合成データセットと2次元のXYスピンモデルを用いて実験を行った。

Deep generative models complement Markov-chain-Monte-Carlo methods for efficiently sampling from high-dimensional distributions. Among these methods, explicit generators, such as Normalising Flows (NFs), in combination with the Metropolis Hastings algorithm have been extensively applied to get unbiased samples from target distributions. We systematically study central problems in conditional NFs, such as high variance, mode collapse and data efficiency. We propose adversarial training for NFs to ameliorate these problems. Experiments are conducted with low-dimensional synthetic datasets and XY spin models in two spatial dimensions.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# モダリティ不完全シーンセグメンテーションのためのフーリエプロンプトチューニング

Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation ( http://arxiv.org/abs/2401.16923v2 )

ライセンス: Link先を確認
Ruiping Liu, Jiaming Zhang, Kunyu Peng, Yufan Chen, Ke Cao, Junwei Zheng, M. Saquib Sarfraz, Kailun Yang, Rainer Stiefelhagen, (参考訳) 複数のモードから情報を統合することで、自動運転車におけるシーン認識システムの堅牢性が向上し、より包括的で信頼性の高い知覚フレームワークを提供する。 しかし、マルチモーダルセグメンテーションにおけるモダリティの不完全性はいまだ探索されていない。 本研究では,MISS(Modality-Incomplete Scene Segmentation)と呼ばれる,システムレベルのモダリティ不在とセンサレベルのモダリティエラーの両方を含むタスクを確立する。 マルチモーダル核融合における主要なモダリティ依存を回避するため,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。 ビットレベルのバッチワイドサンプリングを利用することで、完全なテストシナリオと不完全なテストシナリオの両方において、モデルのパフォーマンスが向上する。 さらに,全てのMISシナリオに対して堅牢性を維持するために,代表的なスペクトル情報を限られた数の学習可能なプロンプトに組み込むFourier Prompt Tuning(FPT)手法を導入する。 微調整効果に似ているが、調整可能なパラメータは少ない(1.1%)。 拡張実験により提案手法の有効性が証明され, 従来よりも5.84% mIoUの改善が見られた。 ソースコードはhttps://github.com/RuipingL/MISSで公開されている。

Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in multi-modal segmentation remains under-explored. In this work, we establish a task called Modality-Incomplete Scene Segmentation (MISS), which encompasses both system-level modality absence and sensor-level modality errors. To avoid the predominant modality reliance in multi-modal fusion, we introduce a Missing-aware Modal Switch (MMS) strategy to proactively manage missing modalities during training. Utilizing bit-level batch-wise sampling enhances the model's performance in both complete and incomplete testing scenarios. Furthermore, we introduce the Fourier Prompt Tuning (FPT) method to incorporate representative spectral information into a limited number of learnable prompts that maintain robustness against all MISS scenarios. Akin to fine-tuning effects but with fewer tunable parameters (1.1%). Extensive experiments prove the efficacy of our proposed approach, showcasing an improvement of 5.84% mIoU over the prior state-of-the-art parameter-efficient methods in modality missing. The source code is publicly available at https://github.com/RuipingL/MISS.
翻訳日:2024-04-12 18:45:46 公開日:2024-04-11
# O(\frac{\sqrt{d}}{T^{1/4}})$RMSPropの収束率とそのモメンタム拡張について

On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm ( http://arxiv.org/abs/2402.00389v2 )

ライセンス: Link先を確認
Huan Li, Zhouchen Lin, (参考訳) 適応的勾配法は深層学習において広く用いられているが、文献で証明された収束速度はSGDよりも遅く、特にその次元への依存に関して遅くなっている。 本稿では、古典的 RMSProp とその運動量拡大を考慮し、$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ を有界勾配の仮定なしに$\ell_1$ノルムで測定し、$d$ は最適化変数の次元、$T$ は反復数、$C$ は SGD の最適収束率に現れる定数である。 我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。 $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ が非常に大きな$d$ を持つ問題に対して与えられるので、我々の収束率は $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$ $\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2$$ に類似していると考えられる。

Although adaptive gradient methods have been extensively used in deep learning, their convergence rates proved in the literature are all slower than that of SGD, particularly with respect to their dependence on the dimension. This paper considers the classical RMSProp and its momentum extension and establishes the convergence rate of $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ measured by $\ell_1$ norm without the bounded gradient assumption, where $d$ is the dimension of the optimization variable, $T$ is the iteration number, and $C$ is a constant identical to that appeared in the optimal convergence rate of SGD. Our convergence rate matches the lower bound with respect to all the coefficients except the dimension $d$. Since $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ for problems with extremely large $d$, our convergence rate can be considered to be analogous to the $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$ rate of SGD in the ideal case of $\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2)$.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# テキスト表現による心内電図の解釈

Interpretation of Intracardiac Electrograms Through Textual Representations ( http://arxiv.org/abs/2402.01115v2 )

ライセンス: Link先を確認
William Jongwon Han, Diana Gomez, Avi Alok, Chaojing Duan, Michael A. Rosenberg, Douglas Weber, Emerson Liu, Ding Zhao, (参考訳) 心房細動(AFib)の不規則な電気活動を理解することは心電図における重要な課題である。 重篤なAFib症例では、心内電図(EGM)の収集のためにカテーテル・アブレーションが施行される。 EGMは、心臓の複雑な詳細で局所的な電気活動を提供し、解釈可能な心臓研究に理想的なモダリティである。 人工知能(AI)の最近の進歩は、深層学習フレームワークを使用して、AFib中にEGMを解釈する作業を可能にしている。 さらに、言語モデル(LM)は、特に医療において、目に見えない領域に一般化できるという、例外的な性能を示している。 本研究では,マスク付き言語モデリングによるEMG補間とAFib分類の微調整に事前学習したLMを初めて活用する。 テキストシーケンスとしてEGMを定式化し、他の表現と比較してAFib分類における競合性能を示す。 最後に, モデル行動の多視点的直観を提供するための総合的解釈可能性研究を行い, 臨床応用に大きな恩恵をもたらす可能性がある。

Understanding the irregular electrical activity of atrial fibrillation (AFib) has been a key challenge in electrocardiography. For serious cases of AFib, catheter ablations are performed to collect intracardiac electrograms (EGMs). EGMs offer intricately detailed and localized electrical activity of the heart and are an ideal modality for interpretable cardiac studies. Recent advancements in artificial intelligence (AI) has allowed some works to utilize deep learning frameworks to interpret EGMs during AFib. Additionally, language models (LMs) have shown exceptional performance in being able to generalize to unseen domains, especially in healthcare. In this study, we are the first to leverage pretrained LMs for finetuning of EGM interpolation and AFib classification via masked language modeling. We formulate the EGM as a textual sequence and present competitive performances on AFib classification compared against other representations. Lastly, we provide a comprehensive interpretability study to provide a multi-perspective intuition of the model's behavior, which could greatly benefit the clinical use.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# Minusformer: 逐次学習による時系列予測の改善

Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals ( http://arxiv.org/abs/2402.02332v2 )

ライセンス: Link先を確認
Daojun Liang, Haixia Zhang, Dongfeng Yuan, Bingzheng Zhang, Minggao Zhang, (参考訳) 本稿では,ユビキタス時系列(TS)予測モデルが過度なオーバーフィッティングの傾向にあることを示す。 この問題に対処するため,我々はTSの内在値を将来的な間隔で漸進的に再保存する非冗長アプローチを採用した。 具体的には,情報集約機構を付加から減算に再配置することで,バニラ変換器を改良する。 そして、原モデルの各ブロックに補助出力分岐を組み込んで、最終的な予測につながるハイウェイを構築する。 このブランチにおけるその後のモジュールの出力は、事前に学習した結果を減らし、モデルが監視信号の残余を層ごとに学習できるようにする。 この設計により、学習駆動による入力ストリームと出力ストリームの漸進的分解が促進され、モデルの汎用性、解釈可能性、過度な適合に対するレジリエンスが向上する。 モデル内のすべてのアグリゲーションはマイナス記号であるため、これはMinusformerと呼ばれる。 大規模な実験により、提案手法は既存の最先端手法よりも優れており、様々なデータセットの平均性能は11.9%向上した。

In this paper, we find that ubiquitous time series (TS) forecasting models are prone to severe overfitting. To cope with this problem, we embrace a de-redundancy approach to progressively reinstate the intrinsic values of TS for future intervals. Specifically, we renovate the vanilla Transformer by reorienting the information aggregation mechanism from addition to subtraction. Then, we incorporate an auxiliary output branch into each block of the original model to construct a highway leading to the ultimate prediction. The output of subsequent modules in this branch will subtract the previously learned results, enabling the model to learn the residuals of the supervision signal, layer by layer. This designing facilitates the learning-driven implicit progressive decomposition of the input and output streams, empowering the model with heightened versatility, interpretability, and resilience against overfitting. Since all aggregations in the model are minus signs, which is called Minusformer. Extensive experiments demonstrate the proposed method outperform existing state-of-the-art methods, yielding an average performance improvement of 11.9% across various datasets.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# 高次元立方体錯体の拡張と量子局所テスト可能符号への応用

Expansion of higher-dimensional cubical complexes with application to quantum locally testable codes ( http://arxiv.org/abs/2402.07476v2 )

ライセンス: Link先を確認
Irit Dinur, Ting-Chun Lin, Thomas Vidick, (参考訳) 任意の次元 t>0 に対して高次元立方体錯体を導入し、量子局所テスト可能な符号の設計に適用する。 我々の複体はパンテレーエフとカラチェフとディンルらによる構成の自然な一般化である。 古典的局所テスト可能符号 (LTC) と量子低密度パリティチェック符号 (qLDPC) の設計にそれぞれ応用された平方複体 (例 t=2) の al である。 我々は幾何学的(キュビカルな)複素数体を、ガジェットとして一定サイズの局所符号(h_1,\ldots,h_t$)を頼りに鎖複数体に変換する。 Panteleev と Kalachev の最近の成果は、製品展開中のコードのタプルの存在によって、我々の鎖複合体のサイクルとコサイクル展開の低い境界を証明できる。 t=4 の場合、我々の構成は「最も良い」量子 LTC の族を与える。 量子コードの距離と局所的なテスト容易性は、我々の鎖複合体のサイクルとコサイクル展開から直接証明される。

We introduce a high-dimensional cubical complex, for any dimension t>0, and apply it to the design of quantum locally testable codes. Our complex is a natural generalization of the constructions by Panteleev and Kalachev and by Dinur et. al of a square complex (case t=2), which have been applied to the design of classical locally testable codes (LTC) and quantum low-density parity check codes (qLDPC) respectively. We turn the geometric (cubical) complex into a chain complex by relying on constant-sized local codes $h_1,\ldots,h_t$ as gadgets. A recent result of Panteleev and Kalachev on existence of tuples of codes that are product expanding enables us to prove lower bounds on the cycle and co-cycle expansion of our chain complex. For t=4 our construction gives a new family of "almost-good" quantum LTCs -- with constant relative rate, inverse-polylogarithmic relative distance and soundness, and constant-size parity checks. Both the distance of the quantum code and its local testability are proven directly from the cycle and co-cycle expansion of our chain complex.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# プライバシ対応エージェントの集団意思決定

Group Decision-Making among Privacy-Aware Agents ( http://arxiv.org/abs/2402.08156v4 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian, (参考訳) プライバシのニーズやセキュリティ上の懸念にもかかわらず、個人が情報交換して互いに学び合うにはどうすればいいのか? 例えば、論争的なトピックを熟考し、個人的な経験を浸食することに関心を持つ個人を考えてみましょう。 個人のプライバシーを維持し、効果的な社会的学習を可能にすることはどちらも重要なデシダラタであるが、基本的には互いに相反し、和解が困難であるように思われる。 差分プライバシー(DP)に基づく厳密な統計保証を用いて情報漏洩を制御する。 我々のエージェントは、隣人と通信した後、彼らの信念を更新するためにログリニアルールを使用します。 信条にDPランダム化ノイズを加えることで、コミュニケーションエージェントは、彼らのプライベート情報とそのネットワーク近隣について、もっともらしい識別性が得られる。 2つの学習環境を,有限個のプライベート信号が与えられた分散最大様相推定用と,無限の断続的な信号ストリームからオンライン学習用と考えて検討した。 有限ケースにおけるノイズ情報集約は、低品質状態の拒絶と、アルゴリズム出力にすべての高品質状態が受け入れられることの間の興味深いトレードオフをもたらす。 その結果,グループ意思決定の結果の質,学習精度,通信コスト,エージェントが備えているプライバシー保護の水準の両面でのトレードオフの性質が明らかになった。

How can individuals exchange information to learn from each other despite their privacy needs and security concerns? For example, consider individuals deliberating a contentious topic and being concerned about divulging their private experiences. Preserving individual privacy and enabling efficient social learning are both important desiderata but seem fundamentally at odds with each other and very hard to reconcile. We do so by controlling information leakage using rigorous statistical guarantees that are based on differential privacy (DP). Our agents use log-linear rules to update their beliefs after communicating with their neighbors. Adding DP randomization noise to beliefs provides communicating agents with plausible deniability with regard to their private information and their network neighborhoods. We consider two learning environments one for distributed maximum-likelihood estimation given a finite number of private signals and another for online learning from an infinite, intermittent signal stream. Noisy information aggregation in the finite case leads to interesting tradeoffs between rejecting low-quality states and making sure all high-quality states are accepted in the algorithm output. Our results flesh out the nature of the trade-offs in both cases between the quality of the group decision outcomes, learning accuracy, communication cost, and the level of privacy protections that the agents are afforded.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# LLaGA: 大規模言語とグラフアシスタント

LLaGA: Large Language and Graph Assistant ( http://arxiv.org/abs/2402.08170v3 )

ライセンス: Link先を確認
Runjin Chen, Tong Zhao, Ajay Jaiswal, Neil Shah, Zhangyang Wang, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ分析の進歩を促進する。 近年、GPT-4のような大規模言語モデル(LLM)の台頭は、ディープラーニングの新しい時代を告げている。 しかし、グラフ構造を言語に翻訳することが本質的に困難であることから、グラフデータへのそれらの適用は異なる課題を生じさせる。 この目的のために,Large Language and Graph Assistant (LLaGA)を導入し,グラフ構造化データの複雑さを扱うためにLLM機能を効果的に統合する革新的なモデルを提案する。 LLaGA は LLM の汎用性を維持しながら、グラフデータを LLM 入力と互換性のあるフォーマットに適合させる。 LLaGAはグラフノードを構造認識シーケンスに再編成し、それを多目的プロジェクタを通じてトークン埋め込み空間にマッピングすることでこれを実現している。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して機能し、データセットやタスクを表示できないように拡張し、グラフの説明を提供する。 LLaGAは4つのデータセットと3つのタスクを1つのモデルで比較し、教師付きおよびゼロショットのシナリオで最先端のグラフモデルを上回っていることを示す。 私たちのコードは \url{https://github.com/VITA-Group/LLaGA} で利用可能です。

Graph Neural Networks (GNNs) have empowered the advance in graph-structured data analysis. Recently, the rise of Large Language Models (LLMs) like GPT-4 has heralded a new era in deep learning. However, their application to graph data poses distinct challenges due to the inherent difficulty of translating graph structures to language. To this end, we introduce the Large Language and Graph Assistant (LLaGA), an innovative model that effectively integrates LLM capabilities to handle the complexities of graph-structured data. LLaGA retains the general-purpose nature of LLMs while adapting graph data into a format compatible with LLM input. LLaGA achieves this by reorganizing graph nodes to structure-aware sequences and then mapping these into the token embedding space through a versatile projector. LLaGA excels in versatility, generalizability and interpretability, allowing it to perform consistently well across different datasets and tasks, extend its ability to unseen datasets or tasks, and provide explanations for graphs. Our extensive experiments across popular graph benchmarks show that LLaGA delivers outstanding performance across four datasets and three tasks using one single model, surpassing state-of-the-art graph models in both supervised and zero-shot scenarios. Our code is available at \url{https://github.com/VITA-Group/LLaGA}.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# AI倫理労働における感情力、客観性、ジェンダー - 所在する苦情の合法化

Epistemic Power, Objectivity and Gender in AI Ethics Labor: Legitimizing Located Complaints ( http://arxiv.org/abs/2402.08171v3 )

ライセンス: Link先を確認
David Gray Widder, (参考訳) 正統なAI倫理労働とは何であり、その結果、AI倫理の主張が正当であるという認識論的な用語は何だろうか? 本稿では,研究者,開発者,オープンソースコントリビュータ,活動家など75人の技術者へのインタビューに基づいて,AI倫理について議論し,実践するさまざまな疫学基盤について検討する。 プログレス」の障害としてのAI倫理に対する外部からの攻撃という文脈では、AI倫理の実践が、自動化と定量化の権威に到達し、結果としてある程度の正当性を達成したかを示します。 本稿では,フェミニストの人類学・科学技術研究家Diana Forsythe と Lucy Suchman の業績と,ポストコロニアルフェミニストのSara Ahmed とブラックフェミニストのKristie Dotson の業績を組み合わせて,AI倫理の優越性について考察する。 定量化の疫学的な力、支配的なAI倫理の慣行-モデルカード、および同様の介入リスクの正当性によって、AI倫理は、同じプロジェクトの正当な部分として、具現化され生きた経験を非合法化し、疎外化する、等しく反対の尺度でプロジェクトとしてAI倫理を正当化する。 それに対して、私は謙虚な技術的プラクティスを提案します: 定量的または技術的なプラクティスは、特に、てんかんの力の階層を平らにするために、てんかんの限界を明確にすることを目的としています。

What counts as legitimate AI ethics labor, and consequently, what are the epistemic terms on which AI ethics claims are rendered legitimate? Based on 75 interviews with technologists including researchers, developers, open source contributors, and activists, this paper explores the various epistemic bases from which AI ethics is discussed and practiced. In the context of outside attacks on AI ethics as an impediment to "progress," I show how some AI ethics practices have reached toward authority from automation and quantification, and achieved some legitimacy as a result, while those based on richly embodied and situated lived experience have not. This paper draws together the work of feminist Anthropology and Science and Technology Studies scholars Diana Forsythe and Lucy Suchman with the works of postcolonial feminist theorist Sara Ahmed and Black feminist theorist Kristie Dotson to examine the implications of dominant AI ethics practices. By entrenching the epistemic power of quantification, dominant AI ethics practices-Model Cards and similar interventions-risk legitimizing AI ethics as a project in equal and opposite measure to which they delegitimize and marginalize embodied and lived experiences as legitimate parts of the same project. In response, I propose humble technical practices: quantified or technical practices which specifically seek to make their epistemic limits clear in order to flatten hierarchies of epistemic power.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# 先行制約と時間制約を考慮した衝突探索による最適タスク割り当てと経路計画

Optimal Task Assignment and Path Planning using Conflict-Based Search with Precedence and Temporal Constraints ( http://arxiv.org/abs/2402.08772v2 )

ライセンス: Link先を確認
Yu Quan Chong, Jiaoyang Li, Katia Sycara, (参考訳) MAPF(Multi-Agent Path Finding)問題では、エージェントの集合に対する衝突のないパスを見つけ出し、開始時点から目標地点まで誘導する。 しかしMAPFは、いくつかの実践的なタスク関連の制約を考慮していない。 例えば、エージェントは特定の実行時間でゴール位置でアクションを実行し、所定の順序と時間枠に従う必要がある。 さらに、目標の割り当てはエージェントに対して事前に定義されず、最適化の目的には明確な定義が欠落する可能性がある。 本稿では,タスク割り当て,経路計画,ユーザ定義の目的を一貫性のあるフレームワークに組み込むため,TAPF-PTC問題について検討する。 RL(Regress Learning)におけるユーザ定義報酬関数の戻りによって定量化される目的を最大化することで,優先的制約と時間的制約に順応するタスク代入と衝突のない経路を同時に生成できるように,CBS(Conflict-Based Search)を強化した。 実験により,我々のアルゴリズムであるCBS-TA-PTCは,MARLや適応型TAPF(Target Assignment and Path Finding)法に対して,優先度と時間的制約を効率よく有する,高度に困難な爆弾処理タスクを解くことができることを示した。

The Multi-Agent Path Finding (MAPF) problem entails finding collision-free paths for a set of agents, guiding them from their start to goal locations. However, MAPF does not account for several practical task-related constraints. For example, agents may need to perform actions at goal locations with specific execution times, adhering to predetermined orders and timeframes. Moreover, goal assignments may not be predefined for agents, and the optimization objective may lack an explicit definition. To incorporate task assignment, path planning, and a user-defined objective into a coherent framework, this paper examines the Task Assignment and Path Finding with Precedence and Temporal Constraints (TAPF-PTC) problem. We augment Conflict-Based Search (CBS) to simultaneously generate task assignments and collision-free paths that adhere to precedence and temporal constraints, maximizing an objective quantified by the return from a user-defined reward function in reinforcement learning (RL). Experimentally, we demonstrate that our algorithm, CBS-TA-PTC, can solve highly challenging bomb-defusing tasks with precedence and temporal constraints efficiently relative to MARL and adapted Target Assignment and Path Finding (TAPF) methods.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# スケールされたアフィン$\varphi^4_4$量子ユークリッド共変相対論におけるグリーン関数の連続極限

Continuum limit of the Green function in scaled affine $\varphi^4_4$ quantum Euclidean covariant relativistic field theory ( http://arxiv.org/abs/2402.10903v2 )

ライセンス: Link先を確認
Riccardo Fantoni, (参考訳) 我々は、経路積分モンテカルロ計算機実験を通じて、$\varphi_4^4$スケールユークリッド共変相対論的スカラー場理論のアフィン量子化が、1点函数と2点函数のよく定義された連続極限を持つ有効な量子場理論であることを証明した。 アフィン量子化は、スケールした振る舞いを伴う状況を利用して、量子論の完全な満足な量子化を導き、予期せぬ$\hbar^2/\varphi^2$へと導く。

We prove through path integral Monte Carlo computer experiments that the affine quantization of the $\varphi_4^4$ scaled Euclidean covariant relativistic scalar field theory is a valid quantum field theory with a well defined continuum limit of the one- and two-point-function. Affine quantization leads to a completely satisfactory quantization of field theories using situations that involve scaled behavior leading to an unexpected, $\hbar^2/\varphi^2$ which arises only in the quantum aspects.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# リモート可能性: WILがあるところに道はあるか? : ワーク・インテグレート・ラーニングの新しい時代の遠隔学習者のためのAI教育

Remote Possibilities: Where there is a WIL, is there a Way? AI Education for Remote Learners in a New Era of Work-Integrated-Learning ( http://arxiv.org/abs/2402.12667v2 )

ライセンス: Link先を確認
Derek Jacoby, Saiph Savage, Yvonne Coady, (参考訳) 遠隔地における非伝統的な学習者のためのリソースが不足していることから,教育環境における多様性の増大が課題となっている。 リモートとハイブリッドの学習に特化して設計されたポストパンデミックプラットフォーム -- チームベースのコラボレーションをサポートする -- は、このギャップを埋める位置にある。 我々の研究は、これらの新しいプラットフォームの使用と、コミュニティや公共図書館システムへの取り組みを含む、AI支援リモートワーク・インテグレート・ラーニング(WIL)の機会のための共同作成とコラボレーションツールを組み合わせています。 本稿では,これまでの経験を概説し,コミュニティ主導のリモートWILアプリケーションにAI教育をさらに統合する方法を提案する。

Increasing diversity in educational settings is challenging in part due to the lack of access to resources for non-traditional learners in remote communities. Post-pandemic platforms designed specifically for remote and hybrid learning -- supporting team-based collaboration online -- are positioned to bridge this gap. Our work combines the use of these new platforms with co-creation and collaboration tools for AI assisted remote Work-Integrated-Learning (WIL) opportunities, including efforts in community and with the public library system. This paper outlines some of our experiences to date, and proposes methods to further integrate AI education into community-driven applications for remote WIL.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# Me LLaMA:医療応用のための基礎的な大規模言語モデル

Me LLaMA: Foundation Large Language Models for Medical Applications ( http://arxiv.org/abs/2402.12749v4 )

ライセンス: Link先を確認
Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xinyu Zhou, Huan He, Lucila Ohno-Machado, Yonghui Wu, Hua Xu, Jiang Bian, (参考訳) ChatGPTやLLaMAのような大規模言語モデル(LLM)の最近の進歩は、医学的応用に革命をもたらす可能性を示唆している。 そこで本研究では,Me-LLaMA 13/70Bとチャット強化版であるMe-LLaMA 13/70B-chatを,大規模医療データセットを用いたLLaMA2の継続事前トレーニングおよび指導チューニングにより導入した,新しい医療用LLMファミリーであるMe-LLaMAを紹介する。 提案手法では,129Bトークンによる大規模かつ連続的な事前トレーニングデータセット,214kサンプルによる命令チューニングデータセット,12データセットによる6つの重要な医療タスクを対象としたMIBE(医療評価ベンチマーク)など,包括的なドメイン固有データスイートを活用している。 MIBEを用いた広範囲な評価により,Me-LLaMAモデルは,ゼロショット,少数ショット,教師あり学習能力において,既存のオープンソース医療用LLMよりも総合的に優れた性能を発揮することが示された。 タスク固有の命令チューニングにより、Me-LLaMAモデルは8つのデータセットのうち7つでChatGPTを、8つのデータセットのうち5つでGPT-4を上回ります。 さらに, 破滅的な忘れ込み問題を検討した結果, Me-LLaMA モデルが他のオープンソース医療用 LLM モデルより優れており, この問題を緩和していることがわかった。 Me-LLaMAは、バイオメディカルデータと臨床データの両方を使用する、最大のオープンソース医療財団の1つである。 他のオープンソース医療用LLMと比較して、一般的なタスクと医療タスクの両方で優れたパフォーマンスを示しており、医療AIアプリケーションにとって魅力的な選択である。 モデル、データセット、評価スクリプトをhttps://github.com/BIDS-Xu-Lab/Me-LLaMAでリリースします。

Recent advancements in large language models (LLMs) such as ChatGPT and LLaMA have hinted at their potential to revolutionize medical applications, yet their application in clinical settings often reveals limitations due to a lack of specialized training on medical-specific data. In response to this challenge, this study introduces Me-LLaMA, a novel medical LLM family that includes foundation models - Me-LLaMA 13/70B, along with their chat-enhanced versions - Me-LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our methodology leverages a comprehensive domain-specific data suite, including a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six critical medical tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me-LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. With task-specific instruction tuning, Me-LLaMA models outperform ChatGPT on 7 out of 8 datasets and GPT-4 on 5 out of 8 datasets. In addition, we investigated the catastrophic forgetting problem, and our results show that Me-LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me-LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# NeRFと3DガウススプラッティングがSLAMをどう変えるか:サーベイ

How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey ( http://arxiv.org/abs/2402.13255v2 )

ライセンス: Link先を確認
Fabio Tosi, Youmin Zhang, Ziren Gong, Erik Sandström, Stefano Mattoccia, Martin R. Oswald, Matteo Poggi, (参考訳) 過去20年間で、同時局在マッピング(SLAM)の分野での研究は大きな進化を遂げ、未知の環境を自律的に探索する上で重要な役割を担ってきた。 この進化は、手作りの手法からディープラーニングの時代まで、ニューラルネットワーク場(NeRF)と3Dガウススプラッティング(3DGS)の表現に焦点を当てた最近の発展まで様々である。 本研究は,研究の進展と,その話題に関する包括的調査の欠如を認識し,レーダランス分野における最新の進歩のレンズを通して,SLAMの進展の包括的概要を初めて明らかにすることを目的としている。 背景、進化の道、固有の強さと限界に光を当て、ダイナミックな進歩と特定の課題を強調するための基本的な参照として機能する。

Over the past two decades, research in the field of Simultaneous Localization and Mapping (SLAM) has undergone a significant evolution, highlighting its critical role in enabling autonomous exploration of unknown environments. This evolution ranges from hand-crafted methods, through the era of deep learning, to more recent developments focused on Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) representations. Recognizing the growing body of research and the absence of a comprehensive survey on the topic, this paper aims to provide the first comprehensive overview of SLAM progress through the lens of the latest advancements in radiance fields. It sheds light on the background, evolutionary path, inherent strengths and limitations, and serves as a fundamental reference to highlight the dynamic progress and specific challenges.
翻訳日:2024-04-12 18:35:56 公開日:2024-04-11
# FedADMM-InSa: フェデレートラーニングのための非現実的で自己適応型ADMM

FedADMM-InSa: An Inexact and Self-Adaptive ADMM for Federated Learning ( http://arxiv.org/abs/2402.13989v2 )

ライセンス: Link先を確認
Yongcun Song, Ziqi Wang, Enrique Zuazua, (参考訳) フェデレートラーニング(FL)は、プライバシを維持しながら分散データから学習するための有望なフレームワークである。 効率的なFLアルゴリズムの開発は、異種データやシステム、限られた通信能力、制約のあるローカル計算資源など、様々な課題に直面している。 最近開発されたFedADMM法は、データとシステムの不均一性の両方に優れたレジリエンスを示す。 しかし、ハイパーパラメータを慎重に調整しなければ、パフォーマンスの劣化に悩まされる。 この問題に対処するため,FedADMM-InSaと呼ばれる不正確な自己適応型FedADMMアルゴリズムを提案する。 まず、クライアントのローカル更新に対する不正確な基準を設計し、ローカルトレーニングの精度を実証的に設定する必要をなくす。 この不正確な基準は、そのユニークな条件に基づいて各クライアントによって独立に評価することができ、それによって局所的な計算コストを低減し、望ましくないトラグル効果を軽減できる。 結果の不正確なADMMの収束は、強い凸損失関数の仮定の下で証明される。 さらに,各クライアントのペナルティパラメータを動的に調整し,各クライアントに対する経験的ペナルティパラメータの選択の必要性を軽減し,アルゴリズムの堅牢性を向上する自己適応型スキームを提案する。 合成と実世界の両方のデータセットに関する大規模な数値実験を行った。 いくつかの数値実験で検証されているように、提案アルゴリズムはクライアントの局所的な計算負荷を大幅に削減し、また、バニラFedADMMと比較して学習プロセスを高速化することができる。

Federated learning (FL) is a promising framework for learning from distributed data while maintaining privacy. The development of efficient FL algorithms encounters various challenges, including heterogeneous data and systems, limited communication capacities, and constrained local computational resources. Recently developed FedADMM methods show great resilience to both data and system heterogeneity. However, they still suffer from performance deterioration if the hyperparameters are not carefully tuned. To address this issue, we propose an inexact and self-adaptive FedADMM algorithm, termed FedADMM-InSa. First, we design an inexactness criterion for the clients' local updates to eliminate the need for empirically setting the local training accuracy. This inexactness criterion can be assessed by each client independently based on its unique condition, thereby reducing the local computational cost and mitigating the undesirable straggle effect. The convergence of the resulting inexact ADMM is proved under the assumption of strongly convex loss functions. Additionally, we present a self-adaptive scheme that dynamically adjusts each client's penalty parameter, enhancing algorithm robustness by mitigating the need for empirical penalty parameter choices for each client. Extensive numerical experiments on both synthetic and real-world datasets are conducted. As validated by some numerical tests, our proposed algorithm can reduce the clients' local computational load significantly and also accelerate the learning process compared to the vanilla FedADMM.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# 大規模空間におけるロバストおよび解釈可能な視覚課題の階層的不変性

Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales ( http://arxiv.org/abs/2402.15430v2 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Zhihua Xia, Xiaochun Cao, Jian Weng, (参考訳) 堅牢で解釈可能な視覚システムを開発することは、信頼できる人工知能への重要なステップである。 この観点から、有望なパラダイムは、基本的なイメージ表現にタスク要求不変構造(例えば、幾何学的不変性)を埋め込むことを考える。 しかし、そのような不変表現は、一般に限定的な識別可能性を示し、より大規模な信頼できる視覚タスクにおけるそれらの応用を制限する。 このオープンな問題に対して、我々は階層的不変性の体系的な研究を行い、理論的、実践的、応用的な観点からこのトピックを探求する。 理論的レベルでは、畳み込みニューラルネットワーク(CNN)のような階層的アーキテクチャを用いて、完全に解釈可能な方法でオーバーコンプリート不変量を構築する方法を示す。 一般的な青写真、特定の定義、不変性、数値的な実装が提供される。 実用レベルでは、この理論フレームワークを与えられたタスクにカスタマイズする方法について議論する。 オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成することができる。 本研究では, テクスチャ, ディジット, 寄生虫の分類実験において, 精度, 不変性, 効率性を示す。 さらに、アプリケーションレベルでは、敵の摂動と人工知能生成コンテンツ(AIGC)に関する現実世界の法医学的タスクにおいて、我々の表現を探索する。 このような応用により,提案手法は理論的に約束された不変性を実現するだけでなく,深層学習の時代においても競争性のある差別性を示すことが明らかとなった。 大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。

Developing robust and interpretable vision systems is a crucial step towards trustworthy artificial intelligence. In this regard, a promising paradigm considers embedding task-required invariant structures, e.g., geometric invariance, in the fundamental image representation. However, such invariant representations typically exhibit limited discriminability, limiting their applications in larger-scale trustworthy vision tasks. For this open problem, we conduct a systematic investigation of hierarchical invariance, exploring this topic from theoretical, practical, and application perspectives. At the theoretical level, we show how to construct over-complete invariants with a Convolutional Neural Networks (CNN)-like hierarchical architecture yet in a fully interpretable manner. The general blueprint, specific definitions, invariant properties, and numerical implementations are provided. At the practical level, we discuss how to customize this theoretical framework into a given task. With the over-completeness, discriminative features w.r.t. the task can be adaptively formed in a Neural Architecture Search (NAS)-like manner. We demonstrate the above arguments with accuracy, invariance, and efficiency results on texture, digit, and parasite classification experiments. Furthermore, at the application level, our representations are explored in real-world forensics tasks on adversarial perturbations and Artificial Intelligence Generated Content (AIGC). Such applications reveal that the proposed strategy not only realizes the theoretically promised invariance, but also exhibits competitive discriminability even in the era of deep learning. For robust and interpretable vision tasks at larger scales, hierarchical invariant representation can be considered as an effective alternative to traditional CNN and invariants.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# 共有潜在構造をもつタスクのニューラル集団幾何学と最適符号化

Neural population geometry and optimal coding of tasks with shared latent structure ( http://arxiv.org/abs/2402.16770v2 )

ライセンス: Link先を確認
Albert J. Wakhloo, Will Slatton, SueYeon Chung, (参考訳) 人間や動物は環境内の潜伏構造を認識し、この情報を用いて世界を効率的にナビゲートすることができる。 しかし、これらの計算能力に神経活動のどの側面が寄与するかは、まだ不明である。 そこで我々は,ニューラル集団の活動の幾何学と,共通の潜在構造に依存する一連のタスクに対する線形読み出しの一般化性能を結びつける解析理論を開発した。 4つの幾何学的測度がタスク間の性能を決定することを示す。 この理論を用いて,マルチタスク学習問題に対する最適解として,実験的に観察された不整合表現が自然に出現することを発見した。 データが不足している場合、これらの最適なニューラルネットワークは、情報的潜在変数を圧縮しにくくし、データが豊富であれば、状態空間内でこれらの変数を拡張する。 マカク気道流記録を用いて本理論を検証した。 この結果から,人口統計学とマルチタスク学習を結びつけた。

Humans and animals can recognize latent structures in their environment and apply this information to efficiently navigate the world. However, it remains unclear what aspects of neural activity contribute to these computational capabilities. Here, we develop an analytical theory linking the geometry of a neural population's activity to the generalization performance of a linear readout on a set of tasks that depend on a common latent structure. We show that four geometric measures of the activity determine performance across tasks. Using this theory, we find that experimentally observed disentangled representations naturally emerge as an optimal solution to the multi-task learning problem. When data is scarce, these optimal neural codes compress less informative latent variables, and when data is abundant, they expand these variables in the state space. We validate our theory using macaque ventral stream recordings. Our results therefore tie population geometry to multi-task learning.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# GEM3D:三次元形状合成のためのジェネレーティブメディア抽象化

GEM3D: GEnerative Medial Abstractions for 3D Shape Synthesis ( http://arxiv.org/abs/2402.16994v2 )

ライセンス: Link先を確認
Dmitry Petrov, Pradyumn Goyal, Vikas Thamizharasan, Vladimir G. Kim, Matheus Gadelha, Melinos Averkiou, Siddhartha Chaudhuri, Evangelos Kalogerakis, (参考訳) GEM3Dは3次元形状の新しい深層トポロジ対応生成モデルである。 本手法の鍵となる要素は,形状トポロジーと幾何学の両方の情報を符号化するニューラルスケルトンに基づく表現である。 拡散確率モデルを用いて,本手法はまずメディア軸変換(MAT)に従って骨格ベースの表現を生成し,次いで骨格駆動型ニューラル暗黙の定式化により表面を生成する。 ニューラル暗黙は、生成されたスケルトン表現に格納された位相的および幾何学的情報を考慮に入れ、以前の神経磁場の定式化よりも位相的および幾何学的に正確な表面を生成する。 形状合成および点雲再構成作業における本手法の適用について検討し,定性的かつ定量的に評価した。 我々は,Thingi10KやShapeNetから構造的に複雑で高密度な形状表面を再構成・合成する困難なシナリオを含む,最先端技術と比較して,より忠実な表面再構成と多様な形状生成結果を示す。

We introduce GEM3D -- a new deep, topology-aware generative model of 3D shapes. The key ingredient of our method is a neural skeleton-based representation encoding information on both shape topology and geometry. Through a denoising diffusion probabilistic model, our method first generates skeleton-based representations following the Medial Axis Transform (MAT), then generates surfaces through a skeleton-driven neural implicit formulation. The neural implicit takes into account the topological and geometric information stored in the generated skeleton representations to yield surfaces that are more topologically and geometrically accurate compared to previous neural field formulations. We discuss applications of our method in shape synthesis and point cloud reconstruction tasks, and evaluate our method both qualitatively and quantitatively. We demonstrate significantly more faithful surface reconstruction and diverse shape generation results compared to the state-of-the-art, also involving challenging scenarios of reconstructing and synthesizing structurally complex, high-genus shape surfaces from Thingi10K and ShapeNet.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# WWW:ニューロン概念の解釈によるニューラルネットワークのどの、どこで、なぜかを説明する統一フレームワーク

WWW: A Unified Framework for Explaining What, Where and Why of Neural Networks by Interpretation of Neuron Concepts ( http://arxiv.org/abs/2402.18956v2 )

ライセンス: Link先を確認
Yong Hyun Ahn, Hyeon Bae Kim, Seong Tae Kim, (参考訳) ニューラルネットワークの最近の進歩は、様々な領域でその顕著な能力を示している。 これらの成功にもかかわらず、「ブラックボックス」問題はまだ残っている。 これに対応するために、人間の理解可能な言葉でニューラルネットワーク決定の'What'、'where'、'why'を提供する新しいフレームワークWWWを提案する。 特にWWWは、適応的コサイン類似性としきい値を用いた概念発見のための適応的選択を利用して「何」を効果的に説明する。 そこで我々は,ニューロン活性化マップ(NAM)とShapley値の組み合わせを新たに提案し,各入力に対して局所化された概念マップとヒートマップを生成する。 さらに、WWWは不確実性を予測する手法を導入し、ヒートマップの類似性を利用して予測の「信頼性」を推定する。 WWWの実験的評価は、定量化と定性化の両方において優れた性能を示し、解釈可能性において既存の手法よりも優れていた。 WWWは、グローバルな解釈からローカライズされた説明法を導入し、様々なアーキテクチャに対応可能なプラグアンドプレイソリューションを提供するため、"What"、"where"、"why"を説明する統一的なソリューションを提供する。

Recent advancements in neural networks have showcased their remarkable capabilities across various domains. Despite these successes, the "black box" problem still remains. Addressing this, we propose a novel framework, WWW, that offers the 'what', 'where', and 'why' of the neural network decisions in human-understandable terms. Specifically, WWW utilizes adaptive selection for concept discovery, employing adaptive cosine similarity and thresholding techniques to effectively explain 'what'. To address the 'where' and 'why', we proposed a novel combination of neuron activation maps (NAMs) with Shapley values, generating localized concept maps and heatmaps for individual inputs. Furthermore, WWW introduces a method for predicting uncertainty, leveraging heatmap similarities to estimate 'how' reliable the prediction is. Experimental evaluations of WWW demonstrate superior performance in both quantitative and qualitative metrics, outperforming existing methods in interpretability. WWW provides a unified solution for explaining 'what', 'where', and 'why', introducing a method for localized explanations from global interpretations and offering a plug-and-play solution adaptable to various architectures.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# Diff-Plugin:拡散に基づく低レベルタスクの再現

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks ( http://arxiv.org/abs/2403.00644v3 )

ライセンス: Link先を確認
Yuhao Liu, Zhanghan Ke, Fang Liu, Nanxuan Zhao, Rynson W. H. Lau, (参考訳) 大規模データセットで訓練された拡散モデルは、画像合成において顕著な進歩を遂げた。 しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。 この制限を克服するために、Diff-Pluginフレームワークを提案する。 具体的には、まず、タスク固有の事前情報を提供し、画像コンテンツを保存するための拡散プロセスを導くために、デュアルブランチ設計の軽量なTask-Pluginモジュールを提案する。 次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。 我々は8つの低レベル視覚タスクについて広範な実験を行った。 この結果は、特に実世界のシナリオにおいて、既存の手法よりもDiff-Pluginの方が優れていることを示す。 Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。

Diffusion models trained on large-scale datasets have achieved remarkable progress in image synthesis. However, due to the randomness in the diffusion process, they often struggle with handling diverse low-level tasks that require details preservation. To overcome this limitation, we present a new Diff-Plugin framework to enable a single pre-trained diffusion model to generate high-fidelity results across a variety of low-level tasks. Specifically, we first propose a lightweight Task-Plugin module with a dual branch design to provide task-specific priors, guiding the diffusion process in preserving image content. We then propose a Plugin-Selector that can automatically select different Task-Plugins based on the text instruction, allowing users to edit images by indicating multiple low-level tasks with natural language. We conduct extensive experiments on 8 low-level vision tasks. The results demonstrate the superiority of Diff-Plugin over existing methods, particularly in real-world scenarios. Our ablations further validate that Diff-Plugin is stable, schedulable, and supports robust training across different dataset sizes.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# 粒子勾配勾配勾配の誤差境界と対数ソボレフとタラグラッドの不等式の拡張

Error bounds for particle gradient descent, and extensions of the log-Sobolev and Talagrand inequalities ( http://arxiv.org/abs/2403.02004v2 )

ライセンス: Link先を確認
Rocco Caprio, Juan Kuntz, Samuel Power, Adam M. Johansen, (参考訳) 粒子勾配勾配(PGD)~(Kuntz et al , 2023)の非漸近誤差境界を, 自由エネルギーの勾配流を離散化して得られる大きな潜伏変数モデルの最大推定法として提案した。 まず,log-Sobolev と Polyak-{\L}ojasiewicz の不等式 (LSI と P{\L}I) を一般化した条件を満たすモデルについて,流れは自由エネルギーの最小値の集合に指数関数的に収束することを示した。 我々は、最適輸送文献(LSIはタラグランドの不等式を意味する)と最適化文献(P{\L}Iはいわゆる二次成長条件を意味する)でよく知られた結果を拡張し、新しい環境に適用することで、これを達成した。 また、Bakry--\Emery Theorem を一般化し、LSI/P{\L}I の一般化が強い凹凸対を持つモデルに対して成り立つことを示す。 このようなモデルに対しては、PGDの離散化誤差をさらに制御し、漸近的でない誤差境界を得る。 我々はPGDの研究に動機づけられているが、私たちが拡張する不平等と結果が独立した関心事であるかもしれないと信じている。

We prove non-asymptotic error bounds for particle gradient descent (PGD)~(Kuntz et al., 2023), a recently introduced algorithm for maximum likelihood estimation of large latent variable models obtained by discretizing a gradient flow of the free energy. We begin by showing that, for models satisfying a condition generalizing both the log-Sobolev and the Polyak--{\L}ojasiewicz inequalities (LSI and P{\L}I, respectively), the flow converges exponentially fast to the set of minimizers of the free energy. We achieve this by extending a result well-known in the optimal transport literature (that the LSI implies the Talagrand inequality) and its counterpart in the optimization literature (that the P{\L}I implies the so-called quadratic growth condition), and applying it to our new setting. We also generalize the Bakry--\'Emery Theorem and show that the LSI/P{\L}I generalization holds for models with strongly concave log-likelihoods. For such models, we further control PGD's discretization error, obtaining non-asymptotic error bounds. While we are motivated by the study of PGD, we believe that the inequalities and results we extend may be of independent interest.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# マルチスケールサブグラフコントラスト学習

Multi-Scale Subgraph Contrastive Learning ( http://arxiv.org/abs/2403.02719v2 )

ライセンス: Link先を確認
Yanbei Liu, Yu Zhao, Xiao Wang, Lei Geng, Zhitao Xiao, (参考訳) グラフレベルのコントラスト学習は、2つの拡張グラフを対比して各グラフの表現を学習することを目的としており、注目されている。 先行研究は通常、グラフとその拡張グラフを正の対、さもなくば負の対と仮定する。 しかし、グラフ構造は常に複雑でマルチスケールであることはよく知られており、これは根本的な疑問を引き起こしている。 実験により、拡張グラフ構造の意味情報は元のグラフ構造と一致しない可能性があり、2つの拡張グラフが正か負のペアかが、マルチスケール構造と強く関連していることが判明した。 そこで本研究では,微粒な意味情報を特徴付けることができるマルチスケール・サブグラフ・コントラスト学習アーキテクチャを提案する。 具体的には、サブグラフサンプリングに基づいて、異なるスケールでグローバルおよびローカルなビューを生成し、それらのセマンティックアソシエーションに基づいて複数のコントラスト関係を構築し、よりリッチな自己教師付き信号を提供する。 8つのグラフ分類実世界のデータセットの大規模な実験とパラメトリック分析により,提案手法の有効性がよく示されている。

Graph-level contrastive learning, aiming to learn the representations for each graph by contrasting two augmented graphs, has attracted considerable attention. Previous studies usually simply assume that a graph and its augmented graph as a positive pair, otherwise as a negative pair. However, it is well known that graph structure is always complex and multi-scale, which gives rise to a fundamental question: after graph augmentation, will the previous assumption still hold in reality? By an experimental analysis, we discover the semantic information of an augmented graph structure may be not consistent as original graph structure, and whether two augmented graphs are positive or negative pairs is highly related with the multi-scale structures. Based on this finding, we propose a multi-scale subgraph contrastive learning architecture which is able to characterize the fine-grained semantic information. Specifically, we generate global and local views at different scales based on subgraph sampling, and construct multiple contrastive relationships according to their semantic associations to provide richer self-supervised signals. Extensive experiments and parametric analyzes on eight graph classification real-world datasets well demonstrate the effectiveness of the proposed method.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# 国家安全保障書簡の使用と報告に関する実証分析

An Empirical Analysis on the Use and Reporting of National Security Letters ( http://arxiv.org/abs/2403.02768v3 )

ライセンス: Link先を確認
Alex Bellon, Miro Haller, Andrey Labunets, Enze Liu, Stefan Savage, (参考訳) 国家安全保障書簡(NSL)は行政上の召喚状と類似しており、裁判所や大陪審の事前の承認を必要とせず、行政部門から直接発行することができる。 重要なことは、NSLは受信者に対して非開示命令(別名「ギャグ命令」)を付与することを認可している。 この権限の濫用の可能性に関する論争は、様々な法的・政策的な議論を引き起こしている。 これらの懸念に対処するため、公共セクターと民間セクターは、集約形式でのNSLの使用を文書化しようとしています。 しかし、各データソースはスコープ、時間、種類に制限されている。 本稿では,NSLに関する利用可能なデータを整理し,(1) 市民が報告データから効果的に学習できること,そして,この情報がNSLの利用状況を評価するのに十分か,という2つの問いに答える。 2) このデータ収集はどの程度アクセス可能か? また,NSLの使用状況の経年変化を観察できることを示した。 例えば、非米国人に対するNSL要求が大幅に増加し、強制的非開示期間を短縮する政策改革が効果的であることが判明した。 観察された傾向は、現在の透明性メカニズムがNSLの過剰使用に対して有効であることを示している。 しかし、データの集約と正規化には、手作業によるレビュー、解析、検証が必要である。 公式なデータソース内でも,不整合も見つかります。 全体として、残酷なデータ収集プロセスは、外部および内部監査の取り組みを妨げ、NSLの統一的でより有用なデータセットの必要性を実証する。

National Security Letters (NSLs) are similar to administrative subpoenas and can be issued directly by elements of the executive branch without requiring prior approval from a court or grand jury. Importantly, NSLs authorize the imposition of nondisclosure orders (aka "gag orders") on the receiving party. Controversy about potential abuses of this authority has driven a range of legal and policy discussions. To address these concerns, both the public sector and the private sector have sought to document the usage of NSLs in aggregated form. However, each data source is limited in scope, time, and kind. In this paper, we consolidate the available data around NSLs and answer two questions: (1) what can the public effectively learn from the reported data and does this information suffice to assess the NSL usage? (2) how accessible is this data collection? We show that longitudinal trends in the usage of NSLs can be observed. For instance, we find a significant increase in NSL requests for non-US persons and that the policy reforms to decrease the mandated nondisclosure period appear to be effective. The observed trends suggest that the current transparency mechanisms are viable safeguards against the excessive use of NSLs. However, aggregating and normalizing the data requires manual reviewing, parsing, and validating. We even find inconsistencies within and across official data sources. Overall, the laborious data collection process hinders external and internal auditing efforts and demonstrates the need for a unified and more usable dataset for NSLs.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# NRDF:Articulated Pose Presorsのためのニューラルリーマン距離場

NRDF: Neural Riemannian Distance Fields for Learning Articulated Pose Priors ( http://arxiv.org/abs/2403.03122v2 )

ライセンス: Link先を確認
Yannan He, Garvita Tiwari, Tolga Birdal, Jan Eric Lenssen, Gerard Pons-Moll, (参考訳) 忠実に調音空間をモデル化することは、現実的なポーズの回復と生成を可能にする重要なタスクであり、依然として悪名高い課題である。 この目的のために我々は,高次元積四元数空間におけるニューラルネットワークのゼロレベルセットとして表される可塑性調音空間をモデル化したデータ駆動事前計算である,ニューラルリーマン距離場(NRDF)を導入する。 NRDFsを正の例のみにトレーニングするために,測地線距離が所望の分布に従うことを保証する新しいサンプリングアルゴリズムを導入し,原理化された距離場学習パラダイムを導出する。 次に、任意のランダムなポーズをアダプティブステップのリーマン最適化器によってレベルセットにマッピングする射影アルゴリズムを考案し、常に関節回転の積多様体に固執する。 NRDFは、バックプロパゲーションや数学的アナロジーを通じてリーマン勾配を計算することができ、最近の生成モデルであるリーマンフローマッチングと関連している。 本研究では,様々な下流タスク,例えばポーズ生成,画像に基づくポーズ推定,逆運動学の解法などにおいて,NRDFの他のポーズ先行に対する包括的評価を行い,NRDFの優れた性能を強調した。 人間以外にも、NRDFの汎用性は手や動物のポーズにまで及んでいる。

Faithfully modeling the space of articulations is a crucial task that allows recovery and generation of realistic poses, and remains a notorious challenge. To this end, we introduce Neural Riemannian Distance Fields (NRDFs), data-driven priors modeling the space of plausible articulations, represented as the zero-level-set of a neural field in a high-dimensional product-quaternion space. To train NRDFs only on positive examples, we introduce a new sampling algorithm, ensuring that the geodesic distances follow a desired distribution, yielding a principled distance field learning paradigm. We then devise a projection algorithm to map any random pose onto the level-set by an adaptive-step Riemannian optimizer, adhering to the product manifold of joint rotations at all times. NRDFs can compute the Riemannian gradient via backpropagation and by mathematical analogy, are related to Riemannian flow matching, a recent generative model. We conduct a comprehensive evaluation of NRDF against other pose priors in various downstream tasks, i.e., pose generation, image-based pose estimation, and solving inverse kinematics, highlighting NRDF's superior performance. Besides humans, NRDF's versatility extends to hand and animal poses, as it can effectively represent any articulation.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# 超放射光ダイナミクスにおけるポーラロンドレッシングの役割

The role of polaron dressing in superradiant emission dynamics ( http://arxiv.org/abs/2403.05533v2 )

ライセンス: Link先を確認
Julian Wiercinski, Moritz Cygorek, Erik M. Gauger, (参考訳) 複数の量子エミッタの協調効果は、エミッタ間のコヒーレンスの存在によって放出特性が変化する非局在化された集合状態の遷移によって特徴づけられる。 励起縮合物質ナノ構造によって実現されると、これらの効果は強力なエミッタ-フォノンカップリングの存在によって大きく影響され、ポーラロンの形成につながる。 自由空間への単一エミッタの放出では、この生成はその放射寿命に影響を与えないが、超放射能の放出には同じことが当てはまる。 2つの区別がつかない量子エミッターの場合を考えると、ポーラロンのドレッシングが、明るいディック状態と暗いディック状態の混合によって、集合的な光子放出にどのように影響するかを分析する。 励起レーザーのパルス長に依存すると、極性ディック状態または素電子ディック状態を用意し、系の超ラジカル減衰特性を変化させることができる。 さらに,これらの制限ケースに対する解析式を導出し,数値的精度の計算結果と一致した。

Cooperative effects of multiple quantum emitters are characterized by transitions via delocalized collective states with altered emission properties due to the existence of inter-emitter coherences. When realized with excitonic condensed matter nanostructures, these effects are significantly affected by the presence of strong emitter-phonon coupling, which leads to the formation of polarons. We show that, while for single-emitter emission into free space this formation has no impact on its radiative lifetime, the same is not true for superradiant emission. Considering the case of two indistinguishable quantum emitters, we analyse how polaron dressing affects collective photon emission by mixing bright and dark Dicke states. Our numerical simulations show that this mixing crucially depends on the circumstances of the excitation of the system: Depending on the pulse length of an exciting laser, one can choose to either prepare polaronic Dicke states, or bare electronic Dicke states, changing the superradiant decay characteristics of the system. Additionally, we derive analytic expressions for these limiting cases, which match the results of numerically exact calculations.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# DriveDreamer-2:横駆動ビデオ生成のためのLLM拡張ワールドモデル

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation ( http://arxiv.org/abs/2403.06845v2 )

ライセンス: Link先を確認
Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, Xingang Wang, (参考訳) 世界モデルは、特にマルチビュー駆動ビデオの生成において、自律運転において優位性を示している。 しかし、カスタマイズされたドライビングビデオを作成する際には、依然として大きな課題がある。 本稿では,DriveDreamerのフレームワーク上に構築されたDriveDreamer-2を提案する。 具体的には、ユーザーのクエリをエージェントトラジェクトリに変換するために、LLMインターフェースが最初に組み込まれている。 その後、トラジェクトリに基づいて、交通規制を遵守したHDMapが生成される。 最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。 DriveDreamer-2は、カスタマイズされた運転ビデオを生成する最初の世界モデルだ。 さらに, 実験結果から, 生成した映像は, 運転知覚法(3次元検出・追跡など)の訓練を促進することが示された。 さらに、DriveDreamer-2のビデオ生成品質は他の最先端の手法を超え、FIDとFVDのスコアは11.2と55.7で、30%と50%の相対的な改善を示している。

World models have demonstrated superiority in autonomous driving, particularly in the generation of multi-view driving videos. However, significant challenges still exist in generating customized driving videos. In this paper, we propose DriveDreamer-2, which builds upon the framework of DriveDreamer and incorporates a Large Language Model (LLM) to generate user-defined driving videos. Specifically, an LLM interface is initially incorporated to convert a user's query into agent trajectories. Subsequently, a HDMap, adhering to traffic regulations, is generated based on the trajectories. Ultimately, we propose the Unified Multi-View Model to enhance temporal and spatial coherence in the generated driving videos. DriveDreamer-2 is the first world model to generate customized driving videos, it can generate uncommon driving videos (e.g., vehicles abruptly cut in) in a user-friendly manner. Besides, experimental results demonstrate that the generated videos enhance the training of driving perception methods (e.g., 3D detection and tracking). Furthermore, video generation quality of DriveDreamer-2 surpasses other state-of-the-art methods, showcasing FID and FVD scores of 11.2 and 55.7, representing relative improvements of 30% and 50%.
翻訳日:2024-04-12 18:26:07 公開日:2024-04-11
# Gemma: Geminiリサーチと技術に基づくオープンモデル

Gemma: Open Models Based on Gemini Research and Technology ( http://arxiv.org/abs/2403.08295v3 )

ライセンス: Link先を確認
Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy, (参考訳) Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。 Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。 モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。 Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。 LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# CoBra:ロバスト弱監視セマンティックセグメンテーションのための補足分枝融合クラスとセマンティック知識

CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.08801v3 )

ライセンス: Link先を確認
Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang, (参考訳) セグメンテーションのための画像レベルのクラス知識、すなわち、画像レベルのWeakly Supervised Semantic Segmentation (WSSS)から派生した意味論的に正確な擬似マスクを活用することは依然として困難である。 CNNを用いたクラスアクティベーションマップ(CAM)は、WSSSの成功に着実に貢献しているが、結果として得られるアクティベーションマップは、しばしばクラス固有の部分(例えば、人間の顔のみ)に焦点を絞っている。 一方、視覚変換器(ViT)を用いた最近の研究は、セマンティック部分を捕捉する自己認識機構に基づく有望な結果を示しているが、完全なクラス固有の詳細(例えば、人間の全身部分だけでなく、近くに犬と一緒にいるもの)を捉えることに失敗している。 本研究では、クラス(CNN)とセマンティック(ViT)をそれぞれのブランチに有意義な補完的知識を提供する2つの異なるアーキテクチャからなる、新しい二重分岐フレームワークであるComplementary Branch(CoBra)を提案する。 特に、CNNブランチのクラス・アウェア・プロジェクション(CAP)とViTブランチのセマンティック・アウェア・プロジェクション(SAP)を学び、補完的な知識を明確に融合させ、新たなタイプのパッチレベルの監視を容易にする。 我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。 CNNとViTはPASCAL VOC 2012データセット上でどのように相互に補完するかを質的に定量的に検証し、最先端のWSSS結果を示している。 これは、我々のモデルによって生成されるマスクだけでなく、これらのマスクを擬似ラベルとして利用することによって得られるセグメンテーション結果も含まれる。

Leveraging semantically precise pseudo masks derived from image-level class knowledge for segmentation, namely image-level Weakly Supervised Semantic Segmentation (WSSS), still remains challenging. While Class Activation Maps (CAMs) using CNNs have steadily been contributing to the success of WSSS, the resulting activation maps often narrowly focus on class-specific parts (e.g., only face of human). On the other hand, recent works based on vision transformers (ViT) have shown promising results based on their self-attention mechanism to capture the semantic parts but fail in capturing complete class-specific details (e.g., entire body parts of human but also with a dog nearby). In this work, we propose Complementary Branch (CoBra), a novel dual branch framework consisting of two distinct architectures which provide valuable complementary knowledge of class (from CNN) and semantic (from ViT) to each branch. In particular, we learn Class-Aware Projection (CAP) for the CNN branch and Semantic-Aware Projection (SAP) for the ViT branch to explicitly fuse their complementary knowledge and facilitate a new type of extra patch-level supervision. Our model, through CoBra, fuses CNN and ViT's complementary outputs to create robust pseudo masks that integrate both class and semantic information effectively. Extensive experiments qualitatively and quantitatively investigate how CNN and ViT complement each other on the PASCAL VOC 2012 dataset, showing a state-of-the-art WSSS result. This includes not only the masks generated by our model, but also the segmentation results derived from utilizing these masks as pseudo labels.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# S^2MVTC: シンプルだが効率的でスケーラブルなマルチビューテンソルクラスタリング

S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering ( http://arxiv.org/abs/2403.09107v2 )

ライセンス: Link先を確認
Zhen Long, Qiyuan Wang, Yazhou Ren, Yipeng Liu, Ce Zhu, (参考訳) アンカーベースの大規模マルチビュークラスタリングは、大規模なデータセットを扱う上での有効性にかなりの注目を集めている。 しかし,近年の手法では,アンカーグラフとプロジェクション行列のグローバルな相関関係を探索することで,クラスタリングのためのコンセンサス埋め込み機能を主に求めており,本論文では,ビュー内およびビュー間の埋め込み機能の相関関係を学習することに焦点を当てた,シンプルかつ効率的なスケーラブルなマルチビューテンソルクラスタリング(S^2MVTC)手法を提案する。 具体的には、まず異なるビューの埋め込み特徴をテンソルに積み重ねて回転させることにより、埋め込み特徴テンソルを構築する。 さらに、グラフ類似性を埋め込み特徴学習に組み込んだ新しいテンソル低周波近似(TLFA)演算子を構築し、異なるビュー内での埋め込み特徴のスムーズな表現を効率的に達成する。 さらに、ビュー間のセマンティック一貫性を確保するために、コンセンサス制約が埋め込み機能に適用される。 6つの大規模マルチビューデータセットによる実験結果から,S^2MVTCはクラスタリング性能やCPU実行時間,特に大規模データを扱う場合において,最先端のアルゴリズムを著しく上回ることが示された。 S^2MVTCのコードはhttps://github.com/longzhen520/S2MVTCで公開されている。

Anchor-based large-scale multi-view clustering has attracted considerable attention for its effectiveness in handling massive datasets. However, current methods mainly seek the consensus embedding feature for clustering by exploring global correlations between anchor graphs or projection matrices.In this paper, we propose a simple yet efficient scalable multi-view tensor clustering (S^2MVTC) approach, where our focus is on learning correlations of embedding features within and across views. Specifically, we first construct the embedding feature tensor by stacking the embedding features of different views into a tensor and rotating it. Additionally, we build a novel tensor low-frequency approximation (TLFA) operator, which incorporates graph similarity into embedding feature learning, efficiently achieving smooth representation of embedding features within different views. Furthermore, consensus constraints are applied to embedding features to ensure inter-view semantic consistency. Experimental results on six large-scale multi-view datasets demonstrate that S^2MVTC significantly outperforms state-of-the-art algorithms in terms of clustering performance and CPU execution time, especially when handling massive data. The code of S^2MVTC is publicly available at https://github.com/longzhen520/S2MVTC.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# 生成モデルを用いた人工データを用いた野生の3次元復元

3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models ( http://arxiv.org/abs/2403.11111v2 )

ライセンス: Link先を確認
Yongtao Ge, Wenjia Wang, Yongfan Chen, Hao Chen, Chunhua Shen, (参考訳) 本研究では,生成モデルで生成した合成データがコンピュータグラフィックス(CG)レンダリングデータと相補的であることを示し,多種多様な実世界のシーンにおける3次元ポーズと形状推定(HPS)の顕著な一般化性能を実現する。 具体的には,HumanWildと呼ばれる最近の拡散モデルに基づく効果的なアプローチを提案する。 まず、包括的なアノテーション、テキストキャプション、表面の正常画像を含む大規模な人間中心のデータセットを収集する。 そして、このデータセットに基づいてカスタマイズされたControlNetモデルをトレーニングし、多様な人体画像と初期接地木ラベルを生成する。 このステップの核となるのは、3次元メッシュを画像平面上にレンダリングすることで、3次元の人体パラメトリックモデル(例えば、SMPL-X)から多数の表面正規画像を容易に取得できることである。 初期ラベルには避けられないノイズが存在するので、負のデータサンプルをフィルタするために、既成の基礎セグメンテーションモデル(SAM)を適用する。 私たちのデータ生成パイプラインは柔軟でカスタマイズ可能で、例えば、エゴ中心のシーンや視点歪みのシーンなど、さまざまな現実世界のタスクを容易にします。 生成されたデータセットは、対応する3Dアノテーションを備えた0.79万の画像で構成され、万能な視点、シーン、人間のアイデンティティをカバーする。 我々は、生成されたデータの上に様々なHPS回帰器をトレーニングし、それらを広範囲のベンチマーク(DPW, RICH, EgoBody, AGORA, SSP-3D)で評価し、生成されたデータの有効性を検証する。 生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。

In this work, we show that synthetic data created by generative models is complementary to computer graphics (CG) rendered data for achieving remarkable generalization performance on diverse real-world scenes for 3D human pose and shape estimation (HPS). Specifically, we propose an effective approach based on recent diffusion models, termed HumanWild, which can effortlessly generate human images and corresponding 3D mesh annotations. We first collect a large-scale human-centric dataset with comprehensive annotations, e.g., text captions and surface normal images. Then, we train a customized ControlNet model upon this dataset to generate diverse human images and initial ground-truth labels. At the core of this step is that we can easily obtain numerous surface normal images from a 3D human parametric model, e.g., SMPL-X, by rendering the 3D mesh onto the image plane. As there exists inevitable noise in the initial labels, we then apply an off-the-shelf foundation segmentation model, i.e., SAM, to filter negative data samples. Our data generation pipeline is flexible and customizable to facilitate different real-world tasks, e.g., ego-centric scenes and perspective-distortion scenes. The generated dataset comprises 0.79M images with corresponding 3D annotations, covering versatile viewpoints, scenes, and human identities. We train various HPS regressors on top of the generated data and evaluate them on a wide range of benchmarks (3DPW, RICH, EgoBody, AGORA, SSP-3D) to verify the effectiveness of the generated data. By exclusively employing generative models, we generate large-scale in-the-wild human images and high-quality annotations, eliminating the need for real-world data collection.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# KTbench: 知識追跡のための新しいデータ漏洩フリーフレームワーク

KTbench: A Novel Data Leakage-Free Framework for Knowledge Tracing ( http://arxiv.org/abs/2403.15304v2 )

ライセンス: Link先を確認
Yahya Badran, Christine Preisach, (参考訳) KT(Knowledge Tracing)は、知的学習システムにおける学習項目の将来のパフォーマンスを予測することを目的としている。 学習項目は知識概念(KC)と呼ばれるスキルラベルでタグ付けされる。 多くのKTモデルは、学習項目をその構成するKCに置き換えることで、アイテムと学生の相互作用のシーケンスをKC-学生の相互作用へと拡張する。 これは多くの場合、長いシーケンス長をもたらす。 提案手法は,スパースアイテム-学生間相互作用とモデルパラメータの最小化の問題に対処する。 しかし、そのようなモデルでは2つの問題が特定されている。 第一の問題は、モデルが同一項目に属するKC間の相関関係を学習する能力である。 この問題は、アイテムあたりのKC数がより多いデータセットのパフォーマンスを著しく低下させる可能性がある。 第二の問題は、利用可能なベンチマーク実装が、KCを拡大する際のシーケンス長の変化を考慮せず、異なるモデルが異なるシーケンス長でテストされているが、同じベンチマークと比較されていることである。 これらの問題に対処するために、我々は、最初の問題を緩和し、重要な変更を伴わずにオリジナルのモデルアーキテクチャを保ちながら、そのようなKTモデルの性能を向上する一般的なマスキングフレームワークを導入する。 さらに、第2の問題を緩和しつつ、この作業の再現性を確保するために設計されたオープンソースのベンチマークライブラリであるKTbenchを紹介する。

Knowledge Tracing (KT) is concerned with predicting students' future performance on learning items in intelligent tutoring systems. Learning items are tagged with skill labels called knowledge concepts (KCs). Many KT models expand the sequence of item-student interactions into KC-student interactions by replacing learning items with their constituting KCs. This often results in a longer sequence length. This approach addresses the issue of sparse item-student interactions and minimises model parameters. However, two problems have been identified with such models. The first problem is the model's ability to learn correlations between KCs belonging to the same item, which can result in the leakage of ground truth labels and hinder performance. This problem can lead to a significant decrease in performance on datasets with a higher number of KCs per item. The second problem is that the available benchmark implementations ignore accounting for changes in sequence length when expanding KCs, leading to different models being tested with varying sequence lengths but still compared against the same benchmark. To address these problems, we introduce a general masking framework that mitigates the first problem and enhances the performance of such KT models while preserving the original model architecture without significant alterations. Additionally, we introduce KTbench, an open-source benchmark library designed to ensure the reproducibility of this work while mitigating the second problem.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# フレンチフェイクニュースのマルチラベルデータセット:人間とマシンインサイト

A Multi-Label Dataset of French Fake News: Human and Machine Insights ( http://arxiv.org/abs/2403.16099v2 )

ライセンス: Link先を確認
Benjamin Icard, François Maine, Morgane Casanova, Géraud Faye, Julien Chanson, Guillaume Gadek, Ghislain Atemezing, François Bancilhon, Paul Égré, (参考訳) 専門機関が信頼できないとみなす17の報道機関から選抜された100の文書のコーパスであるOBSINFOXを8のアノテーションで11のラベルで注釈付けした。 通常よりも多くのラベルを集め、通常よりも多くのアノテータによって、人間が偽ニュースの特徴と見なす特徴を特定し、それらを自動分類器の予測と比較することができる。 コーパスにおける風刺文の有病率を示すGate Cloudを用いたトピックスとジャンル分析について述べる。 次に、主観分析器VAGOと、そのニューラルバージョンを用いて、ラベルの主観的記述とラベルのFake Newsの属性の関連を明らかにする。 注釈付きデータセットは以下のURLでオンラインで公開されている。 https://github.com/obs-info/obsinfox Keywords: Fake News, Multi-Labels, Subjectivity, Vagueness, Detail, Opinion, Exaggeration, French Press

We present a corpus of 100 documents, OBSINFOX, selected from 17 sources of French press considered unreliable by expert agencies, annotated using 11 labels by 8 annotators. By collecting more labels than usual, by more annotators than is typically done, we can identify features that humans consider as characteristic of fake news, and compare them to the predictions of automated classifiers. We present a topic and genre analysis using Gate Cloud, indicative of the prevalence of satire-like text in the corpus. We then use the subjectivity analyzer VAGO, and a neural version of it, to clarify the link between ascriptions of the label Subjective and ascriptions of the label Fake News. The annotated dataset is available online at the following url: https://github.com/obs-info/obsinfox Keywords: Fake News, Multi-Labels, Subjectivity, Vagueness, Detail, Opinion, Exaggeration, French Press
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# DANCER: 自動音声認識のためのエンティティ記述拡張エンティティコレクタ

DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition ( http://arxiv.org/abs/2403.17645v3 )

ライセンス: Link先を確認
Yi-Cheng Wang, Hsin-Wei Wang, Bi-Cheng Yan, Chi-Han Lin, Berlin Chen, (参考訳) エンドツーエンドの自動音声認識(E2E ASR)システムは、名前付きエンティティのようなドメイン固有のフレーズの誤転写に悩まされることが多く、ダウンストリームタスクにおいて破滅的な失敗を引き起こすことがある。 ASRのための高速で軽量なエンティティ修正(NEC)モデルが最近提案されている。 しかし、名前付きエンティティ(NE)リストが大きくなるにつれて、NEリストにおける音声的混乱の問題は悪化し、例えば、ホモフォンの曖昧さは大幅に増大する。 そこで我々は、エンティティ記述を活用して、ASR転写におけるNECの音声的混乱を緩和するための追加情報を提供する、Description Augmented Named entity CorrEctoR(dubed DANCER)を提案する。 この目的のために、高密度検索モデルからなる効率的なエンティティ記述拡張マスク言語モデル(EDA-MLM)を導入し、NECタスクのドメイン固有のエンティティに迅速に適応できるようにする。 AISHELL-1とHomophoneデータセットを用いて一連の実験を行い、モデリング手法の有効性を確認した。 DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。 DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。

End-to-end automatic speech recognition (E2E ASR) systems often suffer from mistranscription of domain-specific phrases, such as named entities, sometimes leading to catastrophic failures in downstream tasks. A family of fast and lightweight named entity correction (NEC) models for ASR have recently been proposed, which normally build on phonetic-level edit distance algorithms and have shown impressive NEC performance. However, as the named entity (NE) list grows, the problems of phonetic confusion in the NE list are exacerbated; for example, homophone ambiguities increase substantially. In view of this, we proposed a novel Description Augmented Named entity CorrEctoR (dubbed DANCER), which leverages entity descriptions to provide additional information to facilitate mitigation of phonetic confusion for NEC on ASR transcription. To this end, an efficient entity description augmented masked language model (EDA-MLM) comprised of a dense retrieval model is introduced, enabling MLM to adapt swiftly to domain-specific entities for the NEC task. A series of experiments conducted on the AISHELL-1 and Homophone datasets confirm the effectiveness of our modeling approach. DANCER outperforms a strong baseline, the phonetic edit-distance-based NEC model (PED-NEC), by a character error rate (CER) reduction of about 7% relatively on AISHELL-1 for named entities. More notably, when tested on Homophone that contain named entities of high phonetic confusion, DANCER offers a more pronounced CER reduction of 46% relatively over PED-NEC for named entities.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# TC4D:軌道記述型テキストから4D生成

TC4D: Trajectory-Conditioned Text-to-4D Generation ( http://arxiv.org/abs/2403.17920v2 )

ライセンス: Link先を確認
Sherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell, (参考訳) 事前学習したテキスト・ビデオ・モデルを用いた動的3次元シーンのテキスト・ツー・4次元生成技術 しかし、変形モデルや時間依存神経表現のような既存の動きの表現は、生成できる動きの量に制限されている。 よりフレキシブルなモーションモデルが欠如していることは、4次元生成法と最近の近フォトリアリスティックなビデオ生成モデルの間の現実性のギャップに寄与する。 本稿では,グローバルおよびローカルなコンポーネントへの移動を要因とするトラジェクティブ条件付きテキスト-to-4D生成法を提案する。 スプラインによってパラメータ化された軌跡に沿った剛性変換を用いて,シーンの境界ボックスのグローバルな動きを表現する。 我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。 提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,生成した動きのリアリズムと量に対する大幅な改善を可能にし,質的かつユーザスタディを通じて評価する。 ビデオの結果は、私たちのWebサイト(https://sherwinbahmani.github.io/tc4d)で見ることができる。

Recent techniques for text-to-4D generation synthesize dynamic 3D scenes using supervision from pre-trained text-to-video models. However, existing representations for motion, such as deformation models or time-dependent neural representations, are limited in the amount of motion they can generate-they cannot synthesize motion extending far beyond the bounding box used for volume rendering. The lack of a more flexible motion model contributes to the gap in realism between 4D generation methods and recent, near-photorealistic video generation models. Here, we propose TC4D: trajectory-conditioned text-to-4D generation, which factors motion into global and local components. We represent the global motion of a scene's bounding box using rigid transformation along a trajectory parameterized by a spline. We learn local deformations that conform to the global trajectory using supervision from a text-to-video model. Our approach enables the synthesis of scenes animated along arbitrary trajectories, compositional scene generation, and significant improvements to the realism and amount of generated motion, which we evaluate qualitatively and through a user study. Video results can be viewed on our website: https://sherwinbahmani.github.io/tc4d.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# テキスト対画像パーソナライズのための注意校正

Attention Calibration for Disentangled Text-to-Image Personalization ( http://arxiv.org/abs/2403.18551v2 )

ライセンス: Link先を確認
Yanbing Zhang, Mengping Yang, Qin Zhou, Zhe Wang, (参考訳) 大規模テキスト・ツー・イメージ(T2I)モデルにおける最近のスリリングな進歩は、画像生成、3D、ビデオ合成を含むAIGC(AIGC)の前例のない合成品質を解放した。 さらに、パーソナライズされた技術により、複数の画像のみを参照として付与した新規概念のカスタマイズ生産をアピールすることができる。 しかし、興味深い問題は残る: 1つの参照画像から複数の新しい概念をキャプチャすることは可能か? 本稿では,既存の手法が参照画像との視覚的整合性を維持するのに失敗し,概念から相互影響を排除していることを示す。 そこで本研究では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。 具体的には、複数の概念の属性をキャプチャするために、クラスにバインドされた新しい学習可能な修飾子を導入する。 そして,クロスアテンション操作の活性化によりクラスを分離・強化し,包括的で自己完結した概念を確実にする。 さらに,概念間の相互影響を軽減するために,異なるクラスに対する注意の活性化を抑える。 提案手法はDistenDiffと呼ばれ、1つの画像から複数の概念を分離して学習し、新しい画像を生成する。 本手法は,定性評価と定量的評価の両方において,現在の最先端技術よりも優れていることを示す。 さらに重要なのは、提案したテクニックがLoRAやパイプラインのインペイントと互換性があり、よりインタラクティブなエクスペリエンスを実現しています。

Recent thrilling progress in large-scale text-to-image (T2I) models has unlocked unprecedented synthesis quality of AI-generated content (AIGC) including image generation, 3D and video composition. Further, personalized techniques enable appealing customized production of a novel concept given only several images as reference. However, an intriguing problem persists: Is it possible to capture multiple, novel concepts from one single reference image? In this paper, we identify that existing approaches fail to preserve visual consistency with the reference image and eliminate cross-influence from concepts. To alleviate this, we propose an attention calibration mechanism to improve the concept-level understanding of the T2I model. Specifically, we first introduce new learnable modifiers bound with classes to capture attributes of multiple concepts. Then, the classes are separated and strengthened following the activation of the cross-attention operation, ensuring comprehensive and self-contained concepts. Additionally, we suppress the attention activation of different classes to mitigate mutual influence among concepts. Together, our proposed method, dubbed DisenDiff, can learn disentangled multiple concepts from one single image and produce novel customized images with learned concepts. We demonstrate that our method outperforms the current state of the art in both qualitative and quantitative evaluations. More importantly, our proposed techniques are compatible with LoRA and inpainting pipelines, enabling more interactive experiences.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# 解析性とウンルー効果--局所モジュラフローの研究

Analyticity and the Unruh effect: a study of local modular flow ( http://arxiv.org/abs/2403.18937v2 )

ライセンス: Link先を確認
Jonathan Sorce, (参考訳) ウンルー効果は、リンドラーのくさびの中のミンコフスキー真空がそのモジュラーフローとしてブーストを持つという言明として定式化することができる。 近年、幾何学的に局所的なモジュラーフローを持つ状態の他の例は、場の量子論や量子重力におけるエネルギーとエントロピーを理解する上で重要な役割を果たしている。 ここでは、幾何的モジュラーフローが生じる可能性のある設定に関する一般的な研究を開始します。 i)任意の幾何学的モジュラフローが背景時空の共形対称性でなければならないこと、 (II)「弱解析的」状態のよく振る舞うクラスでは、幾何学的モジュラフローは将来的な方向で行わなければならない。 さらに、幾何変換が共形であるが等方的でないならば、共形体論におけるモジュラフローとしてしか実現できないと論じる。 最後に、コンバース結果を示すことができるいくつかの設定、すなわち、モジュラフローが与えられたベクトル場を再現する状態を構築することができる設定について論じる。

The Unruh effect can be formulated as the statement that the Minkowski vacuum in a Rindler wedge has a boost as its modular flow. In recent years, other examples of states with geometrically local modular flow have played important roles in understanding energy and entropy in quantum field theory and quantum gravity. Here I initiate a general study of the settings in which geometric modular flow can arise, showing (i) that any geometric modular flow must be a conformal symmetry of the background spacetime, and (ii) that in a well behaved class of "weakly analytic" states, geometric modular flow must be future-directed. I further argue that if a geometric transformation is conformal but not isometric, then it can only be realized as modular flow in a conformal field theory. Finally, I discuss a few settings in which converse results can be shown -- i.e., settings in which a state can be constructed whose modular flow reproduces a given vector field.
翻訳日:2024-04-12 18:16:14 公開日:2024-04-11
# エピデミックモデリングにおけるグラフニューラルネットワークの展望

A Review of Graph Neural Networks in Epidemic Modeling ( http://arxiv.org/abs/2403.19852v2 )

ライセンス: Link先を確認
Zewen Liu, Guancheng Wan, B. Aditya Prakash, Max S. Y. Lau, Wei Jin, (参考訳) 新型コロナウイルスのパンデミックが始まって以来、疫学モデルの研究への関心が高まっている。 伝統的な力学モデルは、伝染病の伝染機構を数学的に記述する。 しかし、今日の増大する課題に直面すると、しばしば不足する。 結果として、グラフニューラルネットワーク(GNN)は、疫病研究において徐々に人気のあるツールとなっている。 本稿では,感染症対策におけるGNNの総合的な見直しと今後の方向性を明らかにすることを目的とする。 この目的を達成するために,疫学の課題と方法論の両方に階層的な分類を導入し,その領域内での展開の軌跡を提供する。 疫病対策においては、通常、疫病領域で雇用されているものと類似した分類を確立させる。 方法論として、既存の作業は \textit{Neural Models} と \textit{Hybrid Models} に分類する。 次に,本手法の総合的,体系的な検討を行い,課題と技術的詳細の両方を包含する。 さらに,多様な視点から既存手法の限界について考察し,今後の研究方向性を体系的に提案する。 本調査は,文学のギャップを埋め,この将来性のある分野の進展を促進することを目的としている。 我々は,GNNと疫学のコミュニティ間の相乗効果を促進し,その総合的な進歩に寄与することを期待している。

Since the onset of the COVID-19 pandemic, there has been a growing interest in studying epidemiological models. Traditional mechanistic models mathematically describe the transmission mechanisms of infectious diseases. However, they often fall short when confronted with the growing challenges of today. Consequently, Graph Neural Networks (GNNs) have emerged as a progressively popular tool in epidemic research. In this paper, we endeavor to furnish a comprehensive review of GNNs in epidemic tasks and highlight potential future directions. To accomplish this objective, we introduce hierarchical taxonomies for both epidemic tasks and methodologies, offering a trajectory of development within this domain. For epidemic tasks, we establish a taxonomy akin to those typically employed within the epidemic domain. For methodology, we categorize existing work into \textit{Neural Models} and \textit{Hybrid Models}. Following this, we perform an exhaustive and systematic examination of the methodologies, encompassing both the tasks and their technical details. Furthermore, we discuss the limitations of existing methods from diverse perspectives and systematically propose future research directions. This survey aims to bridge literature gaps and promote the progression of this promising field. We hope that it will facilitate synergies between the communities of GNNs and epidemiology, and contribute to their collective progress.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# Förster-Resonance-Enhanced Interaction によるRydberg超原子の鎖のイメージング

Imaging a Chain of Rydberg Superatoms Enabled by Förster-Resonance-Enhanced Interaction ( http://arxiv.org/abs/2404.00274v2 )

ライセンス: Link先を確認
Jinjin Du, Thibault Vogt, Ningxuan Zheng, Wenhui Li, (参考訳) 我々は、個々のRydberg超原子の単発および<textit{in situ}吸収イメージングを実証した。 このレベルの分解は、F\"{o}rster-resonance-enhanced dipole couplings(英語版)により、Rydberg超原子の存在に非常に敏感な、Rydbergエネルギーレベルを含む電磁誘導透過スキームを用いて達成される。 分光測定は、F\"{o}rster resonanceの存在を示し、この技術の状態選択性を強調する。 3$\mu$sの短い画像露光時間で、リドバーグ超原子の線形鎖を1次元に励起することに成功した。 抽出された2階相関式は励起遮断による強い反バンチを示し、フーリエ解析により、リドベルク超原子鎖の長距離秩序を明らかにする。 最小限の破壊力を持つこのイメージング技術は、量子計算や量子シミュレーションの応用において、エンサンブル符号化された量子ビットを利用する上で大きな関心を持つだろう。

We demonstrate single-shot and \textit{in situ} absorption imaging of individual Rydberg superatoms. This level of resolution is achieved using an electromagnetically induced transparency scheme involving a Rydberg energy level that is highly sensitive to the presence of Rydberg superatoms due to F\"{o}rster-resonance-enhanced dipole couplings. Spectroscopic measurements illustrate the existence of the F\"{o}rster resonance and underscore the state-selectivity of the technique. With an imaging exposure time as short as 3 $\mu$s, we successfully resolve linear chains of Rydberg superatoms excited in a one-dimensional configuration. The extracted second-order correlation shows strong anti-bunching due to excitation blockade, and a Fourier analysis reveals the long-range order in the chains of Rydberg superatoms. This imaging technique, with minimal destruction, will be of great interest for leveraging ensemble-encoded qubits in quantum computation and quantum simulation applications.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# 2体ディラック方程式の新しい解法:ポジトロニウムにおける対称性違反項の重み推定

A new method for the solution of the two-body Dirac equation: Estimation of the weights of $C$, $P$ and $CP$ symmetry violating terms in positronium ( http://arxiv.org/abs/2404.00444v2 )

ライセンス: Link先を確認
E. M. Tursunov, Sh. G. Norbutaev, (参考訳) ポジトロニウムの2体境界状態ディラック方程式の解法として新しい理論法を開発した。 クーロンポテンシャルのみがディラック・ハミルトンに含まれていた。 2体のディラック・ハミルトン多様体は、四進数 4$ のエルミート行列形式で書くことができ、$P$、$C$、$CP$対称性の違反の原因となる項を含むことが示されている。 振動子基底関数を用いた変分法で実行されるパラポジトロニウム基底状態のエネルギースペクトルの数値計算結果は、T.C. Scottらによる高精度有限要素法とよく一致している。 C$ と $CP$ 対称性違反成分の重みは、それぞれこの値の 2/3 と 1/3 の部分と等しい。 これらの数は、現在の実験施設の精度限界よりも2桁以下である。

A new theoretical method is developed for the solution of the two-body bound-state Dirac equation for positronium. Only Coulomb potential was included in the Dirac Hamiltonian. It is shown that the two-body Dirac Hamiltonian can be written in the Hermitian matrix form of the $4\times 4$ size and contains terms, responsible for the violation of the $P$, $C$, and $CP$ symmetries. Numerical results for the energy spectrum of the para- and ortho-positronium ground states performed within the variational method using the harmonic oscillator basis functions are in good agreement with a high-precision finite-element method of T.C. Scott et al. The weights of the $P$ and $CP$ symmetry-violating components in the para-positronium ground state are identical to the weight of the $P$ symmetry-violating component of the ortho-Ps and are estimated to be 6.6E-6. The weights of the $C$ and $CP$ symmetry-violating components of the ortho-Ps are equal to the 2/3 and 1/3 parts of this value, respectively. These numbers are less by two orders of magnitude than the precision limit of current experimental facilities.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair extract in Conversations with Multimodal Language Models (英語)

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models ( http://arxiv.org/abs/2404.00511v3 )

ライセンス: Link先を確認
Zebang Cheng, Fuqiang Niu, Yuxiang Lin, Zhi-Qi Cheng, Bowen Zhang, Xiaojiang Peng, (参考訳) 本稿では,SemEval 2024 Task 3 の Subtask 2 に対して,会話におけるマルチモーダル感情の原因分析について提案する。 特殊な感情エンコーダを用いたテキスト,音声,視覚的モダリティを統合した,新しいマルチモーダル感情認識・マルチモーダル感情原因抽出(MER-MCE)フレームワークを提案する。 当社のアプローチは、感情理解の強化と因果推論のために、モダリティ固有の機能を活用することで、トップパフォーマンスチームとは分離します。 実験の結果,F1得点は0.3435で,第1チームでは0.0339,第2チームでは0.0025であった。 プロジェクト:https://github.com/MIPS-COLT/MER-MCE.git

This paper presents our winning submission to Subtask 2 of SemEval 2024 Task 3 on multimodal emotion cause analysis in conversations. We propose a novel Multimodal Emotion Recognition and Multimodal Emotion Cause Extraction (MER-MCE) framework that integrates text, audio, and visual modalities using specialized emotion encoders. Our approach sets itself apart from top-performing teams by leveraging modality-specific features for enhanced emotion understanding and causality inference. Experimental evaluation demonstrates the advantages of our multimodal approach, with our submission achieving a competitive weighted F1 score of 0.3435, ranking third with a margin of only 0.0339 behind the 1st team and 0.0025 behind the 2nd team. Project: https://github.com/MIPS-COLT/MER-MCE.git
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# 言語モデルにおける知識帰属を可能にするソース・アウェア・トレーニング

Source-Aware Training Enables Knowledge Attribution in Language Models ( http://arxiv.org/abs/2404.01019v2 )

ライセンス: Link先を確認
Muhammad Khalifa, David Wadden, Emma Strubell, Honglak Lee, Lu Wang, Iz Beltagy, Hao Peng, (参考訳) 大規模言語モデル(LLM)は、事前訓練中に膨大な量の知識を学習するが、そのような知識の源泉にはあまり依存しないことが多い。 そこで本研究では,LLMが生成した応答をサポートする事前学習ソースを引用するために必要となる,本質的なソース引用の問題について検討する。 固有のソースの引用は、LLM透過性、解釈可能性、検証可能性を高めることができる。 LLMにそのような能力を与えるために、ソース認識トレーニング(source-aware training)を探求する。 一 独特な原文書識別子と各文書の知識を関連付けるようLLMを訓練し、次に掲げるもの (ii) LLM に刺激を受けると、支援事前訓練ソースを引用するように教える命令チューニング。 ソースアウェアトレーニングは、棚外の事前訓練されたLLMに容易に適用でき、既存の事前訓練/微調整フレームワークから最小限に分離できる。 念入りにキュレートされたデータの実験を通して、トレーニングのレシピは、トレーニング前のデータに対する忠実な属性を、標準のトレーニングよりもモデルの品質に大きく影響しないで実現できることを示した。 また,属性達成におけるデータ拡張の重要性も強調した。 コードとデータはここにある。 \url{https://github.com/mukhal/inrinsic-source-citation}

Large language models (LLMs) learn a vast amount of knowledge during pretraining, but they are often oblivious to the source(s) of such knowledge. We investigate the problem of intrinsic source citation, where LLMs are required to cite the pretraining source supporting a generated response. Intrinsic source citation can enhance LLM transparency, interpretability, and verifiability. To give LLMs such ability, we explore source-aware training -- a post pretraining recipe that involves (i) training the LLM to associate unique source document identifiers with the knowledge in each document, followed by (ii) an instruction-tuning to teach the LLM to cite a supporting pretraining source when prompted. Source-aware training can easily be applied to pretrained LLMs off the shelf, and diverges minimally from existing pretraining/fine-tuning frameworks. Through experiments on carefully curated data, we demonstrate that our training recipe can enable faithful attribution to the pretraining data without a substantial impact on the model's quality compared to standard pretraining. Our results also highlight the importance of data augmentation in achieving attribution. Code and data available here: \url{https://github.com/mukhal/intrinsic-source-citation}
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# KoCoNovel:韓国の小説における文字照合の注釈付きデータセット

KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels ( http://arxiv.org/abs/2404.01140v2 )

ライセンス: Link先を確認
Kyuhee Kim, Surin Lee, Sangah Lee, (参考訳) 本稿では,韓国の文文から派生した新しい文字コアデータセットであるKoCoNovelについて,詳細なガイドラインとともに紹介する。 50の現代小説と現代小説から178Kのトークンを合成し、KoCoNovelは韓国で最大の公的な中核解決コーパスの1つであり、初めて文学的テキストをベースとしている。 KoCoNovelは4つの異なるバージョンを提供しており、幅広い文学的コア参照分析のニーズに対応している。 これらのバージョンは、未熟な著者や読者の視点をサポートし、複数のエンティティを分離または重複として管理し、適用範囲を広げるように設計されている。 KoCoNovelの特徴の1つは、すべての文字の言及の24%が単一の共通名詞であり、所有するマーカーや記事がないことである。 この特徴は特に朝鮮の住所文化のニュアンスの影響を受けており、人名に対する社会関係や親族関係を表す用語の使用が好まれている。 BERTベースのコア参照モデルを用いた実験では,文字テキスト中の文字コア参照タスクにおいて,KoCoNovelによる顕著な性能向上が見られた。 このような発見は、韓国の文化的・言語力学の統合を通じて、コア参照解決モデルを大幅に強化するKoCoNovelの可能性を示している。

In this paper, we present KoCoNovel, a novel character coreference dataset derived from Korean literary texts, complete with detailed annotation guidelines. Comprising 178K tokens from 50 modern and contemporary novels, KoCoNovel stands as one of the largest public coreference resolution corpora in Korean, and the first to be based on literary texts. KoCoNovel offers four distinct versions to accommodate a wide range of literary coreference analysis needs. These versions are designed to support perspectives of the omniscient author or readers, and to manage multiple entities as either separate or overlapping, thereby broadening its applicability. One of KoCoNovel's distinctive features is that 24% of all character mentions are single common nouns, lacking possessive markers or articles. This feature is particularly influenced by the nuances of Korean address term culture, which favors the use of terms denoting social relationships and kinship over personal names. In experiments with a BERT-based coreference model, we observe notable performance enhancements with KoCoNovel in character coreference tasks within literary texts, compared to a larger non-literary coreference dataset. Such findings underscore KoCoNovel's potential to significantly enhance coreference resolution models through the integration of Korean cultural and linguistic dynamics.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# テンソル化RVEAを用いたGPUによる進化的多目的最適化

GPU-accelerated Evolutionary Multiobjective Optimization Using Tensorized RVEA ( http://arxiv.org/abs/2404.01159v3 )

ライセンス: Link先を確認
Zhenyu Liang, Tao Jiang, Kebin Sun, Ran Cheng, (参考訳) 進化的多目的最適化は過去数十年で顕著な進歩をみせた。 しかし、既存のアルゴリズムはしばしば、ハードウェアアクセラレーションの欠如に起因する大規模なシナリオで計算上の問題に遭遇する。 そこで本研究では,GPUアクセラレーションの進歩を生かしたTensorized Reference Vector Guided Evolutionary Algorithm(TensorRVEA)を提案する。 TensorRVEAでは、主要なデータ構造と演算子は、GPUベースの並列コンピューティングを活用するためのテンソル形式に完全に変換される。 大規模人口と問題次元を含む数値ベンチマークテストでは、TensorRVEAは一貫して高い計算性能を示し、1000$\times$スピードアップを達成している。 そして、ロボット制御タスクにおける複雑な課題に対処するために、TensorRVEAを多目的神経進化の領域に適用した。 さらに,数個のテンソル化再生演算子を変化させることで,TensorRVEAの拡張性を評価した。 実験結果は、TensorRVEAの有望なスケーラビリティと堅牢性を示している。 ソースコードは \url{https://github.com/EMI-Group/tensorrvea} で入手できる。

Evolutionary multiobjective optimization has witnessed remarkable progress during the past decades. However, existing algorithms often encounter computational challenges in large-scale scenarios, primarily attributed to the absence of hardware acceleration. In response, we introduce a Tensorized Reference Vector Guided Evolutionary Algorithm (TensorRVEA) for harnessing the advancements of GPU acceleration. In TensorRVEA, the key data structures and operators are fully transformed into tensor forms for leveraging GPU-based parallel computing. In numerical benchmark tests involving large-scale populations and problem dimensions, TensorRVEA consistently demonstrates high computational performance, achieving up to over 1000$\times$ speedups. Then, we applied TensorRVEA to the domain of multiobjective neuroevolution for addressing complex challenges in robotic control tasks. Furthermore, we assessed TensorRVEA's extensibility by altering several tensorized reproduction operators. Experimental results demonstrate promising scalability and robustness of TensorRVEA. Source codes are available at \url{https://github.com/EMI-Group/tensorrvea}.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# 複数事例学習による全スライド画像中の興味領域の探索

Finding Regions of Interest in Whole Slide Images Using Multiple Instance Learning ( http://arxiv.org/abs/2404.01446v2 )

ライセンス: Link先を確認
Martim Afonso, Praphulla M. S. Bhawsar, Monjoy Saha, Jonas S. Almeida, Arlindo L. Oliveira, (参考訳) 複数のスケールで顕微鏡スライドの高分解能デジタルスキャンによって得られた全スライド画像(WSI)は、現代のデジタル病理の基盤となっている。 しかし、それらはAIベースの/AIによる分析に対する特別な課題である。 医学診断が検体レベルで記録されているだけでなく、オンコジーン変異の検出も実験的に得られ、The Cancer Genome Atlas (TCGA)のようなイニシアチブによってスライドレベルで記録されている。 これは2つの課題を構成します。 a) がん全体の表現型を正確に予測し、 b) タイルレベルで、細胞形態とどのような関係があるかを調べること。 これらの課題に対処するため, 浸潤乳癌 (TCGA-BRCA) と肺扁平上皮癌 (TCGA-LUSC) の2種類のがんに対して, MIL (Multiple Instance Learning) アプローチが検討された。 本手法は, 腫瘍検出の低倍率レベル, TP53変異の各種レベルについて検討した。 その結果,MIL の新規な追加実装は参照実装の性能(AUC 0.96)と一致し,注意 MIL (AUC 0.97) がわずかに優れていた。 より興味深いことに、分子病理学の観点から、これらの異なるAIアーキテクチャは、異なる増幅レベルにおける(関心の領域の検出を通して)形態的特徴に対する異なる感度を識別する。 TP53変異は、細胞形態が解明されるより高度な用途の特徴に最も敏感であった。

Whole Slide Images (WSI), obtained by high-resolution digital scanning of microscope slides at multiple scales, are the cornerstone of modern Digital Pathology. However, they represent a particular challenge to AI-based/AI-mediated analysis because pathology labeling is typically done at slide-level, instead of tile-level. It is not just that medical diagnostics is recorded at the specimen level, the detection of oncogene mutation is also experimentally obtained, and recorded by initiatives like The Cancer Genome Atlas (TCGA), at the slide level. This configures a dual challenge: a) accurately predicting the overall cancer phenotype and b) finding out what cellular morphologies are associated with it at the tile level. To address these challenges, a weakly supervised Multiple Instance Learning (MIL) approach was explored for two prevalent cancer types, Invasive Breast Carcinoma (TCGA-BRCA) and Lung Squamous Cell Carcinoma (TCGA-LUSC). This approach was explored for tumor detection at low magnification levels and TP53 mutations at various levels. Our results show that a novel additive implementation of MIL matched the performance of reference implementation (AUC 0.96), and was only slightly outperformed by Attention MIL (AUC 0.97). More interestingly from the perspective of the molecular pathologist, these different AI architectures identify distinct sensitivities to morphological features (through the detection of Regions of Interest, RoI) at different amplification levels. Tellingly, TP53 mutation was most sensitive to features at the higher applications where cellular morphology is resolved.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# ブラックボックスニューラルランクモデルに対するマルチグラニュラー逆攻撃

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models ( http://arxiv.org/abs/2404.01574v2 )

ライセンス: Link先を確認
Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 敵のランキング攻撃は、脆弱性の探索の成功により注目され、その結果、ニューラルネットワークのランキングモデルの堅牢性を高めている。 従来の攻撃手法では、単一の粒度の摂動(例えば、単語や文のレベル)を標的文書に使用していた。 しかし、摂動を単一レベルの粒度に制限することは、敵の例の柔軟性を低下させ、攻撃の潜在的な脅威を減少させる可能性がある。 そこで我々は,多粒性摂動を取り入れた高品質な逆数例の生成に焦点をあてる。 この目的を達成するには、あらゆる可能な粒度、位置、およびテキスト部品の摂動の最適な組み合わせを特定する必要がある組合せ爆発問題に取り組む必要がある。 この課題に対処するため、我々は多粒対角攻撃をシーケンシャルな意思決定プロセスに変換し、次の攻撃ステップにおける摂動は現在の攻撃ステップにおける摂動ドキュメント上に構築する。 攻撃プロセスは直接中間信号無しで最終状態にしかアクセスできないため、強化学習を用いて複数粒状攻撃を行う。 強化学習の過程で、2つのエージェントが協力して、多粒性の脆弱性を攻撃目標として特定し、摂動候補を最終摂動シーケンスにまとめる。 実験結果から,本手法は攻撃の有効性と非受容性の両方において,一般的なベースラインを超えていることが示唆された。

Adversarial ranking attacks have gained increasing attention due to their success in probing vulnerabilities, and, hence, enhancing the robustness, of neural ranking models. Conventional attack methods employ perturbations at a single granularity, e.g., word or sentence level, to target documents. However, limiting perturbations to a single level of granularity may reduce the flexibility of adversarial examples, thereby diminishing the potential threat of the attack. Therefore, we focus on generating high-quality adversarial examples by incorporating multi-granular perturbations. Achieving this objective involves tackling a combinatorial explosion problem, which requires identifying an optimal combination of perturbations across all possible levels of granularity, positions, and textual pieces. To address this challenge, we transform the multi-granular adversarial attack into a sequential decision-making process, where perturbations in the next attack step build on the perturbed document in the current attack step. Since the attack process can only access the final state without direct intermediate signals, we use reinforcement learning to perform multi-granular attacks. During the reinforcement learning process, two agents work cooperatively to identify multi-granular vulnerabilities as attack targets and organize perturbation candidates into a final perturbation sequence. Experimental results show that our attack method surpasses prevailing baselines in both attack effectiveness and imperceptibility.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# Samba: 状態空間モデルによるリモートセンシング画像のセマンティックセグメンテーション

Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model ( http://arxiv.org/abs/2404.01705v2 )

ライセンス: Link先を確認
Qinfeng Zhu, Yuanzhi Cai, Yuan Fang, Yihan Yang, Cheng Chen, Lei Fan, Anh Nguyen, (参考訳) 高解像度のリモートセンシング画像は、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった一般的なセマンティックセグメンテーション手法の課題となっている。 CNNベースの手法は、受容領域が限られているため、そのような高解像度画像を扱うのに苦労するが、ViTは長いシーケンスを扱う際の課題に直面している。 グローバルな意味情報を効率的に捉えるためにステートスペースモデル(SSM)を採用したMambaに着想を得て,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。 Sambaはエンコーダ-デコーダアーキテクチャを使用し、Sambaブロックは効率的なマルチレベルセマンティック情報抽出のためのエンコーダとして機能し、UperNetはデコーダとして機能する。 The LoveDA, ISPRS Vaihingen, および ISPRS Potsdam データセット上でSambaの評価を行い、その性能を最高性能の CNN および ViT 手法と比較した。 その結果、Sambaはセマンティックセグメンテーションのためによく使われるリモートセンシングデータセットで非並列性能を達成した。 提案したSambaは、リモートセンシング画像のセマンティックセグメンテーションにおけるSSMの有効性を初めて実証し、この特定のアプリケーションにおけるMambaベースの技術のための新しいベンチマークを設定した。 ソースコードとベースラインの実装はhttps://github.com/zhuqinfeng 1999/Samba.comで公開されている。

High-resolution remotely sensed images pose a challenge for commonly used semantic segmentation methods such as Convolutional Neural Network (CNN) and Vision Transformer (ViT). CNN-based methods struggle with handling such high-resolution images due to their limited receptive field, while ViT faces challenges in handling long sequences. Inspired by Mamba, which adopts a State Space Model (SSM) to efficiently capture global semantic information, we propose a semantic segmentation framework for high-resolution remotely sensed images, named Samba. Samba utilizes an encoder-decoder architecture, with Samba blocks serving as the encoder for efficient multi-level semantic information extraction, and UperNet functioning as the decoder. We evaluate Samba on the LoveDA, ISPRS Vaihingen, and ISPRS Potsdam datasets, comparing its performance against top-performing CNN and ViT methods. The results reveal that Samba achieved unparalleled performance on commonly used remote sensing datasets for semantic segmentation. Our proposed Samba demonstrates for the first time the effectiveness of SSM in semantic segmentation of remotely sensed images, setting a new benchmark in performance for Mamba-based techniques in this specific application. The source code and baseline implementations are available at https://github.com/zhuqinfeng1999/Samba.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# Hessian-free Recollection of individual data Statistics によるオンライン学習の効率化

Efficient Online Unlearning via Hessian-Free Recollection of Individual Data Statistics ( http://arxiv.org/abs/2404.01712v2 )

ライセンス: Link先を確認
Xinbao Qiao, Meng Zhang, Ming Tang, Ermin Wei, (参考訳) 機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。 近年の手法では,2次情報を含む統計データを事前計算・保存することで,計算効率とメモリ効率を向上させる方法が提案されている。 しかし、それらは制限的な仮定に依存しており、計算/記憶はモデルパラメータの次元性の呪いに苦しむため、ほとんどのディープニューラルネットワークに適用することは困難である。 本研究では,Hessian-free online unlearning法を提案する。 本稿では,再学習モデルと学習モデルの違いの確率的再帰近似を用いて計算した各データ点に対する統計的ベクトルを維持することを提案する。 提案アルゴリズムは,ベクトル加算操作のみを必要とするため,ほぼ瞬時にオンラインアンラーニングを実現する。 データを忘れる統計を再現する戦略に基づいて,提案手法は未学習のランタイムを大幅に削減する。 実験により,提案手法は時間とメモリコストの面で,既存の結果を桁違いに上回り,精度も向上することを示した。

Machine unlearning strives to uphold the data owners' right to be forgotten by enabling models to selectively forget specific data. Recent methods suggest that one approach of data forgetting is by precomputing and storing statistics carrying second-order information to improve computational and memory efficiency. However, they rely on restrictive assumptions and the computation/storage suffer from the curse of model parameter dimensionality, making it challenging to apply to most deep neural networks. In this work, we propose a Hessian-free online unlearning method. We propose to maintain a statistical vector for each data point, computed through affine stochastic recursion approximation of the difference between retrained and learned models. Our proposed algorithm achieves near-instantaneous online unlearning as it only requires a vector addition operation. Based on the strategy that recollecting statistics for forgetting data, the proposed method significantly reduces the unlearning runtime. Experimental studies demonstrate that the proposed scheme surpasses existing results by orders of magnitude in terms of time and memory costs, while also enhancing accuracy.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# GPU加速のための拡張トポロジのテンソル化神経進化

Tensorized NeuroEvolution of Augmenting Topologies for GPU Acceleration ( http://arxiv.org/abs/2404.01817v3 )

ライセンス: Link先を確認
Lishuang Wang, Mengfei Zhao, Enyu Liu, Kebin Sun, Ran Cheng, (参考訳) 神経進化(NeuroEvolution of Augmenting Topologies、NEAT)アルゴリズムは、神経進化の分野でかなりの認知を得ている。 その効果は単純なネットワークで開始し、トポロジと重みの両方を漸進的に進化させることから導かれる。 様々な課題にまたがる能力は明らかだが、アルゴリズムの計算効率は依然として障害であり、スケーラビリティの可能性を制限している。 そこで本研究では,NEATアルゴリズムのテンソル化手法を導入し,ネットワークトポロジと関連する演算を一様テンソルに変換する手法を提案する。 この進歩は、NEATアルゴリズムを全人口にわたって並列的に実行することを容易にする。 さらに, テンソルネットは, CPPN や HyperNEAT など, テンソル化NEAT アルゴリズムとその変種を実装したライブラリである。 JAX上に構築されたTensorNEATは、自動関数ベクトル化とハードウェアアクセラレーションによる効率的な並列計算を促進する。 さらに、TensorNEATライブラリは、Gym, Brax, gymnaxなど、さまざまなベンチマーク環境をサポートしている。 Braxのさまざまなロボット制御環境の評価を通じて、TensorNEATはNEAT-Pythonのような既存の実装と比較して最大500倍のスピードアップを実現している。 ソースコードは、https://github.com/EMI-Group/tensorneat.comで入手できる。

The NeuroEvolution of Augmenting Topologies (NEAT) algorithm has received considerable recognition in the field of neuroevolution. Its effectiveness is derived from initiating with simple networks and incrementally evolving both their topologies and weights. Although its capability across various challenges is evident, the algorithm's computational efficiency remains an impediment, limiting its scalability potential. In response, this paper introduces a tensorization method for the NEAT algorithm, enabling the transformation of its diverse network topologies and associated operations into uniformly shaped tensors for computation. This advancement facilitates the execution of the NEAT algorithm in a parallelized manner across the entire population. Furthermore, we develop TensorNEAT, a library that implements the tensorized NEAT algorithm and its variants, such as CPPN and HyperNEAT. Building upon JAX, TensorNEAT promotes efficient parallel computations via automated function vectorization and hardware acceleration. Moreover, the TensorNEAT library supports various benchmark environments including Gym, Brax, and gymnax. Through evaluations across a spectrum of robotics control environments in Brax, TensorNEAT achieves up to 500x speedups compared to the existing implementations such as NEAT-Python. Source codes are available at: https://github.com/EMI-Group/tensorneat.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# 旅行購入問題に対する深層強化学習

Deep Reinforcement Learning for Traveling Purchaser Problems ( http://arxiv.org/abs/2404.02476v2 )

ライセンス: Link先を確認
Haofeng Yuan, Rongping Zhu, Wanlu Yang, Shiji Song, Keyou You, Yuli Zhang, (参考訳) 旅行購入問題(TPP)は、幅広い応用において重要な組合せ最適化問題である。 ルーティングと購入の結合のため、既存のTPPの作業はルート構築と購入計画を同時に扱うことが一般的であり、高い計算コストと厳密な設計を伴うヒューリスティックな手法をもたらすが、性能は限られている。 対照的に、我々はルート構築と購入計画を個別に扱う深層強化学習(DRL)に基づく新しいアプローチを提案し、グローバルな視点からソリューションを評価し、最適化する。 提案手法の主な構成要素は,TPP が市場生産関係を捉えるための二部グラフ表現と,その二部グラフから情報を抽出し,それを用いて経路を逐次構築するポリシネットワークである。 このフレームワークの重要な利点は、ポリシーネットワークを用いて効率的にルートを構築することができ、ルートが決定されると、関連する購入計画は線形プログラミングにより容易に導出でき、DRLを利用することで、ポリシーネットワークをトレーニングして、グローバルなソリューションの目的を最適化することができることである。 さらに、メタラーニング戦略を導入することで、ポリシーネットワークは大規模TPPインスタンス上で安定してトレーニングすることができ、トレーニング中に見たことのないはるかに大きなインスタンスであっても、さまざまなサイズや分布のインスタンスに対して適切に一般化することができる。 様々な合成TPPインスタンスとTPPLIBベンチマークの実験により、DRLベースのアプローチは、確立されたTPPヒューリスティックスを大幅に上回り、最適性ギャップを40%-90%削減し、特に大規模インスタンスにおいて実行時に有利であることを示す。

The traveling purchaser problem (TPP) is an important combinatorial optimization problem with broad applications. Due to the coupling between routing and purchasing, existing works on TPPs commonly address route construction and purchase planning simultaneously, which, however, leads to exact methods with high computational cost and heuristics with sophisticated design but limited performance. In sharp contrast, we propose a novel approach based on deep reinforcement learning (DRL), which addresses route construction and purchase planning separately, while evaluating and optimizing the solution from a global perspective. The key components of our approach include a bipartite graph representation for TPPs to capture the market-product relations, and a policy network that extracts information from the bipartite graph and uses it to sequentially construct the route. One significant benefit of our framework is that we can efficiently construct the route using the policy network, and once the route is determined, the associated purchasing plan can be easily derived through linear programming, while, leveraging DRL, we can train the policy network to optimize the global solution objective. Furthermore, by introducing a meta-learning strategy, the policy network can be trained stably on large-sized TPP instances, and generalize well across instances of varying sizes and distributions, even to much larger instances that are never seen during training. Experiments on various synthetic TPP instances and the TPPLIB benchmark demonstrate that our DRL-based approach can significantly outperform well-established TPP heuristics, reducing the optimality gap by 40%-90%, and also showing an advantage in runtime, especially on large-sized instances.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# 政策勾配法の基本解析

Elementary Analysis of Policy Gradient Methods ( http://arxiv.org/abs/2404.03372v2 )

ライセンス: Link先を確認
Jiacai Liu, Wenye Li, Ke Wei, (参考訳) 単純なパラメータ化, 方針勾配, およびソフトマックスパラメータ化の下での自然政策勾配の予測は, 強化学習の基本的なアルゴリズムである。 理論的な側面からこれらのアルゴリズムを研究する活動は、近年急増している。 それにもかかわらず、正確な政策評価にアクセスできたとしても、それらの収束挙動は未だ完全には理解されていない。 本稿では,割引MDPの設定に焦点をあて,前述の政策最適化手法の体系的研究を行う。 いくつかの新しい結果が提示され、その中には 1) 任意の一定のステップサイズに対する計画的方針勾配の大域的線形収束 2) 任意のステップサイズに対するソフトマックスポリシー勾配のサブ線形収束 3) 任意のステップサイズに対するソフトマックス自然方針勾配の大域的線形収束 4) エントロピー正則化ソフトマックス政策勾配の大域的線形収束は, 既存の結果よりも広い段差を持つ。 5) エントロピー規則化自然政策勾配の厳密な局所線形収束率、及び 6) 最適条件下での定常分布を仮定することなく, ソフトポリシー反復の局所的局所的2次収束率を推定した。 これらの結果を確立するため, 新たな基礎解析技術が開発されている。

Projected policy gradient under the simplex parameterization, policy gradient and natural policy gradient under the softmax parameterization, are fundamental algorithms in reinforcement learning. There have been a flurry of recent activities in studying these algorithms from the theoretical aspect. Despite this, their convergence behavior is still not fully understood, even given the access to exact policy evaluations. In this paper, we focus on the discounted MDP setting and conduct a systematic study of the aforementioned policy optimization methods. Several novel results are presented, including 1) global linear convergence of projected policy gradient for any constant step size, 2) sublinear convergence of softmax policy gradient for any constant step size, 3) global linear convergence of softmax natural policy gradient for any constant step size, 4) global linear convergence of entropy regularized softmax policy gradient for a wider range of constant step sizes than existing result, 5) tight local linear convergence rate of entropy regularized natural policy gradient, and 6) a new and concise local quadratic convergence rate of soft policy iteration without the assumption on the stationary distribution under the optimal policy. New and elementary analysis techniques have been developed to establish these results.
翻訳日:2024-04-12 18:06:21 公開日:2024-04-11
# ChangeMamba:時空間空間モデルによるリモートセンシング変化検出

ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model ( http://arxiv.org/abs/2404.03425v2 )

ライセンス: Link先を確認
Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。 しかし、両方のアーキテクチャには固有の欠点がある。 近年、状態空間モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。 本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。 我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。 3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。 3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。 5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑なトレーニング戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、CDタスクにおけるMambaアーキテクチャの可能性を完全に実証している。 具体的には、3つのBCDデータセットSYSU, LEVIR-CD+, WHU-CDに対して83.11%, 88.39%, 94.19%のF1スコアを取得し, SCDデータセットSECONDでは24.11%のSeK, BDAデータセットxBDでは81.41%の総合F1スコアを得た。 さらなる実験は、アーキテクチャが劣化したデータに対して非常に堅牢であることを示している。 ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。

Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have inherent shortcomings. Recently, the Mamba architecture, based on state space models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing CD tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge Visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features, thereby obtaining accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex training strategies or tricks, fully demonstrating the potential of the Mamba architecture in CD tasks. Specifically, we obtained 83.11%, 88.39% and 94.19% F1 scores on the three BCD datasets SYSU, LEVIR-CD+, and WHU-CD; on the SCD dataset SECOND, we obtained 24.11% SeK; and on the BDA dataset xBD, we obtained 81.41% overall F1 score. Further experiments show that our architecture is quite robust to degraded data. The source code will be available in https://github.com/ChenHongruixuan/MambaCD
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 親バイアスのフラッテニング:ポアンカーボールの階層的セマンティックセマンティックセグメンテーション

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincar{é} Ball ( http://arxiv.org/abs/2404.03778v2 )

ライセンス: Link先を確認
Simon Weber, Barış Zöngür, Nikita Araslanov, Daniel Cremers, (参考訳) 階層は、イメージセグメンテーションで日常的に使用されるものを含む意味分類の自然な表現である。 実際、セマンティックセグメンテーションに関する最近の研究は、階層的ラベル構造を利用した教師付きトレーニングの精度を改善した。 これらの結果を受けて、我々はその仕事の背後にある基本的な前提を再考する。 セグメンテーション精度が向上した理由がセグメンテーション階層の使用とは全く無関係である可能性があることを仮定し,実証的に検証した。 これを実証するために、代表的階層的アプローチによるクロスドメイン実験を設計する。 新たなテスト領域では,親が子どもから推定されるフラットな(階層的でない)セグメンテーションネットワークが,階層的アプローチよりも優れたセグメンテーション精度を持つことがわかった。 これらの知見を補完し、双曲空間の内在的性質にインスパイアされ、ポアンカーの球モデルを用いた階層的セグメンテーションへのより原理的なアプローチを研究する。 双曲表現は、以前の(ユークリッド)階層的アプローチよりも大きく優れており、分節精度の点で我々の平坦ユークリッド基底線と同程度である。 しかし、セマンティック階層における親ノードの驚くほど強いキャリブレーション品質、特により困難なドメインでは、さらに顕著である。 階層的セグメンテーションの確立された実践はドメイン内の設定に限られる可能性があるが、フラットな分類器は、特に双曲空間でモデル化されている場合、かなり良く一般化される。

Hierarchy is a natural representation of semantic taxonomies, including the ones routinely used in image segmentation. Indeed, recent work on semantic segmentation reports improved accuracy from supervised training leveraging hierarchical label structures. Encouraged by these results, we revisit the fundamental assumptions behind that work. We postulate and then empirically verify that the reasons for the observed improvement in segmentation accuracy may be entirely unrelated to the use of the semantic hierarchy. To demonstrate this, we design a range of cross-domain experiments with a representative hierarchical approach. We find that on the new testing domains, a flat (non-hierarchical) segmentation network, in which the parents are inferred from the children, has superior segmentation accuracy to the hierarchical approach across the board. Complementing these findings and inspired by the intrinsic properties of hyperbolic spaces, we study a more principled approach to hierarchical segmentation using the Poincar\'e ball model. The hyperbolic representation largely outperforms the previous (Euclidean) hierarchical approach as well and is on par with our flat Euclidean baseline in terms of segmentation accuracy. However, it additionally exhibits surprisingly strong calibration quality of the parent nodes in the semantic hierarchy, especially on the more challenging domains. Our combined analysis suggests that the established practice of hierarchical segmentation may be limited to in-domain settings, whereas flat classifiers generalize substantially better, especially if they are modeled in the hyperbolic space.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# ブロック座標Descent EMOアルゴリズム:理論的および経験的解析

A Block-Coordinate Descent EMO Algorithm: Theoretical and Empirical Analysis ( http://arxiv.org/abs/2404.03838v2 )

ライセンス: Link先を確認
Benjamin Doerr, Joshua Knowles, Aneta Neumann, Frank Neumann, (参考訳) 開問題に対処する進化的多目的最適化において,ブロック座標降下が漸近的に効率的である条件が存在するかどうかを考察する。 ブロックコーディネート降下(Block-coordinate descend)は、最適化問題を決定変数の$k$ブロックに分解し、各ブロックを(他のブロックを固定した)順序で最適化する手法であり、航空スケジューリングなどの大規模最適化問題で使用されるが、多目的最適化におけるその使用はあまり研究されていない。 本稿では,GSEMOのブロックコーディネートバージョンを提案し,その実行時間を標準GSEMOアルゴリズムと比較する。 LOTZの変種である二重対象検定関数に関する理論的および実証的な結果は、ブロック座標降下がより速いケースの存在を実証するのに役立つ。 この結果は、このクラスのアルゴリズムに対するより広範な洞察をもたらす可能性がある。

We consider whether conditions exist under which block-coordinate descent is asymptotically efficient in evolutionary multi-objective optimization, addressing an open problem. Block-coordinate descent, where an optimization problem is decomposed into $k$ blocks of decision variables and each of the blocks is optimized (with the others fixed) in a sequence, is a technique used in some large-scale optimization problems such as airline scheduling, however its use in multi-objective optimization is less studied. We propose a block-coordinate version of GSEMO and compare its running time to the standard GSEMO algorithm. Theoretical and empirical results on a bi-objective test function, a variant of LOTZ, serve to demonstrate the existence of cases where block-coordinate descent is faster. The result may yield wider insights into this class of algorithms.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 衛星画像時系列解析のための深層学習

Deep Learning for Satellite Image Time Series Analysis: A Review ( http://arxiv.org/abs/2404.03936v2 )

ライセンス: Link先を確認
Lynn Miller, Charlotte Pelletier, Geoffrey I. Webb, (参考訳) 地球観測(EO)衛星ミッションは、50年以上にわたって地球の状態とその陸地に関する詳細な画像を提供してきた。 NASAのランドサット、テラ、アクアなどの長期ミッション、最近ではESAのセンチネルミッションが数日ごとに世界中の画像を記録している。 単一画像はポイント・イン・タイムのデータを提供するが、同じ領域の繰り返し画像、または衛星画像時系列(SITS)は、植生や土地利用の変化状況に関する情報を提供する。 これらのSITSは、植物表現学のような動的プロセスや季節変化のモデル化に有用である。 農業、森林、水、災害管理、都市計画、鉱業など、土地と天然資源の管理の多くの面で潜在的に有利である。 しかし、衛星画像時系列(SITS)は複雑であり、時間次元、空間次元、スペクトル次元の情報を取り入れている。 したがって、深層学習手法は複雑な関係を解析できるため、しばしば展開される。 本稿では,SITSデータから環境,農業,その他の地球観測変数をモデル化する最先端の手法について,深層学習法を用いて概説する。 我々は、深層学習技術を用いて、時間情報を用いた地球観測モデルを強化することに関心のあるリモートセンシング専門家のためのリソースを提供することを目的としている。

Earth observation (EO) satellite missions have been providing detailed images about the state of the Earth and its land cover for over 50 years. Long term missions, such as NASA's Landsat, Terra, and Aqua satellites, and more recently, the ESA's Sentinel missions, record images of the entire world every few days. Although single images provide point-in-time data, repeated images of the same area, or satellite image time series (SITS) provide information about the changing state of vegetation and land use. These SITS are useful for modeling dynamic processes and seasonal changes such as plant phenology. They have potential benefits for many aspects of land and natural resource management, including applications in agricultural, forest, water, and disaster management, urban planning, and mining. However, the resulting satellite image time series (SITS) are complex, incorporating information from the temporal, spatial, and spectral dimensions. Therefore, deep learning methods are often deployed as they can analyze these complex relationships. This review presents a summary of the state-of-the-art methods of modelling environmental, agricultural, and other Earth observation variables from SITS data using deep learning methods. We aim to provide a resource for remote sensing experts interested in using deep learning techniques to enhance Earth observation models with temporal information.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# CLUE:LLMの臨床言語理解評価

CLUE: A Clinical Language Understanding Evaluation for LLMs ( http://arxiv.org/abs/2404.04067v2 )

ライセンス: Link先を確認
Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek, (参考訳) 大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献する可能性を示している。 新たなバイオメディカルLLMは、プライバシ要求や計算上の制約を含む、医療特有の課題に対処する。 しかし、これらのモデルの評価は主に臨床応用の複雑さを反映しない非臨床的なタスクに限られている。 また,臨床業務における生物医学と一般ドメインLLMの徹底的な比較は行われていない。 このギャップを埋めるために,実世界の臨床におけるLCMを評価するためのベンチマークであるCLUE(CLUE)を提案する。 CLUEには、MIMIC IV放電文字から派生した2つの新しいデータセットと、医療環境におけるLSMの実用性をテストするために設計された4つの既存のタスクが含まれている。 バイオメディカルおよび一般分野のLSMについて検討し,臨床成績と適用性について考察した。 CLUEは、医療におけるLCMの評価と開発のための標準化されたアプローチへの一歩であり、将来のモデル開発と臨床応用の現実的なニーズを整合させるものである。 評価とデータ生成のスクリプトを公開します。

Large Language Models (LLMs) have shown the potential to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs address healthcare-specific challenges, including privacy demands and computational constraints. However, evaluation of these models has primarily been limited to non-clinical tasks, which do not reflect the complexity of practical clinical applications. Additionally, there has been no thorough comparison between biomedical and general-domain LLMs for clinical tasks. To fill this gap, we present the Clinical Language Understanding Evaluation (CLUE), a benchmark tailored to evaluate LLMs on real-world clinical tasks. CLUE includes two novel datasets derived from MIMIC IV discharge letters and four existing tasks designed to test the practical applicability of LLMs in healthcare settings. Our evaluation covers several biomedical and general domain LLMs, providing insights into their clinical performance and applicability. CLUE represents a step towards a standardized approach to evaluating and developing LLMs in healthcare to align future model development with the real-world needs of clinical application. We publish our evaluation and data generation scripts: https://github.com/TIO-IKIM/CLUE.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル

What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v3 )

ライセンス: Link先を確認
Mark Stefik, (参考訳) AIはどんなアプリケーションを準備しているのか? ディープラーニングとジェネレーティブアプローチの進歩は、大規模なオンラインデータから学習し、手作業で構築したAIを上回るAIを生み出した。 これらのAIのいくつかは、人々より優れています。 今日のAI技術は、何でも何でもすることを学んでいると結論付けるのは簡単(しかし誤解を招く)です。 逆に、ビッグデータ、ディープラーニング、そして生成AIがロボット工学にほとんど影響を与えていないことは印象的だ。 例えば、今日の自律ロボットは、在宅ケアや看護助手になることを学ばない。 現在のロボットアプリケーションは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を用いて作成されている。 これらの手法は、ディープラーニングと生成AIで見られるパフォーマンスと一般性の飛躍に繋がらない。 サービスアプリケーションのためにロボットを訓練するためのより良いアプローチは、彼らの社会的役割と経済的影響を大幅に拡大するだろう。 AI研究は、ロボットのマルチモーダルセンシングとエフェクター技術と、エンボディシステムに適合したディープラーニング技術を組み合わせることで、ロボットを訓練するための"ビッグデータ"アプローチを拡張している。 これらのアプローチは、世界で知覚し行動するAIのためのロボット(または「実験的」基礎モデル(FM)を作成する。 ロボットFMアプローチは、トレーニングデータの期待、ソース、タイミングが異なる。 主流のFMアプローチと同様に、いくつかのロボットFMアプローチは、成人の専門家レベルのロボットを作成するために膨大なデータを使用する。 対照的に、発達的ロボットアプローチは、継続的に経験的に学習する進歩的FMを生成する。 希望的に、これらは児童レベルから学生レベル、見習いレベル、専門家レベルへと進化する。 彼らは自己開発と社会的に発達した能力を得た。 これらのAIは、周囲の人々の目標をモデル化する。 人々と同じように、協力し、コミュニケーションし、協力することを学ぶでしょう。

What applications is AI ready for? Advances in deep learning and generative approaches have produced AIs that learn from massive online data and outperform manually built AIs. Some of these AIs outperform people. It is easy (but misleading) to conclude that today's AI technologies are learning to do anything and everything. Conversely, it is striking that big data, deep learning, and generative AI have had so little impact on robotics. For example, today's autonomous robots do not learn to provide home care or to be nursing assistants. Current robot applications are created using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning and generative AI. Better approaches to train robots for service applications would greatly expand their social roles and economic impact. AI research is now extending "big data" approaches to train robots by combining multimodal sensing and effector technology from robotics with deep learning technology adapted for embodied systems. These approaches create robotic (or "experiential") foundation models (FMs) for AIs that perceive and act in the world. Robotic FM approaches differ in their expectations, sources, and timing of training data. Like mainstream FM approaches, some robotic FM approaches use vast data to create adult expert-level robots. In contrast, developmental robotic approaches would create progressive FMs that learn continuously and experientially. Aspirationally, these would progress from child-level to student-level, apprentice-level, and expert levels. They would acquire self-developed and socially developed competences. These AIs would model the goals of people around them. Like people, they would learn to coordinate, communicate, and collaborate.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 1次元画像から3次元画像への拡散時間計算

Diffusion Time-step Curriculum for One Image to 3D Generation ( http://arxiv.org/abs/2404.04562v2 )

ライセンス: Link先を確認
Xuanyu Yi, Zike Wu, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Hanwang Zhang, (参考訳) スコア蒸留サンプリング~(SDS)は, textbf{single}画像から3Dオブジェクトを再構成する際, 目に見えない視点の欠如を克服するために広く採用されている。 教師として事前訓練された2D拡散モデルを利用して、学生の3Dモデルの再構築を指導する。 彼らの顕著な成功にもかかわらず、SDSベースの手法は、しばしば幾何学的アーティファクトやテクスチャ飽和に遭遇する。 学習者の知識蒸留をあらゆる時間ステップで等しく扱い、粗くきめ細かなモデリングを行う。 そこで本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline(DTC123)を提案する。 NeRF4、RealFusion15、GSO、Level50ベンチマークの大規模な実験により、DTC123は多視点一貫した高品質で多様な3Dアセットを生成できることが示された。 コードやその他の世代のデモはhttps://github.com/yxymessi/DTC123.comで公開される。

Score distillation sampling~(SDS) has been widely adopted to overcome the absence of unseen views in reconstructing 3D objects from a \textbf{single} image. It leverages pre-trained 2D diffusion models as teacher to guide the reconstruction of student 3D models. Despite their remarkable success, SDS-based methods often encounter geometric artifacts and texture saturation. We find out the crux is the overlooked indiscriminate treatment of diffusion time-steps during optimization: it unreasonably treats the student-teacher knowledge distillation to be equal at all time-steps and thus entangles coarse-grained and fine-grained modeling. Therefore, we propose the Diffusion Time-step Curriculum one-image-to-3D pipeline (DTC123), which involves both the teacher and student models collaborating with the time-step curriculum in a coarse-to-fine manner. Extensive experiments on NeRF4, RealFusion15, GSO and Level50 benchmark demonstrate that DTC123 can produce multi-view consistent, high-quality, and diverse 3D assets. Codes and more generation demos will be released in https://github.com/yxymessi/DTC123.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 確率凸最適化における勾配輝度のサンプル複素性

The Sample Complexity of Gradient Descent in Stochastic Convex Optimization ( http://arxiv.org/abs/2404.04931v2 )

ライセンス: Link先を確認
Roi Livni, (参考訳) 我々は,非滑らかな確率凸最適化のセットアップにおいて,GD (Full-batch Gradient Descent) のサンプル複雑性を解析した。 超パラメータの共通選択によるGDの一般化誤差は$\tilde \Theta(d/m + 1/\sqrt{m})$であり、$d$は次元、$m$は標本サイズである。 これは \emph{worst-case} 経験的リスク最小化器のサンプル複雑性と一致する。 つまり、他のアルゴリズムとは対照的に、GDは単純なERMよりも有利である。 我々の境界は、次元と学習率と反復数の両方に依存する新しい一般化境界から従う。 我々のバウンダリはまた、一般のハイパーパラメーターに対して、次元がサンプルの数より厳密に大きい場合、$T=\Omega(1/\epsilon^4)$ iterationsはオーバーフィッティングを避けるために必要であることを示している。 これにより、Schlisserman et al 23 と Amir er Al.21 による開問題が解決され、サンプルサイズが次元の少なくとも2乗根でなければならないことを示す以前の下界よりも改善される。

We analyze the sample complexity of full-batch Gradient Descent (GD) in the setup of non-smooth Stochastic Convex Optimization. We show that the generalization error of GD, with common choice of hyper-parameters, can be $\tilde \Theta(d/m + 1/\sqrt{m})$, where $d$ is the dimension and $m$ is the sample size. This matches the sample complexity of \emph{worst-case} empirical risk minimizers. That means that, in contrast with other algorithms, GD has no advantage over naive ERMs. Our bound follows from a new generalization bound that depends on both the dimension as well as the learning rate and number of iterations. Our bound also shows that, for general hyper-parameters, when the dimension is strictly larger than number of samples, $T=\Omega(1/\epsilon^4)$ iterations are necessary to avoid overfitting. This resolves an open problem by Schlisserman et al.23 and Amir er Al.21, and improves over previous lower bounds that demonstrated that the sample size must be at least square root of the dimension.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# CAVIAR: 正確な推論とロバスト推論のためのカテゴリ変数の埋め込み

CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference ( http://arxiv.org/abs/2404.04979v2 )

ライセンス: Link先を確認
Anirban Mukherjee, Hannah Hanwen Chang, (参考訳) 社会科学の研究は、しばしば分類変数と結果の関係に頼っている。 本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。 我々の理論的および数値解析は、因果推論におけるそのような分類変数による課題を概説している。 具体的には、動的に変化し、スパースレベルが変化すると、ドンスカー条件に違反し、推定関数が厳密なガウス過程に収束しない。 まれなカテゴリーレベルの排除やLASSOのような原則付き変数選択モデルなど、伝統的なアプローチは不足している。 CAVIARはデータを低次元のグローバル座標系に埋め込む。 マッピングは構造化データと非構造化データの両方から導出することができ、次元の減少を通じて安定かつ堅牢な推定を保証できる。 消費者直接アパレル販売のデータセットでは、zipコードのような高次元のカテゴリ変数が簡潔に表現され、推論と分析が容易であることを示す。

Social science research often hinges on the relationship between categorical variables and outcomes. We introduce CAVIAR, a novel method for embedding categorical variables that assume values in a high-dimensional ambient space but are sampled from an underlying manifold. Our theoretical and numerical analyses outline challenges posed by such categorical variables in causal inference. Specifically, dynamically varying and sparse levels can lead to violations of the Donsker conditions and a failure of the estimation functionals to converge to a tight Gaussian process. Traditional approaches, including the exclusion of rare categorical levels and principled variable selection models like LASSO, fall short. CAVIAR embeds the data into a lower-dimensional global coordinate system. The mapping can be derived from both structured and unstructured data, and ensures stable and robust estimates through dimensionality reduction. In a dataset of direct-to-consumer apparel sales, we illustrate how high-dimensional categorical variables, such as zip codes, can be succinctly represented, facilitating inference and analysis.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 数値計画のための新奇ヒューリスティックス, マルチキュー検索, ポートフォリオ

Novelty Heuristics, Multi-Queue Search, and Portfolios for Numeric Planning ( http://arxiv.org/abs/2404.05235v2 )

ライセンス: Link先を確認
Dillon Z. Chen, Sylvie Thiébaux, (参考訳) ヒューリスティック検索は計画上の問題を解決するための強力なアプローチであり、数値的な計画も例外ではない。 本稿では,ヒューリスティック・インフォリティー向上のための様々な強力な手法を用いて,ヒューリスティック・インフォリティ向上のためのヒューリスティック・サーチの性能向上を図り,マンハッタン距離ヒューリスティック,マルチキュー・サーチとポートフォリオの活用を探求する。

Heuristic search is a powerful approach for solving planning problems and numeric planning is no exception. In this paper, we boost the performance of heuristic search for numeric planning with various powerful techniques orthogonal to improving heuristic informedness: numeric novelty heuristics, the Manhattan distance heuristic, and exploring the use of multi-queue search and portfolios for combining heuristics.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# 不正促進のためのリフレクテッドサーチポゾン

Reflected Search Poisoning for Illicit Promotion ( http://arxiv.org/abs/2404.05320v2 )

ライセンス: Link先を確認
Sangyi Wu, Jialong Xue, Shaoxuan Zhou, Xianghang Mi, (参考訳) 新興のブラックハット検索エンジン最適化(SEO)技術として、リフレクトサーチ中毒(RSP)は、従来の宣伝感染で要求される継続的なウェブサイト妥協の負担を回避しつつ、高位のウェブサイトの評判を解放し、不正なプロモーションテキスト(IPT)による検索エンジンを効率的かつステルス的に汚染することを可能にする。 しかし、RSPのセキュリティへの影響についてはほとんど分かっていない。例えば、不正なプロモーションキャンペーンがRSPによって配布されているか、また、通常の検索ユーザーがRSPによって配布された不正なプロモーションテキストにどの程度の頻度で露出できるかである。 本研究では,RSPをベースとした不正プロモーションに関する最初のセキュリティ研究を行い,ICPの取得,解析,侵入を行うエンドツーエンドの手法を用いて実現した。 その結果、RSPを介して配布されるIPTは大規模で、継続的に成長し、違法なカテゴリーと自然言語の両方で多様であることが判明した。 特に、麻薬取引、データ盗難、偽造品、ハッキングサービスなど、14の違法カテゴリーに属する1100万以上のICTを特定しました。 また、基礎となるRSPのケースは、数万もの上位サイトを悪用し、また、私たちが調査した4つの人気検索エンジン、特にGoogle SearchとBingを広範囲に悪用している。 さらに, 良質な検索ユーザが, ある程度のIPTに曝されていることが確認された。 潜在的な顧客(被害者検索ユーザー)との対話を容易にするため、不一致者はIPT、特にインスタントメッセージアカウントに様々な種類の連絡先を埋め込む傾向がある。 これらのICTコンタクトのさらなる浸潤は、根底にある不正なキャンペーンが大規模に行われていることを明らかにしている。 これらの知見は、ICPとRSPの負のセキュリティへの影響を強調しており、RSPによる違法なプロモーションを緩和するためのさらなる努力を求めている。

As an emerging black hat search engine optimization (SEO) technique, reflected search poisoning (RSP) allows a miscreant to free-ride the reputation of high-ranking websites, poisoning search engines with illicit promotion texts (IPTs) in an efficient and stealthy manner, while avoiding the burden of continuous website compromise as required by traditional promotion infections. However, little is known about the security implications of RSP, e.g., what illicit promotion campaigns are being distributed by RSP, and to what extent regular search users can be exposed to illicit promotion texts distributed by RSP. In this study, we conduct the first security study on RSP-based illicit promotion, which is made possible through an end-to-end methodology for capturing, analyzing, and infiltrating IPTs. As a result, IPTs distributed via RSP are found to be large-scale, continuously growing, and diverse in both illicit categories and natural languages. Particularly, we have identified over 11 million distinct IPTs belonging to 14 different illicit categories, with typical examples including drug trading, data theft, counterfeit goods, and hacking services. Also, the underlying RSP cases have abused tens of thousands of high-ranking websites, as well as extensively poisoning all four popular search engines we studied, especially Google Search and Bing. Furthermore, it is observed that benign search users are being exposed to IPTs at a concerning extent. To facilitate interaction with potential customers (victim search users), miscreants tend to embed various types of contacts in IPTs, especially instant messaging accounts. Further infiltration of these IPT contacts reveals that the underlying illicit campaigns are operated on a large scale. All these findings highlight the negative security implications of IPTs and RSPs, and thus call for more efforts to mitigate RSP-driven illicit promotion.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# T-DEED:スポーツビデオにおける精密イベントスポッティングのための時間識別エンコーダデコーダ

T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos ( http://arxiv.org/abs/2404.05392v2 )

ライセンス: Link先を確認
Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés, (参考訳) 本稿では,スポーツビデオにおける精密イベントスポッティングのためのテンポラル識別エンハンサエンコーダ・デコーダであるT-DEEDを紹介する。 T-DEEDは、フレーム表現間の識別可能性の必要性、予測精度を維持するための高出力時間分解能、様々な時間スケールで情報をキャプチャして様々な動的イベントを扱う必要性など、タスクにおける複数の課題に対処する。 複数の時間スケールを活用して高出力の時間分解能を実現するエンコーダデコーダと、トークン識別性を高めるために設計された時間モジュールを備える。 これらの特徴を活用して、T-DEEDはFinalSkatingおよびFineDivingデータセット上でSOTAのパフォーマンスを達成する。 コードはhttps://github.com/arturxe2/T-DEEDで公開されている。

In this paper, we introduce T-DEED, a Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in sports videos. T-DEED addresses multiple challenges in the task, including the need for discriminability among frame representations, high output temporal resolution to maintain prediction precision, and the necessity to capture information at different temporal scales to handle events with varying dynamics. It tackles these challenges through its specifically designed architecture, featuring an encoder-decoder for leveraging multiple temporal scales and achieving high output temporal resolution, along with temporal modules designed to increase token discriminability. Leveraging these characteristics, T-DEED achieves SOTA performance on the FigureSkating and FineDiving datasets. Code is available at https://github.com/arturxe2/T-DEED.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# テスト時間ゼロショット時間行動定位

Test-Time Zero-Shot Temporal Action Localization ( http://arxiv.org/abs/2404.05426v2 )

ライセンス: Link先を確認
Benedetta Liberatori, Alessandro Conti, Paolo Rota, Yiming Wang, Elisa Ricci, (参考訳) Zero-Shot Temporal Action Localization (ZS-TAL)は、トレーニング中に見つからないビデオのアクションを特定し、見つけようとしている。 既存のZS-TAL法では、大量の注釈付きトレーニングデータに基づいてモデルを微調整する。 トレーニングベースのZS-TALアプローチでは、教師付き学習のためのラベル付きデータの可用性を前提としている。 さらに、トレーニングプロセスは学習モデルのドメインバイアスを自然に誘導し、任意のビデオに対するモデルの一般化能力に悪影響を及ぼす可能性がある。 これらの考察は、ZS-TAL問題に根本的に新しい視点からアプローチし、トレーニングデータの要求を緩和することを促す。 そこで本研究では,時間的行動局所化(T3AL)のためのテスト時間適応を行う新しい手法を提案する。 簡単に言えば、T3ALは事前訓練されたビジョン・アンド・ランゲージ・モデル(VLM)を適用する。 T3ALは3段階に分かれている。 まず、アクションカテゴリの動画レベル擬似ラベルを、ビデオ全体からの情報を集約して算出する。 そして、自己教師付き学習にインスパイアされた新しい手順を取り入れてアクションローカライゼーションを行う。 最後に、動作領域の提案を洗練するために、最先端キャプションモデルで抽出されたフレームレベルのテキスト記述を用いる。 THUMOS14とActivityNet-v1.3データセットの実験を行い,T3ALの有効性を検証する。 以上の結果から,T3ALは最先端のVLMに基づいてゼロショットベースラインを著しく上回り,テスト時間適応手法の利点が確認された。

Zero-Shot Temporal Action Localization (ZS-TAL) seeks to identify and locate actions in untrimmed videos unseen during training. Existing ZS-TAL methods involve fine-tuning a model on a large amount of annotated training data. While effective, training-based ZS-TAL approaches assume the availability of labeled data for supervised learning, which can be impractical in some applications. Furthermore, the training process naturally induces a domain bias into the learned model, which may adversely affect the model's generalization ability to arbitrary videos. These considerations prompt us to approach the ZS-TAL problem from a radically novel perspective, relaxing the requirement for training data. To this aim, we introduce a novel method that performs Test-Time adaptation for Temporal Action Localization (T3AL). In a nutshell, T3AL adapts a pre-trained Vision and Language Model (VLM). T3AL operates in three steps. First, a video-level pseudo-label of the action category is computed by aggregating information from the entire video. Then, action localization is performed adopting a novel procedure inspired by self-supervised learning. Finally, frame-level textual descriptions extracted with a state-of-the-art captioning model are employed for refining the action region proposals. We validate the effectiveness of T3AL by conducting experiments on the THUMOS14 and the ActivityNet-v1.3 datasets. Our results demonstrate that T3AL significantly outperforms zero-shot baselines based on state-of-the-art VLMs, confirming the benefit of a test-time adaptation approach.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# RoT: 検索ツリーのリフレクションによる大規模言語モデルの強化

RoT: Enhancing Large Language Models with Reflection on Search Trees ( http://arxiv.org/abs/2404.05449v2 )

ライセンス: Link先を確認
Wenyang Hui, Chengyue Jiang, Yan Wang, Kewei Tu, (参考訳) 大規模言語モデル(LLM)は、木探索に基づくプロンプト手法と統合された場合、推論と計画において印象的な能力を示す。 しかし,これらの手法は過去の検索体験を無視するので,検索プロセスではしばしば同じ誤りを犯す。 この問題を解決するために,木探索によるプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)を導入する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本ガイドラインは, 木探索による課題解決の指針であり, 過去の探索プロセスにおいて, 弱いLLMが同様のミスを犯すのを防ぐ。 さらに我々は,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択手法を提案する。 広範囲にわたる実験の結果,RoT は様々な木探索手法(BFS や MCTS など)を用いた推論や計画作業において LLM の性能を著しく向上させることがわかった。 Chain-of-Thought(CoT)のような非ツリー検索ベースのプロンプト手法は、RoTが検索エクスペリエンスから収集したタスク固有の知識を提供することができるため、RoTガイドラインの恩恵を受けることができる。

Large language models (LLMs) have demonstrated impressive capability in reasoning and planning when integrated with tree-search-based prompting methods. However, since these methods ignore the previous search experiences, they often make the same mistakes in the search process. To address this issue, we introduce Reflection on search Trees (RoT), an LLM reflection framework designed to improve the performance of tree-search-based prompting methods. It uses a strong LLM to summarize guidelines from previous tree search experiences to enhance the ability of a weak LLM. The guidelines are instructions about solving this task through tree search which can prevent the weak LLMs from making similar mistakes in the past search process. In addition, we proposed a novel state selection method, which identifies the critical information from historical search processes to help RoT generate more specific and meaningful guidelines. In our extensive experiments, we find that RoT significantly improves the performance of LLMs in reasoning or planning tasks with various tree-search-based prompting methods (e.g., BFS and MCTS). Non-tree-search-based prompting methods such as Chain-of-Thought (CoT) can also benefit from RoT guidelines since RoT can provide task-specific knowledge collected from the search experience.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# インコンテキスト学習によるセルフリーマルチユーザMIMO等化

Cell-Free Multi-User MIMO Equalization via In-Context Learning ( http://arxiv.org/abs/2404.05538v2 )

ライセンス: Link先を確認
Matteo Zecchin, Kai Yu, Osvaldo Simeone, (参考訳) トランスフォーマーのような大規模な事前訓練されたシーケンスモデルは、インコンテキスト学習(ICL)が可能な少数ショット学習者として優れている。 ICLでは、モデルがその操作を限られた文脈情報に基づいて新しいタスクに適応するように訓練される。 これまで、シングルユーザマルチインプットおよびマルチアウトプット(MIMO)システムにおいて、チャネル等化のためのICLの使用について検討してきた。 本研究では, セルフリーMIMOシステムにおいて, フロントホール容量に制限のあるマルチユーザ等化の問題に対して, ICLを適用できることを実証する。 このシナリオでは、タスクはチャネル統計、信号対雑音比、変調スキームによって定義される。 コンテキストは、ユーザのパイロットシーケンス、対応する量子化された受信信号、および現在の受信データ信号を含む。 大規模フェード情報や変調情報も含む様々な設計戦略が提案され評価されている。 ICLに基づく等化実験により, 線形最小二乗誤差等化器と比較して平均二乗誤差が低い推定値が得られた。

Large pre-trained sequence models, such as transformers, excel as few-shot learners capable of in-context learning (ICL). In ICL, a model is trained to adapt its operation to a new task based on limited contextual information, typically in the form of a few training examples for the given task. Previous work has explored the use of ICL for channel equalization in single-user multi-input and multiple-output (MIMO) systems. In this work, we demonstrate that ICL can be also used to tackle the problem of multi-user equalization in cell-free MIMO systems with limited fronthaul capacity. In this scenario, a task is defined by channel statistics, signal-to-noise ratio, and modulation schemes. The context encompasses the users' pilot sequences, the corresponding quantized received signals, and the current received data signal. Different prompt design strategies are proposed and evaluated that encompass also large-scale fading and modulation information. Experiments demonstrate that ICL-based equalization provides estimates with lower mean squared error as compared to the linear minimum mean squared error equalizer, especially in the presence of limited fronthaul capacity and pilot contamination.
翻訳日:2024-04-12 17:56:32 公開日:2024-04-11
# デジタルセーフガードの強化 - ブレンディング暗号とステガノグラフィ

Boosting Digital Safeguards: Blending Cryptography and Steganography ( http://arxiv.org/abs/2404.05985v2 )

ライセンス: Link先を確認
Anamitra Maiti, Subham Laha, Rishav Upadhaya, Soumyajit Biswas, Vikas Chaudhary, Biplab Kar, Nikhil Kumar, Jaydip Sen, (参考訳) 今日のデジタル時代には、インターネットはコミュニケーションや情報の共有に不可欠であり、不正なアクセスやエクスプロイトを防ぐために高度なデータセキュリティ対策が不可欠である。 暗号化は、暗号化されていない読者には理解できない暗号テキストにメッセージを暗号化し、送信中のデータの保護を行う。 一方、ステガノグラフィーはギリシャ語の"covered writing"に由来するもので、他の媒体にデータを隠蔽する技術によって、メッセージを目に見えないようにすることで秘密のコミュニケーションを促進する。 提案手法は人工知能(AI)とディープラーニング(DL)の最新の進歩を利用しており、特にGAN(Generative Adversarial Networks)の適用により従来のステガノグラフィー手法を改善している。 暗号化されたデータを他の媒体に埋め込むことで、その通信がプリーニングの目から隠されていることを保証する。 GANの応用により、ニューラルネットワーク固有の感度を利用してデータの微妙な変更を可能にし、検出に対する保護を強化する、スマートでセキュアなシステムが可能になる。 暗号の暗号化技術をステガノグラフィーの隠蔽能力と組み合わせ、AIの強みと組み合わせることで、情報のプライバシと整合性の両方を維持するように設計された包括的なセキュリティシステムを導入する。 このシステムは、不正アクセスやデータの修正を防止するだけでなく、データの存在を隠蔽するためにも作られている。 この技術の融合は、オープンデジタル通信の時代におけるデータセキュリティのコア課題に取り組み、情報セキュリティの展望を変える可能性のある高度なソリューションを提示している。

In today's digital age, the internet is essential for communication and the sharing of information, creating a critical need for sophisticated data security measures to prevent unauthorized access and exploitation. Cryptography encrypts messages into a cipher text that is incomprehensible to unauthorized readers, thus safeguarding data during its transmission. Steganography, on the other hand, originates from the Greek term for "covered writing" and involves the art of hiding data within another medium, thereby facilitating covert communication by making the message invisible. This proposed approach takes advantage of the latest advancements in Artificial Intelligence (AI) and Deep Learning (DL), especially through the application of Generative Adversarial Networks (GANs), to improve upon traditional steganographic methods. By embedding encrypted data within another medium, our method ensures that the communication remains hidden from prying eyes. The application of GANs enables a smart, secure system that utilizes the inherent sensitivity of neural networks to slight alterations in data, enhancing the protection against detection. By merging the encryption techniques of cryptography with the hiding capabilities of steganography, and augmenting these with the strengths of AI, we introduce a comprehensive security system designed to maintain both the privacy and integrity of information. This system is crafted not just to prevent unauthorized access or modification of data, but also to keep the existence of the data hidden. This fusion of technologies tackles the core challenges of data security in the current era of open digital communication, presenting an advanced solution with the potential to transform the landscape of information security.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# プロンプトエンジニアリングのためのプライバシ保護 - 調査より

Privacy Preserving Prompt Engineering: A Survey ( http://arxiv.org/abs/2404.06001v2 )

ライセンス: Link先を確認
Kennedy Edemacu, Xintao Wu, (参考訳) 事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。 研究者はこれらのモデルの性能とサイズの間に直接的な相関を観測している。 その結果、これらのモデルのサイズは近年顕著に拡大しており、研究者はより大きなPLMを特徴付けるために「大規模言語モデル」(LLM)という用語を採用することを説得している。 サイズ拡大は、インコンテキスト学習(ICL)と呼ばれる、特別なプロンプト形式を表現し、モデルパラメータを変更することなく、実演例を提示することで、モデルを活用できるようにする機能を備えている。 興味深いことに、プライバシーに関する懸念は、広く使われている中で大きな障害となっている。 複数の研究がICLに関連するプライバシーリスクを調査し、これらのリスクを緩和するためのテクニックを考案した。 したがって、コミュニティの利益のためにこれらの緩和手法を組織化する必要がある。 本調査は、ICLにおけるプライバシ保護手法の体系的概要と、一般の関心を喚起するものである。 このパラダイムの下で異なる手法をレビューし、分析し、比較する。 さらに,これらのフレームワークの開発に利用可能なリソースについて概説する。 最後に,これらのフレームワークの限界について考察し,さらなる探索を必要とする将来性のある領域について詳細に検討する。

Pre-trained language models (PLMs) have demonstrated significant proficiency in solving a wide range of general natural language processing (NLP) tasks. Researchers have observed a direct correlation between the performance of these models and their sizes. As a result, the sizes of these models have notably expanded in recent years, persuading researchers to adopt the term large language models (LLMs) to characterize the larger-sized PLMs. The size expansion comes with a distinct capability called in-context learning (ICL), which represents a special form of prompting and allows the models to be utilized through the presentation of demonstration examples without modifications to the model parameters. Although interesting, privacy concerns have become a major obstacle in its widespread usage. Multiple studies have examined the privacy risks linked to ICL and prompting in general, and have devised techniques to alleviate these risks. Thus, there is a necessity to organize these mitigation techniques for the benefit of the community. This survey provides a systematic overview of the privacy protection methods employed during ICL and prompting in general. We review, analyze, and compare different methods under this paradigm. Furthermore, we provide a summary of the resources accessible for the development of these frameworks. Finally, we discuss the limitations of these frameworks and offer a detailed examination of the promising areas that necessitate further exploration.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# 半教師型医用画像セグメンテーションのための不確かさを意識した情報融合型学習

Uncertainty-aware Evidential Fusion-based Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.06177v2 )

ライセンス: Link先を確認
Yuanpeng He, Lijian Li, (参考訳) 既存の不確実性に基づく半教師付き医療セグメンテーション法は優れた性能を達成しているが、彼らは通常は単一の不確実性評価しか考慮していない。 そこで,本研究では, 従来のエビデンス理論における確率割当融合則の不確実な情報を強調することにより, 各ボクセルの信頼度と不確実性度を再配置するために, 混合試料と原試料の交叉領域における明らかな予測結果を統合した。 さらに,情報エントロピーを導入し,融合した不確実性指標と組み合わせ,より正確にボクセル予測を推定することで,ボクセルレベルの漸近学習戦略を設計する。 モデルは、学習過程における高い不確実性を伴う予測結果に徐々に注意を払って、習得が難しい特徴を学習する。 LA, Pancreas-CT, ACDC, TBADデータセットを用いた実験結果は, 既存の最先端技術と比較して, 提案手法の優れた性能を示した。

Although the existing uncertainty-based semi-supervised medical segmentation methods have achieved excellent performance, they usually only consider a single uncertainty evaluation, which often fails to solve the problem related to credibility completely. Therefore, based on the framework of evidential deep learning, this paper integrates the evidential predictive results in the cross-region of mixed and original samples to reallocate the confidence degree and uncertainty measure of each voxel, which is realized by emphasizing uncertain information of probability assignments fusion rule of traditional evidence theory. Furthermore, we design a voxel-level asymptotic learning strategy by introducing information entropy to combine with the fused uncertainty measure to estimate voxel prediction more precisely. The model will gradually pay attention to the prediction results with high uncertainty in the learning process, to learn the features that are difficult to master. The experimental results on LA, Pancreas-CT, ACDC and TBAD datasets demonstrate the superior performance of our proposed method in comparison with the existing state of the arts.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# 敵対的訓練と最近近傍分類器について

On adversarial training and the 1 Nearest Neighbor classifier ( http://arxiv.org/abs/2404.06313v2 )

ライセンス: Link先を確認
Amir Hagai, Yair Weiss, (参考訳) 入力の摂動が小さい深層学習分類器を騙す能力は、学習例に加えて、敵の例に対する損失を最小限に抑える敵の訓練の開発につながる。 逆行訓練は学習した分類器の堅牢性を改善するが、この手順は計算コストが高く、ハイパーパラメータに敏感であり、いまだに他の種類の小さな摂動に弱い分類器を残している可能性がある。 本稿では,1 NNN(Nearest Neighbor)分類器の対向ロバスト性を解析し,その性能を対向トレーニングと比較する。 妥当な仮定の下では、1 NN分類器はトレーニング画像の小さな画像摂動に頑健であり、トレーニング例の数が無限に近づくにつれて、テスト画像に対して高い逆の精度が得られることを証明している。 CIFAR10から抽出した45種類のバイナリ画像分類問題を用いた実験では、平均対角精度で1NNがTRADES(強力な対向訓練アルゴリズム)より優れていた。 CIFAR10のための69の事前訓練されたロバストモデルによる追加実験では、1NNはトレーニング中に見られたモデルとわずかに異なる摂動に対するロバスト性においてほぼすべてのモデルより優れていた。 この結果から, 現代の逆行訓練手法は, 単純な1NN分類器の頑健さに欠けていたことが示唆された。 私たちのコードはhttps://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifierで確認できます。

The ability to fool deep learning classifiers with tiny perturbations of the input has lead to the development of adversarial training in which the loss with respect to adversarial examples is minimized in addition to the training examples. While adversarial training improves the robustness of the learned classifiers, the procedure is computationally expensive, sensitive to hyperparameters and may still leave the classifier vulnerable to other types of small perturbations. In this paper we analyze the adversarial robustness of the 1 Nearest Neighbor (1NN) classifier and compare its performance to adversarial training. We prove that under reasonable assumptions, the 1 NN classifier will be robust to {\em any} small image perturbation of the training images and will give high adversarial accuracy on test images as the number of training examples goes to infinity. In experiments with 45 different binary image classification problems taken from CIFAR10, we find that 1NN outperform TRADES (a powerful adversarial training algorithm) in terms of average adversarial accuracy. In additional experiments with 69 pretrained robust models for CIFAR10, we find that 1NN outperforms almost all of them in terms of robustness to perturbations that are only slightly different from those seen during training. Taken together, our results suggest that modern adversarial training methods still fall short of the robustness of the simple 1NN classifier. our code can be found at https://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifier
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# HPNet: 歴史的予測を考慮した動的軌道予測

HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention ( http://arxiv.org/abs/2404.06351v2 )

ライセンス: Link先を確認
Xiaolong Tang, Meina Kan, Shiguang Shan, Zhilong Ji, Jinfeng Bai, Xilin Chen, (参考訳) 自動運転システムには,道路エージェントの軌道予測が不可欠である。 最近の主流手法は静的なパラダイムに従っており、過去のフレームの一定期間を用いて将来の軌跡を予測する。 これらの手法は、隣接する時間ステップでも独立して予測を行い、潜在的な不安定性と時間的不整合をもたらす。 連続した時間ステップは、主に歴史的フレームが重複しているため、予測された軌道の重なり合いは一貫性があるか、あるいは異なるが、道路状況に応じて同じ運動目標を共有するように、その予測は本質的な相関を持つべきである。 そこで本研究では,新しい動的軌道予測法HPNetを紹介する。 安定かつ正確な軌道予測を目指して,本手法は地図やエージェント状態を含む過去のフレームだけでなく,過去の予測も活用する。 具体的には、逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを新たに設計する。 さらに、歴史的予測の使用による現在の目に見える窓を越えて、注意範囲を拡大する。 The proposed Historical Prediction Attention with the Agent Attention and Mode Attention is further formulated as the Triple Factorized Attention module, served as the core design of HPNet. on the Argoverse and InterAction datasets shows that HPNet achieves state-of-the-art performance and generated accurate and stable future trajectories。 私たちのコードはhttps://github.com/XiaolongTang23/HPNetで公開されています。

Predicting the trajectories of road agents is essential for autonomous driving systems. The recent mainstream methods follow a static paradigm, which predicts the future trajectory by using a fixed duration of historical frames. These methods make the predictions independently even at adjacent time steps, which leads to potential instability and temporal inconsistency. As successive time steps have largely overlapping historical frames, their forecasting should have intrinsic correlation, such as overlapping predicted trajectories should be consistent, or be different but share the same motion goal depending on the road situation. Motivated by this, in this work, we introduce HPNet, a novel dynamic trajectory forecasting method. Aiming for stable and accurate trajectory forecasting, our method leverages not only historical frames including maps and agent states, but also historical predictions. Specifically, we newly design a Historical Prediction Attention module to automatically encode the dynamic relationship between successive predictions. Besides, it also extends the attention range beyond the currently visible window benefitting from the use of historical predictions. The proposed Historical Prediction Attention together with the Agent Attention and Mode Attention is further formulated as the Triple Factorized Attention module, serving as the core design of HPNet.Experiments on the Argoverse and INTERACTION datasets show that HPNet achieves state-of-the-art performance, and generates accurate and stable future trajectories. Our code are available at https://github.com/XiaolongTang23/HPNet.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# 薄膜ニオブ酸リチウムの集積電子光学

Integrated electro-optics on thin-film lithium niobate ( http://arxiv.org/abs/2404.06398v2 )

ライセンス: Link先を確認
Yaowen Hu, Di Zhu, Shengyuan Lu, Xinrui Zhu, Yunxiang Song, Dylan Renaud, Daniel Assumpcao, Rebecca Cheng, CJ Xin, Matthew Yeh, Hana Warner, Xiangwen Guo, Amirhassan Shams-Ansari, David Barton, Neil Sinclair, Marko Loncar, (参考訳) 電子光学は電子工学とフォトニクスの間の重要な橋として機能し、通信やコンピューティング、センシング、量子情報など幅広い応用を解き放つ。 特に集積電気光学のアプローチは、電子工学に相当なフォトニック並列性を提供しながら、フォトニックに必須の電子的高速制御を可能にする。 薄膜ニオブ酸リチウムフォトニクスの最近の進歩は、エレクトロ光学の革命的な進歩をもたらした。 この技術は、必要な強度の電気光学結合を提供するだけでなく、超低光損失と高マイクロ波帯域も備えている。 さらに、ナノファブリケーションとの密接な閉じ込めと互換性により、前例のない再構成性とスケーラビリティが実現し、かつてバルクシステムでは不可能だった新しい複雑なデバイスやシステムの開発が容易になった。 このプラットフォーム上に構築されたこの分野は、現在の最先端を越え、これまで存在しなかった機能を導入し、様々な画期的な電気光学デバイスが出現するのを目撃している。 この技術進歩は、フォトニック非エルミート合成次元、アクティブトポロジカル物理学、量子電気光学など、物理学の様々な領域を探索するためのユニークな枠組みを提供する。 本稿では,電気光学の基本原理を概説し,基礎科学と技術の最前線のつながりを描き出す。 薄膜ニオブ酸リチウムプラットフォームで実現した集積型電子光学の成果と将来展望について論じる。

Electro-optics serves as the crucial bridge between electronics and photonics, unlocking a wide array of applications ranging from communications and computing to sensing and quantum information. Integrated electro-optics approaches in particular enable essential electronic high-speed control for photonics while offering substantial photonic parallelism for electronics. Recent strides in thin-film lithium niobate photonics have ushered revolutionary advancements in electro-optics. This technology not only offers the requisite strong electro-optic coupling but also boasts ultra-low optical loss and high microwave bandwidth. Further, its tight confinement and compatibility with nanofabrication allow for unprecedented reconfigurability and scalability, facilitating the creation of novel and intricate devices and systems that were once deemed nearly impossible in bulk systems. Building upon this platform, the field has witnessed the emergence of various groundbreaking electro-optic devices surpassing the current state of the art, and introducing functionalities that were previously non-existent. This technological leap forward provides a unique framework to explore various realms of physics as well, including photonic non-Hermitian synthetic dimensions, active topological physics, and quantum electro-optics. In this review, we present the fundamental principles of electro-optics, drawing connections between fundamental science and the forefront of technology. We discuss the accomplishments and future prospects of integrated electro-optics, enabled by thin-film lithium niobate platform.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# Wuの手法はシンボルAIを銀メダリストに、AlphaGeometryはIMO Geometryで金メダリストに勝る

Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry ( http://arxiv.org/abs/2404.06405v2 )

ライセンス: Link先を確認
Shiven Sinha, Ameya Prabhu, Ponnurangam Kumaraguru, Siddharth Bhat, Matthias Bethge, (参考訳) 幾何学的定理を証明することは、直感的および論理的スキルを兼ね備えた視覚的推論の目印となる。 したがって、オリンピアドレベルの幾何学問題を証明した自動定理は、人間レベルの自動推論において顕著なマイルストーンであると考えられている。 1億の合成サンプルで訓練されたニューロシンボリックモデルであるAlphaGeometryの導入は、大きなブレークスルーとなった。 IMO(International Mathematical Olympiad)問題30件のうち25件を解決したが、Wu法に基づく報告ベースラインは10件に過ぎなかった。 本稿では,AlphaGeometry で導入された IMO-AG-30 Challenge を再検討し,Wu の手法が驚くほど強いことを示す。 ウーの方法だけでは15の問題を解くことができ、そのうちのいくつかは他の方法では解けない。 これは2つの重要な発見につながります。 (i)CPUのみのラップトップを1時間5分に制限しただけで30の手法のうち21の手法をWu法と古典的なデダクティブデータベース、角度、距離追尾法を組み合わせることで解決する。 基本的には、この古典的な手法はAlphaGeometryより4つの問題を解くだけで、IMO銀メダリストのパフォーマンスに匹敵するほどに、最初の完全に象徴的なベースラインを確立する。 (ii)Wuの手法は、AlphaGeometryが解けなかった5つの問題のうち2つを解く。 したがって、AlphaGeometry と Wu の手法を組み合わせることで、IMO-AG-30 で証明された自動定理の最先端を新たに設定し、30 問題のうち27 を解き、IMO ゴールドメダリストを上回った最初のAI手法である。

Proving geometric theorems constitutes a hallmark of visual reasoning combining both intuitive and logical skills. Therefore, automated theorem proving of Olympiad-level geometry problems is considered a notable milestone in human-level automated reasoning. The introduction of AlphaGeometry, a neuro-symbolic model trained with 100 million synthetic samples, marked a major breakthrough. It solved 25 of 30 International Mathematical Olympiad (IMO) problems whereas the reported baseline based on Wu's method solved only ten. In this note, we revisit the IMO-AG-30 Challenge introduced with AlphaGeometry, and find that Wu's method is surprisingly strong. Wu's method alone can solve 15 problems, and some of them are not solved by any of the other methods. This leads to two key findings: (i) Combining Wu's method with the classic synthetic methods of deductive databases and angle, ratio, and distance chasing solves 21 out of 30 methods by just using a CPU-only laptop with a time limit of 5 minutes per problem. Essentially, this classic method solves just 4 problems less than AlphaGeometry and establishes the first fully symbolic baseline strong enough to rival the performance of an IMO silver medalist. (ii) Wu's method even solves 2 of the 5 problems that AlphaGeometry failed to solve. Thus, by combining AlphaGeometry with Wu's method we set a new state-of-the-art for automated theorem proving on IMO-AG-30, solving 27 out of 30 problems, the first AI method which outperforms an IMO gold medalist.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# MambaAD:マルチクラスの教師なし異常検出のための状態空間モデル

MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2404.06564v2 )

ライセンス: Link先を確認
Haoyang He, Yuhu Bai, Jiangning Zhang, Qingdong He, Hongxu Chen, Zhenye Gan, Chengjie Wang, Xiangtai Li, Guanzhong Tian, Lei Xie, (参考訳) 異常検出の最近の進歩は、CNNおよびトランスフォーマーに基づくアプローチの有効性を見出した。 しかし、CNNは長距離依存に苦しむ一方、トランスフォーマーは二次計算の複雑さに悩まされている。 より優れた長距離モデリングと線形効率を備えたマンバベースのモデルは、大きな注目を集めている。 本研究は,マルチスケールで (ローカリティ拡張状態空間) LSS モジュールを特徴とする (Locality-Enhanced State Space) エンコーダと Mamba decoder から構成される MambaAD を提示する。 提案したLSSモジュールは、並列カスケード(Hybrid State Space)HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。 HSSブロックは(Hybrid Scanning)HSエンコーダを利用し、特徴マップを5つの走査方法と8つの方向にエンコードすることで、(ステートスペースモデル)SSMによるグローバル接続を強化する。 Hilbertスキャニングと8方向の使用により、特徴系列モデリングが大幅に改善される。 6つの多様な異常検出データセットと7つのメトリクスに関する総合的な実験は、その手法の有効性を実証している。

Recent advancements in anomaly detection have seen the efficacy of CNN- and transformer-based approaches. However, CNNs struggle with long-range dependencies, while transformers are burdened by quadratic computational complexity. Mamba-based models, with their superior long-range modeling and linear efficiency, have garnered substantial attention. This study pioneers the application of Mamba to multi-class unsupervised anomaly detection, presenting MambaAD, which consists of a pre-trained encoder and a Mamba decoder featuring (Locality-Enhanced State Space) LSS modules at multi-scales. The proposed LSS module, integrating parallel cascaded (Hybrid State Space) HSS blocks and multi-kernel convolutions operations, effectively captures both long-range and local information. The HSS block, utilizing (Hybrid Scanning) HS encoders, encodes feature maps into five scanning methods and eight directions, thereby strengthening global connections through the (State Space Model) SSM. The use of Hilbert scanning and eight directions significantly improves feature sequence modeling. Comprehensive experiments on six diverse anomaly detection datasets and seven metrics demonstrate state-of-the-art performance, substantiating the method's effectiveness.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-11
# グローバル対ローカル: 熱帯サイクロン強度推定のためのAlexNetアーキテクチャの評価

Global versus Local: Evaluating AlexNet Architectures for Tropical Cyclone Intensity Estimation ( http://arxiv.org/abs/2404.07395v1 )

ライセンス: Link先を確認
Vikas Dwivedi, (参考訳) 熱帯性サイクロンの破壊的影響を考えると、サイクロン強度検出のための信頼性の高いシステムを持つことが重要である。 この目的のために様々な技術が利用可能であり、それぞれ異なるレベルの精度を持つ。 本稿では、AlexNetアーキテクチャに基づく2つのアンサンブルモデルを導入し、可視衛星画像を用いた熱帯サイクロン強度を推定する。 データセット全体をトレーニングした最初のモデルは、グローバルAlexNetモデルと呼ばれる。 第2のモデルはAlexNetの分散バージョンであり、複数のAlexNetは、測定者によって規定されたSaffir-Simpson風速尺度に従って分類されたトレーニングデータのサブセットで個別に訓練される。 両モデルの性能を,公開サイクロン画像データセットを用いたディープラーニングベンチマークモデルである「textit{Deepti}」と比較した。 結果は、グローバルモデル(ルート平均二乗誤差9.03ノット)と分散モデル(RMSE9.3ノット)がベンチマークモデル(RMSE13.62ノット)を上回っていることを示している。 我々は、勾配クラスアクティベーションマップ(grad-CAM)を用いたAlexNetの性能の説明を含む、ソリューションアプローチの徹底的な議論を行う。 提案手法は,シングルチャネルとマルチチャネルの両方で,様々なディープラーニングモデルによる将来の実験を可能にする。

Given the destructive impacts of tropical cyclones, it is critical to have a reliable system for cyclone intensity detection. Various techniques are available for this purpose, each with differing levels of accuracy. In this paper, we introduce two ensemble-based models based on AlexNet architecture to estimate tropical cyclone intensity using visible satellite images. The first model, trained on the entire dataset, is called the global AlexNet model. The second model is a distributed version of AlexNet in which multiple AlexNets are trained separately on subsets of the training data categorized according to the Saffir-Simpson wind speed scale prescribed by the meterologists. We evaluated the performance of both models against a deep learning benchmark model called \textit{Deepti} using a publicly available cyclone image dataset. Results indicate that both the global model (with a root mean square error (RMSE) of 9.03 knots) and the distributed model (with a RMSE of 9.3 knots) outperform the benchmark model (with a RMSE of 13.62 knots). We provide a thorough discussion of our solution approach, including an explanantion of the AlexNet's performance using gradient class activation maps (grad-CAM). Our proposed solution strategy allows future experimentation with various deep learning models in both single and multi-channel settings.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-11
# 未来を予言するChatGPT

ChatGPT Can Predict the Future when it Tells Stories Set in the Future About the Past ( http://arxiv.org/abs/2404.07396v1 )

ライセンス: Link先を確認
Van Pham, Scott Cunningham, (参考訳) 本研究は,OpenAIのChatGPT-3.5とChatGPT-4が,2つの異なるプロンプト戦略を用いて,将来の事象を正確に予測できるかどうかを検討する。 予測の精度を評価するため,2021年9月に実験中のトレーニングデータが停止した事実を利用して,ChatGPT-3.5とChatGPT-4を用いて2022年に起こった出来事を問う。 直接予測と,ChatGPTのトレーニングデータが収集された後,我々は,ChatGPTが将来設定した架空の物語を,それらに起きた出来事を共有するキャラクターで伝えることを依頼する,未来物語( future narratives)と呼ぶ2つのプロンプト戦略を採用した。 2022年のイベントに集中して、ChatGPTは特に経済状況の中でストーリーテリングに従事しました。 100個のプロンプトを解析した結果,将来の物語的プロンプトはChatGPT-4の予測精度を大幅に向上させることがわかった。 これはアカデミー賞の受賞者や経済トレンドの予測で特に顕著であり、後者は連邦準備制度理事会議長ジェローム・パウエルのような人物をモデルにしたシナリオから推測された。 これらの結果から,物語のプロンプトは幻覚的物語構築にモデルの能力を活用し,直接的な予測よりも効果的なデータ合成と外挿を促進することが示唆された。 本研究は,LLMの予測能力の新たな側面を明らかにし,解析的文脈における将来的な応用の可能性を提案する。

This study investigates whether OpenAI's ChatGPT-3.5 and ChatGPT-4 can accurately forecast future events using two distinct prompting strategies. To evaluate the accuracy of the predictions, we take advantage of the fact that the training data at the time of experiment stopped at September 2021, and ask about events that happened in 2022 using ChatGPT-3.5 and ChatGPT-4. We employed two prompting strategies: direct prediction and what we call future narratives which ask ChatGPT to tell fictional stories set in the future with characters that share events that have happened to them, but after ChatGPT's training data had been collected. Concentrating on events in 2022, we prompted ChatGPT to engage in storytelling, particularly within economic contexts. After analyzing 100 prompts, we discovered that future narrative prompts significantly enhanced ChatGPT-4's forecasting accuracy. This was especially evident in its predictions of major Academy Award winners as well as economic trends, the latter inferred from scenarios where the model impersonated public figures like the Federal Reserve Chair, Jerome Powell. These findings indicate that narrative prompts leverage the models' capacity for hallucinatory narrative construction, facilitating more effective data synthesis and extrapolation than straightforward predictions. Our research reveals new aspects of LLMs' predictive capabilities and suggests potential future applications in analytical contexts.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-11
# ストリートビュー画像と構造化データを用いたハリケーン後の建物被害評価:マルチモーダルディープラーニングアプローチ

Post-hurricane building damage assessment using street-view imagery and structured data: A multi-modal deep learning approach ( http://arxiv.org/abs/2404.07399v1 )

ライセンス: Link先を確認
Zhuoqun Xue, Xiaojian Zhang, David O. Prevatt, Jennifer Bridge, Susu Xu, Xilei Zhao, (参考訳) 建物の損傷の正確な評価は、災害対応と復旧に不可欠である。 しかし, 建物損傷検出モデルの多くは, ストリートビュー画像からの詳細な構造的, 包括的, 非構造的損傷を識別する能力に限界があるため, 予測精度が低い。 さらに、これらのモデルは主に損傷分類のための画像データに依存しており、風速、建築特性、避難区域、建物からハリケーン軌道までの距離といった他の重要な情報を考慮していない。 これらの制約に対処するため,本研究では,マルチモーダルスウィントランス (MMST) と呼ばれる,ハリケーン後の建物被害分類のための新しいマルチモーダル(画像と構造データ)アプローチを提案する。 フロリダ州の2022年ハリケーンIanから収集したデータを用いて,提案したMMSTを実験的に訓練し,評価した。 その結果、MMSTは選択された最先端ベンチマークモデルよりも優れており、精度は92.67%で、Visual Geometry Group 16 (VGG-16)と比較して7.71%向上している。 ストリートビュー画像データに加えて、建物価値、建築年代、風速が被害レベルの分類において最も重要な予測因子である。 提案したMMSTは,早期の被害評価を支援し,将来のハリケーンにおける偵察活動のガイドとして利用することができる。

Accurately assessing building damage is critical for disaster response and recovery. However, many existing models for detecting building damage have poor prediction accuracy due to their limited capabilities of identifying detailed, comprehensive structural and/or non-structural damage from the street-view image. Additionally, these models mainly rely on the imagery data for damage classification, failing to account for other critical information, such as wind speed, building characteristics, evacuation zones, and distance of the building to the hurricane track. To address these limitations, in this study, we propose a novel multi-modal (i.e., imagery and structured data) approach for post-hurricane building damage classification, named the Multi-Modal Swin Transformer (MMST). We empirically train and evaluate the proposed MMST using data collected from the 2022 Hurricane Ian in Florida, USA. Results show that MMST outperforms all selected state-of-the-art benchmark models and can achieve an accuracy of 92.67%, which are 7.71% improvement in accuracy compared to Visual Geometry Group 16 (VGG-16). In addition to the street-view imagery data, building value, building age, and wind speed are the most important predictors for damage level classification. The proposed MMST can be deployed to assist in rapid damage assessment and guide reconnaissance efforts in future hurricanes.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-11
# リモートセンシングにおけるオンデバイス推論のための2段階検出器の簡易化

Simplifying Two-Stage Detectors for On-Device Inference in Remote Sensing ( http://arxiv.org/abs/2404.07405v1 )

ライセンス: Link先を確認
Jaemin Kang, Hoeseok Yang, Hyungshin Kim, (参考訳) 深層学習はリモートセンシング画像からの物体検出に成功している。 画像は通常、地上システムの計算能力のため、地上ではなく地上で処理される。 このようなオフロード処理は、目標とするミッション情報を取得するのに遅延を引き起こし、リアルタイムのユースケースへの適用を妨げる。 デバイス上での物体検出のために、推論遅延を低減するために効率的な検出器やモデル圧縮を設計する研究がなされている。 しかし、高精度な2段検出器は加速のためのさらなる利用が必要である。 本稿では,2段階物体検出器のモデル簡易化手法を提案する。 一般的な特徴ピラミッドを構築する代わりに、我々は2段検出器の1つの特徴抽出しか利用しない。 精度低下を補うために、RPNのスコアマップにハイパスフィルタを適用する。 我々のアプローチは、特徴ピラミッドネットワークを用いた任意の2段階検出器に適用できる。 ReDet、Oriented-RCNN、LSKNetのような最先端の2段階検出器を用いた実験では、DOTAv1.5データセットで2.1%以内の精度で計算コストを61.2%まで削減した。 ソースコードはリリースされます。

Deep learning has been successfully applied to object detection from remotely sensed images. Images are typically processed on the ground rather than on-board due to the computation power of the ground system. Such offloaded processing causes delays in acquiring target mission information, which hinders its application to real-time use cases. For on-device object detection, researches have been conducted on designing efficient detectors or model compression to reduce inference latency. However, highly accurate two-stage detectors still need further exploitation for acceleration. In this paper, we propose a model simplification method for two-stage object detectors. Instead of constructing a general feature pyramid, we utilize only one feature extraction in the two-stage detector. To compensate for the accuracy drop, we apply a high pass filter to the RPN's score map. Our approach is applicable to any two-stage detector using a feature pyramid network. In the experiments with state-of-the-art two-stage detectors such as ReDet, Oriented-RCNN, and LSKNet, our method reduced computation costs upto 61.2% with the accuracy loss within 2.1% on the DOTAv1.5 dataset. Source code will be released.
翻訳日:2024-04-12 15:28:21 公開日:2024-04-11
# 変換不変多相サンプリングによる畳み込みニューラルネットワークのシフト不変性の改善

Improving Shift Invariance in Convolutional Neural Networks with Translation Invariant Polyphase Sampling ( http://arxiv.org/abs/2404.07410v1 )

ライセンス: Link先を確認
Sourajit Saha, Tejas Gokhale, (参考訳) ダウンサンプリング演算子は、畳み込みニューラルネットワーク(CNN)のシフト不変性を破り、小さなピクセルレベルのシフトを扱う際にも、CNNによって学習された機能の堅牢性に影響を与える。 大規模相関分析フレームワークを用いて,既存のダウンサンプリング演算子を最大サンプリングバイアス(MSB)で検証し,MSBがシフト不変性と負の相関関係があることを見出した。 この重要な知見に基づいて,翻訳不変多相サンプリング (TIPS) と呼ばれる学習可能なプーリング演算子とTIPSの中間特徴写像上の2つの正規化を提案し,MSBの削減と翻訳不変表現の学習を行う。 TIPSは任意のCNNに統合することができ、限界計算オーバーヘッドでエンドツーエンドにトレーニングすることができる。 画像分類とセマンティックセマンティックセグメンテーションのための複数のベンチマークにおいて, 精度, シフト整合性, シフト忠実度の観点からTIPSが一貫した性能向上をもたらすことを示すとともに, 対向的および分布的ロバスト性の向上をもたらすことを示した。 TIPSは従来の手法と比較してMSBが低い結果となり,強い経験結果が得られた。

Downsampling operators break the shift invariance of convolutional neural networks (CNNs) and this affects the robustness of features learned by CNNs when dealing with even small pixel-level shift. Through a large-scale correlation analysis framework, we study shift invariance of CNNs by inspecting existing downsampling operators in terms of their maximum-sampling bias (MSB), and find that MSB is negatively correlated with shift invariance. Based on this crucial insight, we propose a learnable pooling operator called Translation Invariant Polyphase Sampling (TIPS) and two regularizations on the intermediate feature maps of TIPS to reduce MSB and learn translation-invariant representations. TIPS can be integrated into any CNN and can be trained end-to-end with marginal computational overhead. Our experiments demonstrate that TIPS results in consistent performance gains in terms of accuracy, shift consistency, and shift fidelity on multiple benchmarks for image classification and semantic segmentation compared to previous methods and also leads to improvements in adversarial and distributional robustness. TIPS results in the lowest MSB compared to all previous methods, thus explaining our strong empirical results.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# JetMoE: 0.1MドルでLlama2のパフォーマンスを向上

JetMoE: Reaching Llama2 Performance with 0.1M Dollars ( http://arxiv.org/abs/2404.07413v1 )

ライセンス: Link先を確認
Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin, (参考訳) 大規模言語モデル(LLM)は目覚ましい成果を上げているが、その資源需要の増加は、強力でアクセスしやすい超人的知能の発展の大きな障害となっている。 このレポートでは、慎重に混合されたオープンソースのコーパスと30,000 H100 GPU時間から1.25Tトークンを使用して、0.1M未満でトレーニングされた新しいLLMであるJetMoE-8Bを紹介する。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 これらの結果から, LLMトレーニングは一般的に考えられているよりもはるかに費用対効果が高いことが示唆された。 JetMoE-8Bは、注意とフィードフォワードの専門家で構成された効率的なSmoEアーキテクチャに基づいている。 どちらの層もわずかに活性化され、JetMoE-8Bは入力トークンごとに2Bしか活性化せず、8Bパラメータを持つことができ、Llama2-7Bと比較して推論計算を約70%削減できる。 さらにJetMoE-8Bは、公開データセットとトレーニングコードのみを使用して、非常にオープンで、アカデミックフレンドリーである。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。 この透明性は、アクセス可能で効率的なLLM分野におけるコラボレーションとさらなる進歩を促進することを目的としている。 モデルウェイトはhttps://github.com/myshell-ai/JetMoE.comで公開されている。

Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 衝突マイクロ波ポンプによる高スピン偏極分子

Highly spin-polarized molecules via collisional microwave pumping ( http://arxiv.org/abs/2404.07416v1 )

ライセンス: Link先を確認
Rebekah Hermsmeier, Timur V. Tscherbul, (参考訳) そこで本研究では,まずコヒーレントマイクロ波励起により回転励起状態が蓄積され,その後,1つの最終スピン状態が出現する衝突クレンチングによりスピンフリップと緩和が可能である冷間スピン偏極分子の創出法を提案する。 我々は、ヘリウム原子の低温緩衝ガスに浸漬された$^{13}$C$^{16}$O分子に対して高い選択性を示し、1Kで核スピン分極の高次($95\%)を達成する。

We propose a general technique to produce cold spin-polarized molecules, in which rotationally excited states are first populated by coherent microwave excitation, and then allowed to spin-flip and relax via collisional quenching, which populates a single final spin state. We illustrate the high selectivity of the technique for $^{13}$C$^{16}$O molecules immersed in a cold buffer gas of helium atoms, achieving a high degree ($\geq$95\%) of nuclear spin polarization at 1 K.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 単一非線形結晶における相整合状態間の制御可能な遷移

Controllable transitions among phase-matching conditions in a single nonlinear crystal ( http://arxiv.org/abs/2404.07421v1 )

ライセンス: Link先を確認
Zi-Qi Zeng, Shi-Xin You, Zi-Xiang Yang, Chenzhi Yuan, Chenglong You, Rui-Bo Jin, (参考訳) 絡み合った光子対は、量子情報処理プロトコルにとって重要な資源である。 自然パラメトリックダウンコンバージョン(SPDC)のプロセスにより、バルク非線形結晶を用いてこれらの光子対を生成することができる。 伝統的に、結晶は特定の位相整合条件を満たすように設計されている。 ここでは, チタン酸カリウム (PPKTP) 単結晶における相整合の異なる相間の制御可能な遷移を報告する。 ポンプ条件を慎重に選択することで,異なる位相整合条件を満たすことができる。 これにより,第1次タイプII,第5次タイプI,第3次タイプ0,第5次タイプIISPDCの観測が可能となる。 光源の温度依存性スペクトルも詳細に分析した。 最後に, この結晶中のSPDCを9つ以上観察する可能性について検討した。 我々の研究は、位相マッチング条件の背後にある物理学の理解を深めるだけでなく、量子情報研究のための非常に多用途な2光子源の可能性も提供する。

Entangled photon pairs are crucial resources for quantum information processing protocols. Via the process of spontaneous parametric down-conversion (SPDC), we can generate these photon pairs using bulk nonlinear crystals. Traditionally, the crystal is designed to satisfy specific type of phase-matching condition. Here, we report controllable transitions among different types of phase-matching in a single periodically poled potassium titanyl phosphate (PPKTP) crystal. By carefully selecting pump conditions, we can satisfy different phase-matching conditions. This allows us to observe first-order type-II, fifth-order type-I, third-order type-0, and fifth-order type-II SPDCs. The temperature-dependent spectra of our source were also analyzed in detail. Finally, we discussed the possibility of observing more than nine SPDCs in this crystal. Our work not only deepens the understanding of the physics behind phase-matching conditions, but also offers the potential for a highly versatile entangled biphoton source for quantum information research.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# CopilotCAD:医療画像基盤モデルからレポート補完モデルと定量エビデンスを備えた放射線科医を育成する

CopilotCAD: Empowering Radiologists with Report Completion Models and Quantitative Evidence from Medical Image Foundation Models ( http://arxiv.org/abs/2404.07424v1 )

ライセンス: Link先を確認
Sheng Wang, Tianming Du, Katherine Fischer, Gregory E Tasian, Justin Ziemba, Joanie M Garratt, Hersh Sagreiya, Yong Fan, (参考訳) コンピュータ支援型診断システムは, 放射線医や臨床医に放射線治療を施し, 診断精度と効率を向上させることを約束している。 しかし、従来のシステムは、主にテキストレポート生成や医用画像分類による診断結果の提供に重点を置いており、支援者や放射線技師の専門知識を無視するよりも、独立した意思決定者として位置づけられている。 本研究では,Large Language Models (LLMs) と医療画像解析ツールを活用することで,放射線技師の補助的コパイロットシステムを構築するための革新的なパラダイムを紹介する。 具体的には,基礎モデルから生成したLCMと定量的な医用画像解析結果を統合するための協調的枠組みを構築し,放射線学レポートの効率的かつ安全な生成と,AIの計算能力と医療専門家の専門知識の有効活用を実現する。 このアプローチにより、放射線科医は、より正確で詳細な診断報告を作成でき、臨床医の燃え尽きを減らしながら、患者の成果を高めることができる。 我々の手法は、医学診断における支援ツールとしてのAIの可能性を強調し、放射線学の分野を前進させるために、技術と人間の専門知識の調和した統合を促進する。

Computer-aided diagnosis systems hold great promise to aid radiologists and clinicians in radiological clinical practice and enhance diagnostic accuracy and efficiency. However, the conventional systems primarily focus on delivering diagnostic results through text report generation or medical image classification, positioning them as standalone decision-makers rather than helpers and ignoring radiologists' expertise. This study introduces an innovative paradigm to create an assistive co-pilot system for empowering radiologists by leveraging Large Language Models (LLMs) and medical image analysis tools. Specifically, we develop a collaborative framework to integrate LLMs and quantitative medical image analysis results generated by foundation models with radiologists in the loop, achieving efficient and safe generation of radiology reports and effective utilization of computational power of AI and the expertise of medical professionals. This approach empowers radiologists to generate more precise and detailed diagnostic reports, enhancing patient outcomes while reducing the burnout of clinicians. Our methodology underscores the potential of AI as a supportive tool in medical diagnostics, promoting a harmonious integration of technology and human expertise to advance the field of radiology.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# セキュアなハードウェア生成のためのポリモルフィックスイッチボックスによるRTLインターコネクションの難読化

RTL Interconnect Obfuscation By Polymorphic Switch Boxes For Secure Hardware Generation ( http://arxiv.org/abs/2404.07426v1 )

ライセンス: Link先を確認
Haimanti Chakraborty, Ranga Vemuri, (参考訳) Logic Obfuscationは、IC(Integrated Circuit)を不正な使用や不正なオーバープロダクションから保護するために、設計をロックするキーゲートを含むことで有名である。 これは、信頼できないサードパーティファウンデーションで製造されたICが、セキュリティ上の脅威にさらされることに特に必要である。 過去には、ブール満足度攻撃のような攻撃に弱いいくつかの論理難読化手法が提案されている。 これらの技術の多くは、高価な再合成サイクルを含む可能性のあるゲートレベルで実装されている。 本稿では,多相トランジスタで構成されたスイッチボックス (SB) を用いたレジスタ・トランスファーレベル (RTL) における相互接続型難読化方式を提案する。 ポリモルフィックSBは、補体-金属-酸化物-半導体系と同一のトランジスタ数で設計できるため、面積が増加しないが、攻撃者が各ポリモルフィックSBを正しく識別してアンロックする鍵ビットの組み合わせがより多くなるという利点がある。 セキュリティを意識した高レベル合成アルゴリズムも提示され、複数の出力に影響を与える機能ユニットへのRTL相互接続が増加し、多型SBが戦略的に挿入された場合、それらの出力は不正なキービット識別によって破損する。 最後に, SMT (Satisfiability Modulo Theories) ベースの RTL Logic Attack を難解な設計で実行し, その堅牢性について検討する。

Logic Obfuscation is a well renowned design-for-trust solution to protect an Integrated Circuit (IC) from unauthorized use and illegal overproduction by including key-gates to lock the design. This is particularly necessary for ICs manufactured at untrusted third-party foundries getting exposed to security threats. In the past, several logic obfuscation methodologies have been proposed that are vulnerable to attacks such as the Boolean Satisfiability Attack. Many of these techniques are implemented at the gate level that may involve expensive re-synthesis cycles. In this paper, we present an interconnect obfuscation scheme at the Register-Transfer Level (RTL) using Switch Boxes (SBs) constructed of Polymorphic Transistors. A polymorphic SB can be designed using the same transistor count as its Complementary-Metal-Oxide-Semiconductor based counterpart, thereby no increased area in comparison, but serving as an advantage in having more key-bit combinations for an attacker to correctly identify and unlock each polymorphic SB. Security-aware high-level synthesis algorithms have also been presented to increase RTL interconnects to Functional Units impacting multiple outputs such that when a polymorphic SB is strategically inserted, those outputs would be corrupted upon incorrect key-bit identification. Finally, we run the SMT (Satisfiability Modulo Theories)-based RTL Logic Attack on the obfuscated design to examine its robustness.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# ダイバーシティのダブルエッジソード:遠隔ペアプログラミングにおけるレースの効果の分析

Diversity's Double-Edged Sword: Analyzing Race's Effect on Remote Pair Programming Interactions ( http://arxiv.org/abs/2404.07427v1 )

ライセンス: Link先を確認
Shandler A. Mason, Sandeep Kaur Kuttal, (参考訳) リモートペアプログラミングはソフトウェア開発で広く使われているが、これらの相互作用に人種がどのように影響するかは研究されていない。 この調査は、テック業界における黒人開発者を代表する歴史的背景から始められ、白人開発者が多数を占めています。 調査では、経験豊富な開発者24名を対象に、男女バランスの取れた同種と混血のペア12名について検討した。 ペアはシンクアロイドメソッドを使用してプログラミングタスクに協力し、その後、個別のレトロスペクティブインタビューを行った。 その結果, 混合競合ペアの生産性は向上し, 同一競合ペアと混合競合ペアのコード品質に差は認められなかった。 混合トレースペアは、タスク分散、共有意思決定、ロール交換に優れていたが、コミュニケーション上の課題、不快感、不安に遭遇し、多様性のダイナミクスの複雑さに光を当てた。 我々の研究は、リモートペアプログラミングに対する人種の影響を強調し、コラボレーションの人種的格差に対処するための多様なツールや方法の必要性を浮き彫りにしている。

Remote pair programming is widely used in software development, but no research has examined how race affects these interactions. We embarked on this study due to the historical under representation of Black developers in the tech industry, with White developers comprising the majority. Our study involved 24 experienced developers, forming 12 gender-balanced same- and mixed-race pairs. Pairs collaborated on a programming task using the think-aloud method, followed by individual retrospective interviews. Our findings revealed elevated productivity scores for mixed-race pairs, with no differences in code quality between same- and mixed-race pairs. Mixed-race pairs excelled in task distribution, shared decision-making, and role-exchange but encountered communication challenges, discomfort, and anxiety, shedding light on the complexity of diversity dynamics. Our study emphasizes race's impact on remote pair programming and underscores the need for diverse tools and methods to address racial disparities for collaboration.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# AdaDemo: 汎用ロボットエージェントのためのデータ効率の良いデモ拡張

AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent ( http://arxiv.org/abs/2404.07428v1 )

ライセンス: Link先を確認
Tongzhou Mu, Yijie Guo, Jie Xu, Ankit Goyal, Hao Su, Dieter Fox, Animesh Garg, (参考訳) 言語と視覚基盤モデルの顕著な成果に支えられ、大規模な実演データセットを用いた模倣学習による汎用ロボットエージェントの開発が、ロボット学習における顕著な関心領域となっている。 模倣学習の有効性は、実演データセットの量と品質に大きく依存している。 本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。 AdaDemo(Adaptive Online Demonstration Expansion)は、マルチタスクのポリシー学習を改善するための一般的なフレームワークである。 AdaDemoは、既存のポリシーの弱点に対処するための新しいデモを戦略的に収集し、データの効率を最大化する。 2つのロボット操作ベンチマーク(RLBenchとAdroit)で合計22のタスクを総合的に評価することにより、データ効率のよい方法で高品質なデモデータセットの生成を誘導することにより、AdaDemoのポリシー性能を段階的に改善する能力を実証する。

Encouraged by the remarkable achievements of language and vision foundation models, developing generalist robotic agents through imitation learning, using large demonstration datasets, has become a prominent area of interest in robot learning. The efficacy of imitation learning is heavily reliant on the quantity and quality of the demonstration datasets. In this study, we aim to scale up demonstrations in a data-efficient way to facilitate the learning of generalist robotic agents. We introduce AdaDemo (Adaptive Online Demonstration Expansion), a general framework designed to improve multi-task policy learning by actively and continually expanding the demonstration dataset. AdaDemo strategically collects new demonstrations to address the identified weakness in the existing policy, ensuring data efficiency is maximized. Through a comprehensive evaluation on a total of 22 tasks across two robotic manipulation benchmarks (RLBench and Adroit), we demonstrate AdaDemo's capability to progressively improve policy performance by guiding the generation of high-quality demonstration datasets in a data-efficient manner.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 映画産業のためのデータ駆動ポートフォリオ管理:大言語モデルをエキスパートとして用いた新しいデータ駆動最適化手法

Data-Driven Portfolio Management for Motion Pictures Industry: A New Data-Driven Optimization Methodology Using a Large Language Model as the Expert ( http://arxiv.org/abs/2404.07434v1 )

ライセンス: Link先を確認
Mohammad Alipour-Vaezi, Kwok-Leung Tsui, (参考訳) ポートフォリオ・マネジメント(Portfolio management)は、映画産業(MPI)の未対応問題の1つである。 MPIディストリビュータの最適ポートフォリオを設計するには、各プロジェクトのボックスオフィスを予測することが不可欠である。 さらに、正確なボックスオフィス予測のためには、前例のない専門家による手法では不可能な、各MPIプロジェクトに関わるセレブの影響を考慮することが重要である。 さらに、MPIデータの非対称特性は予測アルゴリズムの性能を低下させる。 本稿では,まず,有名人の名声スコアを大規模言語モデルを用いて決定する。 そして、MPIのデータの不斉特性に取り組むために、プロジェクトを分類する。 さらに、ボックスオフィスの予測は、プロジェクトごとに行われる。 最後に, ハイブリッド多属性意思決定手法を用いて, 流通業者のプロジェクトごとの好適性を算出し, 双方向最適化モデルにより最適ポートフォリオを設計する。

Portfolio management is one of the unresponded problems of the Motion Pictures Industry (MPI). To design an optimal portfolio for an MPI distributor, it is essential to predict the box office of each project. Moreover, for an accurate box office prediction, it is critical to consider the effect of the celebrities involved in each MPI project, which was impossible with any precedent expert-based method. Additionally, the asymmetric characteristic of MPI data decreases the performance of any predictive algorithm. In this paper, firstly, the fame score of the celebrities is determined using a large language model. Then, to tackle the asymmetric character of MPI's data, projects are classified. Furthermore, the box office prediction takes place for each class of projects. Finally, using a hybrid multi-attribute decision-making technique, the preferability of each project for the distributor is calculated, and benefiting from a bi-objective optimization model, the optimal portfolio is designed.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 都市エコロジーのエンコード:エネルギーモデリングのための自己教師付き学習による建築アーチタイプの自動生成

Encoding Urban Ecologies: Automated Building Archetype Generation through Self-Supervised Learning for Energy Modeling ( http://arxiv.org/abs/2404.07435v1 )

ライセンス: Link先を確認
Xinwei Zhuang, Zixun Huang, Wentao Zeng, Luisa Caldas, (参考訳) 世界人口と都市化が進むにつれて、建設セクターはエネルギー消費と二酸化炭素排出量の主要な貢献者として浮上してきた。 革新的な都市建築エネルギーモデリングの必要性は増大するが、既存の建築アーチタイプは、地元の建物の特徴や、異なる都市間の微妙な区別を捉えず、エネルギーモデリングの精度を損なうことも多い。 本稿では, 自己教師型学習を用いて, 複雑な幾何学的データを代表的, ローカライズ固有のアーチタイプに抽出する手法を提案する。 本研究は,地域社会レベルでのエネルギシミュレーションを行うために,地域パラメータを取り入れた構築環境とのインタラクションの新たなパラダイムを育成する試みである。 テーラードアーチタイプは、様々な建築在庫の異なるスケールでのエネルギー消費モデリングの精度と適用性を高めることができる。 このツールは、新興の地域生態学の探索を促進する潜在的な解決策を提供する。 建築のエンベロープ特性と文化的な粒度をビルのアーチェタイプ生成に組み込むことで,建築と都市デザインが建築環境を形作る際にエネルギーセクターと複雑に介在する未来を追求する。

As the global population and urbanization expand, the building sector has emerged as the predominant energy consumer and carbon emission contributor. The need for innovative Urban Building Energy Modeling grows, yet existing building archetypes often fail to capture the unique attributes of local buildings and the nuanced distinctions between different cities, jeopardizing the precision of energy modeling. This paper presents an alternative tool employing self-supervised learning to distill complex geometric data into representative, locale-specific archetypes. This study attempts to foster a new paradigm of interaction with built environments, incorporating local parameters to conduct bespoke energy simulations at the community level. The catered archetypes can augment the precision and applicability of energy consumption modeling at different scales across diverse building inventories. This tool provides a potential solution that encourages the exploration of emerging local ecologies. By integrating building envelope characteristics and cultural granularity into the building archetype generation process, we seek a future where architecture and urban design are intricately interwoven with the energy sector in shaping our built environments.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# ディープニューラルネットワークモデルのためのプライバシ保護層分割

Privacy preserving layer partitioning for Deep Neural Network models ( http://arxiv.org/abs/2404.07437v1 )

ライセンス: Link先を確認
Kishore Rajasekar, Randolph Loh, Kar Wai Fok, Vrizlynn L. L. Thing, (参考訳) MLaaS(Machine Learning as a Service)は、クラウドコンピューティングの分野で人気があり、ユーザはクラウドリソースを利用して、データ上でMLモデルのプライベート推論を実行することができる。 しかし、ユーザ入力のプライバシとセキュアな推論実行を保証することが不可欠である。 データプライバシと整合性を保護するアプローチの1つは、セキュアなハードウェアエンクレーブでプログラムの実行を可能にすることで、Trusted Execution Environments(TEEs)を使用することである。 TEEを使用することで、暗号化、復号化、セキュリティ、整合性チェックなどの追加レイヤによって、大幅なパフォーマンス上のオーバーヘッドが発生する可能性がある。 これは、保護されていないハードウェア上で実行する場合と比較して、推論時間が遅くなる可能性がある。 本研究では,階層分割技術を導入し,GPUに計算処理をオフロードすることで,MLモデルのランタイム性能を向上させる。 このテクニックは、2つの異なるパーティションで構成されている。1つはTEE内で実行され、もう1つはGPUアクセラレータを使用して実行される。 レイヤパーティショニングは、入力を復元するための再構築攻撃につながる可能性のある、中間フィーチャーマップをクリアに公開する。 我々は,訓練された条件付き生成逆数ネットワーク(c-GAN)を用いた入力再構成攻撃に対する防御手法の有効性を示す実験を行った。 この評価は、VGG-16、ResNet-50、EfficientNetB0などの広く使われているモデルで、画像分類のためのImageNetとサイバーセキュリティ攻撃検出のためのTON IoTデータセットの2つのデータセットを使用して行われる。

MLaaS (Machine Learning as a Service) has become popular in the cloud computing domain, allowing users to leverage cloud resources for running private inference of ML models on their data. However, ensuring user input privacy and secure inference execution is essential. One of the approaches to protect data privacy and integrity is to use Trusted Execution Environments (TEEs) by enabling execution of programs in secure hardware enclave. Using TEEs can introduce significant performance overhead due to the additional layers of encryption, decryption, security and integrity checks. This can lead to slower inference times compared to running on unprotected hardware. In our work, we enhance the runtime performance of ML models by introducing layer partitioning technique and offloading computations to GPU. The technique comprises two distinct partitions: one executed within the TEE, and the other carried out using a GPU accelerator. Layer partitioning exposes intermediate feature maps in the clear which can lead to reconstruction attacks to recover the input. We conduct experiments to demonstrate the effectiveness of our approach in protecting against input reconstruction attacks developed using trained conditional Generative Adversarial Network(c-GAN). The evaluation is performed on widely used models such as VGG-16, ResNet-50, and EfficientNetB0, using two datasets: ImageNet for Image classification and TON IoT dataset for cybersecurity attack detection.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 言語モデルエージェントの構造的プログラミングを可能にする振舞い木

Behavior Trees Enable Structured Programming of Language Model Agents ( http://arxiv.org/abs/2404.07439v1 )

ライセンス: Link先を確認
Richard Kelley, (参考訳) インターネット規模のデータセットでトレーニングされた言語モデルは、自然言語処理とコンピュータビジョンの問題を解決する素晴らしい能力を示している。 しかし、これらのモデルはしばしば予期せぬ方法で不安定であり、「言語モデルエージェント」を構成する大規模システムで正しく動作することを保証するために重要な足場を必要とする。 本稿では,行動木が言語モデルと古典的AIと従来のプログラミングを組み合わせるための統一的なフレームワークを提供する,と論じる。 本稿では,行動木を用いたプログラミング言語モデルエージェントのためのPythonライブラリであるDendronを紹介する。 本稿では,Dendron氏が実施した3つのケーススタディとして,チャットエージェントの構築,移動ロボットや車両で使用するためのカメラベースのインフラストラクチャ検査エージェントの構築,および命令チューニングやRLHFによって受信されない安全制約を満たすために構築されたエージェントについて紹介する。

Language models trained on internet-scale data sets have shown an impressive ability to solve problems in Natural Language Processing and Computer Vision. However, experience is showing that these models are frequently brittle in unexpected ways, and require significant scaffolding to ensure that they operate correctly in the larger systems that comprise "language-model agents." In this paper, we argue that behavior trees provide a unifying framework for combining language models with classical AI and traditional programming. We introduce Dendron, a Python library for programming language model agents using behavior trees. We demonstrate the approach embodied by Dendron in three case studies: building a chat agent, a camera-based infrastructure inspection agent for use on a mobile robot or vehicle, and an agent that has been built to satisfy safety constraints that it did not receive through instruction tuning or RLHF.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 正光完全連結アーキテクチャによる1ビット量子化オンチップハイブリッド回折ニューラルネットワーク

1-bit Quantized On-chip Hybrid Diffraction Neural Network Enabled by Authentic All-optical Fully-connected Architecture ( http://arxiv.org/abs/2404.07443v1 )

ライセンス: Link先を確認
Yu Shao, Haiqi Gao, Yipeng Chen, Yujie liu, Junren Wen, Haidong He, Yuchuan Shao, Yueguang Zhang, Weidong Shen, Chenying Yang, (参考訳) 光学ディフラクションニューラルネットワーク(英: Optical Diffraction Neural Networks, DNN)は、光学ニューラルネットワーク(ONN)のサブセットである。 本研究は,行列乗算をDNNに組み込んだ新しいアーキテクチャであるHybrid Diffraction Neural Network(HDNN)を紹介する。 トレーニングされたニューラルネットワークは、特異位相変調層と振幅変調層を用いて、シミュレーションと実験でそれぞれ96.39%と89%の顕著な精度を示した。 さらに,回折単位のサンプリング間隔による制約を効果的に緩和するBinning Design (BD)法を開発した。 さらに, ビーム分割位相変調層を用いたオンチップHDNNを提案するとともに, 1ビット量子化法により設計したリリーフ面に代えて, デバイス製造要件を大幅に緩和する。 さらに、全光学的HDNN支援病変検出ネットワークを概念化し、シミュレーション予測と100%一致した検出結果を得た。 この研究は、DNNの性能を向上するだけでなく、産業用光学ニューラルネットワーク生産への道筋を合理化している。

Optical Diffraction Neural Networks (DNNs), a subset of Optical Neural Networks (ONNs), show promise in mirroring the prowess of electronic networks. This study introduces the Hybrid Diffraction Neural Network (HDNN), a novel architecture that incorporates matrix multiplication into DNNs, synergizing the benefits of conventional ONNs with those of DNNs to surmount the modulation limitations inherent in optical diffraction neural networks. Utilizing a singular phase modulation layer and an amplitude modulation layer, the trained neural network demonstrated remarkable accuracies of 96.39% and 89% in digit recognition tasks in simulation and experiment, respectively. Additionally, we develop the Binning Design (BD) method, which effectively mitigates the constraints imposed by sampling intervals on diffraction units, substantially streamlining experimental procedures. Furthermore, we propose an on-chip HDNN that not only employs a beam-splitting phase modulation layer for enhanced integration level but also significantly relaxes device fabrication requirements, replacing metasurfaces with relief surfaces designed by 1-bit quantization. Besides, we conceptualized an all-optical HDNN-assisted lesion detection network, achieving detection outcomes that were 100% aligned with simulation predictions. This work not only advances the performance of DNNs but also streamlines the path towards industrial optical neural network production.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# ディコトコス画像分割のための多視点アグリゲーションネットワーク

Multi-view Aggregation Network for Dichotomous Image Segmentation ( http://arxiv.org/abs/2404.07445v1 )

ライセンス: Link先を確認
Qian Yu, Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, (参考訳) Dichotomous Image Segmentation (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。 有効なdisモデルを設計する際には、小さな受容領域における高分解能目標の意味的分散と、大きな受容領域における高精度詳細の損失のバランスをとるかが主な課題である。 既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。 人間の視覚システムは、複数の視点から観察することで興味のある領域を捉えます。 そこで我々は,DISを多視点オブジェクト認識問題としてモデル化し,遠隔ビューとクローズアップビューの機能融合を1つのエンコーダ・デコーダ構造を持つ単一ストリームに統一する,擬似多視点アグリゲーションネットワーク(MVANet)を提供する。 提案する多視点補完的ローカライゼーションと改良モジュールの助けを借りて,複数のビューにまたがる長距離かつ深い視覚的相互作用を確立し,詳細なクローズアップビューの特徴を高度に細い構造に焦点を絞ることができるようにした。 ソースコードとデータセットは \href{https://github.com/qianyu-dlut/MVANet}{MVANet} で公開されている。

Dichotomous Image Segmentation (DIS) has recently emerged towards high-precision object segmentation from high-resolution natural images. When designing an effective DIS model, the main challenge is how to balance the semantic dispersion of high-resolution targets in the small receptive field and the loss of high-precision details in the large receptive field. Existing methods rely on tedious multiple encoder-decoder streams and stages to gradually complete the global localization and local refinement. Human visual system captures regions of interest by observing them from multiple views. Inspired by it, we model DIS as a multi-view object perception problem and provide a parsimonious multi-view aggregation network (MVANet), which unifies the feature fusion of the distant view and close-up view into a single stream with one encoder-decoder structure. With the help of the proposed multi-view complementary localization and refinement modules, our approach established long-range, profound visual interactions across multiple views, allowing the features of the detailed close-up view to focus on highly slender structures.Experiments on the popular DIS-5K dataset show that our MVANet significantly outperforms state-of-the-art methods in both accuracy and speed. The source code and datasets will be publicly available at \href{https://github.com/qianyu-dlut/MVANet}{MVANet}.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# レーンウェイズとトポロジ不変区間交通シミュレーションのためのグラフ注意ネットワーク

Graph Attention Network for Lane-Wise and Topology-Invariant Intersection Traffic Simulation ( http://arxiv.org/abs/2404.07446v1 )

ライセンス: Link先を確認
Nooshin Yousefzadeh, Rahul Sengupta, Yashaswi Karnati, Anand Rangarajan, Sanjay Ranka, (参考訳) 交通渋滞は経済、環境、社会に重大な影響を与えている。 区間交通流のダイナミクスは多くの要因の影響を受けている。 微視的な交通シミュレータは貴重なツールであるが、計算集約的で校正が難しい。 さらに、既存の機械学習アプローチでは、レーン固有の波形を提供したり、交差点トポロジや交通パターンに適応するのに苦労しています。 本研究では,グラフ注意ニューラルネットワーク(GAT)を用いて,交差点に対する2つの効率的かつ正確な「デジタルツイン」モデルを提案する。 これらの注目グラフ自動エンコーダデジタルツインは、交差点内の交通の時間的、空間的、文脈的側面を捉え、高分解能ループ検出器波形、信号状態記録、運転行動、回転運動数などの様々な要因を取り入れている。 複数の交差点にまたがる様々な対物的シナリオに基づいて、我々のモデルはよく一般化され、任意の交差点アプローチと出口車線に対する詳細な交通波形を推定できる。 マルチスケール誤差測定は、我々のモデルがマイクロシミュレーションと相容れない性能を示す。 本研究の主な用途は交通システム研究における交通信号の最適化である交通信号の最適化である。 これらの軽量なデジタルツインは、廊下とネットワーク信号タイミング最適化フレームワークにシームレスに統合することができる。 さらに,本研究の応用は,車線再構成,運転行動解析,交差点の安全性と効率向上に関する情報決定の促進にまで及んでいる。 将来の研究のための有望な道は、このアプローチを都市高速道路回廊に拡張し、有効性の測定値と統合することである。

Traffic congestion has significant economic, environmental, and social ramifications. Intersection traffic flow dynamics are influenced by numerous factors. While microscopic traffic simulators are valuable tools, they are computationally intensive and challenging to calibrate. Moreover, existing machine-learning approaches struggle to provide lane-specific waveforms or adapt to intersection topology and traffic patterns. In this study, we propose two efficient and accurate "Digital Twin" models for intersections, leveraging Graph Attention Neural Networks (GAT). These attentional graph auto-encoder digital twins capture temporal, spatial, and contextual aspects of traffic within intersections, incorporating various influential factors such as high-resolution loop detector waveforms, signal state records, driving behaviors, and turning-movement counts. Trained on diverse counterfactual scenarios across multiple intersections, our models generalize well, enabling the estimation of detailed traffic waveforms for any intersection approach and exit lanes. Multi-scale error metrics demonstrate that our models perform comparably to microsimulations. The primary application of our study lies in traffic signal optimization, a pivotal area in transportation systems research. These lightweight digital twins can seamlessly integrate into corridor and network signal timing optimization frameworks. Furthermore, our study's applications extend to lane reconfiguration, driving behavior analysis, and facilitating informed decisions regarding intersection safety and efficiency enhancements. A promising avenue for future research involves extending this approach to urban freeway corridors and integrating it with measures of effectiveness metrics.
翻訳日:2024-04-12 15:18:26 公開日:2024-04-11
# 開語彙セグメンテーションにおける伝達性と原理的効率性

Transferable and Principled Efficiency for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2404.07448v1 )

ライセンス: Link先を確認
Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei, (参考訳) 事前学習された基礎視覚言語モデルの最近の成功は、Open-Vocabulary Segmentation (OVS)を可能にする。 有望な性能にもかかわらず、このアプローチは2つの課題に対して重い計算オーバーヘッドをもたらす。 1) 背骨の大型モデルサイズ 2)微調整の際にはコストがかかる。 これらの課題は、現実世界のシナリオにおいて、このOVS戦略が広く適用可能で手頃な価格であることを妨げる。 モデル圧縮や効率的な微調整といった従来の手法はこれらの課題に対処できるが、しばしばヒューリスティックに頼っている。 つまり、それらのソリューションは簡単に移行できず、コストがかかる異なるモデルで再トレーニングする必要がなくなる。 効率的なOVSの文脈では、トレーニングコストを下げるより小さなモデルを利用することで、大きなビジョン言語基盤モデルに基づいて、OVSが以前のOVSと同等かそれ以上の性能を達成することを目標としています。 コア戦略は、我々の効率を原則化し、従って、さらなるカスタマイズなしに、あるOVSフレームワークから他のフレームワークにシームレスに転送できるようにすることです。 多様なOVSベンチマークに関する総合的な実験では、セグメント化精度と計算コストのトレードオフが従来よりも優れていることが示されている。 私たちのコードはhttps://github.com/Xujxyang/OpenTransで利用可能です。

Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# オブジェクトのローカライズ学習によるビジュアルLLMの空間推論の改善

Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs ( http://arxiv.org/abs/2404.07449v1 )

ライセンス: Link先を確認
Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin, (参考訳) 大言語モデル(LLM)を視覚領域タスクに統合し、視覚-LLM(V-LLM)を実現し、視覚-言語タスク、特に視覚的質問応答(VQA)において例外的なパフォーマンスを実現した。 しかし、既存のV-LLM(例えばBLIP-2, LLaVA)は空間的推論の弱さと局所化認識を示す。 高度に記述的で精巧なテキストによる回答を生成するにもかかわらず、これらのモデルは、左と右の場所を区別するといった単純なタスクで失敗する。 本研究では,空間認識をV-LLMに注入する画像空間座標に基づく微調整目標について検討する。 我々は,V-LLMにおける空間認識の向上につながる最適座標表現,データ効率な命令微調整目標,擬似データ生成戦略を探索する。 さらに,画像領域とビデオ領域間でのVQAの改善や,望ましくない幻覚の低減,コンテキストオブジェクト記述の改善などを行った。 14の異なるデータセットを含む5つの視覚言語タスクを対象とした実験は、提案フレームワークによって達成された明らかなパフォーマンス改善を実現する。

Integration of Large Language Models (LLMs) into visual domain tasks, resulting in visual-LLMs (V-LLMs), has enabled exceptional performance in vision-language tasks, particularly for visual question answering (VQA). However, existing V-LLMs (e.g. BLIP-2, LLaVA) demonstrate weak spatial reasoning and localization awareness. Despite generating highly descriptive and elaborate textual answers, these models fail at simple tasks like distinguishing a left vs right location. In this work, we explore how image-space coordinate based instruction fine-tuning objectives could inject spatial awareness into V-LLMs. We discover optimal coordinate representations, data-efficient instruction fine-tuning objectives, and pseudo-data generation strategies that lead to improved spatial awareness in V-LLMs. Additionally, our resulting model improves VQA across image and video domains, reduces undesired hallucination, and generates better contextual object descriptions. Experiments across 5 vision-language tasks involving 14 different datasets establish the clear performance improvements achieved by our proposed framework.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 進化的多目的深層強化学習による協調的地上コミュニケーション

Collaborative Ground-Space Communications via Evolutionary Multi-objective Deep Reinforcement Learning ( http://arxiv.org/abs/2404.07450v1 )

ライセンス: Link先を確認
Jiahui Li, Geng Sun, Qingqing Wu, Dusit Niyato, Jiawen Kang, Abbas Jamalipour, Victor C. M. Leung, (参考訳) 本稿では,地中直接通信を実現するために,分散コラボレーティブビームフォーミング(DCB)に基づくアップリンク通信パラダイムを提案する。 特に、DCBは、低軌道衛星(LEO)との効率的な直接接続を分散アンテナとして確立できない端末を扱い、仮想アンテナアレイを形成して、端末から衛星へのアップリンク達成率と持続時間を高める。 しかし、このようなシステムには、シナリオ要求の変化を満たすために、端末-衛星アップリンク達成率、端末のエネルギー消費、衛星切替周波数の様々なバランスをとる複数のトレードオフポリシーが必要である。 そこで我々は,多目的最適化分析を行い,長期最適化問題を定式化する。 異なる端末クラスタスケールでの可用性に対処するため、我々はこの問題をアクション空間を再現し、普遍的な多目的マルコフ決定プロセスに再構成する。 そこで本研究では,低値動作を隠蔽して学習プロセスを高速化する,進化的多目的深層強化学習アルゴリズムを提案する。 そのため、ワンタイムトレーニングモデルの適用性は、より変化する端末-衛星アップリンクシナリオをカバーすることができる。 シミュレーションの結果,提案アルゴリズムは様々なベースラインより優れており,いくつかの有用な知見が得られた。 具体的には、直流Bにより、アップリンク到達しきい値に到達できない端末を効率よく直接アップリンク伝送可能とし、直流Bが直接地上通信を実現する有効なソリューションであることを明らかにする。 さらに,提案アルゴリズムは,異なる目的を満足する複数のポリシーを達成し,スイッチング周波数の低い準最適アップリンク達成率を実現する。

In this paper, we propose a distributed collaborative beamforming (DCB)-based uplink communication paradigm for enabling ground-space direct communications. Specifically, DCB treats the terminals that are unable to establish efficient direct connections with the low Earth orbit (LEO) satellites as distributed antennas, forming a virtual antenna array to enhance the terminal-to-satellite uplink achievable rates and durations. However, such systems need multiple trade-off policies that variously balance the terminal-satellite uplink achievable rate, energy consumption of terminals, and satellite switching frequency to satisfy the scenario requirement changes. Thus, we perform a multi-objective optimization analysis and formulate a long-term optimization problem. To address availability in different terminal cluster scales, we reformulate this problem into an action space-reduced and universal multi-objective Markov decision process. Then, we propose an evolutionary multi-objective deep reinforcement learning algorithm to obtain the desirable policies, in which the low-value actions are masked to speed up the training process. As such, the applicability of a one-time trained model can cover more changing terminal-satellite uplink scenarios. Simulation results show that the proposed algorithm outmatches various baselines, and draw some useful insights. Specifically, it is found that DCB enables terminals that cannot reach the uplink achievable threshold to achieve efficient direct uplink transmission, which thus reveals that DCB is an effective solution for enabling direct ground-space communications. Moreover, it reveals that the proposed algorithm achieves multiple policies favoring different objectives and achieving near-optimal uplink achievable rates with low switching frequency.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# RiskLabs:マルチソースデータに基づく大規模言語モデルによる金融リスク予測

RiskLabs: Predicting Financial Risk Using Large Language Model Based on Multi-Sources Data ( http://arxiv.org/abs/2404.07452v1 )

ライセンス: Link先を確認
Yupeng Cao, Zhi Chen, Qingyun Pei, Fabrizio Dimino, Lorenzo Ausiello, Prashant Kumar, K. P. Subbalakshmi, Papa Momar Ndiaye, (参考訳) 金融における人工知能(AI)技術、特に大規模言語モデル(LLM)の統合は、学術的な注目を集めている。 進展にもかかわらず、既存の研究は金融テキスト要約、質問回答(Q$\&$A)、株式移動予測(バイナリ分類)といったタスクに主に焦点を合わせており、金融リスク予測におけるLCMの適用には顕著なギャップがある。 本稿では LLM を利用した金融リスクの分析と予測を行う新しいフレームワークである \textbf{RiskLabs} を紹介する。 RiskLabsは、Earnings Conference Calls(ECCs)のテキストとボーカル情報、市場関連時系列データ、ECCリリース日に関するコンテキストニュースデータなど、さまざまなタイプの金融データを独自に組み合わせている。 LLMを用いてECCデータを抽出・分析し、その後、ECCが異なる時間枠のリスクをモデル化し理解する前に時系列データを収集・処理する。 RiskLabsは、マルチモーダルフュージョン技術を使用して、これらのさまざまなデータ特徴を、包括的なマルチタスクの金融リスク予測に適合させる。 実証実験の結果、金融市場のボラティリティと分散を予測できるリスクラボの有効性が示された。 比較実験を通じて、異なるデータソースが金融リスク評価にどのように貢献するかを実証し、この文脈におけるLLMの重要な役割について議論する。 我々の発見は、金融アプリケーションにおけるAIに貢献するだけでなく、金融リスク評価にLLMを適用するための新たな道を開いた。

The integration of Artificial Intelligence (AI) techniques, particularly large language models (LLMs), in finance has garnered increasing academic attention. Despite progress, existing studies predominantly focus on tasks like financial text summarization, question-answering (Q$\&$A), and stock movement prediction (binary classification), with a notable gap in the application of LLMs for financial risk prediction. Addressing this gap, in this paper, we introduce \textbf{RiskLabs}, a novel framework that leverages LLMs to analyze and predict financial risks. RiskLabs uniquely combines different types of financial data, including textual and vocal information from Earnings Conference Calls (ECCs), market-related time series data, and contextual news data surrounding ECC release dates. Our approach involves a multi-stage process: initially extracting and analyzing ECC data using LLMs, followed by gathering and processing time-series data before the ECC dates to model and understand risk over different timeframes. Using multimodal fusion techniques, RiskLabs amalgamates these varied data features for comprehensive multi-task financial risk prediction. Empirical experiment results demonstrate RiskLab's effectiveness in forecasting both volatility and variance in financial markets. Through comparative experiments, we demonstrate how different data sources contribute to financial risk assessment and discuss the critical role of LLMs in this context. Our findings not only contribute to the AI in finance application but also open new avenues for applying LLMs in financial risk assessment.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# マルチエージェント深部強化学習によるUAV対応協調ビームフォーミング

UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2404.07453v1 )

ライセンス: Link先を確認
Saichao Liu, Geng Sun, Jiahui Li, Shuang Liang, Qingqing Wu, Pengfei Wang, Dusit Niyato, (参考訳) 本論文では,複数のUAVがUAV対応仮想アンテナアレイ(UVAA)を形成し,協調ビームフォーミングを利用して遠隔基地局と通信する無人空対地通信システムについて検討する。 UAVAの作業効率を向上させるため,UAVを用いた協調ビームフォーミング多目的最適化問題(UCBMOP)を定式化し,全UAVの位置と励起電流重みを最適化することにより,UAVAの伝送速度を同時に最大化し,全UAVのエネルギー消費を最小化する。 この問題は、これらの2つの最適化目標が互いに矛盾し、最適化変数に不一致であるため、難しい。 さらに、システムは動的であり、UAV間の協調は複雑であり、従来の手法では1つのタスクに対して最適化解を計算するのに多くの時間がかかる。 さらに、タスクが変化するにつれて、事前に取得したソリューションは廃止され、無効になる。 これらの問題に対処するために,マルチエージェント深部強化学習(MADRL)を活用し,UCBMOPに対処する。 具体的には,ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。 シミュレーションの結果,提案アルゴリズムは,他の手法と比較して,より優れた戦略を学習できることが示されている。 さらに,提案手法の有効性についても広範な実験を行った。

In this paper, we investigate an unmanned aerial vehicle (UAV)-assistant air-to-ground communication system, where multiple UAVs form a UAV-enabled virtual antenna array (UVAA) to communicate with remote base stations by utilizing collaborative beamforming. To improve the work efficiency of the UVAA, we formulate a UAV-enabled collaborative beamforming multi-objective optimization problem (UCBMOP) to simultaneously maximize the transmission rate of the UVAA and minimize the energy consumption of all UAVs by optimizing the positions and excitation current weights of all UAVs. This problem is challenging because these two optimization objectives conflict with each other, and they are non-concave to the optimization variables. Moreover, the system is dynamic, and the cooperation among UAVs is complex, making traditional methods take much time to compute the optimization solution for a single task. In addition, as the task changes, the previously obtained solution will become obsolete and invalid. To handle these issues, we leverage the multi-agent deep reinforcement learning (MADRL) to address the UCBMOP. Specifically, we use the heterogeneous-agent trust region policy optimization (HATRPO) as the basic framework, and then propose an improved HATRPO algorithm, namely HATRPO-UCB, where three techniques are introduced to enhance the performance. Simulation results demonstrate that the proposed algorithm can learn a better strategy compared with other methods. Moreover, extensive experiments also demonstrate the effectiveness of the proposed techniques.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 初期分類のためのタングル付きキーバリューシーケンスデータの表現学習

Representation Learning of Tangled Key-Value Sequence Data for Early Classification ( http://arxiv.org/abs/2404.07454v1 )

ライセンス: Link先を確認
Tao Duan, Junzhou Zhao, Shuo Zhang, Jing Tao, Pinghui Wang, (参考訳) キーバリューシーケンスデータはユビキタス化され、eコマースにおけるユーザ製品購入シーケンスからネットワークルータによって転送されるネットワークパケットシーケンスまで、さまざまな現実世界のアプリケーションに自然に現れる。 これらのキーバリューシーケンスの分類は、ユーザプロファイリングや悪意のあるアプリケーション識別など、多くのシナリオにおいて重要である。 多くの時間に敏感なシナリオでは、キー値シーケンスを正確に分類することに加えて、素早く応答するためにキー値シーケンスを早期に分類することが望まれる。 しかし、この2つのゴールは本質的に矛盾しており、同時に達成することは困難である。 本研究では,異なるキーを持つ複数の同時キー-値列の混合である,新しいtangled key-value sequence早期分類問題を定式化する。 ゴールは、各キー値シーケンスを正確にかつ早期に同じキーを共有するように分類することである。 この問題に対処するために,キー相関と値相関を用いて,絡み合ったキー-値列内の項目の内・間相関を利用したキー-値列早期共分類法(KVEC)を提案する。 一方、時間認識停止ポリシーは、進行中のキー値シーケンスをいつ停止するかを決定し、それを現在のシーケンス表現に基づいて分類する。 実世界のデータセットと合成データセットの両方の実験により、我々の手法は最先端のベースラインを大きく上回ることを示した。 KVECは予測精度を4.7 - 17.5 %$に改善し、精度とイヤーラインの調和平均を最大3.7 - 14.0 %$に改善する。

Key-value sequence data has become ubiquitous and naturally appears in a variety of real-world applications, ranging from the user-product purchasing sequences in e-commerce, to network packet sequences forwarded by routers in networking. Classifying these key-value sequences is important in many scenarios such as user profiling and malicious applications identification. In many time-sensitive scenarios, besides the requirement of classifying a key-value sequence accurately, it is also desired to classify a key-value sequence early, in order to respond fast. However, these two goals are conflicting in nature, and it is challenging to achieve them simultaneously. In this work, we formulate a novel tangled key-value sequence early classification problem, where a tangled key-value sequence is a mixture of several concurrent key-value sequences with different keys. The goal is to classify each individual key-value sequence sharing a same key both accurately and early. To address this problem, we propose a novel method, i.e., Key-Value sequence Early Co-classification (KVEC), which leverages both inner- and inter-correlations of items in a tangled key-value sequence through key correlation and value correlation to learn a better sequence representation. Meanwhile, a time-aware halting policy decides when to stop the ongoing key-value sequence and classify it based on current sequence representation. Experiments on both real-world and synthetic datasets demonstrate that our method outperforms the state-of-the-art baselines significantly. KVEC improves the prediction accuracy by up to $4.7 - 17.5\%$ under the same prediction earliness condition, and improves the harmonic mean of accuracy and earliness by up to $3.7 - 14.0\%$.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# WESE: LLMエージェントの強い爆発への弱視調査

WESE: Weak Exploration to Strong Exploitation for LLM Agents ( http://arxiv.org/abs/2404.07456v1 )

ライセンス: Link先を確認
Xu Huang, Weiwen Liu, Xiaolong Chen, Xingmei Wang, Defu Lian, Yasheng Wang, Ruiming Tang, Enhong Chen, (参考訳) 近年,大規模言語モデル (LLM) は知的エージェントとして大きな可能性を証明している。 しかし、既存の研究は主にエージェントの推論や意思決定能力の向上に重点を置いており、よく設計されたプロンプトエンジニアリングやタスク固有の微調整を通じて、探索と搾取の手順を無視している。 オープンワールドの対話環境における複雑なタスクに対処する場合、これらの手法には制限がある。 第一に、環境のグローバルな情報の欠如は、欲求的な決定を導き、その結果、準最適解をもたらす。 一方、環境から取得した無関係な情報は、ノイズを悪用するだけでなく、追加のコストも発生させる。 本稿では,オープンワールド対話型タスクにおけるLLMエージェントの強化を目的とした,Weak Exploration to Strong Exploitation (WESE)を提案する。 具体的には、WESEは探索と搾取のプロセスを切り離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。 次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。 このアプローチは多様なタスクを組み込むのに十分な柔軟性があり、4つのインタラクティブなベンチマークで成功率と効率の両方に大きな改善が得られます。

Recently, large language models (LLMs) have demonstrated remarkable potential as an intelligent agent. However, existing researches mainly focus on enhancing the agent's reasoning or decision-making abilities through well-designed prompt engineering or task-specific fine-tuning, ignoring the procedure of exploration and exploitation. When addressing complex tasks within open-world interactive environments, these methods exhibit limitations. Firstly, the lack of global information of environments leads to greedy decisions, resulting in sub-optimal solutions. On the other hand, irrelevant information acquired from the environment not only adversely introduces noise, but also incurs additional cost. This paper proposes a novel approach, Weak Exploration to Strong Exploitation (WESE), to enhance LLM agents in solving open-world interactive tasks. Concretely, WESE involves decoupling the exploration and exploitation process, employing a cost-effective weak agent to perform exploration tasks for global knowledge. A knowledge graph-based strategy is then introduced to store the acquired knowledge and extract task-relevant knowledge, enhancing the stronger agent in success rate and efficiency for the exploitation task. Our approach is flexible enough to incorporate diverse tasks, and obtains significant improvements in both success rates and efficiency across four interactive benchmarks.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 非感覚的」:NLPにおける「幻覚」の展望と課題

"Confidently Nonsensical?'': A Critical Survey on the Perspectives and Challenges of 'Hallucinations' in NLP ( http://arxiv.org/abs/2404.07461v1 )

ライセンス: Link先を確認
Pranav Narayanan Venkit, Tatiana Chakravorti, Vipul Gupta, Heidi Biggs, Mukund Srinath, Koustava Goswami, Sarah Rajtmajer, Shomir Wilson, (参考訳) 大規模言語モデル (LLM) における幻覚は, NLP研究における103の出版物に対する批判的評価を用いて, ピアレビュー文学においてどのように特徴づけられるかを検討する。 社会学・技術文献の総合的なレビューを通じて、「幻覚」という用語との合意の欠如を特定する。 さらに,NLPとAIの分野の実践者171名を対象に,幻覚のさまざまな視点を捉えた調査を行った。 本分析は,NLPにおける幻覚の具体的定義と枠組みの必要性を浮き彫りにし,潜在的課題を浮き彫りにし,社会における幻覚の影響と影響のテーマ的理解を提供する。

We investigate how hallucination in large language models (LLM) is characterized in peer-reviewed literature using a critical examination of 103 publications across NLP research. Through a comprehensive review of sociological and technological literature, we identify a lack of agreement with the term `hallucination.' Additionally, we conduct a survey with 171 practitioners from the field of NLP and AI to capture varying perspectives on hallucination. Our analysis underscores the necessity for explicit definitions and frameworks outlining hallucination within NLP, highlighting potential challenges, and our survey inputs provide a thematic understanding of the influence and ramifications of hallucination in society.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 生成逆ネットワークを用いたネットワーク侵入検出性能の向上

Enhancing Network Intrusion Detection Performance using Generative Adversarial Networks ( http://arxiv.org/abs/2404.07464v1 )

ライセンス: Link先を確認
Xinxing Zhao, Kar Wai Fok, Vrizlynn L. L. Thing, (参考訳) ネットワーク侵入検知システム(NIDS)は、サイバー脅威に対する重要なデジタルインフラの保護において重要な役割を果たす。 NIDSで適用された機械学習ベースの検出モデルは、今日では一般的である。 しかしながら、これらの機械学習モデルの有効性は、侵入テクニックの進化的かつ洗練された性質と、多様で更新されたトレーニングサンプルの欠如によって制限されることが多い。 本研究では,GAN(Generative Adversarial Networks)の統合によるNIDSの性能向上のための新しいアプローチを提案する。 実世界のネットワークビヘイビアを忠実に模倣した合成ネットワークトラフィックデータの生成において,GANのパワーを活用することにより,データ不足であるNIDSトレーニングデータセットに関連する重要な課題に対処する。 本研究では, 3つの異なるGANモデル(Vanilla GAN, Wasserstein GAN, Conditional Tabular GAN)を実装し, 異常な動作を表現するように設計されたネットワークトラフィックパターンを生成する。 本研究では, この合成データ再サンプリング技術により, NIDSモデルの性能を大幅に向上させることができることを示す。 CIC-IDS2017ベンチマークデータセットを用いて包括的な実験を行うことで、提案手法の有効性を示す実証的な証拠を提供する。 NIDSにGANを統合することで、限られたトレーニングデータによる攻撃に対する侵入検知性能が向上し、ますます相互に連携し、脆弱なデジタルランドスケープで組織のサイバーセキュリティ姿勢を後押しする、有望な方法であることが、我々の研究で示されています。

Network intrusion detection systems (NIDS) play a pivotal role in safeguarding critical digital infrastructures against cyber threats. Machine learning-based detection models applied in NIDS are prevalent today. However, the effectiveness of these machine learning-based models is often limited by the evolving and sophisticated nature of intrusion techniques as well as the lack of diverse and updated training samples. In this research, a novel approach for enhancing the performance of an NIDS through the integration of Generative Adversarial Networks (GANs) is proposed. By harnessing the power of GANs in generating synthetic network traffic data that closely mimics real-world network behavior, we address a key challenge associated with NIDS training datasets, which is the data scarcity. Three distinct GAN models (Vanilla GAN, Wasserstein GAN and Conditional Tabular GAN) are implemented in this work to generate authentic network traffic patterns specifically tailored to represent the anomalous activity. We demonstrate how this synthetic data resampling technique can significantly improve the performance of the NIDS model for detecting such activity. By conducting comprehensive experiments using the CIC-IDS2017 benchmark dataset, augmented with GAN-generated data, we offer empirical evidence that shows the effectiveness of our proposed approach. Our findings show that the integration of GANs into NIDS can lead to enhancements in intrusion detection performance for attacks with limited training data, making it a promising avenue for bolstering the cybersecurity posture of organizations in an increasingly interconnected and vulnerable digital landscape.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# オフライン強化学習におけるドメイン非ラベルデータの活用

Leveraging Domain-Unlabeled Data in Offline Reinforcement Learning across Two Domains ( http://arxiv.org/abs/2404.07465v1 )

ライセンス: Link先を確認
Soichiro Nishimori, Xin-Qiang Cai, Johannes Ackermann, Masashi Sugiyama, (参考訳) 本稿では,2つのドメインからデータセットを収集するオフライン強化学習(RL)問題について検討する。 このシナリオでは、ドメインラベルを持つデータセットは、効率的なポリシートレーニングを促進する。 しかし、実際には、ドメインラベルを割り当てるタスクは、大規模にリソース集約的または非実用的であり、ドメイン未ラベルデータの普及につながる可能性がある。 この課題を定式化するために、ドメイン未ラベルデータを含むPositive-Unlabeled Offline RL (PUORL) という新しいオフラインRL問題設定を導入する。 PUORLに対処するために、正の未ラベル学習を利用して、ドメイン未ラベルデータのドメインラベルを予測するオフラインRLアルゴリズムを開発し、このデータをポリシートレーニングに統合する。 本実験は,PUORL設定におけるベースラインよりも優れたドメインと学習ポリシーを正確に同定する手法の有効性を示し,ドメイン未ラベルデータを効果的に活用する能力を強調した。

In this paper, we investigate an offline reinforcement learning (RL) problem where datasets are collected from two domains. In this scenario, having datasets with domain labels facilitates efficient policy training. However, in practice, the task of assigning domain labels can be resource-intensive or infeasible at a large scale, leading to a prevalence of domain-unlabeled data. To formalize this challenge, we introduce a novel offline RL problem setting named Positive-Unlabeled Offline RL (PUORL), which incorporates domain-unlabeled data. To address PUORL, we develop an offline RL algorithm utilizing positive-unlabeled learning to predict the domain labels of domain-unlabeled data, enabling the integration of this data into policy training. Our experiments show the effectiveness of our method in accurately identifying domains and learning policies that outperform baselines in the PUORL setting, highlighting its capability to leverage domain-unlabeled data effectively.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 有限要素問題に対する量子マルチグリッドアルゴリズム

Quantum Multigrid Algorithm for Finite Element Problems ( http://arxiv.org/abs/2404.07466v1 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De, (参考訳) 量子線形システムアルゴリズム(QLSA)は線形システムの解に対する指数的な高速化を提供するが、有限要素問題に対する条件数の増加は指数的なスピードアップを排除できる。 QLSAは、ソリューションの最初の推測を使って改善することができない。 これらの問題を回避するために、量子状態に乗算演算のシーケンスを適用することにより、線形システムの反復解に対する量子乗算アルゴリズム(qMG)を提案する。 誤差e_0による初期推定が与えられたとき、qMGは、O(poly log (N/e') ) qubits を用いて O(poly log (N/e')) ) 時間で指数的に有利な、最終量子状態の部分空間として、相対誤差e'=e/e_0を持つ最終イテレートで多重グリッドの列全体を符号化するベクトルを生成することができる。 シーケンスから最終イテレートを抽出することは効率的であるが、最終量子状態から最終イテレートの配列を抽出するのは非効率である。 本手法の複雑さを数値解析とともに解析する。

Quantum linear system algorithms (QLSAs) can provide exponential speedups for the solution of linear systems, but the growth of the condition number for finite element problems can eliminate the exponential speedup. QLSAs are also incapable of using an initial guess of a solution to improve upon it. To circumvent these issues, we present a Quantum Multigrid Algorithm (qMG) for the iterative solution of linear systems by applying the sequence of multigrid operations on a quantum state. Given an initial guess with error e_0, qMG can produce a vector encoding the entire sequence of multigrid iterates with the final iterate having a relative error e'=e/e_0, as a subspace of the final quantum state, with exponential advantage in O( poly log (N/e') ) time using O( poly log (N/e') ) qubits. Although extracting the final iterate from the sequence is efficient, extracting the sequence of iterates from the final quantum state can be inefficient. We provide an analysis of the complexity of the method along with numerical analysis.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# Trashbusters: リッター検出と追跡のためのディープラーニングアプローチ

Trashbusters: Deep Learning Approach for Litter Detection and Tracking ( http://arxiv.org/abs/2404.07467v1 )

ライセンス: Link先を確認
Kashish Jain, Manthan Juthani, Jash Jain, Anant V. Nimkar, (参考訳) ゴミの不法処理は公衆衛生と環境問題である。 計画されていない場所でゴミを処分することは、深刻な健康と環境リスクを引き起こす。 公共のゴミ箱をできるだけ制限すべきだ。 本研究は,公共の場でのごみ処理の問題に対処するため,ごみ処理の自動化に重点を置いている。 手動による介入や目撃者の報告に依存する従来のアプローチは、遅延、不正確さ、匿名性の問題に悩まされている。 これらの課題を克服するために, 監視カメラと高度なコンピュータビジョンアルゴリズムを用いて, ごみ検出, 物体追跡, 顔認識を行う完全自動化システムを提案する。 このシステムは、ごみ処理に携わる個人を正確に識別し、追跡し、顔認証によって身元を同定し、対光対策の効率的な実施を可能にする。 手動による介入への依存を減らし、ヒューマンエラーを最小限に抑え、迅速な識別を提供することにより、提案システムは、ゴミ処理事件に対処する上で大きな利点を提供する。 本研究の主な貢献は,監視活動の強化とごみ処理の自動化に先進的な技術を活用し,提案システムの実装である。

The illegal disposal of trash is a major public health and environmental concern. Disposing of trash in unplanned places poses serious health and environmental risks. We should try to restrict public trash cans as much as possible. This research focuses on automating the penalization of litterbugs, addressing the persistent problem of littering in public places. Traditional approaches relying on manual intervention and witness reporting suffer from delays, inaccuracies, and anonymity issues. To overcome these challenges, this paper proposes a fully automated system that utilizes surveillance cameras and advanced computer vision algorithms for litter detection, object tracking, and face recognition. The system accurately identifies and tracks individuals engaged in littering activities, attaches their identities through face recognition, and enables efficient enforcement of anti-littering policies. By reducing reliance on manual intervention, minimizing human error, and providing prompt identification, the proposed system offers significant advantages in addressing littering incidents. The primary contribution of this research lies in the implementation of the proposed system, leveraging advanced technologies to enhance surveillance operations and automate the penalization of litterbugs.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# 一般化連続学習を用いたスケーラブル言語モデル

Scalable Language Model with Generalized Continual Learning ( http://arxiv.org/abs/2404.07470v1 )

ライセンス: Link先を確認
Bohao Peng, Zhuotao Tian, Shu Liu, Mingchang Yang, Jiaya Jia, (参考訳) 言語モデルにおけるスケーラブルな知識とスキルの獲得と洗練を促進することで、継続的な学習の重要性が高まっている。 しかし、既存のメソッドは、経験の再現、最適化の制約、推論タスクIDなど、現実世界のシナリオで厳格な制限や課題に直面するのが一般的である。 本研究では,これらの制約を,より困難で一般化した環境で克服するためのスケーラブル言語モデル(SLM)を提案する。 具体的には、動的タスク関連知識検索(DTKR)と統合されたJAR(Joint Adaptive Re-Parameterization)を提案し、特定の下流タスクに基づいて言語モデルの適応的な調整を可能にする。 このアプローチはベクトル空間内のタスク分布を利用して,スムーズで継続的な学習プロセスの実現を目指している。 提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。 さらに、従来の研究では、分類などの単一タスクタイプに重点を置いていたが、LLaMA-2と呼ばれる大きな言語モデルを用いて、単一の言語モデルをより広範なアプリケーションに適切にスケールできるような、多様なドメインやタスクタイプにまたがる影響を探索する。

Continual learning has gained increasing importance as it facilitates the acquisition and refinement of scalable knowledge and skills in language models. However, existing methods typically encounter strict limitations and challenges in real-world scenarios, such as reliance on experience replay, optimization constraints, and inference task-ID. In this study, we introduce the Scalable Language Model (SLM) to overcome these limitations within a more challenging and generalized setting, representing a significant advancement toward practical applications for continual learning. Specifically, we propose the Joint Adaptive Re-Parameterization (JARe), integrated with Dynamic Task-related Knowledge Retrieval (DTKR), to enable adaptive adjustment of language models based on specific downstream tasks. This approach leverages the task distribution within the vector space, aiming to achieve a smooth and effortless continual learning process. Our method demonstrates state-of-the-art performance on diverse backbones and benchmarks, achieving effective continual learning in both full-set and few-shot scenarios with minimal forgetting. Moreover, while prior research primarily focused on a single task type such as classification, our study goes beyond, with the large language model, i.e., LLaMA-2, to explore the effects across diverse domains and task types, such that a single language model can be decently scaled to broader applications.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# コード事前学習モデルのための構造認識ファインチューニング

Structure-aware Fine-tuning for Code Pre-trained Models ( http://arxiv.org/abs/2404.07471v1 )

ライセンス: Link先を確認
Jiayi Wu, Renyu Zhu, Nuo Chen, Qiushi Sun, Xiang Li, Ming Gao, (参考訳) ここ数年、私たちはCode PTM(Code Pre-trained Models)の目覚ましい進歩を目にしてきました。 これらのモデルは、コードのための構造ベースの事前訓練タスクを設計することで、優れた表現機能を実現した。 しかし、CodePTMを微調整する際の構造的知識の吸収をいかに向上させるかは、いまだに重要な課題である。 このギャップを埋めるために、本論文では、CodePTMの新規な構造強化およびプラグアンドプレイファインチューニング法である、構造対応ファインチューニング(SAT)を提案する。 まず,CodePTMから得られた情報と,コード構造から抽出した知識との差を定量化する構造損失を提案する。 具体的には,トランスフォーマー層から抽出したアテンションスコアを学習構造情報として,抽象構文木における葉間の最短経路長を構造知識として用いた。 その後、微調整性能を向上させるためにマルチタスク学習を導入する。 4つの事前学習モデルと2つの世代タスクで行った実験は,プラグアンドプレイソリューションとして提案手法の有効性を示した。 さらに, SATは, 限られたトレーニングデータで, CodePTMの恩恵を受けることができることを示した。

Over the past few years, we have witnessed remarkable advancements in Code Pre-trained Models (CodePTMs). These models achieved excellent representation capabilities by designing structure-based pre-training tasks for code. However, how to enhance the absorption of structural knowledge when fine-tuning CodePTMs still remains a significant challenge. To fill this gap, in this paper, we present Structure-aware Fine-tuning (SAT), a novel structure-enhanced and plug-and-play fine-tuning method for CodePTMs. We first propose a structure loss to quantify the difference between the information learned by CodePTMs and the knowledge extracted from code structure. Specifically, we use the attention scores extracted from Transformer layer as the learned structural information, and the shortest path length between leaves in abstract syntax trees as the structural knowledge. Subsequently, multi-task learning is introduced to improve the performance of fine-tuning. Experiments conducted on four pre-trained models and two generation tasks demonstrate the effectiveness of our proposed method as a plug-and-play solution. Furthermore, we observed that SAT can benefit CodePTMs more with limited training data.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# LUCF-Net:医療画像分割のための軽量U字型カスケード核融合ネットワーク

LUCF-Net: Lightweight U-shaped Cascade Fusion Network for Medical Image Segmentation ( http://arxiv.org/abs/2404.07473v1 )

ライセンス: Link先を確認
Songkai Sun, Qingshan She, Yuliang Ma, Rihui Li, Yingchun Zhang, (参考訳) 本研究では,トランスフォーマーを付加することにより,医用画像のセグメンテーションのために既存のU字型ニューラルネットワークアーキテクチャの性能を向上した。 トランスフォーマーアーキテクチャはグローバルな情報を抽出する能力があるが、その複雑さのため、ローカル情報をキャプチャする能力は限られている。 この課題に対処するため,医用画像分割のための軽量U字型カスケード融合ネットワーク (LUCF-Net) を提案した。 非対称な構造設計を採用し、局所的および大域的モデリングの能力を高めるために、局所的および大域的モジュールの両方を組み込んだ。 さらに、マルチレイヤのカスケード融合復号ネットワークが、ネットワークの情報融合機能をさらに強化するために設計された。 CT形式での多臓器データセット,MRI形式での心臓セグメンテーションデータセット,画像形式での皮膚科学データセットで得られた検証結果は,提案モデルが局所的言語情報を扱う上で,他の最先端手法よりも優れており,多臓器セグメンテーションにおけるDice係数1.54%,Hausdorff距離2.6mmの改善が達成された。 さらに、畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせたネットワークとして、事前トレーニングなしで6.93万のパラメータと6.6ギガバイトの浮動小数点演算で競合セグメンテーション性能を達成する。 要約して,提案手法は,他のTransformerベースのセグメンテーションネットワークと比較して,シンプルなモデル設計を維持しつつ,性能を向上することを示した。

In this study, the performance of existing U-shaped neural network architectures was enhanced for medical image segmentation by adding Transformer. Although Transformer architectures are powerful at extracting global information, its ability to capture local information is limited due to its high complexity. To address this challenge, we proposed a new lightweight U-shaped cascade fusion network (LUCF-Net) for medical image segmentation. It utilized an asymmetrical structural design and incorporated both local and global modules to enhance its capacity for local and global modeling. Additionally, a multi-layer cascade fusion decoding network was designed to further bolster the network's information fusion capabilities. Validation results achieved on multi-organ datasets in CT format, cardiac segmentation datasets in MRI format, and dermatology datasets in image format demonstrated that the proposed model outperformed other state-of-the-art methods in handling local-global information, achieving an improvement of 1.54% in Dice coefficient and 2.6 mm in Hausdorff distance on multi-organ segmentation. Furthermore, as a network that combines Convolutional Neural Network and Transformer architectures, it achieves competitive segmentation performance with only 6.93 million parameters and 6.6 gigabytes of floating point operations, without the need of pre-training. In summary, the proposed method demonstrated enhanced performance while retaining a simpler model design compared to other Transformer-based segmentation networks.
翻訳日:2024-04-12 15:08:41 公開日:2024-04-11
# G-NeRF:シングルビュー画像からの幾何強化された新しいビュー合成

G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images ( http://arxiv.org/abs/2404.07474v1 )

ライセンス: Link先を確認
Zixiong Huang, Qi Chen, Libo Sun, Yifan Yang, Naizhou Wang, Mingkui Tan, Qi Wu, (参考訳) 新しいビュー合成は、与えられたビュー画像コレクションの新しいビュー画像を生成することを目的としている。 最近の試みでは、多視点画像から学習した3次元幾何(例えば、形状、大きさ、位置)に依存してこの問題に対処している。 しかし、このような方法には以下の制限がある。 1)特定のシーン(例えば、顔、車、椅子)のトレーニングデータとして、複数のビューイメージのセットが必要です。 2) 複数視点の監督が欠如しているため, 単一視点画像から幾何の先行情報を抽出できなかった。 本稿では,幾何誘導型多視点合成手法により幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。 既存の3D GANモデルが非条件で高忠実なマルチビュー画像を合成できることにインスパイアされた合成プロセスでは,EG3Dのような既製の3D GANモデルをフリーソースとして採用し,マルチビューデータを合成することで幾何学的先行情報を提供する。 同時に、合成データの幾何学的品質をさらに向上するために、3D GANモデル内の潜伏符号を効果的にサンプリングするトラニケーション法を導入する。 単一視点画像に対する多視点監視の欠如に対処するため,深度対応学習手法を設計し,深度対応識別器を用いて深度マップを通して幾何先行を案内する。 定性的および定量的な結果の両面から,本手法の有効性を実証した。

Novel view synthesis aims to generate new view images of a given view image collection. Recent attempts address this problem relying on 3D geometry priors (e.g., shapes, sizes, and positions) learned from multi-view images. However, such methods encounter the following limitations: 1) they require a set of multi-view images as training data for a specific scene (e.g., face, car or chair), which is often unavailable in many real-world scenarios; 2) they fail to extract the geometry priors from single-view images due to the lack of multi-view supervision. In this paper, we propose a Geometry-enhanced NeRF (G-NeRF), which seeks to enhance the geometry priors by a geometry-guided multi-view synthesis approach, followed by a depth-aware training. In the synthesis process, inspired that existing 3D GAN models can unconditionally synthesize high-fidelity multi-view images, we seek to adopt off-the-shelf 3D GAN models, such as EG3D, as a free source to provide geometry priors through synthesizing multi-view data. Simultaneously, to further improve the geometry quality of the synthetic data, we introduce a truncation method to effectively sample latent codes within 3D GAN models. To tackle the absence of multi-view supervision for single-view images, we design the depth-aware training approach, incorporating a depth-aware discriminator to guide geometry priors through depth maps. Experiments demonstrate the effectiveness of our method in terms of both qualitative and quantitative results.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# Laissez-Faire Harms: 生成言語モデルにおけるアルゴリズム的バイアス

Laissez-Faire Harms: Algorithmic Biases in Generative Language Models ( http://arxiv.org/abs/2404.07475v1 )

ライセンス: Link先を確認
Evan Shieh, Faye-Marie Vassel, Cassidy Sugimoto, Thema Monroe-White, (参考訳) 生成言語モデル(LM)の迅速な展開は、多様な消費者の幸福に影響を及ぼす社会的バイアスに関する懸念を提起している。 生成的LMに関する現存する文献は、明示的なアイデンティティープロンプトを通じて主に偏見を調査している。 しかし、検索エンジンを含む初期の言語ベースの技術プラットフォームにおける偏見に関する先行研究により、識別項が明示的に指定されていない場合でも差別が発生することが示されている。 オープンエンドプロンプトに対するLM応答のバイアスの研究(アイデンティティ分類が未特定のままである)は欠如しており、まだエンド消費者の害に基づいていない。 そこで本研究では,オープン・エンド・プロンプトにより,より広い範囲の自然利用事例を考慮し,生成的LMバイアスの研究を進めた。 この"laissez-faire"設定では、最も普及しているLM(ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, PaLM2)の5つのテキストから合成されたテキストが、交差する人種、性別、/または性的指向のアイデンティティ(AI/AN, Asian, Black, Latine, MENA, NH/PI, female, Non-binary, Queer)を持つ未成年者に対する欠落、従属、およびステレオタイピングの害を恒久的に受けていることが分かる。 このような個人が、代表者や権限を持つ人物と比較して、従属的な方法で自身のアイデンティティを表現するLM生成出力に遭遇する確率が、数百から数千倍にも達するほど、偏見の証拠が広く見られる。 また,未成年者に対して不均等に影響を及ぼす心理的障害を引き起こすことが知られているLM出力のステレオタイプ(eg perpetual foreigner)の頻度も記録する。 ステレオタイプ脅威は認知能力の低下と負の自己知覚の増大につながる。 われわれの調査結果は、言語モデルによる差別的被害から消費者を守るための緊急の必要性を強調し、多様な消費者を力づけるための重要なAI教育プログラムに投資している。

The rapid deployment of generative language models (LMs) has raised concerns about social biases affecting the well-being of diverse consumers. The extant literature on generative LMs has primarily examined bias via explicit identity prompting. However, prior research on bias in earlier language-based technology platforms, including search engines, has shown that discrimination can occur even when identity terms are not specified explicitly. Studies of bias in LM responses to open-ended prompts (where identity classifications are left unspecified) are lacking and have not yet been grounded in end-consumer harms. Here, we advance studies of generative LM bias by considering a broader set of natural use cases via open-ended prompting. In this "laissez-faire" setting, we find that synthetically generated texts from five of the most pervasive LMs (ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, and PaLM2) perpetuate harms of omission, subordination, and stereotyping for minoritized individuals with intersectional race, gender, and/or sexual orientation identities (AI/AN, Asian, Black, Latine, MENA, NH/PI, Female, Non-binary, Queer). We find widespread evidence of bias to an extent that such individuals are hundreds to thousands of times more likely to encounter LM-generated outputs that portray their identities in a subordinated manner compared to representative or empowering portrayals. We also document a prevalence of stereotypes (e.g. perpetual foreigner) in LM-generated outputs that are known to trigger psychological harms that disproportionately affect minoritized individuals. These include stereotype threat, which leads to impaired cognitive performance and increased negative self-perception. Our findings highlight the urgent need to protect consumers from discriminatory harms caused by language models and invest in critical AI education programs tailored towards empowering diverse consumers.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# サイバー物理社会システムにおけるマルチソースデータ融合に関する調査:産業メタバース・産業用基盤5.0

The Survey on Multi-Source Data Fusion in Cyber-Physical-Social Systems:Foundational Infrastructure for Industrial Metaverses and Industries 5.0 ( http://arxiv.org/abs/2404.07476v1 )

ライセンス: Link先を確認
Xiao Wang, Yutong Wang, Jing Yang, Xiaofeng Jia, Lijun Li, Weiping Ding, Fei-Yue Wang, (参考訳) 産業5.0の概念が発展するにつれて、産業メタバースは「Human-Centric」 Safe, Secure, Sustainable, Sensitive, Service, and Smartness ``6S" 製造ソリューションを提供する実際の産業プロセスと並行して運用されることが期待されている。 産業メタバースは、動的かつ進化的な方法で生産性の過程を可視化するだけでなく、プロセスを最適化し、再構築するための没入型実験環境を提供する。 さらに、ソーシャルメディアデータに隠されたカスタマイズされたユーザニーズは、産業メタバースを含む社会生産プロセス全体を構築するための入力チャネルを導入するソーシャルコンピューティング技術によって見つけることができる。 これにより、Cyber-Physical-Social Systems(CPSS)間のマルチソースデータの融合が、基礎的かつ重要な課題となる。 この研究は、まず、最先端のマルチソースデータ融合手法に関する包括的な文献レビューを実施することに基づいて、産業メタバースのためのマルチソースデータ融合駆動型運用アーキテクチャを提案する。 各手法の利点と欠点は,融合機構と応用シナリオを考慮して分析する。 特に,拡張性と並列計算における深層学習と知識グラフの強みを組み合わせることで,提案フレームワークの規範的最適化と進化を可能にする。 この統合は、知識グラフに固有の構築と保守の不完全性と課題を克服するだけでなく、説明可能性と事実作成の観点からのディープラーニングの欠点に対処することができる。 提案手法の有効性を並列織りケーススタディにより検証した。 最後に,産業メタバースと産業5.0におけるソーシャル・マニュファクチャリングにおけるマルチソースデータ融合の課題と今後の方向性について論じる。

As the concept of Industries 5.0 develops, industrial metaverses are expected to operate in parallel with the actual industrial processes to offer ``Human-Centric" Safe, Secure, Sustainable, Sensitive, Service, and Smartness ``6S" manufacturing solutions. Industrial metaverses not only visualize the process of productivity in a dynamic and evolutional way, but also provide an immersive laboratory experimental environment for optimizing and remodeling the process. Besides, the customized user needs that are hidden in social media data can be discovered by social computing technologies, which introduces an input channel for building the whole social manufacturing process including industrial metaverses. This makes the fusion of multi-source data cross Cyber-Physical-Social Systems (CPSS) the foundational and key challenge. This work firstly proposes a multi-source-data-fusion-driven operational architecture for industrial metaverses on the basis of conducting a comprehensive literature review on the state-of-the-art multi-source data fusion methods. The advantages and disadvantages of each type of method are analyzed by considering the fusion mechanisms and application scenarios. Especially, we combine the strengths of deep learning and knowledge graphs in scalability and parallel computation to enable our proposed framework the ability of prescriptive optimization and evolution. This integration can address the shortcomings of deep learning in terms of explainability and fact fabrication, as well as overcoming the incompleteness and the challenges of construction and maintenance inherent in knowledge graphs. The effectiveness of the proposed architecture is validated through a parallel weaving case study. In the end, we discuss the challenges and future directions of multi-source data fusion cross CPSS for industrial metaverses and social manufacturing in Industries 5.0.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# スピン鎖を有する量子の断熱的状態形成

Adiabatic State Preparation in a Quantum Ising Spin Chain ( http://arxiv.org/abs/2404.07481v1 )

ライセンス: Link先を確認
Sooshin Kim, Alexander Lukin, Matthew Rispoli, M. Eric Tai, Adam M. Kaufman, Perrin Segura, Yanfei Li, Joyce Kwan, Julian Léonard, Brice Bakkali-Hassani, Markus Greiner, (参考訳) 傾斜光学格子中の超低温ボソンを用いた1次元量子イジングモデルにおける断熱状態の生成について報告する。 我々は、制御可能なシステムサイズの多体基底状態を作成し、常磁性状態と反強磁性状態の遷移に関する高次変動を観測し、量子臨界挙動の前駆体を示す。 さらに, 磁壁の重ね合わせの証拠を見つけ, 遷移過程における各スピン配置の個体数を測定することにより, 多体基底状態への影響を調べた。 これらの結果は、有限サイズの量子系における境界条件の影響に新しい光を当てた。

We report on adiabatic state preparation in the one-dimensional quantum Ising model using ultracold bosons in a tilted optical lattice. We prepare many-body ground states of controllable system sizes and observe enhanced fluctuations around the transition between paramagnetic and antiferromagnetic states, marking the precursor of quantum critical behavior. Furthermore, we find evidence for superpositions of domain walls and study their effect on the many-body ground state by measuring the populations of each spin configuration across the transition. These results shed new light on the effect of boundary conditions in finite-size quantum systems.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# カラーコードデコーダによる回路レベルのノイズ補正

Color code decoder with improved scaling for correcting circuit-level noise ( http://arxiv.org/abs/2404.07482v1 )

ライセンス: Link先を確認
Seok-Hyung Lee, Andrew Li, Stephen D. Bartlett, (参考訳) 2次元カラーコードは、高い符号化率、論理的クリフォードゲートの超越実装、マジック状態構築の可能性の高さから、フォールトトレラント量子コンピューティングの有望な候補である。 しかし、色符号の復号化は、2つではなく3つのチェック(表面符号の復号化における重要な特徴)に初等誤差が違反し、抽出シンドロームの複雑さが大きくなるため、大きな課題となる。 本稿では,各色に一致する2つのデコーダを組み合わせて,検出誤差モデルを用いて回路レベルのノイズを処理することで,これらの問題に対処する効率的なカラーコードデコーダを提案する。 我々は、ビットフリップノイズと回路レベルのノイズの両方に対して、その閾値とサブ閾値のスケーリングをカバーし、デコーダの包括的解析を行う。 我々のシミュレーションでは、この復号化戦略が両方のノイズモデルに対して最も可能な論理的故障のスケーリング(p_\mathrm{fail} \sim p^{d/2}$)にほぼ達していることが示されている。 ノイズ閾値は、カラーコード用の他のマッチングベースのデコーダ(ビットフリップノイズは8.2%、回路レベルのノイズは0.46%)に匹敵するが、閾値以下の論理的故障率のスケーリングは、マッチングベースのデコーダよりも大幅に優れている。

Two-dimensional color codes are a promising candidate for fault-tolerant quantum computing, as they have high encoding rates, transversal implementation of logical Clifford gates, and high feasibility of magic state constructions. However, decoding color codes presents a significant challenge due to their structure, where elementary errors violate three checks instead of just two (a key feature in surface code decoding), and the complexity in extracting syndrome is greater. We introduce an efficient color-code decoder that tackles these issues by combining two matching decoders for each color, generalized to handle circuit-level noise by employing detector error models. We provide comprehensive analyses of the decoder, covering its threshold and sub-threshold scaling both for bit-flip noise with ideal measurements and for circuit-level noise. Our simulations reveal that this decoding strategy nearly reaches the best possible scaling of logical failure ($p_\mathrm{fail} \sim p^{d/2}$) for both noise models, where $p$ is the noise strength, in the regime of interest for fault-tolerant quantum computing. While its noise thresholds are comparable with other matching-based decoders for color codes (8.2% for bit-flip noise and 0.46% for circuit-level noise), the scaling of logical failure rates below threshold significantly outperforms the best matching-based decoders.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# MOOC学習シナリオにおけるFusing Video Semanticによるマルチモーダル感情認識

Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios ( http://arxiv.org/abs/2404.07484v1 )

ライセンス: Link先を確認
Yuan Zhang, Xiaomei Tao, Hanxu Ai, Tao Chen, Yanling Gan, (参考訳) MOOC(Massive Open Online Courses)学習シナリオでは,指導ビデオの意味情報は学習者の感情状態に決定的な影響を及ぼす。 学習者は、主に指導ビデオを見て知識を得るが、ビデオ中の意味情報は、学習者の感情状態に直接影響する。 しかし,学習者の感情状態に及ぼす指導ビデオの意味情報の影響について,潜在的に注意を払っている研究はほとんどない。 本稿では,映像意味情報が学習者の感情に与える影響を深く研究するために,映像意味情報と生理的信号を融合させることにより,マルチモーダルな感情認識手法を提案する。 我々は,事前学習された大言語モデル(LLM)を用いて映像記述を生成し,指導ビデオに関する高レベルな意味情報を得る。 眼球運動と光PlethysmoGraphy(PPG)信号とを融合させて、3つのモードの臨界情報を含む特徴を得る。 学習者の感情状態の正確な認識は感情分類器によって実現される。 実験の結果,本手法は感情認識性能を著しく向上させ,MOOC学習シナリオにおける感情認識研究の新しい視点と効率的な方法を提供することがわかった。 本提案手法は,学習者の感情状態に及ぼす指導ビデオの影響を深く理解するだけでなく,MOOC学習シナリオにおける感情認識の今後の研究にも有効である。

In the Massive Open Online Courses (MOOC) learning scenario, the semantic information of instructional videos has a crucial impact on learners' emotional state. Learners mainly acquire knowledge by watching instructional videos, and the semantic information in the videos directly affects learners' emotional states. However, few studies have paid attention to the potential influence of the semantic information of instructional videos on learners' emotional states. To deeply explore the impact of video semantic information on learners' emotions, this paper innovatively proposes a multimodal emotion recognition method by fusing video semantic information and physiological signals. We generate video descriptions through a pre-trained large language model (LLM) to obtain high-level semantic information about instructional videos. Using the cross-attention mechanism for modal interaction, the semantic information is fused with the eye movement and PhotoPlethysmoGraphy (PPG) signals to obtain the features containing the critical information of the three modes. The accurate recognition of learners' emotional states is realized through the emotion classifier. The experimental results show that our method has significantly improved emotion recognition performance, providing a new perspective and efficient method for emotion recognition research in MOOC learning scenarios. The method proposed in this paper not only contributes to a deeper understanding of the impact of instructional videos on learners' emotional states but also provides a beneficial reference for future research on emotion recognition in MOOC learning scenarios.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# ゼロショットスケルトン動作認識のためのデュアルプロンプトによる細粒側情報案内

Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition ( http://arxiv.org/abs/2404.07487v1 )

ライセンス: Link先を確認
Yang Chen, Jingcai Guo, Tian He, Ling Wang, (参考訳) 骨格に基づくゼロショット行動認識は、既知の骨格に基づく行動と、既知のカテゴリと未知のカテゴリの両方で共有される意味記述子空間の学習先に基づいて、未知の人間の行動を認識することを目的としている。 しかし、従来の研究は、既知の骨格表現空間と、未知のアクションカテゴリを認識するための粗粒度レベルでの意味記述空間のブリッジを確立することに重点を置いており、これら2つの空間のきめ細かいアライメントを無視し、その結果、高相似アクションカテゴリを区別する際の準最適性能をもたらす。 これらの課題に対処するために,スケルトンをベースとしたゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習を用いた新しい手法を提案する。 具体的には 1) 骨格をそのトポロジー構造に基づいていくつかの部分に分解し, 微粒なレベルでの骨格と意味空間のアライメントのための人体運動の多部記述の側面情報を導入する。 2) 視覚的属性と意味的部分のプロンプトを設計し, 骨格空間内におけるクラス内コンパクト性, 意味空間内におけるクラス間分離性を改善し, 高い相似性動作を識別する。 NTU RGB+D, NTU RGB+D 120, PKU-MMDデータセットのZSLおよびGZSL設定における最先端性能が得られた。

Skeleton-based zero-shot action recognition aims to recognize unknown human actions based on the learned priors of the known skeleton-based actions and a semantic descriptor space shared by both known and unknown categories. However, previous works focus on establishing the bridges between the known skeleton representation space and semantic descriptions space at the coarse-grained level for recognizing unknown action categories, ignoring the fine-grained alignment of these two spaces, resulting in suboptimal performance in distinguishing high-similarity action categories. To address these challenges, we propose a novel method via Side information and dual-prompts learning for skeleton-based zero-shot action recognition (STAR) at the fine-grained level. Specifically, 1) we decompose the skeleton into several parts based on its topology structure and introduce the side information concerning multi-part descriptions of human body movements for alignment between the skeleton and the semantic space at the fine-grained level; 2) we design the visual-attribute and semantic-part prompts to improve the intra-class compactness within the skeleton space and inter-class separability within the semantic space, respectively, to distinguish the high-similarity actions. Extensive experiments show that our method achieves state-of-the-art performance in ZSL and GZSL settings on NTU RGB+D, NTU RGB+D 120, and PKU-MMD datasets.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# ニューラルフォールトインジェクション: 自然言語からソフトウェアフォールトを生成する

Neural Fault Injection: Generating Software Faults from Natural Language ( http://arxiv.org/abs/2404.07491v1 )

ライセンス: Link先を確認
Domenico Cotroneo, Pietro Liguori, (参考訳) 従来のソフトウェアフォールトインジェクション手法は基本的なものだが、現実の障害を適切に表現し、カスタマイズを提供し、重要な手作業と専門知識を必要とするという制限に直面している。 本稿では,Reinforcement Learning from Human Feedback (RLHF) で強化されたLarge Language Models (LLM) の機能を活用し,これらの課題を克服する手法を提案する。 RLHFの使用は反復的な改善プロセスを強調しており、テスタは生成された障害に対するフィードバックを提供し、LLMの障害発生能力を向上し、実際の運用リスクを忠実に反映した障害シナリオの生成を保証するために使用される。 この革新的な方法論は、テスタがより高いレベルのテスト戦略に集中できるように、障害シナリオの作成に関わる手作業を大幅に削減することを目的としています。

Traditional software fault injection methods, while foundational, face limitations in adequately representing real-world faults, offering customization, and requiring significant manual effort and expertise. This paper introduces a novel methodology that harnesses the capabilities of Large Language Models (LLMs) augmented with Reinforcement Learning from Human Feedback (RLHF) to overcome these challenges. The usage of RLHF emphasizes an iterative refinement process, allowing testers to provide feedback on generated faults, which is then used to enhance the LLM's fault generation capabilities, ensuring the generation of fault scenarios that closely mirror actual operational risks. This innovative methodology aims to significantly reduce the manual effort involved in crafting fault scenarios as it allows testers to focus on higher-level testing strategies, hence paving the way to new possibilities for enhancing the dependability of software systems.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# グラフ学習課題におけるトポロジの影響評価

Characterizing the Influence of Topology on Graph Learning Tasks ( http://arxiv.org/abs/2404.07493v1 )

ライセンス: Link先を確認
Kailong Wu, Yule Xie, Jiaxin Ding, Yuxiang Ren, Luoyi Fu, Xinbing Wang, Chenghu Zhou, (参考訳) グラフニューラルネットワーク(GNN)は、トポロジと組み合わせて効率的な表現を生成することで、幅広いタスクにおいて顕著な成功を収めている。 しかし、グラフトポロジが下流タスクにおける学習モデルの性能にどのように影響するかを理解し解析する根本的な問題は、まだ十分に理解されていない。 本稿では,グラフデータのトポロジ情報と下流タスク目標との整合度を測定することで,グラフトポロジの影響を特徴づける計量TopoInfを提案する。 本稿では、文脈確率ブロックモデル上で、分離されたGNNに基づいて分析を行い、そのメトリクスの有効性を実証する。 広範な実験を通じて,TopoInfは対応するタスクに対するトポロジカルな影響を測定する上で有効な指標であり,グラフ学習を強化するためにさらに活用できることを実証する。

Graph neural networks (GNN) have achieved remarkable success in a wide range of tasks by encoding features combined with topology to create effective representations. However, the fundamental problem of understanding and analyzing how graph topology influences the performance of learning models on downstream tasks has not yet been well understood. In this paper, we propose a metric, TopoInf, which characterizes the influence of graph topology by measuring the level of compatibility between the topological information of graph data and downstream task objectives. We provide analysis based on the decoupled GNNs on the contextual stochastic block model to demonstrate the effectiveness of the metric. Through extensive experiments, we demonstrate that TopoInf is an effective metric for measuring topological influence on corresponding tasks and can be further leveraged to enhance graph learning.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# PillarTrack: ポイントクラウド上の単一オブジェクト追跡のためのPillarベースのトランスフォーマーネットワークの再設計

PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2404.07495v1 )

ライセンス: Link先を確認
Weisheng Xu, Sifan Zhou, Zhihang Yuan, (参考訳) LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。 類似性や動きに基づいて、検索エリアから正確な3D BBoxを得る。 しかし、既存の3D SOTメソッドは通常、サンプリング操作が必然的に冗長または失われる情報をもたらし、予期せぬ性能をもたらす点ベースのパイプラインに従っている。 これらの問題に対処するため、柱ベースの3Dオブジェクト追跡フレームワークであるPillarTrackを提案する。 まず、スパース点雲を高密度の柱に変換し、局所的および大域的幾何学を保存する。 次に、各柱の特徴表現を支援するために、ピラミッド型符号化ピラー特徴符号化器(PE-PFE)の設計を提案する。 第3に、モダリティ差の観点から、効率的なトランスフォーマーベースのバックボーンを提案する。 最後に、上記の設計に基づいてPillarTrackトラッカーを構築する。 KITTIおよびnuScenesデータセットの大規模な実験により,提案手法の優位性を実証した。 特に,本手法は,KITTIおよびnuScenesデータセット上での最先端性能を実現し,リアルタイム追跡速度を実現する。 私たちは、コミュニティが既存の3D SOTトラッカーの設計を再考するよう促すことを願っています。

LiDAR-based 3D single object tracking (3D SOT) is a critical issue in robotics and autonomous driving. It aims to obtain accurate 3D BBox from the search area based on similarity or motion. However, existing 3D SOT methods usually follow the point-based pipeline, where the sampling operation inevitably leads to redundant or lost information, resulting in unexpected performance. To address these issues, we propose PillarTrack, a pillar-based 3D single object tracking framework. Firstly, we transform sparse point clouds into dense pillars to preserve the local and global geometrics. Secondly, we introduce a Pyramid-type Encoding Pillar Feature Encoder (PE-PFE) design to help the feature representation of each pillar. Thirdly, we present an efficient Transformer-based backbone from the perspective of modality differences. Finally, we construct our PillarTrack tracker based above designs. Extensive experiments on the KITTI and nuScenes dataset demonstrate the superiority of our proposed method. Notably, our method achieves state-of-the-art performance on the KITTI and nuScenes dataset and enables real-time tracking speed. We hope our work could encourage the community to rethink existing 3D SOT tracker designs.We will open source our code to the research community in https://github.com/StiphyJay/PillarTrack.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# シーケンスサリエンスによる対話型プロンプトデバッグ

Interactive Prompt Debugging with Sequence Salience ( http://arxiv.org/abs/2404.07498v1 )

ライセンス: Link先を確認
Ian Tenney, Ryan Mullins, Bin Du, Shree Pandya, Minsuk Kahng, Lucas Dixon, (参考訳) 本稿では,インプットサリエンス法によるインタラクティブなプロンプトデバッグのためのビジュアルツールであるSequence Salienceを紹介する。 Sequence Salienceは、テキスト分類とシングルトーケン予測に広く使われているサリエンス法に基づいて構築され、複雑なLCMプロンプトのデバッグに適したシステムに拡張されている。 我々のシステムは長文に適しており、以前の作業にも適応している。 1) 単語,文又は段落にトークンレベルのサリエンスを制御可能なアグリゲーションを提供することにより,長期入力に対するサリエンスを抽出することができる。 2)サリエンスの結果に対処し,プロンプトを洗練し,新たなアウトプットに対してサリエンスを実行する,迅速なイテレーションを支援する。 シークエンス・サリエンス(Sequence Salience)が実践者にとってどのように役立つかを示すケーススタディを含む。 Sequence SalienceはMLモデルビジュアライゼーションのためのオープンソースのプラットフォームであるLearning Interpretability Tool上に構築されており、コード、ノートブック、チュートリアルはhttp://goo.gle/sequence-salience.comで入手できる。

We present Sequence Salience, a visual tool for interactive prompt debugging with input salience methods. Sequence Salience builds on widely used salience methods for text classification and single-token prediction, and extends this to a system tailored for debugging complex LLM prompts. Our system is well-suited for long texts, and expands on previous work by 1) providing controllable aggregation of token-level salience to the word, sentence, or paragraph level, making salience over long inputs tractable; and 2) supporting rapid iteration where practitioners can act on salience results, refine prompts, and run salience on the new output. We include case studies showing how Sequence Salience can help practitioners work with several complex prompting strategies, including few-shot, chain-of-thought, and constitutional principles. Sequence Salience is built on the Learning Interpretability Tool, an open-source platform for ML model visualizations, and code, notebooks, and tutorials are available at http://goo.gle/sequence-salience.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# プロセス情報抽出のためのデータ拡張の活用

Leveraging Data Augmentation for Process Information Extraction ( http://arxiv.org/abs/2404.07501v1 )

ライセンス: Link先を確認
Julian Neuberger, Leonie Doll, Benedict Engelmann, Lars Ackermann, Stefan Jablonski, (参考訳) ビジネスプロセスモデリング プロジェクトは、しばしば中心的なコンポーネントとして形式的なプロセスモデルを必要とします。 このような形式的なプロセスモデルの作成に伴う高コストは、容易に利用可能なデータからプロセスモデルの自動生成を目的とした多くの異なる研究分野を動機づけた。 これには、イベントログのプロセスマイニング、自然言語テキストからビジネスプロセスモデルを生成することが含まれる。 後者の分野の研究は、データ可用性の制限という問題に直面しており、特に学習に基づく新しい技術の評価と開発を妨げている。 本稿では,このデータ不足を克服するために,自然言語テキストデータへのデータ拡張の適用について検討する。 データ拡張方法は、人間の助けなしに新しい合成データを作成する機械学習において十分に確立されている。 これらの手法の多くはビジネスプロセス情報抽出のタスクに適用でき、抽出の精度が向上することがわかった。 我々の研究は、自然言語テキストからビジネスプロセスモデルを生成するタスクにおいて、データ拡張が機械学習手法を実現する上で重要な要素であることを示している。 単純なデータ拡張手法により、参照抽出の$F_1$を2.9ポイント、関係抽出の$F_1$を$4.5$に改善した。 データ拡張が人間の注釈付きテキストをどのように変化させるかをよりよく理解するために、得られたテキストを分析し、拡張されたテキストデータの性質を視覚化し、議論する。 すべてのコードと実験結果を公開しています。

Business Process Modeling projects often require formal process models as a central component. High costs associated with the creation of such formal process models motivated many different fields of research aimed at automated generation of process models from readily available data. These include process mining on event logs, and generating business process models from natural language texts. Research in the latter field is regularly faced with the problem of limited data availability, hindering both evaluation and development of new techniques, especially learning-based ones. To overcome this data scarcity issue, in this paper we investigate the application of data augmentation for natural language text data. Data augmentation methods are well established in machine learning for creating new, synthetic data without human assistance. We find that many of these methods are applicable to the task of business process information extraction, improving the accuracy of extraction. Our study shows, that data augmentation is an important component in enabling machine learning methods for the task of business process model generation from natural language text, where currently mostly rule-based systems are still state of the art. Simple data augmentation techniques improved the $F_1$ score of mention extraction by 2.9 percentage points, and the $F_1$ of relation extraction by $4.5$. To better understand how data augmentation alters human annotated texts, we analyze the resulting text, visualizing and discussing the properties of augmented textual data. We make all code and experiments results publicly available.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# 心的制約を用いた対物的説明の生成

Generating Counterfactual Explanations Using Cardinality Constraints ( http://arxiv.org/abs/2404.07502v1 )

ライセンス: Link先を確認
Rubén Ruiz-Torrubiano, (参考訳) 機械学習アルゴリズムがどのように機能するか、あるいは特定の予測を行うかについての説明を提供することは、そのトラストネス、公正性、堅牢性を改善するために使用できる主要なツールの1つです。 最も直感的な説明のタイプは反事実であり、これは予測対象の特定の点といくつかの特徴のセットだけが異なる例であり、その例の予測をひっくり返すために元の例でどの特徴を変更する必要があるかを示す。 しかし、そのような反事実は元の例とは多くの異なる特徴を持ち、解釈を困難にしている。 本稿では,原例と異なる特徴の数を制限した反ファクト生成に基数制約を明示的に付加することにより,より解釈可能で不安定な反ファクト生成を実現することを提案する。

Providing explanations about how machine learning algorithms work and/or make particular predictions is one of the main tools that can be used to improve their trusworthiness, fairness and robustness. Among the most intuitive type of explanations are counterfactuals, which are examples that differ from a given point only in the prediction target and some set of features, presenting which features need to be changed in the original example to flip the prediction for that example. However, such counterfactuals can have many different features than the original example, making their interpretation difficult. In this paper, we propose to explicitly add a cardinality constraint to counterfactual generation limiting how many features can be different from the original example, thus providing more interpretable and easily understantable counterfactuals.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# 言語モデルのための合成データに関するベストプラクティスと教訓

Best Practices and Lessons Learned on Synthetic Data for Language Models ( http://arxiv.org/abs/2404.07503v1 )

ライセンス: Link先を確認
Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai, (参考訳) AIモデルの成功は、データ不足、プライバシの懸念、高コストによる取得が困難な、大規模で多様で高品質なデータセットの可用性に依存している。 合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望な解決策として現れてきた。 本稿では,合成データ研究の概要と応用,課題,今後の方向性について論じる。 我々は,先行技術による実証的証拠を提示し,その有効性を示し,その事実性,忠実性,不偏性を保証することの重要性を強調した。 我々は、より強力で包括的で信頼できる言語モデルを構築するために、合成データの責任ある利用の必要性を強調します。

The success of AI models relies on the availability of large, diverse, and high-quality datasets, which can be challenging to obtain due to data scarcity, privacy concerns, and high costs. Synthetic data has emerged as a promising solution by generating artificial data that mimics real-world patterns. This paper provides an overview of synthetic data research, discussing its applications, challenges, and future directions. We present empirical evidence from prior art to demonstrate its effectiveness and highlight the importance of ensuring its factuality, fidelity, and unbiasedness. We emphasize the need for responsible use of synthetic data to build more powerful, inclusive, and trustworthy language models.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# オブジェクト依存の緩和:オブジェクト交換によるポイントクラウド自己監視学習の改善

Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange ( http://arxiv.org/abs/2404.07504v1 )

ライセンス: Link先を確認
Yanhao Wu, Tong Zhang, Wei Ke, Congpei Qiu, Sabine Susstrunk, Mathieu Salzmann, (参考訳) ポイントクラウドシーン理解の領域では、特に屋内シーンでは、オブジェクトは人間の習慣に従って配置され、特定のセマンティクスのオブジェクトは密に位置決めされ、顕著なオブジェクト間の相関を示す。 これにより、ニューラルネットワークは、個々のオブジェクトパターンをバイパスして、これらの強い依存関係を利用する傾向がある。 この課題に対処するために,新たな自己教師型学習(SSL)戦略を導入する。 このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。 これは、オブジェクト交換戦略の定式化から始まり、同じ大きさのオブジェクトのペアを異なるシーン間で交換し、強いコンテキスト依存を効果的に切り離す。 次に、各場面にオブジェクトの特徴を集約することで、特定のコンテキストに依存することなく、オブジェクトパターンを符号化するコンテキスト認識型特徴学習戦略を提案する。 提案手法は既存のSSL技術よりも優れていることを示すとともに,環境変化に対するロバスト性も向上した。 さらに、トレーニング済みのモデルを多様なポイントクラウドデータセットに転送することで、このアプローチの適用性を示す。

In the realm of point cloud scene understanding, particularly in indoor scenes, objects are arranged following human habits, resulting in objects of certain semantics being closely positioned and displaying notable inter-object correlations. This can create a tendency for neural networks to exploit these strong dependencies, bypassing the individual object patterns. To address this challenge, we introduce a novel self-supervised learning (SSL) strategy. Our approach leverages both object patterns and contextual cues to produce robust features. It begins with the formulation of an object-exchanging strategy, where pairs of objects with comparable sizes are exchanged across different scenes, effectively disentangling the strong contextual dependencies. Subsequently, we introduce a context-aware feature learning strategy, which encodes object patterns without relying on their specific context by aggregating object features across various scenes. Our extensive experiments demonstrate the superiority of our method over existing SSL techniques, further showing its better robustness to environmental changes. Moreover, we showcase the applicability of our approach by transferring pre-trained models to diverse point cloud datasets.
翻訳日:2024-04-12 14:58:47 公開日:2024-04-11
# コンプレッションドエグゼクティブな新食品の分類を学習する

Learning to Classify New Foods Incrementally Via Compressed Exemplars ( http://arxiv.org/abs/2404.07507v1 )

ライセンス: Link先を確認
Justin Yang, Zhihao Duan, Jiangpeng He, Fengqing Zhu, (参考訳) 食品画像分類システムは、画像に基づく食事評価技術を通じて、健康モニタリングと食事追跡において重要な役割を担っている。 しかし、既存の食品認識システムは、予め定義された一定数の食品クラスによって特徴づけられる静的なデータセットに依存している。 これは、常に変化するデータを特徴とする食品消費の現実とは大きく対照的である。 したがって、食品画像分類システムは、継続的に進化するデータに適応し、管理する必要がある。 ここでは継続的学習が重要な役割を担います。 継続的な学習の課題は破滅的な忘れことであり、MLモデルは新しい情報を学ぶ際に古い知識を捨てる傾向がある。 メモリ再生アルゴリズムは、古いデータを例示として保存することでこの問題を軽減することを約束しているが、メモリバッファの容量の制限によって妨げられ、新しいデータと以前に学習したデータの不均衡につながる。 そこで本研究では,バッファサイズを拡大し,データの多様性を高めるために,ニューラルイメージ圧縮を用いることについて検討する。 我々は、圧縮されたデータの品質を適応的に改善し、ピクセル当たりのビットレートを最適化し、より優れたデータを保存するために、ニューラル圧縮モデルを継続的に学習するという概念を紹介した。 食品101およびVFN-74を含む食品固有のデータセットと一般データセットであるImageNet-100の評価を含む広範な実験は、分類精度の向上を実証している。 この進歩は、絶え間なく進化するデータに適応できる、より現実的な食品認識システムを進める上で重要である。 さらに、私たちが開発した原則と方法論は、より広範なアプリケーションに対する約束を守り、そのメリットを継続的機械学習システムの他の領域に拡張します。

Food image classification systems play a crucial role in health monitoring and diet tracking through image-based dietary assessment techniques. However, existing food recognition systems rely on static datasets characterized by a pre-defined fixed number of food classes. This contrasts drastically with the reality of food consumption, which features constantly changing data. Therefore, food image classification systems should adapt to and manage data that continuously evolves. This is where continual learning plays an important role. A challenge in continual learning is catastrophic forgetting, where ML models tend to discard old knowledge upon learning new information. While memory-replay algorithms have shown promise in mitigating this problem by storing old data as exemplars, they are hampered by the limited capacity of memory buffers, leading to an imbalance between new and previously learned data. To address this, our work explores the use of neural image compression to extend buffer size and enhance data diversity. We introduced the concept of continuously learning a neural compression model to adaptively improve the quality of compressed data and optimize the bitrates per pixel (bpp) to store more exemplars. Our extensive experiments, including evaluations on food-specific datasets including Food-101 and VFN-74, as well as the general dataset ImageNet-100, demonstrate improvements in classification accuracy. This progress is pivotal in advancing more realistic food recognition systems that are capable of adapting to continually evolving data. Moreover, the principles and methodologies we've developed hold promise for broader applications, extending their benefits to other domains of continual machine learning systems.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# 多パラメータカスケード量子干渉計

Multiparameter cascaded quantum interferometer ( http://arxiv.org/abs/2404.07509v1 )

ライセンス: Link先を確認
Baihong Li, Zhuo-zhuo Wang, Qi-qi Li, Changhua Chen, Boxin Yuan, Yiwei Zhai, Rui-Bo Jin, Xiaofei Zhang, (参考訳) 理論的には、50:50ビームスプリッタとn個の独立かつ調整可能な時間遅延を連結することにより、2入力と2出力のセットアップが得られるマルチパラメータカスケード量子干渉計を提案する。 ビームスプリッタの行列の線形変換に基づいて、そのような干渉計の一致確率を導出する一般的な方法が与えられる。 例として,周波数相関と入力状態の異なる1パラメータ,2パラメータ,3パラメータの量子干渉計の干渉特性を解析する。 このような干渉計の典型的なインターフェログラムは、よりリッチで複雑な2光子干渉現象を明らかにするために提供される。 原則として、任意の2インプットと2インプットの実験装置を設計することができる。 この研究は、汎用量子干渉計を設計するためのツールボックスを提供し、関連する偶然の確率を導出するための便利な方法を提供する。 ポテンシャルの応用は、2光子状態の完全なスペクトル評価、マルチパラメータ推定、量子メトロジーに見ることができる。

We theoretically propose a multiparameter cascaded quantum interferometer in which a two-input and two-output setup is obtained by concatenating 50:50 beam splitters with n independent and adjustable time delays. A general method for deriving the coincidence probability of such an interferometer is given based on the linear transformation of the matrix of beam splitters. As examples, we analyze the interference characteristics of one-, two- and three-parameter cascaded quantum interferometers with different frequency correlations and input states. Some typical interferograms of such interferometers are provided to reveal more rich and complicated two-photon interference phenomena. In principle, arbitrary two-input and two-output experimental setups can be designed with the proposal. This work offers a toolbox for designing versatile quantum interferometers and provides a convenient method for deriving the coincidence probabilities involved. Potential applications can be found in the complete spectral characterization of two-photon states, multiparameter estimation, and quantum metrology.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# サプライチェーンネットワーク最適化のための生成確率計画

Generative Probabilistic Planning for Optimizing Supply Chain Networks ( http://arxiv.org/abs/2404.07511v1 )

ライセンス: Link先を確認
Hyung-il Ahn, Santiago Olivar, Hershel Mehta, Young Chol Song, (参考訳) 企業におけるサプライチェーンネットワークは、通常、様々な種類のノードとエッジを含む複雑なトポロジグラフで構成されており、かなりの需要とサプライ変数を持つ多数の製品が収容されている。 しかし、サプライチェーンネットワークのサイズと複雑さが拡大するにつれて、従来のサプライチェーン計画手法(例えば、ヒューリスティックなルールベースおよびオペレーションリサーチベースシステムに見られるもの)は局所的に最適になるか、あるいは拡張性に欠ける傾向にあり、ネットワーク内のノード間のサプライと需要の間にかなりの不均衡が生じる。 本稿では,生成確率計画(Generative Probabilistic Planning, GPP)と呼ばれる新しい生成AI技術を紹介する。 GPPは、利益の最大化やサービスレベル、時間的変動確率的需要、リードタイム、生産条件などの目標変更のために、全ネットワークノードでグローバルに最適化された動的サプライアクションプランを生成します。 GPPは、注意に基づくグラフニューラルネットワーク(GNN)、オフライン深層学習(Offline RL)、およびポリシーシミュレーションを利用して、生成ポリシーモデルをトレーニングし、確率的シミュレーションを通じて最適な計画を作成する。 複雑なサプライチェーンネットワークを持つグローバル消費財企業の履歴データを用いた実験により、GPPはサプライチェーンネットワークの客観的適応性、確率論的レジリエンス、動的プランニングを達成し、企業におけるパフォーマンスと収益性を大幅に向上させることを示した。 私たちの仕事は、サプライチェーンドメインにおけるAI採用の軌道を形成する上で、重要な役割を担います。

Supply chain networks in enterprises are typically composed of complex topological graphs involving various types of nodes and edges, accommodating numerous products with considerable demand and supply variability. However, as supply chain networks expand in size and complexity, traditional supply chain planning methods (e.g., those found in heuristic rule-based and operations research-based systems) tend to become locally optimal or lack computational scalability, resulting in substantial imbalances between supply and demand across nodes in the network. This paper introduces a novel Generative AI technique, which we call Generative Probabilistic Planning (GPP). GPP generates dynamic supply action plans that are globally optimized across all network nodes over the time horizon for changing objectives like maximizing profits or service levels, factoring in time-varying probabilistic demand, lead time, and production conditions. GPP leverages attention-based graph neural networks (GNN), offline deep reinforcement learning (Offline RL), and policy simulations to train generative policy models and create optimal plans through probabilistic simulations, effectively accounting for various uncertainties. Our experiments using historical data from a global consumer goods company with complex supply chain networks demonstrate that GPP accomplishes objective-adaptable, probabilistically resilient, and dynamic planning for supply chain networks, leading to significant improvements in performance and profitability for enterprises. Our work plays a pivotal role in shaping the trajectory of AI adoption within the supply chain domain.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# 小分子上の量子逆アルゴリズムの数値的研究

Numerical investigation of the quantum inverse algorithm on small molecules ( http://arxiv.org/abs/2404.07512v1 )

ライセンス: Link先を確認
Mauro Cainelli, Reo Baba, Yuki Kurashige, (参考訳) 我々は、積分パラメータ($\lambda$)とH$2$、LiH、BeH$2$および悪名高いH$_4$分子の関数として、基準波動関数に対する$\hat{H}^{-k}$の乗算を$e^{-i\lambda \hat{H}}$のフーリエ変換乗算に置き換えた量子逆数(Q-Inv)アルゴリズムの精度を評価する。 さらに,ガウス四分法則を代替積分法として適用し,台形積分を用いた結果と比較する。 Q-Invアルゴリズムは、$\hat{H}^{-1}$ inverse (I-Iter) と正逆分解(LU)を用いた逆反復法と比較される。 エネルギー値はハミルトニアンの期待値として評価される。 結果から,Q-Inv法はI-Iter法よりも低エネルギーであり,その後積分間隔に依存する数値積分の誤差によりエネルギーが増加することが示唆された。 ガウス四分法と台形積分法の組み合わせは,演算数を減らしながら収束するのに有効であることが判明した。 予測誤差しきい値に到達できないH$_4$のようなシステムに対しては,Q-Inv法とI-Iter法を組み合わせて,より低い計算コストで$k$の誤差を低減させる手法を提案する。 最後に,未知のシステムを扱う際の推奨手順を要約する。

We evaluate the accuracy of the quantum inverse (Q-Inv) algorithm in which the multiplication of $\hat{H}^{-k}$ to the reference wavefunction is replaced by the Fourier Transformed multiplication of $e^{-i\lambda \hat{H}}$, as a function of the integration parameters ($\lambda$) and the power $k$ for various systems, including H$_2$, LiH, BeH$_2$ and the notorious H$_4$ molecule at single point. We further consider the possibility of employing the Gaussian-quadrature rule as an alternate integration method and compared it to the results employing trapezoidal integration. The Q-Inv algorithm is compared to the inverse iteration method using the $\hat{H}^{-1}$ inverse (I-Iter) and the exact inverse by lower-upper decomposition (LU). Energy values are evaluated as the expectation values of the Hamiltonian. Results suggest that the Q-Inv method provides lower energy results than the I-Iter method up to a certain $k$, after which the energy increases due to errors in the numerical integration that are dependent of the integration interval. A combined Gaussian-quadrature and trapezoidal integration method proved to be more effective at reaching convergence while decreasing the number of operations. For systems like H$_4$, in which the Q-Inv can not reach the expected error threshold, we propose a combination of Q-Inv and I-Iter methods to further decrease the error with $k$ at lower computational cost. Finally, we summarize the recommended procedure when treating unknown systems.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# データ拡張における一般化ギャップ:照明からの洞察

Generalization Gap in Data Augmentation: Insights from Illumination ( http://arxiv.org/abs/2404.07514v1 )

ライセンス: Link先を確認
Jianqiang Xiao, Weiwen Guo, Junfeng Liu, Mengze Li, (参考訳) コンピュータビジョンの分野では、深層学習技術を用いてデータセットをトレーニングする際の特徴的複雑さを強化するために、データ拡張が広く用いられている。 しかし、モデルの一般化能力については、データ拡張によって生成された人工的特徴と自然な視覚的特徴との差が完全には明らかになっていない。 本研究は,視覚表現変数の「照明」に着目し,その分布劣化をシミュレーションし,データ拡張技術が分類タスクにおけるモデル性能をいかに向上させるかを検討する。 我々のゴールは、拡張現実で訓練されたモデルと実世界の照明条件で訓練されたモデルとの一般化の違いを調査することである。 その結果、様々なデータ拡張手法を実行した後、モデルの性能が大幅に改善されたことが示唆された。 しかし、様々なデータ拡張手法を利用して、モデル一般化を強化するトレーニングセットにおける特徴多様性の重要な役割を強調した上で、注目すべき一般化ギャップが依然として残っている。

In the field of computer vision, data augmentation is widely used to enrich the feature complexity of training datasets with deep learning techniques. However, regarding the generalization capabilities of models, the difference in artificial features generated by data augmentation and natural visual features has not been fully revealed. This study focuses on the visual representation variable 'illumination', by simulating its distribution degradation and examining how data augmentation techniques enhance model performance on a classification task. Our goal is to investigate the differences in generalization between models trained with augmented data and those trained under real-world illumination conditions. Results indicate that after undergoing various data augmentation methods, model performance has been significantly improved. Yet, a noticeable generalization gap still exists after utilizing various data augmentation methods, emphasizing the critical role of feature diversity in the training set for enhancing model generalization.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# 連続学習用変圧器の思い出

Remembering Transformer for Continual Learning ( http://arxiv.org/abs/2404.07518v1 )

ライセンス: Link先を確認
Yuwei Sun, Jun Sakuma, Ryota Kanai, (参考訳) ニューラルネットワークは、新しいタスク知識が以前学んだ知識に干渉する連続学習において、カタストロフィック・フォーッティング(CF)の課題に直面している。 本稿では,脳の補足学習システム(CLS)にインスパイアされたリマインドトランスフォーマーを提案する。 覚えています Transformerは、タスクデータを関連するアダプタに動的にルーティングすることでCFを緩和するために、アダプタの混合と生成モデルベースのルーティングメカニズムを採用しています。 本手法は,視覚連続学習タスクにおけるSOTAの新たな性能とパラメータ効率を実証した。

Neural networks encounter the challenge of Catastrophic Forgetting (CF) in continual learning, where new task knowledge interferes with previously learned knowledge. We propose Remembering Transformer, inspired by the brain's Complementary Learning Systems (CLS), to tackle this issue. Remembering Transformer employs a mixture-of-adapters and a generative model-based routing mechanism to alleviate CF by dynamically routing task data to relevant adapters. Our approach demonstrated a new SOTA performance in various vision continual learning tasks and great parameter efficiency.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# LATTE:高効率変圧器用ヘッドワイドトレーニング用閾値付き低精度近似アテンション

LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer ( http://arxiv.org/abs/2404.07519v1 )

ライセンス: Link先を確認
Jiing-Ping Wang, Ming-Guang Lin, An-Yeu, Wu, (参考訳) NLPとCVドメインにおけるトランスフォーマーモデルの増加に伴い、マルチヘッドアテンションはゲームチェンジャーであることが証明されている。 しかし、その高価な計算は、特に長いシーケンスタスクにおいて、モデルのスループットと効率に課題をもたらす。 注意深度を爆発させることは、計算量を削減する効果的な方法であることが証明されている。 それにもかかわらず、先行研究では異なる頭部の様々な分布を考慮せず、しきい値を決定する体系的な方法が欠如している。 これらの課題に対処するために,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた低精度近似注意法を提案する。 LATTEは、MHAの計算量を削減するために、低精度のドット積と計算再利用機構を備えたヘッドワイズしきい値ベースのフィルタを用いる。 さらに、トレーニング可能なしきい値を導入し、しきい値を調整するための体系的な方法を提供し、エンドツーエンドの最適化を可能にする。 LATTE は NLP タスクと CV タスクの両方にスムーズに適応できることを示す実験結果が得られた。 また、トレーニング可能なしきい値は、性能と計算のレバレッジに不可欠であることが示されている。 その結果、LATTEは最大85.16%のキーをフィルタリングし、CVタスクでは0.87%の精度低下と89.91%のキーをフィルタし、NLPタスクでは0.86のパープレキシティが増大した。

With the rise of Transformer models in NLP and CV domain, Multi-Head Attention has been proven to be a game-changer. However, its expensive computation poses challenges to the model throughput and efficiency, especially for the long sequence tasks. Exploiting the sparsity in attention has been proven to be an effective way to reduce computation. Nevertheless, prior works do not consider the various distributions among different heads and lack a systematic method to determine the threshold. To address these challenges, we propose Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer (LATTE). LATTE employs a headwise threshold-based filter with the low-precision dot product and computation reuse mechanism to reduce the computation of MHA. Moreover, the trainable threshold is introduced to provide a systematic method for adjusting the thresholds and enable end-to-end optimization. Experimental results indicate LATTE can smoothly adapt to both NLP and CV tasks, offering significant computation savings with only a minor compromise in performance. Also, the trainable threshold is shown to be essential for the leverage between the performance and the computation. As a result, LATTE filters up to 85.16% keys with only a 0.87% accuracy drop in the CV task and 89.91% keys with a 0.86 perplexity increase in the NLP task.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# PromptSync:クラスアウェアなプロトタイプアライメントと識別による視覚言語モデルにおけるドメインギャップのブリッジ

PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination ( http://arxiv.org/abs/2404.07520v1 )

ライセンス: Link先を確認
Anant Khandelwal, (参考訳) CLIPのような視覚言語(V-L)モデルにおけるゼロショット一般化の可能性は、多くの下流タスクに対処する上で広く採用されている。 従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。 本研究では,テストサンプルとフィルタ付き拡張ビューの平均クラス確率を重み付けしたクラス認識型プロトタイプアライメントを用いて,この問題に対処する。 さらに,コントラスト学習を用いたプロトタイプ識別を行うことにより,クラス確率が可能な限り正確であることを保証する。 アライメントと差別的損失の組み合わせは幾何学的正則化器として機能し、迅速な表現が単一クラスに崩壊するのを防ぎ、ソースとテストドメイン間の分配ギャップを効果的にブリッジする。 提案手法はPmptSyncと呼ばれ,V-Lモデルのテキストとビジョンの両方で各テストサンプルのプロンプトを同期させる。 ドメイン一般化ベンチマークの実証評価では,提案手法は,全体の性能が 2.33 %,ベース・ツー・ノーベル一般化が 1 %,クロスデータセット転送タスクが 2.84 % 向上した。

The potential for zero-shot generalization in vision-language (V-L) models such as CLIP has spurred their widespread adoption in addressing numerous downstream tasks. Previous methods have employed test-time prompt tuning to adapt the model to unseen domains, but they overlooked the issue of imbalanced class distributions. In this study, we explicitly address this problem by employing class-aware prototype alignment weighted by mean class probabilities obtained for the test sample and filtered augmented views. Additionally, we ensure that the class probabilities are as accurate as possible by performing prototype discrimination using contrastive learning. The combination of alignment and discriminative loss serves as a geometric regularizer, preventing the prompt representation from collapsing onto a single class and effectively bridging the distribution gap between the source and test domains. Our method, named PromptSync, synchronizes the prompts for each test sample on both the text and vision branches of the V-L model. In empirical evaluations on the domain generalization benchmark, our method outperforms previous best methods by 2.33\% in overall performance, by 1\% in base-to-novel generalization, and by 2.84\% in cross-dataset transfer tasks.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# GNNによるサプライチェーンネットワークの確率的供給と在庫予測

GNN-based Probabilistic Supply and Inventory Predictions in Supply Chain Networks ( http://arxiv.org/abs/2404.07523v1 )

ライセンス: Link先を確認
Hyung-il Ahn, Young Chol Song, Santiago Olivar, Hershel Mehta, Naveen Tewari, (参考訳) サプライチェーンの最適化が成功するには、供給と需要の不均衡を時間とともに軽減する必要がある。 供給計画には正確な需要予測が不可欠だが、それだけでは十分ではない。 最適かつ実行可能な実行のためのサプライ計画の成功の鍵は、実行地平線全体における需要とサプライの両方の予測可能性の最大化にある。 したがって、供給予測の精度を高めることは、過剰在庫や減産を伴わずに需要に合致する達成可能な供給計画を作成するために不可欠である。 しかし、多数のノードとエッジを持つ複雑なサプライチェーンネットワークでは、動的ノードの相互作用、カスケードされたサプライ遅延、リソース可用性、生産能力、ロジスティック機能により、正確なサプライ予測が困難である。 その結果、サプライ実行は、しばしば当初の計画から逸脱する。 これを解決するために、グラフベースのサプライ予測(GSP)確率モデルを提案する。 我々の注目に基づくグラフニューラルネットワーク(GNN)モデルは、グラフ構造化履歴データ、需要予測、および元の供給計画入力を用いて、供給、在庫、不均衡を予測する。 グローバル消費財企業の大規模サプライチェーンの履歴データを用いて行った実験は、GSPが供給と在庫予測の精度を大幅に改善し、実行を最適化するための供給計画修正を提供する可能性を実証した。

Successful supply chain optimization must mitigate imbalances between supply and demand over time. While accurate demand prediction is essential for supply planning, it alone does not suffice. The key to successful supply planning for optimal and viable execution lies in maximizing predictability for both demand and supply throughout an execution horizon. Therefore, enhancing the accuracy of supply predictions is imperative to create an attainable supply plan that matches demand without overstocking or understocking. However, in complex supply chain networks with numerous nodes and edges, accurate supply predictions are challenging due to dynamic node interactions, cascading supply delays, resource availability, production and logistic capabilities. Consequently, supply executions often deviate from their initial plans. To address this, we present the Graph-based Supply Prediction (GSP) probabilistic model. Our attention-based graph neural network (GNN) model predicts supplies, inventory, and imbalances using graph-structured historical data, demand forecasting, and original supply plan inputs. The experiments, conducted using historical data from a global consumer goods company's large-scale supply chain, demonstrate that GSP significantly improves supply and inventory prediction accuracy, potentially offering supply plan corrections to optimize executions.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# GQuESTによる時空間変動検出のための光子計数干渉法

Photon Counting Interferometry to Detect Geontropic Space-Time Fluctuations with GQuEST ( http://arxiv.org/abs/2404.07524v1 )

ライセンス: Link先を確認
Sander M. Vermeulen, Torrey Cullen, Daniel Grass, Ian A. O. MacMillan, Alexander J. Ramirez, Jeffrey Wack, Boris Korzh, Vincent S. H. Lee, Kathryn M. Zurek, Chris Stoughton, Lee McCuller, (参考訳) GQuEST (Gravity from the Quantum Entanglement of Space-Time) 実験では、テーブルトップスケールのMichelsonレーザー干渉計を用いて、時空の変動を観測している。 本稿では、干渉計の標準量子限界に従わないため、前例のない感度を提供する新しい光子計数読出し方式を特徴とする干渉計設計を提案する。 我々はこの設計の可能性を評価し、最近の「地対流」量子重力モデルによって動機付けられた時空変動を測定する。 光子計の読み出しによって得られる統計力の加速により、GQuESTは測定時間内の予測された量子重力現象を、同等の従来の干渉計の少なくとも100倍の速さで検出することができる。 GQuESTの設計により、実験室規模の実験で量子重力のシグネチャを高速かつ敏感に探索することができる。

The GQuEST (Gravity from the Quantum Entanglement of Space-Time) experiment uses tabletop-scale Michelson laser interferometers to probe for fluctuations in space-time. We present an interferometer design featuring a novel photon counting readout method that provides unprecedented sensitivity, as it is not subject to the interferometric standard quantum limit. We evaluate the potential of this design to measure space-time fluctuations motivated by recent `geontropic' quantum gravity models. The accelerated accrual of statistical power offered by the photon counting readout enables GQuEST to detect the predicted quantum gravity phenomena within measurement times at least 100 times shorter than equivalent conventional interferometers. The GQuEST design thus enables a fast and sensitive search for signatures of quantum gravity in a laboratory-scale experiment.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# Polyak Step-Size Adaptionによる政策グラディエント向上

Enhancing Policy Gradient with the Polyak Step-Size Adaption ( http://arxiv.org/abs/2404.07525v1 )

ライセンス: Link先を確認
Yunxiang Li, Rui Yuan, Chen Fan, Mark Schmidt, Samuel Horváth, Robert M. Gower, Martin Takáč, (参考訳) 政策勾配は強化学習(RL)分野において広く活用され基礎となるアルゴリズムである。 他のRLアルゴリズムと比較して収束の保証と安定性で知られているが、その実用的応用は高パラメータ、特にステップサイズに対する感度によって妨げられることが多い。 本稿では,RLにおけるPolyakのステップサイズの統合について紹介する。 この手法をRL設定に適用するために、Polyakのステップサイズにおける未知の f* を含むいくつかの問題に対処する。 さらに,RLにおけるPolyakのステップサイズの性能を実験により明らかにし,より高速な収束とより安定したポリシの実現を実証した。

Policy gradient is a widely utilized and foundational algorithm in the field of reinforcement learning (RL). Renowned for its convergence guarantees and stability compared to other RL algorithms, its practical application is often hindered by sensitivity to hyper-parameters, particularly the step-size. In this paper, we introduce the integration of the Polyak step-size in RL, which automatically adjusts the step-size without prior knowledge. To adapt this method to RL settings, we address several issues, including unknown f* in the Polyak step-size. Additionally, we showcase the performance of the Polyak step-size in RL through experiments, demonstrating faster convergence and the attainment of more stable policies.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# サイバー物理システムのセキュリティモデリング:システム文献レビュー

Security Modelling for Cyber-Physical Systems: A Systematic Literature Review ( http://arxiv.org/abs/2404.07527v1 )

ライセンス: Link先を確認
Shaofei Huang, Christopher M. Poskitt, Lwin Khin Shar, (参考訳) サイバー物理システム(CPS)は、デジタル技術とエンジニアリングドメインの交差点にあり、高度で資金の潤沢なサイバーセキュリティ脅威の標的となっている。 CPSに対する主要なサイバーセキュリティ攻撃は、これらのシステムの脆弱性に注意を向け、CPSに依存する重要なインフラの軟弱さに注意を向けている。 CPSのセキュリティモデリングは、システムライフサイクル全体にわたって脆弱性、脅威、リスクを体系的に識別し、評価し、最終的にシステムのレジリエンス、安全性、信頼性を保証するための重要なメカニズムである。 この文献は、CPSセキュリティモデリングの最先端の研究を精査し、脅威と攻撃モデリングの両方を包含している。 これらの用語は時々相互に使用されるが、それらは異なる概念である。 本稿では、脅威と攻撃モデリングの違いについて詳述し、CPSセキュリティへの影響について考察する。 体系的な調査によって428の論文が得られ、15の論文が選択され、3つのクラスタに分類された。 具体的には、CPSのライフサイクルを通じて、現在のセキュリティモデリング手法と、それらが現実世界のサイバーセキュリティ脅威やCPS固有の攻撃能力にどのように対処するかを検討することを試みた。 セキュリティモデルでは、現実のサイバー物理攻撃の動的、多層的、マルチパス的、マルチエージェント的特性を適切に考慮しない簡易的なアプローチが採用されている。

Cyber-physical systems (CPS) are at the intersection of digital technology and engineering domains, rendering them high-value targets of sophisticated and well-funded cybersecurity threat actors. Prominent cybersecurity attacks on CPS have brought attention to the vulnerability of these systems, and the soft underbelly of critical infrastructure reliant on CPS. Security modelling for CPS is an important mechanism to systematically identify and assess vulnerabilities, threats, and risks throughout system lifecycles, and to ultimately ensure system resilience, safety, and reliability. This literature review delves into state-of-the-art research in CPS security modelling, encompassing both threat and attack modelling. While these terms are sometimes used interchangeably, they are different concepts. This article elaborates on the differences between threat and attack modelling, examining their implications for CPS security. A systematic search yielded 428 articles, from which 15 were selected and categorised into three clusters: those focused on threat modelling methods, attack modelling methods, and literature reviews. Specifically, we sought to examine what security modelling methods exist today, and how they address real-world cybersecurity threats and CPS-specific attacker capabilities throughout the lifecycle of CPS, which typically span longer durations compared to traditional IT systems. This article also highlights several limitations in existing research, wherein security models adopt simplistic approaches that do not adequately consider the dynamic, multi-layer, multi-path, and multi-agent characteristics of real-world cyber-physical attacks.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# 通信・計算効率向上のためのベイジアンフェデレーションモデル圧縮

Bayesian Federated Model Compression for Communication and Computation Efficiency ( http://arxiv.org/abs/2404.07532v1 )

ライセンス: Link先を確認
Chengyu Xia, Danny H. K. Tsang, Vincent K. N. Lau, (参考訳) 本稿では,連邦学習(FL)におけるベイズモデル圧縮について検討し,コミュニケーションと計算効率の両立が可能なスパースモデルを構築する。 本稿では,重み行列におけるクラスタリングされたスパース構造を促進するために,まず階層的なスパースを最初に提案する,分散型ターボ変分ベイズ推定(D-Turbo-VBI)FLフレームワークを提案する。 そして、メッセージパッシングとVBIを分散化ターボフレームワークと慎重に統合することにより、D-Turbo-VBIアルゴリズムを提案する。 (i)連合訓練中に上流と下流の両方の通信オーバーヘッドを減らし、 (ii)局所的推論における計算複雑性を減少させる。 さらに,提案したD-Turbo-VBIアルゴリズムの収束性を確立する。 シミュレーションの結果,最終モデルのフェデレートトレーニングにおける通信オーバーヘッド低減と計算複雑性の両面から,提案アルゴリズムの有意な向上が示された。

In this paper, we investigate Bayesian model compression in federated learning (FL) to construct sparse models that can achieve both communication and computation efficiencies. We propose a decentralized Turbo variational Bayesian inference (D-Turbo-VBI) FL framework where we firstly propose a hierarchical sparse prior to promote a clustered sparse structure in the weight matrix. Then, by carefully integrating message passing and VBI with a decentralized turbo framework, we propose the D-Turbo-VBI algorithm which can (i) reduce both upstream and downstream communication overhead during federated training, and (ii) reduce the computational complexity during local inference. Additionally, we establish the convergence property for thr proposed D-Turbo-VBI algorithm. Simulation results show the significant gain of our proposed algorithm over the baselines in reducing communication overhead during federated training and computational complexity of final model.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# IITP-VDLand: 分散パーセルに関する包括的なデータセット

IITP-VDLand: A Comprehensive Dataset on Decentraland Parcels ( http://arxiv.org/abs/2404.07533v1 )

ライセンス: Link先を確認
Ankit K. Bhagat, Dipika Jha, Raju Halder, Rajendra N. Paramanik, Chandra M. Kumar, (参考訳) 本稿では,多種多様なプラットフォームから得られた分散型パーセルの包括的データセットであるIITP-VDLandを提案する。 限られた属性とレコードを持つ既存のデータセットとは異なり、IITP-VDLandは、パーセル特性、トレーディング履歴、過去のアクティビティ、トランザクション、ソーシャルメディアインタラクションを含む、豊富な属性の配列を提供する。 同時に、仮想世界における各パーセルのユニークさを測定するRarityスコアというデータセットに重要な属性を導入します。 さまざまなソースに分散したデータによって引き起こされる重大な課題に対処するために、利用可能なAPIとカスタムスクリプトの両方を活用する、体系的なアプローチを採用しました。 その結果,(1)特徴データフラグメント,(2)オープンシートレーディングヒストリーデータフラグメント,(3)Ethereumアクティビティトランザクションデータフラグメント,(4)ソーシャルメディアデータフラグメントの4つに,情報を慎重にキュレートし整理した。 このデータセットは、Decentralandパーセルの領域内の現実的な課題に対処するために特別に設計された、機械学習およびディープラーニングモデルをトレーニングするための堅牢なリソースとして機能する、と私たちは考えています。 我々のデータセット上で20以上の最先端価格予測モデルのパフォーマンスベンチマークは有望な結果をもたらし、エクストラツリー回帰器および分類器の場合、最大R2スコアは0.8251、精度は74.23%となる。 重要な発見は、アンサンブルモデルが、私たちのデータセットのディープラーニングモデルと線形モデルの両方よりも優れていることを示している。 コーディネート,地理的近接度,希少度スコア,その他の経済指標がパーセル価格の予測に与える影響を観察する。

This paper presents IITP-VDLand, a comprehensive dataset of Decentraland parcels sourced from diverse platforms. Unlike existing datasets which have limited attributes and records, IITP-VDLand offers a rich array of attributes, encompassing parcel characteristics, trading history, past activities, transactions, and social media interactions. Alongside, we introduce a key attribute in the dataset, namely Rarity score, which measures the uniqueness of each parcel within the virtual world. Addressing the significant challenge posed by the dispersed nature of this data across various sources, we employ a systematic approach, utilizing both available APIs and custom scripts, to gather it. Subsequently, we meticulously curate and organize the information into four distinct segments: (1) Characteristics Data-Fragment, (2) OpenSea Trading History Data-Fragment, (3) Ethereum Activity Transactions Data-Fragment, and (4) Social Media Data-Fragment. We envisage that this dataset would serve as a robust resource for training machine- and deep-learning models specifically designed to address real-world challenges within the domain of Decentraland parcels. The performance benchmarking of more than 20 state-of-the-art price prediction models on our dataset yields promising results, achieving a maximum R2 score of 0.8251 and an accuracy of 74.23% in case of Extra Trees Regressor and Classifier. The key findings reveal that the ensemble models performs better than both deep learning and linear models for our dataset. We observe a significant impact of coordinates, geographical proximity, rarity score, and few other economic indicators on the prediction of parcel prices.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# テキスト誘導による視覚的注意の影響 : データベースとモデル

How is Visual Attention Influenced by Text Guidance? Database and Model ( http://arxiv.org/abs/2404.07537v1 )

ライセンス: Link先を確認
Yinan Sun, Xiongkuo Min, Huiyu Duan, Guangtao Zhai, (参考訳) 視覚的注意の分析と予測は、コンピュータビジョンと画像処理の分野で長い間重要な課題であった。 実際の応用では、画像には様々なテキスト記述が伴うことが多いが、テキスト記述が視覚的注意に与える影響を調査する研究は少ない。 本稿では、主観的視点と客観的視点の両方から、テキスト誘導画像サリエンシ(TIS)について包括的な研究を行う。 具体的には、1200のテキストイメージ対とそれに対応するアイトラッキングデータを含む、SJTU-TISというTISデータベースを構築する。 確立されたSJTU-TISデータベースに基づいて、様々なテキスト記述が視覚的注意に与える影響を分析する。 そこで本研究では,テキストの影響を考慮したサリエンシ予測モデルの開発を容易にするために,最先端のサリエンシモデルを用いたSJTU-TISデータベースのベンチマークを構築した。 最後に,テキスト記述が視覚的注意に与える影響を考慮し,既存のサリエンシモデルの多くがこの影響を無視する一方で,様々なテキスト記述条件下で画像特徴とテキスト特徴の両方を抽出・統合するテキスト誘導サリエンシ(TGSal)予測モデルを提案する。 提案手法は,SJTU-TISデータベースと純画像サリエンシデータベースの両モデルにおいて,各種評価指標において,最先端のサリエンシモデルよりも優れていた。 SJTU-TISデータベースと提案されたTGSalモデルのコードは、https://github.com/IntMeGroup/TGSalでリリースされる。

The analysis and prediction of visual attention have long been crucial tasks in the fields of computer vision and image processing. In practical applications, images are generally accompanied by various text descriptions, however, few studies have explored the influence of text descriptions on visual attention, let alone developed visual saliency prediction models considering text guidance. In this paper, we conduct a comprehensive study on text-guided image saliency (TIS) from both subjective and objective perspectives. Specifically, we construct a TIS database named SJTU-TIS, which includes 1200 text-image pairs and the corresponding collected eye-tracking data. Based on the established SJTU-TIS database, we analyze the influence of various text descriptions on visual attention. Then, to facilitate the development of saliency prediction models considering text influence, we construct a benchmark for the established SJTU-TIS database using state-of-the-art saliency models. Finally, considering the effect of text descriptions on visual attention, while most existing saliency models ignore this impact, we further propose a text-guided saliency (TGSal) prediction model, which extracts and integrates both image features and text features to predict the image saliency under various text-description conditions. Our proposed model significantly outperforms the state-of-the-art saliency models on both the SJTU-TIS database and the pure image saliency databases in terms of various evaluation metrics. The SJTU-TIS database and the code of the proposed TGSal model will be released at: https://github.com/IntMeGroup/TGSal.
翻訳日:2024-04-12 14:49:00 公開日:2024-04-11
# 数値ブラックボックス最適化のための自動アルゴリズム選択モデルにおける学習事例選択の影響

Impact of Training Instance Selection on Automated Algorithm Selection Models for Numerical Black-box Optimization ( http://arxiv.org/abs/2404.07539v1 )

ライセンス: Link先を確認
Konstantin Dietrich, Diederick Vermetten, Carola Doerr, Pascal Kerschke, (参考訳) 最近提案されたMA-BBOB関数生成器は、確立されたBBOBスイートに基づいて、数値的なブラックボックスベンチマーク問題を生成する方法を提供する。 このジェネレータの初期の研究は、低レベルのランドスケープの特徴の観点からも、アルゴリズムの性能に関しても、コンポーネント関数間のスムーズな遷移を可能にすることを強調した。 このことは、MA-BBOB生成関数が自動アルゴリズム選択(AAS)のような自動機械学習手法の理想的なテストベッドとなることを示唆している。 本稿では,それぞれ次元が$d=2$,$d=5$の11800個の関数を生成し,AASのポテンシャルゲインを8つのアルゴリズムの集合内で性能相補性を調べることによって解析する。 このパフォーマンスデータを探索的なランドスケープ機能と組み合わせて、この空間内のトレーニングセットを効率的に選択する方法を調査するために使用するAASパイプラインを作成します。 また,BBOB成分関数をトレーニングに使用するとテスト性能が低下するのに対して,一様に選択されたトレーニングセットと多様性に基づくトレーニングセットのランク付けはテストセットの分布に大きく依存することを示した。

The recently proposed MA-BBOB function generator provides a way to create numerical black-box benchmark problems based on the well-established BBOB suite. Initial studies on this generator highlighted its ability to smoothly transition between the component functions, both from a low-level landscape feature perspective, as well as with regard to algorithm performance. This suggests that MA-BBOB-generated functions can be an ideal testbed for automated machine learning methods, such as automated algorithm selection (AAS). In this paper, we generate 11800 functions in dimensions $d=2$ and $d=5$, respectively, and analyze the potential gains from AAS by studying performance complementarity within a set of eight algorithms. We combine this performance data with exploratory landscape features to create an AAS pipeline that we use to investigate how to efficiently select training sets within this space. We show that simply using the BBOB component functions for training yields poor test performance, while the ranking between uniformly chosen and diversity-based training sets strongly depends on the distribution of the test set.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# リモートセンシングパンシャープのためのコンテンツ適応型非局所コンボリューション

Content-Adaptive Non-Local Convolution for Remote Sensing Pansharpening ( http://arxiv.org/abs/2404.07543v1 )

ライセンス: Link先を確認
Yule Duan, Xiao Wu, Haoyu Deng, Liang-Jian Deng, (参考訳) 現在、リモートセンシングのための機械学習ベースの手法が急速に進歩している。 しかし、既存のパンシャルペン法は、非局所空間における地域情報の識別を完全に活用しないことが多く、それによって手法の有効性が制限され、冗長な学習パラメータが生じる。 本稿では,リモートセンシング画像のパンシャーピングに適した新しい手法であるCANConv(Content-Adaptive Non-local Convolution)を提案する。 具体的には、CANConvは適応的畳み込みを採用し、空間的適応性を確保し、類似性関係分割(SRP)と分割ワイド適応畳み込み(PWAC)サブモジュールを通して非局所的な自己相似性を組み込む。 さらに,主にマルチスケールの自己相似性を利用するCANNetというネットワークアーキテクチャを提案する。 最近の有望核融合法と比較してCANConvの優れた性能を示す。 さらに, 可視化, アブレーション実験, 既存手法との比較により, 提案手法の有効性を検証した。 ソースコードはhttps://github.com/duanyll/CANConv.comで公開されている。

Currently, machine learning-based methods for remote sensing pansharpening have progressed rapidly. However, existing pansharpening methods often do not fully exploit differentiating regional information in non-local spaces, thereby limiting the effectiveness of the methods and resulting in redundant learning parameters. In this paper, we introduce a so-called content-adaptive non-local convolution (CANConv), a novel method tailored for remote sensing image pansharpening. Specifically, CANConv employs adaptive convolution, ensuring spatial adaptability, and incorporates non-local self-similarity through the similarity relationship partition (SRP) and the partition-wise adaptive convolution (PWAC) sub-modules. Furthermore, we also propose a corresponding network architecture, called CANNet, which mainly utilizes the multi-scale self-similarity. Extensive experiments demonstrate the superior performance of CANConv, compared with recent promising fusion methods. Besides, we substantiate the method's effectiveness through visualization, ablation experiments, and comparison with existing methods on multiple test sets. The source code is publicly available at https://github.com/duanyll/CANConv.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 単語から数字へ:インコンテキストの例が与えられたとき、あなたの大きな言語モデルは秘密裏にレグレッタになる

From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples ( http://arxiv.org/abs/2404.07544v1 )

ライセンス: Link先を確認
Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu, (参考訳) 我々は,事前学習した大規模言語モデル(例えば,Llama2,GPT-4,Claude 3など)が,追加のトレーニングや勾配更新を伴わずに,文脈内例を与えられた場合の線形回帰や非線形回帰をいかにうまく行うかを分析する。 以上の結果から,複数の大規模言語モデル(GPT-4,Claude 3)は,ランダムフォレストやバッギング,グラディエントブースティングなど,従来の監視手法に匹敵する性能(あるいは優れた性能)で回帰処理を行うことができることがわかった。 例えば、挑戦的なFriedman #2回帰データセットでは、Claude 3がAdaBoost、SVM、Random Forest、KNN、Gradient Boostingといった多くの教師付きメソッドを上回っている。 次に、大規模言語モデルの性能が、文脈内例の個数でどの程度向上するかを考察する。 我々は、オンライン学習から後悔の概念を借用し、LLMがサブ線形後悔を得ることができることを実証的に示す。

We analyze how well pre-trained large language models (e.g., Llama2, GPT-4, Claude 3, etc) can do linear and non-linear regression when given in-context examples, without any additional training or gradient updates. Our findings reveal that several large language models (e.g., GPT-4, Claude 3) are able to perform regression tasks with a performance rivaling (or even outperforming) that of traditional supervised methods such as Random Forest, Bagging, or Gradient Boosting. For example, on the challenging Friedman #2 regression dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM, Random Forest, KNN, or Gradient Boosting. We then investigate how well the performance of large language models scales with the number of in-context exemplars. We borrow from the notion of regret from online learning and empirically show that LLMs are capable of obtaining a sub-linear regret.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 変形可能な伝播と学習した距離-深さ変換によるステレオLiDAR深さ推定

Stereo-LiDAR Depth Estimation with Deformable Propagation and Learned Disparity-Depth Conversion ( http://arxiv.org/abs/2404.07545v1 )

ライセンス: Link先を確認
Ang Li, Anning Hu, Wei Xi, Wenxian Yu, Danping Zou, (参考訳) ステレオカメラとLiDARによる正確な深度推定は、自動走行とロボット知覚にとって重要な課題である。 LiDAR点からのスパースヒントはステレオマッチングにおけるコストアグリゲーションを改善するが、その効果は低密度および非均一分布によって制限される。 この問題に対処するために,SDG-Depth という名前のセミセンスヒントガイダンスを用いた新しいステレオLiDAR深度推定ネットワークを提案する。 我々のネットワークは、学習可能な変形可能なウィンドウを用いてスパースヒントを伝播することにより、半密度のヒントマップと信頼マップを生成する変形可能な伝搬モジュールを含む。 これらの写像はステレオマッチングにおけるコストアグリゲーションを導く。 特に遠隔地における深度復元における三角誤差を低減するため,深度変換モジュールを導入する。 私たちの方法は正確かつ効率的です。 ベンチマーク実験の結果, 優れた性能を示した。 私たちのコードはhttps://github.com/SJTU-ViSYS/SDG-Depth.comで公開されています。

Accurate and dense depth estimation with stereo cameras and LiDAR is an important task for automatic driving and robotic perception. While sparse hints from LiDAR points have improved cost aggregation in stereo matching, their effectiveness is limited by the low density and non-uniform distribution. To address this issue, we propose a novel stereo-LiDAR depth estimation network with Semi-Dense hint Guidance, named SDG-Depth. Our network includes a deformable propagation module for generating a semi-dense hint map and a confidence map by propagating sparse hints using a learned deformable window. These maps then guide cost aggregation in stereo matching. To reduce the triangulation error in depth recovery from disparity, especially in distant regions, we introduce a disparity-depth conversion module. Our method is both accurate and efficient. The experimental results on benchmark tests show its superior performance. Our code is available at https://github.com/SJTU-ViSYS/SDG-Depth.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# ラベル空間, フォーマット, 識別の分解: 文脈学習によるLLMの応答と解法の再考

Decomposing Label Space, Format and Discrimination: Rethinking How LLMs Respond and Solve Tasks via In-Context Learning ( http://arxiv.org/abs/2404.07546v1 )

ライセンス: Link先を確認
Quanyu Long, Yin Wu, Wenya Wang, Sinno Jialin Pan, (参考訳) In-context Learning (ICL) は、スケールアップされた大規模言語モデル(LLM)の開発とともに、強力な能力として登場した。 数発の実証例を使ってLLMを指示することにより、ICLは数百万のパラメータを更新することなく、幅広いタスクを実行できる。 しかし,近年の研究では,エンドタスク性能向上への実証の正確な貢献が十分に研究されていない。 本稿では,ICLの全体的な性能を,ラベル空間,フォーマット,識別の3次元に分けて実証的に分解し,多種多様なタスクにまたがる4つの汎用LCMを評価する。 反故意に、これらのデモンストレーションは言語モデルの差別的知識を促進するのに限界がある。 しかし、ICLはラベル空間とフォーマットを調節し、LLMが所望のラベル語で応答するのに役立つ。 次に, LLM が従うべき詳細命令に類似した機能を示す。 さらに、ICLを用いた検索のメカニズムを詳細に分析し、最も意味的に類似した例を検索することで、モデルの識別能力が向上することを示す。

In-context Learning (ICL) has emerged as a powerful capability alongside the development of scaled-up large language models (LLMs). By instructing LLMs using few-shot demonstrative examples, ICL enables them to perform a wide range of tasks without updating millions of parameters. However, the precise contributions of demonstrations towards improving end-task performance have not been thoroughly investigated in recent analytical studies. In this paper, we empirically decompose the overall performance of ICL into three dimensions, label space, format, and discrimination, and we evaluate four general-purpose LLMs across a diverse range of tasks. Counter-intuitively, we find that the demonstrations have a marginal impact on provoking discriminative knowledge of language models. However, ICL exhibits significant efficacy in regulating the label space and format which helps LLMs to respond in desired label words. We then demonstrate this ability functions similar to detailed instructions for LLMs to follow. We additionally provide an in-depth analysis of the mechanism of retrieval helping with ICL and find that retrieving the most semantically similar examples notably boosts model's discriminative capability.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# DeVAIC: AI生成コードのセキュリティアセスメントツール

DeVAIC: A Tool for Security Assessment of AI-generated Code ( http://arxiv.org/abs/2404.07548v1 )

ライセンス: Link先を確認
Domenico Cotroneo, Roberta De Luca, Pietro Liguori, (参考訳) コンテキスト: AIコードジェネレータは、コード記述とソフトウェア開発に革命をもたらしていますが、潜在的に信頼できないソースコードを含む大規模なデータセットでのトレーニングは、セキュリティ上の懸念を引き起こします。 さらに、これらのジェネレータは、現在のソリューションを使った評価が難しい不完全なコードスニペットを生成することができる。 目的: この研究は、AI生成されたPythonコードのセキュリティを評価するツールであるDeVAIC(AI生成コードの脆弱性の検出)を導入し、不完全なコードを調べるという課題を克服する。 方法: 脆弱なサンプルを収集し, 実装パターンを抽出し, 提案ツールを開発するための正規表現を作成する手法を踏襲した。 DeVAICの実装には正規表現に基づく一連の検出ルールが含まれており、OWASPトップ10の脆弱性カテゴリに該当する35の共通弱度列挙(CWE)をカバーする。 結果: 人気の高い4つのAIモデルを使用してPythonコードを生成しました。 DeVAICは、最先端のソリューションと比較してセキュリティ上の脆弱性を検出する能力に統計的に有意な差を示し、F1スコアと精度は94%で、コードスニペットあたりの計算コストは平均0.14秒であった。 結論: 提案されたツールは、不完全なコードであっても、脆弱性検出のための軽量で効率的なソリューションを提供する。

Context: AI code generators are revolutionizing code writing and software development, but their training on large datasets, including potentially untrusted source code, raises security concerns. Furthermore, these generators can produce incomplete code snippets that are challenging to evaluate using current solutions. Objective: This research work introduces DeVAIC (Detection of Vulnerabilities in AI-generated Code), a tool to evaluate the security of AI-generated Python code, which overcomes the challenge of examining incomplete code. Method: We followed a methodological approach that involved gathering vulnerable samples, extracting implementation patterns, and creating regular expressions to develop the proposed tool. The implementation of DeVAIC includes a set of detection rules based on regular expressions that cover 35 Common Weakness Enumerations (CWEs) falling under the OWASP Top 10 vulnerability categories. Results: We utilized four popular AI models to generate Python code, which we then used as a foundation to evaluate the effectiveness of our tool. DeVAIC demonstrated a statistically significant difference in its ability to detect security vulnerabilities compared to the state-of-the-art solutions, showing an F1 Score and Accuracy of 94% while maintaining a low computational cost of 0.14 seconds per code snippet, on average. Conclusions: The proposed tool provides a lightweight and efficient solution for vulnerability detection even on incomplete code.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# Natural Logic Pivotsとしてのコメント:コメントパースペクティブによるコード生成の改善

Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective ( http://arxiv.org/abs/2404.07549v1 )

ライセンス: Link先を確認
Yijie Chen, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, Jie Zhou, (参考訳) コード生成は、問題記述を理解し、対応するコードスニペットを生成することを目的としている。 これらの研究はいくつかの成功を収めているが、その効果はGPT-4のような高度な大規模言語モデル(LLM)の能力に大きく依存している。 したがって、トレーニングコストを大幅に増大させることなく、中小規模のコードLLMのコード生成能力をいかに向上させるかは、魅力的な課題である。 本稿では、コードコメントが自然言語とコード言語の間の自然な論理的な中心であり、コードLLMのコード生成能力を高めるためにコメントを使うことを提案する。 具体的には,MANGO (comMents As Natural loGic pivOts) を提案する。 実験はHumanEvalとMBPPで行われ、StarCoderとWizardCoderをバックボーンモデルとして利用し、3Bから7Bまでのモデルパラメータサイズを含む。 その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。 一方、論理的なコメント復号戦略の堅牢性は、考えの連鎖よりも顕著に高い。 コードは \url{https://github.com/pppa2019/Mango} で公開されている。

Code generation aims to understand the problem description and generate corresponding code snippets, where existing works generally decompose such complex tasks into intermediate steps by prompting strategies, such as Chain-of-Thought and its variants. While these studies have achieved some success, their effectiveness is highly dependent on the capabilities of advanced Large Language Models (LLMs) such as GPT-4, particularly in terms of API calls, which significantly limits their practical applicability. Consequently, how to enhance the code generation capabilities of small and medium-scale code LLMs without significantly increasing training costs is an appealing challenge. In this paper, we suggest that code comments are the natural logic pivot between natural language and code language and propose using comments to boost the code generation ability of code LLMs. Concretely, we propose MANGO (comMents As Natural loGic pivOts), including a comment contrastive training strategy and a corresponding logical comment decoding strategy. Experiments are performed on HumanEval and MBPP, utilizing StarCoder and WizardCoder as backbone models, and encompassing model parameter sizes between 3B and 7B. The results indicate that MANGO significantly improves the code pass rate based on the strong baselines. Meanwhile, the robustness of the logical comment decoding strategy is notably higher than the Chain-of-thoughts prompting. The code is publicly available at \url{https://github.com/pppa2019/Mango}.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 10K FPSでのイベント強調スナップショット圧縮ビデオ

Event-Enhanced Snapshot Compressive Videography at 10K FPS ( http://arxiv.org/abs/2404.07551v1 )

ライセンス: Link先を確認
Bo Zhang, Jinli Suo, Qionghai Dai, (参考訳) ビデオスナップショット圧縮画像(SCI)は、ターゲットのダイナミックシーンをコンパクトにスナップショットに符号化し、その後に高速フレームシーケンスを再構築し、必要なデータフットプリントと伝送帯域を大幅に削減し、低フレームレートのカメラで高速イメージングを可能にする。 実装では、時間的に異なるパターンを介して高速なダイナミクスを符号化し、対応する時間間隔のフレームのみを再構成でき、連続するフレーム間のダイナミクスは失われる。 従来のスナップショット圧縮ビデオ撮影の可能性を解き明かすため,イベントカメラをビデオSCI設定に組み込んだハイブリッド「インテンシティ+イベント」イメージング手法を提案する。 提案システムは、符号化された強度測定と中間事象信号とを同時に記録するデュアルパス光学装置で構成されており、従来のビデオSCIで捨てられた半光子を収集することにより、コンパクトで光子効率が高い。 これに対応して,2つのデータモード間の相互関係を利用して高密度ビデオフレームをデコードするデュアルブランチ変換器を開発した。 シミュレーションデータと実撮データの両方に対する大規模な実験により、最先端のビデオSCIとビデオフレーム補間(VFI)法に優位性が示された。 ビデオの固有冗長性とイベントカメラのユニークな特徴を活かした新しいハイブリッド設計により,高画質なビデオ撮影を0.1msの時間間隔で実現し,低コストなCMOSイメージセンサを24FPSで動作させる。

Video snapshot compressive imaging (SCI) encodes the target dynamic scene compactly into a snapshot and reconstructs its high-speed frame sequence afterward, greatly reducing the required data footprint and transmission bandwidth as well as enabling high-speed imaging with a low frame rate intensity camera. In implementation, high-speed dynamics are encoded via temporally varying patterns, and only frames at corresponding temporal intervals can be reconstructed, while the dynamics occurring between consecutive frames are lost. To unlock the potential of conventional snapshot compressive videography, we propose a novel hybrid "intensity+event" imaging scheme by incorporating an event camera into a video SCI setup. Our proposed system consists of a dual-path optical setup to record the coded intensity measurement and intermediate event signals simultaneously, which is compact and photon-efficient by collecting the half photons discarded in conventional video SCI. Correspondingly, we developed a dual-branch Transformer utilizing the reciprocal relationship between two data modes to decode dense video frames. Extensive experiments on both simulated and real-captured data demonstrate our superiority to state-of-the-art video SCI and video frame interpolation (VFI) methods. Benefiting from the new hybrid design leveraging both intrinsic redundancy in videos and the unique feature of event cameras, we achieve high-quality videography at 0.1ms time intervals with a low-cost CMOS image sensor working at 24 FPS.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# SFSORT:Scene Features-based Simple Online Real-Time Tracker

SFSORT: Scene Features-based Simple Online Real-Time Tracker ( http://arxiv.org/abs/2404.07553v1 )

ライセンス: Link先を確認
M. M. Morsali, Z. Sharifi, F. Fallah, S. Hashembeiki, H. Mohammadzade, S. Bagheri Shouraki, (参考訳) 本稿では,MOTチャレンジデータセットを用いた実験に基づいて,世界最速のマルチオブジェクトトラッキングシステムであるSFSORTを紹介する。 高精度かつ効率的なトラッカーを実現するために,従来の文献で確立されたオンラインリアルタイムトラッカーに追従して,トラッキング・バイ・ディテクト法を用いる。 バウンディングボックス類似度指数(英語版)と呼ばれる新しいコスト関数を導入することにより、この研究はカルマンフィルタを排除し、計算要求を減らした。 さらに,シーン特徴がオブジェクトトラックアソシエーションの強化とトラック後処理の改善に与える影響を述べる。 提案手法は2.2GHzのIntel Xeon CPUを用いて,MOT17データセットで処理速度2242HzのHOTA,MOT20データセットで処理速度304HzのHOTAを実現する。 トラッカーのソースコード、微調整されたオブジェクト検出モデル、チュートリアルは \url{https://github.com/gitmehrdad/SFSORT} で公開されている。

This paper introduces SFSORT, the world's fastest multi-object tracking system based on experiments conducted on MOT Challenge datasets. To achieve an accurate and computationally efficient tracker, this paper employs a tracking-by-detection method, following the online real-time tracking approach established in prior literature. By introducing a novel cost function called the Bounding Box Similarity Index, this work eliminates the Kalman Filter, leading to reduced computational requirements. Additionally, this paper demonstrates the impact of scene features on enhancing object-track association and improving track post-processing. Using a 2.2 GHz Intel Xeon CPU, the proposed method achieves an HOTA of 61.7\% with a processing speed of 2242 Hz on the MOT17 dataset and an HOTA of 60.9\% with a processing speed of 304 Hz on the MOT20 dataset. The tracker's source code, fine-tuned object detection model, and tutorials are available at \url{https://github.com/gitmehrdad/SFSORT}.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# CAT:パーソナライズされた画像生成のためのコントラスト適応学習

CAT: Contrastive Adapter Training for Personalized Image Generation ( http://arxiv.org/abs/2404.07554v1 )

ライセンス: Link先を確認
Jae Wan Park, Sang Hyun Park, Jun Young Koh, Junha Lee, Min Song, (参考訳) 自然言語処理の分野から応用されたローランド適応(LoRA)を含む様々なアダプタの出現により、拡散モデルにより画像生成を低コストでパーソナライズできるようになった。 しかしながら、データセットの制限や正規化や計算資源の不足など、さまざまな課題のため、アダプタトレーニングは満足できない結果をもたらすことが多く、バックボーンモデルの事前知識の破損につながる。 良く知られた現象の1つは、オブジェクト生成における多様性の欠如である。 これにより、生成能力に課題が生じる。 この問題を解決するために,コントラスト適応訓練(Contrastive Adapter Training, CAT)を提案する。 提案手法は,モデルがアダプタを開始する際に,ベースモデルの本来の知識の保存を容易にする。 さらに,従来の情報を保持するCATの能力を評価するために,知識保存スコア(KPS)を導入する。 我々はCATの改善を質的に定量的に比較する。 最後に、マルチコンセプトアダプタと最適化の側面におけるCATの可能性について述べる。

The emergence of various adapters, including Low-Rank Adaptation (LoRA) applied from the field of natural language processing, has allowed diffusion models to personalize image generation at a low cost. However, due to the various challenges including limited datasets and shortage of regularization and computation resources, adapter training often results in unsatisfactory outcomes, leading to the corruption of the backbone model's prior knowledge. One of the well known phenomena is the loss of diversity in object generation, especially within the same class which leads to generating almost identical objects with minor variations. This poses challenges in generation capabilities. To solve this issue, we present Contrastive Adapter Training (CAT), a simple yet effective strategy to enhance adapter training through the application of CAT loss. Our approach facilitates the preservation of the base model's original knowledge when the model initiates adapters. Furthermore, we introduce the Knowledge Preservation Score (KPS) to evaluate CAT's ability to keep the former information. We qualitatively and quantitatively compare CAT's improvement. Finally, we mention the possibility of CAT in the aspects of multi-concept adapter and optimization.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# ライトネス埋め込みとハイブリッドガイド埋め込みを併用した注意型腹腔鏡下禁煙ネットワーク

Attention-Aware Laparoscopic Image Desmoking Network with Lightness Embedding and Hybrid Guided Embedding ( http://arxiv.org/abs/2404.07556v1 )

ライセンス: Link先を確認
Ziteng Liu, Jiahua Zhu, Bainan Liu, Hao Liu, Wenpeng Gao, Yili Fu, (参考訳) 本稿では,腹腔鏡画像から煙を除去する方法を提案する。 手術用煙の異種性から, 煙の分布を推定し, 明確な無煙手術シーンを再構築する2段階ネットワークが提案されている。 軽度チャネルの利用は、煙密度に関する重要な情報を提供する上で重要な役割を担っている。 推定煙マスクと初期画像とを組み合わせたハイブリッド埋め込みにより、無煙画像の再構成を導出する。 実験結果から,提案手法のピーク信号対ノイズ比は最先端手法よりも2.79 %高いのに対し,実行時間に38.2 %の低減効果が認められた。 提案手法は, 従来の最先端手法と比較して, 煙除去品質と計算効率の両面において, 同等あるいは優れた性能を提供する。 この作業はhttp://homepage.hit.edu.cn/wpgaoで公開される。

This paper presents a novel method of smoke removal from the laparoscopic images. Due to the heterogeneous nature of surgical smoke, a two-stage network is proposed to estimate the smoke distribution and reconstruct a clear, smoke-free surgical scene. The utilization of the lightness channel plays a pivotal role in providing vital information pertaining to smoke density. The reconstruction of smoke-free image is guided by a hybrid embedding, which combines the estimated smoke mask with the initial image. Experimental results demonstrate that the proposed method boasts a Peak Signal to Noise Ratio that is $2.79\%$ higher than the state-of-the-art methods, while also exhibits a remarkable $38.2\%$ reduction in run-time. Overall, the proposed method offers comparable or even superior performance in terms of both smoke removal quality and computational efficiency when compared to existing state-of-the-art methods. This work will be publicly available on http://homepage.hit.edu.cn/wpgao
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 自律型無人機群における安全で信頼性の高い異種リアルタイムテレメトリ通信を目指して

Towards Secure and Reliable Heterogeneous Real-time Telemetry Communication in Autonomous UAV Swarms ( http://arxiv.org/abs/2404.07557v1 )

ライセンス: Link先を確認
Pavlo Mykytyn, Marcin Brzozowski, Zoya Dyka, Peter Langendörfer, (参考訳) 最先端の自律システムの時代、無人航空機(UAV)は多くの複雑な課題の解決に欠かせない部分となっている。 本稿では,UAVピアツーピアテレメトリ通信の評価を行い,そのセキュリティ上の脆弱性を浮き彫りにして,ネットワーク間の接続性や信頼性を高めるため,ヘット不均一なマルチホップメッシュの全対オール通信アーキテクチャへの移行を検討する。 さらに、性能を損なうことなく、データの整合性と機密性を確保するために、対称鍵合意とデータ暗号化機構の実装を提案する。

In the era of cutting-edge autonomous systems, Unmanned Aerial Vehicles (UAVs) are becoming an essential part of the solutions for numerous complex challenges. This paper evaluates UAV peer-to-peer telemetry communication, highlighting its security vulnerabilities and explores a transition to a het-erogeneous multi-hop mesh all-to-all communication architecture to increase inter-swarm connectivity and reliability. Additionally, we suggest a symmetric key agreement and data encryption mechanism implementation for inter - swarm communication, to ensure data integrity and confidentiality without compromising performance.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# セルフプレイによる個人的強化学習

Differentially Private Reinforcement Learning with Self-Play ( http://arxiv.org/abs/2404.07559v1 )

ライセンス: Link先を確認
Dan Qiao, Yu-Xiang Wang, (参考訳) 差分プライバシー制約を伴うマルチエージェント強化学習(multi-agent RL)の問題について検討する。 これは、ユーザーの個人情報を保護することが重要となる機密データを含む様々な現実世界のアプリケーションによって動機付けられている。 まず,ジョイントDP (JDP) とローカルDP (LDP) の定義を,両定義がトラジェクティブ・プライバシ保護を保証する2プレイヤーゼロサム・エピソード・マルコフゲームに拡張する。 そこで我々は,楽観的なナッシュ値反復とベルンシュタイン型ボーナスの民営化に基づく証明可能なアルゴリズムを設計する。 このアルゴリズムは、適切なプライバシーメカニズムでインスタンス化されると、JDPとLCPの要件を満たすことができる。 さらに, DP の両概念に対して, 単一エージェント RL の場合において最もよく知られた結果を一般化し, プライバシ制約のないマルチエージェント RL では最もよく知られた結果に還元することができる。 我々の知る限りでは、これらは多エージェントRLにおける軌跡的プライバシー保護の理解に向けた最初の成果である。

We study the problem of multi-agent reinforcement learning (multi-agent RL) with differential privacy (DP) constraints. This is well-motivated by various real-world applications involving sensitive data, where it is critical to protect users' private information. We first extend the definitions of Joint DP (JDP) and Local DP (LDP) to two-player zero-sum episodic Markov Games, where both definitions ensure trajectory-wise privacy protection. Then we design a provably efficient algorithm based on optimistic Nash value iteration and privatization of Bernstein-type bonuses. The algorithm is able to satisfy JDP and LDP requirements when instantiated with appropriate privacy mechanisms. Furthermore, for both notions of DP, our regret bound generalizes the best known result under the single-agent RL case, while our regret could also reduce to the best known result for multi-agent RL without privacy constraints. To the best of our knowledge, these are the first line of results towards understanding trajectory-wise privacy protection in multi-agent RL.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 老年医療における社会関連ロボット

Socially Pertinent Robots in Gerontological Healthcare ( http://arxiv.org/abs/2404.07560v1 )

ライセンス: Link先を確認
Xavier Alameda-Pineda, Angus Addlesee, Daniel Hernández García, Chris Reinke, Soraya Arias, Federica Arrigoni, Alex Auternaud, Lauriane Blavette, Cigdem Beyan, Luis Gomez Camara, Ohad Cohen, Alessandro Conti, Sébastien Dacunha, Christian Dondrup, Yoav Ellinson, Francesco Ferro, Sharon Gannot, Florian Gras, Nancie Gunson, Radu Horaud, Moreno D'Incà, Imad Kimouche, Séverin Lemaignan, Oliver Lemon, Cyril Liotard, Luca Marchionni, Mordehay Moradi, Tomas Pajdla, Maribel Pino, Michal Polic, Matthieu Py, Ariel Rado, Bin Ren, Elisa Ricci, Anne-Sophie Rigaud, Paolo Rota, Marta Romeo, Nicu Sebe, Weronika Sieińska, Pinchas Tandeitnik, Francesco Tonini, Nicolas Turro, Timothée Wintz, Yanchao Yu, (参考訳) 近年の社会ロボティクスの開発・展開における多くの成果にもかかわらず、エンドユーザーによるこのようなシステムの体系的評価が必要な、未調査の環境や応用は依然として数多く存在する。 老年医学においていくつかのロボットプラットフォームが使用されているが、マルチモーダルな対話能力を持つソーシャル対話型ロボットが有用であるかどうかという疑問は、現実の施設ではまだ答えられていない。 本論文は,パリの保育所における患者と協力者による2つの実験を通じて,社会的・対話的相互作用能力を備えたフルサイズのヒューマノイドロボットを用いて,この問題に部分的に答える試みである。 H2020 SPRINGプロジェクトで開発されたソフトウェアアーキテクチャは、実験的なプロトコルとともに、60人以上のエンドユーザでアクセシビリティ(AES)とユーザビリティ(SUS)を評価しました。 特に、ロボットの知覚とアクションスキルが環境の雑多さに対して堅牢で、さまざまなインタラクションを扱うために柔軟である場合、ユーザーはこの技術を受け入れる。

Despite the many recent achievements in developing and deploying social robotics, there are still many underexplored environments and applications for which systematic evaluation of such systems by end-users is necessary. While several robotic platforms have been used in gerontological healthcare, the question of whether or not a social interactive robot with multi-modal conversational capabilities will be useful and accepted in real-life facilities is yet to be answered. This paper is an attempt to partially answer this question, via two waves of experiments with patients and companions in a day-care gerontological facility in Paris with a full-sized humanoid robot endowed with social and conversational interaction capabilities. The software architecture, developed during the H2020 SPRING project, together with the experimental protocol, allowed us to evaluate the acceptability (AES) and usability (SUS) with more than 60 end-users. Overall, the users are receptive to this technology, especially when the robot perception and action skills are robust to environmental clutter and flexible to handle a plethora of different interactions.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# ObjBlur: 改善されたレイアウト・ツー・イメージ生成のためのプログレッシブ・オブジェクト・レベル・ブラリングによるカリキュラム学習アプローチ

ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation ( http://arxiv.org/abs/2404.07564v1 )

ライセンス: Link先を確認
Stanislav Frolov, Brian B. Moser, Sebastian Palacio, Andreas Dengel, (参考訳) 本稿では,レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるObjBlurを提案する。 提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。 このカリキュラム学習戦略は、訓練中の個々の対象や背景に対して、強いぼやけから徐々にクリーンな画像に至るまで、様々なレベルのぼやけを体系的に適用する。 その結果, 本手法は, 性能向上, 安定トレーニング, よりスムーズな収束, 複数ラン間のばらつきの低減をもたらすことがわかった。 さらに, 提案手法は, 生成的対向ネットワークや拡散モデルと互換性があり, 様々な生成的モデリングパラダイムにまたがって適用可能であることを示す。 ObjBlurでは、複雑なCOCOとVisual Genomeデータセットの最先端結果に到達します。

We present ObjBlur, a novel curriculum learning approach to improve layout-to-image generation models, where the task is to produce realistic images from layouts composed of boxes and labels. Our method is based on progressive object-level blurring, which effectively stabilizes training and enhances the quality of generated images. This curriculum learning strategy systematically applies varying degrees of blurring to individual objects or the background during training, starting from strong blurring to progressively cleaner images. Our findings reveal that this approach yields significant performance improvements, stabilized training, smoother convergence, and reduced variance between multiple runs. Moreover, our technique demonstrates its versatility by being compatible with generative adversarial networks and diffusion models, underlining its applicability across various generative modeling paradigms. With ObjBlur, we reach new state-of-the-art results on the complex COCO and Visual Genome datasets.
翻訳日:2024-04-12 14:39:15 公開日:2024-04-11
# 自動車運動計画は現実的なロングテールシナリオに一般化できるか?

Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios? ( http://arxiv.org/abs/2404.07569v1 )

ライセンス: Link先を確認
Marcel Hallgarten, Julian Zapata, Martin Stoll, Katrin Renz, Andreas Zell, (参考訳) 現実の自動運転システムは、稀で多様な交通シナリオに直面して安全な判断をしなければならない。 現在の最先端のプランナは、主にnuScenes(オープンループ)やnuPlan(クローズループ)といった現実世界のデータセットで評価されている。 特に、nuPlanは実世界のデータとクローズドループに基づいているため、表現力のある評価手法であるように見えるが、基本的には基本的な運転シナリオをカバーしている。 これにより、プランナーがほとんど見えない状況に一般化する能力を判断することが困難になる。 そこで本研究では,複数のエッジケースと運転シナリオを含む新しいクローズドループベンチマークであるInterPlanを提案する。 既存の最先端のプランナをベンチマークで評価し、ルールベースでも学習ベースでも、インタープランナのシナリオを安全にナビゲートできないことを示す。 最近進化している方向は、一般化を扱うために、大きな言語モデル(LLM)のような基礎モデルを使用することである。 我々は, LLMのみのプランナを評価し, LLMに基づく行動プランナとルールに基づく動作プランナを組み合わせた新しいハイブリッドプランナを導入する。

Real-world autonomous driving systems must make safe decisions in the face of rare and diverse traffic scenarios. Current state-of-the-art planners are mostly evaluated on real-world datasets like nuScenes (open-loop) or nuPlan (closed-loop). In particular, nuPlan seems to be an expressive evaluation method since it is based on real-world data and closed-loop, yet it mostly covers basic driving scenarios. This makes it difficult to judge a planner's capabilities to generalize to rarely-seen situations. Therefore, we propose a novel closed-loop benchmark interPlan containing several edge cases and challenging driving scenarios. We assess existing state-of-the-art planners on our benchmark and show that neither rule-based nor learning-based planners can safely navigate the interPlan scenarios. A recently evolving direction is the usage of foundation models like large language models (LLM) to handle generalization. We evaluate an LLM-only planner and introduce a novel hybrid planner that combines an LLM-based behavior planner with a rule-based motion planner that achieves state-of-the-art performance on our benchmark.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 整合性保護のためのフラジオールモデル透かし-境界ボラティリティと敏感なサンプルペアリングを活用する

Fragile Model Watermark for integrity protection: leveraging boundary volatility and sensitive sample-pairing ( http://arxiv.org/abs/2404.07572v1 )

ライセンス: Link先を確認
ZhenZhe Gao, Zhenjun Tang, Zhaoxia Yin, Baoyuan Wu, Yue Lu, (参考訳) ニューラルネットワークは人々の生活にますます影響を与えている。 モデル所有者が設計したニューラルネットワークの忠実な展開を保証することは、バックドアや毒殺攻撃など、悪意のある、意図しないさまざまな修正の影響を受けやすいため、極めて重要である。 Fragileモデル透かしは、DNNモデルが誤った判断を下す可能性のある予期せぬ改ざんを防止することを目的としている。 しかし, 従来の透かし法は非効率な試料生成と感度の低下に悩まされており, 実用性に限界がある。 提案手法では,対のサンプル間のモデル境界を設定するとともに,ロジットの最大化を行う。 これにより、機密サンプルのモデルによる決定結果が可能な限り変化し、Top-1ラベルの移動方向に関わらず変更が容易になる。

Neural networks have increasingly influenced people's lives. Ensuring the faithful deployment of neural networks as designed by their model owners is crucial, as they may be susceptible to various malicious or unintentional modifications, such as backdooring and poisoning attacks. Fragile model watermarks aim to prevent unexpected tampering that could lead DNN models to make incorrect decisions. They ensure the detection of any tampering with the model as sensitively as possible.However, prior watermarking methods suffered from inefficient sample generation and insufficient sensitivity, limiting their practical applicability. Our approach employs a sample-pairing technique, placing the model boundaries between pairs of samples, while simultaneously maximizing logits. This ensures that the model's decision results of sensitive samples change as much as possible and the Top-1 labels easily alter regardless of the direction it moves.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# データスカシティと不均衡分布の緩和のための効果的な発話評価手法

An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution ( http://arxiv.org/abs/2404.07575v1 )

ライセンス: Link先を確認
Tien-Hong Lo, Fu-An Chao, Tzu-I Wu, Yao-Ting Sung, Berlin Chen, (参考訳) 自動発話アセスメント(ASA)は通常、自動音声認識(ASR)と学習者の音声のASR書き起こしから手作りの特徴抽出を含む。 近年,自己教師付き学習(SSL)は,従来の手法に比べて高い性能を示している。 しかし、SSLベースのASAシステムは、限られたアノテートデータ、学習者の習熟度の不均一分布、CEFR習熟度間の不均一スコア間隔という、少なくとも3つのデータ関連課題に直面している。 これらの課題に対処するために、メトリックベースの分類と損失再重み付けという、2つの新しいモデリング戦略について検討する。 ICNALEベンチマークデータセットの大規模な実験結果から,提案手法は既存の強いベースラインを大きなマージンで上回り,CEFR予測精度が10%以上向上する可能性が示唆された。

Automated speaking assessment (ASA) typically involves automatic speech recognition (ASR) and hand-crafted feature extraction from the ASR transcript of a learner's speech. Recently, self-supervised learning (SSL) has shown stellar performance compared to traditional methods. However, SSL-based ASA systems are faced with at least three data-related challenges: limited annotated data, uneven distribution of learner proficiency levels and non-uniform score intervals between different CEFR proficiency levels. To address these challenges, we explore the use of two novel modeling strategies: metric-based classification and loss reweighting, leveraging distinct SSL-based embedding features. Extensive experimental results on the ICNALE benchmark dataset suggest that our approach can outperform existing strong baselines by a sizable margin, achieving a significant improvement of more than 10% in CEFR prediction accuracy.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 生成AIを用いた包括的リチウム電池充電データの生成

Generating Comprehensive Lithium Battery Charging Data with Generative AI ( http://arxiv.org/abs/2404.07577v1 )

ライセンス: Link先を確認
Lidang Jiang, Changyan Hu, Sibei Ji, Hang Zhao, Junxiong Chen, Ge He, (参考訳) リチウム電池の性能を最適化し寿命を延ばすためには、正確な状態予測が重要である。 従来の回帰法と分類法は電池状態の予測に多少の成功を収めた。 しかし、これらのデータ駆動アプローチの有効性は、公開データセットの可用性と品質に大きく依存している。 さらに、バッテリー実験によって主に電気化学データを生成するのは長くてコストがかかるプロセスであり、高品質な電気化学データを取得するのが困難である。 この困難さとデータの不完全さは、予測精度に大きな影響を及ぼす。 これらの課題に対処するために、生成AIモデルの条件として、EOL(End of Life)とECL(Equivalent Cycle Life)を導入する。 CVAEモデルに埋め込み層を組み込むことにより,Refined Conditional Variational Autoencoder (RCVAE)を開発した。 準ビデオ形式にプリプロセッシングすることで, 電圧, 電流, 温度, 帯電容量などの電気化学データを総合的に合成し, RCVAEモデルで処理する。 このモデルは、カスタマイズされたトレーニングと推論アルゴリズムと組み合わせて、教師付き条件下でEOLとECLの特定の電気化学データを生成することができる。 この方法は、リチウム電池データの人工合成のための新しい研究領域を開拓する、包括的な電気化学データセットを提供する。 さらに、詳細な合成データに基づいて、様々な電池状態指標を算出し、リチウム電池の性能予測の新しい視点と可能性を提供する。

In optimizing performance and extending the lifespan of lithium batteries, accurate state prediction is pivotal. Traditional regression and classification methods have achieved some success in battery state prediction. However, the efficacy of these data-driven approaches heavily relies on the availability and quality of public datasets. Additionally, generating electrochemical data predominantly through battery experiments is a lengthy and costly process, making it challenging to acquire high-quality electrochemical data. This difficulty, coupled with data incompleteness, significantly impacts prediction accuracy. Addressing these challenges, this study introduces the End of Life (EOL) and Equivalent Cycle Life (ECL) as conditions for generative AI models. By integrating an embedding layer into the CVAE model, we developed the Refined Conditional Variational Autoencoder (RCVAE). Through preprocessing data into a quasi-video format, our study achieves an integrated synthesis of electrochemical data, including voltage, current, temperature, and charging capacity, which is then processed by the RCVAE model. Coupled with customized training and inference algorithms, this model can generate specific electrochemical data for EOL and ECL under supervised conditions. This method provides users with a comprehensive electrochemical dataset, pioneering a new research domain for the artificial synthesis of lithium battery data. Furthermore, based on the detailed synthetic data, various battery state indicators can be calculated, offering new perspectives and possibilities for lithium battery performance prediction.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 超分極ダイナミクス:漸近分極

Hyperpolarisation Dynamics: Asymptotic Polarisation ( http://arxiv.org/abs/2404.07578v1 )

ライセンス: Link先を確認
O. T. Whaites, T. S. Monteiro, (参考訳) 固体量子コンピューティングや量子シミュレーションの応用には、熱的に混合された電子スピン量子ビットと核スピン量子ビットの高忠実度初期化が不可欠である。 電子スピンは光学的に高忠実度に初期化することができるが、核スピンの初期化は電子スピンを介して動的核偏極(DNP)のような代替のアプローチを必要とする。 PulsePolのようなパルスベースのDNP法はすでに広く利用されている。 電子スピンの再初期化と交差するPulsePol配列の繰り返し適用により、超分極と呼ばれる高レベルの核偏極が達成されている。 これらのプロトコルの理論的解析から、完全な核初期化が期待されるが、実際には、$\sim$ 95$\%$以下の飽和が実験で見られる。 我々は,非最大核偏極飽和度を現実的核スピンクラスターの漸近極限で予測し,超分極ダイナミクスを記述するための解析モデルを開発した。 我々は、この方法を用いた典型的な核クラスターの完全な初期化は、一般に、任意に多くの繰り返しが繰り返されても不可能であると主張している。

For applications of solid state quantum computing and quantum simulations, high fidelity initialisation of thermally mixed electronic and nuclear spin qubits is essential. Whereas electronic spins can readily be initialised optically to high fidelity, initialisation of the nuclear spins requires alternative approaches, such as dynamic nuclear polarisation (DNP) via the electronic spin. Pulse-based DNP methods, such as PulsePol, are already widely utilised. By means of repeated application of PulsePol sequences, interspersed with re-initialisation of the electronic spin, high levels of nuclear polarisation -- termed hyperpolarisation -- have been achieved. From theoretical analysis of these protocols perfect nuclear initialisation is expected; however, in practice, saturation below $\sim$ 95$\%$ is seen in experiment. We develop an analytical model to describe hyperpolarisation dynamics, predicting non-maximal nuclear polarisation saturation in the asymptotic limit for realistic nuclear spin clusters. We argue that perfect initialisation of a typical nuclear cluster using this method may not, in general, be possible even with an arbitrarily large number of repetitions.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 曖昧な医用画像分割のためのマルチレータプロンプト

Multi-rater Prompting for Ambiguous Medical Image Segmentation ( http://arxiv.org/abs/2404.07580v1 )

ライセンス: Link先を確認
Jinhong Wang, Yi Cheng, Jintai Chen, Hongxia Xu, Danny Chen, Jian Wu, (参考訳) マルチラターアノテーションは、医療画像が複数の専門家(レーダ)によって独立して注釈付けされるときに一般的に発生する。 本稿では,医療画像セグメンテーションのためのマルチラターアノテーション(曖昧な医用画像セグメンテーション)において生じる2つの課題に対処する:(1)ラガーの集団が多種多様なプラウティブルアノテーションを作成した場合の深層学習モデルの訓練方法、(2)計算資源が異なるデータセット領域でモデル全体を再トレーニングできない場合のモデル修正を効果的に行う方法。 本稿では,これら2つの課題を完全に解決するためのマルチラッタープロンプトベースのアプローチを提案する。 具体的には,複数アノテーションのケースを扱うための不確実性推定のために,U-Netモデルに接続可能なレーダ対応プロンプトをいくつか導入する。 プロンプトベースの微調整プロセスでは、モデル全体のトレーニングと比較すると、学習可能なパラメータのわずか0.3%が更新される必要がある。 さらに、専門家のコンセンサスと意見の不一致を統合するために、様々なマルチレータ構成戦略を探求し、総合的な洞察学習のための混合学習戦略を設計する。 モデル再訓練の重荷を軽減しつつ、2つの公開データセット上でのあいまいな医用画像分割のための新しいアプローチの有効性を検証する。

Multi-rater annotations commonly occur when medical images are independently annotated by multiple experts (raters). In this paper, we tackle two challenges arisen in multi-rater annotations for medical image segmentation (called ambiguous medical image segmentation): (1) How to train a deep learning model when a group of raters produces a set of diverse but plausible annotations, and (2) how to fine-tune the model efficiently when computation resources are not available for re-training the entire model on a different dataset domain. We propose a multi-rater prompt-based approach to address these two challenges altogether. Specifically, we introduce a series of rater-aware prompts that can be plugged into the U-Net model for uncertainty estimation to handle multi-annotation cases. During the prompt-based fine-tuning process, only 0.3% of learnable parameters are required to be updated comparing to training the entire model. Further, in order to integrate expert consensus and disagreement, we explore different multi-rater incorporation strategies and design a mix-training strategy for comprehensive insight learning. Extensive experiments verify the effectiveness of our new approach for ambiguous medical image segmentation on two public datasets while alleviating the heavy burden of model re-training.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# UltraEval: LLMのフレキシブルで総合的な評価のための軽量プラットフォーム

UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs ( http://arxiv.org/abs/2404.07584v1 )

ライセンス: Link先を確認
Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun, (参考訳) 評価は、LLM(Large Language Models)をホーミングし、その能力を特定し、拡張を導く上で重要である。 LLMの迅速な開発は、迅速な評価デプロイメントのための軽量で使いやすいフレームワークを求めている。 しかし、様々な実装の詳細を考慮する必要があるため、総合的な評価プラットフォームの開発は決して容易ではない。 既存のプラットフォームはしばしば複雑でモジュール化が不十分で、研究者のワークフローにシームレスに組み込むのを妨げる。 本稿では,軽量,包括性,モジュール性,効率性を特徴とするユーザフレンドリーな評価フレームワークであるUltraEvalを紹介する。 モデル評価(モデル、データ、メトリクス)の3つのコアコンポーネントを特定し、再実装します。 その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることができる。 さらにUltraEvalは、統一HTTPサービスによる多様なモデルをサポートし、十分な推論アクセラレーションを提供する。 UltraEvalは現在、研究者向けに公開されている。\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}。

Evaluation is pivotal for honing Large Language Models (LLMs), pinpointing their capabilities and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, due to the various implementation details to consider, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into researcher's workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by lightweight, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly~\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 高精度データ設定におけるシミュレーションに基づく推論のための拡散後サンプリング

Diffusion posterior sampling for simulation-based inference in tall data settings ( http://arxiv.org/abs/2404.07593v1 )

ライセンス: Link先を確認
Julia Linhart, Gabriel Victorino Cardoso, Alexandre Gramfort, Sylvain Le Corff, Pedro L. C. Rodrigues, (参考訳) 非線形モデルのどのパラメータが実験データの集合を最もよく記述できるかを決定することは科学の基本的な問題であり、近年は複雑な大規模シミュレータ(ブラックボックスシミュレータ)の台頭によって大きな注目を集めている。 このようなモデルの可能性は通常難解であり、古典的なMCMC法は使用できない。 シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後続分布を近似できる深層生成モデルの訓練にシミュレーションのデータセットを必要とするだけで、この文脈で際立っている。 本研究では,複数の観測値が利用可能であり,それらの共有情報を活用してモデルのパラメータをよりよく推測することのできる,背の高いデータ拡張について考察する。 提案手法は,近年盛んになっているスコアベース拡散文学の成果に基づいて構築され,個々の観測に基づいて学習したスコアネットワークの情報を用いて,高度データ後部分布を推定することができる。 提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。

Determining which parameters of a non-linear model could best describe a set of experimental data is a fundamental problem in science and it has gained much traction lately with the rise of complex large-scale simulators (a.k.a. black-box simulators). The likelihood of such models is typically intractable, which is why classical MCMC methods can not be used. Simulation-based inference (SBI) stands out in this context by only requiring a dataset of simulations to train deep generative models capable of approximating the posterior distribution that relates input parameters to a given observation. In this work, we consider a tall data extension in which multiple observations are available and one wishes to leverage their shared information to better infer the parameters of the model. The method we propose is built upon recent developments from the flourishing score-based diffusion literature and allows us to estimate the tall data posterior distribution simply using information from the score network trained on individual observations. We compare our method to recently proposed competing approaches on various numerical experiments and demonstrate its superiority in terms of numerical stability and computational cost.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# ロボット補助心血管カテーテルにおけるガイドワイヤ分割のための多層デコーダ分岐による弱覚的学習

Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Guidewire Segmentation in Robot-Assisted Cardiovascular Catheterization ( http://arxiv.org/abs/2404.07594v1 )

ライセンス: Link先を確認
Olatunji Mumini Omisore, Toluwanimi Akinyemi, Anh Nguyen, Lei Wang, (参考訳) ロボット補助型心血管カテーテルは, 心臓血管疾患の介入のために一般的に行われているが, 自動的ツールセグメンテーションによる治療を支援するためには, さらなる研究が必要である。 これにより、介入中の外科医がツールの追跡と視覚化を行うのに役立つ。 学習ベースのセグメンテーションは、最近最先端のセグメンテーションパフォーマンスを提供しているが、完全に教師された手法のための地味な信号を生成することは、介入者にとって労働集約的であり、時間を要する。 本研究では,多面的擬似ラベルを用いた弱教師付き学習法を提案し,心血管造影におけるツールセグメンテーションについて検討した。 この方法は、1つのエンコーダと、異なる摂動下で疑似ラベルを監視信号として生成する複数の横分岐デコーダを備えた修正U-Netモデルを含む。 擬似ラベルは、混合損失関数とデコーダ内の共有一貫性によって自己生成される。 我々は,ロボット心カテーテル手術中に得られた弱注釈データを用いて,エンドツーエンドのモデルを訓練した。 提案モデルを用いた実験により, 弱アノテートされたデータは, 完全アノテートされたデータを使用する場合に, より近い性能を示す。 従来の3種類の心血管造影法と比較して,3種類の心血管造影データに対して高いセグメンテーション性能を示した。 アブレーション実験では,異なるパラメータで一貫した性能を示した。 そこで本研究では,ロボットによる心臓カテーテル治療中に,リアルタイムツールのセグメンテーションとトラッキングを行うための安価な方法を提案する。

Although robot-assisted cardiovascular catheterization is commonly performed for intervention of cardiovascular diseases, more studies are needed to support the procedure with automated tool segmentation. This can aid surgeons on tool tracking and visualization during intervention. Learning-based segmentation has recently offered state-of-the-art segmentation performances however, generating ground-truth signals for fully-supervised methods is labor-intensive and time consuming for the interventionists. In this study, a weakly-supervised learning method with multi-lateral pseudo labeling is proposed for tool segmentation in cardiac angiograms. The method includes a modified U-Net model with one encoder and multiple lateral-branched decoders that produce pseudo labels as supervision signals under different perturbation. The pseudo labels are self-generated through a mixed loss function and shared consistency in the decoders. We trained the model end-to-end with weakly-annotated data obtained during robotic cardiac catheterization. Experiments with the proposed model shows weakly annotated data has closer performance to when fully annotated data is used. Compared to three existing weakly-supervised methods, our approach yielded higher segmentation performance across three different cardiac angiogram data. With ablation study, we showed consistent performance under different parameters. Thus, we offer a less expensive method for real-time tool segmentation and tracking during robot-assisted cardiac catheterization.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 拡散に基づく視覚知覚のための暗黙的・明示的言語指導

Implicit and Explicit Language Guidance for Diffusion-based Visual Perception ( http://arxiv.org/abs/2404.07600v1 )

ライセンス: Link先を確認
Hefeng Wang, Jiale Cao, Jin Xie, Aiping Yang, Yanwei Pang, (参考訳) テキストと画像の拡散モデルは条件付き画像合成に強力な能力を示している。 大規模視覚言語による事前学習により、拡散モデルは、異なるテキストプロンプトの下で、豊かなテクスチャと合理的な構造を持つ高品質な画像を生成することができる。 しかし、事前学習した拡散モデルを視覚知覚に適用することは、オープンな問題である。 本稿では,拡散に基づく知覚のための暗黙的かつ明示的な言語指導フレームワークIEDPを提案する。 当社のIEDPは暗黙の言語ガイダンスブランチと明示的な言語ガイダンスブランチで構成されています。 暗黙のブランチは凍結したCLIPイメージエンコーダを使用して、明示的なテキストプロンプトを使わずに拡散モデルに供給される暗黙のテキスト埋め込みを直接生成する。 明示分岐は、拡散モデルの条件特徴抽出にテキストプロンプトとして、対応する画像の接地木ラベルを利用する。 トレーニング中、これらの2つのブランチのモデル重みを共有することで、拡散モデルを共同で訓練する。 その結果、暗黙の枝と明示的な枝は、特徴学習を共同でガイドすることができる。 推測では,最終予測には暗黙の分岐のみを用いる。 セマンティックセグメンテーションと深さ推定を含む2つの典型的な知覚タスクで実験を行う。 当社のIEDPは両タスクで有望なパフォーマンスを実現しています。 セマンティックセグメンテーションに関して、我々のIEDPはAD20K検証セットのmIoUスコアが55.9%であり、ベースライン法VPDを2.2%上回っている。 深度推定では, ベースライン法VPDよりも10.2%向上した。

Text-to-image diffusion models have shown powerful ability on conditional image synthesis. With large-scale vision-language pre-training, diffusion models are able to generate high-quality images with rich texture and reasonable structure under different text prompts. However, it is an open problem to adapt the pre-trained diffusion model for visual perception. In this paper, we propose an implicit and explicit language guidance framework for diffusion-based perception, named IEDP. Our IEDP comprises of an implicit language guidance branch and an explicit language guidance branch. The implicit branch employs frozen CLIP image encoder to directly generate implicit text embeddings that are fed to diffusion model, without using explicit text prompts. The explicit branch utilizes the ground-truth labels of corresponding images as text prompts to condition feature extraction of diffusion model. During training, we jointly train diffusion model by sharing the model weights of these two branches. As a result, implicit and explicit branches can jointly guide feature learning. During inference, we only employ implicit branch for final prediction, which does not require any ground-truth labels. Experiments are performed on two typical perception tasks, including semantic segmentation and depth estimation. Our IEDP achieves promising performance on both tasks. For semantic segmentation, our IEDP has the mIoU score of 55.9% on AD20K validation set, which outperforms the baseline method VPD by 2.2%. For depth estimation, our IEDP outperforms the baseline method VPD with a relative gain of 10.2%.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 単語レベルデータに基づくオフライン作者識別のための注意に基づくエンドツーエンドネットワーク

Attention based End to end network for Offline Writer Identification on Word level data ( http://arxiv.org/abs/2404.07602v1 )

ライセンス: Link先を確認
Vineet Kumar, Suresh Sundaram, (参考訳) 様々な分野に広く応用された作家の身元確認は、長年にわたって人気を博してきた。 最適な手書きサンプルが利用できるシナリオでは、単行、文、ページ全体のいずれかの形で、ライター識別アルゴリズムは注目すべきレベルの精度を示している。 しかし、手書きサンプルが限られている場合、特に単語画像の形式では、改善のためのかなりの範囲がある。 本稿では,注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。 このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。 この手法により、システムはデータの包括的表現をキャプチャし、様々な抽象化レベルにわたる細粒度の詳細と粗い特徴の両方を包含することができる。 これらの断片は、畳み込みネットワークのトレーニングデータとして機能し、単語イメージに基づいて訓練された伝統的な畳み込みベースのネットワークと比較して、より堅牢な表現を学ぶことができる。 さらに,学習した特徴の表現力を高めるための注意機構の統合についても検討した。 提案アルゴリズムの有効性を3つのベンチマークデータベースで評価し、特に手書きデータへのアクセスに制限のあるシナリオにおいて、書き手識別タスクの習熟度を示す。

Writer identification due to its widespread application in various fields has gained popularity over the years. In scenarios where optimum handwriting samples are available, whether they be in the form of a single line, a sentence, or an entire page, writer identification algorithms have demonstrated noteworthy levels of accuracy. However, in scenarios where only a limited number of handwritten samples are available, particularly in the form of word images, there is a significant scope for improvement. In this paper, we propose a writer identification system based on an attention-driven Convolutional Neural Network (CNN). The system is trained utilizing image segments, known as fragments, extracted from word images, employing a pyramid-based strategy. This methodology enables the system to capture a comprehensive representation of the data, encompassing both fine-grained details and coarse features across various levels of abstraction. These extracted fragments serve as the training data for the convolutional network, enabling it to learn a more robust representation compared to traditional convolution-based networks trained on word images. Additionally, the paper explores the integration of an attention mechanism to enhance the representational power of the learned features. The efficacy of the proposed algorithm is evaluated on three benchmark databases, demonstrating its proficiency in writer identification tasks, particularly in scenarios with limited access to handwriting data.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# GLID:ジェネリストエンコーダ・デコーダビジョンモデルの事前トレーニング

GLID: Pre-training a Generalist Encoder-Decoder Vision Model ( http://arxiv.org/abs/2404.07603v1 )

ライセンス: Link先を確認
Jihao Liu, Jinliang Zheng, Yu Liu, Hongsheng Li, (参考訳) 本稿では、様々な下流コンピュータビジョンタスクをよりよく扱うために、ジェネラリストエンコーダ・デコーダ(GLID)事前学習法を提案する。 Masked Autoencoderのような自己指導型事前学習アプローチは、転送学習の成功を示しているが、タスク固有のサブアーキテクチャは、大規模な事前学習の恩恵を享受できない下流タスクに追加する必要がある。 GLIDは、訓練済みの汎用エンコーダデコーダを、タスク固有のアーキテクチャ修正を最小限に抑えた様々な視覚タスクで微調整できるようにすることで、この課題を克服する。 GLIDトレーニングスキームでは、事前学習されたプレテキストタスクやその他のダウンストリームタスクは、事前学習されたプレテキストタスクやその他のダウンストリームタスクを含む「問い合わせ」問題としてモデル化される。 タスクに依存しないエンコーダ-デコーダをクエリマスクペアで事前訓練する。 微調整の間、GLIDはトレーニング済みのエンコーダデコーダとクエリを保持し、最上位の線形変換層をタスク固有の線形ヘッドに置き換える。 これにより、事前訓練済みのファイントゥンアーキテクチャの不整合を最小化し、トレーニング済みのモデルが下流のタスクに適応できるようにします。 GLIDは、オブジェクト検出、イメージセグメンテーション、ポーズ推定、深さ推定、Mask2Former、DETR、ViTPose、BinsFormerなどのパフォーマンスまたはマッチングスペシャリストモデルなど、さまざまなビジョンタスクにおいて、競合的なパフォーマンスを実現している。

This paper proposes a GeneraLIst encoder-Decoder (GLID) pre-training method for better handling various downstream computer vision tasks. While self-supervised pre-training approaches, e.g., Masked Autoencoder, have shown success in transfer learning, task-specific sub-architectures are still required to be appended for different downstream tasks, which cannot enjoy the benefits of large-scale pre-training. GLID overcomes this challenge by allowing the pre-trained generalist encoder-decoder to be fine-tuned on various vision tasks with minimal task-specific architecture modifications. In the GLID training scheme, pre-training pretext task and other downstream tasks are modeled as "query-to-answer" problems, including the pre-training pretext task and other downstream tasks. We pre-train a task-agnostic encoder-decoder with query-mask pairs. During fine-tuning, GLID maintains the pre-trained encoder-decoder and queries, only replacing the topmost linear transformation layer with task-specific linear heads. This minimizes the pretrain-finetune architecture inconsistency and enables the pre-trained model to better adapt to downstream tasks. GLID achieves competitive performance on various vision tasks, including object detection, image segmentation, pose estimation, and depth estimation, outperforming or matching specialist models such as Mask2Former, DETR, ViTPose, and BinsFormer.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# ラベルノイズ耐性組織像分類のためのコントラストベースディープ埋め込み

Contrastive-Based Deep Embeddings for Label Noise-Resilient Histopathology Image Classification ( http://arxiv.org/abs/2404.07605v1 )

ライセンス: Link先を確認
Lucas Dedieu, Nicolas Nerrienet, Adrien Nivaggioli, Clara Simmat, Marceau Clavel, Arnaud Gauthier, Stéphane Sockeel, Rémy Peyret, (参考訳) 近年の深層学習の進歩は、特に病理組織学において、医用画像分類において非常に有効であることが証明されている。 しかし、ノイズラベルは、堅牢なディープラーニングモデルのトレーニングに正確なアノテーションが不可欠である、病理画像分類において重要な課題である。 実際、ディープニューラルネットワークはラベルノイズに簡単に適合し、モデルの性能が大幅に低下する。 最近、多くの公的な病理基盤モデルが出現しているが、騒音をラベル付けするための弾力性を評価するものはない。 複数のデータセットにまたがる徹底的な経験的分析を通して、自己教師付きコントラスト方式で訓練された基礎モデルから抽出した埋め込みのラベルノイズ耐性特性を示す。 このような埋め込みによるトレーニングは,非コントラストベースに比べてラベル雑音の頑健性を大幅に向上させるとともに,一般的な耐雑音性も向上することを示す。 本研究の結果は,ラベルノイズを効果的に軽減する上で,コントラスト学習の優位性を必然的に裏付けるものである。 コードはhttps://github.com/LucasDedieu/NoiseResilient Hisstopathologyで公開されている。

Recent advancements in deep learning have proven highly effective in medical image classification, notably within histopathology. However, noisy labels represent a critical challenge in histopathology image classification, where accurate annotations are vital for training robust deep learning models. Indeed, deep neural networks can easily overfit label noise, leading to severe degradations in model performance. While numerous public pathology foundation models have emerged recently, none have evaluated their resilience to label noise. Through thorough empirical analyses across multiple datasets, we exhibit the label noise resilience property of embeddings extracted from foundation models trained in a self-supervised contrastive manner. We demonstrate that training with such embeddings substantially enhances label noise robustness when compared to non-contrastive-based ones as well as commonly used noise-resilient methods. Our results unequivocally underline the superiority of contrastive learning in effectively mitigating the label noise challenge. Code is publicly available at https://github.com/LucasDedieu/NoiseResilientHistopathology.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 深層学習と衛星画像を用いた暗黒船舶船間移動の自動検出

Automatic Detection of Dark Ship-to-Ship Transfers using Deep Learning and Satellite Imagery ( http://arxiv.org/abs/2404.07607v1 )

ライセンス: Link先を確認
Ollie Ballinger, (参考訳) リモートセンシングによる船舶検出に関する広範な研究にもかかわらず、衛星画像中の船舶間輸送を識別する研究は行われていない。 違法な輸送慣行におけるトランスシップの重要性を考えると、これは大きなギャップである。 次に、私は畳み込みニューラルネットワークを訓練し、PlanetScope衛星画像における4種類の貨物船と2種類の船舶船の移動を正確に検出します。 次に, 船舶搭載GPSデータを用いた衛星観測により, 不正船から船への移動を疑う疑わしい船から船への移動を自動的に検出するパイプラインを精査した。 最後に、この手法をウクライナとロシアの間のケルチ海峡に適用し、2022年以降400以上の暗黒輸送イベントを特定します。

Despite extensive research into ship detection via remote sensing, no studies identify ship-to-ship transfers in satellite imagery. Given the importance of transshipment in illicit shipping practices, this is a significant gap. In what follows, I train a convolutional neural network to accurately detect 4 different types of cargo vessel and two different types of Ship-to-Ship transfer in PlanetScope satellite imagery. I then elaborate a pipeline for the automatic detection of suspected illicit ship-to-ship transfers by cross-referencing satellite detections with vessel borne GPS data. Finally, I apply this method to the Kerch Strait between Ukraine and Russia to identify over 400 dark transshipment events since 2022.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# 思い出した? クロスモーダルなメモリ検索で動画を撮る

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval ( http://arxiv.org/abs/2404.07610v1 )

ライセンス: Link先を確認
Minkuk Kim, Hyeon Bae Kim, Jinyoung Moon, Jinwoo Choi, Seong Tae Kim, (参考訳) ビデオキャプションの高度化に関する研究は,全イベントを自動的にローカライズ・キャプションする目的で注目されている。 いくつかの研究は、濃密なビデオキャプションをイベントローカライゼーションとイベントキャプションのマルチタスク問題として設計し、タスク間関係を検討する方法を紹介している。 しかし、視覚的な入力のみを使用して両方のタスクに対処することは、セマンティックな内容の欠如により困難である。 本研究では,人間の認知情報処理に触発された新しい枠組みを提案する。 我々のモデルは、事前知識を組み込むために外部記憶を利用する。 クロスモーダルなビデオ・テキストマッチングを用いたメモリ検索手法を提案する。 検索したテキストの特徴を効果的に組み込むために、多目的エンコーダと、視覚的およびテキスト的横断的モジュールを備えたデコーダを設計する。 提案手法の有効性を示すために,ActivityNet CaptionsとYouCook2データセットの比較実験を行った。 実験結果から,大規模なビデオデータセットからの事前学習を行なわずに,提案モデルの有望な性能を示す。

There has been significant attention to the research on dense video captioning, which aims to automatically localize and caption all events within untrimmed video. Several studies introduce methods by designing dense video captioning as a multitasking problem of event localization and event captioning to consider inter-task relations. However, addressing both tasks using only visual input is challenging due to the lack of semantic content. In this study, we address this by proposing a novel framework inspired by the cognitive information processing of humans. Our model utilizes external memory to incorporate prior knowledge. The memory retrieval method is proposed with cross-modal video-to-text matching. To effectively incorporate retrieved text features, the versatile encoder and the decoder with visual and textual cross-attention modules are designed. Comparative experiments have been conducted to show the effectiveness of the proposed method on ActivityNet Captions and YouCook2 datasets. Experimental results show promising performance of our model without extensive pretraining from a large video dataset.
翻訳日:2024-04-12 14:29:24 公開日:2024-04-11
# NoticIA: スペイン語のクリックベイト記事要約データセット

NoticIA: A Clickbait Article Summarization Dataset in Spanish ( http://arxiv.org/abs/2404.07611v1 )

ライセンス: Link先を確認
Iker García-Ferrero, Begoña Altuna, (参考訳) NoticIAは850のスペイン語ニュース記事からなるデータセットで、目立ったクリックベイト見出しを特徴とし、それぞれが高品質で、人間によって書かれた単一文生成要約と組み合わせている。 このタスクは、高度なテキスト理解と要約能力を必要とし、クリックベイト見出しによって生成されるユーザの情報要求を満たすために、様々な情報を推測し、接続するためのモデルの能力に挑戦する。 我々は、幅広い最先端の大規模言語モデルのスペイン語テキスト理解能力を評価する。 さらに、このデータセットを使用して、このタスクでほぼ人間に近いパフォーマンスを達成するタスク固有のモデルであるClickbaitFighterをトレーニングします。

We present NoticIA, a dataset consisting of 850 Spanish news articles featuring prominent clickbait headlines, each paired with high-quality, single-sentence generative summarizations written by humans. This task demands advanced text understanding and summarization abilities, challenging the models' capacity to infer and connect diverse pieces of information to meet the user's informational needs generated by the clickbait headline. We evaluate the Spanish text comprehension capabilities of a wide range of state-of-the-art large language models. Additionally, we use the dataset to train ClickbaitFighter, a task-specific model that achieves near-human performance in this task.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 自然言語によるGPT-4のジオゲスティング実験による基礎モデルの地理的多様性の測定

Measuring Geographic Diversity of Foundation Models with a Natural Language--based Geo-guessing Experiment on GPT-4 ( http://arxiv.org/abs/2404.07612v1 )

ライセンス: Link先を確認
Zilong Liu, Krzysztof Janowicz, Kitty Currier, Meilin Shi, (参考訳) 基礎モデルに基づく生成AIは、トレーニング中にこれらのモデルに取り込み、膨大な量のマルチモーダルデータに基づいてトレーニングされたマシンによって表現される世界を初めて垣間見る。 結果のモデルを独自の知識基盤として考えると、機械のレンズを通して場所を理解するための新たな道が開かれるかもしれない。 本研究では,この考え方を採用し,多モーダル大言語モデル群における最先端の代表である GPT-4 を選択し,地理的特徴の表現性について,その地理的多様性について検討する。 自然言語によるジオゲスティング実験では,DBpedia の抽象表現を基礎構造コーパスとして用いることで,GPT-4 が現在,グローバルレベルでのいくつかの地理的特徴型に関する知識不足をコード化している可能性が示唆された。 地域レベルでは,地域規模が大きくなるにつれて地域間格差が小さくなる可能性がある。 さらに,グローバルレベルやローカルレベルでのジオガッシング性能を評価するにあたり,GPT-4のジオガッシング性能にモデル間差が生じる。 我々は,グローバルな社会技術的課題に直面したGIScienceコミュニティにおける倫理的原則として,地理的多様性に関する議論を始めることを願っている。

Generative AI based on foundation models provides a first glimpse into the world represented by machines trained on vast amounts of multimodal data ingested by these models during training. If we consider the resulting models as knowledge bases in their own right, this may open up new avenues for understanding places through the lens of machines. In this work, we adopt this thinking and select GPT-4, a state-of-the-art representative in the family of multimodal large language models, to study its geographic diversity regarding how well geographic features are represented. Using DBpedia abstracts as a ground-truth corpus for probing, our natural language--based geo-guessing experiment shows that GPT-4 may currently encode insufficient knowledge about several geographic feature types on a global level. On a local level, we observe not only this insufficiency but also inter-regional disparities in GPT-4's geo-guessing performance on UNESCO World Heritage Sites that carry significance to both local and global populations, and the inter-regional disparities may become smaller as the geographic scale increases. Morever, whether assessing the geo-guessing performance on a global or local level, we find inter-model disparities in GPT-4's geo-guessing performance when comparing its unimodal and multimodal variants. We hope this work can initiate a discussion on geographic diversity as an ethical principle within the GIScience community in the face of global socio-technical challenges.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# Medical mT5: 医療領域のためのオープンソース多言語テキストテキストLLM

Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain ( http://arxiv.org/abs/2404.07613v1 )

ライセンス: Link先を確認
Iker García-Ferrero, Rodrigo Agerri, Aitziber Atutxa Salazar, Elena Cabrio, Iker de la Iglesia, Alberto Lavelli, Bernardo Magnini, Benjamin Molinet, Johana Ramirez-Romero, German Rigau, Jose Maria Villa-Gonzalez, Serena Villata, Andrea Zaninello, (参考訳) 医学応用開発のための言語技術の研究は、現在、自然言語理解・生成においてホットな話題となっている。 このように、最近、多くの大規模言語モデル(LLM)が医療領域に適応し、人間とAIの相互作用を仲介するためのツールとして使用できるようになった。 これらのLSMは、自動化された医療用テキストベンチマーク上での競合性能を示すが、それらは事前訓練され、単一の言語(主に英語)に焦点を当てて評価されている。 これは、通常大量のドメイン固有の事前学習データを必要とするテキスト・ツー・テキスト・モデルに特に当てはまるが、多くの言語では容易にアクセスできないことが多い。 本稿では,これらの欠点に,英語,フランス語,イタリア語,スペイン語の4言語で医療領域の最大多言語コーパスをコンパイルすることで対処する。 この新しいコーパスは、医療ドメインのための最初のオープンソーステキスト-テキスト多言語モデルであるMedical mT5のトレーニングに使用されている。 さらに,この領域における多言語研究の促進を目的とした,4言語すべてを対象とした2つの新しい評価ベンチマークを提案する。 包括的な評価では、メディカルmT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同様の大きさのテキスト・テキスト・モデルの両方より優れており、現在の英語のLLMと競合している。

Research on language technology for the development of medical applications is currently a hot topic in Natural Language Understanding and Generation. Thus, a number of large language models (LLMs) have recently been adapted to the medical domain, so that they can be used as a tool for mediating in human-AI interaction. While these LLMs display competitive performance on automated medical texts benchmarks, they have been pre-trained and evaluated with a focus on a single language (English mostly). This is particularly true of text-to-text models, which typically require large amounts of domain-specific pre-training data, often not easily accessible for many languages. In this paper, we address these shortcomings by compiling, to the best of our knowledge, the largest multilingual corpus for the medical domain in four languages, namely English, French, Italian and Spanish. This new corpus has been used to train Medical mT5, the first open-source text-to-text multilingual model for the medical domain. Additionally, we present two new evaluation benchmarks for all four languages with the aim of facilitating multilingual research in this domain. A comprehensive evaluation shows that Medical mT5 outperforms both encoders and similarly sized text-to-text models for the Spanish, French, and Italian benchmarks, while being competitive with current state-of-the-art LLMs in English.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 音声対話:音声・音楽理解のための対話データセット

Audio Dialogues: Dialogues dataset for audio and music understanding ( http://arxiv.org/abs/2404.07616v1 )

ライセンス: Link先を確認
Arushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, (参考訳) 既存の音声理解用データセットは、音声を自然言語で記述するシングルターンインタラクション(音声キャプション、音声質問応答)に重点を置いており、対話的対話による音声理解を制限している。 このギャップに対処するため,一般的な音声と音楽のための163.8kサンプルを含むマルチターン対話データセットであるAudio Dialoguesを紹介した。 対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。 Audio Dialoguesは、既存のデータセットからのプロンプトベースのアプローチとキャプションアノテーションを利用して、Large Language Model (LLM)を使用してマルチターン対話を生成する。 本稿では,音声対話の複雑さと適用性を示すため,既存の音声強調大言語モデルを提案データセット上で評価する。 データセットを生成するコードは公開されます。 詳細なプロンプトと生成された対話は、デモウェブサイト https://audiodialogues.github.io/.com/で見ることができる。

Existing datasets for audio understanding primarily focus on single-turn interactions (i.e. audio captioning, audio question answering) for describing audio in natural language, thus limiting understanding audio via interactive dialogue. To address this gap, we introduce Audio Dialogues: a multi-turn dialogue dataset containing 163.8k samples for general audio sounds and music. In addition to dialogues, Audio Dialogues also has question-answer pairs to understand and compare multiple input audios together. Audio Dialogues leverages a prompting-based approach and caption annotations from existing datasets to generate multi-turn dialogues using a Large Language Model (LLM). We evaluate existing audio-augmented large language models on our proposed dataset to demonstrate the complexity and applicability of Audio Dialogues. Our code for generating the dataset will be made publicly available. Detailed prompts and generated dialogues can be found on the demo website https://audiodialogues.github.io/.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# フォン・ノイマン代数における$α$-$z$-Rényiの発散:$α,z$におけるデータ処理の不等式、可逆性、単調性

$α$-$z$-Rényi divergences in von Neumann algebras: data-processing inequality, reversibility, and monotonicity properties in $α,z$ ( http://arxiv.org/abs/2404.07617v1 )

ライセンス: Link先を確認
Fumio Hiai, Anna Jenčová, (参考訳) 正規正函数に対する$\alpha$-$z$-R\'enyi divergences $D_{\alpha,z}(\psi\|\varphi)$ where $\alpha,z>0$$$\alpha\ne1$) for general von Neumann algebras, in [S.~Kato and Y.~Ueda, arXiv:2307.01790] and [S.~Kato, arXiv:2311.01748]。 我々は、$\alpha$-$z$-R\'enyiの発散式とデータ処理の不等式(DPI)を証明した。 DPIバウンド内の$(\alpha,z)$に対して、DPIバウンド内の$(\alpha,z)$に対して、等式$D_{\alpha,z}(\psi\circ\gamma\|\varphi\circ\gamma)=D_{\alpha,z}(\psi\|\varphi)<\infty$は、量子チャネル(または通常の2ドル正のユニタリ写像)の下でDPI内の$D_{\alpha,z}(\psi\|\varphi)<\infty$は、$\psi,\varphi$に対する$\gamma$の可逆性を意味する。 さらに、パラメータ $\alpha,z$ における $D_{\alpha,z}(\psi\|\varphi)$ の単調性特性とその正規化相対エントロピーに対する極限を $\alpha\nearrow1$ および $\alpha\searrow1$ として示す。

We study the $\alpha$-$z$-R\'enyi divergences $D_{\alpha,z}(\psi\|\varphi)$ where $\alpha,z>0$ ($\alpha\ne1$) for normal positive functionals $\psi,\varphi$ on general von Neumann algebras, introduced in [S.~Kato and Y.~Ueda, arXiv:2307.01790] and [S.~Kato, arXiv:2311.01748]. We prove the variational expressions and the data processing inequality (DPI) for the $\alpha$-$z$-R\'enyi divergences. We establish the sufficiency theorem for $D_{\alpha,z}(\psi\|\varphi)$, saying that for $(\alpha,z)$ inside the DPI bounds, the equality $D_{\alpha,z}(\psi\circ\gamma\|\varphi\circ\gamma)=D_{\alpha,z}(\psi\|\varphi)<\infty$ in the DPI under a quantum channel (or a normal $2$-positive unital map) $\gamma$ implies the reversibility of $\gamma$ with respect to $\psi,\varphi$. Moreover, we show the monotonicity properties of $D_{\alpha,z}(\psi\|\varphi)$ in the parameters $\alpha,z$ and their limits to the normalized relative entropy as $\alpha\nearrow1$ and $\alpha\searrow1$.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 膵分離におけるエッジ不確かさ低減のための拡散確率的マルチキューレベルセット

Diffusion Probabilistic Multi-cue Level Set for Reducing Edge Uncertainty in Pancreas Segmentation ( http://arxiv.org/abs/2404.07620v1 )

ライセンス: Link先を確認
Yue Gou, Yuming Xing, Shengzhu Shi, Zhichang Guo, (参考訳) 正確な膵臓の分断は依然として大きな課題である。 従来の方法では、膵の体積が小さく、歪んだ構造が原因で意味的局所化が困難であり、深層学習法では、低コントラストとオルガンオーバーラップのため、正確なエッジを得るのが困難である。 これらの問題を解決するために,拡散確率モデル,すなわちDiff-mcsに基づくマルチキューレベル設定法を提案する。 提案手法は粗大なセグメント化戦略を採用する。 拡散確率モデルを粗いセグメンテーション段階で使用し、得られた確率分布は、レベルセット法における初期局在と先行キューの両方として機能する。 微細なセグメンテーションの段階では,従来のキューとグレースケールのキューとテクスチャのキューを組み合わせて,レベルセット曲線内外におけるキューの確率分布の差を最大化することにより,エッジを洗練させる。 この手法は3つの公開データセット上で検証され、最先端の性能を実現し、不確実なセグメンテーションエッジを低くしたより正確なセグメンテーション結果を得ることができる。 さらに、拡散確率モデルがレベルセット法に対してより適切な初期化を提供することを示すために、アブレーション研究と不確実性解析を行う。 さらに、複数のキューと組み合わせることで、レベルセット法はエッジをより良く取得し、全体的な精度を向上させることができる。 私たちのコードはhttps://github.com/GOUYUEE/Diff-mcs.comで利用可能です。

Accurately segmenting the pancreas remains a huge challenge. Traditional methods encounter difficulties in semantic localization due to the small volume and distorted structure of the pancreas, while deep learning methods encounter challenges in obtaining accurate edges because of low contrast and organ overlapping. To overcome these issues, we propose a multi-cue level set method based on the diffusion probabilistic model, namely Diff-mcs. Our method adopts a coarse-to-fine segmentation strategy. We use the diffusion probabilistic model in the coarse segmentation stage, with the obtained probability distribution serving as both the initial localization and prior cues for the level set method. In the fine segmentation stage, we combine the prior cues with grayscale cues and texture cues to refine the edge by maximizing the difference between probability distributions of the cues inside and outside the level set curve. The method is validated on three public datasets and achieves state-of-the-art performance, which can obtain more accurate segmentation results with lower uncertainty segmentation edges. In addition, we conduct ablation studies and uncertainty analysis to verify that the diffusion probability model provides a more appropriate initialization for the level set method. Furthermore, when combined with multiple cues, the level set method can better obtain edges and improve the overall accuracy. Our code is available at https://github.com/GOUYUEE/Diff-mcs.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 教師なし異常検出のためのマルチイメージビジュアル質問応答

Multi-Image Visual Question Answering for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2404.07622v1 )

ライセンス: Link先を確認
Jun Li, Cosmin I. Bercea, Philip Müller, Lina Felsner, Suhwan Kim, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel, (参考訳) 教師なし異常検出は、通常の画像のみに特化して訓練されたモデルによって生成された擬似健康再構築を用いて、原画像のジャクサポス化によって、潜在的な病理領域の同定を可能にする。 しかしながら、結果の異常マップの臨床的解釈は、詳細で理解可能な説明が欠如していることから、課題を呈している。 近年の言語モデルの進歩は、人間のような理解を模倣し、詳細な記述を提供する能力を示している。 これは興味深い疑問を提起する。 \textit{How can be used to the anomaly map more explainable? } 私たちの知る限りでは、教師なしの異常検出に言語モデルを最初に活用し、異なる質問と回答のデータセットを構築します。 さらに,視覚的知識抽出に多彩な特徴融合戦略を取り入れた,異常検出に適した多面的視覚質問応答フレームワークを提案する。 実験の結果,新たなKnowledge Q-Formerモジュールによって拡張されたこのフレームワークは,異常検出データセットに関する質問に答えることができた。 さらに、異常マップを入力として統合することは、目に見えない病態の検出を改善するのに役立つ。

Unsupervised anomaly detection enables the identification of potential pathological areas by juxtaposing original images with their pseudo-healthy reconstructions generated by models trained exclusively on normal images. However, the clinical interpretation of resultant anomaly maps presents a challenge due to a lack of detailed, understandable explanations. Recent advancements in language models have shown the capability of mimicking human-like understanding and providing detailed descriptions. This raises an interesting question: \textit{How can language models be employed to make the anomaly maps more explainable?} To the best of our knowledge, we are the first to leverage a language model for unsupervised anomaly detection, for which we construct a dataset with different questions and answers. Additionally, we present a novel multi-image visual question answering framework tailored for anomaly detection, incorporating diverse feature fusion strategies to enhance visual knowledge extraction. Our experiments reveal that the framework, augmented by our new Knowledge Q-Former module, adeptly answers questions on the anomaly detection dataset. Besides, integrating anomaly maps as inputs distinctly aids in improving the detection of unseen pathologies.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 道路線とマーキングセグメンテーションのための時間核融合法

Homography Guided Temporal Fusion for Road Line and Marking Segmentation ( http://arxiv.org/abs/2404.07626v1 )

ライセンス: Link先を確認
Shan Wang, Chuong Nguyen, Jiawei Liu, Kaihao Zhang, Wenhan Luo, Yanhao Zhang, Sundaram Muthu, Fahira Afzal Maken, Hongdong Li, (参考訳) 道路線とマーキングの信頼性の高いセグメンテーションは、自動運転に不可欠である。 本研究は,(1)移動車両,影,グレアの存在下,(2)車内形状のばらつきが低く,全体の外観の整合性が高い,という観察結果から動機づけられた。 これらの課題を解決するために,部分閉塞道路線やマーキングの正確な分類を容易にするために,時間的に隣接したビデオフレームを利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。 計算複雑性を低減するために,サンプルフレーム間の空間的対応性を確立するために,新しい表面正規分布推定器を提案し,隠蔽された道路線やマーキングの表現を更新する際に,ホモフュージョンモジュールが画素間アテンション機構を実行できるようにした。 大規模なレーンマークセグメンテーションデータセットであるApolloScapeと、人工夜間道路条件を用いたApolloScape Nightの実験により、本手法は既存のSOTAレーンマークセグメンテーションモデルよりも9倍未満のパラメータと計算複雑性で優れていることを示した。 カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能を向上した軽量ネットワークの実現が期待できることを示す。 また,水たまりセグメンテーション問題に適用し,SOTA性能を実現することで,ホモフュージョン法の有効性を実証する。

Reliable segmentation of road lines and markings is critical to autonomous driving. Our work is motivated by the observations that road lines and markings are (1) frequently occluded in the presence of moving vehicles, shadow, and glare and (2) highly structured with low intra-class shape variance and overall high appearance consistency. To solve these issues, we propose a Homography Guided Fusion (HomoFusion) module to exploit temporally-adjacent video frames for complementary cues facilitating the correct classification of the partially occluded road lines or markings. To reduce computational complexity, a novel surface normal estimator is proposed to establish spatial correspondences between the sampled frames, allowing the HomoFusion module to perform a pixel-to-pixel attention mechanism in updating the representation of the occluded road lines or markings. Experiments on ApolloScape, a large-scale lane mark segmentation dataset, and ApolloScape Night with artificial simulated night-time road conditions, demonstrate that our method outperforms other existing SOTA lane mark segmentation models with less than 9\% of their parameters and computational complexity. We show that exploiting available camera intrinsic data and ground plane assumption for cross-frame correspondence can lead to a light-weight network with significantly improved performances in speed and accuracy. We also prove the versatility of our HomoFusion approach by applying it to the problem of water puddle segmentation and achieving SOTA performance.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 対称トップ分子YbOCH$_3$ in the fundamental $\mathcal{P}$, $\mathcal{T}$-violation search

Symmetric top molecule YbOCH$_3$ in the fundamental $\mathcal{P}$, $\mathcal{T}$-violation searches ( http://arxiv.org/abs/2404.07629v1 )

ライセンス: Link先を確認
Anna Zakharova, (参考訳) 対称トップ分子YbOCH$_3$は、$\mathcal{P}$, $\mathcal{T}$-violation searchのポテンシャルについて研究される。 電子電気双極子モーメント (eEDM) やスカラー-擬層電子-核子相互作用 (Ne-SPS) のような振動効果に対するYbOCH$_3$の回転と振動の影響を結合チャネル法を用いて検討した。 対応する感度パラメータ $E_{\rm eff}$ と $E_{\rm s}$ が計算される。

The symmetric top molecule YbOCH$_3$ is studied for its potential to $\mathcal{P}$, $\mathcal{T}$-violation searches. The influence of the rotations and vibrations of the YbOCH$_3$ on such violating effects as the electron electric dipole moment (eEDM) and the scalar-pseudoscalar electron-nucleon interaction (Ne-SPS) is studied using the coupled channels method. The corresponding sensitivity parameters $E_{\rm eff}$ and $E_{\rm s}$ are computed.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# Simba: ビデオにおける骨格行動認識のためのマンバ拡張U-ShiftGCN

Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos ( http://arxiv.org/abs/2404.07645v1 )

ライセンス: Link先を確認
Soumyabrata Chaudhuri, Saumik Bhattacharya, (参考訳) Skeleton Action Recognition (SAR) は骨格関節座標とその相互接続を用いて人間の行動を特定する。 このタスクのためにプレーントランスフォーマーが試みられているが、構造的先行性がないため、グラフ畳み込みネットワーク(GCN)に根ざしている現在のリードメソッドと比較しても、まだ不足している。 近年、新しい選択状態空間モデルであるMambaが、トランスフォーマーのアテンションメカニズムの魅力的な代替として浮上し、長いシーケンスの効率的なモデリングを提供している。 本研究では,マンバを取り入れた最初のSARフレームワークについて述べる。 モデルの基本ブロックはそれぞれ,Mambaをコアコンポーネントとする新しいU-ShiftGCNアーキテクチャを採用しています。 U-ShiftGCNのエンコーダセグメントは、ダウンサンプリングバニラシフトS-GCNブロックを用いて骨格データから空間的特徴を抽出するために考案された。 これらの空間的特徴は、バンラアップサンプリングシフトS-GCNブロックを含むエンコーダ部に進む前に、マンバブロックによって促進される中間時間的モデリングを行う。 さらに、各基本ブロックの終了前にShift T-GCN (ShiftTCN) 時間モデリングユニットを使用し、時間表現を洗練させる。 このダウンサンプリング空間、中間時間、アップサンプリング空間、究極の時間サブユニットの統合は、骨格の行動認識に有望な結果をもたらす。 我々は、NTU RGB+D、NTU RGB+D 120、Northwestern-UCLAの3つの既知のベンチマークスケルトン行動認識データセットに対して、最先端のパフォーマンスを実現する結果のモデルである「textbf{Simba}」をダブする。 興味深いことに、U-ShiftGCN(Simba without Intermediate Mamba Block)自体が合理的に動作可能であり、ベースラインを超えています。

Skeleton Action Recognition (SAR) involves identifying human actions using skeletal joint coordinates and their interconnections. While plain Transformers have been attempted for this task, they still fall short compared to the current leading methods, which are rooted in Graph Convolutional Networks (GCNs) due to the absence of structural priors. Recently, a novel selective state space model, Mamba, has surfaced as a compelling alternative to the attention mechanism in Transformers, offering efficient modeling of long sequences. In this work, to the utmost extent of our awareness, we present the first SAR framework incorporating Mamba. Each fundamental block of our model adopts a novel U-ShiftGCN architecture with Mamba as its core component. The encoder segment of the U-ShiftGCN is devised to extract spatial features from the skeletal data using downsampling vanilla Shift S-GCN blocks. These spatial features then undergo intermediate temporal modeling facilitated by the Mamba block before progressing to the encoder section, which comprises vanilla upsampling Shift S-GCN blocks. Additionally, a Shift T-GCN (ShiftTCN) temporal modeling unit is employed before the exit of each fundamental block to refine temporal representations. This particular integration of downsampling spatial, intermediate temporal, upsampling spatial, and ultimate temporal subunits yields promising results for skeleton action recognition. We dub the resulting model \textbf{Simba}, which attains state-of-the-art performance across three well-known benchmark skeleton action recognition datasets: NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA. Interestingly, U-ShiftGCN (Simba without Intermediate Mamba Block) by itself is capable of performing reasonably well and surpasses our baseline.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 小さな言語モデルはなぜ性能が低いのか?Softmax Bottleneckによる言語モデル飽和の研究

Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck ( http://arxiv.org/abs/2404.07647v1 )

ライセンス: Link先を確認
Nathan Godey, Éric de la Clergerie, Benoît Sagot, (参考訳) 言語モデリングの最近の進歩は、非常に大きなウェブマイニングテキストコーパス上で、高度にパラメータ化されたニューラルネットワークを事前訓練することである。 このようなモデルによるトレーニングと推論は、実際にコストがかかり、より小さなモデルの使用を動機付けます。 しかし、より小型のモデルでは飽和に悩まされ、訓練の先進点で性能が低下し、高原が続くのが特徴である。 本稿では,より小さいモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって,そのような飽和が説明できることを示す。 このミスマッチは、よく知られたソフトマックスボトルネック現象を通じて、そのようなモデルで使用される線形予測ヘッドの性能に影響を与える。 各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向があり,評価性能が低下することを示した。

Recent advances in language modeling consist in pretraining highly parameterized neural networks on extremely large web-mined text corpora. Training and inference with such models can be costly in practice, which incentivizes the use of smaller counterparts. However, it has been observed that smaller models can suffer from saturation, characterized as a drop in performance at some advanced point in training followed by a plateau. In this paper, we find that such saturation can be explained by a mismatch between the hidden dimension of smaller models and the high rank of the target contextual probability distribution. This mismatch affects the performance of the linear prediction head used in such models through the well-known softmax bottleneck phenomenon. We measure the effect of the softmax bottleneck in various settings and find that models based on less than 1000 hidden dimensions tend to adopt degenerate latent representations in late pretraining, which leads to reduced evaluation performance.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 分離注意:水画像強調法に基づく改良サイクルGAN

Separated Attention: An Improved Cycle GAN Based Under Water Image Enhancement Method ( http://arxiv.org/abs/2404.07649v1 )

ライセンス: Link先を確認
Tashmoy Ghosh, (参考訳) 本稿では,水中画像強調のための改良型サイクロンGANモデルを提案する。 我々は,全体像のコントラストを高め,グローバルな内容,色,局所的なテクスチャ,スタイル情報をそのまま保持する深度指向の注意点の観点から,損失関数を改良した最先端サイクルGANモデルのサイクル一貫した学習手法を利用した。 我々は,海洋探査と人-ロボット協力の研究において,7つの異なるカメラで撮影された水中画像のペアセットとペアセットを含む大規模なデータセットを,EUPV(Enhancing Underwater Visual Perception)ベンチマークで修正された損失関数を用いて,サイクリングGANモデルを訓練した。 さらに,適用した手法を定性的かつ定量的に評価し,水中画像のコントラスト向上モデルを提供する。 さらに、アップグレードされた画像は、従来のモデルによるより良い結果を提供し、さらに水中ナビゲーション、ポーズ推定、サリエンシ予測、オブジェクトの検出、追跡を行う。 その結果、視覚ナビゲーションにおける自律型水中車両(AUV)のモデルの有効性が検証された。

In this paper we have present an improved Cycle GAN based model for under water image enhancement. We have utilized the cycle consistent learning technique of the state-of-the-art Cycle GAN model with modification in the loss function in terms of depth-oriented attention which enhance the contrast of the overall image, keeping global content, color, local texture, and style information intact. We trained the Cycle GAN model with the modified loss functions on the benchmarked Enhancing Underwater Visual Perception (EUPV) dataset a large dataset including paired and unpaired sets of underwater images (poor and good quality) taken with seven distinct cameras in a range of visibility situation during research on ocean exploration and human-robot cooperation. In addition, we perform qualitative and quantitative evaluation which supports the given technique applied and provided a better contrast enhancement model of underwater imagery. More significantly, the upgraded images provide better results from conventional models and further for under water navigation, pose estimation, saliency prediction, object detection and tracking. The results validate the appropriateness of the model for autonomous underwater vehicles (AUV) in visual navigation.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# rollama: Ollamaを通じて生成可能な大規模言語モデルを使用するためのRパッケージ

rollama: An R package for using generative large language models through Ollama ( http://arxiv.org/abs/2404.07654v1 )

ライセンス: Link先を確認
Johannes B. Gruber, Maximilian Weber, (参考訳) rollamaはOllama APIをラップするRパッケージで、異なるジェネレーティブ大型言語モデル(GLLM)をローカルで実行することができる。 パッケージと学習の素材は、Ollamaを使ってテキストを注釈付けしたり、オープンソースのモデルでデータを想像したり、これらのモデルをドキュメントの埋め込みに利用するのを容易にすることに焦点を当てている。 しかし、ユーザーは、OpenAIのAPIを通じて可能なことは何でもできるが、よりプライベートで再現性があり、無料で、ロールマを使用または拡張することができる。

rollama is an R package that wraps the Ollama API, which allows you to run different Generative Large Language Models (GLLM) locally. The package and learning material focus on making it easy to use Ollama for annotating textual or imagine data with open-source models as well as use these models for document embedding. But users can use or extend rollama to do essentially anything else that is possible through OpenAI's API, yet more private, reproducible and for free.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# 不均衡分類問題に対するロバスト性能指標

Robust performance metrics for imbalanced classification problems ( http://arxiv.org/abs/2404.07661v1 )

ライセンス: Link先を確認
Hajo Holzmann, Bernhard Klar, (参考訳) 我々は、Fスコア、ジャカード類似係数、マシューズ相関係数(MCC)のような二項分類における確立された性能指標が、マイノリティクラスの割合が0$である場合、ベイズ分類器の真正率(TPR)が0$であるという意味で、クラス不均衡に頑健でないことを示す。 したがって、不均衡な分類問題では、これらの指標はマイノリティクラスを無視した分類器を好む。 この問題を緩和するために、FスコアとMCCの堅牢な修正を導入します。 シミュレーションや信用デフォルトデータセットにおいて,様々なパフォーマンス指標の挙動を数値的に説明する。 また、ROCと精度-リコール曲線との関係についても論じ、それらの使用法とパフォーマンス指標を組み合わせる方法について推奨する。

We show that established performance metrics in binary classification, such as the F-score, the Jaccard similarity coefficient or Matthews' correlation coefficient (MCC), are not robust to class imbalance in the sense that if the proportion of the minority class tends to $0$, the true positive rate (TPR) of the Bayes classifier under these metrics tends to $0$ as well. Thus, in imbalanced classification problems, these metrics favour classifiers which ignore the minority class. To alleviate this issue we introduce robust modifications of the F-score and the MCC for which, even in strongly imbalanced settings, the TPR is bounded away from $0$. We numerically illustrate the behaviour of the various performance metrics in simulations as well as on a credit default data set. We also discuss connections to the ROC and precision-recall curves and give recommendations on how to combine their usage with performance metrics.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# PINNACLE: PINN適応コロケーションと実験点選択

PINNACLE: PINN Adaptive ColLocation and Experimental points selection ( http://arxiv.org/abs/2404.07662v1 )

ライセンス: Link先を確認
Gregory Kang Ruey Lau, Apivich Hemachandra, See-Kiong Ng, Bryan Kian Hsiang Low, (参考訳) PDEをソフト制約として組み込んだ物理情報ニューラルネットワーク(PINN)は、複数のトレーニングポイントタイプを含む複合損失関数を用いてトレーニングを行う。 この損失関数を使用するPINNのトレーニングは、通常、異なるタイプの多数のポイントを選択する必要があるため、難しい。 この研究は、コロケーションの選択と実験点の選択に焦点を当てた過去の研究とは違い、PINN適応コロケーションと実験点選択(PINNACLE)を導入している。 PINNACLEは、ニューラルタンジェントカーネル(NTK)を用いたPINNトレーニングダイナミクスの分析に基づいて、これまで考慮されていなかったトレーニングポイントタイプ間のインタラクションに関する情報を使用する。 理論的には、PINNACLEが使用する基準は、PINNの一般化誤差と関連していることを示し、PINNACLEが既存の点選択法より優れていることを実証的に示す。

Physics-Informed Neural Networks (PINNs), which incorporate PDEs as soft constraints, train with a composite loss function that contains multiple training point types: different types of collocation points chosen during training to enforce each PDE and initial/boundary conditions, and experimental points which are usually costly to obtain via experiments or simulations. Training PINNs using this loss function is challenging as it typically requires selecting large numbers of points of different types, each with different training dynamics. Unlike past works that focused on the selection of either collocation or experimental points, this work introduces PINN Adaptive ColLocation and Experimental points selection (PINNACLE), the first algorithm that jointly optimizes the selection of all training point types, while automatically adjusting the proportion of collocation point types as training progresses. PINNACLE uses information on the interaction among training point types, which had not been considered before, based on an analysis of PINN training dynamics via the Neural Tangent Kernel (NTK). We theoretically show that the criterion used by PINNACLE is related to the PINN generalization error, and empirically demonstrate that PINNACLE is able to outperform existing point selection methods for forward, inverse, and transfer learning problems.
翻訳日:2024-04-12 14:19:15 公開日:2024-04-11
# コスト効率のよい学習と対話型オントロジーマッチング

Interactive Ontology Matching with Cost-Efficient Learning ( http://arxiv.org/abs/2404.07663v1 )

ライセンス: Link先を確認
Bin Cheng, Jonathan Fürst, Tobias Jacobs, Celia Garrido-Hidalgo, (参考訳) 高品質なオントロジの作成は、データ統合と知識に基づく推論、特にデータ経済の上昇という文脈において不可欠である。 しかし、自動オントロジーマッチは、しばしばそれらがベースとしているヒューリスティックに結びついており、多くのマッチは未同定のままである。 人間の専門家を巻き込んだ対話型オントロジーマッチングシステムが導入されたが、産業環境では高い需要があるにもかかわらず、実装されたヒューリスティックスの範囲外の追加のマッチを柔軟に見つけるという根本的な問題は解決していない。 アクティブな機械学習手法は、フレキシブルな対話型オントロジーマーカへの有望な道のようだ。 しかし、既成のアクティブ学習メカニズムは、極端なクラス不均衡によるクエリ効率の低下に悩まされ、残余の一致を識別するために高い人的労力を要するラストマイル問題が発生する。 最後のマイル問題に対処するため,本研究では,オントロジーマッチングに適したアクティブ学習手法であるDualLoopを導入する。 デュアルループは,(1)調整可能なヒューリスティック・マーカのアンサンブル,(2)高度に不均衡なデータに適応した新しいクエリ・ストラテジーを持つ短期学習者,(3)新しいヒューリスティックを作成・調整することで潜在的なマッチングを探索する長期学習者,の3つの主な貢献を行う。 異なるサイズと領域の3つのデータセットでDualLoopを評価した。 既存のアクティブラーニング手法と比較して、我々は一貫してF1スコアとリコールを達成し、すべてのマッチの90%を50%以上減らした。 従来のインタラクティブなオントロジーマッチングと比較して、私たちはさらにラストマイルのマッチを見つけることができます。 最後に、実際の製品への私たちのアプローチの展開を成功させ、アーキテクチャ、エンジニアリング、建設(AEC)業界における運用実績を報告し、その実用的価値と効率を示す。

The creation of high-quality ontologies is crucial for data integration and knowledge-based reasoning, specifically in the context of the rising data economy. However, automatic ontology matchers are often bound to the heuristics they are based on, leaving many matches unidentified. Interactive ontology matching systems involving human experts have been introduced, but they do not solve the fundamental issue of flexibly finding additional matches outside the scope of the implemented heuristics, even though this is highly demanded in industrial settings. Active machine learning methods appear to be a promising path towards a flexible interactive ontology matcher. However, off-the-shelf active learning mechanisms suffer from low query efficiency due to extreme class imbalance, resulting in a last-mile problem where high human effort is required to identify the remaining matches. To address the last-mile problem, this work introduces DualLoop, an active learning method tailored to ontology matching. DualLoop offers three main contributions: (1) an ensemble of tunable heuristic matchers, (2) a short-term learner with a novel query strategy adapted to highly imbalanced data, and (3) long-term learners to explore potential matches by creating and tuning new heuristics. We evaluated DualLoop on three datasets of varying sizes and domains. Compared to existing active learning methods, we consistently achieved better F1 scores and recall, reducing the expected query cost spent on finding 90% of all matches by over 50%. Compared to traditional interactive ontology matchers, we are able to find additional, last-mile matches. Finally, we detail the successful deployment of our approach within an actual product and report its operational performance results within the Architecture, Engineering, and Construction (AEC) industry sector, showcasing its practical value and efficiency.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# Finding Dino: プロトタイプを用いた分布外物体の教師なし検出のためのプラグイン・アンド・プレイフレームワーク

Finding Dino: A plug-and-play framework for unsupervised detection of out-of-distribution objects using prototypes ( http://arxiv.org/abs/2404.07664v1 )

ライセンス: Link先を確認
Poulami Sinhamahapatra, Franziska Schwaiger, Shirsha Bose, Huiyu Wang, Karsten Roscher, Stephan Guennemann, (参考訳) 未知または分布外(OOD)オブジェクトを任意のシーンで検出し、ローカライズすることは、視界において難しい作業である。 特に、自動運転車や電車のような自律システムに関わる安全上の重要なケースでは。 修正された異常セグメンテーションまたはオープンワールドオブジェクト検出モデルは、すべてのドメインに対して全アノテーション付きデータセットのトレーニングに依存しており、バックグラウンドとOODオブジェクトの区別に苦慮している。 本研究では, PROWL (Plototype-based zero-shot OOD detection Without Labels) を提案する。 ドメインデータセットのトレーニングを必要とせず、自己教師付き事前訓練モデルから関連する特徴を抽出することに依存する推論ベースの手法である。 PROWLは、このドメインから既知のクラスのリストを指定することで、任意のオペレーショナルデザインドメインのOODオブジェクトを容易に検出できる。 PROWLは教師なしの方法として、SegmentMeIfYouCan(SMIYC)ベンチマークで提供されるRoadAnomalyとRoadObstacleデータセットで、補助的なOODデータなしでトレーニングされた他の教師ありメソッドよりも優れています。 また、鉄道や海上のシーンなど他の領域にも適合することを示す。

Detecting and localising unknown or Out-of-distribution (OOD) objects in any scene can be a challenging task in vision. Particularly, in safety-critical cases involving autonomous systems like automated vehicles or trains. Supervised anomaly segmentation or open-world object detection models depend on training on exhaustively annotated datasets for every domain and still struggle in distinguishing between background and OOD objects. In this work, we present a plug-and-play generalised framework - PRototype-based zero-shot OOD detection Without Labels (PROWL). It is an inference-based method that does not require training on the domain dataset and relies on extracting relevant features from self-supervised pre-trained models. PROWL can be easily adapted to detect OOD objects in any operational design domain by specifying a list of known classes from this domain. PROWL, as an unsupervised method, outperforms other supervised methods trained without auxiliary OOD data on the RoadAnomaly and RoadObstacle datasets provided in SegmentMeIfYouCan (SMIYC) benchmark. We also demonstrate its suitability for other domains such as rail and maritime scenes.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# ディファレンシャル・モーフィング・アタック検出における主観的類似性への対処

Dealing with Subject Similarity in Differential Morphing Attack Detection ( http://arxiv.org/abs/2404.07667v1 )

ライセンス: Link先を確認
Nicolò Di Domenico, Guido Borghi, Annalisa Franco, Davide Maltoni, (参考訳) モーフィング攻撃の出現は、自動顔認識システムに重大なセキュリティ上の懸念を生じさせ、この問題に効果的に対処できる堅牢で効果的なモルフィング攻撃検出(MAD)手法の必要性が高まった。 本稿では,通常犯罪者を表す信頼されたライブキャプチャを文書画像と比較し,それを形態的またはボナフィドとして分類する,微分MAD(D-MAD)に焦点を当てる。 これらの手法は, 形状画像とライブ画像が十分に多様である場合に有効であることを示すが, 残念ながら, 同じアプローチがルックライクな被験者に適用された場合や, 比較画像の類似度が高い場合(例えば, 形状画像と共役者の比較)には, 有効性が著しく低下する。 そこで本稿では,ACIdAというモジュール型分類用モジュールと,入力画像の識別とアーティファクト解析のための2つのモジュールからなるモジュール型D-MADシステムを提案する。 このタスクに成功すれば、例えば、現在完全に人間の評価に依存している文書の登録段階を含むD-MADアプリケーションの拡張が可能になるため、操作された画像を含むIDドキュメントの公開や、共犯者と犯罪者の両方を検出するための自動ゲートが制限される。 ACIdAは、従来のD-MADベンチマークで優れた性能を維持しつつ、最先端の成果を達成し、文献の競合よりも優れていることを示す。

The advent of morphing attacks has posed significant security concerns for automated Face Recognition systems, raising the pressing need for robust and effective Morphing Attack Detection (MAD) methods able to effectively address this issue. In this paper, we focus on Differential MAD (D-MAD), where a trusted live capture, usually representing the criminal, is compared with the document image to classify it as morphed or bona fide. We show these approaches based on identity features are effective when the morphed image and the live one are sufficiently diverse; unfortunately, the effectiveness is significantly reduced when the same approaches are applied to look-alike subjects or in all those cases when the similarity between the two compared images is high (e.g. comparison between the morphed image and the accomplice). Therefore, in this paper, we propose ACIdA, a modular D-MAD system, consisting of a module for the attempt type classification, and two modules for the identity and artifacts analysis on input images. Successfully addressing this task would allow broadening the D-MAD applications including, for instance, the document enrollment stage, which currently relies entirely on human evaluation, thus limiting the possibility of releasing ID documents with manipulated images, as well as the automated gates to detect both accomplices and criminals. An extensive cross-dataset experimental evaluation conducted on the introduced scenario shows that ACIdA achieves state-of-the-art results, outperforming literature competitors, while maintaining good performance in traditional D-MAD benchmarks.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 暗黒における形状の完備化:3次元超音波からの頂点形状の完備化

Shape Completion in the Dark: Completing Vertebrae Morphology from 3D Ultrasound ( http://arxiv.org/abs/2404.07668v1 )

ライセンス: Link先を確認
Miruna-Alexandra Gafencu, Yordanka Velikova, Mahdi Saleh, Tamas Ungi, Nassir Navab, Thomas Wendler, Mohammad Farid Azampour, (参考訳) 目的: 超音波(US)イメージングは、放射線のない性質に有利であるが、部分的に見える臓器と完全な3D情報がないため、解釈が困難である。 アメリカの診断や調査を行う間、医療専門家は3D解剖学のメンタルマップを作成する。 本研究では,この過程を再現し,解剖学的構造の視覚的表現を強化することを目的とする。 方法: 3次元形状完備化による閉塞型解剖構造を完備する点クラウド型確率的DL法を導入し,US-based spine examination を応用として選択した。 トレーニングを実現するために、米国物理学を模倣し、固有のアーティファクトを説明することによって、部分的に隠蔽された脊髄の3D表現を生成する。 結果: 提案モデルではCDでは平均2.02と0.03の相違がみられた。 我々のアブレーション研究は、それぞれ11.8 CDと9.55 CDの大きな平均値と中央値の差を反映した、米国物理学ベースのデータ生成の重要性を実証している。 また, 解剖学的所見として, 脊椎突起(再建CD4.73)や顔面関節(GT4.96mm)が保存されている。 結論: 本研究は, 腰椎椎体における3次元形状完備化の実現可能性を確立し, レベルワイド特性の維持と, 合成データから実データへの一般化に成功した。 アメリカ物理学の法人化は、より正確な患者データ補完に寄与する。 特に, 本手法は, 重要な解剖学的ランドマークを保存し, 正確な位置で重要な注射部位を再構築する。 生成されたデータとソースコードは公開されます(https://github.com/miruna20/Shape-Completion-in-the-Dark)。

Purpose: Ultrasound (US) imaging, while advantageous for its radiation-free nature, is challenging to interpret due to only partially visible organs and a lack of complete 3D information. While performing US-based diagnosis or investigation, medical professionals therefore create a mental map of the 3D anatomy. In this work, we aim to replicate this process and enhance the visual representation of anatomical structures. Methods: We introduce a point-cloud-based probabilistic DL method to complete occluded anatomical structures through 3D shape completion and choose US-based spine examinations as our application. To enable training, we generate synthetic 3D representations of partially occluded spinal views by mimicking US physics and accounting for inherent artifacts. Results: The proposed model performs consistently on synthetic and patient data, with mean and median differences of 2.02 and 0.03 in CD, respectively. Our ablation study demonstrates the importance of US physics-based data generation, reflected in the large mean and median difference of 11.8 CD and 9.55 CD, respectively. Additionally, we demonstrate that anatomic landmarks, such as the spinous process (with reconstruction CD of 4.73) and the facet joints (mean distance to GT of 4.96mm) are preserved in the 3D completion. Conclusion: Our work establishes the feasibility of 3D shape completion for lumbar vertebrae, ensuring the preservation of level-wise characteristics and successful generalization from synthetic to real data. The incorporation of US physics contributes to more accurate patient data completions. Notably, our method preserves essential anatomic landmarks and reconstructs crucial injections sites at their correct locations. The generated data and source code will be made publicly available (https://github.com/miruna20/Shape-Completion-in-the-Dark).
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 深達度学習による肺動脈・静脈分画による肺血管解剖所見

Deep learning-driven pulmonary arteries and veins segmentation reveals demography-associated pulmonary vasculature anatomy ( http://arxiv.org/abs/2404.07671v1 )

ライセンス: Link先を確認
Yuetan Chu, Gongning Luo, Longxi Zhou, Shaodong Cao, Guolin Ma, Xianglin Meng, Juexiao Zhou, Changchun Yang, Dexuan Xie, Ricardo Henao, Xigang Xiao, Lianming Wu, Zhaowen Qiu, Xin Gao, (参考訳) 肺動脈-肺動脈分画は肺疾患の診断と手術計画に不可欠であり,CTPA(Computed Tomography lung angiography)によって伝統的に達成されている。 しかしCTPAで使用される造影剤による有害な健康影響に関する懸念は臨床効果を制限している。 対照的に, 従来, 低コストな臨床検査法である非造影CTによる動脈・静脈の同定は, 長い間不可能と考えられてきた。 そこで本研究では,非造影CTとCTPAの両方で高精度な動脈-静脈分画を実現するHiPaS(High-abundant lung Artery-vein Segmentation)フレームワークを提案する。 HiPaSは、まず超解像モジュールを用いて生CTスキャンの空間正規化を行い、次に、低レベルの血管分割を高レベルの血管分割の先行として利用することにより、異なる分岐レベルで分割結果を反復的に達成する。 精巧な手書きアノテーションで1,073CTボリュームのHiPaSをトレーニングし,その妥当性を検証した。 定量的実験と臨床評価の両方で、HiPaSの優れた性能を示し、ダイススコアは91.8%、感度は98.0%であった。 また,非造影CTにおけるHiPaSセグメンテーションの非偽性はCTPAのセグメンテーションと比較した。 HiPaSを用いて,中国10,613名(5か所)の肺血管の解剖学的検討を行い,肺血管の量と性別,年齢の関連性について検討した。 HiPaSは,非侵襲的に肺生理学を診断し,理解するための有望な道を示す。

Pulmonary artery-vein segmentation is crucial for diagnosing pulmonary diseases and surgical planning, and is traditionally achieved by Computed Tomography Pulmonary Angiography (CTPA). However, concerns regarding adverse health effects from contrast agents used in CTPA have constrained its clinical utility. In contrast, identifying arteries and veins using non-contrast CT, a conventional and low-cost clinical examination routine, has long been considered impossible. Here we propose a High-abundant Pulmonary Artery-vein Segmentation (HiPaS) framework achieving accurate artery-vein segmentation on both non-contrast CT and CTPA across various spatial resolutions. HiPaS first performs spatial normalization on raw CT scans via a super-resolution module, and then iteratively achieves segmentation results at different branch levels by utilizing the low-level vessel segmentation as a prior for high-level vessel segmentation. We trained and validated HiPaS on our established multi-centric dataset comprising 1,073 CT volumes with meticulous manual annotation. Both quantitative experiments and clinical evaluation demonstrated the superior performance of HiPaS, achieving a dice score of 91.8% and a sensitivity of 98.0%. Further experiments demonstrated the non-inferiority of HiPaS segmentation on non-contrast CT compared to segmentation on CTPA. Employing HiPaS, we have conducted an anatomical study of pulmonary vasculature on 10,613 participants in China (five sites), discovering a new association between pulmonary vessel abundance and sex and age: vessel abundance is significantly higher in females than in males, and slightly decreases with age, under the controlling of lung volumes (p < 0.0001). HiPaS realizing accurate artery-vein segmentation delineates a promising avenue for clinical diagnosis and understanding pulmonary physiology in a non-invasive manner.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# マヤ語とスペイン語の動詞間のインフォーマルレジスタの機械翻訳のためのキュレートデータセットとニューラルモデル

Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars ( http://arxiv.org/abs/2404.07673v1 )

ライセンス: Link先を確認
Andrés Lou, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Víctor M. Sánchez-Cartagena, (参考訳) マヤ語は古代の歴史を持つ言語族であり、何百万人もの話者、そして膨大な文化的価値があり、しかしながら、資源と世界的露出の点で、非常に過小評価されている。 本稿では,グアテマラとメキシコ南部で話されているいくつかのマヤ語言語で,マヤ語と呼ばれるコーパスのセットを開発し,キュレートし,公開する。 データセットは、地域の支配的な言語であるスペイン語と平行しており、非公式、日々、非ドメイン固有の言語を表現することに焦点を当てた公式のネイティブソースから取得されている。 このように、我々の弁証法分析では、他のほとんどの利用可能なリソースとレジスタが異なる。 さらに、ニューラルネットワーク翻訳モデルを提案し、可能な限り多くのリソースとマヤ語に基づいて訓練し、データセットのみに評価する。 我々は、我々の資源におけるスペイン語の方言と、より広く書かれたスペイン語の標準との間の語彙的相違を観察し、現在存在するもの以外のリソースは翻訳性能を向上していないようで、そのようなリソースの多くは、一般的な実生活の言語の使用を正確に捉えることができないことを示唆している。 MayanVデータセットはhttps://github.com/transducens/mayanv.comで公開されている。

The Mayan languages comprise a language family with an ancient history, millions of speakers, and immense cultural value, that, nevertheless, remains severely underrepresented in terms of resources and global exposure. In this paper we develop, curate, and publicly release a set of corpora in several Mayan languages spoken in Guatemala and Southern Mexico, which we call MayanV. The datasets are parallel with Spanish, the dominant language of the region, and are taken from official native sources focused on representing informal, day-to-day, and non-domain-specific language. As such, and according to our dialectometric analysis, they differ in register from most other available resources. Additionally, we present neural machine translation models, trained on as many resources and Mayan languages as possible, and evaluated exclusively on our datasets. We observe lexical divergences between the dialects of Spanish in our resources and the more widespread written standard of Spanish, and that resources other than the ones we present do not seem to improve translation performance, indicating that many such resources may not accurately capture common, real-life language usage. The MayanV dataset is available at https://github.com/transducens/mayanv.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# モノのインターネットにおけるセンサベース多要素認証

Opportunistic Sensor-Based Multi-Factor Authentication in and for the Internet of Things ( http://arxiv.org/abs/2404.07675v1 )

ライセンス: Link先を確認
Marc Saideh, Jean-Paul Jamont, Laurent Vercouter, (参考訳) 接続されたオブジェクト間の通信は、しばしばセキュアで信頼性の高い認証機構を必要とする。 これらのメカニズムは、オブジェクトの同一性を検証し、不正アクセスを防止するために不可欠である。 IoTは、他のドメインで必ずしも見つからないいくつかのアドバンテージと機会を提供する。 例えば、IoTセンサーは、彼らの環境と、もし使用すれば認証を強化できる価値のある情報を含む他のオブジェクトに関するリアルタイムデータを収集する。 本稿では,IoTオブジェクト間の機会論的センサベースの認証要素を構築するための新しいアイデアを提案する。 センサはオブジェクト間認証機構を強化する要因を構築するために利用できると主張している。 これらの機会論的センサーベースの認証要素を多要素認証機構に統合することにより、IoTの認証はより高いレベルのセキュリティを実現することができる。 我々は,移動ロボットと自動車の2種類の車両に関する実証実験を行った。

Communication between connected objects often requires secure and reliable authentication mechanisms. These mechanisms are essential for verifying the identities of objects and preventing unauthorized access. The IoT offers several advantages and opportunities that are not necessarily found in other domains. For instance, IoT sensors collect real-time data about their environment and other objects which contain valuable information that, if used, can reinforce authentication. In this paper, we propose a novel idea for building opportunistic sensor-based authentication factors between IoT objects by leveraging the sensors already present in the systems where they interact. We claim that sensors can be utilized to build factors that reinforce object-to-object authentication mechanisms. Through the integration of these opportunistic sensor-based authentication factors into multi-factor authentication mechanisms, authentication in IoT can achieve a higher level of security. We provide illustrative experiments on two types of vehicles : mobile robots and cars.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# テキストコンテンツ画像合成のためのQUILT-1M病理データセットのモデルベースクリーニング

Model-based Cleaning of the QUILT-1M Pathology Dataset for Text-Conditional Image Synthesis ( http://arxiv.org/abs/2404.07676v1 )

ライセンス: Link先を確認
Marc Aubreville, Jonathan Ganz, Jonas Ammeling, Christopher C. Kaltenecker, Christof A. Bertram, (参考訳) QUILT-1Mデータセットは、様々なオンラインソースから取得した画像を含む、初めて公開されたデータセットである。 膨大なデータ量を提供するが、画像の品質と構成は極めて均一であり、テキスト条件による画像合成に影響を及ぼす。 本稿では,イメージ内の最も一般的な不純物,ナレーターの視認性,デスクトップ環境と病理ソフトウェア,あるいは画像内のテキストを予測する自動パイプラインを提案する。 さらに,画像とテキストのペアのセマンティックアライメントのフィルタリングも提案する。 その結果,テキスト・ツー・イメージ・タスクにおいて,データセットを厳格にフィルタリングすることにより,画像の忠実度が大幅に向上することが示唆された。

The QUILT-1M dataset is the first openly available dataset containing images harvested from various online sources. While it provides a huge data variety, the image quality and composition is highly heterogeneous, impacting its utility for text-conditional image synthesis. We propose an automatic pipeline that provides predictions of the most common impurities within the images, e.g., visibility of narrators, desktop environment and pathology software, or text within the image. Additionally, we propose to use semantic alignment filtering of the image-text pairs. Our findings demonstrate that by rigorously filtering the dataset, there is a substantial enhancement of image fidelity in text-to-image tasks.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# ODA: LLMと知識グラフの統合のための観察駆動エージェント

ODA: Observation-Driven Agent for integrating LLMs and Knowledge Graphs ( http://arxiv.org/abs/2404.07677v1 )

ライセンス: Link先を確認
Lei Sun, Zhengwei Tao, Youdi Li, Hiroshi Arakawa, (参考訳) 大規模言語モデル(LLM)と知識グラフ(KG)の統合は、様々な自然言語処理タスクにおいて顕著な成功を収めた。 しかしながら、LLMとKGを統合する既存の方法論は、KGにカプセル化されている膨大な知識に固有の豊かな認知可能性を見越して、LCMの分析に基づいてタスク解決プロセスをナビゲートすることが多い。 この問題に対処するため、我々は、KGsに関わるタスクに適した、新しいAIエージェントフレームワークであるObservatory-Driven Agent (ODA)を紹介した。 織田氏は、グローバルな観察を通じてKG推論能力を導入し、観察、行動、反射の循環的パラダイムを通じて推論能力を向上させる。 観察中に知識が爆発的に爆発するのに対して,我々は再帰的な観察機構を革新的に設計する。 その後、観察された知識をアクション・リフレクション・モジュールに統合する。 広範な実験を通じて、Odaはいくつかのデータセットで最先端のパフォーマンスを示し、特に12.87%と8.9%の精度向上を実現している。

The integration of Large Language Models (LLMs) and knowledge graphs (KGs) has achieved remarkable success in various natural language processing tasks. However, existing methodologies that integrate LLMs and KGs often navigate the task-solving process solely based on the LLM's analysis of the question, overlooking the rich cognitive potential inherent in the vast knowledge encapsulated in KGs. To address this, we introduce Observation-Driven Agent (ODA), a novel AI agent framework tailored for tasks involving KGs. ODA incorporates KG reasoning abilities via global observation that enhances reasoning capabilities through a cyclical paradigm of observation, action, and reflection. Confronting the exponential explosion of knowledge during observation, we innovatively design a recursive observation mechanism. Subsequently, we integrate the observed knowledge into the action and reflection modules. Through extensive experiments, ODA demonstrates state-of-the-art performance on several datasets, notably achieving accuracy improvements of 12.87% and 8.9%.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# ビジネスイノベーションにおける倫理と持続可能性の役割について

On the role of ethics and sustainability in business innovation ( http://arxiv.org/abs/2404.07678v1 )

ライセンス: Link先を確認
Maria Fay, Frederik F. Flöther, (参考訳) 組織が長期的に生き残り、繁栄するためには、イノベーションとノベルティが継続的に導入されなければならない。 これにより、様々な倫理的、持続可能性的な考慮が提起され、それらが見るべき注意をほとんど受けない。 既存のイノベーション導入フレームワークは、しばしば、採用に影響を与える技術、組織、環境、社会的要因に焦点を当てている。 この章では、特に新興技術に関連する倫理的・持続可能性の角度を探求し、人工知能(AI)が顕著な例である。 我々は,システム思考などのアプローチを通じて,新興企業や確立した企業を含む組織におけるイノベーション文化の発展と育成を促進する方法について検討する。

For organizations to survive and flourish in the long term, innovation and novelty must be continually introduced, which is particularly true in today's rapidly changing world. This raises a variety of ethical and sustainability considerations that seldom receive the attention they deserve. Existing innovation adoption frameworks often focus on technological, organizational, environmental, and social factors impacting adoption. In this chapter, we explore the ethical and sustainability angles, particularly as they relate to emerging technologies, artificial intelligence (AI) being a prominent example. We consider how to facilitate the development and cultivation of innovation cultures in organizations, including budding startups as well as established enterprises, through approaches such as systems thinking.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# カルデングラフェンビリヤードと相対論的ニュートリノビリヤード

Haldane graphene billiards versus relativistic neutrino billiards ( http://arxiv.org/abs/2404.07679v1 )

ライセンス: Link先を確認
Dung Xuan Nguyen, Barbara Dietz, (参考訳) 本研究では, 有限サイズハニカム格子, グラフェンビリヤードのエネルギースペクトルの揺らぎ特性について検討した。 ビリヤードの形状は、可積分力学を持つ矩形ビリヤード、カオス力学を持つビリヤード、三次元回転対称性を持つビリヤードである。 グラフェンビリヤードのスペクトル特性は、非相対論的量子ビリヤードのスペクトル特性と、バンドエッジおよびディラック点周辺の低エネルギー励起領域における対応する形状に一致することが示されている。 そこで、分散関係は線形であり、したがってスペクトルは、質量のない半スピン粒子を相対論的ニュートリノビリヤードとして同じ相対論的ディラック方程式によって記述される。 予測された挙動からの逸脱は境界条件の違いと境界での後方散乱によるもので、2つのディラック点に対応する谷の状態が時間反転によって互いにマッピングされる。 2つのディラック点の1つにハーデンモデルを用いて、ギャップのエネルギー領域において後方散乱が抑制され、スペクトル内の相関が対応する形状のニュートリノビリヤードと一致することを示す。

We study fluctuation properties in the energy spectra of finite-size honeycomb lattices, graphene billiards, subject to the Haldane-model onsite potential and next-nearest neighbor interaction at critical points, referred to as Haldane graphene billiards in the following. The billiards had the shapes of a rectangular billiard with integrable dynamics, one with chaotic dynamics, and one whose shape has, in addition, threefold rotational symmetry. It had been shown that the spectral properties of the graphene billiards coincide with those of the nonrelativistic quantum billiard with the corresponding shape, both at the band edges and in the region of low energy excitations around the Dirac points at zero energy. There, the dispersion relation is linear and, accordingly, the spectrum is described by the same relativistic Dirac equation for massless half-spin particles as relativistic neutrino billiards, whose spectral properties agree with those of nonrelativistic quantum billiards with violated time-reversal invariance. Deviations from the expected behavior are attributed to differing boundary conditions and backscattering at the boundary, which leads to a mixing of valley states corresponding to the two Dirac points, that are mapped into each other through time reversal. We employ a Haldane model to introduce a gap at one of the two Dirac points so that backscattering is suppressed in the energy region of the gap and demonstrate that there the correlations in the spectra comply with those of the neutrino billiard of the corresponding shape.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 量子過程の最大因果効果と最小因果効果

Maximum and minimum causal effects of quantum processes ( http://arxiv.org/abs/2404.07683v1 )

ライセンス: Link先を確認
Kaumudibikash Goswami, Giulio Chiribella, (参考訳) 我々は因果関係の強さを2つの定量的に測定する。 これらの2つの測度は、他の系の変化によって引き起こされる量子系の最大および最小の変化を捉える。 両測度が連続性や忠実性などの重要な性質を有しており、直交入力状態に対する最適化によって評価できることを示す。 最大因果効果について,完全量子プロセストモグラフィーを行なわずに因果関係の強さを推定するために,変分アルゴリズムに基づく数値的な下界を提供する。 本アルゴリズムの適用を説明するために,本アルゴリズムでは,直接因数と共通因数のコヒーレントな重ね合わせと,完全非偏極チャネルのコヒーレントな重ね合わせによる通信を含む2つのパラダイム的な例を分析した。

We introduce two quantitative measures of the strength of causal relations. These two measures capture the maximum and minimum changes in a quantum system induced by changes in another system. We show that both measures possess important properties, such as continuity and faithfulness, and can be evaluated through optimization over orthogonal input states. For the maximum causal effect, we provide numerical lower bounds based on a variational algorithm, which can be used to estimate the strength of causal relations without performing a full quantum process tomography. To illustrate the application of our algorithm, we analyze two paradigmatic examples, the first involving a coherent superposition of direct cause and common cause and the second involving communication through a coherent superposition of two completely depolarizing channels.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 初期層ニューラルアクティベーションパターンを用いた自動運転システムにおける3次元物体検出のリアルタイムモニタリング

Run-time Monitoring of 3D Object Detection in Automated Driving Systems Using Early Layer Neural Activation Patterns ( http://arxiv.org/abs/2404.07685v1 )

ライセンス: Link先を確認
Hakan Yekta Yatbaz, Mehrdad Dianati, Konstantinos Koufos, Roger Woodman, (参考訳) 自動走行システム(ADS)の認識モジュール内のエラーに対する物体検出の完全性を監視することは、安全性を確保する上で最重要である。 近年のディープニューラルネットワーク(DNN)ベースのオブジェクト検出器の進歩にもかかわらず、特に探索の少ない3Dオブジェクト検出領域において、検出エラーへの感受性は重要な関心事である。 2次元物体検出における最先端の整合性監視(イントロスペクションとも呼ばれる)機構は、主にDNNベースの検出器のバックボーンの最終層における活性化パターンを利用する。 しかし、それは3Dオブジェクト検出におけるデータの複雑さと空間性に十分対応できないかもしれない。 本稿では,3次元物体検出器の動作を検査するためのバックボーンネットワークの様々な層から抽出した活性化パターンの影響を広範囲に調査する。 Kitti と NuScenes データセットを PointPillars と CenterPoint 検出器で比較解析することにより,従来のレイヤのアクティベーションパターンを用いることで,整合性監視システムのエラー検出性能が向上するが,計算複雑性は増大することを示した。 ADSのリアルタイム動作要求に対処するために、検出器のバックボーンの複数の層からの活性化パターンを組み合わせた新しいイントロスペクション手法を導入し、その性能を報告する。

Monitoring the integrity of object detection for errors within the perception module of automated driving systems (ADS) is paramount for ensuring safety. Despite recent advancements in deep neural network (DNN)-based object detectors, their susceptibility to detection errors, particularly in the less-explored realm of 3D object detection, remains a significant concern. State-of-the-art integrity monitoring (also known as introspection) mechanisms in 2D object detection mainly utilise the activation patterns in the final layer of the DNN-based detector's backbone. However, that may not sufficiently address the complexities and sparsity of data in 3D object detection. To this end, we conduct, in this article, an extensive investigation into the effects of activation patterns extracted from various layers of the backbone network for introspecting the operation of 3D object detectors. Through a comparative analysis using Kitti and NuScenes datasets with PointPillars and CenterPoint detectors, we demonstrate that using earlier layers' activation patterns enhances the error detection performance of the integrity monitoring system, yet increases computational complexity. To address the real-time operation requirements in ADS, we also introduce a novel introspection method that combines activation patterns from multiple layers of the detector's backbone and report its performance.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 重み付きロスと伝達学習を用いた深さ推定

Depth Estimation using Weighted-loss and Transfer Learning ( http://arxiv.org/abs/2404.07686v1 )

ライセンス: Link先を確認
Muhammad Adeel Hafeez, Michael G. Madden, Ganesh Sistu, Ihsan Ullah, (参考訳) 2次元画像からの深さ推定は、自律走行車、シーン理解、ロボット工学を含む多くの分野に適用可能な、一般的なコンピュータビジョンタスクである。 教師付き深度推定法の精度は、主に選択された損失関数、モデルアーキテクチャ、データの品質、パフォーマンス指標に依存する。 本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。 最適化された損失関数は、強靭性と一般化を高める重み付き損失の組み合わせである:平均絶対誤差(MAE)、エッジ損失、構造類似度指数(SSIM)。 グリッドサーチとランダムサーチを用いて、損失に対して最適化された重みを求める。 DenseNet121,DenseNet169,DenseNet201,EfficientNetなど,複数のエンコーダデコーダベースのモデルについて,NYU Depth Dataset v2の教師付き深度推定モデルについて検討する。 エンコーダとして使用する場合,ImageNetで事前学習したEfficientNetモデルは,RSME, REL, log10, 0.386, 0.113, 0.049でそれぞれ最適な結果が得られる。 また,本モデルが基底真理によく似た深度マップを生成することを示す定性的解析を行った。 EfficientNetが最も成功したアーキテクチャである。

Depth estimation from 2D images is a common computer vision task that has applications in many fields including autonomous vehicles, scene understanding and robotics. The accuracy of a supervised depth estimation method mainly relies on the chosen loss function, the model architecture, quality of data and performance metrics. In this study, we propose a simplified and adaptable approach to improve depth estimation accuracy using transfer learning and an optimized loss function. The optimized loss function is a combination of weighted losses to which enhance robustness and generalization: Mean Absolute Error (MAE), Edge Loss and Structural Similarity Index (SSIM). We use a grid search and a random search method to find optimized weights for the losses, which leads to an improved model. We explore multiple encoder-decoder-based models including DenseNet121, DenseNet169, DenseNet201, and EfficientNet for the supervised depth estimation model on NYU Depth Dataset v2. We observe that the EfficientNet model, pre-trained on ImageNet for classification when used as an encoder, with a simple upsampling decoder, gives the best results in terms of RSME, REL and log10: 0.386, 0.113 and 0.049, respectively. We also perform a qualitative analysis which illustrates that our model produces depth maps that closely resemble ground truth, even in cases where the ground truth is flawed. The results indicate significant improvements in accuracy and robustness, with EfficientNet being the most successful architecture.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# 運動のカオス:脳誘発皮膚追跡による遠隔心拍計測におけるロバスト性

Chaos in Motion: Unveiling Robustness in Remote Heart Rate Measurement through Brain-Inspired Skin Tracking ( http://arxiv.org/abs/2404.07687v1 )

ライセンス: Link先を確認
Jie Wang, Jing Lian, Minjie Ma, Junqiang Lei, Chunbiao Li, Bin Li, Jizhao Liu, (参考訳) 心拍数は人間の健康状態を示す重要な生理的指標である。 既存の遠隔心拍測定法では、顔検出と、関心領域(ROI)からの信号抽出が一般的である。 これらのSOTA法には3つの重大な問題がある。 (a)環境影響又は被写体運動による検出の失敗さえも不正確なもの b) 乳幼児や火傷者等の特殊患者に対する障害 (c)フェイスビデオの収集によるプライバシー漏洩問題 これらの問題に対処するため、遠隔心拍測定は、ビデオ中の光流信号の時空間特性を分析する過程であると考えている。 コンピュータビジョンタスクにカオス理論を初めて適用し、脳に触発されたフレームワークを設計する。 まず、人工一次視覚野モデルを用いてビデオ中の皮膚を抽出し、すべてのピクセルの時間周波数分析によって心拍数を計算する。 本手法はHR-RSTと呼ばれる心拍計測のためのロバスト皮膚追跡を実現する。 実験の結果,HR-RSTは環境影響の難しさを克服し,被験者の動きを効果的に追跡することがわかった。 さらに、この方法は他の身体部位にも拡張できる。 これにより、特殊な患者に適用し、個人のプライバシーを効果的に保護し、革新的な解決策を提供することができる。

Heart rate is an important physiological indicator of human health status. Existing remote heart rate measurement methods typically involve facial detection followed by signal extraction from the region of interest (ROI). These SOTA methods have three serious problems: (a) inaccuracies even failures in detection caused by environmental influences or subject movement; (b) failures for special patients such as infants and burn victims; (c) privacy leakage issues resulting from collecting face video. To address these issues, we regard the remote heart rate measurement as the process of analyzing the spatiotemporal characteristics of the optical flow signal in the video. We apply chaos theory to computer vision tasks for the first time, thus designing a brain-inspired framework. Firstly, using an artificial primary visual cortex model to extract the skin in the videos, and then calculate heart rate by time-frequency analysis on all pixels. Our method achieves Robust Skin Tracking for Heart Rate measurement, called HR-RST. The experimental results show that HR-RST overcomes the difficulty of environmental influences and effectively tracks the subject movement. Moreover, the method could extend to other body parts. Consequently, the method can be applied to special patients and effectively protect individual privacy, offering an innovative solution.
翻訳日:2024-04-12 14:09:30 公開日:2024-04-11
# Few-shot 分類における背骨一般化の平坦性改善

Flatness Improves Backbone Generalisation in Few-shot Classification ( http://arxiv.org/abs/2404.07696v1 )

ライセンス: Link先を確認
Rui Li, Martin Trapp, Marcus Klasson, Arno Solin, (参考訳) 現実世界の設定にディープニューラルネットワークを配置するには、通常、いくつかの例で新しいタスクに適応する必要がある。 FSC(Few-shot Classification)は、トレーニング済みのバックボーンを利用して新しいクラスに迅速に適応することで、この問題に対する解決策を提供する。 驚くべきことに、ほとんどの取り組みは、適切な一般化のためのバックボーントレーニングの重要性を考慮せずに、ターゲットドメインへの適応を緩和するためのアーキテクチャの開発にのみ焦点を当てている。 バニラファインチューニングによる平坦性を考慮したバックボーントレーニングは,最先端のベースラインよりもシンプルで競争力のあるベースラインとなることを示す。 本研究は, 内領域とクロスドメイン領域のFSCにおいて, バックボーントレーニングが, 適応法にまたがる優れた一般化を実現する上で重要であることを示唆する。 これらのモデルをトレーニングする際には、もっと注意すべきである、と私たちは主張する。

Deployment of deep neural networks in real-world settings typically requires adaptation to new tasks with few examples. Few-shot classification (FSC) provides a solution to this problem by leveraging pre-trained backbones for fast adaptation to new classes. Surprisingly, most efforts have only focused on developing architectures for easing the adaptation to the target domain without considering the importance of backbone training for good generalisation. We show that flatness-aware backbone training with vanilla fine-tuning results in a simpler yet competitive baseline compared to the state-of-the-art. Our results indicate that for in- and cross-domain FSC, backbone training is crucial to achieving good generalisation across different adaptation methods. We advocate more care should be taken when training these models.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# 品質制約付き遅延確率推定器を用いたポイントクラウド幾何スケーラブル符号化

Point Cloud Geometry Scalable Coding with a Quality-Conditioned Latents Probability Estimator ( http://arxiv.org/abs/2404.07698v1 )

ライセンス: Link先を確認
Daniele Mari, André F. R. Guarda, Nuno M. M. Rodrigues, Simone Milani, Fernando Pereira, (参考訳) 没入型視覚アプリケーションにおけるポイントクラウド(PC)の普及により、特にネットワーク、ハードウェア、ディスプレイ機能において、非常に異質な受信条件とデバイスが利用されるようになった。 このシナリオでは、品質のスケーラビリティ、すなわち、単一のビットストリームを段階的に復号化することで、異なる品質で信号を再構築する能力は、特に学習ベースのPCコーディングソリューションにおいて、まだ便利に対処されていない主要な要件である。 本稿では,品質条件付き遅延確率推定器(QuLPE)を用いて,PC学習ベース層に基づく高品質な表現をデコードする,学習ベースの静的点クラウド幾何コーデックに適応可能な,スケーラブル品質ハイププライア(SQH)という品質拡張性スキームを提案する。 SQHは将来のJPEG PCコーディング標準に統合されており、品質と忠実度を向上してPCの幾何学を段階的に復号するために使用できる階層化されたビットストリームを作成することができる。 実験により、SQHは、対応する非スケーリング可能なソリューションと比較して、圧縮性能のペナルティが極端に制限されているか、全くない品質のスケーラビリティ機能を提供しており、他の最先端のPCコーデックよりも大きな圧縮ゲインを保っていることが示された。

The widespread usage of point clouds (PC) for immersive visual applications has resulted in the use of very heterogeneous receiving conditions and devices, notably in terms of network, hardware, and display capabilities. In this scenario, quality scalability, i.e., the ability to reconstruct a signal at different qualities by progressively decoding a single bitstream, is a major requirement that has yet to be conveniently addressed, notably in most learning-based PC coding solutions. This paper proposes a quality scalability scheme, named Scalable Quality Hyperprior (SQH), adaptable to learning-based static point cloud geometry codecs, which uses a Quality-conditioned Latents Probability Estimator (QuLPE) to decode a high-quality version of a PC learning-based representation, based on an available lower quality base layer. SQH is integrated in the future JPEG PC coding standard, allowing to create a layered bitstream that can be used to progressively decode the PC geometry with increasing quality and fidelity. Experimental results show that SQH offers the quality scalability feature with very limited or no compression performance penalty at all when compared with the corresponding non-scalable solution, thus preserving the significant compression gains over other state-of-the-art PC codecs.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# カーネルヒルベルト空間とランダム特徴の再現によるハミルトンダイナミクスの学習

Learning Hamiltonian Dynamics with Reproducing Kernel Hilbert Spaces and Random Features ( http://arxiv.org/abs/2404.07703v1 )

ライセンス: Link先を確認
Torbjørn Smith, Olav Egeland, (参考訳) 有限かつ雑音の多いデータセットからハミルトン力学を学習する手法を提案する。 この方法は、固有のハミルトンベクトル場、特に奇なハミルトンベクトル場の再生カーネルヒルベルト空間(RKHS)上のハミルトンベクトル場を学習する。 これはシンプレクティックカーネルで行われ、奇妙な対称性を課すためにカーネルを奇妙なシンプレクティックカーネルにどのように修正するかが示される。 提案するカーネルにランダムな特徴近似を適用し,問題サイズの削減を図る。 これには奇数カーネルのランダムな特徴近似が含まれる。 この手法の性能は3つのハミルトニアン系のシミュレーションで検証される。 奇シンプレクティックカーネルを用いることで予測精度が向上し、学習ベクトル場がハミルトニアンであり、課された奇対称特性を示すことが示されている。

A method for learning Hamiltonian dynamics from a limited and noisy dataset is proposed. The method learns a Hamiltonian vector field on a reproducing kernel Hilbert space (RKHS) of inherently Hamiltonian vector fields, and in particular, odd Hamiltonian vector fields. This is done with a symplectic kernel, and it is shown how the kernel can be modified to an odd symplectic kernel to impose the odd symmetry. A random feature approximation is developed for the proposed kernel to reduce the problem size. This includes random feature approximations for odd kernels. The performance of the method is validated in simulations for three Hamiltonian systems. It is demonstrated that the use of an odd symplectic kernel improves prediction accuracy, and that the learned vector fields are Hamiltonian and exhibit the imposed odd symmetry characteristics.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# ViM-UNet:バイオメディカルセグメンテーションのためのビジョンマンバ

ViM-UNet: Vision Mamba for Biomedical Segmentation ( http://arxiv.org/abs/2404.07705v1 )

ライセンス: Link先を確認
Anwai Archit, Constantin Pape, (参考訳) CNN、特にUNetは、バイオメディカルセグメンテーションのデフォルトアーキテクチャである。 UNETRのようなトランスフォーマーベースのアプローチは、グローバルな視野から恩恵を受けながら、より大きなランタイムとより高いパラメータ数に悩まされている。 最近のVision Mambaアーキテクチャは、トランスフォーマーに代わる魅力的な代替手段を提供し、グローバルな視野を提供するが、効率は高い。 本稿では,新しいセグメンテーションアーキテクチャであるViM-UNetを紹介し,それをUNetとUNETRと比較する。 タスクによっては、UNetと同等かそれ以上の性能を示し、より効率的であると同時に、UNETRよりも優れています。 私たちのコードはオープンソースで、https://github.com/constantinpape/torch-em/blob/main/vimunet.mdでドキュメント化されています。

CNNs, most notably the UNet, are the default architecture for biomedical segmentation. Transformer-based approaches, such as UNETR, have been proposed to replace them, benefiting from a global field of view, but suffering from larger runtimes and higher parameter counts. The recent Vision Mamba architecture offers a compelling alternative to transformers, also providing a global field of view, but at higher efficiency. Here, we introduce ViM-UNet, a novel segmentation architecture based on it and compare it to UNet and UNETR for two challenging microscopy instance segmentation tasks. We find that it performs similarly or better than UNet, depending on the task, and outperforms UNETR while being more efficient. Our code is open source and documented at https://github.com/constantinpape/torch-em/blob/main/vimunet.md.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# OpenTrench3D:地下ユーティリティのセマンティックセグメンテーションのための3Dポイント・クラウド・データセット

OpenTrench3D: A Photogrammetric 3D Point Cloud Dataset for Semantic Segmentation of Underground Utilities ( http://arxiv.org/abs/2404.07711v1 )

ライセンス: Link先を確認
Lasse H. Hansen, Simon B. Jensen, Mark P. Philipsen, Andreas Møgelmose, Lars Bodum, Thomas B. Moeslund, (参考訳) 地下施設の特定と分類は、効率的な都市計画とインフラ整備のための重要な課題である。 提案するOpenTrench3Dは,新鮮で包括的な3次元セマンティックセマンティック・セマンティック・ポイント・クラウド・データセットである。 OpenTrench3Dは、パブリックな3Dポイントクラウドデータセットのための、まったく新しいドメインをカバーしている。 データセットは7つの異なる領域で収集された310点の雲で構成されている。 これには5つの水道用地域と2つの地区の暖房用地域が含まれる。 異なる地理的領域と主要なユーティリティ(水と地域の暖房ユーティリティ)を含めることで、OpenTrench3Dはドメイン間移動学習実験に特に有用である。 我々は3つの最先端セマンティックセグメンテーションモデル、PointNeXt、PointVector、PointMetaBaseを用いて、データセットのベンチマーク結果を提供する。 ベンチマークは、水域からのデータをトレーニングし、地域暖房エリア1を微調整し、地域暖房エリア2を評価して実施する。 データセットは公開されている。 OpenTrench3Dでは、地下ユーティリティの検出と文書化、および一般的には転送学習の手法に関するアプリケーションにおいて、3Dセマンティックセマンティックセマンティクスの分野におけるイノベーションと進歩の促進を目指しています。

Identifying and classifying underground utilities is an important task for efficient and effective urban planning and infrastructure maintenance. We present OpenTrench3D, a novel and comprehensive 3D Semantic Segmentation point cloud dataset, designed to advance research and development in underground utility surveying and mapping. OpenTrench3D covers a completely novel domain for public 3D point cloud datasets and is unique in its focus, scope, and cost-effective capturing method. The dataset consists of 310 point clouds collected across 7 distinct areas. These include 5 water utility areas and 2 district heating utility areas. The inclusion of different geographical areas and main utilities (water and district heating utilities) makes OpenTrench3D particularly valuable for inter-domain transfer learning experiments. We provide benchmark results for the dataset using three state-of-the-art semantic segmentation models, PointNeXt, PointVector and PointMetaBase. Benchmarks are conducted by training on data from water areas, fine-tuning on district heating area 1 and evaluating on district heating area 2. The dataset is publicly available. With OpenTrench3D, we seek to foster innovation and progress in the field of 3D semantic segmentation in applications related to detection and documentation of underground utilities as well as in transfer learning methods in general.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# ゼロショット学習のためのプログレッシブ・セマンティック・ガイド型視覚変換器

Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2404.07713v1 )

ライセンス: Link先を確認
Shiming Chen, Wenjin Hou, Salman Khan, Fahad Shahbaz Khan, (参考訳) ゼロショット学習(ZSL)は、視覚と意味の相互作用を行ない、目に見えるクラスから目に見えないクラスへ意味的な知識を伝達し、意味情報(例えば属性)によって支えられる。 しかし、既存のZSL手法では、事前に訓練されたネットワークバックボーン(例えばCNNやViT)を使って視覚的特徴を抽出するだけで、意味情報のガイダンスが欠如しているため、意味に関連した視覚的特徴を表現するために一致した視覚的意味的対応を学習できず、望ましくない視覚的意味的相互作用をもたらす。 この問題に対処するため,ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。 ZSLViTは主にネットワーク全体の2つの特性について検討している。 一 意味関連視覚表現を明示的に発見し、 二 意味不明の視覚情報を破棄すること。 具体的には、セマンティックエンハンスメントによる視覚・セマンティック対応を改善するために、セマンティックエンベッドドトークン学習を導入し、セマンティックエンハンスメントを用いて意味関連視覚トークンを明示的に発見する。 そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。 これら2つの操作は様々なエンコーダに統合され、ZSLにおける正確な視覚-意味的相互作用のための意味関連視覚表現を徐々に学習する。 大規模な実験により、我々のZSLViTは、CUB、SUN、AWA2という3つの人気のあるベンチマークデータセットにおいて、大幅なパフォーマンス向上を実現していることが示された。

Zero-shot learning (ZSL) recognizes the unseen classes by conducting visual-semantic interactions to transfer semantic knowledge from seen classes to unseen ones, supported by semantic information (e.g., attributes). However, existing ZSL methods simply extract visual features using a pre-trained network backbone (i.e., CNN or ViT), which fail to learn matched visual-semantic correspondences for representing semantic-related visual features as lacking of the guidance of semantic information, resulting in undesirable visual-semantic interactions. To tackle this issue, we propose a progressive semantic-guided vision transformer for zero-shot learning (dubbed ZSLViT). ZSLViT mainly considers two properties in the whole network: i) discover the semantic-related visual representations explicitly, and ii) discard the semantic-unrelated visual information. Specifically, we first introduce semantic-embedded token learning to improve the visual-semantic correspondences via semantic enhancement and discover the semantic-related visual tokens explicitly with semantic-guided token attention. Then, we fuse low semantic-visual correspondence visual tokens to discard the semantic-unrelated visual information for visual enhancement. These two operations are integrated into various encoders to progressively learn semantic-related visual representations for accurate visual-semantic interactions in ZSL. The extensive experiments show that our ZSLViT achieves significant performance gains on three popular benchmark datasets, i.e., CUB, SUN, and AWA2.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# マインド・ボディー・ピクチャーのリフレーミング: フォーマル・システムによるマインドとマインドの関係

Reframing the Mind-Body Picture: Applying Formal Systems to the Relationship of Mind and Matter ( http://arxiv.org/abs/2404.07719v1 )

ライセンス: Link先を確認
Ryan Williams, (参考訳) 本論は, 集合論と圏論から基本形式論を取り入れた簡単な枠組みが, 心と物質の関係に関する理論を明確にし, 伝達できることを実証することを目的とする。

This paper aims to show that a simple framework, utilizing basic formalisms from set theory and category theory, can clarify and inform our theories of the relation between mind and matter.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# 大規模言語モデルを用いた読解テスト項目の自動生成と評価

Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models ( http://arxiv.org/abs/2404.07720v1 )

ライセンス: Link先を確認
Andreas Säuberli, Simon Clematide, (参考訳) 可読性テストは、教育から簡易テキストの可読性評価まで、様々なアプリケーションで使用されている。 しかし、このようなテストを手動で作成し、品質を保証することは難しく、時間を要する。 本稿では,大規模言語モデル(LLM)を用いて,複数項目の読解項目の生成と評価を行う。 そこで我々は,ドイツ語読解項目のデータセットをコンパイルし,推測可能性と解答可能性に基づくテキスト情報伝達度(text informativity)と呼ばれる指標を含む,人間と自動評価のための新しいプロトコルを開発した。 次に、このプロトコルとデータセットを用いて、Llama 2 と GPT-4 で生成されたアイテムの品質を評価した。 以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。 また, LLM をアイテムレポジトリから抽出することで, 自動評価に利用できることを示す。 このシナリオでは、GPT-4による評価結果はヒトのアノテータに最もよく似ている。 全体として、LLMによるゼロショット生成は、読解テスト項目の生成と評価において有望なアプローチである。

Reading comprehension tests are used in a variety of applications, reaching from education to assessing the comprehensibility of simplified texts. However, creating such tests manually and ensuring their quality is difficult and time-consuming. In this paper, we explore how large language models (LLMs) can be used to generate and evaluate multiple-choice reading comprehension items. To this end, we compiled a dataset of German reading comprehension items and developed a new protocol for human and automatic evaluation, including a metric we call text informativity, which is based on guessability and answerability. We then used this protocol and the dataset to evaluate the quality of items generated by Llama 2 and GPT-4. Our results suggest that both models are capable of generating items of acceptable quality in a zero-shot setting, but GPT-4 clearly outperforms Llama 2. We also show that LLMs can be used for automatic evaluation by eliciting item reponses from them. In this scenario, evaluation results with GPT-4 were the most similar to human annotators. Overall, zero-shot generation with LLMs is a promising approach for generating and evaluating reading comprehension test items, in particular for languages without large amounts of available data.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# 古典-量子ハイブリッド正準力学と特殊および一般相対性理論の難しさ

The classical-quantum hybrid canonical dynamics and its difficulties with special and general relativity ( http://arxiv.org/abs/2404.07723v1 )

ライセンス: Link先を確認
Lajos Diósi, (参考訳) 古典的部分系と量子的部分系の間のハミルトンハイブリッド結合について論じる。 量子化された物質に結合した古典的な重力に当てはまると、このハイブリッド理論は完全な量子重力の代替となる「ポスト量子」を達成できるかもしれない。 ハミルトン系に適切な形式性の改善における非相対論的ハイブリッド力学を要約する。 強制的デコヒーレンスと拡散項は特殊および一般相対論的拡張において発散する。 再正規化法がマルコフのデコヒーレンスと拡散を相対性理論と整合させるかどうかはまだ分かっていない。 量子後重力はニュートン近似でしか実現できなかった。 我々は、マルコフ拡散/デコヒーレンスが相対性理論と真に相容れない場合、最近提案された一般相対論的後量子論の保留問題は解決されないと論じる。

We discuss the Hamiltonian hybrid coupling between a classical and a quantum subsystem. If applicable to classical gravity coupled to quantized matter, this hybrid theory might realize a captivating `postquantum' alternative to full quantum-gravity. We summarize the nonrelativistic hybrid dynamics in improved formalism adequate to Hamiltonian systems. The mandatory decoherence and diffusion terms become divergent in special and general relativistic extensions. It is not yet known if any renormalization method might reconcile Markovian decoherence and diffusion with relativity. Postquantum gravity could previously only be realized in the Newtonian approximation. We argue that pending problems of the recently proposed general relativistic postquantum theory will not be solved if Markovian diffusion/decoherence are truly incompatible with relativity.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# 限定区間における誘導の適用は拡散モデルにおけるサンプルおよび分布品質を改善する

Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models ( http://arxiv.org/abs/2404.07724v1 )

ライセンス: Link先を確認
Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, Jaakko Lehtinen, (参考訳) 誘導は画像生成拡散モデルから最高の性能を抽出するための重要な手法である。 従来、画像のサンプリングチェーン全体にわたって一定の誘導重みが適用されてきた。 チェーンの開始(高騒音レベル)、終了(低騒音レベル)、中間(低騒音レベル)に対して明らかに有害であり、かつ、中程度でのみ有益であることを示す。 これにより、特定のノイズレベルに制限し、推論速度と結果品質の両方を改善します。 この限定的な誘導間隔は ImageNet-512 の FID を 1.81 から 1.40 に大幅に改善する。 安定拡散XLの大規模設定を含む,異なるサンプルパラメータ,ネットワークアーキテクチャ,データセットに対して定量的かつ定性的に有用であることを示す。 そこで本研究では,誘導を用いたすべての拡散モデルにおいて,誘導間隔をハイパーパラメータとして公開することを提案する。

Guidance is a crucial technique for extracting the best performance out of image-generating diffusion models. Traditionally, a constant guidance weight has been applied throughout the sampling chain of an image. We show that guidance is clearly harmful toward the beginning of the chain (high noise levels), largely unnecessary toward the end (low noise levels), and only beneficial in the middle. We thus restrict it to a specific range of noise levels, improving both the inference speed and result quality. This limited guidance interval improves the record FID in ImageNet-512 significantly, from 1.81 to 1.40. We show that it is quantitatively and qualitatively beneficial across different sampler parameters, network architectures, and datasets, including the large-scale setting of Stable Diffusion XL. We thus suggest exposing the guidance interval as a hyperparameter in all diffusion models that use guidance.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# AIエラーのジレンマを解明する - 大規模言語モデルにおける人間と機械の説明の有効性を探る

Unraveling the Dilemma of AI Errors: Exploring the Effectiveness of Human and Machine Explanations for Large Language Models ( http://arxiv.org/abs/2404.07725v1 )

ライセンス: Link先を確認
Marvin Pafla, Kate Larson, Mark Hancock, (参考訳) eXplainable Artificial Intelligence(XAI)の分野は、人工知能(AI)モデルに対する洞察を得るための多くの方法(例えば、サリエンシマップ)を生み出し、ディープラーニング(DL)の台頭とともに爆発した。 しかしながら、人間の参加者による研究は、特にAIの出力が間違っている場合、これらの方法の有効性を疑問視する。 本研究では,質問応答タスク(N=40)で収集した156件の人為的テキストとサリエンシに基づく説明(N=136)を分析・分析し,現状のXAI説明(統合的勾配,保守的LPP,ChatGPT)と比較した(N=136)。 以上の結果から,AIの回答は機械のサリエンシマップよりも人間のサリエンシマップの方が有効であることがわかったが,性能はAIモデルの信頼度や説明と負の相関を示した。 この発見は、説明におけるAIエラーのジレンマを示唆するものであり、役に立つ説明は、間違ったAI予測をサポートする場合にタスクパフォーマンスを低下させる可能性がある。

The field of eXplainable artificial intelligence (XAI) has produced a plethora of methods (e.g., saliency-maps) to gain insight into artificial intelligence (AI) models, and has exploded with the rise of deep learning (DL). However, human-participant studies question the efficacy of these methods, particularly when the AI output is wrong. In this study, we collected and analyzed 156 human-generated text and saliency-based explanations collected in a question-answering task (N=40) and compared them empirically to state-of-the-art XAI explanations (integrated gradients, conservative LRP, and ChatGPT) in a human-participant study (N=136). Our findings show that participants found human saliency maps to be more helpful in explaining AI answers than machine saliency maps, but performance negatively correlated with trust in the AI model and explanations. This finding hints at the dilemma of AI errors in explanation, where helpful explanations can lead to lower task performance when they support wrong AI predictions.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# トーラス上の局所ジョルダン・ウィグナー変換

Local Jordan-Wigner transformations on the torus ( http://arxiv.org/abs/2404.07727v1 )

ライセンス: Link先を確認
Oliver O'Brien, Laurens Lootens, Frank Verstraete, (参考訳) 本稿では,2次元トーラス上のフェルミオンからキュービットへのユニタリマッピングを局所的に保存し,トポロジカルセクターのマッピングを考慮に入れた。 Shukla et al [Phys. Rev. B 101, 155105] の作業を拡張して、射影された絡み合ったペア作用素の形で明示的なインターツイナーを構築する。 電荷セクターに関する情報(およびツイスト境界条件を適用すれば)を補助量子ビット(s)に符号化することにより、インターツイナーは境界条件と電荷セクターを交換するユニタリ作用素となる。

We present a locality preserving unitary mapping from fermions to qubits on a 2D torus whilst accounting for the mapping of topological sectors. Extending the work of Shukla et al. [Phys. Rev. B 101, 155105], an explicit intertwiner is constructed in the form of a projected entangled pair operator. By encoding the information about the charge sectors (and if applicable the twisted boundary conditions) in ancillary qubit(s), the intertwiner becomes a unitary operator which exchanges boundary conditions and charge sectors.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# 事前学習モデルを用いた現実的連続学習手法

Realistic Continual Learning Approach using Pre-trained Models ( http://arxiv.org/abs/2404.07729v1 )

ライセンス: Link先を確認
Nadia Nasri, Carlos Gutiérrez-Álvarez, Sergio Lafuente-Arroyo, Saturnino Maldonado-Bascón, Roberto J. López-Sastre, (参考訳) 継続的な学習(CL)は、知識を維持するための学習ソリューションの適応性を評価するために不可欠である。 我々の研究は、モデルが学習したタスクの習熟度を減らし、新しいタスクを取得するという破滅的な忘れ込みの課題に対処する。 多くのソリューションが提案されているが、既存の実験的なセットアップは、しばしば理想化されたクラス増分学習シナリオに依存している。 本稿では,タスク間のクラス分布がランダムな新しいCLパラダイムであるRealistic Continual Learning(RealCL)を紹介する。 CLARE(Continual Learning Approach with pRE-trained model for RealCL scenarios)も提案する。 コントリビューションには、従来のCLセットアップの一般化としてのRealCLの先駆者、RealCLタスクの適応的なアプローチとしてのCLAREの提案、さまざまなRealCLシナリオにおけるその有効性を示す広範な実験などが含まれます。 特に、CLAREはRealCLベンチマークの既存モデルよりも優れており、予測不可能な学習環境におけるその汎用性と堅牢性を強調している。

Continual learning (CL) is crucial for evaluating adaptability in learning solutions to retain knowledge. Our research addresses the challenge of catastrophic forgetting, where models lose proficiency in previously learned tasks as they acquire new ones. While numerous solutions have been proposed, existing experimental setups often rely on idealized class-incremental learning scenarios. We introduce Realistic Continual Learning (RealCL), a novel CL paradigm where class distributions across tasks are random, departing from structured setups. We also present CLARE (Continual Learning Approach with pRE-trained models for RealCL scenarios), a pre-trained model-based solution designed to integrate new knowledge while preserving past learning. Our contributions include pioneering RealCL as a generalization of traditional CL setups, proposing CLARE as an adaptable approach for RealCL tasks, and conducting extensive experiments demonstrating its effectiveness across various RealCL scenarios. Notably, CLARE outperforms existing models on RealCL benchmarks, highlighting its versatility and robustness in unpredictable learning environments.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# ボルツマン探査によるモンテカルロ木探索

Monte Carlo Tree Search with Boltzmann Exploration ( http://arxiv.org/abs/2404.07732v1 )

ライセンス: Link先を確認
Michael Painter, Mohamed Baioumy, Nick Hawes, Bruno Lacerda, (参考訳) 木 (UCT) に適用されたアッパー信頼境界 (Upper Confidence Bound) のようなモンテカルロ木探索 (MCTS) 手法は、自動計画手法に欠かせないものである。 しかし、UDTは他の行動に劣ると最適な行動を探すのが遅くなる可能性がある。 最大エントロピー木探索(MENTS)は最大エントロピー原理をMCTSアプローチに取り入れ、ボルツマンの政策を利用して行動のサンプリングを行い、自然にさらなる探索を奨励する。 最大エントロピー目的に対する最適アクションは、必ずしも元の目的に対する最適アクションに対応しない。 本稿では,Boltzmann Tree Search (BTS) とDecaying ENtropy Tree-Search (DENTS) という2つのアルゴリズムを導入する。 実験により,Goのゲームを含むいくつかのベンチマーク領域において,アルゴリズムが一貫した性能を示すことを示す。

Monte-Carlo Tree Search (MCTS) methods, such as Upper Confidence Bound applied to Trees (UCT), are instrumental to automated planning techniques. However, UCT can be slow to explore an optimal action when it initially appears inferior to other actions. Maximum ENtropy Tree-Search (MENTS) incorporates the maximum entropy principle into an MCTS approach, utilising Boltzmann policies to sample actions, naturally encouraging more exploration. In this paper, we highlight a major limitation of MENTS: optimal actions for the maximum entropy objective do not necessarily correspond to optimal actions for the original objective. We introduce two algorithms, Boltzmann Tree Search (BTS) and Decaying ENtropy Tree-Search (DENTS), that address these limitations and preserve the benefits of Boltzmann policies, such as allowing actions to be sampled faster by using the Alias method. Our empirical analysis shows that our algorithms show consistent high performance across several benchmark domains, including the game of Go.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# エルスシューズにおける拡散 : 拡散を考慮したロボット視点

Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion ( http://arxiv.org/abs/2404.07735v1 )

ライセンス: Link先を確認
Josua Spisak, Matthias Kerzel, Stefan Wermter, (参考訳) ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。 人間が他の人間に行動の仕方を教えるとき、彼らはしばしば行動を示し、学習する人はそのデモンストレーションを模倣しようとする。 第三者の視点から見たデモから、一人称視点からどのように見えるかへ精神的に移行できることは、人間のこの能力に不可欠である。 これは難しい作業であるため、ロボットにとって第一の視点でデモを作成することで、しばしば単純化される。 これらのデモを作成するには、より多くの労力が必要ですが、簡単に模倣することができます。 本研究では,ロボットが第三者によるデモンストレーションから直接学習できるようにすることを目的とした,新しい拡散モデルを提案する。 本モデルでは,2つの視点間の物体と環境の大きさと回転を変換することにより,第3の視点から第1の視点を学習し,生成することができる。 これにより、簡単に生産できる第三者によるデモと、簡単に模倣できる個人によるデモの利点を活用できます。 モデルは、RGB画像の1人称視点を表すか、ジョイント値を計算することができる。 本研究の手法は,他の画像・画像モデルよりも優れている。

Humanoid robots can benefit from their similarity to the human shape by learning from humans. When humans teach other humans how to perform actions, they often demonstrate the actions and the learning human can try to imitate the demonstration. Being able to mentally transfer from a demonstration seen from a third-person perspective to how it should look from a first-person perspective is fundamental for this ability in humans. As this is a challenging task, it is often simplified for robots by creating a demonstration in the first-person perspective. Creating these demonstrations requires more effort but allows for an easier imitation. We introduce a novel diffusion model aimed at enabling the robot to directly learn from the third-person demonstrations. Our model is capable of learning and generating the first-person perspective from the third-person perspective by translating the size and rotations of objects and the environment between two perspectives. This allows us to utilise the benefits of easy-to-produce third-person demonstrations and easy-to-imitate first-person demonstrations. The model can either represent the first-person perspective in an RGB image or calculate the joint values. Our approach significantly outperforms other image-to-image models in this task.
翻訳日:2024-04-12 13:59:46 公開日:2024-04-11
# ResearchAgent: 大規模言語モデルによる科学文献の反復的研究思想生成

ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models ( http://arxiv.org/abs/2404.07738v1 )

ライセンス: Link先を確認
Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, Sung Ju Hwang, (参考訳) 科学的研究は、人間の生活を改善するために不可欠であり、その固有の複雑さ、ペースの遅さ、専門の専門家の必要性によって妨げられている。 本研究では,その生産性を高めるために,大規模言語モデルを用いた研究アイデア作成エージェントであるResearchAgentを提案する。 具体的には、中核的な論文からアイデアを創出する第一の焦点として、学術的なグラフ上の情報を接続することで、関連する出版物だけでなく、基礎となる概念に基づいてエンティティ中心の知識ストアから取得したエンティティも拡張し、多くの論文にまたがって共有しています。 さらに、ピアディスカッションでアイデアを反復的に改善するための人間的アプローチを反映し、レビューとフィードバックを反復的に提供する複数のReviewingAgentsを活用する。 さらに、評価基準が実際の人間の判断から導かれる人間の嗜好に整合した大規模言語モデルを用いてインスタンス化する。 我々は,複数の分野にわたる学術出版物に関するResearchAgentを実験的に検証し,人間とモデルに基づく評価結果に基づく,新規で明瞭で有効な研究思想を創出する上での有効性を示す。

Scientific Research, vital for improving human life, is hindered by its inherent complexity, slow pace, and the need for specialized experts. To enhance its productivity, we propose a ResearchAgent, a large language model-powered research idea writing agent, which automatically generates problems, methods, and experiment designs while iteratively refining them based on scientific literature. Specifically, starting with a core paper as the primary focus to generate ideas, our ResearchAgent is augmented not only with relevant publications through connecting information over an academic graph but also entities retrieved from an entity-centric knowledge store based on their underlying concepts, mined and shared across numerous papers. In addition, mirroring the human approach to iteratively improving ideas with peer discussions, we leverage multiple ReviewingAgents that provide reviews and feedback iteratively. Further, they are instantiated with human preference-aligned large language models whose criteria for evaluation are derived from actual human judgments. We experimentally validate our ResearchAgent on scientific publications across multiple disciplines, showcasing its effectiveness in generating novel, clear, and valid research ideas based on human and model-based evaluation results.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 深層学習に基づく屋内シーン分類のためのオブジェクトベースとセグメンテーションベースのセマンティック特徴の爆発的抽出

Exploiting Object-based and Segmentation-based Semantic Features for Deep Learning-based Indoor Scene Classification ( http://arxiv.org/abs/2404.07739v1 )

ライセンス: Link先を確認
Ricardo Pereira, Luís Garrote, Tiago Barros, Ana Lopes, Urbano J. Nunes, (参考訳) 屋内シーンは、通常、散在する物体とその関係によって特徴づけられ、屋内シーンの分類タスクは、難しいコンピュータビジョンタスクに変わる。 近年,深層学習に基づく手法によって達成された分類タスクの性能向上にもかかわらず,カテゴリー間のあいまいさやカテゴリ内変動といった制限は,その性能を抑えている。 このような課題を克服するため、屋内シーンのより完全かつ差別的な特徴表現に向けて、セマンティック情報を集めることが有望な情報源であることが示されている。 そこで本論文では,オブジェクト検出から得られた意味情報と意味的セグメンテーション技術の両方を用いる。 オブジェクト検出技術はオブジェクト間の空間分布を得ることのできるオブジェクトの2次元位置を提供するが、セグメンテーション技術は、ピクセルレベルでは、セグメンテーションカテゴリの空間分布と形状に関連した特徴を得ることができるピクセルレベルの情報を提供する。 そこで,Segmentation-based Hu-Moments Features (SHMFs) によって指定されたセグメンテーションカテゴリの形状特徴を意味的セグメンテーションマスクを用いて提供する手法を提案する。 さらに,GOS$^2$F$^2$Appが指定する3つのメインブランチネットワークも提案されている。 GOS$^2$F$^2$Appは、SUN RGB-DとNYU Depth V2の2つの屋内シーンベンチマークデータセットで評価された。

Indoor scenes are usually characterized by scattered objects and their relationships, which turns the indoor scene classification task into a challenging computer vision task. Despite the significant performance boost in classification tasks achieved in recent years, provided by the use of deep-learning-based methods, limitations such as inter-category ambiguity and intra-category variation have been holding back their performance. To overcome such issues, gathering semantic information has been shown to be a promising source of information towards a more complete and discriminative feature representation of indoor scenes. Therefore, the work described in this paper uses both semantic information, obtained from object detection, and semantic segmentation techniques. While object detection techniques provide the 2D location of objects allowing to obtain spatial distributions between objects, semantic segmentation techniques provide pixel-level information that allows to obtain, at a pixel-level, a spatial distribution and shape-related features of the segmentation categories. Hence, a novel approach that uses a semantic segmentation mask to provide Hu-moments-based segmentation categories' shape characterization, designated by Segmentation-based Hu-Moments Features (SHMFs), is proposed. Moreover, a three-main-branch network, designated by GOS$^2$F$^2$App, that exploits deep-learning-based global features, object-based features, and semantic segmentation-based features is also proposed. GOS$^2$F$^2$App was evaluated in two indoor scene benchmark datasets: SUN RGB-D and NYU Depth V2, where, to the best of our knowledge, state-of-the-art results were achieved on both datasets, which present evidences of the effectiveness of the proposed approach.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 有限遅延を伴う空間分離空洞系の光準正規モードの量子化

Quantization of optical quasinormal modes for spatially separated cavity systems with finite retardation ( http://arxiv.org/abs/2404.07741v1 )

ライセンス: Link先を確認
Robert Fuchs, Juanjuan Ren, Sebastian Franke, Stephen Hughes, Marten Richter, (参考訳) 共生背景媒体に埋め込まれた光キャビティの準正規モード(QNM)を用いて、共振器間結合において遅延が重要な場合の多重キャビティ量子化手法を開発した。 計算光学で計算可能な量と数値解法を用いて、従来のQNM量子化スキームを拡張して、QNMキャビティの別個の量子化が正当化されているか、システムの合同量子化が必要かを決定するための定量的測度を定義する。 本測定は,QNMキャビティとして作用する2つの結合型1次元誘電体スラブと金属ナノロッドのダイマーの例を対象としたものである。 十分に大きな分離を行うためには、個々のキャビティに対して定義されたパラメータを用いて、マルチキャビティ現象を効率的に処理することができる。 このスキームは、ハミルトニアンを慣れ親しんだシステムバス形式で定式化し、厳密なQNM理論と、マックスウェル計算から直接得られるパラメータを持つ共有フォトニック浴に結合した開放キャビティの広範な現象論的モデルとを結びつける。

A multi-cavity quantization scheme is developed using quasinormal modes (QNMs) of optical cavities embedded in a homogeneous background medium for cases where retardation is significant in the inter-cavity coupling. Using quantities that can be calculated in computational optics with numerical Maxwell solvers, we extend previous QNM quantization schemes and define a quantitative measure to determine if a separate quantization of QNM cavities is justified or if a joint quantization of the system is necessary. We test this measure for the examples of two coupled one-dimensional dielectric slabs and a dimer of metal nanorods acting as QNM cavities. For sufficiently large separations, the new scheme allows for an efficient treatment of multi-cavity phenomena using parameters defined for the individual cavities. Formulating the Hamiltonian in a familiar system-bath form, the scheme connects the rigorous QNM theory and widespread phenomenological models of open cavities coupled to a shared photonic bath with parameters obtained directly from Maxwell calculations.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 3D-CSAD:複合材料表面の非拘束3次元異常検出

3D-CSAD: Untrained 3D Anomaly Detection for Complex Manufacturing Surfaces ( http://arxiv.org/abs/2404.07748v1 )

ライセンス: Link先を確認
Xuanming Cao, Chengyu Tao, Juan Du, (参考訳) 近年,3次元点雲データに基づく製造部品の表面品質検査が注目されている。 理由は、3Dポイントクラウドが製造部品の表面全体を捉えることができるからだ。 しかし、製造部品の複雑な表面と十分な異常サンプルの収集が困難であるため、正確な3次元異常検出は困難である。 これらの課題に対処するために,複雑な製造部品の3次元点雲データに基づく新しい非トレーニング異常検出手法を提案する。 提案手法では,入力サンプルを異なる方向に沿って2組のプロファイルに変換する。 プロファイルの1つのセットに基づいて、複雑な表面を複数の基本的で単純な構成要素に分割するために、新しいセグメンテーションモジュールが考案された。 各成分において、類似した形状の性質を持つ別のプロファイルの集合は、ローランク行列としてモデル化することができる。 したがって、これらの低ランク行列上でロバスト主成分分析(RPCA)を用いて正確な3次元異常検出を行うことができる。 異なるタイプの部品に対する大規模な数値実験により,本手法はベンチマーク法と比較して有望な結果が得られることを示した。

The surface quality inspection of manufacturing parts based on 3D point cloud data has attracted increasing attention in recent years. The reason is that the 3D point cloud can capture the entire surface of manufacturing parts, unlike the previous practices that focus on some key product characteristics. However, achieving accurate 3D anomaly detection is challenging, due to the complex surfaces of manufacturing parts and the difficulty of collecting sufficient anomaly samples. To address these challenges, we propose a novel untrained anomaly detection method based on 3D point cloud data for complex manufacturing parts, which can achieve accurate anomaly detection in a single sample without training data. In the proposed framework, we transform an input sample into two sets of profiles along different directions. Based on one set of the profiles, a novel segmentation module is devised to segment the complex surface into multiple basic and simple components. In each component, another set of profiles, which have the nature of similar shapes, can be modeled as a low-rank matrix. Thus, accurate 3D anomaly detection can be achieved by using Robust Principal Component Analysis (RPCA) on these low-rank matrices. Extensive numerical experiments on different types of parts show that our method achieves promising results compared with the benchmark methods.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 大規模言語モデルを用いた一貫したPDDLドメインの生成

Generating consistent PDDL domains with Large Language Models ( http://arxiv.org/abs/2404.07751v1 )

ライセンス: Link先を確認
Pavel Smirnov, Frank Joublin, Antonello Ceravola, Michael Gienger, (参考訳) LLM(Large Language Models)は、自然言語のドメイン記述をPDDLマークアップに変換する能力を持つ。 しかし、アクションがドメイン内で一貫していることを保証することは、依然として困難な課題である。 本稿では、生成プロセス中に自動整合性チェックを行うことにより、LCM生成のPDDLモデルの品質を大幅に向上させる新しい概念を提案する。 提案した整合性チェック戦略は、生成したモデルの絶対的正当性を保証することはできないが、ループ内の人間から期待される補正努力の量を減らす貴重なフィードバック源として機能することができる。 我々は,古典的かつカスタムなプランニングドメイン(ロジスティクス,グリッパー,タイヤワールド,家庭用,ピザ)におけるエラー検出手法の能力を実証する。

Large Language Models (LLMs) are capable of transforming natural language domain descriptions into plausibly looking PDDL markup. However, ensuring that actions are consistent within domains still remains a challenging task. In this paper we present a novel concept to significantly improve the quality of LLM-generated PDDL models by performing automated consistency checking during the generation process. Although the proposed consistency checking strategies still can't guarantee absolute correctness of generated models, they can serve as valuable source of feedback reducing the amount of correction efforts expected from a human in the loop. We demonstrate the capabilities of our error detection approach on a number of classical and custom planning domains (logistics, gripper, tyreworld, household, pizza).
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 集団認識による脆弱性のある道路利用者の排他的リスクの軽減--実証分析

Mitigating Vulnerable Road Users Occlusion Risk Via Collective Perception: An Empirical Analysis ( http://arxiv.org/abs/2404.07753v1 )

ライセンス: Link先を確認
Vincent Albert Wolff, Edmir Xhoxhi, (参考訳) 世界保健機関(WHO)の最近の報告は、Vulnerable Road Users(VRU)が近年の道路事故の半数以上に関与しており、閉塞リスク(VRUが駐車中の車のような障害物によってドライバーの視点から隠されているシナリオ)が重要な要因であることを示している。 そこで本研究では,車両とVRUの両方のダイナミクスに基づいて,閉塞リスクを定量化するアルゴリズムを提案する。 このアルゴリズムは、ドイツの交差点から得られた実世界のデータセットを用いて、テストと評価を行っている。 さらに,VRUが所定のシナリオにおける任意の車両によって追跡されない最長連続時間を測定するため,MTL(Maximum Tracking Loss)の概念を導入する。 本研究は,VRUの安全性における集団知覚サービス(CPS)の役割について検討する。 CPSは、車両がセンサー情報を共有できるようにすることで安全性を高め、閉塞リスクを低減する可能性がある。 分析の結果, CPS搭載車両の25%の市場浸透は, 閉塞リスクを著しく低減し, MTLを大幅に削減できることがわかった。 これらの結果は、様々なシナリオがVRUに対して異なるレベルのリスクをもたらし、集合的知覚の展開が安全性を著しく向上させることを示す。 さらに, 安全因子として閉塞リスクを捉えるために, 提案手法の有効性について検討した。

Recent reports from the World Health Organization highlight that Vulnerable Road Users (VRUs) have been involved in over half of the road fatalities in recent years, with occlusion risk - a scenario where VRUs are hidden from drivers' view by obstacles like parked vehicles - being a critical contributing factor. To address this, we present a novel algorithm that quantifies occlusion risk based on the dynamics of both vehicles and VRUs. This algorithm has undergone testing and evaluation using a real-world dataset from German intersections. Additionally, we introduce the concept of Maximum Tracking Loss (MTL), which measures the longest consecutive duration a VRU remains untracked by any vehicle in a given scenario. Our study extends to examining the role of the Collective Perception Service (CPS) in VRU safety. CPS enhances safety by enabling vehicles to share sensor information, thereby potentially reducing occlusion risks. Our analysis reveals that a 25% market penetration of CPS-equipped vehicles can substantially diminish occlusion risks and significantly curtail MTL. These findings demonstrate how various scenarios pose different levels of risk to VRUs and how the deployment of Collective Perception can markedly improve their safety. Furthermore, they underline the efficacy of our proposed metrics to capture occlusion risk as a safety factor.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 深層学習型テキスト・ツー・イメージモデルによる合成衛星画像の生成 -モニタリングと検証の技術的課題と意義-

Generating Synthetic Satellite Imagery With Deep-Learning Text-to-Image Models -- Technical Challenges and Implications for Monitoring and Verification ( http://arxiv.org/abs/2404.07754v1 )

ライセンス: Link先を確認
Tuong Vy Nguyen, Alexander Glaser, Felix Biessmann, (参考訳) 新たなディープラーニング(DL)アーキテクチャは、実際のデータと区別が難しいフォトリアリスティック画像を含むデジタルメディアを生成できるレベルに達している。 これらの技術は機械学習(ML)モデルのトレーニングデータを生成するためにすでに使われており、DALL-E、Imagen、Stable Diffusionといった大規模なテキスト・ツー・イメージモデルでは、現実的な高解像度画像生成において顕著な結果が得られている。 これらの発展を考えると、監視と検証におけるデータ認証の問題は慎重で体系的な分析に値する。 生成はどの程度容易か? ML研究者にとって、どのように役立つのか。 本研究では、新しいDLモデルを用いて、コンディショニング機構を用いて合成衛星画像を作成する方法について検討する。 本研究では, 合成衛星画像生成の課題について検討し, 信頼性と最先端測定値に基づく評価を行った。 さらに, 遠隔センシングにおけるML手法の文脈におけるデータ不足を, 合成データによって緩和する方法について検討した。 最後に、監視・検証の文脈における合成衛星画像の影響について論じる。

Novel deep-learning (DL) architectures have reached a level where they can generate digital media, including photorealistic images, that are difficult to distinguish from real data. These technologies have already been used to generate training data for Machine Learning (ML) models, and large text-to-image models like DALL-E 2, Imagen, and Stable Diffusion are achieving remarkable results in realistic high-resolution image generation. Given these developments, issues of data authentication in monitoring and verification deserve a careful and systematic analysis: How realistic are synthetic images? How easily can they be generated? How useful are they for ML researchers, and what is their potential for Open Science? In this work, we use novel DL models to explore how synthetic satellite images can be created using conditioning mechanisms. We investigate the challenges of synthetic satellite image generation and evaluate the results based on authenticity and state-of-the-art metrics. Furthermore, we investigate how synthetic data can alleviate the lack of data in the context of ML methods for remote-sensing. Finally we discuss implications of synthetic satellite imagery in the context of monitoring and verification.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# マイクロキャビティの精度アライメントに対するシュレーディンガー方程式の逆解法

Inverse solving the Schrödinger equation for precision alignment of a microcavity ( http://arxiv.org/abs/2404.07760v1 )

ライセンス: Link先を確認
Charlie Mattschas, Marius Puplauskis, Chris Toebes, Violetta Sharoglazova, Jan Klaers, (参考訳) パラ軸近似では、光マイクロ共振器内の電磁固有モードはシュリンガー型固有値問題から導出することができる。 この枠組みでは、キャビティミラーを傾けることで、システムに線形ポテンシャルを効果的に導入する。 本研究では, 逆問題に対する解法を適用し, 光マイクロキャビティを形成する2つのミラーの相対配向を正確に決定し, 制御する。 提案手法では,シュリンガー方程式の逆転を用いて,観測モードパターンから有効な潜在的景観を再構築し,ミラー傾きを再現する。 本稿では,逆問題の性質が不明確で,解の安定性が向上する正則化手法について検討する。 本手法は, 測定値100ナノラジアンの角度分解能を一貫して達成する。

In paraxial approximation, the electromagnetic eigenmodes inside an optical microresonator can be derived from a Schr\"odinger-type eigenvalue problem. In this framework, tilting the cavity mirrors effectively introduces a linear potential to the system. In our work, we apply solution strategies for inverse problems to precisely determine and control the relative orientation of two mirrors forming an optical microcavity. Our approach employs the inversion of the Schr\"odinger equation to reconstruct the effective potential landscape, and thus mirror tilts, from observed mode patterns. We investigate regularization techniques to address the ill-posed nature of inverse problems and to improve the stability of solutions. Our method consistently achieves an angle resolution of order 100 nanoradians per measurement.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# NeuroNCAP: 自動運転のための光リアルクローズドループ安全試験

NeuroNCAP: Photorealistic Closed-loop Safety Testing for Autonomous Driving ( http://arxiv.org/abs/2404.07762v1 )

ライセンス: Link先を確認
William Ljungbergh, Adam Tonderski, Joakim Johnander, Holger Caesar, Kalle Åström, Michael Felsberg, Christoffer Petersson, (参考訳) 我々は,センサリアルなクローズループ評価と安全クリティカルシナリオの作成に焦点をあてた,自律走行(AD)ソフトウェアシステムをテストする汎用的なNeRFベースのシミュレータを提案する。 シミュレータは実世界の駆動センサーデータのシーケンスから学習し、新しい、目に見えないシナリオの再構成とレンダリングを可能にする。 本研究では,欧州新車評価プログラム(Euro NCAP)に触発された安全クリティカルシナリオに対するADモデルの応答をシミュレータを用いて検証する。 我々の評価では、最先端のエンド・ツー・エンドのプランナーは、オープンループ設定で名目上の運転シナリオに優れているが、クローズドループ設定で安全クリティカルなシナリオをナビゲートする際には、重大な欠陥が現れる。 これは、エンド・ツー・エンド・プランナーの安全性と現実のユーザビリティの向上の必要性を強調している。 シミュレータとシナリオを簡単に実行可能な評価スイートとして公開することにより、研究コミュニティにADモデルを制御されながら、高度に構成可能で、困難なセンサー現実的な環境を探索し、洗練し、検証するよう呼びかけます。 コードと指示はhttps://github.com/wljungbergh/NeuroNCAPで確認できる。

We present a versatile NeRF-based simulator for testing autonomous driving (AD) software systems, designed with a focus on sensor-realistic closed-loop evaluation and the creation of safety-critical scenarios. The simulator learns from sequences of real-world driving sensor data and enables reconfigurations and renderings of new, unseen scenarios. In this work, we use our simulator to test the responses of AD models to safety-critical scenarios inspired by the European New Car Assessment Programme (Euro NCAP). Our evaluation reveals that, while state-of-the-art end-to-end planners excel in nominal driving scenarios in an open-loop setting, they exhibit critical flaws when navigating our safety-critical scenarios in a closed-loop setting. This highlights the need for advancements in the safety and real-world usability of end-to-end planners. By publicly releasing our simulator and scenarios as an easy-to-run evaluation suite, we invite the research community to explore, refine, and validate their AD models in controlled, yet highly configurable and challenging sensor-realistic environments. Code and instructions can be found at https://github.com/wljungbergh/NeuroNCAP
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# AnnoCTR:サイバー脅威レポートにおけるエンティティ、戦術、テクニックの検出とリンクのためのデータセット

AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports ( http://arxiv.org/abs/2404.07765v1 )

ライセンス: Link先を確認
Lukas Lange, Marc Müller, Ghazaleh Haratinezhad Torbati, Dragan Milchevski, Patrick Grau, Subhash Pujari, Annemarie Friedrich, (参考訳) 脅威の状況を監視して、実際のまたは潜在的な攻撃に気付くことは、サイバーセキュリティの専門家にとって最も重要である。 サイバー脅威に関する情報は一般的に自然言語で報告される。 自然言語処理は、この大量の構造化されていない情報を管理するのに役立つが、これまではほとんど注目されなかった。 本稿では,CC-BY-SAライセンスによるサイバー脅威レポートのデータセットであるAnnoCTRを紹介する。 報告書はドメインの専門家によって、名前付きエンティティ、時間表現、暗黙的に言及されたテクニックや戦術を含むサイバーセキュリティ固有の概念によって注釈付けされている。 エンティティと概念はウィキペディアとMITRE ATT&CK知識ベースに関連付けられており、攻撃の種類を分類するために最も広く使われている分類である。 MITRE ATT&CKにリンクする以前のデータセットは、ドキュメントごとに1つのラベルを提供するか、テキストの注釈付き文を提供する。 実験では、最先端のニューラルモデルを用いてデータセットのアノテーションをモデル化する。 少数のシナリオでは、テキストで明示的にあるいは暗黙的に言及されるMITRE ATT&CKの概念を識別するために、MITRE ATT&CKの概念記述は、データ拡張のトレーニングに有効な情報源であることがわかった。

Monitoring the threat landscape to be aware of actual or potential attacks is of utmost importance to cybersecurity professionals. Information about cyber threats is typically distributed using natural language reports. Natural language processing can help with managing this large amount of unstructured information, yet to date, the topic has received little attention. With this paper, we present AnnoCTR, a new CC-BY-SA-licensed dataset of cyber threat reports. The reports have been annotated by a domain expert with named entities, temporal expressions, and cybersecurity-specific concepts including implicitly mentioned techniques and tactics. Entities and concepts are linked to Wikipedia and the MITRE ATT&CK knowledge base, the most widely-used taxonomy for classifying types of attacks. Prior datasets linking to MITRE ATT&CK either provide a single label per document or annotate sentences out-of-context; our dataset annotates entire documents in a much finer-grained way. In an experimental study, we model the annotations of our dataset using state-of-the-art neural models. In our few-shot scenario, we find that for identifying the MITRE ATT&CK concepts that are mentioned explicitly or implicitly in a text, concept descriptions from MITRE ATT&CK are an effective source for training data augmentation.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# RMAFF-PSN: 残差マルチスケールアテンション特徴融合光度ステレオネットワーク

RMAFF-PSN: A Residual Multi-Scale Attention Feature Fusion Photometric Stereo Network ( http://arxiv.org/abs/2404.07766v1 )

ライセンス: Link先を確認
Kai Luo, Yakun Ju, Lin Qi, Kaixuan Wang, Junyu Dong, (参考訳) 複雑な構造領域の2次元画像からオブジェクトの正確な正規マップを推定することは,物体形状や表面物質の変化による表面反射特性の影響から,光度ステレオ法を用いて難しい。 この問題に対処するため,RMAFF-PSNと呼ばれる光度ステレオネットワークを提案する。 階層化された畳み込み層のみを用いて入力画像から深い特徴を抽出する従来の手法とは異なり,本手法は画像の解像度とスケールの異なる段階から特徴情報を統合する。 このアプローチは、浅い深さのステージ特徴抽出、二重分岐強化、注意最適化を通じて、複雑な領域における物体のテクスチャや幾何学といった、より物理的な情報を保存する。 実世界の条件下でネットワーク構造をテストするために,様々な構造と材料を持つ複数のオブジェクトを含む,Simple PSデータと呼ばれる新しい実データを提案する。 提案手法は,特に非凸オブジェクト構造の場合において,同数の入力画像に対して,既存の測光ステレオ法よりも優れていることを示す。 また, 照明条件の緩やかな条件下でも良好な結果が得られた。

Predicting accurate normal maps of objects from two-dimensional images in regions of complex structure and spatial material variations is challenging using photometric stereo methods due to the influence of surface reflection properties caused by variations in object geometry and surface materials. To address this issue, we propose a photometric stereo network called a RMAFF-PSN that uses residual multiscale attentional feature fusion to handle the ``difficult'' regions of the object. Unlike previous approaches that only use stacked convolutional layers to extract deep features from the input image, our method integrates feature information from different resolution stages and scales of the image. This approach preserves more physical information, such as texture and geometry of the object in complex regions, through shallow-deep stage feature extraction, double branching enhancement, and attention optimization. To test the network structure under real-world conditions, we propose a new real dataset called Simple PS data, which contains multiple objects with varying structures and materials. Experimental results on a publicly available benchmark dataset demonstrate that our method outperforms most existing calibrated photometric stereo methods for the same number of input images, especially in the case of highly non-convex object structures. Our method also obtains good results under sparse lighting conditions.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 文字位置確率を用いた単語複雑度の評価

Using Letter Positional Probabilities to Assess Word Complexity ( http://arxiv.org/abs/2404.07768v1 )

ライセンス: Link先を確認
Michael Dalvean, (参考訳) 単語の複雑さは、様々な方法で定義されます。 心理言語学、形態学、語彙のプロキシがよく用いられる。 人間の格付けも用いられる。 ここでの問題は、これらのプロキシが直接複雑性を計測せず、人間の評価が主観的偏見の対象となることだ。 本研究では, 単純かつ複雑な単語のサンプルを用いて, ある種の「ラテント複雑性」を近似できることを論じる。 小学校の絵本からの「シンプルな」単語のサンプルと、高校や学界の「複雑な」単語のサンプルを用いる。 これらのクラスの違いを分析するために,文字位置確率(LPP)について検討する。 LPPに基づく単純な単語と複雑な単語の強い統計的関連性を見いだす。 例えば、単純な単語はw, b, s, h, g, k, j,t y あるいは f で始まる傾向が著しく (p<.001) 、複雑な単語は i, a, e, r, v, u, d で始まる傾向が著しく (p<.001) である。 後続の文字位置に関しては同様の強い相関関係がみられ、最初の6位では84の文字位置変数がp<.001レベルで有意である。 次に LPP を変数として2つのクラスを 83% の精度で分類できる分類器を作成する。 両データセットに共通する第1の6つの位置において66個のLPP(p<.001)を有する第2のデータセットを用いてこれらの結果を検証した。 これらの66変数を使用して、第3のデータセットを70%の精度で分類できる分類器を作成します。 最後に、第1の3つのデータセット上に構築された3つの分類器によって生成された極端に高い評価語と低い評価語を組み合わせて第4のサンプルを作成し、このサンプルを使用して精度97%の分類器を構築する。 これを用いて、ESLプログラムから英語の単語群の4つのレベルをスコアリングする。

Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are subject to subjective bias. In this study we contend that some form of 'latent complexity' can be approximated by using samples of simple and complex words. We use a sample of 'simple' words from primary school picture books and a sample of 'complex' words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find a strong statistical association between simple and complex words on the basis of LPPs. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g,k, j,t y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 混合劣化を伴う画像復元のための連成条件拡散モデル

Joint Conditional Diffusion Model for Image Restoration with Mixed Degradations ( http://arxiv.org/abs/2404.07770v1 )

ライセンス: Link先を確認
Yufeng Yue, Meng Yu, Luojie Yang, Yi Yang, (参考訳) 画像復元は、特に複数の劣化が同時に起こる場合、悪天候環境では比較的困難である。 ブラインド画像分解はこの問題に対処するために提案されたが、その有効性は各成分の正確な推定に大きく依存している。 拡散型モデルは画像復元作業において強い生成能力を示すが、劣化した画像がひどく破損した場合に無関係な内容を生成することができる。 これらの問題に対処するため, 大気散乱モデルに基づく混合劣化モデルを構築する際に, 物理的制約を利用して復元過程全体を導出する。 次に, 劣化画像と劣化マスクを組み込んだJCDM(Joint Conditional Diffusion Model)を定式化し, 正確なガイダンスを提供する。 色とディテールの再現性を向上するため,改良ネットワークを統合して復元画像の再構成を行い,不確実性推定ブロック(UEB)を用いて特徴の強化を行う。 マルチウェザーおよび気象特化データセットで行った大規模な実験は、最先端の競合手法よりも本手法が優れていることを示す。

Image restoration is rather challenging in adverse weather conditions, especially when multiple degradations occur simultaneously. Blind image decomposition was proposed to tackle this issue, however, its effectiveness heavily relies on the accurate estimation of each component. Although diffusion-based models exhibit strong generative abilities in image restoration tasks, they may generate irrelevant contents when the degraded images are severely corrupted. To address these issues, we leverage physical constraints to guide the whole restoration process, where a mixed degradation model based on atmosphere scattering model is constructed. Then we formulate our Joint Conditional Diffusion Model (JCDM) by incorporating the degraded image and degradation mask to provide precise guidance. To achieve better color and detail recovery results, we further integrate a refinement network to reconstruct the restored image, where Uncertainty Estimation Block (UEB) is employed to enhance the features. Extensive experiments performed on both multi-weather and weather-specific datasets demonstrate the superiority of our method over state-of-the-art competing methods.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# 拡散モデルの概要:応用, 誘導生成, 統計率, 最適化

An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization ( http://arxiv.org/abs/2404.07771v1 )

ライセンス: Link先を確認
Minshuo Chen, Song Mei, Jianqing Fan, Mengdi Wang, (参考訳) 拡散モデルは強力で普遍的な生成AI技術であり、コンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めている。 これらの応用において、拡散モデルはフレキシブルな高次元データモデリングを提供し、タスク要求特性に対するアクティブガイダンスの下で新しいサンプルを生成するサンプルとして機能する。 実験的な成功にもかかわらず、拡散モデルの理論は非常に限定的であり、拡散モデルをさらに活用し改善するための原則的な方法論の革新を遅らせる可能性がある。 本稿では,拡散モデルの新しい応用を概観し,様々な制御下でのサンプル生成について考察する。 次に、拡散モデルに関する既存の理論を概説し、それらの統計的性質とサンプリング能力について述べる。 条件付き拡散モデルから始まり、条件付き拡散モデルに接続するプログレッシブルーチンを採用する。 さらに, 条件付き拡散モデルによる高次元構造最適化の新たな方法として, 条件付きサンプリング問題として解探索を再構成し, 拡散モデルを用いて解を求める方法を提案する。 最後に,拡散モデルに関する今後の方向性について論じる。 本研究の目的は,前向きな理論や拡散モデルの手法を刺激する理論的露光を提供することである。

Diffusion models, a powerful and universal generative AI technology, have achieved tremendous success in computer vision, audio, reinforcement learning, and computational biology. In these applications, diffusion models provide flexible high-dimensional data modeling, and act as a sampler for generating new samples under active guidance towards task-desired properties. Despite the significant empirical success, theory of diffusion models is very limited, potentially slowing down principled methodological innovations for further harnessing and improving diffusion models. In this paper, we review emerging applications of diffusion models, understanding their sample generation under various controls. Next, we overview the existing theories of diffusion models, covering their statistical properties and sampling capabilities. We adopt a progressive routine, beginning with unconditional diffusion models and connecting to conditional counterparts. Further, we review a new avenue in high-dimensional structured optimization through conditional diffusion models, where searching for solutions is reformulated as a conditional sampling problem and solved by diffusion models. Lastly, we discuss future directions about diffusion models. The purpose of this paper is to provide a well-rounded theoretical exposure for stimulating forward-looking theories and methods of diffusion models.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# ConsistencyDet: 一貫性モデルのパラダイムを記述したロバストオブジェクト検出器

ConsistencyDet: Robust Object Detector with Denoising Paradigm of Consistency Model ( http://arxiv.org/abs/2404.07773v1 )

ライセンス: Link先を確認
Lifan Jiang, Zhihui Wang, Changmiao Wang, Ming Li, Jiaxu Leng, Xindong Wu, (参考訳) オブジェクト検出は、知覚コンピューティングの領域における重要なタスクであり、生成的手法を用いて取り組むことができる。 本研究では,アノテートされたエンティティの摂動境界ボックスで動作する,物体検出を認知拡散プロセスとして記述する新しいフレームワークを提案する。 ConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。 このモデルの目玉は自己整合性(self-consistency)機能であり、任意の時間段階からその原始状態に歪んだ情報をマッピングし、従って '1ステップのデノイング' 機構を実現する。 このような属性はモデルの運用効率を著しく高め、従来の拡散モデルとは分離する。 トレーニングフェーズ全体を通じて、ConsistencyDetは、接地トルースアノテーションから派生したノイズ注入ボックスによる拡散シーケンスを開始し、デノナイジングタスクを実行するようにモデルに条件付ける。 その後、推論段階では、正規分布からランダムにサンプリングされた境界ボックスで開始する復調サンプリング戦略を採用する。 反復的精錬により、モデルは任意に生成された箱の配置を決定的検出に変換する。 MS-COCOやLVISといった標準ベンチマークを用いた総合的な評価は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを裏付けている。

Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on perturbed bounding boxes of annotated entities. This framework, termed ConsistencyDet, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any temporal stage back to its pristine state, thereby realizing a ``one-step denoising'' mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into the definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics.
翻訳日:2024-04-12 13:50:01 公開日:2024-04-11
# Sketch-Plan-Generalize:言語誘導型ロボットマニピュレーションのための帰納的一般化可能な空間概念の連続的なFew-Shot学習

Sketch-Plan-Generalize: Continual Few-Shot Learning of Inductively Generalizable Spatial Concepts for Language-Guided Robot Manipulation ( http://arxiv.org/abs/2404.07774v1 )

ライセンス: Link先を確認
Namasivayam Kalithasan, Sachit Sachdeva, Himanshu Gaurav Singh, Divyanshu Aggarwal, Gurarmaan Singh Panjeta, Vishal Bindal, Arnav Tuli, Rohan Paul, Parag Singla, (参考訳) 我々のゴールは、例えば所定の高さの塔を構築するような連続的な方法で、帰納的に一般化可能な空間概念を学習できるエンボディエージェントを構築することである。 既存の仕事は一定の限界に悩まされる (a)(Liang et al ,2023)とそのマルチモーダル拡張は、先行知識に大きく依存しており、デモンストレーションに基づかない (b) (Liu et al , 2023) は純粋に神経学的アプローチによる一般化能力に欠ける。 鍵となる課題は、一般化する能力を持つ記号表現と、物理的に基底を持つ神経表現との微妙なバランスを達成することである。 そこで本研究では,インダクティブな概念を接地型神経概念よりも象徴的な構成として表現することで,ニューロシンボリックなアプローチを提案する。 我々の重要な洞察は、概念学習問題を次のステップに分解することである。 1)スケッチ:与えられた命令のプログラム表現を得る 2 計画:モデルベースRLを基礎とした脳活動概念の系列上で実行し、基礎的計画を学ぶ。 3) 一般化: 汎用性を促進するために、ジェネリック(リフトされた)Pythonプログラムを抽象化する。 連続学習は、より高いレベルの記号構造を持つ基底的ニューラルネットワーク概念の学習を交互に行うことによって達成される。 提案手法は,新しい概念を学習し,インダクティブに一般化する能力において,既存のベースラインを著しく上回っていることを示す。

Our goal is to build embodied agents that can learn inductively generalizable spatial concepts in a continual manner, e.g, constructing a tower of a given height. Existing work suffers from certain limitations (a) (Liang et al., 2023) and their multi-modal extensions, rely heavily on prior knowledge and are not grounded in the demonstrations (b) (Liu et al., 2023) lack the ability to generalize due to their purely neural approach. A key challenge is to achieve a fine balance between symbolic representations which have the capability to generalize, and neural representations that are physically grounded. In response, we propose a neuro-symbolic approach by expressing inductive concepts as symbolic compositions over grounded neural concepts. Our key insight is to decompose the concept learning problem into the following steps 1) Sketch: Getting a programmatic representation for the given instruction 2) Plan: Perform Model-Based RL over the sequence of grounded neural action concepts to learn a grounded plan 3) Generalize: Abstract out a generic (lifted) Python program to facilitate generalizability. Continual learning is achieved by interspersing learning of grounded neural concepts with higher level symbolic constructs. Our experiments demonstrate that our approach significantly outperforms existing baselines in terms of its ability to learn novel concepts and generalize inductively.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# 時間的表現正規化のための談話型インコンテキスト学習

Discourse-Aware In-Context Learning for Temporal Expression Normalization ( http://arxiv.org/abs/2404.07775v1 )

ライセンス: Link先を確認
Akash Kumar Gautam, Lukas Lange, Jannik Strötgen, (参考訳) 時間的表現(TE)正規化はよく研究されている問題である。 しかし、主に使用されるルールベースのシステムは特定の設定に非常に制限されており、次の機械学習アプローチはラベル付きデータの欠如に悩まされる。 本研究では,TE正規化のためのプロプライエタリかつオープンソースな大規模言語モデル (LLM) の実現可能性について検討する。 サンプル選択戦略を探索し、最も関連性の高いサンプル群を検索する。 ウィンドウベースのプロンプト設計アプローチを用いることで、モデルを訓練することなくLLM知識を活用しながら、文間でTE正規化を行うことができる。 我々の実験は、このタスクのために設計されたモデルに対して、競争結果を示す。 特に,提案手法は,推論中の関連事例を動的に含むことにより,非標準設定に対する大幅な性能向上を実現する。

Temporal expression (TE) normalization is a well-studied problem. However, the predominately used rule-based systems are highly restricted to specific settings, and upcoming machine learning approaches suffer from a lack of labeled data. In this work, we explore the feasibility of proprietary and open-source large language models (LLMs) for TE normalization using in-context learning to inject task, document, and example information into the model. We explore various sample selection strategies to retrieve the most relevant set of examples. By using a window-based prompt design approach, we can perform TE normalization across sentences, while leveraging the LLM knowledge without training the model. Our experiments show competitive results to models designed for this task. In particular, our method achieves large performance improvements for non-standard settings by dynamically including relevant examples during inference.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# ニューラルネットワークの並列活性化に基づく教師なし概念ドリフト検出

Unsupervised Concept Drift Detection based on Parallel Activations of Neural Network ( http://arxiv.org/abs/2404.07776v1 )

ライセンス: Link先を確認
Joanna Komorniczak, Paweł Ksieniewicz, (参考訳) 人工知能の実践的応用は、時間要素を考慮すると、周期性や多かれ少なかれカオス的退化といった現象に直面する、実際のデータのストリーミング特性に対処しなければならないことが多い。 現代のコンセプトドリフト検出器は、ほぼ常にラベルへの即時アクセスを前提としており、そのコスト、可用性の制限、遅延の可能性は非現実的であることが示されている。 この研究は、訓練されていないニューラルネットワークの出力を利用して、その重要な設計要素、処理特性に関する直観、そして最先端の手法との競争性を実証するコンピュータ実験のプールを示す、教師なし並列活性化ドリフト検出器を提案する。

Practical applications of artificial intelligence increasingly often have to deal with the streaming properties of real data, which, considering the time factor, are subject to phenomena such as periodicity and more or less chaotic degeneration - resulting directly in the concept drifts. The modern concept drift detectors almost always assume immediate access to labels, which due to their cost, limited availability and possible delay has been shown to be unrealistic. This work proposes an unsupervised Parallel Activations Drift Detector, utilizing the outputs of an untrained neural network, presenting its key design elements, intuitions about processing properties, and a pool of computer experiments demonstrating its competitiveness with state-of-the-art methods.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# 多項分布を用いたサンプル分割の品質チェック

Quality check of a sample partition using multinomial distribution ( http://arxiv.org/abs/2404.07778v1 )

ライセンス: Link先を確認
Soumita Modak, (参考訳) 本稿では,サンプルのクラスタ分割の品質を複数の異なるクラスに分類する目的で,提案手法を提案する。 本研究の目的は, 各クラスタの代表者から, グループにクラスタ化されたデータメンバーの距離に, 多項分布を適用することによって, アプローチの開発に繋がる。 この手順は各クラスタに対して独立に実施され、関連する統計データを組み合わせて対象の測度を設計する。 個々のクラスタは、典型的なメンバに対して、クラスタ内のメンバの異なる位置に対応するカテゴリワイド確率を、クラスタセントロイド、メドイド、あるいは対応するクラスタ代表と呼ばれるモードの形で別々に保持する。 本手法は, 試料の親分布によらず, 分布自由であるという意味では頑健である。 これは、割り当てられたサンプルが全てのメンバーの1つのグループ以外の固有のクラスタを所有しているかどうかを調べる能力を持つ、既存のクラスタ精度測定に存在している、希少なクレーブされた品質の1つを満たす。 我々の測定の単純な概念、簡単なアルゴリズム、高速な実行、優れた性能、幅広い有用性は、広範囲なシミュレーションと多様なケーススタディを通して証明され、魅力的である。

In this paper, we advocate a novel measure for the purpose of checking the quality of a cluster partition for a sample into several distinct classes, and thus, determine the unknown value for the true number of clusters prevailing the provided set of data. Our objective leads us to the development of an approach through applying the multinomial distribution to the distances of data members, clustered in a group, from their respective cluster representatives. This procedure is carried out independently for each of the clusters, and the concerned statistics are combined together to design our targeted measure. Individual clusters separately possess the category-wise probabilities which correspond to different positions of its members in the cluster with respect to a typical member, in the form of cluster-centroid, medoid or mode, referred to as the corresponding cluster representative. Our method is robust in the sense that it is distribution-free, since this is devised irrespective of the parent distribution of the underlying sample. It fulfills one of the rare coveted qualities, present in the existing cluster accuracy measures, of having the capability to investigate whether the assigned sample owns any inherent clusters other than a single group of all members or not. Our measure's simple concept, easy algorithm, fast runtime, good performance, and wide usefulness, demonstrated through extensive simulation and diverse case-studies, make it appealing.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# PRAM:効率的な視覚的位置認識のための場所認識モデル

PRAM: Place Recognition Anywhere Model for Efficient Visual Localization ( http://arxiv.org/abs/2404.07785v1 )

ライセンス: Link先を確認
Fei Xue, Ignas Budvytis, Roberto Cipolla, (参考訳) 人間は、まず特定のオブジェクトとその空間的関係に定義されたランドマークを認識し、認識されたオブジェクトの詳細な構造とメモリ内のものとを整列させることで、その位置を検証することによって、既知の環境で効率的にローカライズする。 そこで本研究では, 位置認識モデル(PRAM)を用いて, 視覚的位置決めを効率よく行う手法を提案する。 PRAMは認識と登録という2つの主要コンポーネントから構成される。 詳しくは、まず自己監督型の地図中心のランドマーク定義戦略が採用され、屋内または屋外のシーンでユニークなランドマークとして機能する。 次に、画像から抽出されたスパースキーポイントをトランスフォーマーベースのディープニューラルネットワークへの入力として利用してランドマーク認識を行う。 キーポイントと認識されたランドマークラベルは、クエリイメージと3Dランドマークマップの間の登録にさらに使用される。 従来の階層的手法とは異なり、PRAMはグローバルおよびローカルディスクリプタを捨て、90%以上のストレージを削減している。 PRAMは、グローバル参照検索と徹底的なマッチングをそれぞれ置き換えるために、認識とランドマークの検証を利用するため、従来の最先端手法よりも2.4倍高速に動作している。 さらに、PRAMは、多モードローカライゼーション、マップ中心の特徴学習、階層的なシーン座標回帰を含む、視覚的ローカライゼーションのための新しい方向を開く。

Humans localize themselves efficiently in known environments by first recognizing landmarks defined on certain objects and their spatial relationships, and then verifying the location by aligning detailed structures of recognized objects with those in the memory. Inspired by this, we propose the place recognition anywhere model (PRAM) to perform visual localization as efficiently as humans do. PRAM consists of two main components - recognition and registration. In detail, first of all, a self-supervised map-centric landmark definition strategy is adopted, making places in either indoor or outdoor scenes act as unique landmarks. Then, sparse keypoints extracted from images, are utilized as the input to a transformer-based deep neural network for landmark recognition; these keypoints enable PRAM to recognize hundreds of landmarks with high time and memory efficiency. Keypoints along with recognized landmark labels are further used for registration between query images and the 3D landmark map. Different from previous hierarchical methods, PRAM discards global and local descriptors, and reduces over 90% storage. Since PRAM utilizes recognition and landmark-wise verification to replace global reference search and exhaustive matching respectively, it runs 2.4 times faster than prior state-of-the-art approaches. Moreover, PRAM opens new directions for visual localization including multi-modality localization, map-centric feature learning, and hierarchical scene coordinate regression.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# コヒーレンスからの普遍的作業抽出の不合理性:公理的および資源理論的アプローチの再検討

Impossibility of universal work extraction from coherence: Reconciling axiomatic and resource-theory approaches ( http://arxiv.org/abs/2404.07786v1 )

ライセンス: Link先を確認
Samuel Plesnik, Maria Violaris, (参考訳) 我々は、コヒーレンスからの普遍的作業抽出器の不合理性は、すべての関連する量子資源を記述した明示的なプロトコルと、コンストラクタ理論によって課される公理的、情報理論的な制約の異なるアプローチから生じるかを比較する。 まず、コヒーレンスからの普遍的作業抽出器の不合理性は、スケールとダイナミックスに依存しない微分可能性に基づく、最近提案されたコンストラクタ理論の定理によって直接的に示唆されるかを説明する。 そして、コヒーレンスから作業を決定論的に抽出するための提案された量子プロトコルを一般化する不可能性を証明することによって、量子理論におけるこの結果の明示的な実証を行う。 我々は, 量子ホモジェナイザーを用いて, 普遍的作業抽出器の不合理性とコンストラクタに基づく不可逆性との新たな関係を実証した。 最後に,作業抽出のコンストラクタ理論的定式化を量子熱力学に適用するための追加の道について論じる。

We compare how the impossibility of a universal work extractor from coherence arises from different approaches to quantum thermodynamics: an explicit protocol accounting for all relevant quantum resources, and axiomatic, information-theoretic constraints imposed by constructor theory. We first explain how the impossibility of a universal work extractor from coherence is directly implied by a recently proposed constructor-theoretic theorem based on distinguishability, which is scale- and dynamics- independent. Then we give an explicit demonstration of this result within quantum theory, by proving the impossibility of generalising a proposed quantum protocol for deterministically extracting work from coherence. We demonstrate a new connection between the impossibility of universal work extractors and constructor-based irreversibility, which was recently shown using the quantum homogenizer. Finally we discuss additional avenues for applying the constructor-theoretic formulation of work extraction to quantum thermodynamics, including the irreversibility of quantum computation and thermodynamics of multiple conserved quantities.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# AUG: 航空画像都市景観グラフ生成のための新しいデータセットと効率的なモデル

AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation ( http://arxiv.org/abs/2404.07788v1 )

ライセンス: Link先を確認
Yansheng Li, Kun Li, Yongjun Zhang, Linlin Wang, Dingwen Zhang, (参考訳) シーングラフ生成(SGG)は、ある画像から視覚オブジェクトとその意味的関係を理解することを目的としている。 これまで、アイレベルビューを持つ多くのSGGデータセットがリリースされたが、オーバーヘッドビューを持つSGGデータセットはほとんど研究されていない。 SGGを阻害する視線レベルの物体隠蔽問題とは対照的に、頭上ビューは、地上の物体の空間的関係を明確に認識することで、SGGを促進できる新しい視点を提供する。 オーバヘッドビューデータセットのギャップを埋めるために,本稿では,AUGデータセットを構築し,公開する。 AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。 AUGデータセットでは、25,594のオブジェクト、16,970の関係、27,175の属性が手動で注釈付けされている。 本稿では,複雑な都市環境において局所的な状況が過大評価されるのを避けるため,新たな局所性保存グラフ畳み込みネットワーク(LPG)を提案する。 SGGのグローバルコンテキストを捉えるという自然な利点を持つ従来のグラフ畳み込みネットワークとは異なり、LPGの畳み込み層は、オブジェクトの非破壊的な初期特徴を動的に更新された周辺情報と統合し、グローバルコンテキストをマイニングする前提の下でローカルコンテキストを保存する。 AUGでは, 潜在的関係対が多数存在するが, 少数しか意味を持たない問題に対処するため, 無意味な関係対をインテリジェントに引き起こすために, 潜在的関係検出(ABS-PRD)のための適応的境界ボックススケーリング係数を提案する。 AUGデータセットの大規模な実験により,我々のLPGは最先端の手法と提案した局所性保存戦略の有効性を大きく上回っていることがわかった。

Scene graph generation (SGG) aims to understand the visual objects and their semantic relationships from one given image. Until now, lots of SGG datasets with the eyelevel view are released but the SGG dataset with the overhead view is scarcely studied. By contrast to the object occlusion problem in the eyelevel view, which impedes the SGG, the overhead view provides a new perspective that helps to promote the SGG by providing a clear perception of the spatial relationships of objects in the ground scene. To fill in the gap of the overhead view dataset, this paper constructs and releases an aerial image urban scene graph generation (AUG) dataset. Images from the AUG dataset are captured with the low-attitude overhead view. In the AUG dataset, 25,594 objects, 16,970 relationships, and 27,175 attributes are manually annotated. To avoid the local context being overwhelmed in the complex aerial urban scene, this paper proposes one new locality-preserving graph convolutional network (LPG). Different from the traditional graph convolutional network, which has the natural advantage of capturing the global context for SGG, the convolutional layer in the LPG integrates the non-destructive initial features of the objects with dynamically updated neighborhood information to preserve the local context under the premise of mining the global context. To address the problem that there exists an extra-large number of potential object relationship pairs but only a small part of them is meaningful in AUG, we propose the adaptive bounding box scaling factor for potential relationship detection (ABS-PRD) to intelligently prune the meaningless relationship pairs. Extensive experiments on the AUG dataset show that our LPG can significantly outperform the state-of-the-art methods and the effectiveness of the proposed locality-preserving strategy.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# 大規模活動ベースおよび動的交通割当モデルの統合のための平衡探索アルゴリズム

An equilibrium-seeking search algorithm for integrating large-scale activity-based and dynamic traffic assignment models ( http://arxiv.org/abs/2404.07789v1 )

ライセンス: Link先を確認
Serio Agriesti, Claudio Roncoli, Bat-hen Nahmias-Biran, (参考訳) 本稿では,大規模行動行動ベースモデルと動的トラフィック代入モデルを統合するための反復手法を提案する。 提案手法の主な特徴は2つの部分の分離であり、仮定が満たされる限り、既存のモデルのポスト統合を可能にする。 誤差の尺度は、その境界内で容易に探索可能な探索空間を特徴付けるために定義される。 その内において、旅行数と旅行時間の合同分布を平衡分布、すなわち、旅行数と旅行時間とが供給と需要の平衡の近傍に束縛されている分布と同定する。 提案手法は, 人口40,000人の中規模都市で試行され, 提案手法は需要と供給の均衡に到達し, 摂動技術により限られた回数の反復に到達することが示唆された。 全体として、エラーの測定値が10%未満になるには、15のイテレーションが必要である。 この方法で同定された平衡は、その結果の良さを示すためにベースライン分布に対して検証される。

This paper proposes an iterative methodology to integrate large-scale behavioral activity-based models with dynamic traffic assignment models. The main novelty of the proposed approach is the decoupling of the two parts, allowing the ex-post integration of any existing model as long as certain assumptions are satisfied. A measure of error is defined to characterize a search space easily explorable within its boundaries. Within it, a joint distribution of the number of trips and travel times is identified as the equilibrium distribution, i.e., the distribution for which trip numbers and travel times are bound in the neighborhood of the equilibrium between supply and demand. The approach is tested on a medium-sized city of 400,000 inhabitants and the results suggest that the proposed iterative approach does perform well, reaching equilibrium between demand and supply in a limited number of iterations thanks to its perturbation techniques. Overall, 15 iterations are needed to reach values of the measure of error lower than 10%. The equilibrium identified this way is then validated against baseline distributions to demonstrate the goodness of the results.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# VIFNet:画像デハージングのためのエンドツーエンド可視赤外融合ネットワーク

VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing ( http://arxiv.org/abs/2404.07790v1 )

ライセンス: Link先を確認
Meng Yu, Te Cui, Haoyang Lu, Yufeng Yue, (参考訳) イメージデハジングは環境認識において重要な課題である。 近年の研究では, シングルモーダルの深層学習に基づく手法が注目されているが, 特に密集環境のシナリオでは, 深刻な情報損失が生じる可能性がある。 赤外画像は、迷路に対して堅牢性を示すが、既存の手法では、主に赤外線モダリティを補助的な情報として扱い、デハジングにおいてその豊富な情報を十分に探索することができない。 この課題に対処するために、この研究の重要な洞察は、画像デハージングのための可視赤外線融合ネットワークを設計することである。 特に,Channel-Pixel Attention Block (CPAB) を組み込んだマルチスケールのDeep Structure Feature extract (DSFE) モジュールを提案する。 さらに、より信頼性の高い情報を活用することにより、2つのモードをマージする不整合重み付き核融合戦略を導入する。 これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。 実画像とシミュレーション画像のデータセットに挑戦して行われた大規模な実験は、VIFNetが多くの最先端競合手法より優れていることを示した。 コードとデータセットはhttps://github.com/mengyu212/VIFNet_dehazing.comで公開されている。

Image dehazing poses significant challenges in environmental perception. Recent research mainly focus on deep learning-based methods with single modality, while they may result in severe information loss especially in dense-haze scenarios. The infrared image exhibits robustness to the haze, however, existing methods have primarily treated the infrared modality as auxiliary information, failing to fully explore its rich information in dehazing. To address this challenge, the key insight of this study is to design a visible-infrared fusion network for image dehazing. In particular, we propose a multi-scale Deep Structure Feature Extraction (DSFE) module, which incorporates the Channel-Pixel Attention Block (CPAB) to restore more spatial and marginal information within the deep structural features. Additionally, we introduce an inconsistency weighted fusion strategy to merge the two modalities by leveraging the more reliable information. To validate this, we construct a visible-infrared multimodal dataset called AirSim-VID based on the AirSim simulation platform. Extensive experiments performed on challenging real and simulated image datasets demonstrate that VIFNet can outperform many state-of-the-art competing methods. The code and dataset are available at https://github.com/mengyu212/VIFNet_dehazing.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# EvaLatin 2024のNostra Domina:データ拡張によるラテンポラリティ検出の改善

Nostra Domina at EvaLatin 2024: Improving Latin Polarity Detection through Data Augmentation ( http://arxiv.org/abs/2404.07792v1 )

ライセンス: Link先を確認
Stephen Bothwell, Abigail Swenor, David Chiang, (参考訳) 本稿では,感情極性検出のタスクであるEvaLatin 2024に対するNostra Dominaチームからの投稿について述べる。 ラテン語の低リソース環境と詩のような修辞的なジャンルの感情の複雑さを考えると、我々は自動的な極性アノテーションを通じて利用可能なデータを拡張します。 我々は、$k$-meansアルゴリズムに基づく2つの手法を提案し、ニューラルネットワークにおいて様々なラテン大言語モデル(LLM)を用いて、基礎となる文脈的感情表現をよりよく捉える。 我々のベストアプローチは、共有タスクのテストセットで2番目に高いマクロ平均値F_1$スコアを達成した。

This paper describes submissions from the team Nostra Domina to the EvaLatin 2024 shared task of emotion polarity detection. Given the low-resource environment of Latin and the complexity of sentiment in rhetorical genres like poetry, we augmented the available data through automatic polarity annotation. We present two methods for doing so on the basis of the $k$-means algorithm, and we employ a variety of Latin large language models (LLMs) in a neural architecture to better capture the underlying contextual sentiment representations. Our best approach achieved the second highest macro-averaged Macro-$F_1$ score on the shared task's test set.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# DGMamba: 汎用状態空間モデルによるドメインの一般化

DGMamba: Domain Generalization via Generalized State Space Model ( http://arxiv.org/abs/2404.07794v1 )

ライセンス: Link先を確認
Shaocong Long, Qianyu Zhou, Xiangtai Li, Xuequan Lu, Chenhao Ying, Yuan Luo, Lizhuang Ma, Shuicheng Yan, (参考訳) ドメイン一般化~(DG)は,様々な場面における分布シフト問題を解決することを目的としている。 既存のアプローチは畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)をベースとしている。 Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。 これにもかかわらず、隠れた状態問題や不適切なスキャン機構のため、DGに分散シフトに対処することは困難である。 本稿では,DGMamba という新たな DG フレームワークを提案する。DGMamba は未確認領域に対して強い一般化性を持ち,一方,大域的受容場と効率的な線形複雑性の利点がある。 我々のDGMambaは、Hedden State Suppressing~(HSS)とSemantic-aware Patch Refining~(SPR)の2つのコアコンポーネントを妥協します。 特に、HSSは、出力予測中にドメイン固有の特徴に関連する隠れ状態の影響を軽減するために導入された。 SPRは、プリエント・フリー・スキャン~(PFS)とドメイン・コンテキスト・インターチェンジ~(DCI)の2つの設計からなる、コンテキストよりもオブジェクトにもっと集中するようモデルに促そうとしている。 具体的には、PFSはイメージ内の非セマンティックパッチをシャッフルし、画像からより柔軟で効果的なシーケンスを生成することを目的としており、DCIはドメイン間のパッチを融合することで、ミスマッチした非セマンティックおよびセマンティック情報の組み合わせでマンバを正規化するように設計されている。 4つの一般的なDGベンチマークの大規模な実験により、提案されたDGMambaは最先端モデルよりもはるかに優れた結果が得られることが示された。 コードは公開されます。

Domain generalization~(DG) aims at solving distribution shift problems in various scenes. Existing approaches are based on Convolution Neural Networks (CNNs) or Vision Transformers (ViTs), which suffer from limited receptive fields or quadratic complexities issues. Mamba, as an emerging state space model (SSM), possesses superior linear complexity and global receptive fields. Despite this, it can hardly be applied to DG to address distribution shifts, due to the hidden state issues and inappropriate scan mechanisms. In this paper, we propose a novel framework for DG, named DGMamba, that excels in strong generalizability toward unseen domains and meanwhile has the advantages of global receptive fields, and efficient linear complexity. Our DGMamba compromises two core components: Hidden State Suppressing~(HSS) and Semantic-aware Patch refining~(SPR). In particular, HSS is introduced to mitigate the influence of hidden states associated with domain-specific features during output prediction. SPR strives to encourage the model to concentrate more on objects rather than context, consisting of two designs: Prior-Free Scanning~(PFS), and Domain Context Interchange~(DCI). Concretely, PFS aims to shuffle the non-semantic patches within images, creating more flexible and effective sequences from images, and DCI is designed to regularize Mamba with the combination of mismatched non-semantic and semantic information by fusing patches among domains. Extensive experiments on four commonly used DG benchmarks demonstrate that the proposed DGMamba achieves remarkably superior results to state-of-the-art models. The code will be made publicly available.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# Twitterでの不正プロモーション

Illicit Promotion on Twitter ( http://arxiv.org/abs/2404.07797v1 )

ライセンス: Link先を確認
Hongyu Wang, Ying Li, Ronghong Huang, Xianghang Mi, (参考訳) 本稿では、人気のあるオンラインソーシャルネットワーク(OSN)であるTwitter上で、不正商品・サービスの促進に関する広範な研究について述べる。 本研究は,不正なプロモーション活動の検出と分析を行う複数の新しいツールの設計と実装,およびその基盤となるキャンペーンを通じて実現されている。 その結果、Twitter上では違法なプロモーションが一般的であり、Youtube、Facebook、TikTokなど、他の3つの人気OSNにも顕著に存在していることが判明した。 特に、Twitterプラットフォーム上では、不正プロモーション(PIP)の投稿が1200万件報告されている。この投稿は5つの主要な自然言語と、10種類の違法商品やサービス、例えば薬物、データ漏洩、ギャンブル、武器販売に広く分布している。 また、PIPを発行する580万のTwitterアカウントと、PIPに埋め込まれ、次の通信のホップとして機能する37万のインスタントメッセージング(IM)アカウントも観察されている。 また、Twitterと不正なプロモーションオペレーターとの武器競争も観察されている。 一方、Twitterはコンテンツモデレーションを継続的に行うことが観察されており、投稿から6ヶ月以内にほぼ80%のPIPが徐々に公開されなくなる。 しかし、その間、ミスクリートは様々な回避戦術を駆使し、9割以上のPIPを検知レーダーから2ヶ月以上隠蔽する。

In this paper, we present an extensive study of the promotion of illicit goods and services on Twitter, a popular online social network(OSN). This study is made possible through the design and implementation of multiple novel tools for detecting and analyzing illicit promotion activities as well as their underlying campaigns. As the results, we observe that illicit promotion is prevalent on Twitter, along with noticeable existence on other three popular OSNs including Youtube, Facebook, and TikTok. Particularly, 12 million distinct posts of illicit promotion (PIPs) have been observed on the Twitter platform, which are widely distributed in 5 major natural languages and 10 categories of illicit goods and services, e.g., drugs, data leakage, gambling, and weapon sales. What are also observed are 580K Twitter accounts publishing PIPs as well as 37K distinct instant messaging (IM) accounts that are embedded in PIPs and serve as next hops of communication, which strongly indicates that the campaigns underpinning PIPs are also of a large scale. Also, an arms race between Twitter and illicit promotion operators is also observed. On one hand, Twitter is observed to conduct content moderation in a continuous manner and almost 80% PIPs will get gradually unpublished within six months since posted. However, in the meantime, miscreants adopt various evasion tactics to masquerade their PIPs, which renders more than 90% PIPs keeping hidden from the detection radar for two months or longer.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# 雑音量子コンピュータとスケーラブルな古典的ディープラーニングの相乗効果

Synergy between noisy quantum computers and scalable classical deep learning ( http://arxiv.org/abs/2404.07802v1 )

ライセンス: Link先を確認
Simone Cantori, Andrea Mari, David Vitali, Sebastiano Pilati, (参考訳) ノイズの多い量子コンピュータと古典的スケーラブル畳み込みニューラルネットワーク(CNN)の計算能力を組み合わせる可能性について検討する。 目標は、量子イジングモデルのトロッター分解力学を表すパラメータ化量子回路の正確な期待値を正確に予測することである。 回路構造情報とともにノイズ予測値を(シミュレーション)することにより、回路アーキテクチャと出力動作の基盤となる関係を効果的に把握し、トレーニングセットに含まれるものよりも多くの量子ビットを持つ回路の予測を可能にする。 特に、量子情報のおかげで、古典的な記述子のみに基づく教師付き学習が失敗しても、私たちのCNNは成功します。 さらに、量子計算ツールと古典計算ツールの相乗効果が量子のみまたは古典のみのアプローチよりも高い精度をもたらすことを示すため、ゼロノイズ外挿法という一般的な誤り軽減スキームよりも優れている。 ノイズ強度を調整することにより、量子ノイズデータによって補助される計算力の高い古典的CNNから、より正確な量子計算へ、さらに古典的な深層学習を通じてエラーを軽減したクロスオーバーを探索する。

We investigate the potential of combining the computational power of noisy quantum computers and of classical scalable convolutional neural networks (CNNs). The goal is to accurately predict exact expectation values of parameterized quantum circuits representing the Trotter-decomposed dynamics of quantum Ising models. By incorporating (simulated) noisy expectation values alongside circuit structure information, our CNNs effectively capture the underlying relationships between circuit architecture and output behaviour, enabling predictions for circuits with more qubits than those included in the training set. Notably, thanks to the quantum information, our CNNs succeed even when supervised learning based only on classical descriptors fails. Furthermore, they outperform a popular error mitigation scheme, namely, zero-noise extrapolation, demonstrating that the synergy between quantum and classical computational tools leads to higher accuracy compared with quantum-only or classical-only approaches. By tuning the noise strength, we explore the crossover from a computationally powerful classical CNN assisted by quantum noisy data, towards rather precise quantum computations, further error-mitigated via classical deep learning.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# 畳み込みニューラルネットワークを用いた音声支援リアルタイム交通信号認識システム

Voice-Assisted Real-Time Traffic Sign Recognition System Using Convolutional Neural Network ( http://arxiv.org/abs/2404.07807v1 )

ライセンス: Link先を確認
Mayura Manawadu, Udaya Wijenayake, (参考訳) 交通標識はドライバーに情報を伝える上で重要である。 したがって、道路の安全と無知のためには交通標識の理解が不可欠であり、道路事故が発生する可能性がある。 過去数十年間、交通標識検出は研究のスポットライトだった。 リアルタイムかつ正確な検出は、まだ達成されていないロバストな信号検出システムの予備機能である。 本研究では,運転者を支援する音声支援リアルタイム交通信号認識システムを提案する。 このシステムは2つのサブシステムの下で機能する。 最初は、訓練された畳み込みニューラルネットワーク(CNN)を用いて、交通標識の検出と認識を行う。 特定の交通標識を認識した後、テキスト音声エンジンを用いてドライバに音声メッセージとしてナレーションする。 ディープラーニング技術を用いたリアルタイム検出と認識のために,ベンチマークデータセットの効率的なCNNモデルを開発した。 このシステムの利点は、運転者が信号機を見逃したり、信号機を見なかったり、信号機を理解できなかったりしても、システムはそれを検知して運転者に伝えてしまうことである。 このタイプのシステムは、自動運転車の開発においても重要である。

Traffic signs are important in communicating information to drivers. Thus, comprehension of traffic signs is essential for road safety and ignorance may result in road accidents. Traffic sign detection has been a research spotlight over the past few decades. Real-time and accurate detections are the preliminaries of robust traffic sign detection system which is yet to be achieved. This study presents a voice-assisted real-time traffic sign recognition system which is capable of assisting drivers. This system functions under two subsystems. Initially, the detection and recognition of the traffic signs are carried out using a trained Convolutional Neural Network (CNN). After recognizing the specific traffic sign, it is narrated to the driver as a voice message using a text-to-speech engine. An efficient CNN model for a benchmark dataset is developed for real-time detection and recognition using Deep Learning techniques. The advantage of this system is that even if the driver misses a traffic sign, or does not look at the traffic sign, or is unable to comprehend the sign, the system detects it and narrates it to the driver. A system of this type is also important in the development of autonomous vehicles.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# MultiLS-SP/CA:カタルーニャとスペインにおける語彙複雑度予測と語彙単純化資源

MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish ( http://arxiv.org/abs/2404.07814v1 )

ライセンス: Link先を確認
Stefan Bott, Horacio Saggion, Nelson Peréz Rojas, Martin Solis Salazar, Saul Calderon Ramirez, (参考訳) 自動語彙単純化は、不慣れで理解し難い語彙を、より分かりやすくより一般的な言葉で置き換える作業である。 本稿では,スペイン語とカタルーニャ語における語彙単純化のための新しいデータセットであるMultiLS-SP/CAを提案する。 このデータセットは、カタルーニャで最初の種類のものであり、スペイン語で利用可能な自動語彙の単純化に関するスパースデータに相当量の追加である。 特に、MultiLS-SPは、語彙項目の理解の難しさのスカラー評価を含む、スペイン語の最初のデータセットである。 さらに、このデータセットによる実験について述べる。これは、同じデータに対する将来の作業のベースラインとして機能する。

Automatic lexical simplification is a task to substitute lexical items that may be unfamiliar and difficult to understand with easier and more common words. This paper presents MultiLS-SP/CA, a novel dataset for lexical simplification in Spanish and Catalan. This dataset represents the first of its kind in Catalan and a substantial addition to the sparse data on automatic lexical simplification which is available for Spanish. Specifically, MultiLS-SP is the first dataset for Spanish which includes scalar ratings of the understanding difficulty of lexical items. In addition, we describe experiments with this dataset, which can serve as a baseline for future work on the same data.
翻訳日:2024-04-12 13:40:16 公開日:2024-04-11
# ホック後の逆転: モデルの選択は時期尚早か?

Post-Hoc Reversal: Are We Selecting Models Prematurely? ( http://arxiv.org/abs/2404.07815v1 )

ライセンス: Link先を確認
Rishabh Ranjan, Saurabh Garg, Mrigank Raman, Carlos Guestrin, Zachary Chase Lipton, (参考訳) トレーニングされたモデルは、しばしば、パフォーマンス、堅牢性、不確実性推定などを改善するために、温度スケーリング(TS)、エンハンブル、確率的ウェイト平均化(SWA)などのポストホット変換で構成される。 しかし、そのような変換は通常、基本モデルが既に標準手段で確定した後のみ適用される。 本稿では,この実践に対して,広範な実証的研究を施して挑戦する。 特に,ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。 この現象は特に高音域で顕著である。 例えば、ベースモデルは訓練の初期段階では過度に適合するが、従来のアンサンブルとSWAはどちらもよりエポックに訓練されたベースモデルを好む。 ポストホック逆転はまた、二重降下の出現を抑制し、ベースモデルに見られるテスト損失とテストエラーのミスマッチを軽減する。 そこで本研究では,ポストホック選択(post-hoc selection)を提案する。これは,ポストホックメトリクスが早期停止,チェックポイント,広範囲なハイパーパラメータ選択などのモデル開発決定を通知する簡単な手法である。 我々の実験分析は、衛星画像、言語モデリング、国勢調査予測、ソーシャルネットワーク分析などの領域から、実世界のビジョン、言語、表、グラフのデータセットにまたがる。 LLMインストラクションチューニングデータセットでは、ポストホック選択は単純選択に比べて1.5倍MMLU改善する。 コードはhttps://github.com/rishabh-ranjan/post-hoc-reversal.comで公開されている。

Trained models are often composed with post-hoc transforms such as temperature scaling (TS), ensembling and stochastic weight averaging (SWA) to improve performance, robustness, uncertainty estimation, etc. However, such transforms are typically applied only after the base models have already been finalized by standard means. In this paper, we challenge this practice with an extensive empirical study. In particular, we demonstrate a phenomenon that we call post-hoc reversal, where performance trends are reversed after applying these post-hoc transforms. This phenomenon is especially prominent in high-noise settings. For example, while base models overfit badly early in training, both conventional ensembling and SWA favor base models trained for more epochs. Post-hoc reversal can also suppress the appearance of double descent and mitigate mismatches between test loss and test error seen in base models. Based on our findings, we propose post-hoc selection, a simple technique whereby post-hoc metrics inform model development decisions such as early stopping, checkpointing, and broader hyperparameter choices. Our experimental analyses span real-world vision, language, tabular and graph datasets from domains like satellite imaging, language modeling, census prediction and social network analysis. On an LLM instruction tuning dataset, post-hoc selection results in > 1.5x MMLU improvement compared to naive selection. Code is available at https://github.com/rishabh-ranjan/post-hoc-reversal.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# 連続学習モデルの校正

Calibration of Continual Learning Models ( http://arxiv.org/abs/2404.07817v1 )

ライセンス: Link先を確認
Lanpei Li, Elia Piccoli, Andrea Cossu, Davide Bacciu, Vincenzo Lomonaco, (参考訳) 連続学習(CL)は、非定常データストリームにわたるモデルの予測性能の最大化に重点を置いている。 残念ながら、CLモデルは以前の知識を忘れる傾向があるため、データストリーム全体を共同でトレーニングしたオフラインモデルと比較すると、しばしばパフォーマンスが低下する。 どんなCLモデルでも最終的にミスを犯すことを考えると、キャリブレーションされたCLモデルを構築することが重要である。 モデルキャリブレーションは機械学習において活発な研究テーマであるが、CLでは適切に研究されていない。 CLにおけるキャリブレーションアプローチの挙動に関する最初の実証的研究を行い、CL戦略が本質的にキャリブレーションモデルを学習しないことを示す。 この問題を軽減するために,さまざまなベンチマークやCL戦略を用いて,後処理キャリブレーション手法の性能を向上させるための連続キャリブレーション手法を設計する。 CLは必ずしも完全な予測モデルを必要としないが、信頼性のある予測モデルの恩恵を受けることができる。 連続キャリブレーションの研究は、この方向への第一歩だと我々は信じている。

Continual Learning (CL) focuses on maximizing the predictive performance of a model across a non-stationary stream of data. Unfortunately, CL models tend to forget previous knowledge, thus often underperforming when compared with an offline model trained jointly on the entire data stream. Given that any CL model will eventually make mistakes, it is of crucial importance to build calibrated CL models: models that can reliably tell their confidence when making a prediction. Model calibration is an active research topic in machine learning, yet to be properly investigated in CL. We provide the first empirical study of the behavior of calibration approaches in CL, showing that CL strategies do not inherently learn calibrated models. To mitigate this issue, we design a continual calibration approach that improves the performance of post-processing calibration methods over a wide range of different benchmarks and CL strategies. CL does not necessarily need perfect predictive models, but rather it can benefit from reliable predictive models. We believe our study on continual calibration represents a first step towards this direction.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# スパースレーンフォーマー

Sparse Laneformer ( http://arxiv.org/abs/2404.07821v1 )

ライセンス: Link先を確認
Ji Liu, Zifeng Zhang, Mingjie Lu, Hongyang Wei, Dong Li, Yile Xie, Jinzhang Peng, Lu Tian, Ashish Sirasao, Emad Barsoum, (参考訳) レーン検出は自動運転の基本課題であり、ディープラーニングが出現するにつれて大きな進歩を遂げた。 従来のアンカーベースの手法は、トレーニングデータセットに大きく依存し、推論中に固定される密集型アンカーを設計することが多い。 レーン検出に高密度アンカーは必要ないことを解析し,スパースアンカー機構に基づく変圧器を用いたレーン検出フレームワークを提案する。 この目的のために、従来の明示的なアンカーの代わりに、位置対応レーンクエリと角度クエリを備えたスパースアンカーを生成する。 我々は水平方向に沿ってレーンの特徴を集約するために水平知覚注意(HPA)を採用し、レーン-角度交差注意(LACA)を採用してレーンクエリと角度クエリ間の相互作用を行う。 また、変形可能な横断的注意に基づく車線知覚注意(LPA)を提案し、車線予測をさらに洗練させる。 提案手法はSparse Laneformerと呼ばれ,実装が容易でエンドツーエンドのトレーニングが可能である。 Sparse Laneformerは最先端の手法、例えばLaneformerを3.0%F1スコアで上回り、O2SFormerを0.7%F1スコアで上回り、同じResNet-34バックボーンを持つCULane上のMACは少ない。

Lane detection is a fundamental task in autonomous driving, and has achieved great progress as deep learning emerges. Previous anchor-based methods often design dense anchors, which highly depend on the training dataset and remain fixed during inference. We analyze that dense anchors are not necessary for lane detection, and propose a transformer-based lane detection framework based on a sparse anchor mechanism. To this end, we generate sparse anchors with position-aware lane queries and angle queries instead of traditional explicit anchors. We adopt Horizontal Perceptual Attention (HPA) to aggregate the lane features along the horizontal direction, and adopt Lane-Angle Cross Attention (LACA) to perform interactions between lane queries and angle queries. We also propose Lane Perceptual Attention (LPA) based on deformable cross attention to further refine the lane predictions. Our method, named Sparse Laneformer, is easy-to-implement and end-to-end trainable. Extensive experiments demonstrate that Sparse Laneformer performs favorably against the state-of-the-art methods, e.g., surpassing Laneformer by 3.0% F1 score and O2SFormer by 0.7% F1 score with fewer MACs on CULane with the same ResNet-34 backbone.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# Heron-Bench: 日本語の視覚言語モデル評価ベンチマーク

Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese ( http://arxiv.org/abs/2404.07824v1 )

ライセンス: Link先を確認
Yuichi Inoue, Kento Sasaki, Yuma Ochi, Kazuki Fujii, Kotaro Tanahashi, Yu Yamaguchi, (参考訳) 視覚言語モデル(VLM)は急速な進化を遂げ、マルチモーダル理解タスクの領域において大きな進歩をもたらした。 しかし、これらのモデルの大部分は英語中心のデータセットで訓練・評価されており、日本語など他の言語でのVLMの開発と評価にギャップが残されている。 このギャップは、VLMを構築するための方法論の欠如と、その性能を正確に測定するベンチマークの欠如に起因している。 この問題に対処するため,本研究では,VLMの日本語能力を評価するための新しいベンチマークである日本語 Heron-Bench を提案する。 日本語のヘロン・ベンチは、日本語の文脈に合わせて様々な画像検索応答ペアで構成されている。 さらに,日本語の視覚指導訓練データセットをベースラインとした日本語VLMを提案する。 我々のヘロン・ベンチは、様々な能力次元にわたって提案されたVLMの強さと限界を明らかにする。 さらに,GPT-4Vのような強閉モデルとベースラインモデルとの能力ギャップを明らかにし,今後の研究に有用な知見を提供する。 本稿では,日本のVLM研究におけるさらなる発展を促進するため,ベンチマークデータセットとトレーニングコードをリリースする。

Vision Language Models (VLMs) have undergone a rapid evolution, giving rise to significant advancements in the realm of multimodal understanding tasks. However, the majority of these models are trained and evaluated on English-centric datasets, leaving a gap in the development and evaluation of VLMs for other languages, such as Japanese. This gap can be attributed to the lack of methodologies for constructing VLMs and the absence of benchmarks to accurately measure their performance. To address this issue, we introduce a novel benchmark, Japanese Heron-Bench, for evaluating Japanese capabilities of VLMs. The Japanese Heron-Bench consists of a variety of imagequestion answer pairs tailored to the Japanese context. Additionally, we present a baseline Japanese VLM that has been trained with Japanese visual instruction tuning datasets. Our Heron-Bench reveals the strengths and limitations of the proposed VLM across various ability dimensions. Furthermore, we clarify the capability gap between strong closed models like GPT-4V and the baseline model, providing valuable insights for future research in this domain. We release the benchmark dataset and training code to facilitate further developments in Japanese VLM research.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# 格子幾何学からのヒルベルト空間の断片化

Hilbert space fragmentation from lattice geometry ( http://arxiv.org/abs/2404.07825v1 )

ライセンス: Link先を確認
Pieter H. Harkema, Michael Iversen, Anne E. B. Nielsen, (参考訳) 固有状態熱化仮説は、孤立した多体量子系がどのように熱平衡に達するかを記述する。 しかし、量子多体傷やヒルベルト空間の断片化はこの仮説に反し、非熱的挙動を引き起こす。 ヒルベルト空間の断片化は、領域壁の数を保存するスピン-1/2モデルの格子幾何学から生じる可能性があることを実証する。 我々は、既知の一次元スカーレッドモデルをより大きな次元に一般化し、このモデルが任意の生成のヴィエクフラクタル格子上にヒルベルト空間の断片化を示すことを示す。 モンテカルロ法を用いて、ドメイン壁の数が最大値に近い場合、モデルはヴィエクフラクタル格子上で強く断片化されていると特徴づけられる。 モデルでは,第2世代ヘキサフレークフラクタル格子,2次元格子,修正2次元格子上に,ヒルベルト空間のフラグメンテーションに類似したシグネチャを表示する。 本研究では,局所観測装置の自己相関関数について検討し,非熱的ダイナミクスを示すことを示す。

The eigenstate thermalization hypothesis describes how isolated many-body quantum systems reach thermal equilibrium. However, quantum many-body scars and Hilbert space fragmentation violate this hypothesis and cause nonthermal behavior. We demonstrate that Hilbert space fragmentation may arise from lattice geometry in a spin-1/2 model that conserves the number of domain walls. We generalize a known, one-dimensional, scarred model to larger dimensions and show that this model displays Hilbert space fragmentation on the Vicsek fractal lattice of arbitrary generation. Using Monte Carlo methods, the model is characterized as strongly fragmented on the Vicsek fractal lattice when the number of domain walls is either small or close to the maximal value. We show that the model displays signatures similar to Hilbert space fragmentation on the second-generation hexaflake fractal lattice, the two-dimensional lattice, and a modified two-dimensional lattice. We study the autocorrelation function of local observables and demonstrate that the model displays nonthermal dynamics.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# 強化学習における抽象化のサンプル効率と電位ベース逆整形について

On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning ( http://arxiv.org/abs/2404.07826v1 )

ライセンス: Link先を確認
Giuseppe Canonaco, Leo Ardon, Alberto Pozanco, Daniel Borrajo, (参考訳) PBRS(Posion Based Reward Shaping)の使用は、RL(Reinforcement Learning)におけるサンプルの非効率化に取り組む研究において、大きな可能性を秘めている。 しかし、この手法が有効であるためには、ポテンシャル関数の選択が不可欠である。 加えて、RL法は通常、有限地平線を計算上の制限に使用するよう制約される。 これはPBRSを使用する際のバイアスを導入し、さらなる複雑さの層を追加します。 本稿では,抽象化を利用して「良い」ポテンシャル関数を自動生成する。 我々はPBRSの文脈で有限地平線によって引き起こされるバイアスを解析し、新しい洞察を生み出す。 最後に,目標指向のナビゲーションタスクと3つのアーケード学習環境(ALE)ゲームを含む4つの環境において,CNNベースの単純な完全接続ネットワークによるソリューションと同等の性能が得られることを示す。

The use of Potential Based Reward Shaping (PBRS) has shown great promise in the ongoing research effort to tackle sample inefficiency in Reinforcement Learning (RL). However, the choice of the potential function is critical for this technique to be effective. Additionally, RL techniques are usually constrained to use a finite horizon for computational limitations. This introduces a bias when using PBRS, thus adding an additional layer of complexity. In this paper, we leverage abstractions to automatically produce a "good" potential function. We analyse the bias induced by finite horizons in the context of PBRS producing novel insights. Finally, to asses sample efficiency and performance impact, we evaluate our approach on four environments including a goal-oriented navigation task and three Arcade Learning Environments (ALE) games demonstrating that we can reach the same level of performance as CNN-based solutions with a simple fully-connected network.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# スケーラブルなクモの巣(または、グラフ的に非クリフォード門を折る方法)

Scalable spider nests (...or how to graphically grok transversal non-Clifford gates) ( http://arxiv.org/abs/2404.07828v1 )

ライセンス: Link先を確認
Aleks Kissinger, John van de Wetering, (参考訳) これは、ZX計算を用いてスタビライザコードをいかに理解できるかを研究する一連の「グラフィックグラッキング」論文の第2弾である。 本稿では, クモの巣の恒等性と呼ばれるZX図を含むある種の複雑な規則を, スケーラブルなZX計算を用いて簡潔に捕えることができ, クリフォードのZX計算を用いて, 一つの新しい規則からこれらすべての同一性が帰納的に証明できることを示す。 これは、最初の "grokking" 論文で開発されたCSSコードのZX図と組み合わせて、任意のCSSコードで実装可能なクリフォード階層の第3レベルにおけるすべての対角ゲートのセットを簡易に特徴付けることができる。

This is the second in a series of "graphical grokking" papers in which we study how stabiliser codes can be understood using the ZX calculus. In this paper we show that certain complex rules involving ZX diagrams, called spider nest identities, can be captured succinctly using the scalable ZX calculus, and all such identities can be proved inductively from a single new rule using the Clifford ZX calculus. This can be combined with the ZX picture of CSS codes, developed in the first "grokking" paper, to give a simple characterisation of the set of all transversal diagonal gates at the third level of the Clifford hierarchy implementable in an arbitrary CSS code.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# QRコードを用いた医薬品製造用偽造防止システム

Protected QR Code-based Anti-counterfeit System for Pharmaceutical Manufacturing ( http://arxiv.org/abs/2404.07831v1 )

ライセンス: Link先を確認
Nitol Saha, Md Masruk Aulia, Md. Mostafizur Rahman, Mohammed Shafiul Alam Khan, (参考訳) 製薬業は、偽造薬物の世界的な脅威のために重大な課題に直面している。 本稿では, 医薬品サプライチェーンを保護するために, ユニークな製品情報を確保するために, 保護QRコードの新たなアプローチを提案する。 提案手法はセキュアなQRコード生成と暗号化されたデータ伝送を統合して、包括的な反偽造防止エコシステムを確立する。 保護QRコードは、複製や改ざんを防ぐために、従来のQRコードスキャナーを使用して識別できない製品情報をカプセル化する。 このシステムはスケーラビリティを念頭に開発されており、従来のサプライチェーンに新たな変更を加えることなく容易に実装することができる。

The pharmaceutical manufacturing faces critical challenges due to the global threat of counterfeit drugs. This paper proposes a new approach of protected QR codes to secure unique product information for safeguarding the pharmaceutical supply chain. The proposed solution integrates secure QR code generation and encrypted data transmission to establish a comprehensive anti-counterfeit ecosystem. The protected QR codes encapsulate product information that cannot be identified using traditional QR code scanners which protect the information against replication and tampering. The system is developed with scalability in mind, which can be easily implemented without introducing any additional modification in the traditional supply chain.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# ファンデーションモデルによる光音響画像処理の合理化:学習不要のソリューション

Streamlined Photoacoustic Image Processing with Foundation Models: A Training-Free Solution ( http://arxiv.org/abs/2404.07833v1 )

ライセンス: Link先を確認
Handi Deng, Yucheng Zhou, Jiaxuan Xiang, Liujie Gu, Yan Luo, Hai Feng, Mingyuan Liu, Cheng Ma, (参考訳) ファンデーションモデルは急速に進化し、コンピュータビジョンタスクにおいて大きな成果を上げてきた。 具体的には、このプロンプト機構により、ユーザーはモデルに画像事前情報を組み込むことができ、トレーニングなしでモデルを適用することができる。 そこで本研究では,光音響(PA)画像セグメンテーションの課題を解決するための基礎モデルとゼロトレーニングに基づく手法を提案する。 1)3次元PA画像レンダリングにおける皮膚信号の除去,(2)2倍の音速再構成,(3)指血管の分画など,様々なタスクをこなすために,簡単なプロンプトを設定し,画像オブジェクトの事前知識とモデルの出力を統合することで,SAMを用いた。 これらの実演を通して,ネットワーク設計やトレーニングを必要とせずに,ディープラーニングをPAイメージングに直接適用することができると結論付けている。 これにより、PA画像の効率的かつ正確なセグメンテーションを実現するための、ハンズオンで便利なアプローチが可能になる。 このレターは包括的なチュートリアルとして機能し、コードとサンプルデータセットのプロビジョニングを通じてテクニックの習得を容易にする。

Foundation models have rapidly evolved and have achieved significant accomplishments in computer vision tasks. Specifically, the prompt mechanism conveniently allows users to integrate image prior information into the model, making it possible to apply models without any training. Therefore, we propose a method based on foundation models and zero training to solve the tasks of photoacoustic (PA) image segmentation. We employed the segment anything model (SAM) by setting simple prompts and integrating the model's outputs with prior knowledge of the imaged objects to accomplish various tasks, including: (1) removing the skin signal in three-dimensional PA image rendering; (2) dual speed-of-sound reconstruction, and (3) segmentation of finger blood vessels. Through these demonstrations, we have concluded that deep learning can be directly applied in PA imaging without the requirement for network design and training. This potentially allows for a hands-on, convenient approach to achieving efficient and accurate segmentation of PA images. This letter serves as a comprehensive tutorial, facilitating the mastery of the technique through the provision of code and sample datasets.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# 知識駆動型対話における質問生成:説明可能性と評価

Question Generation in Knowledge-Driven Dialog: Explainability and Evaluation ( http://arxiv.org/abs/2404.07836v1 )

ライセンス: Link先を確認
Juliette Faille, Quentin Brabant, Gwenole Lecorve, Lina M. Rojas-Barahona, Claire Gardent, (参考訳) 本稿では,説明可能性と評価に焦点をあてた知識基底ダイアログの文脈における質問生成について検討する。 計画に基づく要約に関するこれまでの研究から着想を得て,質問を直接生成する代わりに,まず質問の事実を逐次予測するモデルを提示する。 我々は,KGConvデータセットから適応した37kテストダイアログに対するアプローチを評価するとともに,提案手法がより要求に応えつつも,妥当性,事実性,プロノミナライゼーションの観点から,モデル行動の詳細な参照なし評価を可能にするとともに,質問のみを生成する標準モデルと同等に動作することを示す。

We explore question generation in the context of knowledge-grounded dialogs focusing on explainability and evaluation. Inspired by previous work on planning-based summarisation, we present a model which instead of directly generating a question, sequentially predicts first a fact then a question. We evaluate our approach on 37k test dialogs adapted from the KGConv dataset and we show that, although more demanding in terms of inference, our approach performs on par with a standard model which solely generates a question while allowing for a detailed referenceless evaluation of the model behaviour in terms of relevance, factuality and pronominalisation.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# RecurrentGemma: 効率的なオープン言語モデルのためのトランスフォーマーの移動

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models ( http://arxiv.org/abs/2404.07839v1 )

ライセンス: Link先を確認
Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz GUStavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas, (参考訳) 本稿では,Googleの新しいGriffinアーキテクチャを用いたオープン言語モデルであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 メモリ使用量を削減し、長いシーケンスの効率的な推論を可能にする固定サイズの状態を持つ。 2Bの非埋め込みパラメータを持つ事前学習モデルと、命令調律変種を提供する。 どちらのモデルも、少ないトークンでトレーニングされているにもかかわらず、Gemma-2Bと同等のパフォーマンスを実現している。

We introduce RecurrentGemma, an open language model which uses Google's novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# GPTモデルの学習データへの影響について

On Training Data Influence of GPT Models ( http://arxiv.org/abs/2404.07840v1 )

ライセンス: Link先を確認
Qingyi Liu, Yekun Chai, Shuohuan Wang, Yu Sun, Keze Wang, Hua Wu, (参考訳) 生成言語モデルの急速な進歩の中で、トレーニングデータがどのようにGPTモデルの性能を形作るかの研究が、いまだに進んでいる。 本稿では, GPTモデルのトレーニング力学に及ぼすトレーニング例の影響を評価するために, 模擬シミュレーションを利用した新しい手法である GPTfluenceを提案する。 我々のアプローチは、個々のトレーニングインスタンスが、目標とするテストポイントにおける損失やその他の重要な指標などのパフォーマンストラジェクトリに与える影響をトレースするだけでなく、GPTモデルにおける様々なトレーニングシナリオにわたる既存のメソッドと、ダウンストリームタスクの範囲で1400万から280億のパラメータを網羅的に比較することを可能にする。 GPTfluenceは、新しいデータへの一般化に苦慮する以前の手法とは対照的に、トレーニングダイナミクスのパラメータ化シミュレーションを導入し、目に見えないトレーニングデータに対して堅牢な一般化能力を実証している。 この適応性は、自然言語の理解と生成におけるタスクにまたがる、微調整と命令調整の両方のシナリオで明らかである。 コードとデータを公開します。

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We will make our code and data publicly available.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# TBSN:自己監督型画像復調のためのトランスフォーマーベースブラインドスポットネットワーク

TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising ( http://arxiv.org/abs/2404.07846v1 )

ライセンス: Link先を確認
Junyi Li, Zhilu Zhang, Wangmeng Zuo, (参考訳) BSN(Blind-spot Network)は、自己教師型イメージデノイング(SSID)において広く使われているネットワークアーキテクチャである。 既存のBSNは主に畳み込み層で実行される。 変換器は畳み込みの限界に対する潜在的な解決策を提供し、様々な画像復元タスクで成功したが、その注意機構は盲点要求に違反し、SSIDの適用性を制限する可能性がある。 本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。 具体的には、TBSNは拡張されたBSNのアーキテクチャ原則に従い、ネットワーク能力を高めるために、空間的およびチャネル自己アテンション層を組み込む。 空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。 チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。 この効果を排除するため、チャンネルを複数のグループに分割し、チャンネルの注意を別々に行う。 さらに,TBSNを小型デノイザーに蒸留し,性能を維持しながら計算効率を向上させる知識蒸留戦略を導入する。 実世界の画像復調データセットに対する大規模な実験により、TBSNは受容領域を大きく拡張し、最先端のSSID手法に対して良好な性能を示した。 コードと事前訓練されたモデルはhttps://github.com/nagejacob/TBSN.comで公開される。

Blind-spot networks (BSN) have been prevalent network architectures in self-supervised image denoising (SSID). Existing BSNs are mostly conducted with convolution layers. Although transformers offer potential solutions to the limitations of convolutions and have demonstrated success in various image restoration tasks, their attention mechanisms may violate the blind-spot requirement, thus restricting their applicability in SSID. In this paper, we present a transformer-based blind-spot network (TBSN) by analyzing and redesigning the transformer operators that meet the blind-spot requirement. Specifically, TBSN follows the architectural principles of dilated BSNs, and incorporates spatial as well as channel self-attention layers to enhance the network capability. For spatial self-attention, an elaborate mask is applied to the attention matrix to restrict its receptive field, thus mimicking the dilated convolution. For channel self-attention, we observe that it may leak the blind-spot information when the channel number is greater than spatial size in the deep layers of multi-scale architectures. To eliminate this effect, we divide the channel into several groups and perform channel attention separately. Furthermore, we introduce a knowledge distillation strategy that distills TBSN into smaller denoisers to improve computational efficiency while maintaining performance. Extensive experiments on real-world image denoising datasets show that TBSN largely extends the receptive field and exhibits favorable performance against state-of-the-art SSID methods. The code and pre-trained models will be publicly available at https://github.com/nagejacob/TBSN.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# Fuss-free Network: 群衆計数のためのシンプルで効率的なニューラルネットワーク

Fuss-Free Network: A Simplified and Efficient Neural Network for Crowd Counting ( http://arxiv.org/abs/2404.07847v1 )

ライセンス: Link先を確認
Lei Chen, Xingen Gao, (参考訳) 群集計数研究の分野では,近年の深層学習に基づく手法の多くが,群集の大きさを正確に推定する頑健な能力を実証している。 しかし、それらの性能の向上は、しばしばモデル構造の複雑さの増大から生じる。 本稿では,Fuss-Free Network(FFNet)について紹介する。 本モデルは,ニューラルネットワークのバックボーンとマルチスケール機能融合構造のみから構成される。マルチスケール機能融合構造は,焦点遷移モジュールのみを備える3つのブランチで構成された単純なアーキテクチャであり,これらのブランチの特徴を結合操作によって組み合わせたものであり,提案したクラウドカウントモデルは,4つの広く使用されている公開データセットで訓練・評価され,既存の複雑なモデルに匹敵する精度を達成している。また,実験結果は,単純な低パラメータ,計算効率のニューラルネットワーク構造を利用して,群衆カウントタスクの優れた性能を実現することができることを示す。

In the field of crowd-counting research, many recent deep learning based methods have demonstrated robust capabilities for accurately estimating crowd sizes. However, the enhancement in their performance often arises from an increase in the complexity of the model structure. This paper introduces the Fuss-Free Network (FFNet), a crowd counting deep learning model that is characterized by its simplicity and efficiency in terms of its structure. The model comprises only a backbone of a neural network and a multi-scale feature fusion structure.The multi-scale feature fusion structure is a simple architecture consisting of three branches, each only equipped with a focus transition module, and combines the features from these branches through the concatenation operation.Our proposed crowd counting model is trained and evaluated on four widely used public datasets, and it achieves accuracy that is comparable to that of existing complex models.The experimental results further indicate that excellent performance in crowd counting tasks can also be achieved by utilizing a simple, low-parameter, and computationally efficient neural network structure.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# 超曲線フィッティングとしての過パラメータ多重線形回帰

Overparameterized Multiple Linear Regression as Hyper-Curve Fitting ( http://arxiv.org/abs/2404.07849v1 )

ライセンス: Link先を確認
E. Atza, N. Budko, (参考訳) 本論文は, 過パラメータ化データセットに対する固定効果多重回帰モデルの適用が, 単一スカラーパラメータでパラメータ化されたハイパー曲線と同等であることを示す。 この等価性は、各予測器が選択されたパラメータの関数によって記述される予測器中心のアプローチを可能にする。 線形モデルがモデル仮定に反する非線形依存の存在下でも正確な予測を生成することが証明された。 ここでは、依存変数と予測関数空間の単項基底のパラメータ化を、合成データと実験データの両方に適用する。 ハイパーカーブのアプローチは、予測変数のノイズに関する問題を正規化するのに特に適しており、モデルからノイズや「不適切な」予測子を取り除くのに使うことができる。

The paper shows that the application of the fixed-effect multiple linear regression model to an overparameterized dataset is equivalent to fitting the data with a hyper-curve parameterized by a single scalar parameter. This equivalence allows for a predictor-focused approach, where each predictor is described by a function of the chosen parameter. It is proven that a linear model will produce exact predictions even in the presence of nonlinear dependencies that violate the model assumptions. Parameterization in terms of the dependent variable and the monomial basis in the predictor function space are applied here to both synthetic and experimental data. The hyper-curve approach is especially suited for the regularization of problems with noise in predictor variables and can be used to remove noisy and "improper" predictors from the model.
翻訳日:2024-04-12 13:30:32 公開日:2024-04-11
# MindBridge: クロスオブジェクトのブレインデコーディングフレームワーク

MindBridge: A Cross-Subject Brain Decoding Framework ( http://arxiv.org/abs/2404.07850v1 )

ライセンス: Link先を確認
Shizun Wang, Songhua Liu, Zhenxiong Tan, Xinchao Wang, (参考訳) 神経科学の重要な分野である脳復号法は、主に機能的磁気共鳴画像(fMRI)を利用して、取得した脳信号から刺激を再構成することを目的としている。 現在、脳の復号化はオブジェクト単位のモデルパラダイムに限られており、復号化モデルは訓練された同一個人に限定されている。 この制約は3つの重要な課題に起因しています。 1) 脳の大きさの違いによる被験者間の入力次元の変動 2 個人が知覚情報をどう知覚し、処理するかに影響を及ぼす固有の内在性神経パターン 3) 現実シナリオにおける新しい課題に対するデータ可用性の制限は,復号化モデルの性能を損なう。 本稿では,1つのモデルのみを用いることで,物体間脳デコーディングを実現する新しい手法であるMindBridgeを提案する。 提案フレームワークは,生物にインスパイアされた凝集関数と,主観不変表現学習のための新しい循環的fMRI再構成機構を導入することで,これらの課題に対処できる汎用パラダイムを確立する。 特に、fMRIのサイクル再構成によって、MindBridgeは新しいfMRI合成を可能にする。 フレームワーク内では、事前学習されたモデルを新しい主題に適応するための新しいリセットチューニング手法も考案する。 実験により、MindBridgeが複数の被験者に対して画像を再構成する能力を示した。 さらに、新しい対象に対する限られたデータを用いて、対象特化モデルのそれを上回る高い復号精度を実現する。 このクロスオブジェクト脳デコーディングの進歩は、神経科学の幅広い応用に向けて有望な方向を示し、現実のシナリオにおいて限られたfMRIデータのより効率的な利用の可能性を示している。 プロジェクトページ:https://littlepure2333.github.io/MindBridge

Brain decoding, a pivotal field in neuroscience, aims to reconstruct stimuli from acquired brain signals, primarily utilizing functional magnetic resonance imaging (fMRI). Currently, brain decoding is confined to a per-subject-per-model paradigm, limiting its applicability to the same individual for whom the decoding model is trained. This constraint stems from three key challenges: 1) the inherent variability in input dimensions across subjects due to differences in brain size; 2) the unique intrinsic neural patterns, influencing how different individuals perceive and process sensory information; 3) limited data availability for new subjects in real-world scenarios hampers the performance of decoding models. In this paper, we present a novel approach, MindBridge, that achieves cross-subject brain decoding by employing only one model. Our proposed framework establishes a generic paradigm capable of addressing these challenges by introducing biological-inspired aggregation function and novel cyclic fMRI reconstruction mechanism for subject-invariant representation learning. Notably, by cycle reconstruction of fMRI, MindBridge can enable novel fMRI synthesis, which also can serve as pseudo data augmentation. Within the framework, we also devise a novel reset-tuning method for adapting a pretrained model to a new subject. Experimental results demonstrate MindBridge's ability to reconstruct images for multiple subjects, which is competitive with dedicated subject-specific models. Furthermore, with limited data for a new subject, we achieve a high level of decoding accuracy, surpassing that of subject-specific models. This advancement in cross-subject brain decoding suggests promising directions for wider applications in neuroscience and indicates potential for more efficient utilization of limited fMRI data in real-world scenarios. Project page: https://littlepure2333.github.io/MindBridge
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 誤り注釈付き機械翻訳における大規模言語モデルの誘導

Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations ( http://arxiv.org/abs/2404.07851v1 )

ライセンス: Link先を確認
Dayeon Ki, Marine Carpuat, (参考訳) 機械翻訳(MT)は、大規模言語モデル(LLM)がまだ専用の教師付きシステムに取って代わっていない最後のNLPタスクの1つである。 本研究は,多次元品質メトリクス(MQM)アノテーションから得られた外部フィードバックにより,LLMを自動編集後MTに誘導することにより,LLMの相補的強度と教師付きMTの強化を生かした。 LLaMA-2モデルを用いて、提供されたフィードバックの性質を変化させ、提供されたガイダンスを活用する能力を向上させるため、LLMを微調整する戦略について検討する。 中国語・英語・ドイツ語・英語・ロシア語のMQMデータを用いた実験により,LLMのMT後処理によりTER,BLEU,COMETのスコアが向上することを示した。 微調整はきめ細かいフィードバックをより効果的に統合し、自動評価と人的評価の両方に基づいて翻訳品質を向上させる。

Machine Translation (MT) remains one of the last NLP tasks where large language models (LLMs) have not yet replaced dedicated supervised systems. This work exploits the complementary strengths of LLMs and supervised MT by guiding LLMs to automatically post-edit MT with external feedback on its quality, derived from Multidimensional Quality Metric (MQM) annotations. Working with LLaMA-2 models, we consider prompting strategies varying the nature of feedback provided and then fine-tune the LLM to improve its ability to exploit the provided guidance. Through experiments on Chinese-English, English-German, and English-Russian MQM data, we demonstrate that prompting LLMs to post-edit MT improves TER, BLEU and COMET scores, although the benefits of fine-grained feedback are not clear. Fine-tuning helps integrate fine-grained feedback more effectively and further improves translation quality based on both automatic and human evaluation.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 一般化可能な遠隔生理計測のための領域紛争の解決

Resolve Domain Conflicts for Generalizable Remote Physiological Measurement ( http://arxiv.org/abs/2404.07855v1 )

ライセンス: Link先を確認
Weiyu Sun, Xinyu Zhang, Hao Lu, Ying Chen, Yun Ge, Xiaolin Huang, Jie Yuan, Yingcong Chen, (参考訳) リモート光胸腺撮影(rPPG)技術は、様々な生理学的指標の非侵襲的なモニタリングにより、マルチメディアインタラクション、医療、感情分析に広く応用されているため、ますます人気が高まっている。 既存のrPPG法では、モデルの一般化性を高めるために、トレーニングに複数のデータセットを使用している。 しかし,(1)生理的信号ラベルと顔ビデオとの位相遅延の違いによるラベルの衝突や,(2)頭部の動きや照明の変化,皮膚の種類などによる分布変化に起因する属性の衝突など,異なるデータセット間での紛争の根底にある問題を見落としていることが多い。 これを解決するために、DOHA(DOmain-HArmonious framework)を紹介します。 具体的には、まず、不確実な位相遅延を排除し、生理的信号の時間的変動を保存するための調和した位相戦略を提案する。 次に、無関係な属性シフトを低減し、より有効なシナリオに適合するグローバルなソリューションへのモデルの最適化を促進する、調和した超平面最適化を設計する。 実験により,DOHAは複数のプロトコル下での既存手法の性能を大幅に向上することが示された。 私たちのコードはhttps://github.com/SWY666/rPPG-DOHAで公開されています。

Remote photoplethysmography (rPPG) technology has become increasingly popular due to its non-invasive monitoring of various physiological indicators, making it widely applicable in multimedia interaction, healthcare, and emotion analysis. Existing rPPG methods utilize multiple datasets for training to enhance the generalizability of models. However, they often overlook the underlying conflict issues across different datasets, such as (1) label conflict resulting from different phase delays between physiological signal labels and face videos at the instance level, and (2) attribute conflict stemming from distribution shifts caused by head movements, illumination changes, skin types, etc. To address this, we introduce the DOmain-HArmonious framework (DOHA). Specifically, we first propose a harmonious phase strategy to eliminate uncertain phase delays and preserve the temporal variation of physiological signals. Next, we design a harmonious hyperplane optimization that reduces irrelevant attribute shifts and encourages the model's optimization towards a global solution that fits more valid scenarios. Our experiments demonstrate that DOHA significantly improves the performance of existing methods under multiple protocols. Our code is available at https://github.com/SWY666/rPPG-DOHA.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 公共交通機関における遅延変化のストリーミング検出

Streaming detection of significant delay changes in public transport systems ( http://arxiv.org/abs/2404.07860v1 )

ライセンス: Link先を確認
Przemysław Wrona, Maciej Grzenda, Marcin Luckner, (参考訳) 公共交通機関は汚染を減らし、持続可能な開発に寄与することが期待されている。 しかし、遅延などの公共交通機関の混乱は移動選択に悪影響を及ぼす可能性がある。 遅延を定量化するために、車両位置システムからの集約されたデータが頻繁に使用される。 しかし,各停留所で観測される遅延は,走行時間の変動や,他の場所で発生する遅延の伝播によって,エイリアス間に生じる。 そこで本研究では,提案手法が実装されているストリーム処理エンジンに頼って,重要な遅延を検出する手法と参照アーキテクチャの両方を提案する。 この方法は、スケジュールからの逸脱として定義される遅延の計算を補完することができる。 これにより、重要かつ反復的な遅延のバッチ識別よりも、ロケーションデータの限られた品質に対するレジリエンスをオンラインで実現する。 提案手法は,移動グラフの個々のエッジにシャッフルされた位置データストリームに対して,ADWINなどの異なる変化検出器を用いて適用することができる。 エッジが統計的に重要な遅延を観測し、エッジが遅延して減少するオンラインな方法で検出することができる。 検出はモビリティの選択をモデル化し、マルチモーダルトリップ・モデリングエンジンで実現可能なトリップに対するランダムな乱れよりも繰り返しの影響を定量化するために使用することができる。 2000台以上の車両の公共交通データを用いて行った評価は、この方法の利点を確認し、輸送システムグラフの限られたサイズのサブグラフが統計的に重大な遅延を引き起こすことを明らかにする。

Public transport systems are expected to reduce pollution and contribute to sustainable development. However, disruptions in public transport such as delays may negatively affect mobility choices. To quantify delays, aggregated data from vehicle locations systems are frequently used. However, delays observed at individual stops are caused inter alia by fluctuations in running times and propagation of delays occurring in other locations. Hence, in this work, we propose both the method detecting significant delays and reference architecture, relying on stream processing engines, in which the method is implemented. The method can complement the calculation of delays defined as deviation from schedules. This provides both online rather than batch identification of significant and repetitive delays, and resilience to the limited quality of location data. The method we propose can be used with different change detectors, such as ADWIN, applied to location data stream shuffled to individual edges of a transport graph. It can detect in an online manner at which edges statistically significant delays are observed and at which edges delays arise and are reduced. Detections can be used to model mobility choices and quantify the impact of repetitive rather than random disruptions on feasible trips with multimodal trip modelling engines. The evaluation performed with the public transport data of over 2000 vehicles confirms the merits of the method and reveals that a limited-size subgraph of a transport system graph causes statistically significant delays
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 双方向トリガー最適化によるバックドアコントラスト学習

Backdoor Contrastive Learning via Bi-level Trigger Optimization ( http://arxiv.org/abs/2404.07863v1 )

ライセンス: Link先を確認
Weiyu Sun, Xinyu Zhang, Hao Lu, Yingcong Chen, Ting Wang, Jinghui Chen, Lu Lin, (参考訳) コントラスト学習(CL)は、教師なし表現学習における顕著な能力により、大きな注目を集めている。 機能抽出器は、攻撃対象クラスの近くにバックドアされたデータを埋め込むように誤解される可能性があるため、下流の予測器を騙してターゲットと誤分類する。 既存の攻撃は通常、固定されたトリガーパターンを採用し、トリガーを注入したデータでトレーニングセットに毒を与え、特徴抽出器がトリガーとターゲットクラスの関係を学習することを期待する。 しかし, このような固定トリガ設計では, 特殊なCL機構により, ターゲットクラスにトリガ注入したデータを効果的に関連付けることができず, 限られた攻撃成功率 (ASR) が得られることがわかった。 この現象は、CLフレームワークに適したより良いバックドアトリガ設計を見つける動機となります。 本稿では,この目標を達成するための双方向最適化手法を提案する。内部最適化はサロゲート犠牲者のCLダイナミクスをシミュレートし,外部最適化はサロゲートCL手順を通してターゲットに近づき続けるようにバックドアトリガを強制する。 大規模な実験により、我々の攻撃は高い攻撃成功率(例えば、ImageNet-100で99\%$ASR)を達成でき、非常に低い中毒率(1\%$)を達成できることが示された。 さらに、我々の攻撃は、既存の最先端の防御を効果的に回避できる。 コードは、https://github.com/SWY666/SSL-backdoor-BLTOで入手できる。

Contrastive Learning (CL) has attracted enormous attention due to its remarkable capability in unsupervised representation learning. However, recent works have revealed the vulnerability of CL to backdoor attacks: the feature extractor could be misled to embed backdoored data close to an attack target class, thus fooling the downstream predictor to misclassify it as the target. Existing attacks usually adopt a fixed trigger pattern and poison the training set with trigger-injected data, hoping for the feature extractor to learn the association between trigger and target class. However, we find that such fixed trigger design fails to effectively associate trigger-injected data with target class in the embedding space due to special CL mechanisms, leading to a limited attack success rate (ASR). This phenomenon motivates us to find a better backdoor trigger design tailored for CL framework. In this paper, we propose a bi-level optimization approach to achieve this goal, where the inner optimization simulates the CL dynamics of a surrogate victim, and the outer optimization enforces the backdoor trigger to stay close to the target throughout the surrogate CL procedure. Extensive experiments show that our attack can achieve a higher attack success rate (e.g., $99\%$ ASR on ImageNet-100) with a very low poisoning rate ($1\%$). Besides, our attack can effectively evade existing state-of-the-art defenses. Code is available at: https://github.com/SWY666/SSL-backdoor-BLTO.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 近似メッセージパッシングによる高次元線形回帰における変化点の推定

Inferring Change Points in High-Dimensional Linear Regression via Approximate Message Passing ( http://arxiv.org/abs/2404.07864v1 )

ライセンス: Link先を確認
Gabriel Arpino, Xiaoqi Liu, Ramji Venkataramanan, (参考訳) 高次元線形回帰における変化点の局所化の問題を考える。 信号と変化点位置の両方を推定するための近似メッセージパッシング(AMP)アルゴリズムを提案する。 ガウス共変量(英語版)を仮定すると、サンプルの数が信号次元に比例する極限において、その推定性能の正確な漸近的特徴を与える。 我々のアルゴリズムは、信号、ノイズ、変化点に関する事前情報を利用するように調整できる。 また、効率よく計算可能な近似後続分布の形での不確実な定量化を可能にし、その漸近形式が正確に特徴付ける。 数値実験により理論を検証し, 合成データと画像の両方において, 推定器の良好な性能を示す。

We consider the problem of localizing change points in high-dimensional linear regression. We propose an Approximate Message Passing (AMP) algorithm for estimating both the signals and the change point locations. Assuming Gaussian covariates, we give an exact asymptotic characterization of its estimation performance in the limit where the number of samples grows proportionally to the signal dimension. Our algorithm can be tailored to exploit any prior information on the signal, noise, and change points. It also enables uncertainty quantification in the form of an efficiently computable approximate posterior distribution, whose asymptotic form we characterize exactly. We validate our theory via numerical experiments, and demonstrate the favorable performance of our estimators on both synthetic data and images.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 特性の力:感情分類におけるインフルエンタリな要因を明らかにする

The Power of Properties: Uncovering the Influential Factors in Emotion Classification ( http://arxiv.org/abs/2404.07867v1 )

ライセンス: Link先を確認
Tim Büchner, Niklas Penzel, Orlando Guntinas-Lichius, Joachim Denzler, (参考訳) 表情に基づく人間の感情認識は、心理学と医学において重要な研究領域である。 最先端の分類性能は、エンドツーエンドのトレーニングニューラルネットワークによってのみ達成される。 それでも、このようなブラックボックスモデルは意思決定プロセスに透明性を欠いているため、分類者の決定を下すルールを確認する努力が促される。 シングルインプットのみを分析することは、体系的な学習バイアスを明らかにするのに失敗する。 これらのバイアスは、年齢や医療条件などの抽象的な情報を要約した顔の特徴として特徴づけられる。 したがって、モデルの予測動作を理解するには、そのような選択された特性に沿って因果関係に根ざした分析が必要である。 分類器出力の振る舞いの変化の91.25%が統計的に基本特性について重要であることを実証した。 年齢、性別、顔の対称性などである。 さらに,表面筋電図の医療利用は感情予測に大きく影響を及ぼす。 明示的な特性とその影響を評価するワークフローを導入する。 これらの洞察は、医療専門家が専門的なデータや性質について分類器を選択して適用するのに役立ちます。

Facial expression-based human emotion recognition is a critical research area in psychology and medicine. State-of-the-art classification performance is only reached by end-to-end trained neural networks. Nevertheless, such black-box models lack transparency in their decision-making processes, prompting efforts to ascertain the rules that underlie classifiers' decisions. Analyzing single inputs alone fails to expose systematic learned biases. These biases can be characterized as facial properties summarizing abstract information like age or medical conditions. Therefore, understanding a model's prediction behavior requires an analysis rooted in causality along such selected properties. We demonstrate that up to 91.25% of classifier output behavior changes are statistically significant concerning basic properties. Among those are age, gender, and facial symmetry. Furthermore, the medical usage of surface electromyography significantly influences emotion prediction. We introduce a workflow to evaluate explicit properties and their impact. These insights might help medical professionals select and apply classifiers regarding their specialized data and properties.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 超広帯域マイクロ波光子の計数統計

Counting statistics of ultra-broadband microwave photons ( http://arxiv.org/abs/2404.07868v1 )

ライセンス: Link先を確認
Simon Bolduc Beaudoin, Edouard Pinsolle, Bertrand Reulet, (参考訳) 未定義周波数のマイクロ波光子(バイクロマティック光子、すなわち2つのよく分離された周波数を含む光子)と「白色」ブロードバンド光子(ブロードバンド光子)の計数統計,平均およびばらつきの測定を行った。 セットアップにより、1-10GHz帯での任意の波形の単一フォトニックモードの検出が可能となる。 測定された時間依存電圧からオンザフライ数値計算により、光子統計を得る。 このような光子のサーマル・アンド・シャークド・放射による方法を検証すると、検出された統計値と、c+dcバイアストンネル接合のスクイーズスペクトルを関連づける。 3.5GHzの帯域幅で1dBよりも良い$\sim$1.5dB、約6GHzの帯域幅で$\sim6$1.5dBの帯域幅でSqueezするのを見る。 また,2色光子の波形を最大スキューズに最適化する方法も示した。

We report measurements of counting statistics, average and variance, of microwave photons of ill-defined frequency: bichromatic photons, i.e. photons involving two well separated frequencies, and "white", broadband photons. Our setup allows for the detection of single photonic modes of arbitrary waveform over the 1-10 GHz frequency range. The photon statistics is obtained by on-the-fly numerical calculation from the measured time-dependent voltage. After validating our procedure with thermal- and squeezed- radiation of such photons, we relate the detected statistics to the squeezing spectrum of an ac+dc biased tunnel junction. We observe an optimal squeezing of $\sim$1.5dB over a bandwidth $>1$ GHz, better than 1dB over 3.5 GHz and still see squeezing over a bandwidth of $\sim6$ GHz around 6 GHz. We also show how the waveform of a bichromatic photon can be optimized for maximum squeezing.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 相互作用格子ボソンのための正確な神経量子状態

Accurate neural quantum states for interacting lattice bosons ( http://arxiv.org/abs/2404.07869v1 )

ライセンス: Link先を確認
Zakari Denis, Giuseppe Carleo, (参考訳) 近年、神経量子状態は、スピン格子、相互作用するフェルミオン、連続可変系を含む様々な量子多体系の基底状態波動関数を表現する際に、最先端の精度を達成する強力な変動的アプローチとして出現している。 しかし、格子上の相互作用するボソンの基底状態の正確な神経表現は、まだ解明されていない。 本稿では,ニューラルバックフローのJastrow Ansatzを紹介した。 この神経量子状態は相互作用強度の全ての値にわたって2次元ボース・ハバード・ハミルトン状態の基底状態を忠実に表現できることを示す。 このモデルで報告された最良の変動エネルギーを達成しながら、シミュレーションを20ドルまでの格子にスケールする。 これにより、超流動-モット量子相転移における絡み合いエントロピーのスケーリングを研究できる。

In recent years, neural quantum states have emerged as a powerful variational approach, achieving state-of-the-art accuracy when representing the ground-state wave function of a great variety of quantum many-body systems, including spin lattices, interacting fermions or continuous-variable systems. However, accurate neural representations of the ground state of interacting bosons on a lattice have remained elusive. We introduce a neural backflow Jastrow Ansatz, in which occupation factors are dressed with translationally equivariant many-body features generated by a deep neural network. We show that this neural quantum state is able to faithfully represent the ground state of the 2D Bose-Hubbard Hamiltonian across all values of the interaction strength. We scale our simulations to lattices of dimension up to $20{\times}20$ while achieving the best variational energies reported for this model. This enables us to investigate the scaling of the entanglement entropy across the superfluid-to-Mott quantum phase transition, a quantity hard to extract with non-variational approaches.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# LeapFrog:Rowhammerの命令スキップ攻撃

LeapFrog: The Rowhammer Instruction Skip Attack ( http://arxiv.org/abs/2404.07878v1 )

ライセンス: Link先を確認
Andrew Adiletta, Caner Tol, Berk Sunar, (参考訳) Rowhammerのエクスプロイトは、データ整合性だけでなく、被害者のプロセスの制御フロー整合性を損なうような高度な脅威へと急速に進化してきた。 それでも、攻撃者が脆弱な標的(すなわちローハンマーのガジェット)を識別し、試みられた失敗の結果を理解し、有用な結果をもたらす攻撃を定式化することは依然として困難である。 本稿では,LeapFrog ガジェットと呼ばれる新しいタイプのRowhammer ガジェットを提案する。このガジェットは,被害者のコードに存在すると,相手がコード実行を変換して重要なコード(認証チェックロジック,暗号化ラウンド,セキュリティプロトコルのパディングなど)をバイパスすることができる。 Leapfrogガジェットは、被害者コードがユーザまたはカーネルスタック(例えば、関数呼び出し中の戻りアドレス)にプログラムカウンタ(PC)値を保存すると現れる。 この研究は、Leapfrogガジェットを識別する体系的なプロセスも提示する。 この手法により、受容可能なターゲットの自動検出と最適な攻撃パラメータの決定が可能になる。 まず、TLSハンドシェイククライアント/サーバのシナリオを実演し、クライアントアプリケーションで命令スキップをうまく誘導し、この新たな攻撃ベクトルを実演する。 そして私たちは、野生で見つかった現実世界のコードに対する攻撃を実演し、OpenSSLに対する攻撃を実行しました。 我々の発見は、制御フローに対するRowhammer攻撃の影響を拡大し、これらの高度な脅威に対するより堅牢な防御の開発に寄与する。

Since its inception, Rowhammer exploits have rapidly evolved into increasingly sophisticated threats not only compromising data integrity but also the control flow integrity of victim processes. Nevertheless, it remains a challenge for an attacker to identify vulnerable targets (i.e., Rowhammer gadgets), understand the outcome of the attempted fault, and formulate an attack that yields useful results. In this paper, we present a new type of Rowhammer gadget, called a LeapFrog gadget, which, when present in the victim code, allows an adversary to subvert code execution to bypass a critical piece of code (e.g., authentication check logic, encryption rounds, padding in security protocols). The Leapfrog gadget manifests when the victim code stores the Program Counter (PC) value in the user or kernel stack (e.g., a return address during a function call) which, when tampered with, re-positions the return address to a location that bypasses a security-critical code pattern. This research also presents a systematic process to identify Leapfrog gadgets. This methodology enables the automated detection of susceptible targets and the determination of optimal attack parameters. We first showcase this new attack vector through a practical demonstration on a TLS handshake client/server scenario, successfully inducing an instruction skip in a client application. We then demonstrate the attack on real-world code found in the wild, implementing an attack on OpenSSL. Our findings extend the impact of Rowhammer attacks on control flow and contribute to the development of more robust defenses against these increasingly sophisticated threats.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 深層会話における毒性の分析:Redditのケーススタディ

Analyzing Toxicity in Deep Conversations: A Reddit Case Study ( http://arxiv.org/abs/2404.07879v1 )

ライセンス: Link先を確認
Vigneshwaran Shankaran, Rajesh Sharma, (参考訳) オンラインソーシャルメディアは、アクセスの容易さと他者との接続能力により、近年ますます人気が高まっている。 ソーシャルメディアの主な特徴の1つは匿名性であり、ユーザーは判断や帰属を恐れずに自分の考えや意見を共有できる。 この匿名性は、ソーシャルメディアを有害なコンテンツにしがみやすくし、責任と生産的利用を確保するためにモデレーションを必要とする。 有害なコンテンツを検出するために、人工知能を使ったいくつかの方法が用いられている。 しかし、ヘイトスピーチの会話と文脈分析はまだ検討されている。 ほとんどの有望な作業は、それをサポートする会話ではなく、一度に1つのテキストのみを分析する。 本研究では,公的な会話環境における有害性について,ユーザがどのように振る舞うかを理解するために,木に基づくアプローチを採用する。 この目的のために、Redditの8つのコミュニティから上位100記事のコメントセクションとコメントセクションを収集し、100万以上の回答を出している。 有毒なコメントは、その後の有毒なコメントがオンライン会話で生み出される可能性を高める。 我々の分析は、直近の文脈が元の投稿よりも応答を形作る上で重要な役割を担っていることも示しています。 また, ユーザ行動やパターンの観点から, 非合意的表現と重複する類似性を観察し, 合意的表現の効果についても検討した。

Online social media has become increasingly popular in recent years due to its ease of access and ability to connect with others. One of social media's main draws is its anonymity, allowing users to share their thoughts and opinions without fear of judgment or retribution. This anonymity has also made social media prone to harmful content, which requires moderation to ensure responsible and productive use. Several methods using artificial intelligence have been employed to detect harmful content. However, conversation and contextual analysis of hate speech are still understudied. Most promising works only analyze a single text at a time rather than the conversation supporting it. In this work, we employ a tree-based approach to understand how users behave concerning toxicity in public conversation settings. To this end, we collect both the posts and the comment sections of the top 100 posts from 8 Reddit communities that allow profanity, totaling over 1 million responses. We find that toxic comments increase the likelihood of subsequent toxic comments being produced in online conversations. Our analysis also shows that immediate context plays a vital role in shaping a response rather than the original post. We also study the effect of consensual profanity and observe overlapping similarities with non-consensual profanity in terms of user behavior and patterns.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 量子プログラムスケジューリングによる超電導量子プロセッサの実行レイテンシ低減について

On Reducing the Execution Latency of Superconducting Quantum Processors via Quantum Program Scheduling ( http://arxiv.org/abs/2404.07882v1 )

ライセンス: Link先を確認
Wenjie Wu, Yiquan Wang, Ge Yan, Yuming Zhao, Junchi Yan, (参考訳) 量子コンピューティングは特にNISQ(Noisy Intermediate-Scale Quantum)時代に入ってから注目されている。 量子プロセッサとクラウドサービスは世界中で利用できるようになった。 残念ながら、既存の量子プロセッサ上のプログラムは、しばしば連続して実行される。 通常、長い待ち時間のために、公開量子クラウド上の単一の量子プログラムの結果を得るのに数時間以上待たなければならない。 実際、規模が大きくなるにつれて、シリアル実行モードのキュービット利用率はさらに低下し、量子資源の無駄が生じる。 本稿では,まず,量子プログラムスケジューリング問題(QPSP)を定式化して導入し,量子資源の効率性向上を図る。 具体的には, 回路幅, 計測ショット数, 提出時間に関する量子プログラムスケジューリング手法を提案し, 実行遅延を低減する。 我々は,シミュレートされたカイスキットノイズモデルと,超伝導量子プロセッサのXiaohong(QuantumCTek)について広範な実験を行った。 数値計算の結果,QPU時間とターンアラウンド時間の両方の有効性が示された。

Quantum computing has gained considerable attention, especially after the arrival of the Noisy Intermediate-Scale Quantum (NISQ) era. Quantum processors and cloud services have been made world-wide increasingly available. Unfortunately, programs on existing quantum processors are often executed in series, and the workload could be heavy to the processor. Typically, one has to wait for hours or even longer to obtain the result of a single quantum program on public quantum cloud due to long queue time. In fact, as the scale grows, the qubit utilization rate of the serial execution mode will further diminish, causing the waste of quantum resources. In this paper, to our best knowledge for the first time, the Quantum Program Scheduling Problem (QPSP) is formulated and introduced to improve the utility efficiency of quantum resources. Specifically, a quantum program scheduling method concerning the circuit width, number of measurement shots, and submission time of quantum programs is proposed to reduce the execution latency. We conduct extensive experiments on a simulated Qiskit noise model, as well as on the Xiaohong (from QuantumCTek) superconducting quantum processor. Numerical results show the effectiveness in both QPU time and turnaround time.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# Apprentice Tutor Builder:Intelligent Tutorsの作成とパーソナライズのためのプラットフォーム

Apprentice Tutor Builder: A Platform For Users to Create and Personalize Intelligent Tutors ( http://arxiv.org/abs/2404.07883v1 )

ライセンス: Link先を確認
Glen Smith, Adit Gupta, Christopher MacLellan, (参考訳) 知的学習システム(ITS)は,学生の学習成果を改善するのに有効である。 しかし、それらの開発は複雑で時間を要することが多く、特殊なプログラミングとチューター設計の知識を必要とするため、広く使われることやパーソナライズを妨げている。 本稿では、教師作成とパーソナライズを簡単にするプラットフォームであるApprentice Tutor Builder(ATB)を紹介する。 インストラクタはABBのドラッグアンドドロップツールを使ってチューターインターフェースを構築することができる。 インストラクタは、チューターの基盤となるAIエージェントをインタラクティブにトレーニングして、問題を解決する専門家モデルを作成することができる。 トレーニングは、デモやフィードバック、ユーザラベルなど、複数のインタラクションモダリティを使用することで実現される。 エンドユーザーを対象に,14名のインストラクターによるユーザスタディを行い,ABBの設計の有効性について検討した。 ユーザはインターフェイスビルダーの柔軟性とエージェント教育の容易さとスピードを享受できたが、多くの場合、追加の時間節約機能が望まれていた。 これらの知見により、私たちは、チューターの作成とカスタマイズにインタラクティブなAIエージェントを利用する、私たちのプラットフォームと他のプラットフォームのための一連のデザインレコメンデーションを特定しました。

Intelligent tutoring systems (ITS) are effective for improving students' learning outcomes. However, their development is often complex, time-consuming, and requires specialized programming and tutor design knowledge, thus hindering their widespread application and personalization. We present the Apprentice Tutor Builder (ATB) , a platform that simplifies tutor creation and personalization. Instructors can utilize ATB's drag-and-drop tool to build tutor interfaces. Instructors can then interactively train the tutors' underlying AI agent to produce expert models that can solve problems. Training is achieved via using multiple interaction modalities including demonstrations, feedback, and user labels. We conducted a user study with 14 instructors to evaluate the effectiveness of ATB's design with end users. We found that users enjoyed the flexibility of the interface builder and ease and speed of agent teaching, but often desired additional time-saving features. With these insights, we identified a set of design recommendations for our platform and others that utilize interactive AI agents for tutor creation and customization.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 長期データセットにおける文脈認識ビデオ異常検出

Context-aware Video Anomaly Detection in Long-Term Datasets ( http://arxiv.org/abs/2404.07887v1 )

ライセンス: Link先を確認
Zhengye Yang, Richard Radke, (参考訳) ビデオ異常検出の研究は通常、短い、孤立したベンチマークビデオで数分で評価される。 しかし、現実の環境では、セキュリティカメラは同じ場面を何ヶ月、何年にもわたって観察し、異常な振る舞いの概念は、日時、曜日、イベントのスケジュールといった文脈に大きく依存する。 本稿では,これらのシナリオに特化して,コンテキスト対応のビデオ異常検出アルゴリズムであるTrinityを提案する。 トリニティは、個人が簡単に追跡できない混雑したシーンに特に適しており、異常はグループの動きの速度、方向、欠如によるものである。 Trinityは、コンテクスト、外観、動きのアライメントを学習することを目的とした、対照的な学習フレームワークである。 従来のベンチマークと3ヶ月以上にわたって収集した公開Webカメラベースのデータセットの両方でアルゴリズムを評価した。

Video anomaly detection research is generally evaluated on short, isolated benchmark videos only a few minutes long. However, in real-world environments, security cameras observe the same scene for months or years at a time, and the notion of anomalous behavior critically depends on context, such as the time of day, day of week, or schedule of events. Here, we propose a context-aware video anomaly detection algorithm, Trinity, specifically targeted to these scenarios. Trinity is especially well-suited to crowded scenes in which individuals cannot be easily tracked, and anomalies are due to speed, direction, or absence of group motion. Trinity is a contrastive learning framework that aims to learn alignments between context, appearance, and motion, and uses alignment quality to classify videos as normal or anomalous. We evaluate our algorithm on both conventional benchmarks and a public webcam-based dataset we collected that spans more than three months of activity.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# 半無限フォトニック導波路に結合した巨大原子を持つ非マルコフ動力学

Non-Markovian dynamics with a giant atom coupled to a semi-infinite photonic waveguide ( http://arxiv.org/abs/2404.07890v1 )

ライセンス: Link先を確認
Z. Y. Li, H. Z. Shen, (参考訳) 導波路の終端に完璧な鏡がある複数の結合点を通して1次元半無限導波路と相互作用する2層巨大原子の非マルコフ動力学を研究する。 この系は、隣接する結合点間の光子の移動時間が、巨大原子の素緩和速度の逆に比べて十分に大きいとき、非マルコフ過程に入る。 原子の自発放出により放出される光子は、導波路を介して複数の結合点間を移動させたり、鏡の反射後にラウンドトリップを完了した原子を介して放出された光子と原子によって再吸収され、光子が閉じ込められ、束縛状態となる。 また,2つの境界状態を持つ周期的等振幅発振,3つの境界状態を持つ周期的非等振幅発振を含む3種類の境界状態がシステム内で形成可能であることがわかった。 3つの境界状態形成の物理的起源を明らかにする。 さらに,不必要なモードの消散や境界状態の軽視の影響についても検討する。 最後に、多くの巨大原子が1次元の半無限導波路に結合するより一般的なケースにシステムを拡張する。 得られた巨大原子の遅延微分方程式の集合は、半無限導波路に結合された多くの巨大原子の非マルコフ力学をよりよく理解する方法を開くかもしれない。

We study the non-Markovian dynamics of a two-level giant atom interacting with a one-dimensional semi-infinite waveguide through multiple coupling points, where a perfect mirror is located at the endpoint of the waveguide. The system enters a non-Markovian process when the travel time of the photon between adjacent coupling points is sufficiently large compared to the inverse of the bare relaxation rate of the giant atom. The photon released by the spontaneous emission of the atom transfers between multiple coupling points through the waveguide or is reabsorbed by the atom with the photon emitted via the atom having completed the round trip after reflection of the mirror, which leads to the photon being trapped and forming bound states. We find that three different types of bound states can be formed in the system, containing the static bound states with no inversion of population, the periodic equal amplitude oscillation with two bound states, and the periodic non-equal amplitude oscillation with three bound states. The physical origins of three bound states formation are revealed. Moreover, we consider the influences of the dissipation of unwanted modes and dephasing on the bound states. Finally, we extend the system to a more general case involving many giant atoms coupled into a one-dimensional semi-infinite waveguide. The obtained set of delay differential equations for the giant atoms might open a way to better understand the non-Markovian dynamics of many giant atoms coupled to a semi-infinite waveguide.
翻訳日:2024-04-12 13:20:46 公開日:2024-04-11
# リアルなWebサイトフィンガープリントのためのTorトレーサの計測

A Measurement of Genuine Tor Traces for Realistic Website Fingerprinting ( http://arxiv.org/abs/2404.07892v1 )

ライセンス: Link先を確認
Rob Jansen, Ryan Wails, Aaron Johnson, (参考訳) ウェブサイトのフィンガープリント(WF)は、暗号化、VPN、Torなどの匿名ネットワークの利用にもかかわらず、相手が訪問しているウェブサイトを予測できるようにするため、Webプライバシに対する危険な攻撃である。 以前のWFの作業は、合成データが現実世界を誤って表現している証拠にもかかわらず、その性能を評価し、WF攻撃の可能性を評価するために、ほぼ独占的に合成データセットを使用していた。 本稿では,Torネットワークの大規模計測により得られたTorトレースの最初のWFデータセットであるGTT23について述べる。 GTT23は、既存のWFデータセットよりも実際のTorユーザ行動が優れており、少なくとも1桁の規模で既存のWFデータセットよりも大きい。 本稿では,過去15年間に発行された25のWFデータセットを調査し,その特性をGTT23と比較する。 我々は,実際のTorユーザを対象としたWF攻撃の有効性に関する有意義な結論を導出するために,GTT23よりも劣る合成データセットの共通の欠陥を発見した。 我々は,再現可能な研究を促進するためにGTT23を利用可能にした。

Website fingerprinting (WF) is a dangerous attack on web privacy because it enables an adversary to predict the website a user is visiting, despite the use of encryption, VPNs, or anonymizing networks such as Tor. Previous WF work almost exclusively uses synthetic datasets to evaluate the performance and estimate the feasibility of WF attacks despite evidence that synthetic data misrepresents the real world. In this paper we present GTT23, the first WF dataset of genuine Tor traces, which we obtain through a large-scale measurement of the Tor network. GTT23 represents real Tor user behavior better than any existing WF dataset, is larger than any existing WF dataset by at least an order of magnitude, and will help ground the future study of realistic WF attacks and defenses. In a detailed evaluation, we survey 25 WF datasets published over the last 15 years and compare their characteristics to those of GTT23. We discover common deficiencies of synthetic datasets that make them inferior to GTT23 for drawing meaningful conclusions about the effectiveness of WF attacks directed at real Tor users. We have made GTT23 available to promote reproducible research and to help inspire new directions for future work.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 文脈非依存学習による電力グリッドの異常検出

Anomaly Detection in Power Grids via Context-Agnostic Learning ( http://arxiv.org/abs/2404.07898v1 )

ライセンス: Link先を確認
SangWoo Park, Amritanshu Pandey, (参考訳) グリッドオペレーターは、自然に発生するか悪意のあるかにかかわらず、障害に対する防御に使用する重要なツールであり、電力系統SCADAデータ内の異常を検出する。 本稿では,リアルタイムな異常検出問題を解くことを目的とする。 グリッド上のセンサの固定セットから得られる時系列測定値を考えると、ネットワークトポロジや測定データの異常を識別できるだろうか? 既存の手法は、主に最適化ベースで、測定値のスナップショットを1つだけ使用し、ネットワークサイズとうまくスケールしない。 近年のデータ駆動型ML技術は、現在と過去のデータを組み合わせて異常検出を行っているが、一般的にはトポロジや負荷/世代変化がセンサ測定に与える影響のような物理的特性を考慮せず、歴史的データに通常の文脈変数が適用できない。 このギャップに対処するために,正規位相と負荷/発生変化の影響を考慮し,文脈認識型異常検出アルゴリズムであるGridCALを提案する。 本アルゴリズムは,実時間潮流計測を文脈に依存しない値に変換することにより,異なる格子コンテキストから得られる測定を集約的に解析し,異常検出の基礎となる統一統計モデルを導出する。 最大2383ノードまでのネットワーク上での数値シミュレーションにより、我々のアプローチは正確であり、最先端のアプローチよりも優れ、計算効率が良いことを示す。

An important tool grid operators use to safeguard against failures, whether naturally occurring or malicious, involves detecting anomalies in the power system SCADA data. In this paper, we aim to solve a real-time anomaly detection problem. Given time-series measurement values coming from a fixed set of sensors on the grid, can we identify anomalies in the network topology or measurement data? Existing methods, primarily optimization-based, mostly use only a single snapshot of the measurement values and do not scale well with the network size. Recent data-driven ML techniques have shown promise by using a combination of current and historical data for anomaly detection but generally do not consider physical attributes like the impact of topology or load/generation changes on sensor measurements and thus cannot accommodate regular context-variability in the historical data. To address this gap, we propose a novel context-aware anomaly detection algorithm, GridCAL, that considers the effect of regular topology and load/generation changes. This algorithm converts the real-time power flow measurements to context-agnostic values, which allows us to analyze measurement coming from different grid contexts in an aggregate fashion, enabling us to derive a unified statistical model that becomes the basis of anomaly detection. Through numerical simulations on networks up to 2383 nodes, we show that our approach is accurate, outperforming state-of-the-art approaches, and is computationally efficient.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 大規模言語モデルにおける高次元人間の価値表現

High-Dimension Human Value Representation in Large Language Models ( http://arxiv.org/abs/2404.07900v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung, (参考訳) 様々なタスクや分野にまたがる大規模言語モデル(LLM)の広範な適用は、これらのモデルの人間的価値や嗜好との整合性を必要としている。 RLHF(Reinforcement Learning with Human Feedback)から、立憲学習など、人間の価値アライメントのさまざまなアプローチを考えると、そのリリース前にこれらのモデルに注入された人間の価値の範囲と性質を理解する必要がある。 また、コストのかかる大規模な人的アノテーションを使わずに、モデルアライメントも必要です。 本稿では,LLMにおける人的価値分布の高次元表現であるUniVaRを提案する。 LlaMA2, ChatGPT, JAIS, Yi の4つの多言語 LLM の値関連出力から学習し,UniVaR は異なる LLM に埋め込まれた人間の値の分布を異なる言語源と比較する強力なツールであることを示す。 UniVaRを通じて、異なるLLMが異なる言語や文化の様々な価値を優先し、人間の価値と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。

The widespread application of Large Language Models (LLMs) across various tasks and fields has necessitated the alignment of these models with human values and preferences. Given various approaches of human value alignment, ranging from Reinforcement Learning with Human Feedback (RLHF), to constitutional learning, etc. there is an urgent need to understand the scope and nature of human values injected into these models before their release. There is also a need for model alignment without a costly large scale human annotation effort. We propose UniVaR, a high-dimensional representation of human value distributions in LLMs, orthogonal to model architecture and training data. Trained from the value-relevant output of eight multilingual LLMs and tested on the output from four multilingual LLMs, namely LlaMA2, ChatGPT, JAIS and Yi, we show that UniVaR is a powerful tool to compare the distribution of human values embedded in different LLMs with different langauge sources. Through UniVaR, we explore how different LLMs prioritize various values in different languages and cultures, shedding light on the complex interplay between human values and language modeling.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# HGRN2: 状態拡張を備えたGated Linear RNN

HGRN2: Gated Linear RNNs with State Expansion ( http://arxiv.org/abs/2404.07904v1 )

ライセンス: Link先を確認
Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong, (参考訳) 階層化された線形RNN(HGRN,Qin,al 2023)は、効率的な推論を提供しながら、言語モデリングにおける競争的なトレーニング速度と性能を実証している。 しかし、HGRNの繰り返し状態サイズは比較的小さく、その表現性を制限しているため、線形的注意から着想を得たこの問題に対処するために、新たなパラメータを導入することなく、再帰状態サイズを著しく拡大できる単純な外部積ベースの状態拡張機構を導入する。 我々の大規模な実験は、言語モデリング、画像分類、Long Range ArenaにおいてHGRN1よりもHGRN1の方が優れていることを検証する。我々の最大の3B HGRN2モデルは、制御された実験環境では、言語モデリングのためのMambaとLLaMa Architecture Transformerをわずかに上回っている。

Hierarchically gated linear RNN (HGRN,Qin et al. 2023) has demonstrated competitive training speed and performance in language modeling, while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, which limits its expressiveness.To address this issue, inspired by linear attention, we introduce a simple outer-product-based state expansion mechanism so that the recurrent state size can be significantly enlarged without introducing any additional parameters. The linear attention form also allows for hardware-efficient training.Our extensive experiments verify the advantage of HGRN2 over HGRN1 in language modeling, image classification, and Long Range Arena.Our largest 3B HGRN2 model slightly outperforms Mamba and LLaMa Architecture Transformer for language modeling in a controlled experiment setting; and performs competitively with many open-source 3B models in downstream evaluation while using much fewer total training tokens.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 調和振動子の圧縮状態のモデルとしてのポアンカレディスク

Poincaré disk as a model of squeezed states of a harmonic oscillator ( http://arxiv.org/abs/2404.07905v1 )

ライセンス: Link先を確認
Ian Chi, Martin Fraas, Tina Tan, (参考訳) 単モード圧縮状態はポアンカーの円盤上の点と直接対応している。 本研究では、この対応を掘り下げ、二次ハミルトニアンによって生成された円盤の運動を記述する。 これは、圧縮された状態とその進化の幾何学的表現を提供する。 絞圧状態を含むバンバンおよび断熱制御問題における応用について論じる。

Single-mode squeezed states exhibit a direct correspondence with points on the Poincar\'e disk. In this study, we delve into this correspondence and describe the motions of the disk generated by a quadratic Hamiltonian. This provides a geometric representation of squeezed states and their evolution. We discuss applications in bang-bang and adiabatic control problems involving squeezed states.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# フェルミオン熱場理論における量子計算

Quantum computation in fermionic thermal field theories ( http://arxiv.org/abs/2404.07912v1 )

ライセンス: Link先を確認
Wenyang Qian, Bin Wu, (参考訳) 有限温度での量子場の熱的性質は、強く相互作用する物質を理解するために不可欠であり、量子コンピューティングにおける最近の発展は、代替的で有望な研究の道筋となった。 本研究では,量子アルゴリズムを用いてフェルミオンのみを含む熱場理論を研究する。 まず、汎用量子場理論の熱的性質を評価するために用いられる量子想像時間進化のような量子アルゴリズムとともに、デジタル量子コンピュータ上の量子ビットによるフェルミオン場のプレゼンテーションを探索する。 具体的には、Majoranaフェルミオンの熱分布やエネルギー密度などの数値計算結果を量子シミュレーターを用いて1+1次元で示す。 自由場理論に加えて、空間的に均質なマヨナ場との結合から生じる相互作用の効果についても検討する。 どちらの場合も、位相空間分布を用いて系の熱的性質を記述できることを解析的に示し、量子シミュレーションの結果は解析的および半古典的期待値と一致することを示す。 我々の研究は、熱的固定点を理解するための重要なステップであり、リアルタイムの熱化の量子シミュレーションの準備である。

Thermal properties of quantum fields at finite temperature are crucial to understanding strongly interacting matter and recent development in quantum computing has provided an alternative and promising avenue of study. In this work, we study thermal field theories involving only fermions using quantum algorithms. We first delve into the presentations of fermion fields via qubits on digital quantum computers alongside the quantum algorithms such as quantum imaginary time evolutions employed to evaluate thermal properties of generic quantum field theories. Specifically, we show numerical results such as the thermal distribution and the energy density of thermal field theories for Majorana fermions in 1+1 dimensions using quantum simulators. In addition to free field theory, we also study the effects of interactions resulting from coupling with a spatially homogeneous Majorana field. In both cases, we show analytically that thermal properties of the system can be described using phase-space distributions, and the quantum simulation results agree with analytical and semiclassical expectations. Our work is an important step to understand thermal fixed points, preparing for quantum simulation of thermalization in real time.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 横磁場による炭化ケイ素中のスピン多極体の動的配向

Dynamical Reorientation of Spin Multipoles in Silicon Carbide by Transverse Magnetic Fields ( http://arxiv.org/abs/2404.07915v1 )

ライセンス: Link先を確認
A. Hernández-Mínguez, A. V. Poshakinskiy, M. Hollenbach, P. V. Santos, G. V. Astakhov, (参考訳) ケイ素炭化物中の負電荷のシリコン空孔(\mathrm{V_{Si}}$)の長寿命かつ光学的に対応可能な高スピン状態は、量子技術への応用に有望なシステムである。 スピンダイナミクスのほとんどの研究は、対称性軸に沿って適用された外部磁場で行われている。 ここでは、対称軸に垂直な弱磁場の適用は、光励起下での$\mathrm{V_{Si}}$スピン多重極の動的再配向に起因する非自明な振舞いを引き起こす。 特に、励起状態における四極子スピン偏極の反転と基底状態における双極子スピン偏極の出現を観察する。 後者は熱偏光よりもはるかに高く、光励起だけでは誘導できない。 我々の理論計算はスピン共鳴スペクトルのシャープな特徴をよく再現し、これらの固体系におけるスピン多極体の複雑な力学に光を当てる。

The long-lived and optically addressable high-spin state of the negatively charged silicon vacancy ($\mathrm{V_{Si}}$) in silicon carbide makes it a promising system for applications in quantum technologies. Most studies of its spin dynamics have been performed in external magnetic fields applied along the symmetry axis. Here, we find that the application of weak magnetic fields perpendicular to the symmetry axis leads to nontrivial behavior caused by dynamical reorientation of the $\mathrm{V_{Si}}$ spin multipole under optical excitation. Particularly, we observe the inversion of the quadrupole spin polarization in the excited state and appearance of the dipole spin polarization in the ground state. The latter is much higher than thermal polarization and cannot be induced solely by optical excitation. Our theoretical calculations reproduce well all sharp features in the spin resonance spectra, and shine light on the complex dynamics of spin multipoles in these kinds of solid-state systems.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# DesignQA: 大規模言語モデルのエンジニアリング文書化理解のためのマルチモーダルベンチマーク

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation ( http://arxiv.org/abs/2404.07917v1 )

ライセンス: Link先を確認
Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Hyunmin Cheong, Faez Ahmed, (参考訳) 本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。 DesignQAは、実世界のエンジニアリング課題に焦点をあてて開発され、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータを含むテキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。 多くの既存のMLLMベンチマークとは異なり、DesignQAには、入力画像と入力文書が異なるソースからどこから来るかという、文書による視覚的な疑問が含まれている。 このベンチマークでは、自動評価メトリクスが特徴で、要求に従って設計する際にエンジニアが実行するタスクに基づいて、セグメントルール理解、ルールコンプライアンス、ルール抽出に分けられる。 我々は、GPT4やLLaVAのような最先端のモデルをベンチマークと比較し、複雑なエンジニアリング文書を解釈するMLLMの既存のギャップを明らかにする。 鍵となる発見は、MLLMは技術文書をナビゲートする可能性を示しているが、特にエンジニアリング設計に詳細な要件を正確に抽出し適用する際には、かなりの制限が存在することを示唆している。 このベンチマークは、AIをサポートするエンジニアリング設計プロセスの今後の進歩の基盤となる。 DesignQAは、https://github.com/anniedoris/design_qa/.comで公開されている。

This research introduces DesignQA, a novel benchmark aimed at evaluating the proficiency of multimodal large language models (MLLMs) in comprehending and applying engineering requirements in technical documentation. Developed with a focus on real-world engineering challenges, DesignQA uniquely combines multimodal data-including textual design requirements, CAD images, and engineering drawings-derived from the Formula SAE student competition. Different from many existing MLLM benchmarks, DesignQA contains document-grounded visual questions where the input image and input document come from different sources. The benchmark features automatic evaluation metrics and is divided into segments-Rule Comprehension, Rule Compliance, and Rule Extraction-based on tasks that engineers perform when designing according to requirements. We evaluate state-of-the-art models like GPT4 and LLaVA against the benchmark, and our study uncovers the existing gaps in MLLMs' abilities to interpret complex engineering documentation. Key findings suggest that while MLLMs demonstrate potential in navigating technical documents, substantial limitations exist, particularly in accurately extracting and applying detailed requirements to engineering designs. This benchmark sets a foundation for future advancements in AI-supported engineering design processes. DesignQA is publicly available at: https://github.com/anniedoris/design_qa/.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 可変検出器結合による測定誘起相転移の制御

Controlling measurement induced phase transitions with tunable detector coupling ( http://arxiv.org/abs/2404.07918v1 )

ライセンス: Link先を確認
Ritu Nehra, Alessandro Romito, Dganit Meidan, (参考訳) 2つの競合する測定によって駆動される量子多体系の進化について検討し、2つの異なる領域法相間のトポロジ的絡み合い遷移を誘導する。 我々は、自由フェルミオン力学における系と検出器の間の可変結合を持つ正の演算子値測定を用いる。 このアプローチは、射影と連続的な監視の間の遷移の普遍的性質を継続的に追跡することを可能にする。 その結果,系-検出器結合が減少すると,射影限界における遷移のパーコレーション普遍性が不安定であることが示唆された。

We study the evolution of a quantum many-body system driven by two competing measurements, which induces a topological entanglement transition between two distinct area law phases. We employ a positive operator-valued measurement with variable coupling between the system and detector within free Fermion dynamics. This approach allows us to continuously track the universal properties of the transition between projective and continuous monitoring. Our findings suggest that the percolation universality of the transition in the projective limit is unstable when the system-detector coupling is reduced.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 時空間予測のための低ランク適応

Low-rank Adaptation for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2404.07919v1 )

ライセンス: Link先を確認
Weilin Ruan, Wei Chen, Xilin Dang, Jianxiang Zhou, Weichuang Li, Xu Liu, Yuxuan Liang, (参考訳) 時空間予測は現実世界の動的システムにおいて重要であり、様々な場所の歴史的データを用いて将来の変化を予測する。 既存の手法では、複雑なニューラルネットワークの開発を優先して、データの複雑な依存関係をキャプチャすることが多いが、その精度は持続的な改善を示すことができない。 さらに、これらの手法はノードの不均一性も見落としており、カスタマイズされた予測モジュールが多様なノードを効果的に扱うことを妨げている。 本稿では,従来の時空間予測モデルであるST-LoRAのオフザシェルフプラグインとして,新しいモデルを提案するのではなく,ノードレベルの調整によって上記の問題を緩和する,新しい低ランク適応フレームワークを提案することを目的とする。 具体的には、複数のトレーニング可能な低ランク行列からなるノード適応型低ランク層を最初に調整する。 さらに, 各種モデルの予測モジュールに低ランクアダプタを注入する多層残留核融合加群を考案した。 実世界の6つのトラフィックデータセットと6種類の時空間予測モデルに対して、我々のアプローチは、元のモデルのパラメータとトレーニング時間を4%以下に最小限に増やし、一貫性と持続的なパフォーマンス向上を実現している。

Spatio-temporal forecasting is crucial in real-world dynamic systems, predicting future changes using historical data from diverse locations. Existing methods often prioritize the development of intricate neural networks to capture the complex dependencies of the data, yet their accuracy fails to show sustained improvement. Besides, these methods also overlook node heterogeneity, hindering customized prediction modules from handling diverse regional nodes effectively. In this paper, our goal is not to propose a new model but to present a novel low-rank adaptation framework as an off-the-shelf plugin for existing spatial-temporal prediction models, termed ST-LoRA, which alleviates the aforementioned problems through node-level adjustments. Specifically, we first tailor a node adaptive low-rank layer comprising multiple trainable low-rank matrices. Additionally, we devise a multi-layer residual fusion stacking module, injecting the low-rank adapters into predictor modules of various models. Across six real-world traffic datasets and six different types of spatio-temporal prediction models, our approach minimally increases the parameters and training time of the original models by less than 4%, still achieving consistent and sustained performance enhancement.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# AmpleGCG: オープンおよびクローズドの両方のLLMをジェイルブレイクするためのユニバーサルおよびトランスファー可能な逆接尾辞生成モデル学習

AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs ( http://arxiv.org/abs/2404.07921v1 )

ライセンス: Link先を確認
Zeyi Liao, Huan Sun, (参考訳) 大規模言語モデル(LLM)がますます普及し、自律システムに統合されるにつれて、その安全性は不可欠である。 近年のGCG~\citep{zou2023universal} では,安全性向上に向けた大きな前進にもかかわらず,離散トークン最適化アルゴリズムを提案し,単一サフィックスを最小の損失で選択し,ジェイルブレイクアライメントされたLDMを成功させる。 本研究はまず,GCG最適化時に最も損失の少ない接尾辞のみを選択することの欠点について論じ,中間段階において失敗した接尾辞の発見を行う。 さらに、これらのサフィックスをトレーニングデータとして利用して、有害なクエリを与えられた逆サフィックスの分布をキャプチャし、有害なクエリに対する数百サフィックスを数秒で高速に生成する、AmpleGCGという生成モデルを学ぶ。 AmpleGCGはLLM(Llama-2-7B-chatとVicuna-7B)上で100倍近い攻撃成功率(ASR)を達成する。 さらに興味深いことに、AmpleGCGは、最新のGPT-3.5で99\%のASRを達成するために、クローズドソースLLMを含むさまざまなモデルにシームレスに転送する。 要約すると、我々の研究は、いかなる有害なクエリにも普遍的で、オープンソースLSMからクローズドソースLSMへの攻撃から移行可能な逆接尾辞の生成モデルを訓練することで、GCGの影響を増幅する。 さらに、1つの有害なクエリに対してわずか4秒で200の逆サフィックスを生成することができるため、防御がより困難になる。

As large language models (LLMs) become increasingly prevalent and integrated into autonomous systems, ensuring their safety is imperative. Despite significant strides toward safety alignment, recent work GCG~\citep{zou2023universal} proposes a discrete token optimization algorithm and selects the single suffix with the lowest loss to successfully jailbreak aligned LLMs. In this work, we first discuss the drawbacks of solely picking the suffix with the lowest loss during GCG optimization for jailbreaking and uncover the missed successful suffixes during the intermediate steps. Moreover, we utilize those successful suffixes as training data to learn a generative model, named AmpleGCG, which captures the distribution of adversarial suffixes given a harmful query and enables the rapid generation of hundreds of suffixes for any harmful queries in seconds. AmpleGCG achieves near 100\% attack success rate (ASR) on two aligned LLMs (Llama-2-7B-chat and Vicuna-7B), surpassing two strongest attack baselines. More interestingly, AmpleGCG also transfers seamlessly to attack different models, including closed-source LLMs, achieving a 99\% ASR on the latest GPT-3.5. To summarize, our work amplifies the impact of GCG by training a generative model of adversarial suffixes that is universal to any harmful queries and transferable from attacking open-source LLMs to closed-source LLMs. In addition, it can generate 200 adversarial suffixes for one harmful query in only 4 seconds, rendering it more challenging to defend.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# LaVy: ベトナムのマルチモーダル大言語モデル

LaVy: Vietnamese Multimodal Large Language Model ( http://arxiv.org/abs/2404.07922v1 )

ライセンス: Link先を確認
Chi Tran, Huong Le Thanh, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。 一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。 本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 all code and model weights is public at https://github.com/baochi0212/LaVy

Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. All code and model weights are public at https://github.com/baochi0212/LaVy
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# CNN-LSTMを用いたストリームフロー予測のための同期セットアップ

A Parsimonious Setup for Streamflow Forecasting using CNN-LSTM ( http://arxiv.org/abs/2404.07924v1 )

ライセンス: Link先を確認
Sudan Pokharel, Tirthankar Roy, (参考訳) 特に最先端の機械学習モデルの導入によって、ストリームフロー予測の進展に重要な進展が見られた。 典型的には、Long Short-Term Memories (LSTM) とConvolution Neural Networks (CNN) がこの領域で広く使われている。 LSTMは降雨・降雨・時系列設定の両方に適用できるが、CNN-LSTMは主に降雨・降雨シナリオで利用されてきた。 本研究では,CNN-LSTMの適用範囲を時系列設定に拡張し,降水量と温度データとともにラッジストリームフローデータを利用してストリームフローを予測する。 ネブラスカ州の32のHUC8流域のうち21か所で予測性能が大幅に向上し,Kling-Gupta efficiency(KGE)値の顕著な上昇が見られた。 これらの結果は, 時系列設定におけるCNN-LSTMの有効性, 特に時空間水文モデリングにおいて, より正確で堅牢なストリームフロー予測に有効であることを示す。

Significant strides have been made in advancing streamflow predictions, notably with the introduction of cutting-edge machine-learning models. Predominantly, Long Short-Term Memories (LSTMs) and Convolution Neural Networks (CNNs) have been widely employed in this domain. While LSTMs are applicable in both rainfall-runoff and time series settings, CNN-LSTMs have primarily been utilized in rainfall-runoff scenarios. In this study, we extend the application of CNN-LSTMs to time series settings, leveraging lagged streamflow data in conjunction with precipitation and temperature data to predict streamflow. Our results show a substantial improvement in predictive performance in 21 out of 32 HUC8 basins in Nebraska, showcasing noteworthy increases in the Kling-Gupta Efficiency (KGE) values. These results highlight the effectiveness of CNN-LSTMs in time series settings, particularly for spatiotemporal hydrological modeling, for more accurate and robust streamflow predictions.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 大規模言語モデル(LLM)を活用した協調型ヒューマンAIオンラインリスクデータアノテーション

Leveraging Large Language Models (LLMs) to Support Collaborative Human-AI Online Risk Data Annotation ( http://arxiv.org/abs/2404.07926v1 )

ライセンス: Link先を確認
Jinkyung Park, Pamela Wisniewski, Vivek Singh, (参考訳) 本稿では,LLMをインタラクティブな研究ツールとして活用することで,人間のコーダとAIのコラボレーションを促進し,大規模オンラインリスクデータを効果的にアノテートする可能性について論じる。 協調型AIラベリングは、様々なタスクのために大規模で複雑なデータを注釈付けするための有望なアプローチである。 しかし、データアノテーションのための効果的な人間とAIの協調を支援するツールや方法はまだ研究されていない。 このギャップは、特に、高度に主観的で文脈化されたオンラインリスクの文脈において、ニュアンスとコンテキストを追加することができる双方向の対話的な議論をサポートする必要があるため、関係している。 そこで我々は,リスクアノテーションにLLMをベースとしたツールを使用することの早期メリットと課題について紹介し,HCI研究コミュニティがLLMを研究ツールとして活用し,コンテキスト化されたオンラインデータアノテーションにおける人間とAIのコラボレーションを促進するための今後の方向性を提案する。 我々の研究関心は、LLMs as Research Toolsワークショップの目的と非常によく一致し、HCI研究でデータを扱うためにLLMを使うことの課題と、現在進行中のアプリケーションを特定する。 我々は、組織や参加者から貴重な洞察を得て、データを扱うためのHCIコミュニティの手法を再形成する上でLLMをどのように役立つかを期待する。

In this position paper, we discuss the potential for leveraging LLMs as interactive research tools to facilitate collaboration between human coders and AI to effectively annotate online risk data at scale. Collaborative human-AI labeling is a promising approach to annotating large-scale and complex data for various tasks. Yet, tools and methods to support effective human-AI collaboration for data annotation are under-studied. This gap is pertinent because co-labeling tasks need to support a two-way interactive discussion that can add nuance and context, particularly in the context of online risk, which is highly subjective and contextualized. Therefore, we provide some of the early benefits and challenges of using LLMs-based tools for risk annotation and suggest future directions for the HCI research community to leverage LLMs as research tools to facilitate human-AI collaboration in contextualized online data annotation. Our research interests align very well with the purposes of the LLMs as Research Tools workshop to identify ongoing applications and challenges of using LLMs to work with data in HCI research. We anticipate learning valuable insights from organizers and participants into how LLMs can help reshape the HCI community's methods for working with data.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# 可視赤外人物再同定のためのパラメータ階層最適化

Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2404.07930v1 )

ライセンス: Link先を確認
Zeng YU, Yunxiao Shi, (参考訳) Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。 既存の手法は、異なる種類のネットワークアーキテクチャを設計することで、モダリティの相違を緩和する。 本稿では,新しいパラメータ最適化パラダイム,パラメータ階層最適化(PHO)手法を提案する。 これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。 具体的には、まずパラメータを異なるタイプに分割し、次に自己適応的アライメント戦略(SAS)を導入し、変換を通じて可視および赤外線画像を自動的にアライメントする。 異なる次元における特徴が様々な重要性を持つことを考慮し、その重要性に応じて特徴を自動的に重み付けできる自動重み付きアライメント学習(AAL)モジュールを開発する。 重要なことは、SASとAALのアライメントプロセスにおいて、全てのパラメータは、ネットワーク全体をトレーニングするのではなく、即座に最適化原則で最適化される。 さらに,多言語間一貫した学習(CCL)の損失を確定し,翻訳整合性を持つ識別的人物表現を抽出する。 提案手法が既存のVI-reID手法より優れているという理論的正当性および実証的証拠を提供する。

Visible-infrared person re-identification (VI-reID) aims at matching cross-modality pedestrian images captured by disjoint visible or infrared cameras. Existing methods alleviate the cross-modality discrepancies via designing different kinds of network architectures. Different from available methods, in this paper, we propose a novel parameter optimizing paradigm, parameter hierarchical optimization (PHO) method, for the task of VI-ReID. It allows part of parameters to be directly optimized without any training, which narrows the search space of parameters and makes the whole network more easier to be trained. Specifically, we first divide the parameters into different types, and then introduce a self-adaptive alignment strategy (SAS) to automatically align the visible and infrared images through transformation. Considering that features in different dimension have varying importance, we develop an auto-weighted alignment learning (AAL) module that can automatically weight features according to their importance. Importantly, in the alignment process of SAS and AAL, all the parameters are immediately optimized with optimization principles rather than training the whole network, which yields a better parameter training manner. Furthermore, we establish the cross-modality consistent learning (CCL) loss to extract discriminative person representations with translation consistency. We provide both theoretical justification and empirical evidence that our proposed PHO method outperform existing VI-reID approaches.
翻訳日:2024-04-12 13:11:00 公開日:2024-04-11
# FusionMamba: 状態空間モデルによる効率的な画像融合

FusionMamba: Efficient Image Fusion with State Space Model ( http://arxiv.org/abs/2404.07932v1 )

ライセンス: Link先を確認
Siran Peng, Xiangyu Zhu, Haoyu Deng, Zhen Lei, Liang-Jian Deng, (参考訳) 画像融合は,高分解能画像と限られたスペクトル情報,高分解能画像と豊富なスペクトルデータを組み合わせることで,高分解能マルチ・ハイパスペクトル画像を生成することを目的としている。 画像融合のための現在のディープラーニング(DL)ベースの手法は、主にCNNやTransformerを使って特徴を抽出し、異なるタイプのデータをマージする。 CNNは効率的だが、受容野は限られており、グローバルなコンテキストを捉える能力に制限がある。 逆に、トランスフォーマーはグローバルな情報を学ぶのが得意だが、その二次的な複雑さによって妨げられる。 幸いなことに、ステートスペースモデル(SSM)の最近の進歩、特にMambaは、線形複雑性による世界的な認識を可能にすることで、この問題に対する有望な解決策を提供する。 しかし、画像融合のような領域において重要な機能である情報融合におけるSSMの可能性を探る試みは少ない。 そこで我々は,効率的な画像融合法であるFusionMambaを提案する。 私たちの貢献は主に2つの側面に焦点を当てています。 まず、異なるソースからの画像が異なる特性を持っていることを認識し、2つのU字型ネットワークにマンバブロックを組み込み、空間的特徴とスペクトル的特徴を効率的で独立的で階層的な方法で抽出する新しいアーキテクチャを提案する。 第二に、空間情報とスペクトル情報を効果的に組み合わせるために、二重入力に対応するためにマンバブロックを拡張する。 この拡張はFusionMambaブロックと呼ばれる新しいモジュールの作成につながります。 FusionMambaの有効性を検証するために、3つの画像融合タスクに関連する5つのデータセットについて一連の実験を行った。 定量的および定性的な評価結果から,FusionMambaの優位性を裏付けたSOTA(State-of-the-art)性能が得られた。

Image fusion aims to generate a high-resolution multi/hyper-spectral image by combining a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Current deep learning (DL)-based methods for image fusion primarily rely on CNNs or Transformers to extract features and merge different types of data. While CNNs are efficient, their receptive fields are limited, restricting their capacity to capture global context. Conversely, Transformers excel at learning global information but are hindered by their quadratic complexity. Fortunately, recent advancements in the State Space Model (SSM), particularly Mamba, offer a promising solution to this issue by enabling global awareness with linear complexity. However, there have been few attempts to explore the potential of SSM in information fusion, which is a crucial ability in domains like image fusion. Therefore, we propose FusionMamba, an innovative method for efficient image fusion. Our contributions mainly focus on two aspects. Firstly, recognizing that images from different sources possess distinct properties, we incorporate Mamba blocks into two U-shaped networks, presenting a novel architecture that extracts spatial and spectral features in an efficient, independent, and hierarchical manner. Secondly, to effectively combine spatial and spectral information, we extend the Mamba block to accommodate dual inputs. This expansion leads to the creation of a new module called the FusionMamba block, which outperforms existing fusion techniques such as concatenation and cross-attention. To validate FusionMamba's effectiveness, we conduct a series of experiments on five datasets related to three image fusion tasks. The quantitative and qualitative evaluation results demonstrate that our method achieves state-of-the-art (SOTA) performance, underscoring the superiority of FusionMamba.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 知識蒸留による単一視点シーン補完のための自己スーパービジョンの強化

Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation ( http://arxiv.org/abs/2404.07933v1 )

ライセンス: Link先を確認
Keonhee Han, Dominik Muhle, Felix Wimbauer, Daniel Cremers, (参考訳) Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。 古典的アプローチや近年では、深度マップの予測はシーンの可視部分のみに焦点をあてるが、シーン完了のタスクは、閉鎖された地域でも幾何学を推論することを目的としている。 ニューラルレイディアンス場 (NeRF) の普及に伴い, いわゆる密度場を予測することで, シーン完了に暗黙の表現が普及した。 明示的なアプローチとは違い。 密度場は、画像ベースのレンダリングによる正確な深度予測と新規ビュー合成を可能にする。 本研究では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に融合させることを提案する。 この目的のために,複数の画像から密度場を融合させるためのMVBTS(Multi-View Behind the Scenes)を提案する。 知識蒸留を用いて, MVBTSを用いて, KDBTS と呼ばれる直接監督を通して, ワンビューシーン完了ネットワークを訓練する。 これは、特に閉鎖された地域で、占有率の予測に関する最先端のパフォーマンスを達成する。

Inferring scene geometry from images via Structure from Motion is a long-standing and fundamental problem in computer vision. While classical approaches and, more recently, depth map predictions only focus on the visible parts of a scene, the task of scene completion aims to reason about geometry even in occluded regions. With the popularity of neural radiance fields (NeRFs), implicit representations also became popular for scene completion by predicting so-called density fields. Unlike explicit approaches. e.g. voxel-based methods, density fields also allow for accurate depth prediction and novel-view synthesis via image-based rendering. In this work, we propose to fuse the scene reconstruction from multiple images and distill this knowledge into a more accurate single-view scene reconstruction. To this end, we propose Multi-View Behind the Scenes (MVBTS) to fuse density fields from multiple posed images, trained fully self-supervised only from image data. Using knowledge distillation, we use MVBTS to train a single-view scene completion network via direct supervision called KDBTS. It achieves state-of-the-art performance on occupancy prediction, especially in occluded regions.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 線形プログラミングによるゴール認識

Goal Recognition via Linear Programming ( http://arxiv.org/abs/2404.07934v1 )

ライセンス: Link先を確認
Felipe Meneguzzi, Luísa R. de A. Santos, Ramon Fraga Pereira, André G. Pereira, (参考訳) ゴール認識(Goal Recognition)とは、観察者が一連の観察として与えられた対象エージェントの認知行動に対応する計画に対応する目標を識別することを目的としたタスクである。 計画としての目標認識に関する研究は、計画課題のモデル、観察、計画手法を用いた目標の推論を含み、非常に効率的な認識アプローチをもたらす。 本稿では,Operator-Countingフレームワークに依存し,新たな制約を提案し,理論的にも経験的にも制約の特性を解析する新しい認識手法を設計する。 Operator-Countingフレームワークは、Integer/Linear Programming (IP/LP)を使用して、コスト・ツー・ゴールのヒューリスティックな見積もりを効率的に計算する手法である。 理論の領域では、新しい制約が観測に準拠する計画のコストに低い限界をもたらすことを証明している。 また,新たな制約が解の質をどのように向上させるかを評価するための実験的な評価も行った。 第1に、新しいIP/LP制約が、部分的かつノイズの多い観測可能性の下で、目標の認識をいかに改善できるかを示す。

Goal Recognition is the task by which an observer aims to discern the goals that correspond to plans that comply with the perceived behavior of subject agents given as a sequence of observations. Research on Goal Recognition as Planning encompasses reasoning about the model of a planning task, the observations, and the goals using planning techniques, resulting in very efficient recognition approaches. In this article, we design novel recognition approaches that rely on the Operator-Counting framework, proposing new constraints, and analyze their constraints' properties both theoretically and empirically. The Operator-Counting framework is a technique that efficiently computes heuristic estimates of cost-to-goal using Integer/Linear Programming (IP/LP). In the realm of theory, we prove that the new constraints provide lower bounds on the cost of plans that comply with observations. We also provide an extensive empirical evaluation to assess how the new constraints improve the quality of the solution, and we found that they are especially informed in deciding which goals are unlikely to be part of the solution. Our novel recognition approaches have two pivotal advantages: first, they employ new IP/LP constraints for efficiently recognizing goals; second, we show how the new IP/LP constraints can improve the recognition of goals under both partial and noisy observability.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 二次予測誤差法における速度最適非漸近法

Rate-Optimal Non-Asymptotics for the Quadratic Prediction Error Method ( http://arxiv.org/abs/2404.07937v1 )

ライセンス: Link先を確認
Charis Stamouli, Ingvar Ziemann, George J. Pappas, (参考訳) 特定性条件を満たす時間変動パラメトリック予測モデルの2次予測誤差法(非線形最小二乗法)について検討する。 この方法は、幅広い問題に対して漸近的に最適な速度を達成することが知られているが、選択された少数の、典型的には線形なモデルクラス以外では、これらの最適速度と一致する非漸近的な結果が存在しない。 従属データによる学習から最新のツールを活用することで、非線形パラメタライズドモデルクラスのより一般的な設定のために、この手法の速度最適化非漸近解析を初めて提供する。 さらに,本研究の結果を特定可能な自己回帰移動平均(ARMA)モデルに適用し,ARMAモデルの同定に最適な非漸近速度が得られることを示した。

We study the quadratic prediction error method -- i.e., nonlinear least squares -- for a class of time-varying parametric predictor models satisfying a certain identifiability condition. While this method is known to asymptotically achieve the optimal rate for a wide range of problems, there have been no non-asymptotic results matching these optimal rates outside of a select few, typically linear, model classes. By leveraging modern tools from learning with dependent data, we provide the first rate-optimal non-asymptotic analysis of this method for our more general setting of nonlinearly parametrized model classes. Moreover, we show that our results can be applied to a particular class of identifiable AutoRegressive Moving Average (ARMA) models, resulting in the first optimal non-asymptotic rates for identification of ARMA models.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 公開コードレビューにおける要求品質保証のための統一型プロンプトチューニングについて

On Unified Prompt Tuning for Request Quality Assurance in Public Code Review ( http://arxiv.org/abs/2404.07942v1 )

ライセンス: Link先を確認
Xinyu Chen, Lin Li, Rui Zhang, Peng Liang, (参考訳) PCR(Public Code Review)は、高い知識の普及を促進するSoftware Question Answering (SQA)コミュニティを通じて実装することができる。 現在の手法は主に、有能なレビュアーを見つけること、コメントの品質を予測すること、レビューコメントを推奨/生成することなど、レビュアーの視点に焦点を当てている。 私たちの直感は、レビュー要求を満たすことで、その可視性が向上し、レビュー応答を改善するための前提条件になります。 この目的のために我々は,Masked Language Model (MLM) の下で,開発者ベースの要求品質保証(要求要求の予測とタグサブタスクの推奨)を補完する UniPCR と呼ばれる統一フレームワークを提案する。 具体的には 両方のサブタスクを 1) ハードプロンプトを使用してプロンプトテンプレートを構築することで、2つのサブタスクをMLMに変換するテキストプロンプトチューニング。 2) コードプレフィックスチューニング – 生成した連続ベクトルの小さなセグメントを,ソフトプロンプトを使ってコード表現のプレフィックスとして最適化する。 2011-2022年までのPublic Code Reviewデータセットの実験結果は、我々のUniPCRフレームワークが2つのサブタスクに適応し、要求品質保証のための最先端の手法で同等の精度に基づく結果より優れていることを示している。 これらの結論は、公開コードレビューにおける開発者の視点から、統合フレームワークの有効性を強調します。

Public Code Review (PCR) can be implemented through a Software Question Answering (SQA) community, which facilitates high knowledge dissemination. Current methods mainly focus on the reviewer's perspective, including finding a capable reviewer, predicting comment quality, and recommending/generating review comments. Our intuition is that satisfying review necessity requests can increase their visibility, which in turn is a prerequisite for better review responses. To this end, we propose a unified framework called UniPCR to complete developer-based request quality assurance (i.e., predicting request necessity and recommending tags subtask) under a Masked Language Model (MLM). Specifically, we reformulate both subtasks via 1) text prompt tuning, which converts two subtasks into MLM by constructing prompt templates using hard prompt; 2) code prefix tuning, which optimizes a small segment of generated continuous vectors as the prefix of the code representation using soft prompt. Experimental results on the Public Code Review dataset for the time span 2011-2022 demonstrate that our UniPCR framework adapts to the two subtasks and outperforms comparable accuracy-based results with state-of-the-art methods for request quality assurance. These conclusions highlight the effectiveness of our unified framework from the developer's perspective in public code review.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# テキストから360°パノラマ画像生成のためのスタブル拡散処理

Taming Stable Diffusion for Text to 360° Panorama Image Generation ( http://arxiv.org/abs/2404.07949v1 )

ライセンス: Link先を確認
Cheng Zhang, Qianyi Wu, Camilo Cruz Gambardella, Xiaoshui Huang, Dinh Phung, Wanli Ouyang, Jianfei Cai, (参考訳) 例えば、安定拡散(Stable Diffusion)と呼ばれる生成モデルは、テキストプロンプトからフォトリアリスティックな画像を作成することができる。 しかし、テキストから360度パノラマ画像を生成することは、特にペアのテキスト・パノラマデータと、パノラマ画像と視点画像の領域ギャップにより、依然として課題である。 本稿では,テキストプロンプトから360度画像を生成するために,PanFusionという新しい二重分岐拡散モデルを提案する。 安定拡散モデルを一つの分岐として利用して、自然画像生成の事前知識を提供し、それを他のパノラマブランチに登録し、全体像生成を行う。 本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。 実験により、PanFusionは既存の手法を超越し、そのデュアルブランチ構造により、カスタマイズされたパノラマ出力のための部屋レイアウトのような追加の制約を統合することができることを確認した。 コードはhttps://chengzhag.github.io/publication/panfusion.orgで公開されている。

Generative models, e.g., Stable Diffusion, have enabled the creation of photorealistic images from text prompts. Yet, the generation of 360-degree panorama images from text remains a challenge, particularly due to the dearth of paired text-panorama data and the domain gap between panorama and perspective images. In this paper, we introduce a novel dual-branch diffusion model named PanFusion to generate a 360-degree image from a text prompt. We leverage the stable diffusion model as one branch to provide prior knowledge in natural image generation and register it to another panorama branch for holistic image generation. We propose a unique cross-attention mechanism with projection awareness to minimize distortion during the collaborative denoising process. Our experiments validate that PanFusion surpasses existing methods and, thanks to its dual-branch structure, can integrate additional constraints like room layout for customized panorama outputs. Code is available at https://chengzhag.github.io/publication/panfusion.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation for Efficient Synthesis and Verification

Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation for Efficient Synthesis and Verification ( http://arxiv.org/abs/2404.07956v1 )

ライセンス: Link先を確認
Lujie Yang, Hongkai Dai, Zhouxing Shi, Cho-Jui Hsieh, Russ Tedrake, Huan Zhang, (参考訳) 学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。 しかし、非線形力学系を持つNNコントローラの領域トラクション(ROA)に対する形式的(リアプノフ)安定性の保証は困難であり、既存のアプローチの多くは、sums-of-squares(SOS)、mixed-integer Programming(MIP)、SMT(Satisfiability modulo theory)といった高価な解法に依存している。 本稿では、高速な経験的ファルシフィケーションと戦略的正規化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。 そこで本論文では,文献で示されるよりも大きなアトラクション領域(ROA)を定義し,リアプノフ誘導体に対する従来の制限制約を洗練し,証明可能なROAのみに焦点をあてる新しい定式化を提案する。 Lyapunov条件は、拡張性のある線形有界伝搬に基づくNN検証技術を用いて、分岐とバウンドで厳密に検証されている。 このアプローチは効率的で柔軟性があり、SOS、MIP、SMTの高価なソルバに頼ることなく、GPU上で完全なトレーニングと検証の手順が加速される。 筆者らのフレームワークの柔軟性と効率性により,合成NNベースのコントローラと形式的安定性保証を備えたNNベースのオブザーバによるリアプノフ安定出力フィードバック制御を文献で初めて実証することができる。 ソースコードはhttps://github.com/Verified-Intelligence/Lyapunov_Stable_NN_Controllersにある。

Learning-based neural network (NN) control policies have shown impressive empirical performance in a wide range of tasks in robotics and control. However, formal (Lyapunov) stability guarantees over the region-of-attraction (ROA) for NN controllers with nonlinear dynamical systems are challenging to obtain, and most existing approaches rely on expensive solvers such as sums-of-squares (SOS), mixed-integer programming (MIP), or satisfiability modulo theories (SMT). In this paper, we demonstrate a new framework for learning NN controllers together with Lyapunov certificates using fast empirical falsification and strategic regularizations. We propose a novel formulation that defines a larger verifiable region-of-attraction (ROA) than shown in the literature, and refines the conventional restrictive constraints on Lyapunov derivatives to focus only on certifiable ROAs. The Lyapunov condition is rigorously verified post-hoc using branch-and-bound with scalable linear bound propagation-based NN verification techniques. The approach is efficient and flexible, and the full training and verification procedure is accelerated on GPUs without relying on expensive solvers for SOS, MIP, nor SMT. The flexibility and efficiency of our framework allow us to demonstrate Lyapunov-stable output feedback control with synthesized NN-based controllers and NN-based observers with formal stability guarantees, for the first time in literature. Source code at https://github.com/Verified-Intelligence/Lyapunov_Stable_NN_Controllers.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# Rho-1:すべてのトークンが必要なものではない

Rho-1: Not All Tokens Are What You Need ( http://arxiv.org/abs/2404.07965v1 )

ライセンス: Link先を確認
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen, (参考訳) 以前の言語モデル事前学習手法は、すべてのトレーニングトークンに対して、一様に適用されている。 この規範に従えば、“コーパス内のすべてのトークンが、言語モデルトレーニングにおいて等しく重要であるわけではない”と仮定する。 最初の分析では、異なるトークンに対して異なる損失パターンを明らかにするために、言語モデルのトークンレベルのトレーニングダイナミクスについて検討した。 これらの知見を活用して、Rho-1と呼ばれる新しい言語モデルを導入する。 コーパス内の全ての次のトークンを予測することを学ぶ従来のLMとは異なり、Rho-1は選択言語モデリング(SLM)を採用している。 このアプローチでは、参照モデルを使用して事前トレーニングトークンをスコアリングし、過剰な損失の高いトークンに焦点を絞った言語モデルをトレーニングする。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。 微調整の後、Rho-1-1Bと7Bは、それぞれMATHデータセットで40.6%と51.8%の最先端の結果を得た。 さらに、80Bの一般的なトークンで事前トレーニングを行うと、Rho-1は15のタスクで平均6.8%の強化を実現し、言語モデルの事前トレーニングの効率とパフォーマンスが向上する。

Previous language model pre-training methods have uniformly applied a next-token prediction loss to all training tokens. Challenging this norm, we posit that "Not all tokens in a corpus are equally important for language model training". Our initial analysis delves into token-level training dynamics of language model, revealing distinct loss patterns for different tokens. Leveraging these insights, we introduce a new language model called Rho-1. Unlike traditional LMs that learn to predict every next token in a corpus, Rho-1 employs Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution. This approach involves scoring pretraining tokens using a reference model, and then training the language model with a focused loss on tokens with higher excess loss. When continual pretraining on 15B OpenWebMath corpus, Rho-1 yields an absolute improvement in few-shot accuracy of up to 30% in 9 math tasks. After fine-tuning, Rho-1-1B and 7B achieved state-of-the-art results of 40.6% and 51.8% on MATH dataset, respectively - matching DeepSeekMath with only 3% of the pretraining tokens. Furthermore, when pretraining on 80B general tokens, Rho-1 achieves 6.8% average enhancement across 15 diverse tasks, increasing both efficiency and performance of the language model pre-training.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 時空中性子のスピンエネルギー絡み合い

Spin-Energy Entanglement of a Time-Focused Neutron ( http://arxiv.org/abs/2404.07967v1 )

ライセンス: Link先を確認
J. C. Leiner, S. J. Kuhn, S. McKay, J. K. Jochum, F. Li, A. A. M. Irfan, F. Funama, D. Mettus, L. Beddrich, C. Franz, J. Shen, S. R. Parnell, R. M. Dalgliesh, M. Loyd, N. Geerits, G. Ortiz, C. Pfleiderer, R. Pynn, (参考訳) 中性子のような個々の粒子の粒子内絡み合いは、量子系や物質の絡み合いに敏感な新しい種類の散乱プローブを可能にする。 本研究は、MIEZE構成の共振型中性子スピンフリップパを用いたビーム中の単一中性子のスピンとエネルギーモード(自由度)の絡み合いの結果、量子テクスチュアリティを示す実験結果である。 我々は、スピンおよびエネルギーサブシステムで定義されたCrauser-Horne-Shimony-Holt(CHSH)文脈性証人$S$を測定し、古典的境界の|S| \leq 2$の明確な破れを観察し、$S = 2.40 \pm 0.02$を得た。 これらの絡み合ったビームは、低エネルギーの励起スケールが入射した中性子と一致する量子材料において、力学と絡み合いを直接探索する新しいアプローチを可能にする。

Intra-particle entanglement of individual particles such as neutrons could enable a new class of scattering probes that are sensitive to entanglement in quantum systems and materials. In this work, we present experimental results demonstrating quantum contextuality as a result of entanglement between the spin and energy modes (i.e., degrees of freedom) of single neutrons in a beam using a pair of resonant radio-frequency neutron spin flippers in the MIEZE configuration (Modulated IntEnsity with Zero Effort). We verified the mode-entanglement by measuring a Clauser-Horne-Shimony-Holt (CHSH) contextuality witness $S$ defined in the spin and energy subsystems, observing a clear breach of the classical bound of $|S| \leq 2$, obtaining $S = 2.40 \pm 0.02$. These entangled beams could enable novel approaches for directly probing dynamics and entanglement in quantum materials whose low-energy excitation scales match those of the incident entangled neutron.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 時変オーディオシステムのための微分可能な全極フィルタ

Differentiable All-pole Filters for Time-varying Audio Systems ( http://arxiv.org/abs/2404.07970v1 )

ライセンス: Link先を確認
Chin-Yun Yu, Christopher Mitcheltree, Alistair Carson, Stefan Bilbao, Joshua D. Reiss, György Fazekas, (参考訳) 無限インパルス応答フィルタは、音声効果やシンセサイザーなど、多くの時間変化のオーディオシステムにおいて重要な構成要素である。 しかし, 再帰的構造は, 自動微分によるエンド・ツー・エンドの学習を阻害する。 周波数サンプリングやフレームベース処理などの非再帰的なフィルタ近似が提案され、過去に広く用いられてきたが、元のシステムの勾配を正確に反映することはできない。 我々は、時間変化のある全極フィルタを再表現して勾配をバックプロパゲートすることで、この難しさを軽減するので、フィルタの実装は自動微分フレームワークの技術的な制限に縛られません。 この実装は、効率の良い勾配評価のためにポール付きフィルタを含む任意のオーディオシステムで使用することができる。 本研究では,位相器,時間変化型減算合成器,フィードフォワード圧縮器を用いて実世界の動的オーディオシステムをモデル化するための学習効率と表現能力を示す。 コードを利用可能にし、https://christhetree.github.io/all_pole_filters/のVSTプラグインでトレーニングされたオーディオエフェクトと合成モデルを提供します。

Infinite impulse response filters are an essential building block of many time-varying audio systems, such as audio effects and synthesisers. However, their recursive structure impedes end-to-end training of these systems using automatic differentiation. Although non-recursive filter approximations like frequency sampling and frame-based processing have been proposed and widely used in previous works, they cannot accurately reflect the gradient of the original system. We alleviate this difficulty by re-expressing a time-varying all-pole filter to backpropagate the gradients through itself, so the filter implementation is not bound to the technical limitations of automatic differentiation frameworks. This implementation can be employed within any audio system containing filters with poles for efficient gradient evaluation. We demonstrate its training efficiency and expressive capabilities for modelling real-world dynamic audio systems on a phaser, time-varying subtractive synthesiser, and feed-forward compressor. We make our code available and provide the trained audio effect and synth models in a VST plugin at https://christhetree.github.io/all_pole_filters/.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# OSWorld: 実コンピュータ環境におけるオープンなタスクのためのマルチモーダルエージェントのベンチマーク

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments ( http://arxiv.org/abs/2404.07972v1 )

ライセンス: Link先を確認
Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu, (参考訳) 人間の介入を最小限に抑えた複雑なコンピュータタスクを遂行する自律エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性がある。 しかし、既存のベンチマークでは、対話的な環境が欠如しているか、特定のアプリケーションやドメインに特有の環境に限られているか、現実世界のコンピュータ利用の多様で複雑な性質を反映していないため、タスクの範囲やエージェントのスケーラビリティが制限されている。 この問題に対処するため,我々は,マルチモーダルエージェント,タスク設定のサポート,実行ベース評価,Ubuntu,Windows,macOSなどのさまざまなオペレーティングシステムにおけるインタラクティブな学習など,マルチモーダルエージェントのための,最初期のスケーラブルで現実的なコンピュータ環境であるOSWorldを紹介した。 OSWorldは、任意のアプリケーションを含むオープンエンドのコンピュータタスクを評価するための統合されたコンピュータ環境として機能する。 OSWorld上に構築された369のコンピュータタスクのベンチマークでは、オープンドメインの実際のWebアプリケーションとデスクトップアプリ、OSファイルI/O、複数のアプリケーションにまたがるワークフローが関係しています。 各タスクの例は、実世界のコンピュータのユースケースから派生したもので、詳細な初期状態設定と、信頼性のある再現可能な評価のためのカスタム実行ベースの評価スクリプトを含んでいる。 OSWorldにおける最先端のLDM/VLMエージェントの広範囲な評価は、コンピュータアシスタントとして機能する能力に重大な欠陥があることを明らかにしている。 人間は72.36%以上のタスクを達成できるが、最良のモデルは12.24%しか成功していない。 OSWorldを用いた包括的な分析は、以前のベンチマークでは不可能だったマルチモーダルジェネラリストエージェントを開発する上で、貴重な洞察を提供する。 私たちのコード、環境、ベースラインモデル、データはhttps://os-world.github.io.comで公開されています。

Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# Ferret-v2: 大規模言語モデルによる参照とグラウンド化のための改良されたベースライン

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models ( http://arxiv.org/abs/2404.07973v1 )

ライセンス: Link先を確認
Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang, (参考訳) Ferretは、Large Language Model(LLM)への地域的理解をシームレスに統合して参照とグラウンド機能を促進する一方で、事前訓練された固定ビジュアルエンコーダによって制約され、より広範なタスクでうまく機能しなかった、一定の制限を課している。 本研究では,フェレットの大幅なアップグレードであるFerret-v2を3つの重要な設計で発表する。 1) 解像度の接点と参照: より高解像度の解像度を扱うフレキシブルなアプローチで、より詳細に画像の処理と理解の能力を向上させる。 2)多粒度視覚符号化:追加のDINOv2エンコーダを統合することにより,グローバルかつきめ細かな視覚情報に対して,より優れた,多様な基盤となるコンテキストを学習する。 (3) 3段階の訓練パラダイム: イメージキャプションアライメントに加えて, 最終調整前の高分解能高密度アライメントのための追加段階を提案する。 フェレットv2は、高解像度のスケーリングときめ細かいビジュアル処理により、フェレットや他の最先端の手法よりも大幅に改善されている。

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 整合性推定のための軽量プロトコル

A Lightweight Protocol for Matchgate Fidelity Estimation ( http://arxiv.org/abs/2404.07974v1 )

ライセンス: Link先を確認
Jędrzej Burkat, Sergii Strelchuk, (参考訳) 我々は、$n$-qubit のマッチゲート回路 $\mathcal{U}$ と、その雑音実装 $\mathcal{E}$ との絡み合いを推定するための低深さランダム化アルゴリズムを提案する。 我々の手順は、クリフォード代数要素を基底として、量子チャネルの修正されたパウリ・リウヴィル表現を利用する。 この表現の選択は、Flamia \& Liu [PRL 106, 230501] のプロトコル上での1/\sqrt{n}$の高速化を達成し、忠実度を推定するための効率的なプロトコルの構築を可能にする、マッチゲートスーパー演算子のブロック対角複合行列構造をもたらすことを示す。 最後に、我々のプロトコルの単純な拡張として、(追加のオーバーヘッドなしに)クリフォード回路と、最寄りの$XY(\theta)$ gates または givens rotations からなる回路で交わされるベンチマークマッチゲート回路と、マッチゲートサブグループの直接ベンチマークを行うための最初の方法を形成する。

We present a low-depth randomised algorithm for the estimation of entanglement fidelity between an $n$-qubit matchgate circuit $\mathcal{U}$ and its noisy implementation $\mathcal{E}$. Our procedure makes use of a modified Pauli-Liouville representation of quantum channels, with Clifford algebra elements as a basis. We show that this choice of representation leads to a block-diagonal compound matrix structure of matchgate superoperators which enables construction of efficient protocols for estimating the fidelity, achieving a $1/\sqrt{n}$ speedup over protocols of Flammia \& Liu [PRL 106, 230501]. Finally, we offer simple extensions of our protocol which (without additional overhead) benchmark matchgate circuits intertwined by Clifford circuits, and circuits composed of exclusively nearest-neighbour $XY(\theta)$ gates or Givens rotations - forming the first known method for direct benchmarking of matchgate subgroups.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 多体局在遷移におけるスペクトル多重フラクタル性と創発エネルギースケール

Spectral Multifractality and Emergent Energyscales Across the Many-Body Localisation Transition ( http://arxiv.org/abs/2404.07975v1 )

ライセンス: Link先を確認
Sthitadhi Roy, (参考訳) 創発的,特徴的エネルギースケールの観点から,多体局所化遷移のスケーリング理論を提案する。 この解析は、自明な局在状態に基づく固有状態の分解に基づいており、後者のエネルギーで解かれる。 スペクトル分解のマルチフラクタル特性、またはその欠如が異なるスケールで研究されたときに、特性エネルギースケールが出現する。 これらの特徴尺度は、上述のスペクトル分解がその大域的挙動を示すもの、すなわちエルゴード相の完全エルゴード性、多体局在相の多重フラクタル性に対応する。 一方、特性値以下のスケールでは、エルゴード相の分解はより微細な(多重)フラクタル構造を示し、一方、局所化相では分解はよく分離された局所化共鳴ピークを抽出する。 これらの特性エネルギースケールの多体局在遷移へのスケーリングは、Kosterlitz-Thouless型シナリオと整合したスケーリング理論を認め、固有状態の逆参加比と顕著に類似している。

We present a scaling theory of the many-body localisation transition in terms of emergent, characteristic energyscales. The analysis is based on the decomposition of the eigenstates in the basis of trivially localised states, resolved in the energies of the latter, which we refer to as the spectral decomposition of the eigenstates. The characteristic energyscales emerge when the multifractal properties, or lack thereof, of the spectral decomposition are studied at different scales. These characteristic scales correspond to the ones, above which the spectral decompositions exhibit their global behaviour, namely full ergodicity in the ergodic phase and multifractality in the many-body localised phase. On the other hand, at scales below the characteristic ones, the decomposition in the ergodic phase shows finer (multi)fractal structures whereas in the localised phase, the decomposition picks out well-separated, localised resonant peaks. The scaling of these characteristic energyscales across the many-body localisation transition admits a scaling theory consistent with a Kosterlitz-Thouless type scenario and bears striking resemblances to that of inverse participation ratios of eigenstates.
翻訳日:2024-04-12 13:01:15 公開日:2024-04-11
# 自己管理型データセット蒸留:良い圧縮は必要なだけ

Self-supervised Dataset Distillation: A Good Compression Is All You Need ( http://arxiv.org/abs/2404.07976v1 )

ライセンス: Link先を確認
Muxin Zhou, Zeyuan Yin, Shitong Shao, Zhiqiang Shen, (参考訳) データセット蒸留は、大規模な元のデータセットから新しいコンパクトなデータセットに情報を圧縮し、元のデータ情報の本質の最大限の度合いを維持することを目的としている。 従来の研究は主に、重量軌道、特徴、勾配、バッチノームなど、オリジナルのデータと蒸留データの間の中間統計の整合に集中してきた。 本研究は,本研究において,従来のデータセット事前学習における圧縮段階におけるモデル情報化の新たなレンズを通して,この課題に対処することを検討する。 先行技術であるSRe$2$Lでは、モデルのサイズが大きくなるにつれて、教師付き事前学習モデルがデータ合成中に学習情報を復元することがますます困難になる。 さらに、自己教師付きモデルによるBN統計量の大きな分散により、より大きな損失信号がグラデーションによって回復したデータを更新し、合成中により情報に富むことを確認した。 SC-DDは,従来の教師付き学習方式に比べて多種多様な情報圧縮と回復を容易にし,拡張された機能を持つ大規模事前学習モデルの可能性をさらに享受する。 CIFAR-100, Tiny-ImageNet, ImageNet-1K を用いて,提案手法の優位性を示す実験を行った。 提案したSC-DDは, SRe$^2$L, MTT, TESLA, DC, CAFEなどの大型モデルを用いて, 同じ回収・訓練後の予算で, 従来の最先端のデータセット蒸留法よりも優れていた。 コードはhttps://github.com/VILA-Lab/SRe2L/tree/main/SCDD/で入手できる。

Dataset distillation aims to compress information from a large-scale original dataset to a new compact dataset while striving to preserve the utmost degree of the original data informational essence. Previous studies have predominantly concentrated on aligning the intermediate statistics between the original and distilled data, such as weight trajectory, features, gradient, BatchNorm, etc. In this work, we consider addressing this task through the new lens of model informativeness in the compression stage on the original dataset pretraining. We observe that with the prior state-of-the-art SRe$^2$L, as model sizes increase, it becomes increasingly challenging for supervised pretrained models to recover learned information during data synthesis, as the channel-wise mean and variance inside the model are flatting and less informative. We further notice that larger variances in BN statistics from self-supervised models enable larger loss signals to update the recovered data by gradients, enjoying more informativeness during synthesis. Building on this observation, we introduce SC-DD, a simple yet effective Self-supervised Compression framework for Dataset Distillation that facilitates diverse information compression and recovery compared to traditional supervised learning schemes, further reaps the potential of large pretrained models with enhanced capabilities. Extensive experiments are conducted on CIFAR-100, Tiny-ImageNet and ImageNet-1K datasets to demonstrate the superiority of our proposed approach. The proposed SC-DD outperforms all previous state-of-the-art supervised dataset distillation methods when employing larger models, such as SRe$^2$L, MTT, TESLA, DC, CAFE, etc., by large margins under the same recovery and post-training budgets. Code is available at https://github.com/VILA-Lab/SRe2L/tree/main/SCDD/.
翻訳日:2024-04-12 12:59:37 公開日:2024-04-11
# ガガ:3D対応のメモリバンクでガウシアンをグループ化

Gaga: Group Any Gaussians via 3D-aware Memory Bank ( http://arxiv.org/abs/2404.07977v1 )

ライセンス: Link先を確認
Weijie Lyu, Xueting Li, Abhijit Kundu, Yi-Hsuan Tsai, Ming-Hsuan Yang, (参考訳) ゼロショットセグメンテーションモデルにより予測される一貫性のない2次元マスクを活用することで、オープンワールドの3Dシーンを再構成し、セグメント化するフレームワークであるGagaを紹介する。 ビデオオブジェクト追跡に大きく依存する以前の3Dシーンセグメンテーションアプローチとは対照的に、Gagaは空間情報を活用し、多様なカメラポーズでオブジェクトマスクを効果的に関連付ける。 トレーニング画像の連続的なビュー変化の仮定を排除することで、Gagaはカメラポーズの変動に対して堅牢性を示す。 さらに、Gagaは様々なソースからの2Dセグメンテーションマスクに対応し、異なるオープンワールドゼロショットセグメンテーションモデルで堅牢なパフォーマンスを示し、その汎用性を高めている。 広汎な質的、定量的評価により、ガガは最先端の手法に対して好意的に行動し、シーン理解や操作といった現実世界の応用の可能性を強調している。

We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot segmentation models. Contrasted to prior 3D scene segmentation approaches that heavily rely on video object tracking, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot segmentation models, enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as scene understanding and manipulation.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 量子チャネルの平均出力エントロピーについて

On average output entropy of a quantum channel ( http://arxiv.org/abs/2404.07978v1 )

ライセンス: Link先を確認
M. E. Shirokov, (参考訳) 本稿では,量子チャネルの平均出力エントロピーを,ペア(チャネル,入力アンサンブル)の関数として記述する。 特に、量子古典状態の量子条件エントロピーに対する修正された半連続境界と特別な近似技術を用いて、階数/エネルギー制約のあるこの関数に対する厳密な半連続境界を求める。 いくつかの応用が検討されている。 ペア(チャンネル、入力アンサンブル)の関数としてのチャネルの出力ホレボ情報に対する新たな半連続性と連続性境界を求める。 [1]で得られるランク制約による形成の絡み合いに対する半連続性を改善する。 予備的な部分では、量子状態のアンサンブルに関するいくつかの結果が提示される。 特に、一般化アンサンブルの集合に関する新しい有用な計量を提案し、検討した。 ここで紹介されるアンサンブルの受動的エネルギーの概念は、この記事において重要な役割を担っている。

We describe analytical properties of the average output entropy of a quantum channel as a function of a pair (channel, input ensemble). In particular, tight semicontinuity bounds for this function with the rank/energy constraints are obtained by using the modified semicontinuity bounds for the quantum conditional entropy of quantum-classical states and a special approximation technique. Several applications are considered. New semicontinuity and continuity bounds for the output Holevo information of a channel as a function of a pair (channel, input ensemble) are obtained. The semicontinuity bound for the entanglement of formation with the rank constraint obtained in [1] is improved. In the preliminary part, some results concerning ensembles of quantum states are presented. In particular, a new useful metric on the set of generalized ensembles is proposed and explored. The concept of passive energy of an ensemble introduced here plays an important role in the article.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# LLoCO: 長いコンテキストをオフラインで学ぶ

LLoCO: Learning Long Contexts Offline ( http://arxiv.org/abs/2404.07979v1 )

ライセンス: Link先を確認
Sijun Tan, Xiuyu Li, Shishir Patil, Ziyang Wu, Tianjun Zhang, Kurt Keutzer, Joseph E. Gonzalez, Raluca Ada Popa, (参考訳) 長期のコンテキストを処理することは、自己アテンション機構の2次計算とメモリオーバーヘッドと、生成時の相当なKVキャッシュサイズのために、大きな言語モデル(LLM)にとって依然として課題である。 本稿では、コンテキスト圧縮とドメイン内パラメータ効率の微調整を通じてオフラインでコンテキストを学習することで、この問題に対処する新しい手法を提案する。 提案手法は,LLMが元の文脈の簡潔な表現を作成し,関連情報を効率よく検索し,質問に正確に答えることを可能にする。 LLoCOは、文脈圧縮、検索、LoRAを用いたパラメータ効率の微調整を組み合わせた手法である。 提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。 我々は,LLoCOの長文質問応答データセットに対するアプローチを評価し,LLoCOが推論中に30\times$より少ないトークンを使用しながら,文脈内学習を著しく上回ることを示した。 LLoCOは最大7.62\times$スピードアップを達成し、長い文書質問応答のコストを大幅に削減し、効率的な長期コンテキスト処理のための有望なソリューションである。 私たちのコードはhttps://github.com/jeffreysijuntan/lloco.comで公開されています。

Processing long contexts remains a challenge for large language models (LLMs) due to the quadratic computational and memory overhead of the self-attention mechanism and the substantial KV cache sizes during generation. We propose a novel approach to address this problem by learning contexts offline through context compression and in-domain parameter-efficient finetuning. Our method enables an LLM to create a concise representation of the original context and efficiently retrieve relevant information to answer questions accurately. We introduce LLoCO, a technique that combines context compression, retrieval, and parameter-efficient finetuning using LoRA. Our approach extends the effective context window of a 4k token LLaMA2-7B model to handle up to 128k tokens. We evaluate our approach on several long-context question-answering datasets, demonstrating that LLoCO significantly outperforms in-context learning while using $30\times$ fewer tokens during inference. LLoCO achieves up to $7.62\times$ speed-up and substantially reduces the cost of long document question answering, making it a promising solution for efficient long context processing. Our code is publicly available at https://github.com/jeffreysijuntan/lloco.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 製品の可視性を高めるために大規模言語モデルを操作する

Manipulating Large Language Models to Increase Product Visibility ( http://arxiv.org/abs/2404.07981v1 )

ライセンス: Link先を確認
Aounon Kumar, Himabindu Lakkaraju, (参考訳) 大規模言語モデル(LLM)は、ユーザクエリに適した自然言語応答を提供するために、検索エンジンに統合されつつある。 顧客とエンドユーザーも、迅速かつ簡単な購入決定のためにこれらのモデルに依存している。 本研究では,製品の可視性を高めるため,LCMからのレコメンデーションを操作できるかどうかを検討する。 戦略テキストシーケンス (STS) を製品の情報ページに慎重に作成することで, LLM のトップレコメンデーションとしてリストアップされる可能性を大幅に高めることを示す。 STSの影響を理解するために、架空のコーヒーマシンのカタログを使用して、2つのターゲット製品にその効果を分析します。 戦略的テキストシーケンスは、トップレコメンデーションとして現れる可能性を高めることにより、両製品の可視性を大幅に向上させる。 LLM生成した検索応答を操作するこの能力は、ベンダーにかなりの競争上の優位性を与え、公正な市場競争を妨害する可能性がある。 検索エンジン最適化(SEO)が、検索エンジン検索結果のランクを上げるためにWebページをカスタマイズする方法に革命をもたらしたのと同じように、LLMの推奨に影響を与えることは、AI駆動の検索サービスのコンテンツ最適化に大きな影響を及ぼす可能性がある。 実験用のコードはhttps://github.com/aounon/llm-rank-optimizer.comで公開されている。

Large language models (LLMs) are increasingly being integrated into search engines to provide natural language responses tailored to user queries. Customers and end-users are also becoming more dependent on these models for quick and easy purchase decisions. In this work, we investigate whether recommendations from LLMs can be manipulated to enhance a product's visibility. We demonstrate that adding a strategic text sequence (STS) -- a carefully crafted message -- to a product's information page can significantly increase its likelihood of being listed as the LLM's top recommendation. To understand the impact of STS, we use a catalog of fictitious coffee machines and analyze its effect on two target products: one that seldom appears in the LLM's recommendations and another that usually ranks second. We observe that the strategic text sequence significantly enhances the visibility of both products by increasing their chances of appearing as the top recommendation. This ability to manipulate LLM-generated search responses provides vendors with a considerable competitive advantage and has the potential to disrupt fair market competition. Just as search engine optimization (SEO) revolutionized how webpages are customized to rank higher in search engine results, influencing LLM recommendations could profoundly impact content optimization for AI-driven search services. Code for our experiments is available at https://github.com/aounon/llm-rank-optimizer.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 言語不均衡は言語間の一般化を促進する

Language Imbalance Can Boost Cross-lingual Generalisation ( http://arxiv.org/abs/2404.07982v1 )

ライセンス: Link先を確認
Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag, (参考訳) 言語モデリングの最近の進歩を多様な言語コミュニティに拡張するために、多言語性は不可欠である。 複数の言語を表現しながら高いパフォーマンスを維持するために、多言語モデルは表現を理想的に整列させ、ある言語で学んだことを他の言語に一般化させる。 先行研究は、このようなアライメントの鍵となる要素として、並列データと共有語彙要素の重要性を強調してきた。 本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。 完全同値なクローン言語に関する制御実験では、トレーニング中の支配的な言語の存在が、あまり頻度の低い言語の性能を高め、言語間のモデル表現の整合性を高めることが観察された。 さらに、この傾向は規模によって増幅されていることが判明した: 十分に大きなモデルや十分なトレーニングがある場合、90/10言語分割によるバイリンガルトレーニングデータがバランスの取れた50/50言語分割よりも、両言語のパフォーマンスが向上する。 これらの知見に基づいて、トレーニングデータを変更することなく、すべてのクローン言語のパフォーマンスを向上させるトレーニングスキームを設計する。 しかし、言語不均衡が言語間の一般化を引き起こすか否かは決定的ではない。

Multilinguality is crucial for extending recent advancements in language modelling to diverse linguistic communities. To maintain high performance while representing multiple languages, multilingual models ideally align representations, allowing what is learned in one language to generalise to others. Prior research has emphasised the importance of parallel data and shared vocabulary elements as key factors for such alignment. In this study, we investigate an unintuitive novel driver of cross-lingual generalisation: language imbalance. In controlled experiments on perfectly equivalent cloned languages, we observe that the existence of a predominant language during training boosts the performance of less frequent languages and leads to stronger alignment of model representations across languages. Furthermore, we find that this trend is amplified with scale: with large enough models or long enough training, we observe that bilingual training data with a 90/10 language split yields better performance on both languages than a balanced 50/50 split. Building on these insights, we design training schemes that can improve performance in all cloned languages, even without altering the training data. As we extend our analysis to real languages, we find that infrequent languages still benefit from frequent ones, yet whether language imbalance causes cross-lingual generalisation there is not conclusive.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 1つのトリガー: 対照的な視覚・言語表現学習におけるモダリティギャップ、対象バイアス、情報不均衡について

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning ( http://arxiv.org/abs/2404.07983v1 )

ライセンス: Link先を確認
Simon Schrodi, David T. Hoffmann, Max Argus, Volker Fischer, Thomas Brox, (参考訳) CLIPのような対照的な視覚言語モデルは、様々な下流タスクで多用途に適用可能な学習表現として人気を集めている。 ゼロショット画像認識など、いくつかのタスクで成功しているにもかかわらず、属性検出など他のタスクでは驚くほど貧弱である。 これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。 本研究は両現象について考察する。 数個の埋め込み次元だけがモダリティギャップを駆動していることが分かりました。 さらに,対象バイアスの尺度を提案し,対象バイアスが属性などの他の概念に悪影響を及ぼさないことを示す。 しかし、モダリティギャップとオブジェクトバイアスの出現につながるものは何か? この質問に答えるために,モーダル間の共有情報の量を制御する実験的な設定を慎重に設計した。 その結果、モダリティギャップとオブジェクトバイアスの両方の背景にある要因は、画像とキャプション間の情報不均衡であることがわかった。

Contrastive vision-language models like CLIP have gained popularity for their versatile applicable learned representations in various downstream tasks. Despite their successes in some tasks, like zero-shot image recognition, they also perform surprisingly poor on other tasks, like attribute detection. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and a bias towards objects over other factors, such as attributes. In this work we investigate both phenomena. We find that only a few embedding dimensions drive the modality gap. Further, we propose a measure for object bias and find that object bias does not lead to worse performance on other concepts, such as attributes. But what leads to the emergence of the modality gap and object bias? To answer this question we carefully designed an experimental setting which allows us to control the amount of shared information between the modalities. This revealed that the driving factor behind both, the modality gap and the object bias, is the information imbalance between images and captions.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 拡散ランキングによる3次元キャプションのビュー選択

View Selection for 3D Captioning via Diffusion Ranking ( http://arxiv.org/abs/2404.07984v1 )

ライセンス: Link先を確認
Tiange Luo, Justin Johnson, Honglak Lee, (参考訳) 拡張性のあるアノテーションアプローチは、広範囲な3Dテキストデータセットを構築するのに不可欠であり、幅広いアプリケーションを容易にします。 しかし、既存の方法によって幻覚キャプションが生成され、キャプションの品質が損なわれることがある。 本稿では,3次元オブジェクトを2次元ビューに描画するCap3D法に着目し,事前学習モデルを用いた3次元オブジェクトキャプションにおける幻覚の問題点を考察する。 標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす3Dオブジェクトのレンダリングビューは非定型である。 そこでDiffuRankは、3Dオブジェクトとその2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキスト・ツー・3Dモデルを利用する手法である。 すべてのレンダリングされたビューをGPT4-Visionにランク付けすることで、キャプションの精度と詳細を高め、Cap3Dデータセットの200kキャプションの修正を可能にし、ObjaverseデータセットとObjaverse-XLデータセットの100万キャプションに拡張します。 さらに、Visual Question Answeringタスクの事前訓練されたテキスト・ツー・イメージモデルに適用することで、DiffuRankの適応性を示し、CLIPモデルより優れています。

Scalable annotation approaches are crucial for constructing extensive 3D-text datasets, facilitating a broader range of applications. However, existing methods sometimes lead to the generation of hallucinated captions, compromising caption quality. This paper explores the issue of hallucination in 3D object captioning, with a focus on Cap3D method, which renders 3D objects into 2D views for captioning using pre-trained models. We pinpoint a major challenge: certain rendered views of 3D objects are atypical, deviating from the training data of standard image captioning models and causing hallucinations. To tackle this, we present DiffuRank, a method that leverages a pre-trained text-to-3D model to assess the alignment between 3D objects and their 2D rendered views, where the view with high alignment closely represent the object's characteristics. By ranking all rendered views and feeding the top-ranked ones into GPT4-Vision, we enhance the accuracy and detail of captions, enabling the correction of 200k captions in the Cap3D dataset and extending it to 1 million captions across Objaverse and Objaverse-XL datasets. Additionally, we showcase the adaptability of DiffuRank by applying it to pre-trained text-to-image models for a Visual Question Answering task, where it outperforms the CLIP model.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# WaveMo: 散乱を通してウェーブフロント変調を学習する

WaveMo: Learning Wavefront Modulations to See Through Scattering ( http://arxiv.org/abs/2404.07985v1 )

ライセンス: Link先を確認
Mingyang Xie, Haiyun Guo, Brandon Y. Feng, Lingbo Jin, Ashok Veeraraghavan, Christopher A. Metzler, (参考訳) 散乱媒質によるイメージングは、医学診断から天文学まで幅広い分野において、基礎的で広範にわたる課題である。 この課題を克服するための有望な戦略は、画像取得時に測定の多様性を誘導する波面変調である。 その重要性にもかかわらず、散乱による画像への最適な波面変調を設計することは、まだ未調査のままである。 本稿では,このギャップに対処する新しい学習基盤を提案する。 提案手法は,ウェーブフロント変調と計算量的に軽量なフィードフォワード「プロキシ」再構成ネットワークを協調的に最適化する。 このネットワークは、これらの変調によって修正された測定を用いて、散乱によって隠されたシーンを復元するように訓練されている。 筆者らのフレームワークが生み出した学習変調は, 目に見えない散乱シナリオを効果的に一般化し, 優れた汎用性を示す。 デプロイ中は、学習した変調をプロキシネットワークから切り離して、他の計算コストのかかる復元アルゴリズムを拡張することができる。 広範にわたる実験により,本手法は散乱媒質によるイメージングの最先端性を著しく向上させることを示した。 プロジェクトのWebページはhttps://wavemo-2024.github.io/です。

Imaging through scattering media is a fundamental and pervasive challenge in fields ranging from medical diagnostics to astronomy. A promising strategy to overcome this challenge is wavefront modulation, which induces measurement diversity during image acquisition. Despite its importance, designing optimal wavefront modulations to image through scattering remains under-explored. This paper introduces a novel learning-based framework to address the gap. Our approach jointly optimizes wavefront modulations and a computationally lightweight feedforward "proxy" reconstruction network. This network is trained to recover scenes obscured by scattering, using measurements that are modified by these modulations. The learned modulations produced by our framework generalize effectively to unseen scattering scenarios and exhibit remarkable versatility. During deployment, the learned modulations can be decoupled from the proxy network to augment other more computationally expensive restoration algorithms. Through extensive experiments, we demonstrate our approach significantly advances the state of the art in imaging through scattering media. Our project webpage is at https://wavemo-2024.github.io/.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# ControlNet++: 効率的な一貫性フィードバックによる条件制御の改善

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback ( http://arxiv.org/abs/2404.07987v1 )

ライセンス: Link先を確認
Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen, (参考訳) テキストから画像への拡散モデルの制御性を高めるため、ControlNetのような既存の作業には画像ベースの条件制御が組み込まれている。 本稿では,画像条件制御と整合した画像を生成する上で,既存の手法が依然として重大な課題に直面していることを明らかにする。 そこで本研究では,生成した画像と条件付き制御との間の画素レベルのサイクル一貫性を明示的に最適化することにより,制御可能な生成を改善する新しい手法であるControlNet++を提案する。 具体的には、入力条件制御のために、事前学習した識別的報酬モデルを用いて、生成された画像の対応する条件を抽出し、入力条件制御と抽出条件との整合損失を最適化する。 単純な実装では、ランダムノイズから画像を生成し、一貫性損失を計算するが、このアプローチでは複数のサンプリングタイムステップに勾配を格納する必要があるため、かなりの時間とメモリコストがかかる。 そこで本稿では,ノイズを付加して入力画像を意図的に妨害する効率的な報奨戦略を導入し,さらに1ステップの復号化画像を用いて報酬の微調整を行う。 これにより、画像サンプリングに伴う広範なコストが回避され、より効率的な報酬の微調整が可能になる。 大規模な実験により、ControlNet++は様々な条件付きコントロール下でコントロール可能性を大幅に改善することが示された。 例えば、セグメンテーションマスク、ラインアートエッジ、深さ条件に対して、ControlNetの7.9%のmIoU、13.4%のSSIM、および7.6%のRMSEの改善を実現している。

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# 擬似シム:デクサラスマニピュレーション転送のためのパラメータ化擬似物理シミュレータ

QuasiSim: Parameterized Quasi-Physical Simulators for Dexterous Manipulations Transfer ( http://arxiv.org/abs/2404.07988v1 )

ライセンス: Link先を確認
Xueyi Liu, Kangbo Lyu, Jieqiong Zhang, Tao Du, Li Yi, (参考訳) シミュレータの設計によるデクスタラスな操作伝達問題について検討する。 このタスクは、人間の操作を器用なロボットの手のシミュレーションに転送することを目的としており、複雑な、高度に拘束された、不連続なダイナミクスと、人間の操作を正確に再現するためにDoFで器用な手を制御する必要があるため、本質的に困難である。 高忠実度ブラックボックスシミュレータや緩和された制約のある修正されたシミュレータを最適化する以前のアプローチは、限られた能力を示すか、あるいは不十分なシミュレーション忠実度によって制限される。 パラメータ化準物理シミュレータと物理カリキュラムを導入し,これらの制約を克服する。 鍵となるアイデアは 1【パラメータ化シミュレータのカリキュラムによるシミュレーションの忠実度と最適化性のバランス】 2) カリキュラムから各シミュレータの問題を解き, 高いタスク最適化性から高い忠実度まで多岐にわたる特性を持つ。 我々は,高忠実度模擬環境における複雑で多様な操作の追跡を成功させ,その成功率を最良性能のベースラインから11\%以上向上させることに成功した。 プロジェクトのWebサイトはhttps://meowuu7.github.io/QuasiSim/.comで公開されている。

We explore the dexterous manipulation transfer problem by designing simulators. The task wishes to transfer human manipulations to dexterous robot hand simulations and is inherently difficult due to its intricate, highly-constrained, and discontinuous dynamics and the need to control a dexterous hand with a DoF to accurately replicate human manipulations. Previous approaches that optimize in high-fidelity black-box simulators or a modified one with relaxed constraints only demonstrate limited capabilities or are restricted by insufficient simulation fidelity. We introduce parameterized quasi-physical simulators and a physics curriculum to overcome these limitations. The key ideas are 1) balancing between fidelity and optimizability of the simulation via a curriculum of parameterized simulators, and 2) solving the problem in each of the simulators from the curriculum, with properties ranging from high task optimizability to high fidelity. We successfully enable a dexterous hand to track complex and diverse manipulations in high-fidelity simulated environments, boosting the success rate by 11\%+ from the best-performed baseline. The project website is available at https://meowuu7.github.io/QuasiSim/.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# Any2Point: 効率的な3D理解のためのあらゆるモダリティ大モデル

Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding ( http://arxiv.org/abs/2404.07989v1 )

ライセンス: Link先を確認
Yiwen Tang, Jiaming Liu, Dong Wang, Zhigang Wang, Shanghang Zhang, Bin Zhao, Xuelong Li, (参考訳) 大規模な基盤モデルは近年注目の的となり、幅広いシナリオにおいて優れたパフォーマンスを実現している。 3Dデータの不足のため、事前学習されたトランスフォーマーを視覚から3D領域に適応させる取り組みが数多く行われている。 しかし、空間幾何学の潜在的な損失と高い計算コストのため、そのような2次元から3次元へのアプローチは依然として限られている。 さらに重要なのは、それらのフレームワークが主に2Dモデル用に設計されており、一般的なノン・ツー・3Dパラダイムが欠如していることだ。 本稿では,Any2Pointを提案する。Any2Pointは,任意のモダリティ大モデル(ビジョン,言語,音声)を3次元理解に活用するためのパラメータ効率のよい手法である。 任意の震源モードから凍結した変圧器が与えられた場合、入力された3Dポイントを原震源モード内の原震源1Dまたは2D位置と相関する3D-to-any (1Dまたは2D)仮想射影戦略を提案する。 この機構により、各3次元トークンに事前訓練されたモデルと組み合わせた位置符号化を割り当てることができ、これは真の投影による3次元幾何学的損失を回避し、1D/2D位置前処理による3次元学習のモチベーションを向上させる。 そして,各トランスブロック内にパラメータ効率のよい微調整用アダプタモジュールを挿入する。 このアダプタは、3Dトークンの局所的な特徴集約を導くために、ソースモダリティからの事前の空間知識を取り入れ、任意のモダリティトランスフォーマーのセマンティック適応を説得する。 提案手法の有効性と有効性を示すため, 広範囲な実験を行った。 コードとモデルはhttps://github.com/Ivan-Tang-3D/Any2Pointで公開されている。

Large foundation models have recently emerged as a prominent focus of interest, attaining superior performance in widespread scenarios. Due to the scarcity of 3D data, many efforts have been made to adapt pre-trained transformers from vision to 3D domains. However, such 2D-to-3D approaches are still limited, due to the potential loss of spatial geometries and high computation cost. More importantly, their frameworks are mainly designed for 2D models, lacking a general any-to-3D paradigm. In this paper, we introduce Any2Point, a parameter-efficient method to empower any-modality large models (vision, language, audio) for 3D understanding. Given a frozen transformer from any source modality, we propose a 3D-to-any (1D or 2D) virtual projection strategy that correlates the input 3D points to the original 1D or 2D positions within the source modality. This mechanism enables us to assign each 3D token with a positional encoding paired with the pre-trained model, which avoids 3D geometry loss caused by the true projection and better motivates the transformer for 3D learning with 1D/2D positional priors. Then, within each transformer block, we insert an any-to-3D guided adapter module for parameter-efficient fine-tuning. The adapter incorporates prior spatial knowledge from the source modality to guide the local feature aggregation of 3D tokens, compelling the semantic adaption of any-modality transformers. We conduct extensive experiments to showcase the effectiveness and efficiency of our method. Code and models are released at https://github.com/Ivan-Tang-3D/Any2Point.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# OpenBias: テキストから画像への生成モデルにおけるオープンセットバイアス検出

OpenBias: Open-set Bias Detection in Text-to-Image Generative Models ( http://arxiv.org/abs/2404.07990v1 )

ライセンス: Link先を確認
Moreno D'Incà, Elia Peruzzo, Massimiliano Mancini, Dejia Xu, Vidit Goel, Xingqian Xu, Zhangyang Wang, Humphrey Shi, Nicu Sebe, (参考訳) テキスト・ツー・イメージ・ジェネレーティブ・モデルが一般大衆に普及し、アクセスしやすくなっている。 これらのモデルは大規模な展開を見込んでいるため、あらゆる種類のバイアスを分散させ、永続させないように、彼らの安全性と公正性を深く調査する必要がある。 しかし、既存の研究は偏見の閉集合の検出に重点を置いており、研究をよく知られた概念に限定している。 本稿では,プリコンパイルされた集合にアクセスすることなく,バイアスの重大さを不可知的に識別し,定量化する新しいパイプラインであるOpenBiasを提示するテキスト・ツー・イメージ生成モデルにおいて,オープン・セットバイアス検出の課題に取り組む。 OpenBiasには3つのステージがある。 第1フェーズでは,大言語モデル(LLM)を用いて,一組のキャプションが与えられた場合のバイアスを提案する。 第二に、ターゲット生成モデルは、同じキャプションセットを使用して画像を生成する。 最後に、視覚質問回答モデルは、これまで提案されたバイアスの存在と範囲を認識する。 本研究では, 安定拡散1.5, 2, XLの挙動について検討した。 定量的実験により、OpenBiasは現在のクローズドセットバイアス検出法と人間の判断と一致することを示した。

Text-to-image generative models are becoming increasingly popular and accessible to the general public. As these models see large-scale deployments, it is necessary to deeply investigate their safety and fairness to not disseminate and perpetuate any kind of biases. However, existing works focus on detecting closed sets of biases defined a priori, limiting the studies to well-known concepts. In this paper, we tackle the challenge of open-set bias detection in text-to-image generative models presenting OpenBias, a new pipeline that identifies and quantifies the severity of biases agnostically, without access to any precompiled set. OpenBias has three stages. In the first phase, we leverage a Large Language Model (LLM) to propose biases given a set of captions. Secondly, the target generative model produces images using the same set of captions. Lastly, a Vision Question Answering model recognizes the presence and extent of the previously proposed biases. We study the behavior of Stable Diffusion 1.5, 2, and XL emphasizing new biases, never investigated before. Via quantitative experiments, we demonstrate that OpenBias agrees with current closed-set bias detection methods and human judgement.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# GoMAvatar:Gaussian-on-Meshを用いた単眼ビデオからの効率的なアニメーション可能な人体モデリング

GoMAvatar: Efficient Animatable Human Modeling from Monocular Video Using Gaussians-on-Mesh ( http://arxiv.org/abs/2404.07991v1 )

ライセンス: Link先を確認
Jing Wen, Xiaoming Zhao, Zhongzheng Ren, Alexander G. Schwing, Shenlong Wang, (参考訳) リアルタイム, メモリ効率, 高品質なアニマタブル・ヒューマン・モデリングのための新しいアプローチであるGoMAvatarを紹介した。 GoMAvatarは単一のモノクロ映像を入力として、新しいポーズや新しい視点からのリアルタイムレンダリングを再現できるデジタルアバターを作成し、ラスタライズベースのグラフィックパイプラインとシームレスに統合する。 我々の手法の中心はガウス・オン・メシュ表現であり、幾何学的モデリングと変形可能なメッシュの整合性を備えたガウススプラッティングのレンダリング品質と速度を組み合わせたハイブリッド3次元モデルである。 我々は、ZJU-MoCapデータおよび様々なYouTubeビデオに基づいてGoMAvatarを評価する。 GoMAvatarは、現在のモノラルな人間のモデリングアルゴリズムとレンダリング品質を比べ、メモリ効率が3.63MBで計算効率(43 FPS)を大幅に上回っている。

We introduce GoMAvatar, a novel approach for real-time, memory-efficient, high-quality animatable human modeling. GoMAvatar takes as input a single monocular video to create a digital avatar capable of re-articulation in new poses and real-time rendering from novel viewpoints, while seamlessly integrating with rasterization-based graphics pipelines. Central to our method is the Gaussians-on-Mesh representation, a hybrid 3D model combining rendering quality and speed of Gaussian splatting with geometry modeling and compatibility of deformable meshes. We assess GoMAvatar on ZJU-MoCap data and various YouTube videos. GoMAvatar matches or surpasses current monocular human modeling algorithms in rendering quality and significantly outperforms them in computational efficiency (43 FPS) while being memory-efficient (3.63 MB per subject).
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# GoMVS:マルチビューステレオのための幾何学的一貫性のあるコスト集約

GoMVS: Geometrically Consistent Cost Aggregation for Multi-View Stereo ( http://arxiv.org/abs/2404.07992v1 )

ライセンス: Link先を確認
Jiang Wu, Rui Li, Haofei Xu, Wenxun Zhao, Yu Zhu, Jinqiu Sun, Yanning Zhang, (参考訳) マッチングコストの集約は学習に基づく多視点ステレオネットワークにおいて基本的な役割を果たす。 しかし, 隣接コストを直接集計すると, 局所的な幾何学的不整合が原因で, 最適以下の結果が得られる。 関連する手法は、選択的な集約を求めるか、2次元空間における集約された深さを改善するかのいずれかであり、どちらもコストボリュームの幾何学的不整合を効果的に扱えない。 本稿では,GoMVSを用いて幾何学的一貫したコストを集約し,隣り合うジオメトリをよりよく活用することを提案する。 より具体的には、局所的な幾何学的滑らかさを表面正規と組み合わせることで、隣接したコストを基準画素に対応させ、伝播させる。 我々は、幾何一貫した伝搬(GCP)モジュールによってこれを達成した。 これは、隣接する深度仮説空間から基準深度空間への対応を曲面正規化を用いて計算し、その対応を利用して、隣り合うコストを基準幾何学に伝播させ、次に集約のための畳み込みを行う。 提案手法はDTU, Tanks & Temple, ETH3Dデータセット上での最先端性能を実現する。 特に,本手法は,タンク・アンド・テンプル・アドバンストベンチマークにおいて第1位である。

Matching cost aggregation plays a fundamental role in learning-based multi-view stereo networks. However, directly aggregating adjacent costs can lead to suboptimal results due to local geometric inconsistency. Related methods either seek selective aggregation or improve aggregated depth in the 2D space, both are unable to handle geometric inconsistency in the cost volume effectively. In this paper, we propose GoMVS to aggregate geometrically consistent costs, yielding better utilization of adjacent geometries. More specifically, we correspond and propagate adjacent costs to the reference pixel by leveraging the local geometric smoothness in conjunction with surface normals. We achieve this by the geometric consistent propagation (GCP) module. It computes the correspondence from the adjacent depth hypothesis space to the reference depth space using surface normals, then uses the correspondence to propagate adjacent costs to the reference geometry, followed by a convolution for aggregation. Our method achieves new state-of-the-art performance on DTU, Tanks & Temple, and ETH3D datasets. Notably, our method ranks 1st on the Tanks & Temple Advanced benchmark.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# NeRF、画像、テキストの接続

Connecting NeRFs, Images, and Text ( http://arxiv.org/abs/2404.07993v1 )

ライセンス: Link先を確認
Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano, (参考訳) Neural Radiance Fields (NeRF) は3Dシーンやオブジェクトを表現するための標準フレームワークとして登場し、情報交換と記憶のための新しいデータ型を導入している。 同時に、テキストや画像データのマルチモーダル表現学習にも大きな進歩があった。 本稿では,NeRFモダリティと他のモダリティを結びつけるための新たな研究方向について検討する。 そこで本研究では,テキストと画像処理のためのマルチモーダルモデルとともに,NeRF表現の事前学習モデルを利用するシンプルなフレームワークを提案する。 本フレームワークは,NeRF埋め込みと対応する画像とテキストの双方向マッピングを学習する。 このマッピングは、NeRFゼロショット分類や、画像やテキストからのNeRF検索など、新規で有用ないくつかのアプリケーションをアンロックする。

Neural Radiance Fields (NeRFs) have emerged as a standard framework for representing 3D scenes and objects, introducing a novel data type for information exchange and storage. Concurrently, significant progress has been made in multimodal representation learning for text and image data. This paper explores a novel research direction that aims to connect the NeRF modality with other modalities, similar to established methodologies for images and text. To this end, we propose a simple framework that exploits pre-trained models for NeRF representations alongside multimodal models for text and image processing. Our framework learns a bidirectional mapping between NeRF embeddings and those obtained from corresponding images and text. This mapping unlocks several novel and useful applications, including NeRF zero-shot classification and NeRF retrieval from images or text.
翻訳日:2024-04-12 12:49:46 公開日:2024-04-11
# プロトサイエンスからエピステミックモノカルチャーへ - ベンチマークはどのようにしてディープラーニング革命の舞台に立つか

From Protoscience to Epistemic Monoculture: How Benchmarking Set the Stage for the Deep Learning Revolution ( http://arxiv.org/abs/2404.06647v2 )

ライセンス: Link先を確認
Bernard J. Koch, David Peterson, (参考訳) 過去10年間、AIの研究はずっと大きなディープラーニングモデルの構築に重点を置いてきた。 このアプローチは、科学と技術の素晴らしい成果を同時に解放し、説明可能性、倫理的害、環境効率に関する長年の制限をAIが克服するのを妨げています。 質的なインタビューと計算分析に基づいて、我々の3つのAI研究の歴史は、1980年代後半に始まった科学的進歩の急激な再認識にさかのぼる。 最初のAI研究(1950年代-1980年代)の時代に、研究者とパトロンはAIを「基礎的な」科学としてアプローチし、自律的な探索と進歩の有機的評価(例えば、ピアレビュー、理論的コンセンサス)を通じて進歩するであろう。 このアプローチの失敗は1980年代に資金の強化につながった。 この「AI冬」の間、アメリカ合衆国政府の介入により、軍事的および商業的関心事のタスクの計測可能な進展に向けた分野が再編された。 ベンチマーク(benchmarking)と呼ばれる新しい評価システムは、サンプルデータセットの予測精度の向上にのみ焦点をあてることで、タスクの進捗を定量化する客観的な方法を提供した。 科学を検証可能な指標に絞り込むことで、科学者の役割を明確にし、才能を急速に統合し、重要性と進歩の明確なシグナルを提供した。 しかし、歴史は科学に対するこの合理化アプローチへのトレードオフも明らかにしている: 外部の関心とベンチマークの固有の保守主義に関する統合は、モノカルチャーのスケーリングを超えて探索を非インセンティブにした。 この議論では、AIのモノカルチャーが科学の進歩にベーシックで探索駆動的な研究が必要であるという信念に、いかに説得力のある挑戦をもたらすかを説明している。 生成AIの時代におけるAIモノカルチャーの他の科学への普及の意義についても論じる。

Over the past decade, AI research has focused heavily on building ever-larger deep learning models. This approach has simultaneously unlocked incredible achievements in science and technology, and hindered AI from overcoming long-standing limitations with respect to explainability, ethical harms, and environmental efficiency. Drawing on qualitative interviews and computational analyses, our three-part history of AI research traces the creation of this "epistemic monoculture" back to a radical reconceptualization of scientific progress that began in the late 1980s. In the first era of AI research (1950s-late 1980s), researchers and patrons approached AI as a "basic" science that would advance through autonomous exploration and organic assessments of progress (e.g., peer-review, theoretical consensus). The failure of this approach led to a retrenchment of funding in the 1980s. Amid this "AI Winter," an intervention by the U.S. government reoriented the field towards measurable progress on tasks of military and commercial interest. A new evaluation system called "benchmarking" provided an objective way to quantify progress on tasks by focusing exclusively on increasing predictive accuracy on example datasets. Distilling science down to verifiable metrics clarified the roles of scientists, allowed the field to rapidly integrate talent, and provided clear signals of significance and progress. But history has also revealed a tradeoff to this streamlined approach to science: the consolidation around external interests and inherent conservatism of benchmarking has disincentivized exploration beyond scaling monoculture. In the discussion, we explain how AI's monoculture offers a compelling challenge to the belief that basic, exploration-driven research is needed for scientific progress. Implications for the spread of AI monoculture to other sciences in the era of generative AI are also discussed.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# VoiceShop: アイデンティティを保存するゼロショット音声編集のための統一音声合成フレームワーク

VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing ( http://arxiv.org/abs/2404.06674v2 )

ライセンス: Link先を確認
Philip Anastassiou, Zhenyu Tang, Kainan Peng, Dongya Jia, Jiaxin Li, Ming Tu, Yuping Wang, Yuxuan Wang, Mingbo Ma, (参考訳) 入力話者の音色を保ちながら, 年齢, 性別, アクセント, 音声スタイルなどの音声の複数の属性を1つの前方通過で修正できる, 音声音声合成フレームワークであるVoiceShopを提案する。 変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は望ましくない音色リークを示す。 本研究は,フローベースおよびシーケンスツーシーケンスの話者属性編集モジュールを任意に正規化する条件付き拡散バックボーンモデルに基づく,シンプルなモジュラー・フレームワークによる各問題に対する解決策を提案する。 オーディオサンプルは \url{https://voiceshopai.github.io} で入手できる。

We present VoiceShop, a novel speech-to-speech framework that can modify multiple attributes of speech, such as age, gender, accent, and speech style, in a single forward pass while preserving the input speaker's timbre. Previous works have been constrained to specialized models that can only edit these attributes individually and suffer from the following pitfalls: the magnitude of the conversion effect is weak, there is no zero-shot capability for out-of-distribution speakers, or the synthesized outputs exhibit undesirable timbre leakage. Our work proposes solutions for each of these issues in a simple modular framework based on a conditional diffusion backbone model with optional normalizing flow-based and sequence-to-sequence speaker attribute-editing modules, whose components can be combined or removed during inference to meet a wide array of tasks without additional model finetuning. Audio samples are available at \url{https://voiceshopai.github.io}.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# SpikeNVS:スパイクカメラによるBlurry画像からの新たなビュー合成

SpikeNVS: Enhancing Novel View Synthesis from Blurry Images via Spike Camera ( http://arxiv.org/abs/2404.06710v2 )

ライセンス: Link先を確認
Gaole Dai, Zhenyu Wang, Qinwen Xu, Ming Lu, Wen Cheng, Baixin Shi, Shanghang Zhang, Tiejun Huang, (参考訳) ニューラルレイディアンス場(NeRF)や3Dガウススプラッティング(3DGS)といったニューラルフィールド法を用いて、鋭いノベルビュー合成(NVS)を実現する上で最も重要な要因の1つは、トレーニング画像の品質である。 しかし、従来のRGBカメラは動きがぼやけやすい。 対照的に、イベントカメラやスパイクカメラのようなニューロモルフィックカメラは、本質的にはより包括的な時間的情報をキャプチャし、追加のトレーニングデータとしてシーンのシャープな表現を提供する。 近年,NVSの品質向上を目的としたイベントカメラの統合が検討されている。 イベント-RGBアプローチには、トレーニングコストの高さや、バックグラウンドで効果的に動作できないことなど、いくつかの制限がある。 その代わりに、スパイクカメラを使ってこれらの制限を克服する新しい方法を紹介した。 スパイクストリームからのテクスチャ再構築を真実として考慮し、スパイク(TfS)損失のテクスチャを設計する。 スパイクカメラは、イベントカメラの時間差ではなく、時間積分に依存しているため、提案したTfS損失は、管理可能なトレーニングコストを維持できる。 背景を持つ前景オブジェクトを同時に処理する。 また、スパイクRGBカメラシステムで捉えた現実世界のデータセットも提供し、将来の研究活動を促進する。 合成および実世界のデータセットを用いて広範な実験を行い、NeRFおよび3DGS間の新規なビュー合成を向上できることを実証する。 コードとデータセットはパブリックアクセスで利用できる。

One of the most critical factors in achieving sharp Novel View Synthesis (NVS) using neural field methods like Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) is the quality of the training images. However, Conventional RGB cameras are susceptible to motion blur. In contrast, neuromorphic cameras like event and spike cameras inherently capture more comprehensive temporal information, which can provide a sharp representation of the scene as additional training data. Recent methods have explored the integration of event cameras to improve the quality of NVS. The event-RGB approaches have some limitations, such as high training costs and the inability to work effectively in the background. Instead, our study introduces a new method that uses the spike camera to overcome these limitations. By considering texture reconstruction from spike streams as ground truth, we design the Texture from Spike (TfS) loss. Since the spike camera relies on temporal integration instead of temporal differentiation used by event cameras, our proposed TfS loss maintains manageable training costs. It handles foreground objects with backgrounds simultaneously. We also provide a real-world dataset captured with our spike-RGB camera system to facilitate future research endeavors. We conduct extensive experiments using synthetic and real-world datasets to demonstrate that our design can enhance novel view synthesis across NeRF and 3DGS. The code and dataset will be made available for public access.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 執行のステートフル証明によるフェデレーション学習と差別化の防止

Poisoning Prevention in Federated Learning and Differential Privacy via Stateful Proofs of Execution ( http://arxiv.org/abs/2404.06721v2 )

ライセンス: Link先を確認
Norrathep Rattanavipanon, Ivan De Oliveira Nunes, (参考訳) IoT駆動の分散データ分析の台頭と、プライバシー上の懸念の高まりにより、効果的なプライバシ保護とフェデレーション付きデータ収集/モデルトレーニングメカニズムの需要が高まっている。 これに対し、フェデレートラーニング(FL)やローカルディファレンシャルプライバシ(LDP)といったアプローチが提案され、ここ数年で多くの注目を集めている。 しかし、敵の敵が敵のエッジデバイスに偽造された(毒を盛った)データをバックエンドに供給し、FL/LDP結果の整合性を損なうような、毒攻撃に弱いという共通の制限を共有している。 本研究では,IoT/組み込みデバイスのソフトウェアに対する,新しいセキュリティ概念PoSX(Proofs of Stateful Execution)に基づくシステムレベルのアプローチを提案する。 PoSX の概念を実現するため,私たちは SLAPP: System-Level Approach for Poisoning Prevention を設計した。 SLAPPは組み込みデバイス(特にARM TrustZoneMセキュリティ拡張)のコモディティセキュリティ機能を活用して、FL/LDPエッジデバイスルーチンの一部として、生の知覚データを正しい使用法に確実に結合する。 その結果、毒殺に対する堅牢なセキュリティ保証が提供される。 複数の暗号プリミティブとデータ収集スキームを備えた実世界のプロトタイプに基づいて評価を行ったところ,SLAPPのセキュリティとオーバーヘッドの低さが示された。

The rise in IoT-driven distributed data analytics, coupled with increasing privacy concerns, has led to a demand for effective privacy-preserving and federated data collection/model training mechanisms. In response, approaches such as Federated Learning (FL) and Local Differential Privacy (LDP) have been proposed and attracted much attention over the past few years. However, they still share the common limitation of being vulnerable to poisoning attacks wherein adversaries compromising edge devices feed forged (a.k.a. poisoned) data to aggregation back-ends, undermining the integrity of FL/LDP results. In this work, we propose a system-level approach to remedy this issue based on a novel security notion of Proofs of Stateful Execution (PoSX) for IoT/embedded devices' software. To realize the PoSX concept, we design SLAPP: a System-Level Approach for Poisoning Prevention. SLAPP leverages commodity security features of embedded devices - in particular ARM TrustZoneM security extensions - to verifiably bind raw sensed data to their correct usage as part of FL/LDP edge device routines. As a consequence, it offers robust security guarantees against poisoning. Our evaluation, based on real-world prototypes featuring multiple cryptographic primitives and data collection schemes, showcases SLAPP's security and low overhead.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 潜伏拡散モデルにおける異種著作権侵害

Disguised Copyright Infringement of Latent Diffusion Models ( http://arxiv.org/abs/2404.06737v2 )

ライセンス: Link先を確認
Yiwei Lu, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu, (参考訳) 著作権侵害は、生成モデルがトレーニング期間中にアクセスしたいくつかの著作権データと実質的に類似したサンプルを生成するときに起こりうる。 アクセスの概念は、通常、トレーニングデータセットに直接著作権のあるサンプルを含めることを指す。 このような視覚的な監査は、著作権が隠された著作権侵害をほとんど見落としていると我々は主張する。そこでは、著作権サンプルと大きく異なるように見える偽装を構築するが、それでも遅延拡散モデルを訓練する効果を誘導する。 このような偽装は著作権のある資料への間接アクセスしか必要とせず、視覚的に区別できないため、現在の監査ツールを簡単に回避できる。 本稿では, 偽装生成アルゴリズム, 偽装の啓示, および, 既存のツールボックスの強化方法を明らかにすることにより, このような偽装著作権侵害の理解を深める。 さらに、このような間接的アクセスを理解するための、より広範な知識の概念を導入する。

Copyright infringement may occur when a generative model produces samples substantially similar to some copyrighted data that it had access to during the training phase. The notion of access usually refers to including copyrighted samples directly in the training dataset, which one may inspect to identify an infringement. We argue that such visual auditing largely overlooks a concealed copyright infringement, where one constructs a disguise that looks drastically different from the copyrighted sample yet still induces the effect of training Latent Diffusion Models on it. Such disguises only require indirect access to the copyrighted material and cannot be visually distinguished, thus easily circumventing the current auditing tools. In this paper, we provide a better understanding of such disguised copyright infringement by uncovering the disguises generation algorithm, the revelation of the disguises, and importantly, how to detect them to augment the existing toolbox. Additionally, we introduce a broader notion of acknowledgment for comprehending such indirect access.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 一般化線形コンテキスト帯域に対する適応性に制限のある最適レグレット

Optimal Regret with Limited Adaptivity for Generalized Linear Contextual Bandits ( http://arxiv.org/abs/2404.06831v2 )

ライセンス: Link先を確認
Ayush Sawarni, Nirjhar Das, Siddharth Barman, Gaurav Sinha, (参考訳) 限定適応性の要求条件の中で、一般化線形文脈帯域問題について検討する。 本稿では,B-GLinCBとRS-GLinCBの2つのアルゴリズムを提案する。 これら2つのモデルに対して、基本的には厳密な後悔境界を確立する。 特に、得られたバウンダリにおいて、基礎となる報酬モデルの非線形性をキャプチャするキーパラメータ$\kappa$への依存を取り除くことに成功している。 バッチ学習アルゴリズムB-GLinCBでは、$\Omega\left( \log{\log T} \right)$ batchesで、後悔は$\tilde{O}(\sqrt{T})$としてスケールする。 さらに、我々のめったに切り替えないアルゴリズムRS-GLinCBは、少なくとも$\tilde{O}(\log^2T)$倍のポリシーを更新し、$\tilde{O}(\sqrt{T})$を後悔する。 一般化された文脈的帯域に対する$\kappa$への依存を取り除くアプローチは、独立した関心事かもしれない。

We study the generalized linear contextual bandit problem within the requirements of limited adaptivity. In this paper, we present two algorithms, B-GLinCB and RS-GLinCB, that address, respectively, two prevalent limited adaptivity models: batch learning with stochastic contexts and rare policy switches with adversarial contexts. For both these models, we establish essentially tight regret bounds. Notably, in the obtained bounds, we manage to eliminate a dependence on a key parameter $\kappa$, which captures the non-linearity of the underlying reward model. For our batch learning algorithm B-GLinCB, with $\Omega\left( \log{\log T} \right)$ batches, the regret scales as $\tilde{O}(\sqrt{T})$. Further, we establish that our rarely switching algorithm RS-GLinCB updates its policy at most $\tilde{O}(\log^2 T)$ times and achieves a regret of $\tilde{O}(\sqrt{T})$. Our approach for removing the dependence on $\kappa$ for generalized linear contextual bandits might be of independent interest.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# MoCha-Stereo: ステレオマッチングのためのMotifチャネルアテンションネットワーク

MoCha-Stereo: Motif Channel Attention Network for Stereo Matching ( http://arxiv.org/abs/2404.06842v2 )

ライセンス: Link先を確認
Ziyang Chen, Wei Long, He Yao, Yongjun Zhang, Bingshu Wang, Yongbin Qin, Jia Wu, (参考訳) 学習に基づくステレオマッチング技術は大きな進歩を遂げた。 しかし,既存の手法では,特徴チャネル生成プロセス中に必然的に幾何学的構造情報が失われ,エッジディテールのミスマッチが発生する。 本稿では,この問題を解決するためにMotif Cha}nnel Attention Stereo Matching Network(MoCha-Stereo)を設計する。 より正確なエッジマッチングコストを決定するために,Motif Channel correlation Volume (MCCV) を提供する。 MCCVは、特徴チャネルの一般的な幾何学的構造を特徴マップやコストボリュームに投影することで実現される。 さらに, 再構成誤差マップの有意な特徴チャネルのエッジ変動は, 詳細マッチングにも影響し, 完全分解能差推定の精度を高めるために, 再構成誤差モティフペナルティ (REMP) モジュールを提案する。 REMPは、復元誤差から典型的なチャネル特徴の周波数情報を統合する。 MoCha-Stereoは、KITTI-2015とKITTI-2012のリフレクティブ・リーダーボードで1位にランクインした。 また,Multi-View Stereoでも優れた性能を示す。 コードはhttps://github.com/ZYangChen/MoCha-Stereo.comにある。

Learning-based stereo matching techniques have made significant progress. However, existing methods inevitably lose geometrical structure information during the feature channel generation process, resulting in edge detail mismatches. In this paper, the Motif Cha}nnel Attention Stereo Matching Network (MoCha-Stereo) is designed to address this problem. We provide the Motif Channel Correlation Volume (MCCV) to determine more accurate edge matching costs. MCCV is achieved by projecting motif channels, which capture common geometric structures in feature channels, onto feature maps and cost volumes. In addition, edge variations in %potential feature channels of the reconstruction error map also affect details matching, we propose the Reconstruction Error Motif Penalty (REMP) module to further refine the full-resolution disparity estimation. REMP integrates the frequency information of typical channel features from the reconstruction error. MoCha-Stereo ranks 1st on the KITTI-2015 and KITTI-2012 Reflective leaderboards. Our structure also shows excellent performance in Multi-View Stereo. Code is avaliable at https://github.com/ZYangChen/MoCha-Stereo.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 医療領域のためのマルチラベル連続学習:新しいベンチマーク

Multi-Label Continual Learning for the Medical Domain: A Novel Benchmark ( http://arxiv.org/abs/2404.06859v2 )

ライセンス: Link先を確認
Marina Ceccon, Davide Dalle Pezze, Alessandro Fabris, Gian Antonio Susto, (参考訳) 動的環境におけるマルチラベル画像分類は重要な課題である。 これまでの研究は主にドメインインクリメンタルラーニングやクラスインクリメンタルラーニングといったシナリオに重点を置いてきた。 本稿では,新しいクラス到着と単一フレームワークにおけるドメインシフトの両面での課題を組み合わせた,ニューインスタンスとニュークラスと呼ばれるシナリオにおける医用画像の分類問題について検討する。 従来のシナリオとは異なり、医療画像のような領域におけるCLの現実的な性質を反映している。 この複雑なシナリオによって引き起こされる特異な課題に対処するために、Pseudo-Label Replayと呼ばれる新しいアプローチを導入する。 本手法は,Replay法とPseudo-Label法の利点を組み合わせることで,新しいクラスやドメインシフトに適応しながら,忘れを軽減し,提案シナリオにおける制限を解決することを目的とする。 提案手法は,2つのデータセット,7つのタスク,19のクラスで構成され,現実的な連続学習シナリオをモデル化する。 提案した複雑なシナリオがもたらす課題に対処する上での擬似ラベルリプレイの有効性を実験的に検証した。 提案手法は既存の手法を超越し,最小限の忘れ方を示しながら優れた性能を示す。

Multi-label image classification in dynamic environments is a problem that poses significant challenges. Previous studies have primarily focused on scenarios such as Domain Incremental Learning and Class Incremental Learning, which do not fully capture the complexity of real-world applications. In this paper, we study the problem of classification of medical imaging in the scenario termed New Instances and New Classes, which combines the challenges of both new class arrivals and domain shifts in a single framework. Unlike traditional scenarios, it reflects the realistic nature of CL in domains such as medical imaging, where updates may introduce both new classes and changes in domain characteristics. To address the unique challenges posed by this complex scenario, we introduce a novel approach called Pseudo-Label Replay. This method aims to mitigate forgetting while adapting to new classes and domain shifts by combining the advantages of the Replay and Pseudo-Label methods and solving their limitations in the proposed scenario. We evaluate our proposed approach on a challenging benchmark consisting of two datasets, seven tasks, and nineteen classes, modeling a realistic Continual Learning scenario. Our experimental findings demonstrate the effectiveness of Pseudo-Label Replay in addressing the challenges posed by the complex scenario proposed. Our method surpasses existing approaches, exhibiting superior performance while showing minimal forgetting.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# メタチェックGPT - LLM不確かさとメタモデルを用いたマルチタスク幻覚検出器

MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models ( http://arxiv.org/abs/2404.06948v2 )

ライセンス: Link先を確認
Rahul Mehta, Andrew Hoblitzell, Jack O'Keefe, Hyeju Jang, Vasudeva Varma, (参考訳) 大規模言語モデル(LLM)における幻覚は、最近重要な問題となっている。 この方向の最近の取り組みは、Semeval 2024 Task 6, SHROOM, Shared-task on Hallucinations and Related Observable Overgeneration misstakesにおける共有タスクである。 本稿では,モデル非依存トラックとモデル認識トラックの2つのサブタスクにおいて,勝利解をそれぞれ1位と2位にランク付けした。 モデル評価と統合のためのLCMのメタレグレクタフレームワークを提案する。 また,ChatGPTやVectaraなど,さまざまなトランスフォーマーベースモデルやブラックボックス手法についても実験を行った。 さらに,GPT4を最良モデルと比較し,前者の限界を示す誤り解析を行う。

Hallucinations in large language models (LLMs) have recently become a significant problem. A recent effort in this direction is a shared task at Semeval 2024 Task 6, SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. This paper describes our winning solution ranked 1st and 2nd in the 2 sub-tasks of model agnostic and model aware tracks respectively. We propose a meta-regressor framework of LLMs for model evaluation and integration that achieves the highest scores on the leaderboard. We also experiment with various transformer-based models and black box methods like ChatGPT, Vectara, and others. In addition, we perform an error analysis comparing GPT4 against our best model which shows the limitations of the former.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# Chebyshevのプロトタイプのリスク最小化は、オーバーフィッティングの危険性を魔法のように軽減する

Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting ( http://arxiv.org/abs/2404.07083v2 )

ライセンス: Link先を確認
Nathaniel Dean, Dilip Sarkar, (参考訳) 過パラメータ化ディープニューラルネットワーク(DNN)は、十分に正規化されていないとしても、トレーニングサンプルに過度に適合する可能性があり、テストデータの一般化が不十分である。 オーバーフィッティングを回避するために、ネットワークの1層以上の層におけるクラス内特徴相関を低減し、クラス間特徴距離を最大化する多成分損失関数を開発した。 線形分類器に先立ってDNNの特徴抽出部が出力する最小の特徴層活性化を解析することにより,CPR(Chebyshev Prototype Risk)という誤分類の確率に基づいて,クラス内特徴共分散とクラス間プロトタイプ分離の修正形式が基本的なチェビシェフ上界のキーコンポーネントであることが判明した。 従来のアプローチの共分散損失項はネットワーク特徴数と2次にスケールするが,我々のCPR境界は,対数線形時間における近似共分散損失が境界を小さくするのに十分であり,大規模アーキテクチャにも拡張可能であることを示唆している。 我々は、Explicit CPR(exCPR)損失関数にバウンドされたCPRの条件を実装し、複数のデータセットやネットワークアーキテクチャ上で経験的な結果から、トレーニングアルゴリズムがオーバーフィッティングを減らし、多くの設定で以前のアプローチを改善していることを観察する。 私たちのコードはhttps://github.com/Deano1718/Regularization_exCPRで利用可能です。

Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data. To discourage overfitting, researchers have developed multicomponent loss functions that reduce intra-class feature correlation and maximize inter-class feature distance in one or more layers of the network. By analyzing the penultimate feature layer activations output by a DNN's feature extraction section prior to the linear classifier, we find that modified forms of the intra-class feature covariance and inter-class prototype separation are key components of a fundamental Chebyshev upper bound on the probability of misclassification, which we designate the Chebyshev Prototype Risk (CPR). While previous approaches' covariance loss terms scale quadratically with the number of network features, our CPR bound indicates that an approximate covariance loss in log-linear time is sufficient to reduce the bound and is scalable to large architectures. We implement the terms of the CPR bound into our Explicit CPR (exCPR) loss function and observe from empirical results on multiple datasets and network architectures that our training algorithm reduces overfitting and improves upon previous approaches in many settings. Our code is available at https://github.com/Deano1718/Regularization_exCPR .
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# モデル中心から人間中心へ: LLMにおけるテキスト評価の指標としてのリビジョン距離

From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications ( http://arxiv.org/abs/2404.07108v2 )

ライセンス: Link先を確認
Yongqiang Ma, Lizhi Qing, Jiawei Liu, Yangyang Kang, Yue Zhang, Wei Lu, Xiaozhong Liu, Qikai Cheng, (参考訳) 大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。 従来の評価手法は、主にLLM開発用に設計され、ユーザエクスペリエンスを無視する数値スコアを得る。 そこで本研究では,AIを活用した筆記支援アプリケーションにおいて,モデル中心から人中心評価へ焦点を移す。 提案手法は「リビジョン距離」と呼ばれ,人間の筆記過程を模倣したリビジョン編集を提案する。 LLMによって生成された修正編集を数えることによって決定される。 生成した改訂編集の詳細から、我々のメトリクスは、文脈に依存しないスコアを超えて、人間に理解可能な方法で、自己記述されたテキスト評価結果を提供することができる。 以上の結果から, 「リビジョン距離」は既存の指標(ROUGE, Bert-score, GPT-score)と一致しているが, より洞察に富み, 詳細なフィードバックが得られ, テキストの識別性が向上することが示唆された。 さらに、学術的な文章作成タスクに挑戦する文脈では、我々のメトリクスは、他のメトリクスが苦労する傾向にある信頼できる評価を提供しています。 さらに,基準テキストを欠いたシナリオにも有意な可能性を秘めている。

Evaluating large language models (LLMs) is fundamental, particularly in the context of practical applications. Conventional evaluation methods, typically designed primarily for LLM development, yield numerical scores that ignore the user experience. Therefore, our study shifts the focus from model-centered to human-centered evaluation in the context of AI-powered writing assistance applications. Our proposed metric, termed ``Revision Distance,'' utilizes LLMs to suggest revision edits that mimic the human writing process. It is determined by counting the revision edits generated by LLMs. Benefiting from the generated revision edit details, our metric can provide a self-explained text evaluation result in a human-understandable manner beyond the context-independent score. Our results show that for the easy-writing task, ``Revision Distance'' is consistent with established metrics (ROUGE, Bert-score, and GPT-score), but offers more insightful, detailed feedback and better distinguishes between texts. Moreover, in the context of challenging academic writing tasks, our metric still delivers reliable evaluations where other metrics tend to struggle. Furthermore, our metric also holds significant potential for scenarios lacking reference texts.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 運転注意追跡と分析

Driver Attention Tracking and Analysis ( http://arxiv.org/abs/2404.07122v2 )

ライセンス: Link先を確認
Dat Viet Thanh Nguyen, Anh Tran, Hoai Nam Vu, Cuong Pham, Minh Hoai, (参考訳) 車両のフロントガラスとダッシュボードに装着された通常の2台のカメラを用いて、運転者の視線を推定する新しい手法を提案する。 これは、未知の深さの3Dシーンを持つ交通環境のダイナミクスのため、難しい問題である。 この問題は、ドライバーとカメラシステムの間の揮発性距離によってさらに複雑になる。 これらの課題に対処するために、シーンの画像とドライバーの顔の画像を同時に解析する新しい畳み込みネットワークを開発する。 このネットワークは、ドライバとカメラシステムの間の空間構成を表す埋め込みベクトルを計算できるカメラキャリブレーションモジュールを有する。 このキャリブレーションモジュールは、ネットワーク全体のパフォーマンスを改善し、エンドツーエンドで共同でトレーニングすることができる。 また、注視アノテーションを用いた大規模運転データセットを導入することにより、トレーニングと評価のための注釈付きデータの欠如にも対処する。 これは都市部の実際の運転セッションのIn situデータセットで、運転シーンの同期画像と運転者の顔と視線を含む。 提案手法は, シーンカメラの平均誤差が29.69ピクセルであり, シーンカメラの解像度が1,1280{\timesの720ドルに対して比較的小さい。

We propose a novel method to estimate a driver's points-of-gaze using a pair of ordinary cameras mounted on the windshield and dashboard of a car. This is a challenging problem due to the dynamics of traffic environments with 3D scenes of unknown depths. This problem is further complicated by the volatile distance between the driver and the camera system. To tackle these challenges, we develop a novel convolutional network that simultaneously analyzes the image of the scene and the image of the driver's face. This network has a camera calibration module that can compute an embedding vector that represents the spatial configuration between the driver and the camera system. This calibration module improves the overall network's performance, which can be jointly trained end to end. We also address the lack of annotated data for training and evaluation by introducing a large-scale driving dataset with point-of-gaze annotations. This is an in situ dataset of real driving sessions in an urban city, containing synchronized images of the driving scene as well as the face and gaze of the driver. Experiments on this dataset show that the proposed method outperforms various baseline methods, having the mean prediction error of 29.69 pixels, which is relatively small compared to the $1280{\times}720$ resolution of the scene camera.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 密接な連想モデルにおける意味的関連記憶

Semantically-correlated memories in a dense associative model ( http://arxiv.org/abs/2404.07123v2 )

ライセンス: Link先を確認
Thomas F Burns, (参考訳) 本稿では,CDAM(Correlated Dense Associative Memory)と呼ばれる新しい連想記憶モデルについて紹介する。 任意のグラフ構造を用いてメモリパターンを意味的にリンクし、CDAMは理論上、数値的に解析され、オートアソシエーション、狭いヘテロアソシエーション、広いヘテロアソシエーション、中立クエンスという4つの異なる動的モードが明らかになった。 抑制的調節研究からインスピレーションを得た私は、ヘテロ連想の範囲を制御し、グラフ内のコミュニティ構造のマルチスケール表現を抽出し、時間的シーケンスのリコールを安定化するために、アンチヘビアン学習ルールを採用しています。 実験では、CDAMが実世界のデータを処理し、古典的な神経科学実験を複製し、画像検索を行い、任意の有限オートマトンをシミュレートする効果を示す。

I introduce a novel associative memory model named Correlated Dense Associative Memory (CDAM), which integrates both auto- and hetero-association in a unified framework for continuous-valued memory patterns. Employing an arbitrary graph structure to semantically link memory patterns, CDAM is theoretically and numerically analysed, revealing four distinct dynamical modes: auto-association, narrow hetero-association, wide hetero-association, and neutral quiescence. Drawing inspiration from inhibitory modulation studies, I employ anti-Hebbian learning rules to control the range of hetero-association, extract multi-scale representations of community structures in graphs, and stabilise the recall of temporal sequences. Experimental demonstrations showcase CDAM's efficacy in handling real-world data, replicating a classical neuroscience experiment, performing image retrieval, and simulating arbitrary finite automata.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# 語彙と句の変動に対するテキスト・ツー・ヴィジュアライゼーション翻訳のロバスト性に向けて

Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability ( http://arxiv.org/abs/2404.07135v2 )

ライセンス: Link先を確認
Jinwei Lu, Yuanfeng Song, Haodi Zhang, Chen Zhang, Raymond Chi-Wing Wong, (参考訳) Text-to-Visは自然言語処理(NLP)分野における新たな課題であり、自然言語質問(NLQ)からデータ視覚化を自動的に生成することを目的としている。 それらの進歩にもかかわらず、既存のテキスト・ツー・ビジター・モデルは多くの場合、質問における単語とデータスキーマにおけるトークン間の語彙マッチングに大きく依存する。 この語彙マッチングへの過度な依存は、入力変動に対するモデルロバストネスのレベルを低下させる可能性がある。 本研究では,これまで検討されていない領域である現行のテキスト・ツー・ビジュア・モデルのロバスト性について,徹底的に検討する。 特に,最初のロバスト性データセットであるnvBench-Robを構築する。 その結果,既存のテキスト・ツー・ビジュアライゼーション・モデルの性能は劇的に低下し,これらの手法が全体として不適切なロバスト性を示すことが示唆された。 最後に,これら2つの変種における入力の摂動に対処するために,GREDと呼ばれるRAG(Retrieval-Augmented Generation)技術に基づく新しいフレームワークを提案する。 NLQ-Retrieval Generator, Visualization Query-Retrieval Retuner, Annotation-based Debuggerの3つのパートで構成されている。 テキスト・ツー・ビジュアル分野における最先端モデルRGVisNetと比較して、GREDはモデルロバスト性において優れた性能を示し、提案したnvBench-Robデータセットでは精度が32%向上した。

Text-to-Vis is an emerging task in the natural language processing (NLP) area that aims to automatically generate data visualizations from natural language questions (NLQs). Despite their progress, existing text-to-vis models often heavily rely on lexical matching between words in the questions and tokens in data schemas. This overreliance on lexical matching may lead to a diminished level of model robustness against input variations. In this study, we thoroughly examine the robustness of current text-to-vis models, an area that has not previously been explored. In particular, we construct the first robustness dataset nvBench-Rob, which contains diverse lexical and phrasal variations based on the original text-to-vis benchmark nvBench. Then, we found that the performance of existing text-to-vis models on this new dataset dramatically drops, implying that these methods exhibit inadequate robustness overall. Finally, we propose a novel framework based on Retrieval-Augmented Generation (RAG) technique, named GRED, specifically designed to address input perturbations in these two variants. The framework consists of three parts: NLQ-Retrieval Generator, Visualization Query-Retrieval Retuner and Annotation-based Debugger, which are used to tackle the challenges posed by natural language variants, programming style differences and data schema variants, respectively. Extensive experimental evaluations show that, compared to the state-of-the-art model RGVisNet in the Text-to-Vis field, GRED performs better in terms of model robustness, with a 32% increase in accuracy on the proposed nvBench-Rob dataset.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11
# BAMBOO:液体電解質開発のための予測および伝達可能な機械学習力場フレームワーク

BAMBOO: a predictive and transferable machine learning force field framework for liquid electrolyte development ( http://arxiv.org/abs/2404.07181v2 )

ライセンス: Link先を確認
Sheng Gong, Yumin Zhang, Zhenliang Mu, Zhichen Pu, Hongyi Wang, Zhiao Yu, Mengyi Chen, Tianze Zheng, Zhi Wang, Lifei Chen, Xiaojie Wu, Shaochen Shi, Weihao Gao, Wen Yan, Liang Xiang, (参考訳) 機械学習力場(MLFF)が固体や小分子に広く応用されているにもかかわらず、複雑な液体電解質にMLFFを適用する際には顕著なギャップがある。 本研究では,分子動力学(MD)シミュレーションのための新しいフレームワークであるBAMBOO(ByteDance AI Molecular Simulation Booster)を紹介する。 我々は、量子力学シミュレーションから学ぶため、BAMBOOのバックボーンとして、物理に着想を得たグラフ同変変変圧器アーキテクチャを設計する。 さらに,本手法をMLFFに適用し,MDシミュレーションの安定性向上を図る。 最後に,BAMBOOを実験値と整合させる密度アライメントアルゴリズムを提案する。 BAMBOOは、密度、粘性、および様々な溶媒と塩の組み合わせにおけるイオン伝導率などの主要な電解質特性を予測するための最先端の精度を示す。 現在のモデルでは15種以上の化学種で訓練し, 各種組成における平均密度誤差0.01g/cm$^3$を実験データと比較した。 さらに,本モデルでは,量子力学的データセットに含まれない分子への転移性を示す。 この研究は、一般的な有機液体の性質をシミュレートできる「ユニバーサルMLFF」への道を開くことを目的としている。

Despite the widespread applications of machine learning force field (MLFF) on solids and small molecules, there is a notable gap in applying MLFF to complex liquid electrolytes. In this work, we introduce BAMBOO (ByteDance AI Molecular Simulation Booster), a novel framework for molecular dynamics (MD) simulations, with a demonstration of its capabilities in the context of liquid electrolytes for lithium batteries. We design a physics-inspired graph equivariant transformer architecture as the backbone of BAMBOO to learn from quantum mechanical simulations. Additionally, we pioneer an ensemble knowledge distillation approach and apply it on MLFFs to improve the stability of MD simulations. Finally, we propose the density alignment algorithm to align BAMBOO with experimental measurements. BAMBOO demonstrates state-of-the-art accuracy in predicting key electrolyte properties such as density, viscosity, and ionic conductivity across various solvents and salt combinations. Our current model, trained on more than 15 chemical species, achieves the average density error of 0.01 g/cm$^3$ on various compositions compared with experimental data. Moreover, our model demonstrates transferability to molecules not included in the quantum mechanical dataset. We envision this work as paving the way to a "universal MLFF" capable of simulating properties of common organic liquids.
翻訳日:2024-04-12 12:39:58 公開日:2024-04-11