このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240701となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 拡散モデルに関する総合的研究とその応用
A Comprehensive Survey on Diffusion Models and Their Applications ( http://arxiv.org/abs/2408.10207v1 ) ライセンス: Link先を確認 | Md Manjurul Ahsan, Shivakumar Raman, Yingtao Liu, Zahed Siddique, | (参考訳) 拡散モデル(英: Diffusion Models)は、拡散過程をシミュレートし、データから徐々にノイズを加えて除去することによって、現実的なサンプルを作成する確率モデルである。
これらのモデルは、高品質なサンプルを作成する能力により、画像処理、音声合成、自然言語処理などの領域で人気を博している。
拡散モデルが様々な領域で採用されているため、コンピュータビジョンや医用画像のような特定の領域に焦点を当てた既存の文献レビューは、複数の分野にわたる幅広い聴衆に役立ちません。
そこで本研究では,拡散モデルの概要を概説し,その理論的基礎とアルゴリズム的革新について概説する。
メディアの品質、信頼性、合成、画像変換、医療など、さまざまな分野におけるそれらの応用を強調します。
このレビューは、現在の知識を統合し、新たなトレンドを特定することによって、拡散モデルをより深く理解し、より広範な採用を促進することを目的としており、様々な分野にわたる将来の研究者や実践者のためのガイドラインを提供する。
Diffusion Models are probabilistic models that create realistic samples by simulating the diffusion process, gradually adding and removing noise from data. These models have gained popularity in domains such as image processing, speech synthesis, and natural language processing due to their ability to produce high-quality samples. As Diffusion Models are being adopted in various domains, existing literature reviews that often focus on specific areas like computer vision or medical imaging may not serve a broader audience across multiple fields. Therefore, this review presents a comprehensive overview of Diffusion Models, covering their theoretical foundations and algorithmic innovations. We highlight their applications in diverse areas such as media quality, authenticity, synthesis, image transformation, healthcare, and more. By consolidating current knowledge and identifying emerging trends, this review aims to facilitate a deeper understanding and broader adoption of Diffusion Models and provide guidelines for future researchers and practitioners across diverse disciplines. | 翻訳日:2024-11-08 06:44:48 公開日:2024-07-01 |
# 医療安全クリティカルセッティングにおける大規模言語モデルを用いたガードレールの必要性:薬理工学における人工知能応用
The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem ( http://arxiv.org/abs/2407.18322v1 ) ライセンス: Link先を確認 | Joe B Hakim, Jeffery L Painter, Darmendra Ramcharran, Vijay Kara, Greg Powell, Paulina Sobczak, Chiho Sato, Andrew Bate, Andrew Beam, | (参考訳) 大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。
しかし、LLMの高リスクかつ安全クリティカルな領域への展開は、特にLLMが製造された情報を生成できる ''hallucination'' の問題など、ユニークな課題を生んでいる。
これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。
これらのリスクを軽減するため、特定の種類の幻覚や薬物安全性の誤りを軽減し、他の医療安全クリティカルな文脈にも適用可能なガードレールのコンセプトスイートを考案し、実証した。
これらのガードレールは、異常な文書を検出し、不適切なデータの取り込みを防ぎ、不正な薬物名や有害な事象を識別し、生成された内容の不確実性を伝達するメカニズムを含む。
我々はこれらのガードレールをテキスト・テキスト・タスク用に微調整されたLLMと統合し、有害事象レポート内の構造化データと非構造化データの両方を自然言語に変換する。
本手法は, 個別症例安全レポートの翻訳に応用し, 薬物移動処理タスクに有効であることを示した。
我々のガードレール・フレームワークは、様々な領域に適用可能なツールセットを提供しており、不正な薬物移動関連用語の生成を含む重要なエラーの発生を排除し、医療安全上重要な環境における厳格な規制基準と品質基準を順守することにより、リスクの高い状況下でLLMを安全に使用できることを保証している。
Large language models (LLMs) are useful tools with the capacity for performing specific types of knowledge work at an effective scale. However, LLM deployments in high-risk and safety-critical domains pose unique challenges, notably the issue of ``hallucination,'' where LLMs can generate fabricated information. This is particularly concerning in settings such as drug safety, where inaccuracies could lead to patient harm. To mitigate these risks, we have developed and demonstrated a proof of concept suite of guardrails specifically designed to mitigate certain types of hallucinations and errors for drug safety, and potentially applicable to other medical safety-critical contexts. These guardrails include mechanisms to detect anomalous documents to prevent the ingestion of inappropriate data, identify incorrect drug names or adverse event terms, and convey uncertainty in generated content. We integrated these guardrails with an LLM fine-tuned for a text-to-text task, which involves converting both structured and unstructured data within adverse event reports into natural language. This method was applied to translate individual case safety reports, demonstrating effective application in a pharmacovigilance processing task. Our guardrail framework offers a set of tools with broad applicability across various domains, ensuring LLMs can be safely used in high-risk situations by eliminating the occurrence of key errors, including the generation of incorrect pharmacovigilance-related terms, thus adhering to stringent regulatory and quality standards in medical safety-critical environments. | 翻訳日:2024-08-05 01:35:56 公開日:2024-07-01 |
# オフラインデジタルユーロ:Groth-Sahai証明を用いた最小生存CBDC
Offline Digital Euro: a Minimum Viable CBDC using Groth-Sahai proofs ( http://arxiv.org/abs/2407.13776v1 ) ライセンス: Link先を確認 | Leon Kempen, Johan Pouwelse, | (参考訳) 現在のデジタル決済ソリューションは脆弱で、従来のキャッシュよりもプライバシーが低い。
トランザクションの実行と検証に使用されるオンラインサービスへの重要な依存は、サービスが到達不可能な場合に無効にする。
さらに、サーバの障害や停電時にトランザクションを実行することはできない。
気候変動により、極端な天候の可能性が高まる。
極端な天候が停電の大きな原因であるため、停電の頻度は増加すると予想されている。
プライバシーの欠如は、アカウントベースの設計や公開台帳の使用による固有の結果である。
重要な依存関係とプライバシーの欠如は、オフラインで使用可能な中央銀行デジタル通貨によって解決できる。
この論文は、オフラインファーストのデジタルユーロの設計と最初の実装を提案する。
このプロトコルはゼロ知識証明を使用してトランザクション中に完全なプライバシを提供する。
さらに、サードパーティなしでトランザクションをオフラインで実行し、遡及的な二重送信検出を容易にする。
ユーザのプライバシを保護するだけでなく,マネーロンダリングの防止にも,次のようなプライバシ保護機構を追加しています。
銀行と法執行機関の信頼できる第三者は、取引を解読するために協力し、取引で使用されるデジタル偽名を明らかにする必要がある。
重要なことに、トランザクションは、デジタルユーロに添付された前のトランザクションを復号することなく復号することができる。
プロトコルには、そのユーザビリティと機能デモを示す、動作する初期実装がある。
Current digital payment solutions are fragile and offer less privacy than traditional cash. Their critical dependency on an online service used to perform and validate transactions makes them void if this service is unreachable. Moreover, no transaction can be executed during server malfunctions or power outages. Due to climate change, the likelihood of extreme weather increases. As extreme weather is a major cause of power outages, the frequency of power outages is expected to increase. The lack of privacy is an inherent result of their account-based design or the use of a public ledger. The critical dependency and lack of privacy can be resolved with a Central Bank Digital Currency that can be used offline. This thesis proposes a design and a first implementation for an offline-first digital euro. The protocol offers complete privacy during transactions using zero-knowledge proofs. Furthermore, transactions can be executed offline without third parties and retroactive double-spending detection is facilitated. To protect the users' privacy, but also guard against money laundering, we have added the following privacy-guarding mechanism. The bank and trusted third parties for law enforcement must collaborate to decrypt transactions, revealing the digital pseudonym used in the transaction. Importantly, the transaction can be decrypted without decrypting prior transactions attached to the digital euro. The protocol has a working initial implementation showcasing its usability and demonstrating functionality. | 翻訳日:2024-07-28 18:48:53 公開日:2024-07-01 |
# DIR-BHRNet - スマートフォン上でのリアルタイム視覚に基づくマルチパーソンポーズ推定のための軽量ネットワーク
DIR-BHRNet: A Lightweight Network for Real-time Vision-based Multi-person Pose Estimation on Smartphones ( http://arxiv.org/abs/2407.13777v1 ) ライセンス: Link先を確認 | Gongjin Lan, Yu Wu, Qi Hao, | (参考訳) ヒューマンポーズ推定(HPE)、特にマルチパーソンポーズ推定(MPPE)は、ヒューマンマシンシステムなどの多くの領域に適用されている。
しかし、現在のMPPEメソッドは一般的に強力なGPUシステム上で動作し、多くの計算コストがかかる。
低パフォーマンスコンピューティングを持つモバイルデバイス上でのリアルタイムMPPEは難しい課題である。
本稿では,スマートフォン上でリアルタイムMPPEを実現するための軽量ニューラルネットワークDIR-BHRNetを提案する。
DIR-BHRNetでは、DIR(Dense Inverted Residual)を設計し、よく知られたInverted Residualに奥行きの畳み込みとショートカット接続を加えることにより精度を向上させるとともに、各ブランチの適切な数の畳み込みブロックを再構成することで計算コストを削減するために、新しい効率的なニューラルネットワーク構造であるBa balanced HRNet(BHRNet)を設計する。
我々は、よく知られたCOCOおよびCrowdPoseデータセット上でDIR-BHRNetを評価する。
その結果,DIR-BHRNetはリアルタイム計算コストの精度で最先端の手法よりも優れていた。
最後に、DIR-BHRNetを現在のメインストリームのAndroidスマートフォンに実装し、10 FPS以上のパフォーマンスを実現しています。
フリー使用可能なファイル(Android 10)、ソースコード、およびこの作業のビデオは、スマートフォン上でリアルタイムMPPEの開発を容易にするために、ページ1で公開されている。
Human pose estimation (HPE), particularly multi-person pose estimation (MPPE), has been applied in many domains such as human-machine systems. However, the current MPPE methods generally run on powerful GPU systems and take a lot of computational costs. Real-time MPPE on mobile devices with low-performance computing is a challenging task. In this paper, we propose a lightweight neural network, DIR-BHRNet, for real-time MPPE on smartphones. In DIR-BHRNet, we design a novel lightweight convolutional module, Dense Inverted Residual (DIR), to improve accuracy by adding a depthwise convolution and a shortcut connection into the well-known Inverted Residual, and a novel efficient neural network structure, Balanced HRNet (BHRNet), to reduce computational costs by reconfiguring the proper number of convolutional blocks on each branch. We evaluate DIR-BHRNet on the well-known COCO and CrowdPose datasets. The results show that DIR-BHRNet outperforms the state-of-the-art methods in terms of accuracy with a real-time computational cost. Finally, we implement the DIR-BHRNet on the current mainstream Android smartphones, which perform more than 10 FPS. The free-used executable file (Android 10), source code, and a video description of this work are publicly available on the page 1 to facilitate the development of real-time MPPE on smartphones. | 翻訳日:2024-07-28 18:48:53 公開日:2024-07-01 |
# 粒子状物質酸化電位推定のためのPlanetScope衛星画像の可能性評価
Assessing the Potential of PlanetScope Satellite Imagery to Estimate Particulate Matter Oxidative Potential ( http://arxiv.org/abs/2407.13778v1 ) ライセンス: Link先を確認 | Ian Hough, Loïc Argentier, Ziyang Jiang, Tongshu Zheng, Mike Bergin, David Carlson, Jean-Luc Jaffrezo, Jocelyn Chanussot, Gaëlle Uzu, | (参考訳) 酸化電位(OP)は、肺の酸化ストレスを誘導するために粒子状物質(PM)の容量を測定するが、PM毒性の指標として認識される。
OPは定期的に監視されないため、露出や健康への影響を見積もることは困難である。
リモートセンシングデータは通常、PM濃度を推定するために使用されるが、OPを推定するために使用されることはない。
本研究では,無細胞アスコルビン酸 (OP AA) とジチオスレイトール (OP DTT) で測定されたOPを, フランスのグレノブル周辺3カ所で5年間にわたって定期的に測定した。
深部畳み込みニューラルネットワークを用いて、毎日3m/ピクセルのPlanetScope衛星画像の特徴を抽出し、多層パーセプトロンを訓練し、画像の特徴と一般的な気象変数に基づいて1kmの空間分解能でOPを推定する。
このモデルはOP AAの変動の半分以上、OP DTT(それぞれテストセットR2 = 0.62と0.48)の変動の半分以上を捉え、相対平均絶対誤差(MAE)は約32%である。
衛星画像のみを用いて、OP AAの変動の約半分とOP DTT(それぞれテストセットR2 = 0.49と0.36)の変動の約3分の1を、相対MAEは約37%である。
他の領域で確認された場合、OP推定の時間的・空間的範囲を拡大するための低コストな手法を示すことができる。
Oxidative potential (OP), which measures particulate matter's (PM) capacity to induce oxidative stress in the lungs, is increasingly recognized as an indicator of PM toxicity. Since OP is not routinely monitored, it can be challenging to estimate exposure and health impacts. Remote sensing data are commonly used to estimate PM mass concentration, but have never been used to estimate OP. In this study, we evaluate the potential of satellite images to estimate OP as measured by acellular ascorbic acid (OP AA) and dithiothreitol (OP DTT) assays of 24-hour PM10 sampled periodically over five years at three locations around Grenoble, France. We use a deep convolutional neural network to extract features of daily 3 m/pixel PlanetScope satellite images and train a multilayer perceptron to estimate OP at a 1 km spatial resolution based on the image features and common meteorological variables. The model captures more than half of the variation in OP AA and almost half of the variation in OP DTT (test set R2 = 0.62 and 0.48, respectively), with relative mean absolute error (MAE) of about 32%. Using only satellite images, the model still captures about half of the variation in OP AA and one third of the variation in OP DTT (test set R2 = 0.49 and 0.36, respectively) with relative MAE of about 37%. If confirmed in other areas, our approach could represent a low-cost method for expanding the temporal or spatial coverage of OP estimates. | 翻訳日:2024-07-28 18:48:53 公開日:2024-07-01 |
# 間欠的深部推論の高速化
Accelerate Intermittent Deep Inference ( http://arxiv.org/abs/2407.14514v1 ) ライセンス: Link先を確認 | Ziliang Zhang, | (参考訳) エッジデバイスとマイクロコントローラユニット(MCU)の研究は、ディープラーニングトレーニングと推論タスクのデバイス上での計算を可能にする。
最近では、バッテリーレス断続的なデバイス上でDeep Neural Net(DNN)モデルを実行可能にすることに焦点を当てている。
アプローチの1つは、ウェイトシェアリング、プルーニングを可能にしてDNNモデルを縮小し、特定のエッジデバイスをターゲットにした検索スペースを最適化したニューラルアーキテクチャサーチ(NAS)を実行したことである。
別のアプローチでは、断続的な実行サイクルとリソース制約を意識したNASを実行することで、断続的な実行を解析し、対応するシステムを設計する。
しかし、NASは出力損失のない連続的な実行のみを考慮し、間欠的な実行設計はデータの再利用と間欠的な推論に関連するコストのバランスにのみ焦点を絞った。
我々は、256KB以下のSRAMを対象とするDNNモデルに最適化された参照DNNモデルのパワーを活用し、間欠的パワー内でスケジューリング可能で実行可能となるように、高速化された間欠的深部推論を提案する。
1) デバイス上でのインジェクションによるスケジュールタスクの断続実行サイクルへの実行とレイテンシの最適化 (2) ベースライン \cite{iNAS} \cite{HW-NAS} と比較してはるかに高い精度でエンドツーエンドのレイテンシを満足できるシステムを開発する。
Emerging research in edge devices and micro-controller units (MCU) enables on-device computation of Deep Learning Training and Inferencing tasks. More recently, contemporary trends focus on making the Deep Neural Net (DNN) Models runnable on battery-less intermittent devices. One of the approaches is to shrink the DNN models by enabling weight sharing, pruning, and conducted Neural Architecture Search (NAS) with optimized search space to target specific edge devices \cite{Cai2019OnceFA} \cite{Lin2020MCUNetTD} \cite{Lin2021MCUNetV2MP} \cite{Lin2022OnDeviceTU}. Another approach analyzes the intermittent execution and designs the corresponding system by performing NAS that is aware of intermittent execution cycles and resource constraints \cite{iNAS} \cite{HW-NAS} \cite{iLearn}. However, the optimized NAS was only considering consecutive execution with no power loss, and intermittent execution designs only focused on balancing data reuse and costs related to intermittent inference and often with low accuracy. We proposed Accelerated Intermittent Deep Inference to harness the power of optimized inferencing DNN models specifically targeting SRAM under 256KB and make it schedulable and runnable within intermittent power. Our main contribution is: (1) Schedule tasks performed by on-device inferencing into intermittent execution cycles and optimize for latency; (2) Develop a system that can satisfy the end-to-end latency while achieving a much higher accuracy compared to baseline \cite{iNAS} \cite{HW-NAS} | 翻訳日:2024-07-28 18:39:09 公開日:2024-07-01 |
# 臨床会話の内容からバイアス付き社会信号の自動検出に向けて
Toward Automated Detection of Biased Social Signals from the Content of Clinical Conversations ( http://arxiv.org/abs/2407.17477v1 ) ライセンス: Link先を確認 | Feng Chen, Manas Satish Bedmutha, Ray-Yuan Chung, Janice Sabin, Wanda Pratt, Brian R. Wood, Nadir Weibel, Andrea L. Hartzler, Trevor Cohen, | (参考訳) 過度なバイアスは患者と患者の間の相互作用を阻害し、不適切なケアにつながる。
このようなバイアスを緩和するためには、意識を高めることが重要であるが、患者と研究者のコミュニケーションの社会的ダイナミクスにおけるその顕在化は、検出が困難である。
本研究では,自動音声認識 (ASR) と自然言語処理 (NLP) を用いて患者-研究者間相互作用における社会的信号の同定を行った。
われわれは、782回のプライマリケア訪問の音声記録から社会信号を自動で予測するパイプラインを構築し、このパイプラインはコード全体で平均90.1%の精度を達成し、白人と非白人の患者の予測に公正さを示した。
このパイプラインを応用して、白と非白の患者に対する提供者コミュニケーション行動の統計的に有意な差異を同定した。
特に、提供者は、より暖かさ、エンゲージメント、注意力を含む白人患者に対してより患者中心の行動を示した。
我々の研究は、偏見と結びつき、医療の質や株式に影響を及ぼす可能性のある微妙なコミュニケーションシグナルを識別する自動化ツールの可能性を強調した。
Implicit bias can impede patient-provider interactions and lead to inequities in care. Raising awareness is key to reducing such bias, but its manifestations in the social dynamics of patient-provider communication are difficult to detect. In this study, we used automated speech recognition (ASR) and natural language processing (NLP) to identify social signals in patient-provider interactions. We built an automated pipeline to predict social signals from audio recordings of 782 primary care visits that achieved 90.1% average accuracy across codes, and exhibited fairness in its predictions for white and non-white patients. Applying this pipeline, we identified statistically significant differences in provider communication behavior toward white versus non-white patients. In particular, providers expressed more patient-centered behaviors towards white patients including more warmth, engagement, and attentiveness. Our study underscores the potential of automated tools in identifying subtle communication signals that may be linked with bias and impact healthcare quality and equity. | 翻訳日:2024-07-28 18:09:38 公開日:2024-07-01 |
# LLM4PM:大企業における大規模言語モデルによるプロセスモデリングのケーススタディ
LLM4PM: A case study on using Large Language Models for Process Modeling in Enterprise Organizations ( http://arxiv.org/abs/2407.17478v1 ) ライセンス: Link先を確認 | Clara Ziche, Giovanni Apruzzese, | (参考訳) 本稿では,大規模言語モデル(LLM)を用いてプロセスモデル作成を支援する可能性について検討する。
具体的には、多国籍企業であるHilti Groupにおいて、LLMベースのチャットボット PRODIGY(PROcess moDellIng Guidance for You)を開発し、テストするケーススタディを実施する。
私たちは特に、プロセスフロー図の作成において、LLMが(人間)モデラーをどのように役立つかを理解することに興味があります。
そこで本研究では,まずHiltiのプロプロセスモデラーを対象に,日常の業務で遭遇するさまざまな痛み点について,予備的なユーザスタディ(n=10)を行う。
そして,その応答を利用してPRODIGYを設計,実装する。
最後に、ユーザの学習参加者にProDIGYを使わせることでProDIGYを評価し、ProDIGYの長所と短所について意見を求める。
私たちは結果を実用的なテイクアウトで合体させます。
本研究は,LLMを実世界のプロセスモデリングに適用し,産業がLLMをどのように活用してビジネスプロセス管理活動を強化するかを明らかにするものである。
We investigate the potential of using Large Language Models (LLM) to support process model creation in organizational contexts. Specifically, we carry out a case study wherein we develop and test an LLM-based chatbot, PRODIGY (PROcess moDellIng Guidance for You), in a multinational company, the Hilti Group. We are particularly interested in understanding how LLM can aid (human) modellers in creating process flow diagrams. To this purpose, we first conduct a preliminary user study (n=10) with professional process modellers from Hilti, inquiring for various pain-points they encounter in their daily routines. Then, we use their responses to design and implement PRODIGY. Finally, we evaluate PRODIGY by letting our user study's participants use PRODIGY, and then ask for their opinion on the pros and cons of PRODIGY. We coalesce our results in actionable takeaways. Through our research, we showcase the first practical application of LLM for process modelling in the real world, shedding light on how industries can leverage LLM to enhance their Business Process Management activities. | 翻訳日:2024-07-28 18:09:38 公開日:2024-07-01 |
# The #Somos600M Project: Generating NLP resources which represent the diversity of the languages from LATAM, the Caribbean, and Spain
The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain ( http://arxiv.org/abs/2407.17479v1 ) ライセンス: Link先を確認 | María Grandury, | (参考訳) 私たちは6億人のスペイン語話者です。
LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。
世界の人口の7.5%にも拘わらず、LLM(インストラクション・チューン・大型言語モデル)のオープンデータセットや、それらを評価・比較するためのリーダーボードは存在しない。
本稿では,我々の言語における自然言語処理(NLP)の発展に欠かせない資源である指導・評価データセットの最初のバージョンを,国際オープンソースコミュニティとして構築する方法について述べる。
We are 600 million Spanish speakers. We launched the #Somos600M Project because the diversity of the languages from LATAM, the Caribbean and Spain needs to be represented in Artificial Intelligence (AI) systems. Despite being the 7.5% of the world population, there is no open dataset to instruction-tune large language models (LLMs), nor a leaderboard to evaluate and compare them. In this paper, we present how we have created as an international open-source community the first versions of the instruction and evaluation datasets, indispensable resources for the advancement of Natural Language Processing (NLP) in our languages. | 翻訳日:2024-07-28 18:09:38 公開日:2024-07-01 |
# Wi-Fiセンシングデータの不確実性を考慮した正確なパッシブレーダ
Accurate Passive Radar via an Uncertainty-Aware Fusion of Wi-Fi Sensing Data ( http://arxiv.org/abs/2407.04733v1 ) ライセンス: Link先を確認 | Marco Cominelli, Francesco Gringoli, Lance M. Kaplan, Mani B. Srivastava, Federico Cerutti, | (参考訳) Wi-Fiデバイスは、周囲で何が起きているのかを検知し、人間の活動を識別するパッシブレーダーシステムとして効果的に利用することができる。
本稿では,データ生成に係わる潜伏分布を推定するために変分オートエンコーダを用いる原理的アーキテクチャと,アウト・オブ・ディストリビューション活動を検出するためのエビデンシャルディープラーニングを提案する。
同一のWi-Fi受信機の異なるアンテナで処理された融合データは、最新のベンチマークと比較すると、人間の活動認識の精度が向上するが、分布外サンプルに直面して、物理現象の観点から潜伏変数の意味論的解釈を可能にすることは、まだ有益である。
本稿は,ブラックスワンイベントのフレキシブルでセマンティックな特徴付け,すなわちトレーニングデータに制限のないイベントの提供という,究極の目標への最初の貢献である。
Wi-Fi devices can effectively be used as passive radar systems that sense what happens in the surroundings and can even discern human activity. We propose, for the first time, a principled architecture which employs Variational Auto-Encoders for estimating a latent distribution responsible for generating the data, and Evidential Deep Learning for its ability to sense out-of-distribution activities. We verify that the fused data processed by different antennas of the same Wi-Fi receiver results in increased accuracy of human activity recognition compared with the most recent benchmarks, while still being informative when facing out-of-distribution samples and enabling semantic interpretation of latent variables in terms of physical phenomena. The results of this paper are a first contribution toward the ultimate goal of providing a flexible, semantic characterisation of black-swan events, i.e., events for which we have limited to no training data. | 翻訳日:2024-07-22 16:25:52 公開日:2024-07-01 |
# モーダル間知識伝達を用いたパッシブレーダのWi-Fiセンシングデータのニューロシンボリック核融合
Neuro-Symbolic Fusion of Wi-Fi Sensing Data for Passive Radar with Inter-Modal Knowledge Transfer ( http://arxiv.org/abs/2407.04734v1 ) ライセンス: Link先を確認 | Marco Cominelli, Francesco Gringoli, Lance M. Kaplan, Mani B. Srivastava, Trevor Bihl, Erik P. Blasch, Nandini Iyer, Federico Cerutti, | (参考訳) 受動レーダーに似たWi-Fiデバイスは、人体が電磁信号と相互作用するため、屋内環境での人間の活動を識別することができる。
現在のWi-Fiセンシングアプリケーションは、主にデータ駆動学習技術を用いて、通信チャネルの物理的特性の変動とそれらを引き起こす人間の活動とを関連付ける。
しかしながら、これらの技術は望ましい柔軟性と透明性を欠いていることが多い。
本稿では、Wi-FiセンシングのためのニューラルシンボリックアーキテクチャであるDeepProbHARを紹介し、Wi-Fi信号が歩行や歩行などの人間の活動に不可欠な脚や腕の動きなどの単純な動きを区別できることを示す。
ニューロシンボリックアプローチでは、特別なデータ収集やラベル付けを必要とせず、このような証拠を集めることができる。
DeepProbHARの訓練は、カメラフィードから得られる宣言的ドメイン知識と、Wi-Fi受信機の各種アンテナからの信号を融合させることにより容易となる。
DeepProbHARは、人間の活動認識における最先端技術に匹敵する結果を達成している。
さらに、学習プロセスの副産物として、DeepProbHARは、特にコストのかかる、細かなラベル付きデータセットでトレーニングされたモデルの精度と一致する、単純な動きのための特別な分類器を生成する。
Wi-Fi devices, akin to passive radars, can discern human activities within indoor settings due to the human body's interaction with electromagnetic signals. Current Wi-Fi sensing applications predominantly employ data-driven learning techniques to associate the fluctuations in the physical properties of the communication channel with the human activity causing them. However, these techniques often lack the desired flexibility and transparency. This paper introduces DeepProbHAR, a neuro-symbolic architecture for Wi-Fi sensing, providing initial evidence that Wi-Fi signals can differentiate between simple movements, such as leg or arm movements, which are integral to human activities like running or walking. The neuro-symbolic approach affords gathering such evidence without needing additional specialised data collection or labelling. The training of DeepProbHAR is facilitated by declarative domain knowledge obtained from a camera feed and by fusing signals from various antennas of the Wi-Fi receivers. DeepProbHAR achieves results comparable to the state-of-the-art in human activity recognition. Moreover, as a by-product of the learning process, DeepProbHAR generates specialised classifiers for simple movements that match the accuracy of models trained on finely labelled datasets, which would be particularly costly. | 翻訳日:2024-07-22 14:29:03 公開日:2024-07-01 |
# SCDM:MI-BCIにおけるEEG-to-fNIRSクロスモーダル生成のための統一表現学習
SCDM: Unified Representation Learning for EEG-to-fNIRS Cross-Modal Generation in MI-BCIs ( http://arxiv.org/abs/2407.04736v1 ) ライセンス: Link先を確認 | Yisheng Li, Shuqiang Wang, | (参考訳) 脳波(EEG)と機能近赤外分光(fNIRS)の両方を統合したハイブリッドモーター画像脳コンピュータインタフェース(MI-BCI)は、脳波のみに基づく脳波よりも優れている。
しかし、脳波とfNIRS信号の同時記録は、両方のセンサを同一の頭皮表面に配置することが困難であるため、非常に困難である。
この物理的制約は、高品質なハイブリッド信号の取得を複雑にし、ハイブリッドMI-BCIの広範な適用を制限する。
ハイブリッドEEG-fNIRS信号の取得を容易にするため,脳波からfNIRSへのクロスモーダル生成のためのフレームワークとして,時空間制御拡散モデル(SCDM)を提案する。
このモデルは、空間的クロスモーダル生成(SCG)モジュールとマルチスケール時空間表現(MTR)モジュールの2つのコアモジュールを使用し、両信号のそれぞれの潜時空間および空間表現を統一表現空間で適応的に学習する。
SCGモジュールはさらに、その空間的関係を利用して、EEG表現をfNIRS表現にマッピングする。
実験結果から,合成fNIRS信号と実fNIRS信号との類似性が高いことがわかった。
脳波と合成fNIRS信号の同時分類性能は、実際のfNIRS信号と同等かそれ以上である。
さらに, 合成信号は, 脳波信号との空間的関係を保ちながら, 実信号と時空間的類似性を示す。
実験結果から、SCDMはMI-BCIシステムにおけるハイブリッドEEG-fNIRS信号の取得に有望なパラダイムである可能性が示唆された。
Hybrid motor imagery brain-computer interfaces (MI-BCIs), which integrate both electroencephalography (EEG) and functional near-infrared spectroscopy (fNIRS) signals, outperform those based solely on EEG. However, simultaneously recording EEG and fNIRS signals is highly challenging due to the difficulty of colocating both types of sensors on the same scalp surface. This physical constraint complicates the acquisition of high-quality hybrid signals, thereby limiting the widespread application of hybrid MI-BCIs. To facilitate the acquisition of hybrid EEG-fNIRS signals, this study proposes the spatio-temporal controlled diffusion model (SCDM) as a framework for cross-modal generation from EEG to fNIRS. The model utilizes two core modules, the spatial cross-modal generation (SCG) module and the multi-scale temporal representation (MTR) module, which adaptively learn the respective latent temporal and spatial representations of both signals in a unified representation space. The SCG module further maps EEG representations to fNIRS representations by leveraging their spatial relationships. Experimental results show high similarity between synthetic and real fNIRS signals. The joint classification performance of EEG and synthetic fNIRS signals is comparable to or even better than that of EEG with real fNIRS signals. Furthermore, the synthetic signals exhibit similar spatio-temporal features to real signals while preserving spatial relationships with EEG signals. Experimental results suggest that the SCDM may represent a promising paradigm for the acquisition of hybrid EEG-fNIRS signals in MI-BCI systems. | 翻訳日:2024-07-22 14:29:03 公開日:2024-07-01 |
# GPUタイル効果とトレーニングフリートケンプルーニングによるエッジデバイスにおけるビジョントランスのレイテンシ低減
Reducing Vision Transformer Latency on Edge Devices via GPU Tail Effect and Training-free Token Pruning ( http://arxiv.org/abs/2407.05941v1 ) ライセンス: Link先を確認 | Nick John Eliopoulos, Purvish Jajal, James Davis, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu, | (参考訳) 本稿では,エッジデバイス上でトランスフォーマーベースのニューラルネットワークを効率的に展開する方法を検討する。
最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。
しかし、これらの手法はエッジデバイスの配置を念頭に設計されておらず、ハードウェア特性に関する情報を利用して効率を向上させることはできない。
まず、レイテンシとワークロードサイズの関係はGPUのテールエフェクトによって制御されていることを示す。
この関係は、事前訓練されたモデルとデバイスペア用に調整されたトークンプルーニングスケジュールを作成するために使用される。
第2に、この関係を利用したトレーニング不要なトークンプルーニング手法を実証する。
本手法は,ハードウェア認識方式で高精度遅延トレードオフを実現する。
単一のバッチ推論では、ベースラインに対してレイテンシを実際に18.6~30.3%増加させ、9%削減できることを示す。
デバイス間での同様のレイテンシ(5.2%)では78.6%-84.5%のImageNet1K精度が達成され、最先端のToken Mergingは45.8%-85.4%に達した。
This paper investigates how to efficiently deploy transformer-based neural networks on edge devices. Recent methods reduce the latency of transformer neural networks by removing or merging tokens, with small accuracy degradation. However, these methods are not designed with edge device deployment in mind, and do not leverage information about the hardware characteristics to improve efficiency. First, we show that the relationship between latency and workload size is governed by the GPU tail-effect. This relationship is used to create a token pruning schedule tailored for a pre-trained model and device pair. Second, we demonstrate a training-free token pruning method utilizing this relationship. This method achieves accuracy-latency trade-offs in a hardware aware manner. We show that for single batch inference, other methods may actually increase latency by 18.6-30.3% with respect to baseline, while we can reduce it by 9%. For similar latency (within 5.2%) across devices we achieve 78.6%-84.5% ImageNet1K accuracy, while the state-of-the-art, Token Merging, achieves 45.8%-85.4%. | 翻訳日:2024-07-22 14:19:18 公開日:2024-07-01 |
# ソーシャルネットワークを用いた下顎骨の時系列解析
Chronological Analysis of Rigvedic Mandalas using Social Networks ( http://arxiv.org/abs/2407.06205v1 ) ライセンス: Link先を確認 | Shreekanth M Prabhu, Gopalpillai Radhakrishnan, | (参考訳) ヴェーダの年代記の確立は、過去2世紀の学者の興味を引いている。
最も古いものはリグ=ヴェーダで、10つのマンダラスがあり、それぞれ別々に構成されている。
本稿では、異なるマンダラスで信仰されている神と神々に焦点をあてて、マンダラスの内部年表に対するもっともらしいポインタを解読する。
本研究では,コサイン類似度に基づくクラスタリング手法を用いてマンダラスにテキスト解析を適用した。
そして, 時系列解析に適する格子型ソーシャルネットワークを用いて, マンダラスと神々の関係を表現し, その問題に対するソーシャル・ネットワーク・アナリティクスの利点を実証する。
さらに,河川の参照を解析し,さらなる相関関係を導出する。
使用されるアプローチは、他の種類の参照や参照を分析して、より現実的な推論に到達するために、汎用的にデプロイすることができる。
Establishing the chronology of the Vedas has interested scholars for the last two centuries. The oldest among them is Rig-Veda which has ten Mandalas, each composed separately. In this paper, we look at deciphering plausible pointers to the internal chronology of the Mandalas, by focusing on Gods and Goddesses worshiped in different Mandalas. We apply text analysis to the Mandalas using Clustering Techniques based on Cosine Similarity. Then we represent the association of deities with Mandalas using a grid-based Social Network that is amenable to chronological analysis and demonstrates the benefits of using Social Network Analysis for the problem at hand. Further, we analyze references to rivers to arrive at additional correlations. The approach used can be deployed generically to analyze other kinds of references and mentions and arrive at more substantive inferences. | 翻訳日:2024-07-22 14:07:46 公開日:2024-07-01 |
# XAI-Augmented Approach がスカースデータを用いたバイナリ分類に及ぼす影響
The Impact of an XAI-Augmented Approach on Binary Classification with Scarce Data ( http://arxiv.org/abs/2407.06206v1 ) ライセンス: Link先を確認 | Ximing Wen, Rosina O. Weber, Anik Sen, Darryl Hannan, Steven C. Nesbit, Vincent Chan, Alberto Goffi, Michael Morris, John C. Hunninghake, Nicholas E. Villalobos, Edward Kim, Christopher J. MacLellan, | (参考訳) ポイント・オブ・ケア超音波(Point-of-Care Ultrasound、POCUS)は、臨床医が患者のベッドサイドで超音波スキャンを行い、解釈する手法である。
しかし、これらの画像の解釈に必要な専門知識は相当なもので、必ずしも緊急時に存在するとは限らない。
この現実は、機械学習の分類器のようなアルゴリズムを、人間の意思決定を強化するのに非常に価値のあるものにしている。
POCUSデバイスは、携帯電話のサイズにおいて妥当なコストで利用できるようになった。
POCUSデバイスを救命ツールに変える上での課題は、超音波画像の解釈には専門的な訓練と経験が必要であることである。
残念なことに、正の訓練画像を得るのが困難であることは、効率的かつ正確な分類器を構築する上で重要な障害である。
したがって、我々は、不足したデータで訓練された分類器の精度を高めるための戦略を探究しようとしている。
少数のデータインスタンスによるトレーニングは、分類器が過度に適合する原因を一般化するのに十分でないかもしれない、という仮説を立てる。
私たちのアプローチでは、説明可能なAI拡張アプローチを使用して、アルゴリズムをより少ないレベルから学習し、分類器をより一般化するのに役立ちます。
Point-of-Care Ultrasound (POCUS) is the practice of clinicians conducting and interpreting ultrasound scans right at the patient's bedside. However, the expertise needed to interpret these images is considerable and may not always be present in emergency situations. This reality makes algorithms such as machine learning classifiers extremely valuable to augment human decisions. POCUS devices are becoming available at a reasonable cost in the size of a mobile phone. The challenge of turning POCUS devices into life-saving tools is that interpretation of ultrasound images requires specialist training and experience. Unfortunately, the difficulty to obtain positive training images represents an important obstacle to building efficient and accurate classifiers. Hence, the problem we try to investigate is how to explore strategies to increase accuracy of classifiers trained with scarce data. We hypothesize that training with a few data instances may not suffice for classifiers to generalize causing them to overfit. Our approach uses an Explainable AI-Augmented approach to help the algorithm learn more from less and potentially help the classifier better generalize. | 翻訳日:2024-07-22 14:07:46 公開日:2024-07-01 |
# 心臓科における深層学習の統合:心房細動,左心房細動,最先端技術の最前線
Integrating Deep Learning in Cardiology: A Comprehensive Review of Atrial Fibrillation, Left Atrial Scar Segmentation, and the Frontiers of State-of-the-Art Techniques ( http://arxiv.org/abs/2407.09561v1 ) ライセンス: Link先を確認 | Malitha Gunawardhana, Anuradha Kulathilaka, Jichao Zhao, | (参考訳) 心房細動(英: atrial fibrillation、AFib)は、心臓不整脈である。
主に高齢者に影響を及ぼし、脳卒中や心不全など、必要な治療が出来る限り早く行われない可能性がある。
AFibの発達と進展における心房粗動の重要性は認識され、心房粗動組織を非侵襲的に評価するための重要な技術として、後期ガドリニウム強調MRI(LGE-MRI)が用いられるようになった。
LGE-MRIを用いた心房粗動の分節化の最近の進展を振り返り、AFibの治療・管理における正確な傷痕測定の重要性を強調した。
最初は、AFibの詳細な検査を提供する。
その後、この領域におけるディープラーニングの適用について検討する。
本研究の成果は, 深層学習を用いた心房性スカーセグメンテーションにおける最新の研究動向を考察することである。
本総説では, 心房性スカーセグメンテーションの高度化における深層学習の不可欠な役割と, 今後の治療的アプローチへの意義を概説する。
Atrial fibrillation (AFib) is the prominent cardiac arrhythmia in the world. It affects mostly the elderly population, with potential consequences such as stroke and heart failure in the absence of necessary treatments as soon as possible. The importance of atrial scarring in the development and progression of AFib has gained recognition, positioning late gadolinium-enhanced magnetic resonance imaging (LGE-MRI) as a crucial technique for the non-invasive evaluation of atrial scar tissue. This review delves into the recent progress in segmenting atrial scars using LGE-MRIs, emphasizing the importance of precise scar measurement in the treatment and management of AFib. Initially, it provides a detailed examination of AFib. Subsequently, it explores the application of deep learning in this domain. The review culminates in a discussion of the latest research advancements in atrial scar segmentation using deep learning methods. By offering a thorough analysis of current technologies and their impact on AFib management strategies, this review highlights the integral role of deep learning in enhancing atrial scar segmentation and its implications for future therapeutic approaches. | 翻訳日:2024-07-22 13:08:55 公開日:2024-07-01 |
# PCAPVision: PCAPに基づく高速大容量ネットワーク故障検出
PCAPVision: PCAP-Based High-Velocity and Large-Volume Network Failure Detection ( http://arxiv.org/abs/2407.11021v1 ) ライセンス: Link先を確認 | Lukasz Tulczyjew, Ihor Biruk, Murat Bilgic, Charles Abondo, Nathanael Weill, | (参考訳) パケットキャプチャ(PCAP)ファイルの解析による障害の検出は、特に大規模通信ネットワークにおいて、ネットワークの信頼性と性能を維持する上で重要である。
手動検査やルールベースのシステムに依存する従来の手法は、現代のネットワークの要求を満たすには遅すぎたり、労働集約的だったりすることが多い。
本稿では,コンピュータビジョンと畳み込みニューラルネットワーク(CNN)を用いてPCAPファイルの故障を検出する手法であるPCAPVisionを提案する。
提案手法は,PCAPデータを画像に変換することにより,CNNの頑健なパターン認識機能を活用し,ネットワークトラフィックを効率的に解析する。
この変換プロセスは、パケットデータを構造化画像に符号化することで、迅速かつ正確な故障検出を可能にする。
さらに、フィードバックループに自動アノテーションを活用する継続的学習フレームワークを導入し、モデルを動的に適応させ、時間とともに持続的なパフォーマンスを確保する。
当社のアプローチは,障害検出に要する時間を大幅に削減する。
最初のトレーニングフェーズではVoice Over LTE(VoLTE)データセットを使用して、モビリティ管理サービスで転送学習を使用する際のモデルの有効性と一般化性を実証する。
この研究は、ネットワーク分析にコンピュータビジョン技術を統合する可能性を強調し、リアルタイムネットワーク障害検出のためのスケーラブルで効率的なソリューションを提供する。
Detecting failures via analysis of Packet Capture (PCAP) files is crucial for maintaining network reliability and performance, especially in large-scale telecommunications networks. Traditional methods, relying on manual inspection and rule-based systems, are often too slow and labor-intensive to meet the demands of modern networks. In this paper, we present PCAPVision, a novel approach that utilizes computer vision and Convolutional Neural Networks (CNNs) to detect failures in PCAP files. By converting PCAP data into images, our method leverages the robust pattern recognition capabilities of CNNs to analyze network traffic efficiently. This transformation process involves encoding packet data into structured images, enabling rapid and accurate failure detection. Additionally, we incorporate a continual learning framework, leveraging automated annotation for the feedback loop, to adapt the model dynamically and ensure sustained performance over time. Our approach significantly reduces the time required for failure detection. The initial training phase uses a Voice Over LTE (VoLTE) dataset, demonstrating the model's effectiveness and generalizability when using transfer learning on Mobility Management services. This work highlights the potential of integrating computer vision techniques in network analysis, offering a scalable and efficient solution for real-time network failure detection. | 翻訳日:2024-07-22 12:20:02 公開日:2024-07-01 |
# マルチMedChain:マルチパーティマルチBlockchainメディカルサプライチェーン管理システム
Multi-MedChain: Multi-Party Multi-Blockchain Medical Supply Chain Management System ( http://arxiv.org/abs/2407.11207v1 ) ライセンス: Link先を確認 | Akanksha Saini, Arash Shaghaghi, Zhibo Huang, Salil S. Kanhere, | (参考訳) 新型コロナウイルス(COVID-19)感染拡大に伴う医療サプライチェーン管理システムの課題は、革新的で堅牢な医療サプライチェーンの必要性を浮き彫りにした。
医療サプライチェーンには、情報を安全かつ積極的に共有しなければならないさまざまな利害関係者が関与する。
規制およびコンプライアンス報告は、医療サプライチェーン管理システム内での消毒可能な製品(例えば医薬品)に対するもう一つの重要な要件である。
本稿では,既存の医療サプライチェーン管理システムにおける課題を解決するための,スマートコントラクトを活用した3層多層多層多層ブロックチェーン(MPMB)フレームワークとして,Multi-MedChainを提案する。
Multi-MedChainは、医療ドメイン用のスケーラブルなサプライチェーン管理システムで、エンドツーエンドのトレーサビリティ、透過性、およびプライベートデータへのアクセスを制限するための協調アクセス制御に対処する。
提案システムの実装と評価について報告を行い,本ソリューションの実用性を強調した。
提案されたソリューションは公開されています。
The challenges of healthcare supply chain management systems during the COVID-19 pandemic highlighted the need for an innovative and robust medical supply chain. The healthcare supply chain involves various stakeholders who must share information securely and actively. Regulatory and compliance reporting is also another crucial requirement for perishable products (e.g., pharmaceuticals) within a medical supply chain management system. Here, we propose Multi-MedChain as a three-layer multi-party, multi-blockchain (MPMB) framework utilizing smart contracts as a practical solution to address challenges in existing medical supply chain management systems. Multi-MedChain is a scalable supply chain management system for the healthcare domain that addresses end-to-end traceability, transparency, and collaborative access control to restrict access to private data. We have implemented our proposed system and report on our evaluation to highlight the practicality of the solution. The proposed solution is made publicly available. | 翻訳日:2024-07-22 12:00:08 公開日:2024-07-01 |
# LLMsuiteによる高度な大規模言語モデルの探索
Exploring Advanced Large Language Models with LLMsuite ( http://arxiv.org/abs/2407.12036v1 ) ライセンス: Link先を確認 | Giorgio Roffo, | (参考訳) このチュートリアルでは、ChatGPTやGeminiといった大規模言語モデル(LLM)の開発における進歩と課題について説明する。
時間的知識の遮断、数学的不正確さ、不正確な情報の生成、Retrieval Augmented Generation (RAG)、Program-Aided Language Models (PAL)などのソリューションの提案、ReActやLangChainといったフレームワークなど、固有の制限に対処する。
これらの技術の統合により、特に多段階推論や複雑なタスク実行において、LLMの性能と信頼性が向上する。
また,教示微調整,LoRAのようなパラメータ効率のよい手法,RLHF(Reinforcement Learning from Human Feedback),Reinforced Self-Training(ReST)などの微調整戦略についても検討した。
さらに、LLMのためのトランスフォーマーアーキテクチャとトレーニング技術に関する包括的な調査も提供する。
これらのテクニックを実装するツールボックスはhttps://github.com/giorgioroffo/large_lang_models_open_suiteで公開されている。
This tutorial explores the advancements and challenges in the development of Large Language Models (LLMs) such as ChatGPT and Gemini. It addresses inherent limitations like temporal knowledge cutoffs, mathematical inaccuracies, and the generation of incorrect information, proposing solutions like Retrieval Augmented Generation (RAG), Program-Aided Language Models (PAL), and frameworks such as ReAct and LangChain. The integration of these techniques enhances LLM performance and reliability, especially in multi-step reasoning and complex task execution. The paper also covers fine-tuning strategies, including instruction fine-tuning, parameter-efficient methods like LoRA, and Reinforcement Learning from Human Feedback (RLHF) as well as Reinforced Self-Training (ReST). Additionally, it provides a comprehensive survey of transformer architectures and training techniques for LLMs. The toolbox for implementing these techniques is publicly available at https://github.com/giorgioroffo/large_language_models_open_suite | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-01 |
# FPGA論理合成コンパイラを効果的にテストする新しいHDLコード生成器
A Novel HDL Code Generator for Effectively Testing FPGA Logic Synthesis Compilers ( http://arxiv.org/abs/2407.12037v1 ) ライセンス: Link先を確認 | Zhihao Xu, Shikai Guo, Guilin Zhao, Peiyu Zou, Xiaochen Li, He Jiang, | (参考訳) FPGA(Field Programmable Gate Array)論理合成コンパイラ(例えば、Vivado、Iverilog、Yosys、Quartus)は、FPGAプログラムの開発など、電子設計自動化(EDA)において広く採用されているが、ロジック合成コンパイラの欠陥(誤合成)は、ターゲットアプリケーションにおいて予期せぬ振る舞いを生じさせ、セキュリティリスクを生じさせる可能性がある。
そのため、論理合成コンパイラを徹底的にテストすることが重要である。論理合成コンパイラの欠陥を見つけるために、いくつかのハードウェア設計言語(HDL)コードジェネレータ(例えば、Verismith)が提案されているが、これらのジェネレータの有効性は、単純なコード生成戦略と生成されたHDLコードの一様性によって制限されている。この記事では、FPGA論理合成コンパイラを包括的にテストするための構文を有効なHDLコードを生成する新しい方法であるLegoHDLを提案する。LegoHDLは、抽象構文木とサイバー物理システムの広範なブロックライブラリのガイダンスを活用することで、より複雑で多様な欠陥トリガーHDLコード(例えば、Verilog、VHDL、SystemVerilog)を生成することができる。
広範囲にわたる実験により、LegoHDLが生成するHDLコードの多様性と欠陥トリガー能力は最先端の手法(Verismith)よりも著しく優れていることが示された。
3ヶ月でLegoHDLが新たに20件の欠陥を報告した。
Field Programmable Gate Array (FPGA) logic synthesis compilers (e.g., Vivado, Iverilog, Yosys, and Quartus) are widely applied in Electronic Design Automation (EDA), such as the development of FPGA programs.However, defects (i.e., incorrect synthesis) in logic synthesis compilers may lead to unexpected behaviors in target applications, posing security risks. Therefore, it is crucial to thoroughly test logic synthesis compilers to eliminate such defects.Despite several Hardware Design Language (HDL) code generators (e.g., Verismith) have been proposed to find defects in logic synthesis compilers, the effectiveness of these generators is still limited by the simple code generation strategy and the monogeneity of the generated HDL code.This paper proposes LegoHDL, a novel method to generate syntax valid HDL code for comprehensively testing FPGA logic synthesis compilers.LegoHDL can generate more complex and diverse defect-trigger HDL code (e.g., Verilog, VHDL, and SystemVerilog) by leveraging the guidance of abstract syntax tree and the extensive function block libraries of cyber-physical systems. Extensive experiments show that the diversity and defect-trigger capability of HDL code generated by LegoHDL are significantly better than the state-of-the-art method (i.e., Verismith).In three months, LegoHDL has reported 20 new defects--many of which are deep and important; 16 of them have been confirmed. | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-01 |
# ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024 ( http://arxiv.org/abs/2407.12038v1 ) ライセンス: Link先を確認 | Ruibo Fu, Rui Liu, Chunyu Qiang, Yingming Gao, Yi Lu, Tao Wang, Ya Li, Zhengqi Wen, Chen Zhang, Hui Bu, Yukun Liu, Shuchen Shi, Xin Qi, Guanjun Li, | (参考訳) ICAGC 2024(Inspirational and Convincing Audio Generation Challenge 2024)は、ISCSLP 2024コンペティション・アンド・チャレンジ・トラックの1つである。
現在のTTS(text-to-speech)技術は高品質な音声を生成することができるが、複雑な感情と制御された詳細コンテンツを伝える能力は依然として限られている。
この制約は、子供向けの共用ロボットやマーケティングボットといった実践的な応用において、生成された音声と人間の主観的知覚との間に相違をもたらす。
問題は、高品質なオーディオ生成と究極の人間の主観的体験の矛盾にある。
そこで本課題は、人間のアライメントの説得力とインスピレーションによる音声生成に焦点を当て、合成音声の説得性と受容性を高めることを目的とする。
The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation. | 翻訳日:2024-07-22 11:20:27 公開日:2024-07-01 |
# 次世代データセンターにおける大規模言語モデルの学習
A Look Into Training Large Language Models on Next Generation Datacenters ( http://arxiv.org/abs/2407.12819v1 ) ライセンス: Link先を確認 | Alexandru M. Gherghescu, Vlad-Andrei Bădoiu, Alexandru Agache, Mihai-Valentin Dumitru, Iuliu Vasilescu, Radu Mantu, Costin Raiciu, | (参考訳) コンピューターネットワーキングの研究は、まだ価値があるだろうか?
デプロイされた大規模ネットワークにおけるハイパースケーラの優位性を考えると、この分野における関連する問題は何だろうか?
私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
まず、ターゲットデータセンターの冷却と電力要求によって課される制約を調べ、単一の場所に構築することが不可能であることを確かめる。
LLMスケーリング法則を使って、50Tまたは100Tのモデルをトレーニングできると判断します。
最後に、これらのモデルで分散トレーニングがどのように機能するか、そしてネットワーク要件が何であるかを検討する。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これはNICベースの新しいマルチパストランスポートと、トレーニングスタック全体の再設計を必要とします。
Is it still worth doing computer networking research? What are relevant problems in this space given the supremacy of hyperscalers in deployed large networks? We take an unconventional approach to finding relevant research directions, by starting from Microsoft's plans to build a $100 billion datacenter for ML. Our goal is to understand what models could be trained in such a datacenter, as well as the high-level challenges one may encounter in doing so. We first examine the constraints imposed by cooling and power requirements for our target datacenter and find that it is infeasible to build in a single location. We use LLM scaling laws to determine that we could train models of 50T or 100T. Finally, we examine how distributed training might work for these models, and what the networking requirements are. We conclude that building the datacenter and training such models is technically possible, but this requires a novel NIC-based multipath transport along with a redesign of the entire training stack, outlining a research agenda for our community in the near future. | 翻訳日:2024-07-22 08:47:38 公開日:2024-07-01 |
# PQCache:長期LLM推論のための製品量子化ベースのKVCache
PQCache: Product Quantization-based KVCache for Long Context LLM Inference ( http://arxiv.org/abs/2407.12820v1 ) ライセンス: Link先を確認 | Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui, | (参考訳) 大規模言語モデル(LLM)の分野が発展を続けるにつれ、推論における文脈長は着実に伸びている。
LLM推論において重要なコンポーネントであるキーバリューキャッシュ(KVCache)は、GPUメモリの制限により、主要なメモリボトルネックとなっている。
現在の手法では, LLMにおける自己注意計算に適したキーと値を選択的に決定し, この問題に対処する。
しかし、それらはモデル品質の維持に不足しているか、高いサービスレイテンシをもたらす。
データベースコミュニティで使われている高度な埋め込み検索技術からインスピレーションを得て,KVCacheの保存と検索を一般的な埋め込み検索問題とみなす。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
プリフィルフェーズでは,各LDM層およびヘッドのトークンのキーにPQを適用する。
自己回帰復号フェーズにおいて、新たに生成されたトークン毎に、まずPQ符号とセントロイドを用いて、最大内積探索(MIPS)を通して重要なトークンを識別し、それに対応するキー値ペアを自己アテンション計算のために取得する。
オーバラップとキャッシングの巧妙な設計により、両フェーズ間の計算と通信のオーバーヘッドを最小限に抑える。
大規模な実験により、PQCacheは有効性と効率の両方を達成することが示された。
トークンの1/5しか注意を払っていない場合でも、許容できるシステムレイテンシを実現しながら、モデル品質を維持します。
As the field of Large Language Models (LLMs) continues to evolve, the context length in inference is steadily growing. Key-Value Cache (KVCache), a crucial component in LLM inference, has now become the primary memory bottleneck due to limited GPU memory. Current methods selectively determine suitable keys and values for self-attention computation in LLMs to address the issue. However, they either fall short in maintaining model quality or result in high serving latency. Drawing inspiration from advanced embedding retrieval techniques used in the database community, we consider the storage and searching of KVCache as a typical embedding retrieval problem. We propose PQCache, which employs Product Quantization (PQ) to manage KVCache, maintaining model quality while ensuring low serving latency. During the prefilling phase, we apply PQ to tokens' keys for each LLM layer and head. During the autoregressive decoding phase, for each newly generated token, we first identify important tokens through Maximum Inner-Product Search (MIPS) using PQ codes and centroids, then fetch the corresponding key-value pairs for self-attention computation. Through meticulous design of overlapping and caching, we minimize any additional computation and communication overhead during both phases. Extensive experiments show that PQCache achieves both effectiveness and efficiency. It maintains model quality even when only 1/5 of the tokens are involved in attention, while attaining acceptable system latency. | 翻訳日:2024-07-22 08:47:38 公開日:2024-07-01 |
# AutoFlow: 大規模言語モデルエージェントのためのワークフロー自動生成
AutoFlow: Automated Workflow Generation for Large Language Model Agents ( http://arxiv.org/abs/2407.12821v1 ) ライセンス: Link先を確認 | Zelong Li, Shuyuan Xu, Kai Mei, Wenyue Hua, Balaji Rama, Om Raheja, Hao Wang, He Zhu, Yongfeng Zhang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、複雑な自然言語を理解する上で大きな進歩を見せている。
LLMの重要な応用の1つはLLMベースのAI Agentであり、LLMの能力と複雑なタスク解決のための外部ツールを活用する。
LLMエージェントが与えられたタスクを解決するための効果的で信頼性の高い手順に従うようにするために、手動設計のワークフローは通常、エージェントの動作メカニズムをガイドするために使用される。
しかし、ワークフローを手動で設計するにはかなりの努力とドメイン知識が必要であるため、大規模なエージェントの開発とデプロイが困難になる。
これらの問題に対処するために,複雑なタスクを解決するためのエージェントのワークフローを自動的に生成するフレームワークであるAutoFlowを提案する。
AutoFlowは自然言語プログラムをエージェントワークフローのフォーマットとして取り、ワークフロー品質を反復的に最適化するためにワークフロー最適化手順を採用している。
さらに、この作業は2つのワークフロー生成方法を提供する。微調整ベースとコンテキストベースのメソッドで、AutoFlowフレームワークはオープンソースとクローズドソースの両方のLLMに適用できる。
実験の結果,我々のフレームワークは堅牢で信頼性の高いエージェントワークフローを作成できることがわかった。
自然言語によるワークフローの自動生成と解釈は,特にLLMの迅速な開発において,複雑なタスクを解く上で有望なパラダイムであると考えている。
この作業のソースコードはhttps://github.com/agiresearch/AutoFlow.comで公開されている。
Recent advancements in Large Language Models (LLMs) have shown significant progress in understanding complex natural language. One important application of LLM is LLM-based AI Agent, which leverages the ability of LLM as well as external tools for complex-task solving. To make sure LLM Agents follow an effective and reliable procedure to solve the given task, manually designed workflows are usually used to guide the working mechanism of agents. However, manually designing the workflows requires considerable efforts and domain knowledge, making it difficult to develop and deploy agents on massive scales. To address these issues, we propose AutoFlow, a framework designed to automatically generate workflows for agents to solve complex tasks. AutoFlow takes natural language program as the format of agent workflow and employs a workflow optimization procedure to iteratively optimize the workflow quality. Besides, this work offers two workflow generation methods: fine-tuning-based and in-context-based methods, making the AutoFlow framework applicable to both open-source and closed-source LLMs. Experimental results show that our framework can produce robust and reliable agent workflows. We believe that the automatic generation and interpretation of workflows in natural language represent a promising paradigm for solving complex tasks, particularly with the rapid development of LLMs. The source code of this work is available at https://github.com/agiresearch/AutoFlow. | 翻訳日:2024-07-22 08:47:38 公開日:2024-07-01 |
# 回転するブラックホールの水平を越えての特異な説明
Singular Excitement Beyond the Horizon of a Rotating Black Hole ( http://arxiv.org/abs/2407.01673v1 ) ライセンス: Link先を確認 | Sijia Wang, María Rosa Preciado-Rivas, Massimilano Spadafora, Robert B. Mann, | (参考訳) これまでの研究では、ウンルー・デウィット検出器(UDW)が、質量のないスカラー場に直線的に結合し、特定のブラックホールに放射的に落下することが許された場合、地平線近傍の遷移特性に非単調性を示すことが示されている。
具体的には、ウンルーとハートル・ホーキングの真空状態を考えると、検出器が3+1次元のシュワルツシルトブラックホールに自由落下する確率は地平線交差(K.K.Ng et al , New J. Phys. 24 (2022) 103018)で局所的な極小を持つことを示した。
ハートル・ホーキング状態の静的(2+1)次元のBa\~nados-Teitelboim-Zanelli (BTZ)ブラックホールに落下する検出器の遷移速度は、特定のパラメータ設定 [M.R. Preciado-Rivas et al , arXiv:2402.14908v1] の下で地平線付近に複数の局所エクストリームを持つことも判明した。
これらの発見は、ブラックホールの事象の地平線が、QFT効果を含む場合、局所的なプローブと区別可能であることを示唆している。
本稿では,UDW検出器が回転するBTZブラックホールに自由落下する問題について検討する。
我々は、ブラックホール質量、ブラックホール角運動量、検出器エネルギーギャップ、無限遠での場境界条件の異なる値に対する検出器の遷移率を数値計算する。
以上の結果から, BTZ ブラックホールの時空における粒子検出器の挙動がより一般化され, それまでの非回転型 BTZ ケースは角運動量が消えるにつれて, 限界で回収できることがわかった。
Previous studies have shown that an Unruh-DeWitt (UDW) detector, when coupled linearly to a massless scalar field and permitted to fall radially into certain black holes, will exhibit non-monotonicity in its transition properties near the horizon. Specifically, the transition probability of a detector freely falling into a (3+1)-dimensional Schawrzschild black hole, when considering the Unruh and Hartle-Hawking vacuum states, was shown to possess a local extremum at horizon crossing [K.K. Ng et al., New J. Phys. 24 (2022) 103018]. The transition rate of a detector falling into a static (2+1)-dimensional Ba\~nados-Teitelboim-Zanelli (BTZ) black hole, for the Hartle-Hawking state, was also found to have multiple local extrema near the horizon under certain parameter settings [M.R. Preciado-Rivas et al., arXiv:2402.14908v1]. These discoveries are of interest, as they suggest that the event horizon of a black hole may be distinguishable to a local probe when QFT effects are included. In this paper, we explore the problem of a UDW detector falling freely into a rotating BTZ black hole. We numerically compute the detector's transition rate for different values of black hole mass, black hole angular momentum, detector energy gap, and field boundary conditions at infinity. Our results lead to a more generalized description of the behaviour of particle detectors in BTZ black hole spacetime, from which the previous non-rotating BTZ case can be retrieved in the limit as angular momentum vanishes. | 翻訳日:2024-07-08 22:15:07 公開日:2024-07-01 |
# 予後・健康管理大モデルの概要:概念・パラダイム・課題
An Outline of Prognostics and Health Management Large Model: Concepts, Paradigms, and Challenges ( http://arxiv.org/abs/2407.03374v1 ) ライセンス: Link先を確認 | Laifa Tao, Shangyu Li, Haifei Liu, Qixuan Huang, Liang Ma, Guoao Ning, Yiling Chen, Yunlong Wu, Bin Li, Weiwei Zhang, Zhengduo Zhao, Wenchao Zhan, Wenyan Cao, Chao Wang, Hongmei Liu, Jian Ma, Mingliang Suo, Yujie Cheng, Yu Ding, Dengwei Song, Chen Lu, | (参考訳) 複雑なシステムによるタスク完了の確保と予期せぬ失敗の防止に重要な予後・健康管理(PHM)は、航空宇宙、製造、海洋、鉄道、エネルギーなどにおいて広く採用されている。
しかし、PHMの開発は一般化、解釈、検証能力といったボトルネックによって制約されている。
現在、Large Modelによって代表される生成人工知能(AI)は、従来の技術分野と人間の生産方法を根本的に再形成する可能性を秘めている。
強力な一般化、推論、生成的属性を含むその能力は、PHMのボトルネックに対処する機会を与える。
この目的のために、PHMの現在の課題とボトルネックの体系的分析、およびLarge Modelの研究状況と利点に基づいて、PHMとLarge Modelの統合によるPHM-LM(Prognosis and Health Management Large Model)の新しい概念と3つの進歩的パラダイムを提案する。
続いて,PHM-LMのコア機能を3つのパラダイムの枠組み内で強化するために,PHM-LMの実現可能な技術的アプローチを提案する。
さらに、PHMに直面する中核的な問題に対処するため、建設・適用プロセス全体を通してPHM-LMの一連の技術的課題について論じる。
この包括的な取り組みは、総合的なPHM-LM技術フレームワークを提供し、新しいPHM技術、方法論、ツール、プラットフォーム、アプリケーションへの道を提供する。
さらに、AIを用いた新しい世代のPHMは、カスタムから一般化、差別から生成、理論的条件から実用まで、実現可能となる。
Prognosis and Health Management (PHM), critical for ensuring task completion by complex systems and preventing unexpected failures, is widely adopted in aerospace, manufacturing, maritime, rail, energy, etc. However, PHM's development is constrained by bottlenecks like generalization, interpretation and verification abilities. Presently, generative artificial intelligence (AI), represented by Large Model, heralds a technological revolution with the potential to fundamentally reshape traditional technological fields and human production methods. Its capabilities, including strong generalization, reasoning, and generative attributes, present opportunities to address PHM's bottlenecks. To this end, based on a systematic analysis of the current challenges and bottlenecks in PHM, as well as the research status and advantages of Large Model, we propose a novel concept and three progressive paradigms of Prognosis and Health Management Large Model (PHM-LM) through the integration of the Large Model with PHM. Subsequently, we provide feasible technical approaches for PHM-LM to bolster PHM's core capabilities within the framework of the three paradigms. Moreover, to address core issues confronting PHM, we discuss a series of technical challenges of PHM-LM throughout the entire process of construction and application. This comprehensive effort offers a holistic PHM-LM technical framework, and provides avenues for new PHM technologies, methodologies, tools, platforms and applications, which also potentially innovates design, research & development, verification and application mode of PHM. And furthermore, a new generation of PHM with AI will also capably be realized, i.e., from custom to generalized, from discriminative to generative, and from theoretical conditions to practical applications. | 翻訳日:2024-07-08 20:20:26 公開日:2024-07-01 |
# グラフ上の量子空間探索、状態移動、一様サンプリングの統一:単純かつ正確に
Unifying quantum spatial search, state transfer and uniform sampling on graphs: simple and exact ( http://arxiv.org/abs/2407.02530v1 ) ライセンス: Link先を確認 | Qingwen Wang, Ying Jiang, Lvzhou Li, | (参考訳) 本稿では, 量子ウォークの交互化, 量子空間探索の統合, 状態移動, および多種類のグラフ上の一様サンプリングによる新しい, 簡潔なアルゴリズムフレームワークを提案する。
この枠組みを用いることで、グラフのラプラシアン行列の固有値がすべて整数であることを仮定して、すべての頂点に対する正確な一様サンプリングと任意の2つの頂点間の完全状態移動を達成することができる。
さらに、グラフが頂点推移性(vertex-transitive)であるなら、決定論的量子空間探索(deterministic quantum space search)を達成でき、確実にマークされた頂点を見つけることができる。
対照的に、既存の量子探索アルゴリズムは一般にある種の失敗の確率を持つ。
グラフが完全二部グラフのような頂点推移的でない場合でも、決定論的空間探索を得るためにアルゴリズムの枠組みを調整することができ、それによってその柔軟性が示される。
これまでの結果の統一と改善に加えて、私たちの研究はより多くのグラフに新たな結果をもたらしています。
このアプローチは、グラフのラプラシア固有値集合の深さにのみ依存する簡潔な形式主義を持ち、グラフに関連するより多くの問題の解に光を当てることができるため、簡単に利用できる。
This article presents a novel and succinct algorithmic framework via alternating quantum walks, unifying quantum spatial search, state transfer and uniform sampling on a large class of graphs. Using the framework, we can achieve exact uniform sampling over all vertices and perfect state transfer between any two vertices, provided that eigenvalues of Laplacian matrix of the graph are all integers. Furthermore, if the graph is vertex-transitive as well, then we can achieve deterministic quantum spatial search that finds a marked vertex with certainty. In contrast, existing quantum search algorithms generally has a certain probability of failure. Even if the graph is not vertex-transitive, such as the complete bipartite graph, we can still adjust the algorithmic framework to obtain deterministic spatial search, which thus shows the flexibility of it. Besides unifying and improving plenty of previous results, our work provides new results on more graphs. The approach is easy to use since it has a succinct formalism that depends only on the depth of the Laplacian eigenvalue set of the graph, and may shed light on the solution of more problems related to graphs. | 翻訳日:2024-07-04 18:43:42 公開日:2024-07-01 |
# Image-to-Text Logic Jailbreak:イマジネーションは何でもできる
Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything ( http://arxiv.org/abs/2407.02534v1 ) ライセンス: Link先を確認 | Xiaotian Zou, Yongkang Chen, | (参考訳) GPT-4のような大規模ビジュアル言語モデル(VLM)は、大規模言語モデルの能力を超え、包括的でニュアンスのある応答を生成することに成功している。
しかし、視覚的な入力の統合により、悪意のある攻撃者が目的を達成するために複数のモダリティを活用できるため、新たなセキュリティ上の懸念が浮かび上がっている。
これにより、VLMのジェイルブレイクに対する脆弱性に対する関心が高まった。
既存の研究のほとんどは、これらのモデルを妥協するために、敵対的な画像や非感覚的な画像コレクションを生成することに焦点を当てている。
しかし、VLMの論理的理解を用いて、意味のある画像を活用してターゲットとなるテキストコンテンツを作成するという課題は、まだ解明されていない。
本稿では,意味のある画像からテキストへの論理的ジェイルブレイクの問題について検討する。
そこで本研究では,フローチャート画像のジェイルブレイクを評価するための新しいデータセットを提案する。
さらに,VLMを用いたテキスト・テキスト・ジェイルブレイクのためのフレームワークを開発する。
最後に, GPT-4o と GPT-4-vision-preview のフレームワークについて, それぞれ92.8% と 70.0% のジェイルブレイク率で広範な評価を行った。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにしている。
これらの知見は、実際の配備前にVLMのセキュリティ欠陥のより深い調査の必要性を浮き彫りにした。
Large Visual Language Models (VLMs) such as GPT-4 have achieved remarkable success in generating comprehensive and nuanced responses, surpassing the capabilities of large language models. However, with the integration of visual inputs, new security concerns emerge, as malicious attackers can exploit multiple modalities to achieve their objectives. This has led to increasing attention on the vulnerabilities of VLMs to jailbreak. Most existing research focuses on generating adversarial images or nonsensical image collections to compromise these models. However, the challenge of leveraging meaningful images to produce targeted textual content using the VLMs' logical comprehension of images remains unexplored. In this paper, we explore the problem of logical jailbreak from meaningful images to text. To investigate this issue, we introduce a novel dataset designed to evaluate flowchart image jailbreak. Furthermore, we develop a framework for text-to-text jailbreak using VLMs. Finally, we conduct an extensive evaluation of the framework on GPT-4o and GPT-4-vision-preview, with jailbreak rates of 92.8% and 70.0%, respectively. Our research reveals significant vulnerabilities in current VLMs concerning image-to-text jailbreak. These findings underscore the need for a deeper examination of the security flaws in VLMs before their practical deployment. | 翻訳日:2024-07-04 18:43:42 公開日:2024-07-01 |
# 統計的に重要な地域コロケーションマイニングにおける偽発見の削減:調査結果の概要
Reducing False Discoveries in Statistically-Significant Regional-Colocation Mining: A Summary of Results ( http://arxiv.org/abs/2407.02536v1 ) ライセンス: Link先を確認 | Subhankar Ghosh, Jayant Gupta, Arun Sharma, Shuai An, Shashi Shekhar, | (参考訳) 空間的特徴型の集合 \emph{S}、その特徴例、研究領域、および近隣関係が与えられた場合、目的は、$<$a 領域 $r_{g}$, \emph{S}$>$ の部分集合 \emph{C} を見つけることであり、したがって \emph{C} は$r_{g}$ の統計的に重要な地域コロケーションパターンである。
この問題は、生態学、経済学、社会学など様々な分野の応用において重要である。
この問題は、地域的コロケーションパターンと候補領域の指数的な数によって、計算的に困難である。
従来, 統計学的に有意な地域的コロケーションパターンを見いだす鉱夫{10.1145/3557989.3566158} を提案した。
しかし、多くの同時統計推論は、偽の発見(多重比較問題としても知られる)のリスクを高め、高い計算コストをもたらす。
本稿では,Bonferroni補正を用いた新しいアルゴリズム,すなわち,複数比較の地域コロケーションマイナ(MultComp-RCM)を提案する。
理論的解析,実験,ケーススタディの結果から,提案手法は誤発見率と計算コストの両方を低減させることが示された。
Given a set \emph{S} of spatial feature types, its feature instances, a study area, and a neighbor relationship, the goal is to find pairs $<$a region ($r_{g}$), a subset \emph{C} of \emph{S}$>$ such that \emph{C} is a statistically significant regional-colocation pattern in $r_{g}$. This problem is important for applications in various domains including ecology, economics, and sociology. The problem is computationally challenging due to the exponential number of regional colocation patterns and candidate regions. Previously, we proposed a miner \cite{10.1145/3557989.3566158} that finds statistically significant regional colocation patterns. However, the numerous simultaneous statistical inferences raise the risk of false discoveries (also known as the multiple comparisons problem) and carry a high computational cost. We propose a novel algorithm, namely, multiple comparisons regional colocation miner (MultComp-RCM) which uses a Bonferroni correction. Theoretical analysis, experimental evaluation, and case study results show that the proposed method reduces both the false discovery rate and computational cost. | 翻訳日:2024-07-04 18:43:42 公開日:2024-07-01 |
# 標準モンテカルロおよび準モンテカルロ法によるフライアルゴリズムのパラメータ調整
Parameter Tuning of the Firefly Algorithm by Standard Monte Carlo and Quasi-Monte Carlo Methods ( http://arxiv.org/abs/2407.02537v1 ) ライセンス: Link先を確認 | Geethu Joy, Christian Huyck, Xin-She Yang, | (参考訳) ほぼ全ての最適化アルゴリズムはアルゴリズムに依存したパラメータを持ち、そのようなパラメータ値の設定は検討中のアルゴリズムの挙動に大きな影響を与える。
したがって、最適化に使用されるアルゴリズムが良好に動作し、異なるタイプの最適化問題を解くのに十分な堅牢性を確保するために、適切なパラメータチューニングを行う必要がある。
本研究では,Firefly Algorithm (FA) を用いてパラメータ値の効率への影響を評価する。
パラメータ値は、標準モンテカルロ法と準モンテカルロ法の両方を用いてランダムに初期化される。
その後、値はFAのチューニングに使用される。
2つのベンチマーク関数とスプリング設計問題は、調整されたFAの堅牢性をテストするために使用される。
予備的な結果から,モンテカルロ法と準モンテカルロ法の両方が最適適合値の点で同様の結果が得られると推定できる。
ベンチマーク関数とバネ設計の2つの異なる手法を用いた数値実験では, シミュレーションにおいて選択されたサンプル値によらず, 最終適合度には大きな変化は認められなかった。
この感度はFAの堅牢性を示す。
Almost all optimization algorithms have algorithm-dependent parameters, and the setting of such parameter values can significantly influence the behavior of the algorithm under consideration. Thus, proper parameter tuning should be carried out to ensure that the algorithm used for optimization performs well and is sufficiently robust for solving different types of optimization problems. In this study, the Firefly Algorithm (FA) is used to evaluate the influence of its parameter values on its efficiency. Parameter values are randomly initialized using both the standard Monte Carlo method and the Quasi Monte-Carlo method. The values are then used for tuning the FA. Two benchmark functions and a spring design problem are used to test the robustness of the tuned FA. From the preliminary findings, it can be deduced that both the Monte Carlo method and Quasi-Monte Carlo method produce similar results in terms of optimal fitness values. Numerical experiments using the two different methods on both benchmark functions and the spring design problem showed no major variations in the final fitness values, irrespective of the different sample values selected during the simulations. This insensitivity indicates the robustness of the FA. | 翻訳日:2024-07-04 18:43:42 公開日:2024-07-01 |
# CGRclust:DNA配列の二重コントラストクラスタリングのためのカオスゲーム表現
CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences ( http://arxiv.org/abs/2407.02538v1 ) ライセンス: Link先を確認 | Fatemeh Alipour, Kathleen A. Hill, Lila Kari, | (参考訳) 本研究では,DNA配列のカオスゲーム表現(CGR)と畳み込みニューラルネットワーク(CNN)を組み合わせた,教師なし双対クラスタリング(unsupervised twin contrastive clustering)の新たな組み合わせであるCGRclustを提案する。
我々の知る限り、CGRclustはDNA配列のデータセットをクラスタリングするために、教師なし学習を画像分類(2次元CGR画像に適用)に利用する最初の方法である。
CGRclustは、DNA配列アライメントや生物学的・分類学的ラベルを必要とせず、教師なしの双子のコントラスト学習を利用して特定の配列パターンを検出することによって、伝統的な配列分類法の限界を克服している。
CGRclustは、魚、真菌、プロティストのミトコンドリアゲノムを含む664bpから100kbpまでの配列長と、ウイルスの全ゲノム集合と合成DNA配列を含む、25の多様なデータセットを正確にクラスタリングした。
最近の3つのDNA配列のクラスタリング法(DeLUCS、iDeLUCS、MeShClust v3.0.)と比較すると、CGRclustは魚のミトコンドリアDNAゲノムで検査された4つの分類学的レベルの81.70%を超える唯一の方法である。
さらに、CGRclustは、すべてのウイルスゲノムデータセットに対して、常に優れたパフォーマンスを示す。
CGRclustのクラスタリング精度は、配列長、ゲノム数、クラスタ数、分類のレベルで大きく異なり、その堅牢性、スケーラビリティ、汎用性を示している。
This study proposes CGRclust, a novel combination of unsupervised twin contrastive clustering of Chaos Game Representations (CGR) of DNA sequences, with convolutional neural networks (CNNs). To the best of our knowledge, CGRclust is the first method to use unsupervised learning for image classification (herein applied to two-dimensional CGR images) for clustering datasets of DNA sequences. CGRclust overcomes the limitations of traditional sequence classification methods by leveraging unsupervised twin contrastive learning to detect distinctive sequence patterns, without requiring DNA sequence alignment or biological/taxonomic labels. CGRclust accurately clustered twenty-five diverse datasets, with sequence lengths ranging from 664 bp to 100 kbp, including mitochondrial genomes of fish, fungi, and protists, as well as viral whole genome assemblies and synthetic DNA sequences. Compared with three recent clustering methods for DNA sequences (DeLUCS, iDeLUCS, and MeShClust v3.0.), CGRclust is the only method that surpasses 81.70% accuracy across all four taxonomic levels tested for mitochondrial DNA genomes of fish. Moreover, CGRclust also consistently demonstrates superior performance across all the viral genomic datasets. The high clustering accuracy of CGRclust on these twenty-five datasets, which vary significantly in terms of sequence length, number of genomes, number of clusters, and level of taxonomy, demonstrates its robustness, scalability, and versatility. | 翻訳日:2024-07-04 18:43:42 公開日:2024-07-01 |
# 二重雑音に対する高次元非局所性のロバスト性および逐次測定
Robustness of Higher Dimensional Nonlocality against dual noise and sequential measurements ( http://arxiv.org/abs/2012.12200v2 ) ライセンス: Link先を確認 | Saptarshi Roy, Asmita Kumari, Shiladitya Mal, Aditi Sen De, | (参考訳) CGLMP(Collins-Linden-Gisin-Masser-Popescu)不等式違反のロバスト性は, 測定値と状態の両面から検討した。
定量化するために,非局所領域領域と呼ばれる次元的優位性を示す量を導入する。
具体的には, 寸法の増大に伴い, 非局所領域の面積が最大エンタングルド状態よりも増大し, インクリメントのスケーリングが可視性よりも速く成長することが報告された。
さらに, 弱い測定値を用いてCGLMP不等式を連続的に破る場合のロバスト性について検討し, より高次元でもCGLMP不等式を同時に破ることを示す2つの観察者について検討した。
また,第1ラウンドの視認性低下と第2ラウンドの視認性向上により,情報ゲインと測定による外乱の相補性が示された。
さらに、最大エンタングル状態に付加できる白色ノイズの量は、最大エンタングル状態に2ラウンドの違反を与えるため、寸法に応じて減少するが、最大エンタングル状態には確実に変化しない。
Robustness in the violation of Collins-Linden-Gisin-Masser-Popescu (CGLMP) inequality is investigated from the dual perspective of noise in measurements as well as in states. To quantify it, we introduce a quantity called the area of nonlocal region which reveals a dimensional advantage. Specifically, we report that with the increase of dimension, the maximally violating states show a greater enhancement in the area of nonlocal region in comparison to the maximally entangled states and the scaling of the increment, in this case, grows faster than visibility. Moreover, we examine the robustness in the sequential violation of CGLMP inequality using weak measurements and find that even for higher dimensions, two observers showing a simultaneous violation of the CGLMP inequality as obtained for two-qubit states persists. We notice that the complementarity between information gain and disturbance by measurements is manifested by the decrease of the visibility in the first round and the increase of the same in the second round with dimensions. Furthermore, the amount of white noise that can be added to a maximally entangled state so that it gives two rounds of the violation, decreases with the dimension, while the same does not appreciably change for the maximally violating states. | 翻訳日:2024-07-04 10:45:46 公開日:2024-07-01 |
# ボゾン量子系に対するフォン・ノイマンエントロピーの一般化された強部分付加性
The generalized strong subadditivity of the von Neumann entropy for bosonic quantum systems ( http://arxiv.org/abs/2105.05627v2 ) ライセンス: Link先を確認 | Giacomo De Palma, Dario Trevisan, | (参考訳) ボゾン量子ガウス系に対するフォン・ノイマンエントロピーの強い部分付加性の一般化を証明した。
このような一般化は、二次系の任意の線型関数に関連する部分系のエントロピーの線型結合の最小値を決定し、そのエントロピーがメモリ量子系上で条件付けられたシナリオを含む任意の量子状態を保持する。
本稿では,量子メモリとの新たなエントロピー不確実性関係,量子エントロピーパワー不等式の一般化,および二次ハミルトニアンによる絡み合いエントロピーの線形時間スケーリングについて述べる。
We prove a generalization of the strong subadditivity of the von Neumann entropy for bosonic quantum Gaussian systems. Such generalization determines the minimum values of linear combinations of the entropies of subsystems associated to arbitrary linear functions of the quadratures, and holds for arbitrary quantum states including the scenario where the entropies are conditioned on a memory quantum system. We apply our result to prove new entropic uncertainty relations with quantum memory, a generalization of the quantum Entropy Power Inequality, and the linear time scaling of the entanglement entropy produced by quadratic Hamiltonians. | 翻訳日:2024-07-04 10:45:46 公開日:2024-07-01 |
# ニューラル分散ソース符号化
Neural Distributed Source Coding ( http://arxiv.org/abs/2106.02797v4 ) ライセンス: Link先を確認 | Jay Whang, Alliot Nagle, Anish Acharya, Hyeji Kim, Alexandros G. Dimakis, | (参考訳) 分散ソース符号化(DSC)は、デコーダにのみ利用可能な相関側情報がない場合に入力を符号化するタスクである。
注目すべきことに、1973年にSlepianとWolfは、サイド情報にアクセスできないエンコーダが、サイド情報が利用可能であるのと同じ圧縮率を漸近的に達成できることを示した。
この話題には多くの先行研究があるが、実用的なDSCは合成データセットや特定の相関構造に限られている。
ここでは、相関構造に依存せず、高次元までスケールできる損失DSCのためのフレームワークを提案する。
本手法は,手作りのソースモデリングに頼るのではなく,Vector-Quantized Variational Autoencoder (VQ-VAE) を用いて分散エンコーダとデコーダを学習する。
提案手法は,複数のデータセット上で評価し,複雑な相関を扱えることを示すとともに,最先端のPSNRを実現する。
私たちのコードはhttps://github.com/acnagle/neural-dsc.comで公開されています。
Distributed source coding (DSC) is the task of encoding an input in the absence of correlated side information that is only available to the decoder. Remarkably, Slepian and Wolf showed in 1973 that an encoder without access to the side information can asymptotically achieve the same compression rate as when the side information is available to it. While there is vast prior work on this topic, practical DSC has been limited to synthetic datasets and specific correlation structures. Here we present a framework for lossy DSC that is agnostic to the correlation structure and can scale to high dimensions. Rather than relying on hand-crafted source modeling, our method utilizes a conditional Vector-Quantized Variational Autoencoder (VQ-VAE) to learn the distributed encoder and decoder. We evaluate our method on multiple datasets and show that our method can handle complex correlations and achieves state-of-the-art PSNR. Our code is made available at https://github.com/acnagle/neural-dsc. | 翻訳日:2024-07-04 10:45:46 公開日:2024-07-01 |
# 縮退位相に基づく量子算術:誤差伝播と資源削減
Truncated phase-based quantum arithmetic: error propagation and resource reduction ( http://arxiv.org/abs/2110.00217v2 ) ライセンス: Link先を確認 | G. A. L. White, C. D. Hill, L. C. L. Hollenberg, | (参考訳) 大規模量子アルゴリズムの実現には、ハードウェアの改善と、アルゴリズムコンポーネントが要求するリソース要求の削減という、2つの重要な、潜在的に相互接続性がある。
後者に焦点を合わせると、多くの追従応用にとって重要なサブルーチンが量子加算器である。
様々な実装があり、idiosyncratic pros と cons がある。
そのうちの1つ、ドレイパー量子フーリエ加算器は、任意の加算器の最低量子ビット数を提供するが、かなりの数のゲートと極めて微細な回転を必要とする。
本研究では,小角回転を高粗度に除去するDraper加算器を,いくつかの戦略的補正と整合して提案する。
これにより、キュービットの節約を犠牲にすることなく、ハードウェア要件を削減できる。
そこで本研究では, 継承された忠実さの損失は, 計算における搬送ビットと借入ビットの比率によって直接的に与えられることを示す。
回路のゲートレベルの行列積状態シミュレーションを補完してこれを予測するための公式を導出する。
さらに,確率的制御誤差の影響を解析的に記述する。
本稿では、RSA-2048の因数分解に着目し、Shorのアルゴリズムの文脈におけるこのアプローチの詳細な分析を行う。
意外なことに、7ドル相当の量子フーリエ変換はそれぞれ$\pi/64$に切り詰められ、加法回転はわずかに微妙にしか残っていない。
この結果は以前実現したよりもはるかに効率的である。
論理資源と生マジック状態の両方の観点から貯蓄量を定量化し、位相加算器がトフォリに基づく構成と競合できることを実証する。
There are two important, and potentially interconnecting, avenues to the realisation of large-scale quantum algorithms: improvement of the hardware, and reduction of resource requirements demanded by algorithm components. In focusing on the latter, one crucial subroutine to many sought-after applications is the quantum adder. A variety of different implementations exist with idiosyncratic pros and cons. One of these, the Draper quantum Fourier adder, offers the lowest qubit count of any adder, but requires a substantial number of gates as well as extremely fine rotations. In this work, we present a modification of the Draper adder which eliminates small-angle rotations to highly coarse levels, matched with some strategic corrections. This reduces hardware requirements without sacrificing the qubit saving. We show that the inherited loss of fidelity is directly given by the rate of carry and borrow bits in the computation. We derive formulae to predict this, complemented by complete gate-level matrix product state simulations of the circuit. Moreover, we analytically describe the effects of possible stochastic control error. We present an in-depth analysis of this approach in the context of Shor's algorithm, focusing on the factoring of RSA-2048. Surprisingly, we find that each of the $7\times 10^7$ quantum Fourier transforms may be truncated down to $\pi/64$, with additive rotations left only slightly finer. This result is much more efficient than previously realised. We quantify savings both in terms of logical resources and raw magic states, demonstrating that phase adders can be competitive with Toffoli-based constructions. | 翻訳日:2024-07-04 10:45:46 公開日:2024-07-01 |
# クォーディットを用いた量子アルゴリズムの効率的な実現
Efficient realization of quantum algorithms with qudits ( http://arxiv.org/abs/2111.04384v3 ) ライセンス: Link先を確認 | Anastasiia S. Nikolaeva, Evgeniy O. Kiktenko, Aleksey K. Fedorov, | (参考訳) 様々な難解な計算問題を効率的に解くことができる普遍的フォールトトレラント量子コンピュータの開発は、科学と技術にとって大きな課題である。
本研究では,マルチレベル量子システム(キューディット)を用いた量子アルゴリズムの効率的な実装手法を提案する。
提案手法では,量子ビット方式で回路をトランスパイレーションし,その数やアクセス可能なレベル数など,キューディットベースのプロセッサのパラメータに依存する。
このアプローチは、量子ビット間マッピングを提供し、量子アルゴリズムの標準的な実現と比較することで、量子ビットの潜在的な利点を浮き彫りにする。
特定の普遍集合から取られた単一量子ゲートと2量子ゲートの列に量子回路を変換する明示的なスキームを提供する。
次に,6ドルキュービット量子アルゴリズムをキューディットで効率的に実装した例を例に紹介する。
我々は,閉じ込められたイオンや中性原子,光学系や固体系などのキュウディエンコーディングを可能にする情報キャリアと通信する,ノイズの多い中間スケール量子デバイスを用いた実験の実施に,我々の研究結果が関係していると期待している。
The development of a universal fault-tolerant quantum computer that can solve efficiently various difficult computational problems is an outstanding challenge for science and technology. In this work, we propose a technique for an efficient implementation of quantum algorithms with multilevel quantum systems (qudits). Our method uses a transpilation of a circuit in the standard qubit form, which depends on the parameters of a qudit-based processor, such as their number and the number of accessible levels. This approach provides a qubit-to-qudit mapping and comparison to a standard realization of quantum algorithms highlighting potential advantages of qudits. We provide an explicit scheme of transpiling qubit circuits into sequences of single-qudit and two-qudit gates taken from a particular universal set. We then illustrate our method by considering an example of an efficient implementation of a $6$-qubit quantum algorithm with qudits. We expect that our findings are of relevance for ongoing experiments with noisy intermediate-scale quantum devices that operate with information carrier allowing qudit encodings, such as trapped ions and neutral atoms as well as optical and solid-state systems. | 翻訳日:2024-07-04 10:36:26 公開日:2024-07-01 |
# 制約付き非凸非凸Min-Max最適化とコモノトン包摂の高速化アルゴリズム
Accelerated Algorithms for Constrained Nonconvex-Nonconcave Min-Max Optimization and Comonotone Inclusion ( http://arxiv.org/abs/2206.05248v4 ) ライセンス: Link先を確認 | Yang Cai, Argyris Oikonomou, Weiqiang Zheng, | (参考訳) 制約付きコモノトン min-max 最適化,非凸非凹 min-max 最適化問題の構造化クラス,およびコモノトン包摂への一般化について検討した。
最初のコントリビューションでは、制約付きコモノトン min-max 最適化とコモノトン包摂に対して、Yoon と Ryu (2021) によって提案された Extra Anchored Gradient (EAG) アルゴリズムを拡張し、すべての一階法で最適収束率$O\left(\frac{1}{T}\right)$を達成した。
さらに、アルゴリズムの反復が解集合の点に収束することを証明する。
第2のコントリビューションでは、Lee と Kim が2021年に開発したFast Extra Gradient (FEG) アルゴリズムを、制約付きコモノトン min-max 最適化とコモノトン包摂に拡張し、同じ$O\left(\frac{1}{T}\right)$収束率を達成する。
この値は、文献で研究されていない最も広いコモノトン包摂問題に適用できる。
我々の分析は単純なポテンシャル関数の引数に基づいており、これは他の加速されたアルゴリズムを解析するのに有用かもしれない。
We study constrained comonotone min-max optimization, a structured class of nonconvex-nonconcave min-max optimization problems, and their generalization to comonotone inclusion. In our first contribution, we extend the Extra Anchored Gradient (EAG) algorithm, originally proposed by Yoon and Ryu (2021) for unconstrained min-max optimization, to constrained comonotone min-max optimization and comonotone inclusion, achieving an optimal convergence rate of $O\left(\frac{1}{T}\right)$ among all first-order methods. Additionally, we prove that the algorithm's iterations converge to a point in the solution set. In our second contribution, we extend the Fast Extra Gradient (FEG) algorithm, as developed by Lee and Kim (2021), to constrained comonotone min-max optimization and comonotone inclusion, achieving the same $O\left(\frac{1}{T}\right)$ convergence rate. This rate is applicable to the broadest set of comonotone inclusion problems yet studied in the literature. Our analyses are based on simple potential function arguments, which might be useful for analyzing other accelerated algorithms. | 翻訳日:2024-07-04 10:36:26 公開日:2024-07-01 |
# FIMP: グラフニューラルネットワークのための基礎モデルインフォームドメッセージパッシング
FIMP: Foundation Model-Informed Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2210.09475v5 ) ライセンス: Link先を確認 | Syed Asad Rizvi, Nazreen Pallikkavaliyaveetil, David Zhang, Zhuoyang Lyu, Nhi Nguyen, Haoran Lyu, Benjamin Christensen, Josue Ortega Caro, Antonio H. O. Fonseca, Emanuele Zappala, Maryam Bagherian, Christopher Averill, Chadi G. Abdallah, Amin Karbasi, Rex Ying, Maria Brbic, Rahul Madhav Dhodapkar, David van Dijk, | (参考訳) ファンデーションモデルは、大量のデータに対する事前トレーニングに依存して、多くの領域で顕著な成功を収めています。
グラフ構造化データには、非構造化データと同じスケールがないことが多いため、グラフ基盤モデルの開発は困難である。
本研究では,グラフベースタスクにおける事前学習された非テキスト基盤モデルを活用するグラフニューラルネットワーク(GNN)メッセージパッシングフレームワークであるFoundation-Informed Message Passing (FIMP)を提案する。
本研究では,基礎モデルの自己注意層をグラフ上で効果的に再利用し,ノード間アテンションに基づくメッセージパッシングを行うことを示す。
実世界の画像ネットワークデータセットと2つの生物学的応用(単細胞RNAシークエンシングデータとfMRI脳活動記録)を微調整・ゼロショットの両方で評価した。
FIMPは強力なベースラインよりも優れており、グラフタスクで最先端の基礎モデルを効果的に活用できることを実証している。
Foundation models have achieved remarkable success across many domains, relying on pretraining over vast amounts of data. Graph-structured data often lacks the same scale as unstructured data, making the development of graph foundation models challenging. In this work, we propose Foundation-Informed Message Passing (FIMP), a Graph Neural Network (GNN) message-passing framework that leverages pretrained non-textual foundation models in graph-based tasks. We show that the self-attention layers of foundation models can effectively be repurposed on graphs to perform cross-node attention-based message-passing. Our model is evaluated on a real-world image network dataset and two biological applications (single-cell RNA sequencing data and fMRI brain activity recordings) in both finetuned and zero-shot settings. FIMP outperforms strong baselines, demonstrating that it can effectively leverage state-of-the-art foundation models in graph tasks. | 翻訳日:2024-07-04 10:36:26 公開日:2024-07-01 |
# 群数データに対する階層ベイズモデルの効率的な推定のための近似ギブズサンプリング
Approximate Gibbs Sampler for Efficient Inference of Hierarchical Bayesian Models for Grouped Count Data ( http://arxiv.org/abs/2211.15771v2 ) ライセンス: Link先を確認 | Jin-Zhu Yu, Hiba Baroud, | (参考訳) 階層型ベイズ・ポアソン回帰モデル (HBPRMs) は、予測値とカウント応答変数の関係の柔軟なモデリング手法を提供する。
HBPRMを大規模データセットに適用するには、ランダムサンプリングに基づいて多くのモデルパラメータを推定する計算コストが高いため、効率的な推論アルゴリズムが必要である。
マルコフ・チェイン・モンテカルロ (MCMC) アルゴリズムはベイジアン推論に広く用いられているが、このタイプのアルゴリズムを用いたサンプリングは、大規模なデータと時間に敏感な意思決定を行うアプリケーションには時間を要する。
この制限を克服するため,推定精度を維持しつつHBPRMを効率的に学習するための近似ギブスサンプリング器(AGS)を開発した。
提案したサンプリング器では,データ確率をガウス分布と近似し,係数の条件付き後部が閉形式解を持つようにした。
実データと合成データを用いた数値実験は,特に大規模データセットにおいて,最先端のサンプリングアルゴリズムと比較して,AGSの優れた性能を示す。
Hierarchical Bayesian Poisson regression models (HBPRMs) provide a flexible modeling approach of the relationship between predictors and count response variables. The applications of HBPRMs to large-scale datasets require efficient inference algorithms due to the high computational cost of inferring many model parameters based on random sampling. Although Markov Chain Monte Carlo (MCMC) algorithms have been widely used for Bayesian inference, sampling using this class of algorithms is time-consuming for applications with large-scale data and time-sensitive decision-making, partially due to the non-conjugacy of many models. To overcome this limitation, this research develops an approximate Gibbs sampler (AGS) to efficiently learn the HBPRMs while maintaining the inference accuracy. In the proposed sampler, the data likelihood is approximated with Gaussian distribution such that the conditional posterior of the coefficients has a closed-form solution. Numerical experiments using real and synthetic datasets with small and large counts demonstrate the superior performance of AGS in comparison to the state-of-the-art sampling algorithm, especially for large datasets. | 翻訳日:2024-07-04 10:36:26 公開日:2024-07-01 |
# ANNA: ニュースキャプションを用いた抽象的テキスト・画像合成
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions ( http://arxiv.org/abs/2301.02160v2 ) ライセンス: Link先を確認 | Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee, | (参考訳) 近年のテキスト対画像合成の進歩は、記述的なプロンプトを持つデータセットを使用して生成されたサンプルの品質向上に重点を置いている。
しかし、ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純かつ直接記述的なキャプションを使用しない。
画像の内容と下層の文脈的手がかりの両方に関する情報を含むキャプションによって、それらは本質的に抽象的になる。
本稿では,さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチする。
本稿では,従来のテキスト・ツー・イメージ合成モデルを用いて,標準学習と移動学習の両方において,ANNA上でそれらをベンチマークすることで,抽象的なキャプションを用いてニュースドメイン固有の画像を生成する能力について検討する。
生成した画像は、文脈的関連性、視覚的品質、および接地トラス画像カプセル対との知覚的類似性に基づいて判定される。
実験を通して,翻訳学習などの手法は,抽象的なキャプションの理解において限られた成功を収めるが,コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
Datasetはhttps://github.com/aashish2000/ANNA で公開されている。
Advancements in Text-to-Image synthesis over recent years have focused more on improving the quality of generated samples using datasets with descriptive prompts. However, real-world image-caption pairs present in domains such as news data do not use simple and directly descriptive captions. With captions containing information on both the image content and underlying contextual cues, they become abstractive in nature. In this paper, we launch ANNA, an Abstractive News captioNs dAtaset extracted from online news articles in a variety of different contexts. We explore the capabilities of current Text-to-Image synthesis models to generate news domain-specific images using abstractive captions by benchmarking them on ANNA, in both standard training and transfer learning settings. The generated images are judged on the basis of contextual relevance, visual quality, and perceptual similarity to ground-truth image-caption pairs. Through our experiments, we show that techniques such as transfer learning achieve limited success in understanding abstractive captions but still fail to consistently learn the relationships between content and context features. The Dataset is available at https://github.com/aashish2000/ANNA . | 翻訳日:2024-07-04 10:36:26 公開日:2024-07-01 |
# ExcelFormer: 表データ上のGBDTを超えるニューラルネットワーク
ExcelFormer: A neural network surpassing GBDTs on tabular data ( http://arxiv.org/abs/2301.02819v7 ) ライセンス: Link先を確認 | Jintai Chen, Jiahuan Yan, Qiyuan Chen, Danny Ziyi Chen, Jian Wu, Jimeng Sun, | (参考訳) 表形式で整理されたデータは、現実世界のアプリケーションではユビキタスであり、ユーザーはしばしば、バイアスのある特徴定義を持つテーブルを作成し、自分の興味の予測ターゲットを柔軟に設定する。
したがって、堅牢で、効果的で、データセットに反し、ユーザフレンドリな表型予測アプローチの急速な開発が望まれている。
グラディエントブースティング決定木(GBDT)と既存のディープニューラルネットワーク(DNN)がプロのユーザによって広く利用されている一方で、彼らはカジュアルなユーザ、特にカジュアルなユーザに対していくつかの課題を提示している。
一 データセットの好みの違いによるモデル選択のジレンマ、及び
(II)重度ハイパーパラメータ探索の必要性は,その性能が不十分であると考えられる。
本稿では,様々な表形式の予測タスクに対して,かつカジュアルなユーザにも親しみやすい「確実な賭け」ソリューションとして機能するディープラーニングモデルを開発することができるか,という課題を掘り下げる。
P1) 回転分散特性の欠如,(P2) 大規模データ需要,(P3) 過スムース解の3つの重要な欠点を考察した。
ExcelFormerは,DNNの回転不変性(P1の場合)を損なうような,情報の少ない特徴の影響を効果的に抑制する半透過型アテンションモジュール,表層データに適したデータ拡張アプローチ(P2),モデル適合性を高めるための注意型フィードフォワードネットワーク(P3の場合)を通じて,これらの課題に対処する。
これらの設計はExcelFormerを多種多様な表データセットの"確実な賭け"ソリューションにしている。
実世界のデータセットで実施された広範かつ階層化された実験により、我々のモデルは様々な表形式のデータ予測タスクにまたがって過去のアプローチよりも優れており、このフレームワークはカジュアルなユーザと親しみやすく、重いハイパーパラメータチューニングを使わずに使いやすくする。
Data organized in tabular format is ubiquitous in real-world applications, and users often craft tables with biased feature definitions and flexibly set prediction targets of their interests. Thus, a rapid development of a robust, effective, dataset-versatile, user-friendly tabular prediction approach is highly desired. While Gradient Boosting Decision Trees (GBDTs) and existing deep neural networks (DNNs) have been extensively utilized by professional users, they present several challenges for casual users, particularly: (i) the dilemma of model selection due to their different dataset preferences, and (ii) the need for heavy hyperparameter searching, failing which their performances are deemed inadequate. In this paper, we delve into this question: Can we develop a deep learning model that serves as a "sure bet" solution for a wide range of tabular prediction tasks, while also being user-friendly for casual users? We delve into three key drawbacks of deep tabular models, encompassing: (P1) lack of rotational variance property, (P2) large data demand, and (P3) over-smooth solution. We propose ExcelFormer, addressing these challenges through a semi-permeable attention module that effectively constrains the influence of less informative features to break the DNNs' rotational invariance property (for P1), data augmentation approaches tailored for tabular data (for P2), and attentive feedforward network to boost the model fitting capability (for P3). These designs collectively make ExcelFormer a "sure bet" solution for diverse tabular datasets. Extensive and stratified experiments conducted on real-world datasets demonstrate that our model outperforms previous approaches across diverse tabular data prediction tasks, and this framework can be friendly to casual users, offering ease of use without the heavy hyperparameter tuning. | 翻訳日:2024-07-04 08:40:09 公開日:2024-07-01 |
# 画像認識問題に応用したモデル並列学習のためのドメイン分解に基づくCNN-DNNアーキテクチャ
A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel Training Applied to Image Recognition Problems ( http://arxiv.org/abs/2302.06564v2 ) ライセンス: Link先を確認 | Axel Klawonn, Martin Lanser, Janine Weber, | (参考訳) ディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)は、幅広い現代のコンピュータアプリケーション問題において大きな進歩をもたらした。
しかし、大量のデータセットの可用性の向上と、現代のコンピュータの利用可能な計算能力の増大により、それぞれDNNとCNNモデルの複雑さとサイズが着実に増加し、訓練時間が長くなる。
そのため、複雑なネットワークアーキテクチャの訓練を加速し、並列化する様々な方法や試みが開発されている。
本研究では、モデル並列トレーニング戦略を自然にサポートし、2レベルドメイン分解法(DDM)に着想を得た新しいCNN-DNNアーキテクチャを提案する。
まず、ローカルCNNモデル、すなわちサブネットワークが、入力データの重なり部分や非重なり部分、例えばサブイメージを操作するように定義される。
サブネットワークは完全に並列で、互いに独立して訓練することができる。
各サブネットワークは、各ローカル入力データにのみ依存する、与えられた機械学習問題に対する局所的な決定を出力する。
次に、ローカルサブネットワークのローカルな決定を評価し、最終的なグローバルな決定を生成する追加のDNNモデルを訓練する。
本稿では,提案手法をCNNを用いた画像分類問題に適用する。
異なる2次元画像分類問題に対する実験結果と顔認識問題と3次元コンピュータ断層撮影(CT)スキャンのための分類問題とが提供される。
そのため、古典的なResNetとVGGアーキテクチャが検討されている。
その結果,提案手法は,グローバルモデルと比較して学習時間を大幅に短縮することができ,また,基礎となる分類問題の精度向上にも有効であることが示唆された。
Deep neural networks (DNNs) and, in particular, convolutional neural networks (CNNs) have brought significant advances in a wide range of modern computer application problems. However, the increasing availability of large amounts of datasets as well as the increasing available computational power of modern computers lead to a steady growth in the complexity and size of DNN and CNN models, respectively, and thus, to longer training times. Hence, various methods and attempts have been developed to accelerate and parallelize the training of complex network architectures. In this work, a novel CNN-DNN architecture is proposed that naturally supports a model parallel training strategy and that is loosely inspired by two-level domain decomposition methods (DDM). First, local CNN models, that is, subnetworks, are defined that operate on overlapping or nonoverlapping parts of the input data, for example, sub-images. The subnetworks can be trained completely in parallel and independently of each other. Each subnetwork then outputs a local decision for the given machine learning problem which is exclusively based on the respective local input data. Subsequently, in a second step, an additional DNN model is trained which evaluates the local decisions of the local subnetworks and generates a final, global decision. In this paper, we apply the proposed architecture to image classification problems using CNNs. Experimental results for different 2D image classification problems are provided as well as a face recognition problem, and a classification problem for 3D computer tomography (CT) scans. Therefore, classical ResNet and VGG architectures are considered. The results show that the proposed approach can significantly accelerate the required training time compared to the global model and, additionally, can also help to improve the accuracy of the underlying classification problem. | 翻訳日:2024-07-04 08:40:09 公開日:2024-07-01 |
# 量子ノイズスペクトロスコピーのためのランダムパルスシーケンス
Random Pulse Sequences for Qubit Noise Spectroscopy ( http://arxiv.org/abs/2303.00909v3 ) ライセンス: Link先を確認 | Kaixin Huang, Demitry Farfurnik, Alireza Seif, Mohammad Hafezi, Yi-Kai Liu, | (参考訳) クビットノイズスペクトロスコピーは、オープン量子系の実験的研究にとって重要なツールである。
しかし、異なる周波数での雑音スペクトル密度を複数測定する必要があるため、従来のノイズスペクトル実装手法は時間を要する。
ここでは、スペクトル密度を素早く特徴づける別の方法について述べる。
本手法は, 位相抽出のための数学的手法を用いて, ノイズスペクトルの任意の線形関数を計測できるパルス間相関を慎重に制御したランダムパルス列を生成する。
このような測定により、ノイズスペクトルの$k$'th-order モーメントを推定し、圧縮センシングによりスパーススペクトルを再構成することができる。
現実的な物理系, 自己集合量子ドット上でのランダムパルス列の性能のシミュレーションにより, 従来の動的デカップリング法と比較して, ノイズスペクトルの抽出における桁違いの高速化が示された。
Qubit noise spectroscopy is an important tool for the experimental investigation of open quantum systems. However, conventional techniques for implementing noise spectroscopy are time-consuming, because they require multiple measurements of the noise spectral density at different frequencies. Here we describe an alternative method for quickly characterizing the spectral density. Our method uses mathematical techniques for phase retrieval, in order to generate random pulse sequences with carefully-controlled correlations among the pulses, which can measure arbitrary linear functionals of the noise spectrum. Such measurements allow us to estimate $k$'th-order moments of the noise spectrum, as well as to reconstruct sparse noise spectra via compressed sensing. Our simulations of the performance of the random pulse sequences on a realistic physical system, self-assembled quantum dots, reveal a speedup of an order of magnitude in extracting the noise spectrum, compared to conventional dynamical decoupling approaches. | 翻訳日:2024-07-04 08:40:09 公開日:2024-07-01 |
# ニューラル制御微分方程式の一般化と近似能力について
On the Generalization and Approximation Capacities of Neural Controlled Differential Equations ( http://arxiv.org/abs/2305.16791v4 ) ライセンス: Link先を確認 | Linus Bleistein, Agathe Guilloux, | (参考訳) Neural Controlled Differential Equations (NCDE)は、不規則にサンプリングされた時系列(Kidger, 2020)で教師あり学習を行う最先端のツールである。
しかし、その性能に関する理論的分析はまだ提供されておらず、特に時系列の不規則さがそれらの予測にどのような影響を及ぼすかは定かではない。
制御微分方程式(CDE)のリッチ理論と深部ニューラルネットワークの複雑さのリプシッツに基づく測度を組み合わせることにより、NCDEの理論的理解に向けて第一歩を踏み出す。
最初の結果は、時系列データの正則性に依存するこのクラスの予測器に対する一般化である。
2回目では, CDEの流れの連続性を利用して, サンプリング誘起バイアスと近似バイアスの両方を詳細に解析する。
最後に,ニューラルネット上での古典的近似結果がNCDEにどのように移行するかを示す。
我々の理論的結果は一連の実験によって検証される。
Neural Controlled Differential Equations (NCDEs) are a state-of-the-art tool for supervised learning with irregularly sampled time series (Kidger, 2020). However, no theoretical analysis of their performance has been provided yet, and it remains unclear in particular how the irregularity of the time series affects their predictions. By merging the rich theory of controlled differential equations (CDE) and Lipschitz-based measures of the complexity of deep neural nets, we take a first step towards the theoretical understanding of NCDE. Our first result is a generalization bound for this class of predictors that depends on the regularity of the time series data. In a second time, we leverage the continuity of the flow of CDEs to provide a detailed analysis of both the sampling-induced bias and the approximation bias. Regarding this last result, we show how classical approximation results on neural nets may transfer to NCDEs. Our theoretical results are validated through a series of experiments. | 翻訳日:2024-07-04 08:40:09 公開日:2024-07-01 |
# 動的フィールド生成可能な中性原子配列プロセッサのための量子回路のコンパイル
Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v5 ) ライセンス: Link先を確認 | Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong, | (参考訳) 動的にプログラム可能な量子ビットアレイ (DPQA) は近年,量子情報処理のための有望なプラットフォームとして出現している。
DPQAでは、原子量子ビットは光学トラップの配列に選択的にロードされる。
量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。
このような再構成性と非ローカル接続は、特に、キュービットの配置とルーティングとゲートのスケジュールを行うレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。
本稿では,複数の配列を含むDPQAアーキテクチャについて考察する。
このアーキテクチャでは、状態空間とレイアウト合成を、回路深度の観点から、既存の解法によって最適に解ける満足度モジュロ理論問題として識別する。
複雑な結合性を持つランダムグラフによって生成されるベンチマーク回路の集合に対して、我々のコンパイラORSQ-DPQAは、固定平面アーキテクチャの最適コンパイル結果と比較して、小さな問題インスタンス上の2量子エンタングルゲートの数を1.7倍削減する。
提案手法のスケーラビリティと実用性をさらに向上するため,古典的な集積回路ルーティングにおける反復的な剥離手法に着想を得た強欲なヒューリスティックを導入する。
グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。
これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。
Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfiability modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices. | 翻訳日:2024-07-04 08:30:22 公開日:2024-07-01 |
# 量子計算の安定性に及ぼす信頼できないデバイスの影響
Impact of unreliable devices on stability of quantum computations ( http://arxiv.org/abs/2307.06833v3 ) ライセンス: Link先を確認 | Samudra Dasgupta, Travis S. Humble, | (参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、量子コンピューティングのテテットをテストする上で貴重なプラットフォームであるが、これらのデバイスは、非コヒーレンス、リーク、クロストーク、その他のノイズ源によるエラーの影響を受けやすい。
NISQデバイスを使用する場合、エラーを緩和するための戦略は、一般的に、十分な特性と定常的なエラーモデルを必要とするため、結果の安定性に関する懸念を提起する。
ここでは、所定の許容範囲内で安定した結果を生成するために必要な条件を評価することにより、NISQ装置の信頼性を定量化する。
本研究では,デバイス特性データから導出した類似度指標を用いて,ベルンシュタイン・ヴァジラニアルゴリズムの5キュービット実装の安定性に関するバウンダリを導出し,検証する。
2022年1月から2023年4月にかけて、IBM Washingtonのノイズデータを用いて行われたシミュレーション実験により、信頼性基準が41%から92%の間で変動したことが明らかになった。
この変動は安定な結果に必要な2.2%の許容閾値をはるかに上回っている。
その結果、この装置はベルンシュタイン・ヴァジラーニ回路の文脈で統計平均を一貫して再現することができないことが判明した。
Noisy intermediate-scale quantum (NISQ) devices are valuable platforms for testing the tenets of quantum computing, but these devices are susceptible to errors arising from de-coherence, leakage, cross-talk and other sources of noise. This raises concerns regarding the stability of results when using NISQ devices since strategies for mitigating errors generally require well-characterized and stationary error models. Here, we quantify the reliability of NISQ devices by assessing the necessary conditions for generating stable results within a given tolerance. We use similarity metrics derived from device characterization data to derive and validate bounds on the stability of a 5-qubit implementation of the Bernstein-Vazirani algorithm. Simulation experiments conducted with noise data from IBM Washington, spanning January 2022 to April 2023, revealed that the reliability metric fluctuated between 41% and 92%. This variation significantly surpasses the maximum allowable threshold of 2.2% needed for stable outcomes. Consequently, the device proved unreliable for consistently reproducing the statistical mean in the context of the Bernstein-Vazirani circuit. | 翻訳日:2024-07-04 08:30:22 公開日:2024-07-01 |
# APACE:AlphaFold2と生物物理学の発見を加速するサービスとしての高度なコンピューティング
APACE: AlphaFold2 and advanced computing as a service for accelerated discovery in biophysics ( http://arxiv.org/abs/2308.07954v2 ) ライセンス: Link先を確認 | Hyun Park, Parth Patel, Roland Haas, E. A. Huerta, | (参考訳) アミノ酸配列からのタンパク質3D構造の予測は、生物物理学における計算上の大きな課題であり、薬物発見からゲノム解釈まで、堅牢なタンパク質構造予測アルゴリズムにおいて重要な役割を果たしている。
AlphaFoldのようなAIモデルの出現は、堅牢なタンパク質構造予測アルゴリズムに依存するアプリケーションに革命をもたらしている。
このAIモデルとTBサイズのデータベースを効果的に処理し、現代のスーパーコンピュータ環境で加速されたタンパク質構造予測分析を行う、新しい計算フレームワークであるAPACE、AlphaFold2、および高度なコンピューティング・アズ・ア・サービスを導入する。
6AWO, 6OAN, 7MEZ, 6D6Uの4種類のタンパク質を用いてAPACEをデルタ・ポラリス・スーパーコンピュータに展開し, 正確なタンパク質構造予測性能を定量化した。
200のNVIDIA A100 GPUに分散した300アンサンブルを使用して、APACEはオフザセルフのAlphaFold2実装よりも最大2桁高速で、数週間から数分で解決できることがわかった。
この計算手法は、科学的な発見を自動化し、加速するために、ロボティクス研究所と容易に関連付けられる。
The prediction of protein 3D structure from amino acid sequence is a computational grand challenge in biophysics, and plays a key role in robust protein structure prediction algorithms, from drug discovery to genome interpretation. The advent of AI models, such as AlphaFold, is revolutionizing applications that depend on robust protein structure prediction algorithms. To maximize the impact, and ease the usability, of these novel AI tools we introduce APACE, AlphaFold2 and advanced computing as a service, a novel computational framework that effectively handles this AI model and its TB-size database to conduct accelerated protein structure prediction analyses in modern supercomputing environments. We deployed APACE in the Delta and Polaris supercomputers, and quantified its performance for accurate protein structure predictions using four exemplar proteins: 6AWO, 6OAN, 7MEZ, and 6D6U. Using up to 300 ensembles, distributed across 200 NVIDIA A100 GPUs, we found that APACE is up to two orders of magnitude faster than off-the-self AlphaFold2 implementations, reducing time-to-solution from weeks to minutes. This computational approach may be readily linked with robotics laboratories to automate and accelerate scientific discovery. | 翻訳日:2024-07-04 08:30:22 公開日:2024-07-01 |
# ロバストスタンス検出:ソーシャルメディアにおける公衆認識の理解
Robust Stance Detection: Understanding Public Perceptions in Social Media ( http://arxiv.org/abs/2309.15176v2 ) ライセンス: Link先を確認 | Nayoung Kim, David Mosallanezhad, Lu Cheng, Michelle V. Mancenido, Huan Liu, | (参考訳) ソーシャルメディアデータの豊富さは、政策提案や議論の的となっているトピックに関して、公的およびグループ固有のスタンスを正確に決定する機会を与えてきた。
一般的な感情の特定に焦点を当てた感情分析とは対照的に、スタンス検出は、新型コロナウイルスのパンデミックにおける特定の世界的な健康介入に対する認識など、明確に定義されたトピックに対する正確な位置(すなわち、支持的、反対的、中立的)を特定する。
従来のスタンス検出モデルは、特定のドメイン(例えば、COVID-19中のマスキングプロトコルに対する態度)内で有効であるが、データ分散の変化によって新しいドメインやトピックに適用された場合、パフォーマンスが低下することが多い。
この制限は、ドメイン固有のラベル付きデータセットの不足によって複雑化され、コストがかかり、作成に労力がかかる。
本稿では,反実データ拡張と対照的な学習を組み合わせることで,領域間のスタンス検出の堅牢性を高める。
本稿では,提案するフレームワークであるSTANCE-C3(ドメイン適応型クロスターゲットSTANCE検出)と比較して,高速に最適化された大規模言語モデルを含む現状のスタンス検出モデルの性能を評価する。
実証的な評価により、STANCE-C3は、ドメイン間の精度と様々な焦点トピックに関して、ベースラインモデルよりも一貫した改善を示している。
生成AIのような汎用モデルの普及にもかかわらず、STANCE-C3のような特殊なモデルは、精度が高い安全クリティカルな領域において、特に異なる人口セグメントの関心事に関する微妙な理解が、より影響力のある公共政策を創出する可能性がある場合に、有用性を提供する。
The abundance of social media data has presented opportunities for accurately determining public and group-specific stances around policy proposals or controversial topics. In contrast with sentiment analysis which focuses on identifying prevailing emotions, stance detection identifies precise positions (i.e., supportive, opposing, neutral) relative to a well-defined topic, such as perceptions toward specific global health interventions during the COVID-19 pandemic. Traditional stance detection models, while effective within their specific domain (e.g., attitudes towards masking protocols during COVID-19), often lag in performance when applied to new domains and topics due to changes in data distribution. This limitation is compounded by the scarcity of domain-specific, labeled datasets, which are expensive and labor-intensive to create. A solution we present in this paper combines counterfactual data augmentation with contrastive learning to enhance the robustness of stance detection across domains and topics of interest. We evaluate the performance of current state-of-the-art stance detection models, including a prompt-optimized large language model, relative to our proposed framework succinctly called STANCE-C3 (domain-adaptive Cross-target STANCE detection via Contrastive learning and Counterfactual generation). Empirical evaluations demonstrate STANCE-C3's consistent improvements over the baseline models with respect to accuracy across domains and varying focal topics. Despite the increasing prevalence of general-purpose models such as generative AI, specialized models such as STANCE-C3 provide utility in safety-critical domains wherein precision is highly valued, especially when a nuanced understanding of the concerns of different population segments could result in crafting more impactful public policies. | 翻訳日:2024-07-04 08:20:17 公開日:2024-07-01 |
# 可積分系における量子Mpemba効果の微視的起源
Microscopic origin of the quantum Mpemba effect in integrable systems ( http://arxiv.org/abs/2310.04419v2 ) ライセンス: Link先を確認 | Colin Rylands, Katja Klobas, Filiberto Ares, Pasquale Calabrese, Sara Murciano, Bruno Bertini, | (参考訳) 平衡系から遠く離れた非常に複雑な性質は、平衡で発達した物理的直観の完全な分解につながる。
ムペンバ効果(Mpemba effect)は、非平衡状態が平衡から遠く離れるとより速くリラックスする、あるいは別の言い方をすれば、熱水は温水よりも速く凍る、という現象である。
厳密な歴史を持っているにもかかわらず、この現象を裏付ける正確な基準とメカニズムはまだ分かっていない。
ここでは、U(1)保存電荷を持つ閉体系で起こるMpemba効果の量子バージョンについて研究する:ある場合において、より非対称な初期構成はより対称的なものよりも早く対称性を緩和し、復元する。
古典的ケースとは対照的に、最近導入された絡み合い非対称性を用いて、任意の可積分量子系でこれが起こるための基準を確立する。
このような系における量子Mpemba効果を記述し、初期状態、特に電荷変動の性質をその発生の基準に関連付ける。
これらの基準は、自由フェルミオンモデル(英語版)、ルール54セルオートマトン(英語版)、リーブ・ライニガーモデル(英語版)など、いくつかの例において正確な解析的および数値的手法を用いて説明される。
The highly complicated nature of far from equilibrium systems can lead to a complete breakdown of the physical intuition developed in equilibrium. A famous example of this is the Mpemba effect, which states that non-equilibrium states may relax faster when they are further from equilibrium or, put another way, hot water can freeze faster than warm water. Despite possessing a storied history, the precise criteria and mechanisms underpinning this phenomenon are still not known. Here we study a quantum version of the Mpemba effect that takes place in closed many body systems with a U(1) conserved charge: in certain cases a more asymmetric initial configuration relaxes and restores the symmetry faster than a more symmetric one. In contrast to the classical case, we establish the criteria for this to occur in arbitrary integrable quantum systems using the recently introduced entanglement asymmetry. We describe the quantum Mpemba effect in such systems and relate properties of the initial state, specifically its charge fluctuations, to the criteria for its occurrence. These criteria are expounded using exact analytic and numerical techniques in several examples, a free fermion model, the Rule 54 cellular automaton, and the Lieb-Liniger model. | 翻訳日:2024-07-04 08:20:17 公開日:2024-07-01 |
# 知覚推論を表現したセミオティックスネットワーク
Semiotics Networks Representing Perceptual Inference ( http://arxiv.org/abs/2310.05212v4 ) ライセンス: Link先を確認 | David Kupeev, Eyal Nitcany, | (参考訳) 毎日、人間は物体を知覚し、様々なチャネルを通して知覚を伝える。
本稿では,物体の知覚の追跡とシミュレートを目的とした計算モデルを提案する。
我々は、コンピュータビジョンの確立した概念、すなわちエンコーディングとデコードとを関連付ける「観測された」と「見える」という、内部表現の2つの基本的な構成要素を記述している。
これらのコンポーネントは、物体知覚と人間のコミュニケーションの知覚的推論をシミュレートするセミオティックネットワークに統合される。
人による物体知覚モデルでは,ネットワークによって物体知覚を定義することができる。
ベースライン分類器と付加層を含む新しいネットワークを構築することにより、画像ベースライン分類器の例でこれを実証する。
この層は、ネットワーク全体によって"知覚される"イメージを生成し、知覚化されたイメージ分類器に変換する。
これにより、取得したネットワークの可視化が容易になる。
ネットワーク内では、画像表現は、それらが組み立てられ、ランダム化されたときに、分類タスクに対してより効率的になる。
本実験では,MNISTトレーニングデータベースのベースライン分類器の性能を,制限された画像数で比較した。
我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。
Every day, humans perceive objects and communicate these perceptions through various channels. In this paper, we present a computational model designed to track and simulate the perception of objects, as well as their representations as conveyed in communication. We delineate two fundamental components of our internal representation, termed "observed" and "seen", which we correlate with established concepts in computer vision, namely encoding and decoding. These components are integrated into semiotic networks, which simulate perceptual inference of object perception and human communication. Our model of object perception by a person allows us to define object perception by {\em a network}. We demonstrate this with an example of an image baseline classifier by constructing a new network that includes the baseline classifier and an additional layer. This layer produces the images "perceived" by the entire network, transforming it into a perceptualized image classifier. This facilitates visualization of the acquired network. Within our network, the image representations become more efficient for classification tasks when they are assembled and randomized. In our experiments, the perceptualized network outperformed the baseline classifier on MNIST training databases consisting of a restricted number of images. Our model is not limited to persons and can be applied to any system featuring a loop involving the processing from "internal" to "external" representations. | 翻訳日:2024-07-04 08:20:17 公開日:2024-07-01 |
# 言語モデルのプロンプトデザインにおける純粋特徴に対する感受性の定量化
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting ( http://arxiv.org/abs/2310.11324v2 ) ライセンス: Link先を確認 | Melanie Sclar, Yejin Choi, Yulia Tsvetkov, Alane Suhr, | (参考訳) 大規模言語モデル(LLM)が言語技術の基本コンポーネントとして採用されているため,その性能を正確に評価することが重要である。
素早い設計における選択はモデル行動に強く影響を与えるため、この設計プロセスは、近代的な事前訓練された生成言語モデルを有効に利用する上で重要である。
本研究は, 意味保存設計選択の重要クラスである即時フォーマッティングに対するLCM感度に着目した。
LLaMA-2-13B を用いて評価すると,いくつかのオープンソース LLM は,数ショット設定でのプロンプトフォーマットの微妙な変更に対して極めて敏感であることがわかった。
感性は、モデルサイズ、数ショットの例の数、あるいは命令チューニングを実行する場合にも持続する。
分析の結果,従来の1つのフォーマットで性能を報告する手法ではなく,プロンプトベースの手法でLCMを評価する作業は,有効なプロンプトフォーマットにまたがる幅広いパフォーマンスを報告することのメリットが示唆された。
また、形式性能はモデル間で弱い相関関係しかなく、任意の選択された固定されたプロンプトフォーマットとモデルの比較の方法論的妥当性に疑問を呈する。
システム解析を容易にするために,与えられたタスクに対して有効なプロンプト形式のサンプルセットを迅速に評価するアルゴリズムであるFormatSpreadを提案し,モデル重み付けを行なわずに期待される性能の間隔を報告する。
さらに, 特定の原子摂動の影響や, 特定のフォーマットの内部表現など, この感度の性質を特徴付ける分析スイートを提案する。
As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats. | 翻訳日:2024-07-04 08:20:17 公開日:2024-07-01 |
# Spoken Word2Vec: 音声からスキングラムの埋め込みを学ぶ
Spoken Word2Vec: Learning Skipgram Embeddings from Speech ( http://arxiv.org/abs/2311.09319v2 ) ライセンス: Link先を確認 | Mohammad Amaan Sayeed, Hanan Aldarmaki, | (参考訳) 分散意味論をエンコードするテキストワード埋め込みは、頻繁に発生する単語の文脈的類似性をモデル化することによって機能する。
一方、音響単語の埋め込みは、典型的には低レベル音韻類似性を符号化する。
音声単語のセマンティック埋め込みは、これまでWord2Vecと類似したアルゴリズムを用いて検討されてきたが、結果として得られるベクターは主に意味的特徴ではなく音声に符号化されている。
本稿では,従来の研究で用いられた仮定とアーキテクチャについて検討し,入力単位が音響的に相関している場合に,浅いスキップグラムのようなアルゴリズムが分布のセマンティクスを符号化できないことを示す。
そこで,本モデルでは, 組込み空間における意味的関連性の有意な結果を示すとともに, 組込みに対する影響について検討する。
Text word embeddings that encode distributional semantics work by modeling contextual similarities of frequently occurring words. Acoustic word embeddings, on the other hand, typically encode low-level phonetic similarities. Semantic embeddings for spoken words have been previously explored using analogous algorithms to Word2Vec, but the resulting vectors still mainly encoded phonetic rather than semantic features. In this paper, we examine the assumptions and architectures used in previous works and show experimentally how shallow skipgram-like algorithms fail to encode distributional semantics when the input units are acoustically correlated. We illustrate the potential of an alternative deep end-to-end variant of the model and examine the effects on the resulting embeddings, showing positive results of semantic relatedness in the embedding space. | 翻訳日:2024-07-04 08:09:56 公開日:2024-07-01 |
# LMMを用いた終末期乳癌放射線治療計画
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding ( http://arxiv.org/abs/2311.15876v3 ) ライセンス: Link先を確認 | Kwanyoung Kim, Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Joongyo Lee, Jin Sung Kim, Yong Bae Kim, Jong Chul Ye, | (参考訳) AI基盤モデルの最近の進歩は、医療専門家が使用する包括的および多面的アプローチを模倣することにより、臨床ワークロードを軽量化する大きな可能性を秘めている。
放射線オンコロジーの分野では、多重モードの統合が非常に重要であり、基礎モデルの機会が豊富である。
ここでは放射線腫瘍学の分野に適した多目的包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを紹介する。
本モデルは,LMMの能力を活用して,臨床コンテキスト要約,放射線治療計画提案,計画誘導目標容積分割など,臨床ワークフロー内の一連のタスクを効果的に管理する。
特に, エラー蓄積を伴わない連続的な臨床業務を行うために, クリーン入力処理の整合性を維持しつつ, LMMのノイズ入力に対する堅牢性を向上する, CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
さらに、この概念をLMM駆動のセグメンテーションフレームワークに拡張し、新しいConsistency Embedding Segmentation~(CESEG)技術を生み出します。
CEFTune と CESEG を用いた RO-LMM は, 汎用機能を有する複数の臨床タスクにおいて有望な性能を示すことが確認された。
Recent advances in AI foundation models have significant potential for lightening the clinical workload by mimicking the comprehensive and multi-faceted approaches used by medical professionals. In the field of radiation oncology, the integration of multiple modalities holds great importance, so the opportunity of foundational model is abundant. Inspired by this, here we present RO-LMM, a multi-purpose, comprehensive large multimodal model (LMM) tailored for the field of radiation oncology. This model effectively manages a series of tasks within the clinical workflow, including clinical context summarization, radiation treatment plan suggestion, and plan-guided target volume segmentation by leveraging the capabilities of LMM. In particular, to perform consecutive clinical tasks without error accumulation, we present a novel Consistency Embedding Fine-Tuning (CEFTune) technique, which boosts LMM's robustness to noisy inputs while preserving the consistency of handling clean inputs. We further extend this concept to LMM-driven segmentation framework, leading to a novel Consistency Embedding Segmentation~(CESEG) techniques. Experimental results including multi-centre validation confirm that our RO-LMM with CEFTune and CESEG results in promising performance for multiple clinical tasks with generalization capabilities. | 翻訳日:2024-07-04 08:09:56 公開日:2024-07-01 |
# BERTおよびGPTに基づく大規模言語モデルにおける逆曲線とその他の導出論理推論の探索
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models ( http://arxiv.org/abs/2312.03633v3 ) ライセンス: Link先を確認 | Da Wu, Jingye Yang, Kai Wang, | (参考訳) 逆カース(Reversal Curse)とは、「A is B」で訓練されたChatGPTのような自動回帰デコーダの大規模言語モデル(LLM)が「B is A」を学ぶのに失敗するシナリオを指す。
このことは、知識グラフの構成のようなある種の一般的なタスクにGPTモデルを使用する際に、この対称原理に固執することを考慮して赤旗を掲げる。
そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。
LLMを用いて生物医学知識グラフを構築するための継続的な取り組みによって、我々はさらに複雑だが本質的な推論能力の評価にも取り組みました。
このプロセスには、最初のトレーニングエンコーダとデコーダ言語モデルが含まれており、2つのセットの交差点とユニオンの操作をマスターし、次に3つの新しく作成されたセットでユニオンと交差の操作の異なる組み合わせを推測する能力を評価する。
その結果,2つの集合を含むタスク(ユニオン/インターセクション)のために訓練されたエンコーダ言語モデルとデコーダ言語モデルの両方が,3つの集合を含む操作(ユニオンと交叉の様々な組み合わせ)を扱う場合の課題に遭遇した。
本研究では, エンコーダモデルとデコーダモデルの特徴を, 単純かつ複雑な論理的推論において明らかにした。
実際には、BERT と GPT の選択は、そのタスクの具体的な要件と性質によって導かれるべきであり、それぞれの強みを双方向のコンテキスト理解とシーケンス予測に活用する。
The term "Reversal Curse" refers to the scenario where auto-regressive decoder large language models (LLMs), such as ChatGPT, trained on "A is B" fail to learn "B is A," assuming that B and A are distinct and can be uniquely identified from each other, demonstrating a basic failure of logical deduction. This raises a red flag in the use of GPT models for certain general tasks such as constructing knowledge graphs, considering their adherence to this symmetric principle. In our study, we examined a bidirectional LLM, BERT, and found that it is immune to the reversal curse. Driven by ongoing efforts to construct biomedical knowledge graphs with LLMs, we also embarked on evaluating more complex but essential deductive reasoning capabilities. This process included first training encoder and decoder language models to master the intersection and union operations on two sets and then moving on to assess their capability to infer different combinations of union and intersection operations on three newly created sets. The findings showed that while both encoder and decoder language models, trained for tasks involving two sets (union/intersection), were proficient in such scenarios, they encountered difficulties when dealing with operations that included three sets (various combinations of union and intersection). Our research highlights the distinct characteristics of encoder and decoder models in simple and complex logical reasoning. In practice, the choice between BERT and GPT should be guided by the specific requirements and nature of the task at hand, leveraging their respective strengths in bidirectional context comprehension and sequence prediction. | 翻訳日:2024-07-04 07:59:39 公開日:2024-07-01 |
# LHManip: テーブルトップ環境におけるLHManip
LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments ( http://arxiv.org/abs/2312.12036v3 ) ライセンス: Link先を確認 | Federico Ceola, Lorenzo Natale, Niko Sünderhauf, Krishan Rana, | (参考訳) 家庭内で日常的なタスクを完了させるロボットを指示することは、ロボット工学にとって長年の課題だった。
言語条件の模倣学習とオフライン強化学習の最近の進歩は、幅広いタスクにわたる印象的なパフォーマンスを示しているが、それらは通常、短期的なタスクに限られる。
既存のアーキテクチャは、これらの望ましい振る舞いを学習する可能性があるが、実際のロボットシステムに必要な長期的マルチステップデータセットが欠如していることは、大きな課題である。
この目的のために,200エピソードからなるLHManip(Long-Horizon Manipulation)データセットを提案する。
タスクには、グルーピング、プッシュ、積み重ね、非常に散らかった環境でオブジェクトを投げるなど、複数のサブタスクが含まれる。
各タスクは、ポイントクラウドまたはNeRF再構成のための自然言語命令とマルチカメラ視点とペアリングされる。
データセットは、Open X-Embodimentデータセットの一部を構成する176,278の観測-アクションペアで構成されている。
LHManipの全データセットはhttps://github.com/fedeceola/LHManipで公開されている。
Instructing a robot to complete an everyday task within our homes has been a long-standing challenge for robotics. While recent progress in language-conditioned imitation learning and offline reinforcement learning has demonstrated impressive performance across a wide range of tasks, they are typically limited to short-horizon tasks -- not reflective of those a home robot would be expected to complete. While existing architectures have the potential to learn these desired behaviours, the lack of the necessary long-horizon, multi-step datasets for real robotic systems poses a significant challenge. To this end, we present the Long-Horizon Manipulation (LHManip) dataset comprising 200 episodes, demonstrating 20 different manipulation tasks via real robot teleoperation. The tasks entail multiple sub-tasks, including grasping, pushing, stacking and throwing objects in highly cluttered environments. Each task is paired with a natural language instruction and multi-camera viewpoints for point-cloud or NeRF reconstruction. In total, the dataset comprises 176,278 observation-action pairs which form part of the Open X-Embodiment dataset. The full LHManip dataset is made publicly available at https://github.com/fedeceola/LHManip. | 翻訳日:2024-07-04 07:59:39 公開日:2024-07-01 |
# 大規模言語モデルからのイベントシーケンス知識の蒸留
Distilling Event Sequence Knowledge From Large Language Models ( http://arxiv.org/abs/2401.07237v3 ) ライセンス: Link先を確認 | Somin Wadhwa, Oktie Hassanzadeh, Debarun Bhattacharjya, Ken Barker, Jian Ni, | (参考訳) イベントシーケンスモデルは、イベントの分析と予測に非常に効果的であることが判明した。
このようなモデルを構築するには、豊富な高品質のイベントシーケンスデータが必要である。
しかし、特定のアプリケーションでは、クリーンな構造化されたイベントシーケンスは利用できず、自動シーケンス抽出はノイズが多く不完全なデータをもたらす。
本研究では,Large Language Models (LLMs) を用いて,確率的イベントモデル構築に有効なイベントシーケンスを生成する。
これは、LLMからイベントシーケンス知識を蒸留するメカニズムと見なすことができる。
本手法は、因果関係を持つ事象概念の知識グラフ(KG)を用いて、因果関係生成のための生成言語モデルを導出する。
提案手法は,入力KGの知識ギャップを埋めて,高品質なイベントシーケンスを生成することができることを示す。
さらに、パターンマイニングや確率的イベントモデルから、生成したシーケンスをどのように活用して、有用で複雑な構造化された知識を発見するかを検討する。
我々は、シーケンス生成コードと評価フレームワーク、およびイベントシーケンスデータのコーパスをリリースする。
Event sequence models have been found to be highly effective in the analysis and prediction of events. Building such models requires availability of abundant high-quality event sequence data. In certain applications, however, clean structured event sequences are not available, and automated sequence extraction results in data that is too noisy and incomplete. In this work, we explore the use of Large Language Models (LLMs) to generate event sequences that can effectively be used for probabilistic event model construction. This can be viewed as a mechanism of distilling event sequence knowledge from LLMs. Our approach relies on a Knowledge Graph (KG) of event concepts with partial causal relations to guide the generative language model for causal event sequence generation. We show that our approach can generate high-quality event sequences, filling a knowledge gap in the input KG. Furthermore, we explore how the generated sequences can be leveraged to discover useful and more complex structured knowledge from pattern mining and probabilistic event models. We release our sequence generation code and evaluation framework, as well as corpus of event sequence data. | 翻訳日:2024-07-04 07:59:39 公開日:2024-07-01 |
# H-SynEx:視床下部領域分割のための合成画像と超高分解能生体外MRI
H-SynEx: Using synthetic images and ultra-high resolution ex vivo MRI for hypothalamus subregion segmentation ( http://arxiv.org/abs/2401.17104v2 ) ライセンス: Link先を確認 | Livia Rodrigues, Martina Bocchetta, Oula Puonti, Douglas Greve, Ana Carolina Londe, Marcondes França, Simone Appenzeller, Juan Eugenio Iglesias, Leticia Rittner, | (参考訳) 視床下部は脳の中央に位置する小さな構造であり、睡眠、温度、食欲制御などの重要な機能に関与している。
様々な神経疾患も視床下部の異常と関連している。
脳MRIによるこの構造の自動画像解析は、生体内で視床下部を研究する上で非常に望ましい。
しかし、現在利用可能なほとんどの自動セグメンテーションツールは、T1wイメージのみに焦点を当てている。
本研究では,視床下部領域の自動セグメンテーションのための機械学習手法であるH-SynExを紹介する。
H-synExは、超高解像度の生体外MRIスキャンから得られたラベルマップから構築した合成画像を用いて訓練された。
Dice Coefficient (DSC) と Average Hausdorff distance (AVD) を用いて6種類のMRIデータセット(T1, T2, 陽子密度, 定量T1, 分画異方性萎縮症, FLAIR) の生体内画像を用いて, 評価を行った。
統計学的には, 視床下部野, アルツハイマー病 (AD) , 行動変化型前頭側頭型認知症 (bvFTD) の患者に対して, 受信操作曲線 (AUROC) とウィルコクソンランク和テスト (Wilcoxon rank sum test) を用いて検討した。
以上の結果から,H-SynExは超高分解能スキャンからインビボへの情報利用に成功している。
自動セグメンテーションでは,5mm間隔のFLAIR画像上で,アルツハイマー病患者に対してコントロールを識別することができた。
H-SynExはhttps://github.com/liviamarodrigues/hsynex.comで公開されている。
The hypothalamus is a small structure located in the center of the brain and is involved in significant functions such as sleeping, temperature, and appetite control. Various neurological disorders are also associated with hypothalamic abnormalities. Automated image analysis of this structure from brain MRI is thus highly desirable to study the hypothalamus in vivo. However, most automated segmentation tools currently available focus exclusively on T1w images. In this study, we introduce H-SynEx, a machine learning method for automated segmentation of hypothalamic subregions that generalizes across different MRI sequences and resolutions without retraining. H-synEx was trained with synthetic images built from label maps derived from ultra-high resolution ex vivo MRI scans, which enables finer-grained manual segmentation when compared with 1mm isometric in vivo images. We validated our method using Dice Coefficient (DSC) and Average Hausdorff distance (AVD) across in vivo images from six different datasets with six different MRI sequences (T1, T2, proton density, quantitative T1, fractional anisotrophy, and FLAIR). Statistical analysis compared hypothalamic subregion volumes in controls, Alzheimer's disease (AD), and behavioral variant frontotemporal dementia (bvFTD) subjects using the Area Under the Receiving Operating Characteristic curve (AUROC) and Wilcoxon rank sum test. Our results show that H-SynEx successfully leverages information from ultra-high resolution scans to segment in vivo from different MRI sequences. Our automated segmentation was able to discriminate controls versus Alzheimer's Disease patients on FLAIR images with 5mm spacing. H-SynEx is openly available at https://github.com/liviamarodrigues/hsynex. | 翻訳日:2024-07-04 07:49:21 公開日:2024-07-01 |
# ガウス混合モデル後駆体としての畳み込み重みの効率的な学習
Efficient Learning of Convolution Weights as Gaussian Mixture Model Posteriors ( http://arxiv.org/abs/2401.17400v2 ) ライセンス: Link先を確認 | Lifan Liang, | (参考訳) 本稿では、畳み込み層の特徴写像が、画像モデリングのための特殊なガウス混合系の非正規化ログ後部と等価であることを示す。
次に,モデルを拡張して多様な特徴を駆動し,モデルを学ぶための対応するEMアルゴリズムを提案する。
このアプローチによる畳み込み重みの学習は効率的で、収束が保証され、教師付き情報を必要としない。
コードは、https://github.com/LifanLiang/CALM.comで入手できる。
In this paper, we showed that the feature map of a convolution layer is equivalent to the unnormalized log posterior of a special kind of Gaussian mixture for image modeling. Then we expanded the model to drive diverse features and proposed a corresponding EM algorithm to learn the model. Learning convolution weights using this approach is efficient, guaranteed to converge, and does not need supervised information. Code is available at: https://github.com/LifanLiang/CALM. | 翻訳日:2024-07-04 07:49:21 公開日:2024-07-01 |
# 明示的なフローマッチング: フローマッチングアルゴリズムと応用の理論について
Explicit Flow Matching: On The Theory of Flow Matching Algorithms with Applications ( http://arxiv.org/abs/2402.03232v2 ) ライセンス: Link先を確認 | Gleb Ryzhakov, Svetlana Pavlova, Egor Sevriugov, Ivan Oseledets, | (参考訳) 本稿では,フローベース生成モデルのトレーニングと解析を行うための新しい手法であるExplicit Flow Matching (ExFM)を提案する。
ExFMは、理論的に基底的な損失関数であるExFM損失(フローマッチング(FM)損失のトラクタブルな形式)を利用して、トレーニング中のばらつきを実証的に低減し、より高速な収束とより安定した学習をもたらす。
これらの公式の理論的解析に基づいて、モデル例(特に複数の指数を分離する)のベクトル場(および確率的な場合のスコア)の正確な式と、いくつかの単純な場合において、軌跡の正確な解を導出した。
さらに,確率項を追加して拡散生成モデルの簡単な場合も検討し,楽譜表現の明示的な形式を得た。
本論文は,ExFMの理論的基盤を強調する一方で,高次元データを含む各種データセット上での数値実験により,その有効性を示す。
従来のFM法と比較して、ExFMは学習速度と最終結果の両方において優れた性能を発揮する。
This paper proposes a novel method, Explicit Flow Matching (ExFM), for training and analyzing flow-based generative models. ExFM leverages a theoretically grounded loss function, ExFM loss (a tractable form of Flow Matching (FM) loss), to demonstrably reduce variance during training, leading to faster convergence and more stable learning. Based on theoretical analysis of these formulas, we derived exact expressions for the vector field (and score in stochastic cases) for model examples (in particular, for separating multiple exponents), and in some simple cases, exact solutions for trajectories. In addition, we also investigated simple cases of diffusion generative models by adding a stochastic term and obtained an explicit form of the expression for score. While the paper emphasizes the theoretical underpinnings of ExFM, it also showcases its effectiveness through numerical experiments on various datasets, including high-dimensional ones. Compared to traditional FM methods, ExFM achieves superior performance in terms of both learning speed and final outcomes. | 翻訳日:2024-07-04 07:49:20 公開日:2024-07-01 |
# 安全なマルチモーダル学習システムに関する調査研究
A Survey on Safe Multi-Modal Learning System ( http://arxiv.org/abs/2402.05355v5 ) ライセンス: Link先を確認 | Tianyi Zhao, Liangliang Zhang, Yao Ma, Lu Cheng, | (参考訳) 人工知能の急速な発展の中で、マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力によって、注目を集めている。
医療などの重要な分野での利用が拡大し、安全保証が重要な関心事となっている。
しかし、その安全性に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。
このギャップを埋めるために,MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
この分類は、MMLSの安全性を保証するために重要な4つの基本的な柱、すなわち堅牢性、アライメント、監視、制御性に基づいて構成されている。
この分類を活用して、既存の方法論、ベンチマーク、研究の現状をレビューするとともに、知識の主な限界とギャップを指摘します。
最後に,MMLSの安全性に関するユニークな課題について論じる。
これらの課題を明らかにするために,我々は今後の研究の道を開くことを目指しており,MMLSの安全性プロトコルの大幅な進歩につながる可能性のある潜在的方向性を提案する。
In the rapidly evolving landscape of artificial intelligence, multimodal learning systems (MMLS) have gained traction for their ability to process and integrate information from diverse modality inputs. Their expanding use in vital sectors such as healthcare has made safety assurance a critical concern. However, the absence of systematic research into their safety is a significant barrier to progress in this field. To bridge the gap, we present the first taxonomy that systematically categorizes and assesses MMLS safety. This taxonomy is structured around four fundamental pillars that are critical to ensuring the safety of MMLS: robustness, alignment, monitoring, and controllability. Leveraging this taxonomy, we review existing methodologies, benchmarks, and the current state of research, while also pinpointing the principal limitations and gaps in knowledge. Finally, we discuss unique challenges in MMLS safety. In illuminating these challenges, we aim to pave the way for future research, proposing potential directions that could lead to significant advancements in the safety protocols of MMLS. | 翻訳日:2024-07-04 07:49:20 公開日:2024-07-01 |
# 最適時間ステップによる拡散サンプリングの高速化
Accelerating Diffusion Sampling with Optimized Time Steps ( http://arxiv.org/abs/2402.17376v2 ) ライセンス: Link先を確認 | Shuchen Xue, Zhaoqiang Liu, Fei Chen, Shifeng Zhang, Tianyang Hu, Enze Xie, Zhenguo Li, | (参考訳) 拡散確率モデル (DPM) は高分解能画像合成において顕著な性能を示したが、サンプリング効率は典型的には多くのサンプリングステップのために依然として望まれている。
DPM用高次数値ODEソルバの最近の進歩により、サンプリングステップがはるかに少ない高品質な画像の生成が可能になった。
これは重要な開発であるが、ほとんどのサンプリング手法は依然として一様時間ステップを採用しており、少数のステップを使用する場合に最適ではない。
この問題に対処するために, DPMの特定の数値ODEソルバに対して, より適切な時間ステップを求める最適化問題を設計するための一般的なフレームワークを提案する。
この最適化問題は,ODEと数値解法に対応する近似解との距離を最小化することを目的としている。
制約付き信頼領域法を用いて効率よく解き、秒間15ドル以下で解決できる。
CIFAR-10 や ImageNet などのデータセットの FID スコアの点から,UniPC と組み合わせることで画像生成性能が向上することを示す。
Diffusion probabilistic models (DPMs) have shown remarkable performance in high-resolution image synthesis, but their sampling efficiency is still to be desired due to the typically large number of sampling steps. Recent advancements in high-order numerical ODE solvers for DPMs have enabled the generation of high-quality images with much fewer sampling steps. While this is a significant development, most sampling methods still employ uniform time steps, which is not optimal when using a small number of steps. To address this issue, we propose a general framework for designing an optimization problem that seeks more appropriate time steps for a specific numerical ODE solver for DPMs. This optimization problem aims to minimize the distance between the ground-truth solution to the ODE and an approximate solution corresponding to the numerical solver. It can be efficiently solved using the constrained trust region method, taking less than $15$ seconds. Our extensive experiments on both unconditional and conditional sampling using pixel- and latent-space DPMs demonstrate that, when combined with the state-of-the-art sampling method UniPC, our optimized time steps significantly improve image generation performance in terms of FID scores for datasets such as CIFAR-10 and ImageNet, compared to using uniform time steps. | 翻訳日:2024-07-04 07:39:17 公開日:2024-07-01 |
# ユーザ中心共有E-mobilityサービスのためのオープンソースエミュレーションプラットフォームの最適設計と実装
Optimal Design and Implementation of an Open-source Emulation Platform for User-Centric Shared E-mobility Services ( http://arxiv.org/abs/2403.07964v2 ) ライセンス: Link先を確認 | Maqsood Hussain Shah, Yue Ding, Shaoshu Zhu, Yingqi Gu, Mingming Liu, | (参考訳) 世界規模での交通機関の排出や汚染に対する懸念が高まる中、Eカー、Eバイク、Eスクーターなどの電動モビリティサービスが、これらの圧力を和らげるための有望な解決策として浮上してきた。
しかし、既存の共有E-mobilityサービスは、サービス統合の不足、不正確なエネルギー消費予測、拡張性や地理的範囲の制限、特にマルチモーダル輸送の文脈において、ユーザ中心の視点の欠如など、重要な設計上の欠陥を示す。
さらに重要なのは、E-mobility研究コミュニティに利益をもたらすような、統合されたオープンソースプラットフォームが存在しないことです。
本稿では,共有E-mobilityのためのオープンソースプラットフォームを提供することで,このギャップを埋めることを目的とする。
提案するプラットフォームは、エージェント・イン・ザ・ループのアプローチとモジュラーアーキテクチャを持ち、多様なユーザの好みに合わせてカスタマイズされ、拡張されたカスタマイズを提供する。
我々は,多モデルエネルギー制約ACO (MMEC-ACO) とQラーニングアルゴリズム (Q-Learning) と呼ばれる改良型Ant Colony Optimizationアルゴリズムを用いて,エネルギー可用性,ユーザ嗜好,E-mobilityツール配置の様々なシナリオにおいて,統合されたマルチモーダル経路最適化のための総合的な解析を行うことにより,このプラットフォームの実現可能性を示す。
以上の結果から,Q-ラーニングは,エネルギー利用率,ユーザ嗜好,E-mobilityツールの分布など,さまざまなシナリオにおいてMMEC-ACOと比較して,90%以上のインスタンスに対して,旅行時間コストにおいて有意に優れた性能を示した。
固定(O,D)ペアの場合、MMEC-ACOの最適時間コスト解を達成する平均実行時間は2秒未満であり、Qラーニングは平均20秒で最適時間コストに達する。
実行時間2秒間、Q-learning は MMEC-ACO の時間コストを 20 % 削減して、よりよい最適時間コストを達成する。
With the rising concern over transportation emissions and pollution on a global scale, shared electric mobility services like E-cars, E-bikes, and E-scooters have emerged as promising solutions to mitigate these pressing challenges. However, existing shared E-mobility services exhibit critical design deficiencies, including insufficient service integration, imprecise energy consumption forecasting, limited scalability and geographical coverage, and a notable absence of a user-centric perspective, particularly in the context of multi-modal transportation. More importantly, there is no consolidated open-source platform which could benefit the E-mobility research community. This paper aims to bridge this gap by providing an open-source platform for shared E-mobility. The proposed platform, with an agent-in-the-loop approach and modular architecture, is tailored to diverse user preferences and offers enhanced customization. We demonstrate the viability of this platform by providing a comprehensive analysis for integrated multi-modal route-optimization in diverse scenarios of energy availability, user preferences and E-mobility tools placement for which we use modified Ant Colony Optimization algorithm so called Multi-Model Energy Constrained ACO (MMEC-ACO) and Q-Learning algorithms. Our findings demonstrate that Q-learning achieves significantly better performance in terms of travel time cost for more than 90\% of the instances as compared to MMEC-ACO for different scenarios including energy availability, user preference and E-mobility tools distribution. For a fixed (O, D) pair, the average execution time to achieve optimal time cost solution for MMEC-ACO is less than 2 seconds, while Q-learning reaches an optimal time cost in 20 seconds on average. For a run-time of 2 seconds, Q-learning still achieves a better optimal time cost with a 20\% reduction over MMEC-ACO's time cost. | 翻訳日:2024-07-04 07:29:19 公開日:2024-07-01 |
# 不足データからの科学機械学習のための多要素線形回帰法
Multifidelity linear regression for scientific machine learning from scarce data ( http://arxiv.org/abs/2403.08627v2 ) ライセンス: Link先を確認 | Elizabeth Qian, Dayoung Kang, Vignesh Sella, Anirban Chaudhuri, | (参考訳) 機械学習(ML)メソッドは、パラメータ化されたモデルクラスのパラメータのデータに適合するが、従来のシミュレーションが高価である複雑なエンジニアリングシステムのサロゲートモデルを学習するための潜在的な方法として、大きな関心を集めている。
しかし、多くの科学的・工学的な設定では、MLモデルをトレーニングするための高忠実度データを生成するのが高価であり、トレーニングデータを生成するための予算が限られているため、高忠実度トレーニングデータが不足している。
不足データに基づいてトレーニングされたMLモデルは、高いばらつきを持ち、予測される一般化性能が低下する。
例えば、高忠実度データは高価な完全に解決された物理シミュレーションによって生成されるが、低忠実度データは仮定の単純化に基づくより安価なモデルから生じる可能性がある。
我々は、線形回帰モデルに対する新しい多重忠実モンテカルロ推定器を定義するために、近似制御変数フレームワーク内の多重忠実度データを使用する。
提案手法の精度を保証し,高忠実度データ不足に対するロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
数値計算により,本手法は,高忠実度データ要求を減らした標準高忠実度のみの手法と類似した精度を達成できることが示されている。
Machine learning (ML) methods, which fit to data the parameters of a given parameterized model class, have garnered significant interest as potential methods for learning surrogate models for complex engineering systems for which traditional simulation is expensive. However, in many scientific and engineering settings, generating high-fidelity data on which to train ML models is expensive, and the available budget for generating training data is limited, so that high-fidelity training data are scarce. ML models trained on scarce data have high variance, resulting in poor expected generalization performance. We propose a new multifidelity training approach for scientific machine learning via linear regression that exploits the scientific context where data of varying fidelities and costs are available: for example, high-fidelity data may be generated by an expensive fully resolved physics simulation whereas lower-fidelity data may arise from a cheaper model based on simplifying assumptions. We use the multifidelity data within an approximate control variate framework to define new multifidelity Monte Carlo estimators for linear regression models. We provide bias and variance analysis of our new estimators that guarantee the approach's accuracy and improved robustness to scarce high-fidelity data. Numerical results demonstrate that our multifidelity training approach achieves similar accuracy to the standard high-fidelity only approach with orders-of-magnitude reduced high-fidelity data requirements. | 翻訳日:2024-07-04 07:29:19 公開日:2024-07-01 |
# 画像ベースATNバイオマーカーを用いたマルチモーダル規範モデリングによるアルツハイマー病の均一性の解析
Analyzing heterogeneity in Alzheimer Disease using multimodal normative modeling on imaging-based ATN biomarkers ( http://arxiv.org/abs/2404.05748v2 ) ライセンス: Link先を確認 | Sayantan Kumar, Tom Earnest, Braden Yang, Deydeep Kothapalli, Andrew J. Aschenbrenner, Jason Hassenstab, Chengie Xiong, Beau Ances, John Morris, Tammie L. S. Benzinger, Brian A. Gordon, Philip Payne, Aristeidis Sotiras, | (参考訳) 先行研究は、アルツハイマー病(AD)の不均一性を調べるために、単一神経画像モダリティの規範的モデリングを適用した。
我々は、深層学習に基づくマルチモーダル規範フレームワークを用いて、ATN(アミロイド-タウ-ニューロデジェネレーション)イメージングバイオマーカーの個人レベルの変動を分析した。
方法: T1強調MRI, アミロイド, タウPETを用いて, クロスセクション発見 (n = 665) と複製コホート (n = 430) を選択した。
アミロイド陽性者における個体レベルの異常偏差をアミロイド陰性群と比較して推定した。
組織内不均一性を評価するため,異なる臨床群レベルで局所異常パターンをマッピングした。
ATN全体にわたる異常偏差の空間的範囲と大きさを用いて,DSI(個人レベル病重症度指数)を算出した。
結果:ADのより重篤な臨床段階において,ATN異常パターンにおけるグループ内不均一性がより大きいことが示唆された。
より高DSIは認知機能低下と疾患進行リスクの増大と関連していた。
解離:ATNにまたがる対象特異的異常マップは、ADの脳への不均一な影響を明らかにする。
INTRODUCTION: Previous studies have applied normative modeling on a single neuroimaging modality to investigate Alzheimer Disease (AD) heterogeneity. We employed a deep learning-based multimodal normative framework to analyze individual-level variation across ATN (amyloid-tau-neurodegeneration) imaging biomarkers. METHODS: We selected cross-sectional discovery (n = 665) and replication cohorts (n = 430) with available T1-weighted MRI, amyloid and tau PET. Normative modeling estimated individual-level abnormal deviations in amyloid-positive individuals compared to amyloid-negative controls. Regional abnormality patterns were mapped at different clinical group levels to assess intra-group heterogeneity. An individual-level disease severity index (DSI) was calculated using both the spatial extent and magnitude of abnormal deviations across ATN. RESULTS: Greater intra-group heterogeneity in ATN abnormality patterns was observed in more severe clinical stages of AD. Higher DSI was associated with worse cognitive function and increased risk of disease progression. DISCUSSION: Subject-specific abnormality maps across ATN reveal the heterogeneous impact of AD on the brain. | 翻訳日:2024-07-04 07:19:16 公開日:2024-07-01 |
# スワップASAPリピータチェーンのノイズ--正確な解析、分布、厳密な近似について
On noise in swap ASAP repeater chains: exact analytics, distributions and tight approximations ( http://arxiv.org/abs/2404.07146v3 ) ライセンス: Link先を確認 | Kenneth Goodenough, Tim Coopmans, Don Towsley, | (参考訳) 損失は量子ネットワークにおける絡み合いの分布の主要なボトルネックの1つであり、量子リピータの実装によって克服できる。
量子リピータ鎖の最も基本的な形は、交換ASAPリピータ鎖である。
このようなリレーダチェーンでは、2つの隣接リンクが生成されると、基本リンクが確率的に生成され、決定的にスワップされる。
各絡み合った状態が交換されるのを待っているとき、デコヒーレンスを経験し、チェーンの終端ノード間の絡み合った状態の忠実さをランダム変数に変換する。
リピータ連鎖が成長するにつれて(平均的な)忠実さを完全に特徴づけることは、まだ未解決の問題である。
ここでは、等間隔リピータの場合を解析的に調べ、最大25セグメントまでの忠実度の全モーメントについて正確な解析式を求める。
これらの式は生成関数の項で一般解を与えることにより得られる; マクロリン級数の n 項が n 個のセグメントの忠実さのモーメントを生じる関数。
本手法は,モンテカルロシミュレーションの必要性を排除し,カットオフパラメータの高速な最適化を可能にする。
さらに、指数的に厳密な平均忠実度を簡易に近似し、最大10個のセグメントに対して、提供された忠実度の完全な分布を求める。
本研究では,分散エンタングルメントを量子鍵分布に用いた場合の秘密鍵レートを,結合法と非結合法の両方で解析的に算出する。
続く研究では、統計物理学におけるモデルとの接続を利用して、不均一な多重粒子の場合の関心量の数値計算を行う。
Losses are one of the main bottlenecks for the distribution of entanglement in quantum networks, which can be overcome by the implementation of quantum repeaters. The most basic form of a quantum repeater chain is the swap ASAP repeater chain. In such a repeater chain, elementary links are probabilistically generated and deterministically swapped as soon as two adjacent links have been generated. As each entangled state is waiting to be swapped, decoherence is experienced, turning the fidelity of the entangled state between the end nodes of the chain into a random variable. Fully characterizing the (average) fidelity as the repeater chain grows is still an open problem. Here, we analytically investigate the case of equally-spaced repeaters, where we find exact analytic formulae for all moments of the fidelity up to 25 segments. We obtain these formulae by providing a general solution in terms of a generating function; a function whose n'th term in its Maclaurin series yields the moments of the fidelity for n segments. We generalize this approaches as well to a global cut-off policy -- a method for increasing fidelity at the cost of longer entanglement delivery times -- allowing for fast optimization of the cut-off parameter by eliminating the need for Monte Carlo simulation. We furthermore find simple approximations of the average fidelity that are exponentially tight, and, for up to 10 segments, the full distribution of the delivered fidelity. We use this to analytically calculate the secret-key rate when the distributed entanglement is used for quantum-key distribution, both with and without binning methods. In follow-up work we exploit a connection to a model in statistical physics to numerically calculate quantities of interest for the inhomogeneous multipartite case. | 翻訳日:2024-07-04 07:19:16 公開日:2024-07-01 |
# 指揮統制のための強化学習エージェントの敵攻撃
Adversarial Attacks on Reinforcement Learning Agents for Command and Control ( http://arxiv.org/abs/2405.01693v2 ) ライセンス: Link先を確認 | Ahaan Dabholkar, James Z. Hare, Mark Mittrick, John Richardson, Nicholas Waytowich, Priya Narayanan, Saurabh Bagchi, | (参考訳) StarCraftやDoTA(Defense of The Ancients)のような複雑なゲームに勝つためのトレーニングエージェントに対するDeep Reinforcement Learningの影響を考えると、プロのウォーゲーム、戦場シミュレーション、モデリングのための学習ベースのテクニックを活用する研究が急増している。
リアルタイム戦略ゲームやシミュレータは、作戦計画や軍事研究の貴重な資源となっている。
しかし、近年の研究では、このような学習に基づくアプローチは、敵の摂動に非常に敏感であることが示されている。
本稿では,能動敵に制御される環境において,指揮制御タスクのために訓練されたエージェントの堅牢性について検討する。
C2エージェントは、最先端のRLアルゴリズムであるA3CとPPOを使用して、カスタムのStarCraft IIマップでトレーニングされる。
実験により,これらのアルゴリズムを用いて訓練されたエージェントは,敵が注入したノイズに強い感受性を示し,これらの摂動が訓練されたエージェントの性能に与える影響を検証した。
私たちの研究は、特に戦場のような重要な分野において、より堅牢なトレーニングアルゴリズムを開発する緊急の必要性を強調しています。
Given the recent impact of Deep Reinforcement Learning in training agents to win complex games like StarCraft and DoTA(Defense Of The Ancients) - there has been a surge in research for exploiting learning based techniques for professional wargaming, battlefield simulation and modeling. Real time strategy games and simulators have become a valuable resource for operational planning and military research. However, recent work has shown that such learning based approaches are highly susceptible to adversarial perturbations. In this paper, we investigate the robustness of an agent trained for a Command and Control task in an environment that is controlled by an active adversary. The C2 agent is trained on custom StarCraft II maps using the state of the art RL algorithms - A3C and PPO. We empirically show that an agent trained using these algorithms is highly susceptible to noise injected by the adversary and investigate the effects these perturbations have on the performance of the trained agent. Our work highlights the urgent need to develop more robust training algorithms especially for critical arenas like the battlefield. | 翻訳日:2024-07-04 07:09:19 公開日:2024-07-01 |
# 言語モデルにおける編集知識の検出
Detecting Edited Knowledge in Language Models ( http://arxiv.org/abs/2405.02765v2 ) ライセンス: Link先を確認 | Paul Youssef, Zhixue Zhao, Jörg Schlötterer, Christin Seifert, | (参考訳) 知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
しかし、KEsは悪意のあるアプリケーション、例えば誤情報や有害な内容の挿入に使用することができる。
生成されたアウトプットが、編集された知識に基づいているか、事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高め、透明性を高めることができる。
そこで本稿では,言語モデルにおける編集知識の検出という,新たな課題を提案する。
編集されたモデルと、編集されたモデルからのプロンプトによって取得された事実が与えられた場合、その目的は、知識を未編集(事前学習に基づく)または編集(その後の編集に基づく)のいずれかに分類することである。
タスクを4つのKE、2つのLLM、2つのデータセットでインスタンス化する。
さらに,隠れ状態表現と確率分布を検出のための特徴として用いることを提案する。
以上の結果から,これらの機能を単純なAdaBoost分類器の入力として使用すると,強力なベースラインが確立されることがわかった。
この分類器は限られた量のデータしか必要とせず、クロスドメイン設定でも性能を維持する。
最後に、編集された知識と未編集だが関連する知識を区別することがより困難であることが、さらなる研究の必要性を浮き彫りにしている。
我々の研究は、LLMの強力な生成能力に関わる重要な課題である悪意あるモデル編集に対処するための基礎となる。
Knowledge editing methods (KEs) can update language models' obsolete or inaccurate knowledge learned from pre-training. However, KEs can be used for malicious applications, e.g., inserting misinformation and toxic content. Knowing whether a generated output is based on edited knowledge or first-hand knowledge from pre-training can increase users' trust in generative models and provide more transparency. Driven by this, we propose a novel task: detecting edited knowledge in language models. Given an edited model and a fact retrieved by a prompt from an edited model, the objective is to classify the knowledge as either unedited (based on the pre-training), or edited (based on subsequent editing). We instantiate the task with four KEs, two LLMs, and two datasets. Additionally, we propose using the hidden state representations and the probability distributions as features for the detection. Our results reveal that, using these features as inputs to a simple AdaBoost classifiers establishes a strong baseline. This classifier requires only a limited amount of data and maintains its performance even in cross-domain settings. Last, we find it more challenging to distinguish edited knowledge from unedited but related knowledge, highlighting the need for further research. Our work lays the groundwork for addressing malicious model editing, which is a critical challenge associated with the strong generative capabilities of LLMs. | 翻訳日:2024-07-04 07:09:19 公開日:2024-07-01 |
# パラフレージングによるアクション制御
Action Controlled Paraphrasing ( http://arxiv.org/abs/2405.11277v2 ) ライセンス: Link先を確認 | Ning Shi, Zijun Wu, | (参考訳) 近年の研究では、様々な下流タスクに広く応用されている構文など、パラフレーズ生成を制御できることが実証されている。
しかしながら、これらの手法は、言語使用における人間の様相の言い回しに対抗して、詳細な構文解析木や構文解析例を必要とすることが多い。
さらに、制御仕様はトレーニング中のみ利用できるが、推論中は利用できないため、推論ギャップが存在する。
本研究では,制御されたパラフレーズ生成のための新しいセットアップを提案する。
具体的には、ユーザ意図をアクショントークンとして表現し、それらを埋め込み、テキスト埋め込みと結合し、表現融合のための自己注意エンコーダにまとめる。
提案手法では,ユーザの意図したアクションが提供されない場合に,モデルが適切なアクションを独立して決定することを奨励するプレースホルダーとして,任意のアクショントークンを導入する。
実験結果から,提案手法は,動作が与えられない場合の従来の制御不能な手法と比較して,正確な動作制御のパラフレージングを実現し,性能を保たせるか,さらに向上させることが可能であることが示唆された。
本研究は,よりユーザ中心の設計に向けて,アクション制御パラフレージングの概念を推進している。
Recent studies have demonstrated the potential to control paraphrase generation, such as through syntax, which has broad applications in various downstream tasks. However, these methods often require detailed parse trees or syntactic exemplars, countering human-like paraphrasing behavior in language use. Furthermore, an inference gap exists, as control specifications are only available during training but not during inference. In this work, we propose a new setup for controlled paraphrase generation. Specifically, we represent user intent as action tokens, embedding and concatenating them with text embeddings, thus flowing together into a self-attention encoder for representation fusion. To address the inference gap, we introduce an optional action token as a placeholder that encourages the model to determine the appropriate action independently when users' intended actions are not provided. Experimental results show that our method successfully enables precise action-controlled paraphrasing and preserves or even enhances performance compared to conventional uncontrolled methods when actions are not given. Our findings promote the concept of action-controlled paraphrasing for a more user-centered design. | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# Pytorch-Wildlife: 保全のための協調的なディープラーニングフレームワーク
Pytorch-Wildlife: A Collaborative Deep Learning Framework for Conservation ( http://arxiv.org/abs/2405.12930v3 ) ライセンス: Link先を確認 | Andres Hernandez, Zhongqi Miao, Luisa Vargas, Rahul Dodhia, Pablo Arbelaez, Juan M. Lavista Ferres, | (参考訳) 様々な要因によって引き起こされた世界の生物多様性の急激な減少は、大規模な野生生物モニタリングの緊急の必要性を浮き彫りにしている。
これに対し、科学者は野生生物のモニタリングにおいて、データ処理のための自動化されたディープラーニング手法に目を向けた。
しかし、これらの高度な手法を現実のシナリオに適用することは、その複雑さと専門知識の必要性により、主に技術的な課題と学際的障壁のために困難である。
これらの課題に対処するために、PyTorch上に構築されたオープンソースのディープラーニングプラットフォームであるPytorch-Wildlifeを紹介します。
強力なAIモデルの作成、修正、共有のために設計されている。
このプラットフォームはユーザビリティとアクセシビリティを重視しており、技術的背景が限られている個人でもアクセス可能である。
また、機能拡張とさらなる開発を簡単にするためのモジュール化されたコードベースも提供する。
Pytorch-Wildlifeは直感的でユーザフレンドリなインターフェースを提供し、画像やビデオの動物検出と分類のために、ローカルインストールまたはHugging Faceを通じてアクセスすることができる。
現実世界の2つの応用として、Pytorch-Wildlifeは、アマゾン熱帯雨林での動物分類モデルの訓練や、ガラパゴス諸島での侵入性オポッサムの認識に利用されている。
Opossumモデルは98%の精度で、Amazonモデルはデータの90%で36匹の動物に対して92%の精度で認識する。
Pytorch-Wildlifeが進化するにつれて、環境問題に対処しながら、より多くの保全タスクを統合することを目指しています。
Pytorch-Wildlifeはhttps://github.com/microsoft/CameraTraps.comで公開されている。
The alarming decline in global biodiversity, driven by various factors, underscores the urgent need for large-scale wildlife monitoring. In response, scientists have turned to automated deep learning methods for data processing in wildlife monitoring. However, applying these advanced methods in real-world scenarios is challenging due to their complexity and the need for specialized knowledge, primarily because of technical challenges and interdisciplinary barriers. To address these challenges, we introduce Pytorch-Wildlife, an open-source deep learning platform built on PyTorch. It is designed for creating, modifying, and sharing powerful AI models. This platform emphasizes usability and accessibility, making it accessible to individuals with limited or no technical background. It also offers a modular codebase to simplify feature expansion and further development. Pytorch-Wildlife offers an intuitive, user-friendly interface, accessible through local installation or Hugging Face, for animal detection and classification in images and videos. As two real-world applications, Pytorch-Wildlife has been utilized to train animal classification models for species recognition in the Amazon Rainforest and for invasive opossum recognition in the Galapagos Islands. The Opossum model achieves 98% accuracy, and the Amazon model has 92% recognition accuracy for 36 animals in 90% of the data. As Pytorch-Wildlife evolves, we aim to integrate more conservation tasks, addressing various environmental challenges. Pytorch-Wildlife is available at https://github.com/microsoft/CameraTraps. | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# トップダウンクロス製品からの量子参照フレーム
Quantum Reference Frames from Top-Down Crossed Products ( http://arxiv.org/abs/2405.13884v2 ) ライセンス: Link先を確認 | Shadi Ali Ahmad, Wissam Chemissany, Marc S. Klinger, Robert G. Leigh, | (参考訳) すべての物理観測は、それ自体がシステムである参照フレームに対して行われる。
興味の系が群対称性を許容するならば、それを観察する参照フレームは、結合された系の共分散を保証するために、群の下で共分散的に変換されなければならない。
交差積は、ボトムアップから量子参照フレームを実現する方法であり、量子参照フレームに随伴し、制約を課すことで、交差積代数を生成する。
交差積代数のトップダウン仕様を提供し、このアプローチを用いて同値な量子参照フレームを得ることができないことを示す。
補題として、系と対称性群に付随する抽象代数学と、量子参照フレームの異なる選択に関連付けられた相互交叉積代数からなる対称性群を定義する。
我々は、この対象をG-フレーム代数と呼び、この対象の中でいかに非等価なフレームが実現されるかを示す。
ゲージ理論におけるこの代数の古典的グリボフ問題の類似性、半古典的デ・シッター(英語版)と潜在的に半古典的極限(英語版)を超越する可能性を示す重力における重要性、および可観測性、密度状態、エントロピーのような物理概念のフレーム依存性を理解するための有用性について論じる。
All physical observations are made relative to a reference frame, which is a system in its own right. If the system of interest admits a group symmetry, the reference frame observing it must transform commensurately under the group to ensure the covariance of the combined system. We point out that the crossed product is a way to realize quantum reference frames from the bottom-up; adjoining a quantum reference frame and imposing constraints generates a crossed product algebra. We provide a top-down specification of crossed product algebras and show that one cannot obtain inequivalent quantum reference frames using this approach. As a remedy, we define an abstract algebra associated to the system and symmetry group built out of relational crossed product algebras associated with different choices of quantum reference frames. We term this object the G-framed algebra, and show how potentially inequivalent frames are realized within this object. We comment on this algebra's analog of the classical Gribov problem in gauge theory, its importance in gravity where we show that it is relevant for semiclassical de Sitter and potentially beyond the semiclassical limit, and its utility for understanding the frame-dependence of physical notions like observables, density states, and entropies. | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# デュアルプロセス学習:重み付けによるインコンテキスト対インウェイト戦略の利用制御
Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting ( http://arxiv.org/abs/2406.00053v2 ) ライセンス: Link先を確認 | Suraj Anand, Michael A. Lepori, Jack Merullo, Ellie Pavlick, | (参考訳) 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
これは、データの反復的な観察から、情報がモデルパラメータに静的に符号化される、重み付き学習とは対照的である。
このようなコンテキスト内で学習する能力にもかかわらず、言語モデルは目に見えないか、まれに現れるトークンに直面したときに苦労することが知られている。
したがって、$\textbf{structureural in-context learning}$を、任意のトークン上でコンテキスト内学習を実行するモデルの能力として定義する。
理想的なモデルは、柔軟に in-weights 操作をデプロイ(エンコードされたセマンティック情報を使ってあいまいさや未知のコンテキストを堅牢に適合させるために)し、構造的 in-context 操作(新しいトークンに対応するために)を行うことができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
最後に、$\textbf{temporary forgetting}$を紹介します。これは、モデルがインウェイトとインコンテキストソリューションにどれだけ依存するかを制御できる、アクティブな忘れの直接的な拡張です。
重要なことは、一時的忘れることによって、$\textit{dual process strategy}$を誘導することができます。
Language models have the ability to perform in-context learning (ICL), allowing them to flexibly adapt their behavior based on context. This contrasts with in-weights learning, where information is statically encoded in model parameters from iterated observations of the data. Despite this apparent ability to learn in-context, language models are known to struggle when faced with unseen or rarely seen tokens. Hence, we study $\textbf{structural in-context learning}$, which we define as the ability of a model to execute in-context learning on arbitrary tokens -- so called because the model must generalize on the basis of e.g. sentence structure or task structure, rather than semantic content encoded in token embeddings. An ideal model would be able to do both: flexibly deploy in-weights operations (in order to robustly accommodate ambiguous or unknown contexts using encoded semantic information) and structural in-context operations (in order to accommodate novel tokens). We study structural in-context algorithms in a simple part-of-speech setting using both practical and toy models. We find that active forgetting, a technique that was recently introduced to help models generalize to new languages, forces models to adopt structural in-context learning solutions. Finally, we introduce $\textbf{temporary forgetting}$, a straightforward extension of active forgetting that enables one to control how much a model relies on in-weights vs. in-context solutions. Importantly, temporary forgetting allows us to induce a $\textit{dual process strategy}$ where in-context and in-weights solutions coexist within a single model. | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# スーパーガウシアン:3Dスーパーレゾリューションのためにビデオモデルを再購入
SuperGaussian: Repurposing Video Models for 3D Super Resolution ( http://arxiv.org/abs/2406.00609v3 ) ライセンス: Link先を確認 | Yuan Shen, Duygu Ceylan, Paul Guerrero, Zexiang Xu, Niloy J. Mitra, Shenlong Wang, Anna Frühstück, | (参考訳) 本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
生成的な3Dモデルは現在存在するが、画像やビデオの領域におけるそれらのモデルの品質とはまだ一致していない。
既存の(事前訓練済み)ビデオモデルを3次元超解像に直接再利用することは可能であり、高品質な3次元トレーニングモデルの大規模なリポジトリ不足の問題を副次的に解決できることを実証する。
本稿では,3次元整合性のない映像アップサンプリングモデルを再利用し,それらを3次元整合化と組み合わせて3次元整合性のある結果を生成する方法について述べる。
出力として、オブジェクト中心で有効である高品質なガウススプラモデルを生成する。
本手法はカテゴリ非依存であり,既存の3Dワークフローに容易に組み込むことができる。
提案したSuperGaussianを,複雑性と表現の両面で多種多様な3次元インプット(例えばガウススプレートやNeRF)で評価し,本手法が最終3次元モデルの忠実度を著しく向上させることを示す。
詳細はプロジェクトのWebサイトをご覧ください。
We present a simple, modular, and generic method that upsamples coarse 3D models by adding geometric and appearance details. While generative 3D models now exist, they do not yet match the quality of their counterparts in image and video domains. We demonstrate that it is possible to directly repurpose existing (pretrained) video models for 3D super-resolution and thus sidestep the problem of the shortage of large repositories of high-quality 3D training models. We describe how to repurpose video upsampling models, which are not 3D consistent, and combine them with 3D consolidation to produce 3D-consistent results. As output, we produce high quality Gaussian Splat models, which are object centric and effective. Our method is category agnostic and can be easily incorporated into existing 3D workflows. We evaluate our proposed SuperGaussian on a variety of 3D inputs, which are diverse both in terms of complexity and representation (e.g., Gaussian Splats or NeRFs), and demonstrate that our simple method significantly improves the fidelity of the final 3D models. Check our project website for details: supergaussian.github.io | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# 多体量子系の相関崩壊に対する普遍的スケーリング則
Universal scaling laws for correlated decay of many-body quantum systems ( http://arxiv.org/abs/2406.00722v2 ) ライセンス: Link先を確認 | Wai-Keong Mok, Avishi Poddar, Eric Sierra, Cosimo C. Rusconi, John Preskill, Ana Asenjo-Garcia, | (参考訳) 量子システムはオープンであり、周囲の環境とエネルギーと情報を継続的に交換している。
この相互作用は、量子状態のデコヒーレンスと崩壊を引き起こす。
多くの粒子によって形成される複雑な系では、崩壊は相関し、強化される。
量子系の最大崩壊速度と、その大きさでどのようにスケールするか?
本研究では,これらの問題に対して,一般スピンハミルトニアンの基底状態エネルギーを求める問題を再構成して解決する。
ハミルトンの複雑性理論における最近の研究に触発され、最大崩壊速度の厳密で一般的な上と下の境界を定めている。
これらの境界は、マルコフ多体量子系の幅広いクラスを保ちながら普遍的である。
多くの物理的関連系では、境界は漸近的に厳密であり、結果としてシステムサイズによる正確なスケーリング法則が導かれる。
具体的には、自由空間における大きな原子配列の場合、これらのスケーリングは配列の次元性にのみ依存し、短い長さスケールで詳細に敏感である。
スケーリング法則は、量子状態の崩壊速度の基本的な限界を確立し、多体量子力学、メートル法、フォールトトレラント量子計算の研究に貴重な洞察を与える。
Quantum systems are open, continually exchanging energy and information with the surrounding environment. This interaction leads to decoherence and decay of quantum states. In complex systems, formed by many particles, decay can become correlated and enhanced. A fundamental question then arises: what is the maximal decay rate of a large quantum system, and how does it scale with its size? In this work, we address these issues by reformulating the problem into finding the ground state energy of a generic spin Hamiltonian. Inspired by recent work in Hamiltonian complexity theory, we establish rigorous and general upper and lower bounds on the maximal decay rate. These bounds are universal, as they hold for a broad class of Markovian many-body quantum systems. For many physically-relevant systems, the bounds are asymptotically tight, resulting in exact scaling laws with system size. Specifically, for large atomic arrays in free space, these scalings depend only on the arrays' dimensionality and are insensitive to details at short length-scales. The scaling laws establish fundamental limits on the decay rates of quantum states and offer valuable insights for research in many-body quantum dynamics, metrology, and fault tolerant quantum computation. | 翻訳日:2024-07-04 06:59:27 公開日:2024-07-01 |
# QuST: QuPath Extension for Integrative Whole Slide Image and Space Transcriptomics Analysis
QuST: QuPath Extension for Integrative Whole Slide Image and Spatial Transcriptomics Analysis ( http://arxiv.org/abs/2406.01613v2 ) ライセンス: Link先を確認 | Chao-Hui Huang, | (参考訳) 近年,病的全スライド画像 (WSI) 解析と空間転写学 (ST) 解析の両分野において,人工知能 (AI) による手法を含む様々な技術がデジタル病理学に導入されている。
AIによるWSI分析は、深層学習(DL)の力を利用して、病理画像解析のための視野を広げる。
一方、STは組織空間分析と生体信号のギャップを埋め、空間生物学を理解することができる。
しかし、DLベースのWSI分析における大きなボトルネックは、ヘマトキシリン&エオシン(H&E)染色は、生物学的成分の分類を決定するために、遺伝子発現のような直接的な生物学的証拠を提供しないため、トレーニングパターンの作成である。
一方、現在、STの分解能はWSIの分解能をはるかに超えており、さらなる空間分析の課題となっている。
QuPathを含む様々なWSI分析ツールは、ST分析の文脈におけるWSI分析ツールの使用を引用しているが、その使用は主に初期画像分析に焦点を当てており、その他のツールはより詳細な転写解析に利用されている。
その結果、WSIの下に隠された情報は、ST分析をサポートするためにまだ十分に利用されていない。
このギャップを埋めるために、我々は、H&E WSIとST分析タスクのギャップを埋めるために設計されたQuPath拡張QuSTを紹介します。
本稿では,病の理解におけるDLベースのWSI分析とST分析の統合の重要性と,データ形式や解析手法の違いによるこれらのモダリティの統合の課題について述べる。
QuSTソースコードはGitHubにホストされており、ドキュメントはhttps://github.com/huangch/qust.orgで公開されている。
Recently, various technologies have been introduced into digital pathology, including artificial intelligence (AI) driven methods, in both areas of pathological whole slide image (WSI) analysis and spatial transcriptomics (ST) analysis. AI-driven WSI analysis utilizes the power of deep learning (DL), expands the field of view for histopathological image analysis. On the other hand, ST bridges the gap between tissue spatial analysis and biological signals, offering the possibility to understand the spatial biology. However, a major bottleneck in DL-based WSI analysis is the preparation of training patterns, as hematoxylin & eosin (H&E) staining does not provide direct biological evidence, such as gene expression, for determining the category of a biological component. On the other hand, as of now, the resolution in ST is far beyond that of WSI, resulting the challenge of further spatial analysis. Although various WSI analysis tools, including QuPath, have cited the use of WSI analysis tools in the context of ST analysis, its usage is primarily focused on initial image analysis, with other tools being utilized for more detailed transcriptomic analysis. As a result, the information hidden beneath WSI has not yet been fully utilized to support ST analysis. To bridge this gap, we introduce QuST, a QuPath extension designed to bridge the gap between H&E WSI and ST analyzing tasks. In this paper, we highlight the importance of integrating DL-based WSI analysis and ST analysis in understanding disease biology and the challenges in integrating these modalities due to differences in data formats and analytical methods. The QuST source code is hosted on GitHub and documentation is available at (https://github.com/huangch/qust). | 翻訳日:2024-07-04 06:49:41 公開日:2024-07-01 |
# QuST-LLM:包括的空間転写解析のための大規模言語モデルの統合
QuST-LLM: Integrating Large Language Models for Comprehensive Spatial Transcriptomics Analysis ( http://arxiv.org/abs/2406.14307v2 ) ライセンス: Link先を確認 | Chao Hui Huang, | (参考訳) 本稿では,大規模言語モデル(LLM)を用いて空間転写学(ST)データを解析・解釈するQuST-LLMを提案する。
データローディング、領域選択、遺伝子発現解析、機能アノテーションを含む包括的なワークフローを提供することにより、STデータの複雑で高次元的な性質を簡素化することに加えて、QuST-LLMは、複雑なSTデータを遺伝子オントロジーアノテーションに基づいて理解しやすく詳細な生物学的物語に変換するため、STデータの解釈性を大幅に向上させる。
これにより、ユーザは自然言語を使って自身のSTデータと対話できる。
したがって、QuST-LLMは、組織の空間的および機能的複雑さを解明する強力な機能を提供し、新しい洞察と生物医学研究の進歩を育む。
QuST-LLMはQuSTプロジェクトの一部である。
ソースコードはGitHubにホストされており、ドキュメントはhttps://github.com/huangch/qust.comで公開されている。
In this paper, we introduce QuST-LLM, an innovative extension of QuPath that utilizes the capabilities of large language models (LLMs) to analyze and interpret spatial transcriptomics (ST) data. In addition to simplifying the intricate and high-dimensional nature of ST data by offering a comprehensive workflow that includes data loading, region selection, gene expression analysis, and functional annotation, QuST-LLM employs LLMs to transform complex ST data into understandable and detailed biological narratives based on gene ontology annotations, thereby significantly improving the interpretability of ST data. Consequently, users can interact with their own ST data using natural language. Hence, QuST-LLM provides researchers with a potent functionality to unravel the spatial and functional complexities of tissues, fostering novel insights and advancements in biomedical research. QuST-LLM is a part of QuST project. The source code is hosted on GitHub and documentation is available at (https://github.com/huangch/qust). | 翻訳日:2024-07-04 06:49:41 公開日:2024-07-01 |
# 人工レヴィアサン : ホッベシアン社会契約理論のレンズを通して LLM エージェントの社会進化を探る
Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory ( http://arxiv.org/abs/2406.14373v2 ) ライセンス: Link先を確認 | Gordon Dai, Weijia Zhang, Jinhan Li, Siqi Yang, Chidera Onochie lbe, Srihas Rao, Arthur Caetano, Misha Sra, | (参考訳) 大規模言語モデル(LLM)の出現と人工知能(AI)の進歩は、大規模に計算社会科学研究の機会を提供する。
LLMエージェント設計の先行調査に基づいて、複雑な社会的関係が時間とともに動的に形成・進化するシミュレーションエージェント社会を導入する。
エージェントには心理的なドライブが埋め込まれ、サンドボックスサバイバル環境に置かれる。
我々はトーマス・ホッブスのセミナル社会契約理論(SCT)のレンズを通してエージェント社会の評価を行う。
我々は、この理論が仮定しているように、エージェントが秩序と安全保障と引き換えに絶対的な主権を放棄することで、残酷な「自然の状態」から逃れようとするかどうかを分析する。
当初、エージェントは制約のない紛争に関わり、ホッブスの自然状態の描写を反映していました。
しかし、シミュレーションが進むにつれて、社会的契約が出現し、絶対的な主権の承認と相互協力に基づく平和的な共通目標の確立につながった。
このLLMエージェント・ソサエティの進化軌道とホッブスの理論的な説明の一致は、LLMが複雑な社会力学をモデル化し、人間の社会を形成する力を潜在的に再現する能力を示している。
集団行動や創発的な社会現象に関する洞察を可能とすることで、LLM駆動のマルチエージェントシミュレーションは、人間の行動のすべてのニュアンスをシミュレートすることができないが、社会構造、グループダイナミクス、複雑な人間のシステムに対する理解を深める可能性を秘めている。
The emergence of Large Language Models (LLMs) and advancements in Artificial Intelligence (AI) offer an opportunity for computational social science research at scale. Building upon prior explorations of LLM agent design, our work introduces a simulated agent society where complex social relationships dynamically form and evolve over time. Agents are imbued with psychological drives and placed in a sandbox survival environment. We conduct an evaluation of the agent society through the lens of Thomas Hobbes's seminal Social Contract Theory (SCT). We analyze whether, as the theory postulates, agents seek to escape a brutish "state of nature" by surrendering rights to an absolute sovereign in exchange for order and security. Our experiments unveil an alignment: Initially, agents engage in unrestrained conflict, mirroring Hobbes's depiction of the state of nature. However, as the simulation progresses, social contracts emerge, leading to the authorization of an absolute sovereign and the establishment of a peaceful commonwealth founded on mutual cooperation. This congruence between our LLM agent society's evolutionary trajectory and Hobbes's theoretical account indicates LLMs' capability to model intricate social dynamics and potentially replicate forces that shape human societies. By enabling such insights into group behavior and emergent societal phenomena, LLM-driven multi-agent simulations, while unable to simulate all the nuances of human behavior, may hold potential for advancing our understanding of social structures, group dynamics, and complex human systems. | 翻訳日:2024-07-04 06:49:41 公開日:2024-07-01 |
# 広告主は安全なモデルの組み合わせを誤認できる
Adversaries Can Misuse Combinations of Safe Models ( http://arxiv.org/abs/2406.14595v2 ) ライセンス: Link先を確認 | Erik Jones, Anca Dragan, Jacob Steinhardt, | (参考訳) 開発者は、AIシステムがリリース前に敵によって悪用されるかどうかを評価する。例えば、モデルがサイバー攻撃、ユーザ操作、バイオテロリズムを可能にするかどうかをテストする。
本研究では,各モデルが安全である場合でも,各モデルの組み合わせを誤用することが可能であり,誤用に対する個別のテストが不十分であることを示す。
敵はまずタスクをサブタスクに分解し、次に最適なモデルで各サブタスクを解くことでこれを達成している。
例えば、敵は、整列フロンティアモデルで挑戦的だが良性なサブタスクを解き、より弱い不整列モデルで容易に、しかしまともなサブタスクを解くことができる。
そこで本研究では,ヒトがタスクの自然な分解を識別する手動分解法と,フロンティアモデルのための良質なタスクを生成する手動分解法について検討した。
これらの分解を用いて、敵が脆弱なコード、明示的なイメージ、ハッキングのためのピソンスクリプト、および操作的なツイートを、どちらのモデルよりもはるかに高いレートで作成できることを実証的に示す。
私たちの研究は、完全に整合したフロンティアシステムでさえ、悪意のあるアウトプットを生成せずに誤用を可能にすることを示唆しています。
Developers try to evaluate whether an AI system can be misused by adversaries before releasing it; for example, they might test whether a model enables cyberoffense, user manipulation, or bioterrorism. In this work, we show that individually testing models for misuse is inadequate; adversaries can misuse combinations of models even when each individual model is safe. The adversary accomplishes this by first decomposing tasks into subtasks, then solving each subtask with the best-suited model. For example, an adversary might solve challenging-but-benign subtasks with an aligned frontier model, and easy-but-malicious subtasks with a weaker misaligned model. We study two decomposition methods: manual decomposition where a human identifies a natural decomposition of a task, and automated decomposition where a weak model generates benign tasks for a frontier model to solve, then uses the solutions in-context to solve the original task. Using these decompositions, we empirically show that adversaries can create vulnerable code, explicit images, python scripts for hacking, and manipulative tweets at much higher rates with combinations of models than either individual model. Our work suggests that even perfectly-aligned frontier systems can enable misuse without ever producing malicious outputs, and that red-teaming efforts should extend beyond single models in isolation. | 翻訳日:2024-07-04 06:49:41 公開日:2024-07-01 |
# ACR: 自動コホート検索のためのベンチマーク
ACR: A Benchmark for Automatic Cohort Retrieval ( http://arxiv.org/abs/2406.14780v2 ) ライセンス: Link先を確認 | Dung Ngoc Thai, Victor Ardulov, Jose Ulises Mena, Simran Tiwari, Gleb Erofeev, Ramy Eskander, Karim Tarabishy, Ravi B Parikh, Wael Salloum, | (参考訳) 患者コホートを同定することは、臨床試験の募集や振り返り研究など、多くの医療課題に欠かせない。
医療機関における現在のコホート検索手法は、構造化されたデータの自動クエリと手作業によるキュレーションに頼っている。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
主な課題は、広範囲にわたる適格基準の管理と、非構造化電子医療記録(EMR)の経時的性質の扱い、そして、このソリューションが現実世界の応用に費用対効果を保っていることを保証することである。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
ベンチマークタスク、クエリデータセット、EMRデータセット、評価フレームワークを提供する。
以上の結果から,広範囲な患者データベースを縦断推論できる,効率的で高品質なACRシステムの必要性が浮き彫りになった。
Identifying patient cohorts is fundamental to numerous healthcare tasks, including clinical trial recruitment and retrospective studies. Current cohort retrieval methods in healthcare organizations rely on automated queries of structured data combined with manual curation, which are time-consuming, labor-intensive, and often yield low-quality results. Recent advancements in large language models (LLMs) and information retrieval (IR) offer promising avenues to revolutionize these systems. Major challenges include managing extensive eligibility criteria and handling the longitudinal nature of unstructured Electronic Medical Records (EMRs) while ensuring that the solution remains cost-effective for real-world application. This paper introduces a new task, Automatic Cohort Retrieval (ACR), and evaluates the performance of LLMs and commercial, domain-specific neuro-symbolic approaches. We provide a benchmark task, a query dataset, an EMR dataset, and an evaluation framework. Our findings underscore the necessity for efficient, high-quality ACR systems capable of longitudinal reasoning across extensive patient databases. | 翻訳日:2024-07-04 06:39:57 公開日:2024-07-01 |
# GPT-4 Vision による放射線治療計画の自動化
Automated radiotherapy treatment planning guided by GPT-4Vision ( http://arxiv.org/abs/2406.15609v2 ) ライセンス: Link先を確認 | Sheng Liu, Oscar Pastor-Serrano, Yizheng Chen, Matthew Gopaulchan, Weixing Liang, Mark Buyyounouski, Erqi Pollom, Quynh-Thu Le, Michael Gensheimer, Peng Dong, Yong Yang, James Zou, Lei Xing, | (参考訳) 放射線治療治療計画は、複数の矛盾する目標のバランスをとるために、モデルパラメータの反復的な調整を必要とする、時間を要する、潜在的に主観的なプロセスである。
大規模基盤モデルの最近の進歩は、計画と臨床意思決定の課題に対処するための有望な道を提供する。
本稿では,OpenAI の GPT-4Vision (GPT-4V) など,マルチモーダルな大規模言語モデルで符号化された先行放射線オンコロジー知識を活用する,完全に自動化された治療計画フレームワーク GPT-RadPlan を紹介する。
GPT-RadPlanは、計画プロトコルをコンテキストとして認識し、専門家のプランナーとして機能し、治療計画プロセスの導出を可能にする。
In-context learning, we include clinical protocol for various disease sites as prompts to enable GPT-4V to acquired treatment planning domain knowledge。
GPT-RadPlanエージェントはAPIを介して社内の逆処理計画システムに統合される。
前立腺癌と頭頸部癌に合併した多発性前立腺癌(GPT-RadPlan)を臨床計画と比較した。
いずれの場合も、GPT-RadPlanは臨床計画より優れていたり、適合していたりし、より優れた目標範囲と臓器-リスク間隔を示していた。
GPT-RadPlanは、放射線腫瘍治療クリニックにおけるヒトプランナーの行動を模倣し、追加の訓練を必要とせず、治療計画プロセスの自動化に顕著な成果を収めた、最初の多モーダルな大規模言語モデルエージェントである。
Radiotherapy treatment planning is a time-consuming and potentially subjective process that requires the iterative adjustment of model parameters to balance multiple conflicting objectives. Recent advancements in large foundation models offer promising avenues for addressing the challenges in planning and clinical decision-making. This study introduces GPT-RadPlan, a fully automated treatment planning framework that harnesses prior radiation oncology knowledge encoded in multi-modal large language models, such as GPT-4Vision (GPT-4V) from OpenAI. GPT-RadPlan is made aware of planning protocols as context and acts as an expert human planner, capable of guiding a treatment planning process. Via in-context learning, we incorporate clinical protocols for various disease sites as prompts to enable GPT-4V to acquire treatment planning domain knowledge. The resulting GPT-RadPlan agent is integrated into our in-house inverse treatment planning system through an API. The efficacy of the automated planning system is showcased using multiple prostate and head & neck cancer cases, where we compared GPT-RadPlan results to clinical plans. In all cases, GPT-RadPlan either outperformed or matched the clinical plans, demonstrating superior target coverage and organ-at-risk sparing. Consistently satisfying the dosimetric objectives in the clinical protocol, GPT-RadPlan represents the first multimodal large language model agent that mimics the behaviors of human planners in radiation oncology clinics, achieving remarkable results in automating the treatment planning process without the need for additional training. | 翻訳日:2024-07-04 06:39:57 公開日:2024-07-01 |
# エコシステムへの貢献: NPM開発者のユーザ調査
Contributing Back to the Ecosystem: A User Survey of NPM Developers ( http://arxiv.org/abs/2407.00862v1 ) ライセンス: Link先を確認 | Supatsara Wattanakriengkrai, Christoph Treude, Raula Gaikovina Kula, | (参考訳) ライブラリエコシステム(JavaScriptのNPMやPythonのPyPIなど)の台頭に伴い、開発者はアプリケーションへの依存性として採用可能な多数のライブラリパッケージにアクセスできるようになる。
サードパーティ製ライブラリのオープンソースソフトウェア(OSS)の性質のため、これらのライブラリの持続可能性に対する懸念が高まっている。
NPMエコシステムの49人の開発者を対象とした調査では、開発者はエコシステムにコントリビュートするよりも、独自のパッケージをメンテナンスする可能性が高いことが分かりました。
私たちの成果は、ツールサポートへの新たな道を開き、これらのエコシステム、特にこれらのライブラリに依存している開発者にとって、これらのエコシステムを維持するための研究を行ないます。
調査の結果は \url{https://tinyurl.com/2p8sdmr3} で公開されている。
With the rise of the library ecosystem (such as NPM for JavaScript and PyPI for Python), a developer has access to a multitude of library packages that they can adopt as dependencies into their application.Prior work has found that these ecosystems form a complex web of dependencies, where sustainability issues of a single library can have widespread network effects. Due to the Open Source Software (OSS) nature of third party libraries, there are rising concerns with the sustainability of these libraries. In a survey of 49 developers from the NPM ecosystem, we find that developers are more likely to maintain their own packages rather than contribute to the ecosystem. Our results opens up new avenues into tool support and research into how to sustain these ecosystems, especially for developers that depend on these libraries. We have made available the raw results of the survey at \url{https://tinyurl.com/2p8sdmr3}. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 最小許容性能シナリオのための動的に変化する視覚的位置認識長
Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios ( http://arxiv.org/abs/2407.00863v1 ) ライセンス: Link先を確認 | Connor Malone, Ankit Vora, Thierry Peynot, Michael Milford, | (参考訳) 移動ロボットや自動運転車は、GPSなどのセンサーから推定される重要な位置が不確実あるいは信頼性の低い環境において機能する必要があることが多い。
単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替手段を提供するが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
それでも、許容されるパフォーマンスレベルでローカライズに必要なシーケンス長は様々であり、過度に長い固定シーケンス長を設定するだけで、不要なレイテンシや計算オーバーヘッドが生じ、パフォーマンスが低下する可能性がある。
これらのシナリオでは、最小限の費用で目標のパフォーマンスを満たしたり、超えたりすることが望ましい場合が多い。
本稿では,VPRの配列長を目標ローカライゼーション性能を超えるように調整するモデルに,キャリブレーションデータセットを用いて適合する手法を提案する。
我々は、他の任意の局所化システムによって提供されるような粗い位置を事前に利用し、この領域全体での外観の変化を捉えている。
外観変化とシーケンス長の相関関係を用いて,VPRの特徴をキュレートし,最適な長さを選択するために多層パーセプトロン(MLP)を適合させる。
本手法は, 使用した中央値長を最小化しつつ, 目標性能を達成または超過するデータセットの区間数を最大化するために, シーケンス長の調整に有効であることを示す。
いくつかのデータセットに適用可能性を示し、一般化機能、キュレーション機能の利点、ニュアンス特性を持つ非最先端特徴抽出器の有用性などの重要な現象を明らかにする。
Mobile robots and autonomous vehicles are often required to function in environments where critical position estimates from sensors such as GPS become uncertain or unreliable. Single image visual place recognition (VPR) provides an alternative for localization but often requires techniques such as sequence matching to improve robustness, which incurs additional computation and latency costs. Even then, the sequence length required to localize at an acceptable performance level varies widely; and simply setting overly long fixed sequence lengths creates unnecessary latency, computational overhead, and can even degrade performance. In these scenarios it is often more desirable to meet or exceed a set target performance at minimal expense. In this paper we present an approach which uses a calibration set of data to fit a model that modulates sequence length for VPR as needed to exceed a target localization performance. We make use of a coarse position prior, which could be provided by any other localization system, and capture the variation in appearance across this region. We use the correlation between appearance variation and sequence length to curate VPR features and fit a multilayer perceptron (MLP) for selecting the optimal length. We demonstrate that this method is effective at modulating sequence length to maximize the number of sections in a dataset which meet or exceed a target performance whilst minimizing the median length used. We show applicability across several datasets and reveal key phenomena like generalization capabilities, the benefits of curating features and the utility of non-state-of-the-art feature extractors with nuanced properties. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 影の中のシルバーライニング:機械学習におけるメンバーシップ推論を損なう
Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning ( http://arxiv.org/abs/2407.00866v1 ) ライセンス: Link先を確認 | Nexhi Sula, Abhinav Kumar, Jie Hou, Han Wang, Reza Tourani, | (参考訳) 機械学習(ML)モデルの進歩と、さまざまな領域で広く採用されているため、ユーザのプライバシとデータセキュリティが最重要課題となっている。
GDPRのようなデータプライバシ規制に従えば、セキュアな機械学習フレームワークは、モデルトレーニングに使用するコントリビューションデータの削除を要求する権利をユーザに与えるだけでなく、マシンラーニングモデル内の機密データ指紋の除去を促進して、潜在的な攻撃を緩和する — マシンラーニングと呼ばれるプロセスだ。
本研究では、ニューラルネットワークから特定のデータサンプルの影響を効果的に除去し、未学習モデルの性能を第一課題に配慮した新しい学習メカニズムを提案する。
この目的を達成するために、ターゲット分類損失とメンバーシップ推論損失を組み合わせることで、ターゲットモデルの重みとアクティベーション値からプライバシーに敏感な情報を排除できる新しい損失関数を構築した。
適応可能なフレームワークは、さまざまなプライバシー漏洩近似機構を組み込んで、未学習プロセスを導出することができる。
本研究では,概念実証として会員推論機構を用いた理論上界解析を用いて,未学習アプローチの有効性の実証的証拠を提供する。
本研究の結果は,4つのデータセットと4つのディープラーニングアーキテクチャにまたがって,未学習の有効性とレイテンシ,およびメインタスクの忠実度の観点から,我々のアプローチの優れたパフォーマンスを示すものである。
With the continued advancement and widespread adoption of machine learning (ML) models across various domains, ensuring user privacy and data security has become a paramount concern. In compliance with data privacy regulations, such as GDPR, a secure machine learning framework should not only grant users the right to request the removal of their contributed data used for model training but also facilitates the elimination of sensitive data fingerprints within machine learning models to mitigate potential attack - a process referred to as machine unlearning. In this study, we present a novel unlearning mechanism designed to effectively remove the impact of specific data samples from a neural network while considering the performance of the unlearned model on the primary task. In achieving this goal, we crafted a novel loss function tailored to eliminate privacy-sensitive information from weights and activation values of the target model by combining target classification loss and membership inference loss. Our adaptable framework can easily incorporate various privacy leakage approximation mechanisms to guide the unlearning process. We provide empirical evidence of the effectiveness of our unlearning approach with a theoretical upper-bound analysis through a membership inference mechanism as a proof of concept. Our results showcase the superior performance of our approach in terms of unlearning efficacy and latency as well as the fidelity of the primary task, across four datasets and four deep learning architectures. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 大規模言語モデルは不随意の真理―脱獄攻撃の失敗を爆発させる
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks ( http://arxiv.org/abs/2407.00869v1 ) ライセンス: Link先を確認 | Yue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang, | (参考訳) 言語モデルでは、誤った推論や偽りの推論を発生させることが困難であることがわかった。
偽りのアウトプットを生成するように頼まれると、言語モデルは正直なアウトプットをリークする傾向があります。
この欠陥を突破し、悪意のある出力に対して一致した言語モデルを引き出すジェイルブレイク攻撃法を提案する。
具体的には、有害な行動に対して、誤認的ではあるが、偽りの実際の手順を生成するよう、モデルに問い合わせる。
不正な手続きは一般的に偽物と見なされるため、LSMによって害を受けないため、保護機構をバイパスするのに役立つ。
しかし、LCMは誤った解を作ることはできないが、真に正しい解を提案するため、実際の出力は有害である。
安全に整合した5つの大言語モデルに対して,従来の4つのジェイルブレイク手法を比較し,より有害な出力で競合性能を達成できることを示す。
この発見は、自己検証や幻覚など、モデル安全性を超えて拡張できると考えています。
We find that language models have difficulties generating fallacious and deceptive reasoning. When asked to generate deceptive outputs, language models tend to leak honest counterparts but believe them to be false. Exploiting this deficiency, we propose a jailbreak attack method that elicits an aligned language model for malicious output. Specifically, we query the model to generate a fallacious yet deceptively real procedure for the harmful behavior. Since a fallacious procedure is generally considered fake and thus harmless by LLMs, it helps bypass the safeguard mechanism. Yet the output is factually harmful since the LLM cannot fabricate fallacious solutions but proposes truthful ones. We evaluate our approach over five safety-aligned large language models, comparing four previous jailbreak methods, and show that our approach achieves competitive performance with more harmful outputs. We believe the findings could be extended beyond model safety, such as self-verification and hallucination. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# Roleplay-doh: LLMを模擬した患者を励磁し、原則に固執するドメインエキスパートの育成
Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles ( http://arxiv.org/abs/2407.00870v1 ) ライセンス: Link先を確認 | Ryan Louie, Ananjan Nandi, William Fang, Cheng Chang, Emma Brunskill, Diyi Yang, | (参考訳) 最近の研究は、LLMを現実的な社会的シナリオのロールプレイに活用し、初心者の社会的スキルの実践を支援している。
しかし、メンタルヘルスのような敏感な相互作用をシミュレートすることは困難である。
プライバシに関する懸念はデータアクセスを制限し、専門家からのフィードバックを集めることは極めて重要だ。
そこで我々は,LLMが推進するロールプレイを管理する,一連の原則や自然言語規則に変換されたドメインエキスパートからの質的なフィードバックを取り入れた,新しい人間-LLMコラボレーションパイプラインであるRoleplay-dohを開発した。
我々は、このパイプラインを適用し、初心者カウンセラーのためのシミュレートされた実践パートナーのために、シニアメンタルヘルスサポーターがカスタマイズされたAI患者を作成できるようにします。
また,GPT-4シミュレーションの課題を専門家が定義した原則に順守せず,応答品質と下流タスクの原理を30倍改善した,新しい原理順守促進パイプラインも導入した。
25人のカウンセリングの専門家によるユーザスタディにより、このパイプラインは、クリエーターやサードパーティのカウンセラーによって判断されるように、実際の患者にもっと忠実に類似したAI患者を、簡単かつ効果的に作成できることを示した。
Recent works leverage LLMs to roleplay realistic social scenarios, aiding novices in practicing their social skills. However, simulating sensitive interactions, such as in mental health, is challenging. Privacy concerns restrict data access, and collecting expert feedback, although vital, is laborious. To address this, we develop Roleplay-doh, a novel human-LLM collaboration pipeline that elicits qualitative feedback from a domain-expert, which is transformed into a set of principles, or natural language rules, that govern an LLM-prompted roleplay. We apply this pipeline to enable senior mental health supporters to create customized AI patients for simulated practice partners for novice counselors. After uncovering issues in GPT-4 simulations not adhering to expert-defined principles, we also introduce a novel principle-adherence prompting pipeline which shows 30\% improvements in response quality and principle following for the downstream task. Via a user study with 25 counseling experts, we demonstrate that the pipeline makes it easy and effective to create AI patients that more faithfully resemble real patients, as judged by creators and third-party counselors. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# プライバシファーストのクラウドソーシング - クラウドソーシングされたドローンサービスにおけるブロックチェーンとローカル差分プライバシ
Privacy-First Crowdsourcing: Blockchain and Local Differential Privacy in Crowdsourced Drone Services ( http://arxiv.org/abs/2407.00873v1 ) ライセンス: Link先を確認 | Junaid Akram, Ali Anaissi, | (参考訳) 本稿では,一般消費者向けドローンをブッシュファイア管理に組み込むためのプライバシー保護フレームワークを提案する。
このシステムは、ブッシュファイア管理当局がドローンオペレーターから必須データを入手するマーケットプレースを作成する。
主な機能としては、データプロバイダを保護するためのローカルな差分プライバシーと、公正なデータ交換と説明責任を保証するブロックチェーンベースのソリューションがある。
このフレームワークは概念実証実装を通じて検証され、様々な大規模データ収集シナリオのスケーラビリティと可能性を実証している。
このアプローチは、1988年のオーストラリアのプライバシ法のような規制に対するプライバシー上の懸念とコンプライアンスに対処し、クラウドソースされたドローンサービスを通じて、ブッシュファイアの検出と管理を強化する実用的なソリューションを提供する。
We introduce a privacy-preserving framework for integrating consumer-grade drones into bushfire management. This system creates a marketplace where bushfire management authorities obtain essential data from drone operators. Key features include local differential privacy to protect data providers and a blockchain-based solution ensuring fair data exchanges and accountability. The framework is validated through a proof-of-concept implementation, demonstrating its scalability and potential for various large-scale data collection scenarios. This approach addresses privacy concerns and compliance with regulations like Australia's Privacy Act 1988, offering a practical solution for enhancing bushfire detection and management through crowdsourced drone services. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 空間クラウドソーシングドローンサービスにおけるデータ統合のための分散PKIフレームワーク
Decentralized PKI Framework for Data Integrity in Spatial Crowdsourcing Drone Services ( http://arxiv.org/abs/2407.00876v1 ) ライセンス: Link先を確認 | Junaid Akram, Ali Anaissi, | (参考訳) 配達、監視、データ収集などのタスクを含む、空間的なクラウドソーシングドローンサービスの分野では、セキュアな通信が最重要である。
Public Key Infrastructure (PKI)は、関連するエンティティのIDを認証するデジタル証明書のシステムを提供し、データを確保し、ドローンとそのオペレーター間の送信を指令することによって、これを保証している。
しかしながら、Certificate Authorities (CA)に依存する従来のPKIの集中的信頼モデルは、単一障害点による脆弱性を示し、セキュリティ侵害のリスクを負う。
これに対抗するために、D2XChainはブロックチェーンベースのPKIフレームワークで、IoDT(Internet of Drone Things)用に設計されている。
CAインフラストラクチャの分散化により、D2XChainはこの単一障害点を排除し、ドローン通信のセキュリティと信頼性を高める。
X.509標準と完全に互換性があり、既存のPKIシステムとシームレスに統合され、証明書登録、検証、検証、無効化などの主要な操作を分散的にサポートする。
この革新的なアプローチは、さまざまなセキュリティ脅威に対するドローンサービスの防御を強化するだけでなく、プライベートなEthereumテストベッドへのデプロイを通じてその実践的応用を示す。
In the domain of spatial crowdsourcing drone services, which includes tasks like delivery, surveillance, and data collection, secure communication is paramount. The Public Key Infrastructure (PKI) ensures this by providing a system for digital certificates that authenticate the identities of entities involved, securing data and command transmissions between drones and their operators. However, the centralized trust model of traditional PKI, dependent on Certificate Authorities (CAs), presents a vulnerability due to its single point of failure, risking security breaches. To counteract this, the paper presents D2XChain, a blockchain-based PKI framework designed for the Internet of Drone Things (IoDT). By decentralizing the CA infrastructure, D2XChain eliminates this single point of failure, thereby enhancing the security and reliability of drone communications. Fully compatible with the X.509 standard, it integrates seamlessly with existing PKI systems, supporting all key operations such as certificate registration, validation, verification, and revocation in a distributed manner. This innovative approach not only strengthens the defense of drone services against various security threats but also showcases its practical application through deployment on a private Ethereum testbed, representing a significant advancement in addressing the unique security challenges of drone-based services and ensuring their trustworthy operation in critical tasks. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# QKDネットワークの将来
The Future of QKD Networks ( http://arxiv.org/abs/2407.00877v1 ) ライセンス: Link先を確認 | Alin-Bogdan Popa, Pantelimon George Popescu, | (参考訳) 量子技術の最近の進歩により、QKD市場は爆発的に成長した。
グローバルなQKDネットワークへの競争は、このような大規模な取り組みが要求されるルールやポリシーが議論される前でさえ、世界中のプレイヤーが勝利を競っている。
いくつかのベンダーが市場に出回っており、それぞれに特定のパラメータと利点(キーレート、リンク範囲、KMSソフトウェアなど)がある。
量子通信の市場規模は2040年までに最大36億ドルに達すると予想されているが、現在最大のQKDイニシアチブはEuroQCIである。
今日ではQKDネットワークの構築は簡単なことと考えられているが、国際規模でフェデレートされたネットワークを相互接続することは大きな課題である。
我々は,QKD仮想ネットワークを,柔軟性とセキュリティの向上のために有用なインフラストラクチャ抽象化としてだけでなく,今後のQKDネットワークが広く普及する上で直面するいくつかの問題に対して,避けられない解決策として提案する。
With the recent advancements in quantum technologies, the QKD market exploded. World players are scrambling to win the race towards global QKD networks, even before the rules and policies required by such large endeavors were even discussed. Several vendors are on the market, each with specific parameters and advantages (in terms of key rate, link range, KMS software, etc.), hence considerable effort is now made towards standardization. While quantum communications is expected to reach a market size of up to \$36B by 2040, the largest QKD initiative to date is EuroQCI, which, due to its sheer scale, is forcing the market to mature. Although building a QKD network is believed to be trivial today, inter-connecting federated networks on a global scale is a heavy challenge. We propose QKD virtual networks not only as a useful infrastructure abstraction for increased flexibility and granular security, but as an inevitable solution for several problems that future QKD networks will encounter on the way towards widespread adoption. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 変圧器の文脈分解による機械的解釈
Mechanistic Interpretation through Contextual Decomposition in Transformers ( http://arxiv.org/abs/2407.00886v1 ) ライセンス: Link先を確認 | Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Anobel Y. Odisho, Peter R. Carroll, Bin Yu, | (参考訳) トランスフォーマーは印象的な能力を示すが、特徴間の複雑な非線形関係を理解することの難しさからブラックボックスと見なされることが多い。
機械学習モデルの解釈はリスクを軽減するために最重要であり、特に機械的解釈可能性は、手動修正やリバースエンジニアリングソリューションを導くための窓を開くことで、現在の関心事である。
本研究では,変換器の文脈分解(CD-T)を導入し,RNNとCNNのCDに関する先行研究を拡張し,機械的解釈を効率よく処理する。
CD-Tは変圧器の柔軟な解釈法である。
入力特徴とソース内部コンポーネント(例えば注意頭、フィードフォワードネットワーク)の組み合わせの組み合わせのコントリビューションを、(1)最終的な予測や(2)ターゲットの内部コンポーネントの出力にキャプチャすることができる。
そこで本研究では,CD-Tを用いた新しい回路探索アルゴリズムを提案する。
実世界の病理報告分類タスクでは、CD-Tは従来のベンチマークであるパスパッチよりも計算効率(速度2倍)が向上した、より忠実なアテンションヘッド回路を蒸留する。
汎用的な解釈法として、CD-Tは局所的な解釈に例外的な能力を示す。
CD-Tは、SST-2とAGNewsデータセットで感情/話題を対比する単語やフレーズを確実に見つける。
人間の実験を通して,CD-Tにより,2つのモデルのより正確な識別と,SHAPやLIMEなどの代替解釈手法と比較してモデルの出力の信頼性が向上することを示した。
Transformers exhibit impressive capabilities but are often regarded as black boxes due to challenges in understanding the complex nonlinear relationships between features. Interpreting machine learning models is of paramount importance to mitigate risks, and mechanistic interpretability is in particular of current interest as it opens up a window for guiding manual modifications and reverse-engineering solutions. In this work, we introduce contextual decomposition for transformers (CD-T), extending a prior work on CD for RNNs and CNNs, to address mechanistic interpretation computationally efficiently. CD-T is a flexible interpretation method for transformers. It can capture contributions of combinations of input features or source internal components (e.g. attention heads, feed-forward networks) to (1) final predictions or (2) the output of any target internal component. Using CD-T, we propose a novel algorithm for circuit discovery. On a real-world pathology report classification task: we show CD-T distills a more faithful circuit of attention heads with improved computational efficiency (speed up 2x) than a prior benchmark, path patching. As a versatile interpretation method, CD-T also exhibits exceptional capabilities for local interpretations. CD-T is shown to reliably find words and phrases of contrasting sentiment/topic on SST-2 and AGNews datasets. Through human experiments, we demonstrate CD-T enables users to identify the more accurate of two models and to better trust a model's outputs compared to alternative interpretation methods such as SHAP and LIME. | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# Papez: 聴覚作業記憶を用いた資源効率の良い音声分離
Papez: Resource-Efficient Speech Separation with Auditory Working Memory ( http://arxiv.org/abs/2407.00888v1 ) ライセンス: Link先を確認 | Hyunseok Oh, Juheon Yi, Youngki Lee, | (参考訳) トランスフォーマーベースのモデルは、最近最先端の単一チャネル音声分離精度に達したが、その極端な計算負荷により、リソースに制約のあるモバイルデバイスやIoTデバイスへのデプロイが困難になる。
そこで我々は,軽量かつ計算効率の良い単一チャネル音声分離モデルであるPapezを提案する。
Papezは3つの重要なテクニックに基づいている。
我々はまず、チャンク変換器を小型の聴覚ワーキングメモリに置き換える。
第2に、さらなる処理を必要としない入力トークンを適応的にプルークする。
最後に、リカレントトランスによるパラメータ数を削減する。
我々の広範な評価は、Papezが最大のリソースと精度のトレードオフを大きなマージンで達成していることを示している。
ソースコードは texttt{https://github.com/snuhcs/Papez} で公開しています。
Transformer-based models recently reached state-of-the-art single-channel speech separation accuracy; However, their extreme computational load makes it difficult to deploy them in resource-constrained mobile or IoT devices. We thus present Papez, a lightweight and computation-efficient single-channel speech separation model. Papez is based on three key techniques. We first replace the inter-chunk Transformer with small-sized auditory working memory. Second, we adaptively prune the input tokens that do not need further processing. Finally, we reduce the number of parameters through the recurrent transformer. Our extensive evaluation shows that Papez achieves the best resource and accuracy tradeoffs with a large margin. We publicly share our source code at \texttt{https://github.com/snuhcs/Papez} | 翻訳日:2024-07-04 01:17:19 公開日:2024-07-01 |
# 大規模言語モデルを用いたマクロ経済予測
Macroeconomic Forecasting with Large Language Models ( http://arxiv.org/abs/2407.00890v1 ) ライセンス: Link先を確認 | Andrea Carriero, Davide Pettenuzzo, Shubhranshu Shekhar, | (参考訳) 本稿では,従来のマクロ時系列予測手法と比較して,Large Language Models(LLM)の精度を評価する。
近年、LLMはデータの複雑なパターンを捕捉し、非常に異なる領域に迅速に適応できるため、予測のために人気が高まっている。
しかし, 従来の手法に比べ, マクロ経済時系列データの予測における有効性は依然として注目されている。
そこで本研究では,従来のマクロ予測手法に対して,FRED-MDデータベースを用いた厳密なLLMの評価を行う。
我々の発見は、マクロ経済時系列の予測におけるLLMの強みと限界についての貴重な洞察を与え、現実のシナリオにおけるそれらの適用性に光を当てている。
This paper presents a comparative analysis evaluating the accuracy of Large Language Models (LLMs) against traditional macro time series forecasting approaches. In recent times, LLMs have surged in popularity for forecasting due to their ability to capture intricate patterns in data and quickly adapt across very different domains. However, their effectiveness in forecasting macroeconomic time series data compared to conventional methods remains an area of interest. To address this, we conduct a rigorous evaluation of LLMs against traditional macro forecasting methods, using as common ground the FRED-MD database. Our findings provide valuable insights into the strengths and limitations of LLMs in forecasting macroeconomic time series, shedding light on their applicability in real-world scenarios | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# ZeroDDI: セマンティック強化学習とデュアルモーダル一様アライメントを用いたゼロショットドラッグドラッグインタラクションイベント予測手法
ZeroDDI: A Zero-Shot Drug-Drug Interaction Event Prediction Method with Semantic Enhanced Learning and Dual-Modal Uniform Alignment ( http://arxiv.org/abs/2407.00891v1 ) ライセンス: Link先を確認 | Ziyan Wang, Zhankun Xiong, Feng Huang, Xuan Liu, Wen Zhang, | (参考訳) 薬物と薬物の相互作用(DDIs)は、様々な薬理学的変化をもたらし、DDIイベント(DDIEs)として知られるクラスに分類される。
近年、未観測/未確認のDDIEが出現し、ゼロショットDDIE予測(ZS-DDIE)タスクとして定式化された未確認クラスがトレーニング段階でラベル付きインスタンスを持たない場合に、新たな分類タスクを呈している。
しかし、既存の計算手法はZS-DDIEには直接適用されない。
これらの課題を克服するために,ZS-DDIEタスクのためのZeroDDIという新しい手法を提案する。
具体的には、重要な生物学的意味論を強調し、DDIE表現学習のための識別的分子構造関連意味論を蒸留する生体意味強化DDIE表現学習モジュールを設計する。
さらに, 薬物対表現とDDIE意味表現を単位球内に均一に分散し, 一致した表現をアライメントし, クラス不均衡の問題を緩和するデュアルモーダル一様アライメント戦略を提案する。
大規模な実験により、ZeroDDIはベースラインを超越し、未知のDDIEを検出するための有望なツールであることが示された。
私たちのコードはhttps://github.com/wzy-Sarah/ZeroDDI.comで公開されています。
Drug-drug interactions (DDIs) can result in various pharmacological changes, which can be categorized into different classes known as DDI events (DDIEs). In recent years, previously unobserved/unseen DDIEs have been emerging, posing a new classification task when unseen classes have no labelled instances in the training stage, which is formulated as a zero-shot DDIE prediction (ZS-DDIE) task. However, existing computational methods are not directly applicable to ZS-DDIE, which has two primary challenges: obtaining suitable DDIE representations and handling the class imbalance issue. To overcome these challenges, we propose a novel method named ZeroDDI for the ZS-DDIE task. Specifically, we design a biological semantic enhanced DDIE representation learning module, which emphasizes the key biological semantics and distills discriminative molecular substructure-related semantics for DDIE representation learning. Furthermore, we propose a dual-modal uniform alignment strategy to distribute drug pair representations and DDIE semantic representations uniformly in a unit sphere and align the matched ones, which can mitigate the issue of class imbalance. Extensive experiments showed that ZeroDDI surpasses the baselines and indicate that it is a promising tool for detecting unseen DDIEs. Our code has been released in https://github.com/wzy-Sarah/ZeroDDI. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# 数値表現にDigitの埋め込みを利用するには?
How to Leverage Digit Embeddings to Represent Numbers? ( http://arxiv.org/abs/2407.00894v1 ) ライセンス: Link先を確認 | Jasivan Alex Sivakumar, Nafise Sadat Moosavi, | (参考訳) 算術演算の他に、数自体を理解することは、既存の言語モデルにとって依然として課題である。
1+2の代わりに100+200を解くような単純な一般化は、モデル性能に大きな影響を与える(Sivakumar and Moosavi, 2023)。
様々な技術の中で、数表現を改善するための有望なアプローチとして、数字の文字レベルの埋め込みが出現している。
しかし,本手法では,数値表現をモデルに集約する作業が残されているため,このプロセスの直接の監督が欠如している。
本稿では,数理的事前計算による数値埋め込みの計算について検討し,これらの集合をトランスフォーマーモデルに明示的に組み込む。
これは入力埋め込みに特別なトークンを追加するか、正しい予測を強化するために損失関数を追加することで実現できる。
我々は,この明示的なアグリゲーションを組み込むことの有効性を評価し,その強みと欠点を分析し,このアプローチのメリットを活かすための今後の方向性について議論する。
私たちのメソッドはシンプルですが、任意の事前訓練されたモデルと互換性があり、数行のコードしか必要ありません。
Apart from performing arithmetic operations, understanding numbers themselves is still a challenge for existing language models. Simple generalisations, such as solving 100+200 instead of 1+2, can substantially affect model performance (Sivakumar and Moosavi, 2023). Among various techniques, character-level embeddings of numbers have emerged as a promising approach to improve number representation. However, this method has limitations as it leaves the task of aggregating digit representations to the model, which lacks direct supervision for this process. In this paper, we explore the use of mathematical priors to compute aggregated digit embeddings and explicitly incorporate these aggregates into transformer models. This can be achieved either by adding a special token to the input embeddings or by introducing an additional loss function to enhance correct predictions. We evaluate the effectiveness of incorporating this explicit aggregation, analysing its strengths and shortcomings, and discuss future directions to better benefit from this approach. Our methods, while simple, are compatible with any pretrained model and require only a few lines of code, which we have made publicly available. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# AIで実現可能なCSIフィードバックのためのチャネルモデリング支援データセット生成:進歩、課題、解決策
Channel Modeling Aided Dataset Generation for AI-Enabled CSI Feedback: Advances, Challenges, and Solutions ( http://arxiv.org/abs/2407.00896v1 ) ライセンス: Link先を確認 | Yupeng Li, Gang Li, Zirui Wen, Shuangfeng Han, Shijian Gao, Guangyi Liu, Jiangzhou Wang, | (参考訳) AI対応オートエンコーダは、周波数分割倍数(FDD)多重入力多重出力(MIMO)システムにおいてチャネル状態情報(CSI)フィードバックに大きな可能性を示した。
しかし、この手法は既存のフィードバック戦略を完全に変えており、近年の展開は不可能である。
そこで本研究では,限られたフィールドチャネルデータに基づいて,チャネルモデリング支援データ拡張手法を提案する。
具体的には、ユーザ装置(UE)は、フィールドチャネルデータの一次確率パラメータを抽出し、基地局(BS)に送信する。
BSは典型的なTR 38.901モデルのパラメータを抽出したパラメータで更新する。
このようにして、更新されたチャネルモデルを使用してデータセットを生成する。
この戦略は、データセットの収集、モデル一般化、モデル監視などを包括的に検討する。
シミュレーションにより,提案手法がベンチマークよりも性能を著しく向上できることを確認した。
The AI-enabled autoencoder has demonstrated great potential in channel state information (CSI) feedback in frequency division duplex (FDD) multiple input multiple output (MIMO) systems. However, this method completely changes the existing feedback strategies, making it impractical to deploy in recent years. To address this issue, this paper proposes a channel modeling aided data augmentation method based on a limited number of field channel data. Specifically, the user equipment (UE) extracts the primary stochastic parameters of the field channel data and transmits them to the base station (BS). The BS then updates the typical TR 38.901 model parameters with the extracted parameters. In this way, the updated channel model is used to generate the dataset. This strategy comprehensively considers the dataset collection, model generalization, model monitoring, and so on. Simulations verify that our proposed strategy can significantly improve performance compared to the benchmarks. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# マルチフィールド量子会議はネットワーク容量限界を克服する
Multi-field quantum conferencing overcomes the network capacity limit ( http://arxiv.org/abs/2407.00897v1 ) ライセンス: Link先を確認 | Yuan-Mei Xie, Yu-Shuo Lu, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen, | (参考訳) 量子会議により、量子ネットワーク内の複数のノードが、プライベートメッセージブロードキャストのためのセキュアなグループキーを共有することができる。
しかし、キーレートは、複数粒子の絡み合った状態をネットワークに分散するリピータレス容量によって制限される。
現在、有限サイズのシステムでは、既存の実験技術を利用した実現可能なスキームは、リピータのない量子ネットワークにおける量子会議の基本的な速度-距離制限を克服できない。
本稿では,グリーンバーガー・ホーネ・ザイリンガー状態の同時一致による事実上の確立を含む,この限界を破る実用的マルチフィールドスキームを提案する。
本提案では,測定デバイスに依存しない特性を特徴として,任意の数のユーザをサポートするために直接スケールすることができる。
シミュレーションにより、グループ鍵レートの基本的な制限は、10^{14}$パルスを送る合理的な実行時間で克服できることが示された。
我々は、将来の量子ネットワークにおける長距離放送通信のための効率的な設計を提供すると予測する。
Quantum conferencing enables multiple nodes within a quantum network to share a secure group key for private message broadcasting. The key rate, however, is limited by the repeaterless capacity to distribute multiparticle entangled states across the network. Currently, in the finite-size regime, no feasible schemes utilizing existing experimental techniques can overcome the fundamental rate-distance limit of quantum conferencing in quantum networks without repeaters. Here, we propose a practical, multi-field scheme that breaks this limit, involving virtually establishing Greenberger-Horne-Zeilinger states through post-measurement coincidence matching. This proposal features a measurement-device-independent characteristic and can directly scale to support any number of users. Simulations show that the fundamental limitation on the group key rate can be overcome in a reasonable running time of sending $10^{14}$ pulses. We predict that it offers an efficient design for long-distance broadcast communication in future quantum networks. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# 衛星によるクロック同期のための古典的および量子的周波数コム
Classical and Quantum Frequency Combs for Satellite-based Clock Synchronization ( http://arxiv.org/abs/2407.00899v1 ) ライセンス: Link先を確認 | Ronakraj K. Gosalia, Ryan Aguinaldo, Jonathan Green, Holly Leopardi, Peter Brereton, Robert Malaney, | (参考訳) 次世代の宇宙ネットワークには、衛星内に埋め込まれた光時計が含まれる。
このようなクロックの機能を十分に実現するには、ネットワーク間の高精度クロック同期が必要である。
現在の実験では、古典的な周波数コムが遠隔の光時計を自由空間上で同期させる可能性を示している。
しかし、これらの古典的コムは標準量子限界まで精度で制限されている。
しかし、スクイーズや絡み合いのような量子的性質を示す量子周波数コムは、標準的な量子限界を超える経路を提供する。
ここでは、古典周波数コムと量子周波数コムの両方を用いて、空間における実用的なクロック同期の展望について述べる。
我々は、量子周波数コムがもたらす潜在的な結果を定量化する前に、古典的な周波数コムアプローチで達成可能な現在の結果を詳述する。
宇宙空間における周波数コムの展開において克服すべき課題が提示され、今後の宇宙ベースアプリケーションと実験におけるほぼ完璧な同期の影響が議論された。
The next generation of space-based networks will contain optical clocks embedded within satellites. To fully realize the capabilities of such clocks, high-precision clock synchronization across the networks will be necessary. Current experiments have shown the potential for classical frequency combs to synchronize remote optical clocks over free-space. However, these classical combs are restricted in precision to the standard quantum limit. Quantum frequency combs, however, which exhibit quantum properties such as squeezing and entanglement, provide pathways for going beyond the standard quantum limit. Here, we present our perspective on the prospects for practical clock synchronization in space using both classical and quantum frequency combs. We detail the current outcomes achievable with a classical frequency comb approach to synchronization, before quantifying the potential outcomes offered by quantum frequency combs. Challenges to be overcome in deploying frequency combs in space are presented, and the implications of almost-perfect synchronization for future space-based applications and experiments discussed. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# MathCAMPS:人間のカリキュラムからの数学的問題の微細な合成
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula ( http://arxiv.org/abs/2407.00900v1 ) ライセンス: Link先を確認 | Shubhra Mishra, Gabriel Poesia, Belinda Mo, Noah D. Goodman, | (参考訳) 数学的な問題解決は大規模言語モデル(LLM)にとって重要なスキルであり、様々な推論能力のための重要な能力とプロキシである。
既存のベンチマークでは、さまざまなスキルのセットを探索するが、集計された精度のメトリクスを生成し、特定の能力や弱点を隠蔽する。
さらに、新しい問題で拡張することは困難であり、時間の経過とともにデータの汚染を危険にさらす。
これらの課題に対処するために,K-8グレードの数学共通コア(CC)標準から44の微細な「標準」に基づいて,高品質な数学問題を大規模に合成する手法であるMathCAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
次に、LLMを用いて単語問題にシンボリックな問題を実現する。
本稿では,問題忠実度を検証するためのサイクル整合性手法を提案する。
最後に,記号構造からフォローアップ質問を導出し,それらをフォローアップ語問題に変換する。
23のLSMの実験では、最強のモデルでも驚くべき失敗が見られた(特に単純なフォローアップ質問では)。
さらに,Pythia 12BのトレーニングチェックポイントをMathCAMPSで評価し,そのトレーニング中に特定の数学的スキルがいつ発達するかを解析する。
我々のフレームワークは、コミュニティが新しい高品質なデータセットを構築するための典型的なコストのごく一部でパイプラインを再生および拡張できるようにします。
Mathematical problem solving is an important skill for Large Language Models (LLMs), both as an important capability and a proxy for a range of reasoning abilities. Existing benchmarks probe a diverse set of skills, but they yield aggregate accuracy metrics, obscuring specific abilities or weaknesses. Furthermore, they are difficult to extend with new problems, risking data contamination over time. To address these challenges, we propose MathCAMPS: a method to synthesize high-quality mathematical problems at scale, grounded on 44 fine-grained "standards" from the Mathematics Common Core (CC) Standard for K-8 grades. We encode each standard in a formal grammar, allowing us to sample diverse symbolic problems and their answers. We then use LLMs to realize the symbolic problems into word problems. We propose a cycle-consistency method for validating problem faithfulness. Finally, we derive follow-up questions from symbolic structures and convert them into follow-up word problems - a novel task of mathematical dialogue that probes for robustness in understanding. Experiments on 23 LLMs show surprising failures even in the strongest models (in particular when asked simple follow-up questions). Moreover, we evaluate training checkpoints of Pythia 12B on MathCAMPS, allowing us to analyze when particular mathematical skills develop during its training. Our framework enables the community to reproduce and extend our pipeline for a fraction of the typical cost of building new high-quality datasets. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# イントロスペクションからベストプラクティスへ:マルチモーダルインテクスト学習における実証の原理的分析
From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning ( http://arxiv.org/abs/2407.00902v1 ) ライセンス: Link先を確認 | Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen, | (参考訳) 大規模言語モデル(LLM)のインコンテキスト学習(ICL)機能により、複数の画像テキストペアをデモとして提供する場合、視覚的モダリティを付加したマルチモーダルLLMも同様のICL能力で展示される。
しかし、マルチモーダル ICL の動作の背景にある原理を調査する作業は、比較的少ない。
我々は,新しい重要なタスクの幅広い範囲において,異なるスケールのモデルに対するマルチモーダル ICL の体系的および原則的評価を行う。
異なるモーダル情報に対する摂動を通して、モーダル性はマルチモーダルICLのタスク間で異なる意味を持つことを示す。
このようなモダリティの影響を考慮し、ICL性能を高めるためにモダリティ駆動型実証戦略をさらに活用する。
また、実演選択は、マルチモーダルICLからタスク帰納バイアスを捕捉するモデルの能力と密接に関連していることも確認した。
本原理分析は,マルチモーダル・イン・コンテクスト学習における実演の役割を包括的に理解し,これらの課題が事前学習データに見られなくても,多モーダル ICL を広範囲のタスクで効果的に向上させることに重点を置いている。
Motivated by in-context learning (ICL) capabilities of Large Language models (LLMs), multimodal LLMs with additional visual modality are also exhibited with similar ICL abilities when multiple image-text pairs are provided as demonstrations. However, relatively less work has been done to investigate the principles behind how and why multimodal ICL works. We conduct a systematic and principled evaluation of multimodal ICL for models of different scales on a broad spectrum of new yet critical tasks. Through perturbations over different modality information, we show that modalities matter differently across tasks in multimodal ICL. Considering such modality impact, we further utilize modality-driven demonstration strategies to boost ICL performance. We also identify that demonstration selection is closely related to the models' ability to capture task inductive biases from multimodal ICL. Our principled analysis provides a comprehensive way of understanding the role of demonstrations in multimodal in-context learning, and sheds light on effectively improving multimodal ICL on a wide range of tasks even if those tasks are not seen in or even contradict pretraining data. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# ワイル例外環に付随する位相遷移の観測
Observation of topological transitions associated with a Weyl exceptional ring ( http://arxiv.org/abs/2407.00903v1 ) ライセンス: Link先を確認 | Hao-Long Zhang, Pei-Rong Han, Xue-Jia Yu, Shou-Bang Yang, Jia-Hao Lü, Wen Ning, Fan Wu, Qi-Ping Su, Chui-Ping Yang, Zhen-Biao Yang, Shi-Biao Zheng, | (参考訳) 環境によって引き起こされるオープンシステムの散逸は、かつては迷惑と考えられていたが、実際には孤立したシステムに存在しない多くの興味深い現象が出現する可能性がある。
これらのうち、点のような特異点から拡張されたワイル例外環 (WER) は特に興味深い。
理論的には、WERは非ゼロチャーン数のトポロジカル電荷を持つと予測されたが、今のところは測定されていない。
ここでは、WERを超伝導量子ビット制御で合成し、減衰共振器と共振器を結合した回路において、このトポロジーについて検討する。
システムの高い柔軟性により、パラメータ空間の異なる多様体上で固有ベクトルを特徴づけることができる。
我々はこれらの固有ベクトルから量子化されたベリー位相とチャーン数の両方を抽出する。
さらに、WER の特異な特徴量である多様体 $-$a のサイズを縮めることによって引き起こされる位相遷移を実演する。
The environment-induced dissipation of an open system, once thought as a nuisance, can actually lead to emergence of many intriguing phenomena that are absent in an isolated system. Among these, Weyl exceptional rings (WER), extended from point-like singularities, are particularly interesting. Theoretically, a WER was predicted to carry a topological charge with a nonzero Chern number, but it has not been measured so far. We here investigate this topology in a circuit, where the WER is synthesized with a superconducting qubit controllably coupled to a decaying resonator. The high flexibility of the system enables us to characterize its eigenvectors on different manifolds of parameter space. We extract both the quantized Berry phase and Chern number from these eigenvectors. Furthermore, we demonstrate a topological transition triggered by shrinking the size of the manifold$-$a unique feature of the WER. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# デュアルデノイングによるCLIPからのロバスト3次元表現の学習
Learning Robust 3D Representation from CLIP via Dual Denoising ( http://arxiv.org/abs/2407.00905v1 ) ライセンス: Link先を確認 | Shuqing Luo, Bowen Qu, Wei Gao, | (参考訳) 本稿では,CLIPのような事前学習された視覚言語モデルから,頑健で汎用的な3D表現を学習する方法について検討する。
従来の研究は、クロスモーダル蒸留が3Dデータに豊富で有用な知識を提供することを示した。
しかし、多くのディープラーニングモデルと同様に、結果の3D学習ネットワークは、敵攻撃、特に反復攻撃に対して依然として脆弱である。
本稿では,CLIPから堅牢で汎用的な3D表現を学習するための新しいフレームワークであるDual Denoisingを提案する。
3D事前トレーニングのための、デノナイジングベースのプロキシタスクと、新たな機能デノナイジングネットワークを組み合わせたものだ。
さらに,クロスドメイン設定下での点雲特徴の一般化を促進するために,並列雑音推定を利用する手法を提案する。
実験により,本モデルは,ゼロショット設定下での3次元学習ネットワークの表現学習性能と対角ロバスト性を,対角訓練なしで効果的に向上できることが示された。
私たちのコードはhttps://github.com/luoshuqing2001/Dual_Denoising.comで公開されています。
In this paper, we explore a critical yet under-investigated issue: how to learn robust and well-generalized 3D representation from pre-trained vision language models such as CLIP. Previous works have demonstrated that cross-modal distillation can provide rich and useful knowledge for 3D data. However, like most deep learning models, the resultant 3D learning network is still vulnerable to adversarial attacks especially the iterative attack. In this work, we propose Dual Denoising, a novel framework for learning robust and well-generalized 3D representations from CLIP. It combines a denoising-based proxy task with a novel feature denoising network for 3D pre-training. Additionally, we propose utilizing parallel noise inference to enhance the generalization of point cloud features under cross domain settings. Experiments show that our model can effectively improve the representation learning performance and adversarial robustness of the 3D learning network under zero-shot settings without adversarial training. Our code is available at https://github.com/luoshuqing2001/Dual_Denoising. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# GSO-YOLO:建設現場検出のためのグローバル安定性最適化YOLO
GSO-YOLO: Global Stability Optimization YOLO for Construction Site Detection ( http://arxiv.org/abs/2407.00906v1 ) ライセンス: Link先を確認 | Yuming Zhang, Dongzhi Guan, Shouxin Zhang, Junhao Su, Yunzhi Han, Jiabin Liu, | (参考訳) 建設現場の安全問題は長年業界を悩ませており、労働者の安全を脅かし、潜在的な危険による経済被害を引き起こしている。
人工知能の進歩、特にコンピュータビジョンの分野では、この長年にわたる問題の解決策として、建設現場における安全監視の自動化が出現している。
優れたパフォーマンスにもかかわらず、YOLOv8のような高度なオブジェクト検出手法は、建設現場で見つかった複雑な条件を扱う上で依然として課題に直面している。
そこで本研究では, 複雑な建設現場における課題を解決するため, グローバル安定度最適化 YOLO (GSO-YOLO) モデルを提案する。
このモデルはグローバル・オプティマイズ・モジュール(GOM)とステアディ・キャプチャ・モジュール(SCM)を統合し、グローバル・コンテクスト情報取得と検出安定性を向上させる。
CIoUとEIoUを組み合わせた革新的なAIoU損失関数は、検出精度と効率を向上させる。
SODA、MOCS、CISといったデータセットの実験では、GSO-YOLOが既存のメソッドよりも優れており、SOTAのパフォーマンスが達成されている。
Safety issues at construction sites have long plagued the industry, posing risks to worker safety and causing economic damage due to potential hazards. With the advancement of artificial intelligence, particularly in the field of computer vision, the automation of safety monitoring on construction sites has emerged as a solution to this longstanding issue. Despite achieving impressive performance, advanced object detection methods like YOLOv8 still face challenges in handling the complex conditions found at construction sites. To solve these problems, this study presents the Global Stability Optimization YOLO (GSO-YOLO) model to address challenges in complex construction sites. The model integrates the Global Optimization Module (GOM) and Steady Capture Module (SCM) to enhance global contextual information capture and detection stability. The innovative AIoU loss function, which combines CIoU and EIoU, improves detection accuracy and efficiency. Experiments on datasets like SODA, MOCS, and CIS show that GSO-YOLO outperforms existing methods, achieving SOTA performance. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# FineSurE: LLMを用いた微粒化評価
FineSurE: Fine-grained Summarization Evaluation using LLMs ( http://arxiv.org/abs/2407.00908v1 ) ライセンス: Link先を確認 | Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour, | (参考訳) テキスト要約ベンチマークとモデル開発の合理化には自動評価が不可欠である。
ROUGEのような従来の手法は人間の判断とよく相関しないが、最近提案されたLCMベースのメトリクスは、Likertスケールスコアを用いた要約レベルの評価のみを提供する。
これは、例えば、1つの幻覚スコアを要約レベルで割り当てることしかできず、文レベルでは幻覚を含む文を数えることができる。
この制限を緩和するために,大言語モデル (LLM) を用いた要約タスクに適した細粒度評価器である FineSurE を提案する。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
オープンソースとプロプライエタリなLLMをFineSurEのバックボーンとして比較する。
さらに,NLI法,QA法,LLM法などのSOTA法に対して,FinSurEの広範囲なベンチマークを行い,特に完全性および簡潔性に関する性能向上を示す。
コードはhttps://github.com/DISL-Lab/FineSurE-ACL24で公開されている。
Automated evaluation is crucial for streamlining text summarization benchmarking and model development, given the costly and time-consuming nature of human evaluation. Traditional methods like ROUGE do not correlate well with human judgment, while recently proposed LLM-based metrics provide only summary-level assessment using Likert-scale scores. This limits deeper model analysis, e.g., we can only assign one hallucination score at the summary level, while at the sentence level, we can count sentences containing hallucinations. To remedy those limitations, we propose FineSurE, a fine-grained evaluator specifically tailored for the summarization task using large language models (LLMs). It also employs completeness and conciseness criteria, in addition to faithfulness, enabling multi-dimensional assessment. We compare various open-source and proprietary LLMs as backbones for FineSurE. In addition, we conduct extensive benchmarking of FineSurE against SOTA methods including NLI-, QA-, and LLM-based methods, showing improved performance especially on the completeness and conciseness dimensions. The code is available at https://github.com/DISL-Lab/FineSurE-ACL24. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# 多目的クロスドメインレコメンデーションのためのアンタングル表現学習を用いた不均一グラフベースフレームワーク
Heterogeneous Graph-based Framework with Disentangled Representations Learning for Multi-target Cross Domain Recommendation ( http://arxiv.org/abs/2407.00909v1 ) ライセンス: Link先を確認 | Xiaopeng Liu, Juan Zhang, Chongqi Ren, Shenghui Xu, Zhaoming Pan, Zhimin Zhang, | (参考訳) CDR(Cross-Domain Recommendation)は、複数のドメインからの情報を活用することで、レコメンデーションシステムにおけるデータ空間の問題に対する重要な解決策である。
これまでの研究の大半は、ソースドメインのデータを利用してターゲットドメインのモデルの性能を改善すること、あるいはソースドメインとターゲットドメインのデータを統合することによって、Dual-target CDR(DTCDR)を適用したことに焦点を当てていた。
さらに、マルチターゲットCDR(MTCDR)はDTCDRの一般化であり、異なるドメイン間のリンクをキャプチャすることができる。
本稿では,HGDR(Heterogeneous Graph-based Framework with Disentangled Representations Learning, HGDR)を提案する。
まず、複数のドメインからユーザやアイテムを、それ以上のサイド情報なしで集めることで、共有異種グラフを生成する。
第2に,HGDRを用いて,各領域のユーザや項目に対する不整合表現を計算し,実世界のデータセットとオンラインA/Bテストによる実験により,提案モデルがドメイン間の情報を効果的に伝達し,SOTA性能に到達できることが証明された。
CDR (Cross-Domain Recommendation), i.e., leveraging information from multiple domains, is a critical solution to data sparsity problem in recommendation system. The majority of previous research either focused on single-target CDR (STCDR) by utilizing data from the source domains to improve the model's performance on the target domain, or applied dual-target CDR (DTCDR) by integrating data from the source and target domains. In addition, multi-target CDR (MTCDR) is a generalization of DTCDR, which is able to capture the link among different domains. In this paper we present HGDR (Heterogeneous Graph-based Framework with Disentangled Representations Learning), an end-to-end heterogeneous network architecture where graph convolutional layers are applied to model relations among different domains, meanwhile utilizes the idea of disentangling representation for domain-shared and domain-specifc information. First, a shared heterogeneous graph is generated by gathering users and items from several domains without any further side information. Second, we use HGDR to compute disentangled representations for users and items in all domains.Experiments on real-world datasets and online A/B tests prove that our proposed model can transmit information among domains effectively and reach the SOTA performance. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# 深層画像からレシピへの翻訳
Deep Image-to-Recipe Translation ( http://arxiv.org/abs/2407.00911v1 ) ライセンス: Link先を確認 | Jiangqin Ma, Bilal Mawji, Franz Williams, | (参考訳) 現代の言葉である"You Are What You Eat"は、私たちのアイデンティティと私たちが消費する食べ物との間の複雑なつながりを反映して、深いレベルで共鳴している。
我々のプロジェクトであるDeep Image-to-Recipe Translationは、コンピュータビジョンと自然言語生成の交差点であり、鮮やかな食品記憶と料理の創造技術とのギャップを埋めることを目的としています。
我々の主な目的は、所定の食品画像から成分を予測することである。
そこで,我々はまず独自の畳み込みネットワークを開発し,その性能を伝達学習を利用したモデルと比較する。
食材リストから包括的なレシピのステップを生成するという,新たな目標を追求する。
このプロセスはシーケンス・ツー・シーケンス・タスクとしてフレーム化され,事前学習した単語の埋め込みを利用したリカレントニューラルネットワークを開発する。
不均衡なデータセット、データのクリーニング、オーバーフィッティング、ハイパーパラメータ選択など、ディープラーニングの課題に対処する。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
レシピ予測モデルでは、一般的に使われている言語モデルにとって重要な指標であるパープレキシティ(perplexity)を用いる。
事前訓練されたResNet-50重みとGloVe埋め込みによる転送学習は,特にトレーニングリソース制約を考慮した場合,モデル性能を著しく向上させることがわかった。
我々は、画像からレシピへの変換を進歩させてきましたが、モデルアーキテクチャ、データセットのスケーラビリティ、ユーザーインタラクションの強化など、将来の探求の機会があります。
The modern saying, "You Are What You Eat" resonates on a profound level, reflecting the intricate connection between our identities and the food we consume. Our project, Deep Image-to-Recipe Translation, is an intersection of computer vision and natural language generation that aims to bridge the gap between cherished food memories and the art of culinary creation. Our primary objective involves predicting ingredients from a given food image. For this task, we first develop a custom convolutional network and then compare its performance to a model that leverages transfer learning. We pursue an additional goal of generating a comprehensive set of recipe steps from a list of ingredients. We frame this process as a sequence-to-sequence task and develop a recurrent neural network that utilizes pre-trained word embeddings. We address several challenges of deep learning including imbalanced datasets, data cleaning, overfitting, and hyperparameter selection. Our approach emphasizes the importance of metrics such as Intersection over Union (IoU) and F1 score in scenarios where accuracy alone might be misleading. For our recipe prediction model, we employ perplexity, a commonly used and important metric for language models. We find that transfer learning via pre-trained ResNet-50 weights and GloVe embeddings provide an exceptional boost to model performance, especially when considering training resource constraints. Although we have made progress on the image-to-recipe translation, there is an opportunity for future exploration with advancements in model architectures, dataset scalability, and enhanced user interaction. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# SecureSpectra: インテリジェント署名によるディープフェイク脅威からのデジタルIDの保護
SecureSpectra: Safeguarding Digital Identity from Deep Fake Threats via Intelligent Signatures ( http://arxiv.org/abs/2407.00913v1 ) ライセンス: Link先を確認 | Oguzhan Baser, Kaan Kale, Sandeep P. Chinchali, | (参考訳) DeepFake(DF)オーディオモデルの進歩は、音声認証システムに重大な脅威をもたらし、不正アクセスと誤報の拡散につながる。
音声に直交的かつ不可逆なシグネチャを埋め込むことにより、DFの脅威に対処する防御機構SecureSpectraを導入する。
SecureSpectraは、DFモデルが高周波コンテンツを複製できないことを活用し、さまざまなデータセットやDFモデルで実証的に識別します。
パイプラインに差分プライバシーを統合することは、リバースエンジニアリングからシグネチャを保護し、強化されたセキュリティと最小パフォーマンスの妥協との間に微妙なバランスを取る。
Mozilla Common Voice、LibriSpeech、VoxCelebのデータセットに対する評価では、SecureSpectraの優れたパフォーマンスを示し、検出精度が最大71%向上した。
研究コミュニティに利益をもたらすために、SecureSpectraをオープンソースにしています。
Advancements in DeepFake (DF) audio models pose a significant threat to voice authentication systems, leading to unauthorized access and the spread of misinformation. We introduce a defense mechanism, SecureSpectra, addressing DF threats by embedding orthogonal, irreversible signatures within audio. SecureSpectra leverages the inability of DF models to replicate high-frequency content, which we empirically identify across diverse datasets and DF models. Integrating differential privacy into the pipeline protects signatures from reverse engineering and strikes a delicate balance between enhanced security and minimal performance compromises. Our evaluations on Mozilla Common Voice, LibriSpeech, and VoxCeleb datasets showcase SecureSpectra's superior performance, outperforming recent works by up to 71% in detection accuracy. We open-source SecureSpectra to benefit the research community. | 翻訳日:2024-07-04 01:07:34 公開日:2024-07-01 |
# データ依存レギュレット解析によるメモリ制約を考慮したオンラインカーネル選択の学習可能性
Learnability in Online Kernel Selection with Memory Constraint via Data-dependent Regret Analysis ( http://arxiv.org/abs/2407.00916v1 ) ライセンス: Link先を確認 | Junfan Li, Shizhong Liao, | (参考訳) オンラインカーネル選択は、オンラインカーネルメソッドの基本的な問題である。
本稿では,カーネル選択とオンライン予測手順のメモリが固定予算に制限されるメモリ制約によるオンラインカーネル選択について検討する。
重要な疑問は、オンライン学習性、メモリ制約、データ複雑さの内在的な関係は何か、ということです。
この問いに答えるためには、後悔の限界と記憶の制約の間のトレードオフを示す必要がある。
これまでの作業では、データサイズによって最悪の場合のバウンダリが低くなっており、小さなメモリ制約内では学習が不可能であることを示している。
対照的に、カーネルアライメントと競合仮説の累積損失という2つのデータ複雑度に依存するデータ依存上界を提供することにより、異なる結果が得られる。
本稿では,2種類の損失関数に対してデータ依存上界を与えるアルゴリズムフレームワークを提案する。
ヒンジ損失関数に対しては,カーネルのアライメントに応じて,提案アルゴリズムは期待上界を達成できる。
滑らかな損失関数に対しては、アルゴリズムは競合仮説の累積損失に依存する高確率上限を達成する。
また、滑らかな損失関数に対する一致した下界も証明する。
この結果から,2つのデータ複雑度が線形である場合,小さなメモリ制約内で学習が可能であることが示唆された。
アルゴリズムフレームワークは,新たなバッファ維持フレームワークと,オンラインカーネル選択から専門家のアドバイスによる予測への削減に依存し,ベンチマークデータセット上でアルゴリズムの予測性能を実証的に検証する。
Online kernel selection is a fundamental problem of online kernel methods. In this paper, we study online kernel selection with memory constraint in which the memory of kernel selection and online prediction procedures is limited to a fixed budget. An essential question is what is the intrinsic relationship among online learnability, memory constraint and data complexity? To answer the question, it is necessary to show the trade-offs between regret bound and memory constraint. Previous work gives a worst-case lower bound depending on the data size,and shows learning is impossible within a small memory constraint. In contrast, we present a different result by providing data-dependent upper bounds depending on two data complexities, namely kernel alignment and the cumulative losses of competitive hypothesis. We propose an algorithmic framework giving data-dependent upper bounds for two types of loss functions. For the hinge loss function, our algorithm achieves an expected upper bound depending on kernel alignment. For smooth loss functions,our algorithm achieves a high-probability upper bound depending on the cumulative losses of competitive hypothesis. We also prove a matching lower bound for smooth loss functions. Our results show that if the two data complexities are sub-linear, then learning is possible within a small memory constraint. Our algorithmic framework depends on a new buffer maintaining framework and a reduction from online kernel selection to prediction with expert advice.Finally, we empirically verify the prediction performance of our algorithms on benchmark datasets. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# カテゴリーからシーンへ:ビデオにおけるマルチパーソン・ヒューマン・オブジェクトのインタラクション認識のためのエンドツーエンドフレームワーク
From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos ( http://arxiv.org/abs/2407.00917v1 ) ライセンス: Link先を確認 | Tanqiu Qiao, Ruochen Li, Frederick W. B. Li, Hubert P. H. Shum, | (参考訳) ビデオに基づくヒューマンオブジェクトインタラクション(HOI)認識は、人間の行動や意図の包括的理解に不可欠である、人間とオブジェクトの間の複雑なダイナミクスを探索する。
これまでの研究は大きな進歩を遂げてきたが、グラフフレームワークにおける人間とオブジェクトの動的関係をモデル化するために、幾何学的特徴と視覚的特徴を効果的に統合することは、依然として課題である。
本研究では,各カテゴリの幾何学的特徴をそれぞれグラフで生成し,それに対応する視覚的特徴と融合させることで,シーンフレームワークCATSの新たなエンドツーエンドカテゴリを提案する。
次に,これらの拡張幾何学的視覚的特徴をノードとして配置し,人間とオブジェクトのカテゴリ間の関係を学習する。
この方法論の進歩は、より深く、より構造化された相互作用の理解を促進する。
提案手法は,MPHOI-72データセットとHOI CAD-120データセットを含む2種類のHOIベンチマークにおける最先端性能を示す。
Video-based Human-Object Interaction (HOI) recognition explores the intricate dynamics between humans and objects, which are essential for a comprehensive understanding of human behavior and intentions. While previous work has made significant strides, effectively integrating geometric and visual features to model dynamic relationships between humans and objects in a graph framework remains a challenge. In this work, we propose a novel end-to-end category to scenery framework, CATS, starting by generating geometric features for various categories through graphs respectively, then fusing them with corresponding visual features. Subsequently, we construct a scenery interactive graph with these enhanced geometric-visual features as nodes to learn the relationships among human and object categories. This methodological advance facilitates a deeper, more structured comprehension of interactions, bridging category-specific insights with broad scenery dynamics. Our method demonstrates state-of-the-art performance on two pivotal HOI benchmarks, including the MPHOI-72 dataset for multi-person HOIs and the single-person HOI CAD-120 dataset. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# 空間時間分布解析によるロバストで信頼性の高い早期段階Webサイトフィンガープリント攻撃
Robust and Reliable Early-Stage Website Fingerprinting Attacks via Spatial-Temporal Distribution Analysis ( http://arxiv.org/abs/2407.00918v1 ) ライセンス: Link先を確認 | Xinhao Deng, Qi Li, Ke Xu, | (参考訳) Webサイトフィンガープリント(WF)攻撃は、トラフィック分析を行い、ユーザのプライバシーを損なうことによって、ユーザーが訪問したウェブサイトを識別する。
特にDLベースのWF攻撃は、優れた攻撃性能を示している。
しかし、DLベースのWF攻撃の有効性は、ページ読み込み中に収集された完全なトラフィックと純粋なトラフィックに依存しており、これらの攻撃の実用性に影響を及ぼす。
WF性能は、特に解析されたトラフィックが完全なトラフィックのごく一部に過ぎない場合に、動的ネットワーク条件と様々なWF防御の下でかなり低い。
本稿では,ロバストで信頼性の高いアーリーステージWFアタックであるホームズを提案する。
ホームズは、Webサイトトラフィックの時間的および空間的分布分析を利用して、ページ読み込みの初期段階でWebサイトを効果的に識別する。
具体的には、Webサイトのトラフィックの時間分布に基づく適応データ拡張を開発し、教師付きコントラスト学習手法を用いて、初期トラフィックと事前コンパイルされた完全トラフィックの相関関係を抽出する。
ホームズはトラフィックと空間分布情報との相関を計算し、ページ読み込みの初期段階のトラフィックを正確に識別し、早期のトラフィックに応じて堅牢で信頼性の高い検出を可能にする。
6つのデータセットを用いてホームズを広範囲に評価した。
既存の9つのDLベースのWF攻撃と比較して、ホームズはF1スコアを平均169.18%改善している。
さらに,現実世界のダークウェブサイトを訪問するトラフィックをリプレイする。
ホームズは、ページロードの比率が21.71%であり、既存のWF攻撃よりも平均169.36%の精度でダークウェブウェブサイトを識別することに成功している。
Website Fingerprinting (WF) attacks identify the websites visited by users by performing traffic analysis, compromising user privacy. Particularly, DL-based WF attacks demonstrate impressive attack performance. However, the effectiveness of DL-based WF attacks relies on the collected complete and pure traffic during the page loading, which impacts the practicality of these attacks. The WF performance is rather low under dynamic network conditions and various WF defenses, particularly when the analyzed traffic is only a small part of the complete traffic. In this paper, we propose Holmes, a robust and reliable early-stage WF attack. Holmes utilizes temporal and spatial distribution analysis of website traffic to effectively identify websites in the early stages of page loading. Specifically, Holmes develops adaptive data augmentation based on the temporal distribution of website traffic and utilizes a supervised contrastive learning method to extract the correlations between the early-stage traffic and the pre-collected complete traffic. Holmes accurately identifies traffic in the early stages of page loading by computing the correlation of the traffic with the spatial distribution information, which ensures robust and reliable detection according to early-stage traffic. We extensively evaluate Holmes using six datasets. Compared to nine existing DL-based WF attacks, Holmes improves the F1-score of identifying early-stage traffic by an average of 169.18%. Furthermore, we replay the traffic of visiting real-world dark web websites. Holmes successfully identifies dark web websites when the ratio of page loading on average is only 21.71%, with an average precision improvement of 169.36% over the existing WF attacks. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# PointViG: 効率的なポイントクラウド分析のための軽量GNNベースモデル
PointViG: A Lightweight GNN-based Model for Efficient Point Cloud Analysis ( http://arxiv.org/abs/2407.00921v1 ) ライセンス: Link先を確認 | Qiang Zheng, Yafei Qi, Chen Wang, Chao Zhang, Jian Sun, | (参考訳) ポイントクラウド分析の分野では、複雑な3Dデータセットの管理におけるグラフニューラルネットワーク(GNN)の重大な機能にもかかわらず、既存のアプローチでは、高い計算コストや広範なシナリオでのスケーラビリティの問題といった課題に直面している。
これらの制限は、特にリソース制約のある環境でのGNNの実践的な展開を制限する。
これらの課題に対処するために, ポイントクラウド解析のための効率的なフレームワークである<b>Point<\b><b>Vi<\b>sion <b>G<\b>NN(PointViG)を紹介する。
PointViGには軽量なグラフ畳み込みモジュールが組み込まれている。
本研究では,大規模クラウドシーンに対して,セマンティックな相関関係に基づいて隣接ノードを探索する適応的拡張グラフ畳み込み手法を提案し,受容場の拡大と計算効率の確保を図る。
実験によると、PointViGはパフォーマンスと複雑さのバランスをとりながら、最先端のモデルに匹敵するパフォーマンスを達成する。
ModelNet40の分類タスクでは、PointViGは1.5Mパラメータで94.3%の精度を達成した。
S3DISセグメンテーションタスクでは、5.3Mパラメータで71.7%のmIoUを達成した。
これらの結果は点雲解析におけるPointViGの可能性と効率を裏付けるものである。
In the domain of point cloud analysis, despite the significant capabilities of Graph Neural Networks (GNNs) in managing complex 3D datasets, existing approaches encounter challenges like high computational costs and scalability issues with extensive scenarios. These limitations restrict the practical deployment of GNNs, notably in resource-constrained environments. To address these issues, this study introduce <b>Point<\b> <b>Vi<\b>sion <b>G<\b>NN (PointViG), an efficient framework for point cloud analysis. PointViG incorporates a lightweight graph convolutional module to efficiently aggregate local features and mitigate over-smoothing. For large-scale point cloud scenes, we propose an adaptive dilated graph convolution technique that searches for sparse neighboring nodes within a dilated neighborhood based on semantic correlation, thereby expanding the receptive field and ensuring computational efficiency. Experiments demonstrate that PointViG achieves performance comparable to state-of-the-art models while balancing performance and complexity. On the ModelNet40 classification task, PointViG achieved 94.3% accuracy with 1.5M parameters. For the S3DIS segmentation task, it achieved an mIoU of 71.7% with 5.3M parameters. These results underscore the potential and efficiency of PointViG in point cloud analysis. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# AI時代の警戒:コンテンツ生成からコンテンツ認証へ
Staying vigilant in the Age of AI: From content generation to content authentication ( http://arxiv.org/abs/2407.00922v1 ) ライセンス: Link先を確認 | Yufan Li, Zhan Wang, Theo Papatheodorou, | (参考訳) 本稿では,GAI(Generative AI)が生成した偽コンテントとの戦いにおけるイニシアチブであるYangtze Seaプロジェクトについて述べる。
デジタル時代のプレッシャー問題に対処するため,シミュレーション会議プラットフォームを用いた構造化実験により,AIによる製造に対する公衆の反応を調査した。
本研究は, GAIの現実的な製作能力に注目され, それらの内容を明らかにする上で, 重大な公的な課題であることが示唆された。
これに対応するために,我々はChatGPTのような大規模言語モデルを用いた革新的アプローチを導入している。
日常的なデジタルコンテンツの信頼性を精査するための特定のワークフローを詳述し、偽のメイト・リアルを識別する公共の認識と能力を高めることを目的としている。
このワークフローをTelegramのエージェントボットに適用し、会話を通じてテキストコンテンツの信頼性を識別する。
我々のプロジェクトは、そのダイナミクスを理解するためにフェイクコンテンツを生成し、その影響を軽減するための評価技術を開発するという、2つの戦略をカプセル化しています。
その取り組みの一環として、メガネとクリップオンの形状の推測的事実チェックウェアラブルの開発を提案する。
コンピュートメディアアートイニシアチブとして、このプロジェクトは、技術的進歩、倫理的思いやり、社会的意識の微妙な相互作用を強調している。
This paper presents the Yangtze Sea project, an initiative in the battle against Generative AI (GAI)-generated fake con-tent. Addressing a pressing issue in the digital age, we investigate public reactions to AI-created fabrications through a structured experiment on a simulated academic conference platform. Our findings indicate a profound public challenge in discerning such content, highlighted by GAI's capacity for realistic fabrications. To counter this, we introduce an innovative approach employing large language models like ChatGPT for truthfulness assess-ment. We detail a specific workflow for scrutinizing the authenticity of everyday digital content, aimed at boosting public awareness and capability in identifying fake mate-rials. We apply this workflow to an agent bot on Telegram to help users identify the authenticity of text content through conversations. Our project encapsulates a two-pronged strategy: generating fake content to understand its dynamics and developing assessment techniques to mitigate its impact. As part of that effort we propose the creation of speculative fact-checking wearables in the shape of reading glasses and a clip-on. As a computational media art initiative, this project under-scores the delicate interplay between technological progress, ethical consid-erations, and societal consciousness. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# 問合せエンコーダを英語のみに調整した多言語品質の保存
Preserving Multilingual Quality While Tuning Query Encoder on English Only ( http://arxiv.org/abs/2407.00923v1 ) ライセンス: Link先を確認 | Oleg Vasilyev, Randy Sawaya, John Bohannon, | (参考訳) 濃密な経路検索システムは情報検索の初期段階として機能し、下流タスクの最も関連性の高いテキストパスを選択する。
本研究では,二重エンコーダの問合せ部が英語のみのデータセット(対象ドメインやタスクのクロスリンガルサンプルの不足を前提として)で調整された場合,多言語検索の品質がどの程度劣化するかを調べることを目的とした実験を行った。
具体的には、高品質な多言語埋め込みモデルから始めると、英語のみのチューニングは、多言語検索の本来の品質を保ちつつも、それを改善することができる。
A dense passage retrieval system can serve as the initial stages of information retrieval, selecting the most relevant text passages for downstream tasks. In this work we conducted experiments with the goal of finding how much the quality of a multilingual retrieval could be degraded if the query part of a dual encoder is tuned on an English-only dataset (assuming scarcity of cross-lingual samples for the targeted domain or task). Specifically, starting with a high quality multilingual embedding model, we observe that an English-only tuning may not only preserve the original quality of the multilingual retrieval, but even improve it. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# ExCGEC:中国語の文法的誤り訂正を編集するベンチマーク
EXCGEC: A Benchmark of Edit-wise Explainable Chinese Grammatical Error Correction ( http://arxiv.org/abs/2407.00924v1 ) ライセンス: Link先を確認 | Jingheng Ye, Shang Qin, Yinghui Li, Xuxin Cheng, Libo Qin, Hai-Tao Zheng, Peng Xing, Zishan Xu, Guo Cheng, Zhao Wei, | (参考訳) 既存の研究では、文法的誤り訂正(GEC)の限られたシナリオにおける説明可能性について検討しており、修正と説明の間の相互作用を無視している。
本稿では,このギャップを埋めるために,修正タスクと説明タスクの両立に焦点をあてたEXGEC(Explainable GEC)の課題を紹介する。
そこで本研究では,8,216個の説明拡張サンプルからなる中国語EXGECの最適化されたベンチマークであるEXCGECを提案する。
複数の LLM を複数の設定でベンチマークし、説明後および説明前を網羅する。
タスクの開発を促進するために,自動メトリクスの包括的スイートを導入し,人間の評価実験を行い,自由文説明のための自動メトリクスの人間の一貫性を実証する。
すべてのコードとデータは、レビュー後にリリースされる。
Existing studies explore the explainability of Grammatical Error Correction (GEC) in a limited scenario, where they ignore the interaction between corrections and explanations. To bridge the gap, this paper introduces the task of EXplainable GEC (EXGEC), which focuses on the integral role of both correction and explanation tasks. To facilitate the task, we propose EXCGEC, a tailored benchmark for Chinese EXGEC consisting of 8,216 explanation-augmented samples featuring the design of hybrid edit-wise explanations. We benchmark several series of LLMs in multiple settings, covering post-explaining and pre-explaining. To promote the development of the task, we introduce a comprehensive suite of automatic metrics and conduct human evaluation experiments to demonstrate the human consistency of the automatic metrics for free-text explanations. All the codes and data will be released after the review. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# パラメータ境界ベイズネットの学習可能性
Learnability of Parameter-Bounded Bayes Nets ( http://arxiv.org/abs/2407.00927v1 ) ライセンス: Link先を確認 | Arnab Bhattacharyya, Davin Choo, Sutanu Gayen, Dimitrios Myrisiotis, | (参考訳) ベイズネットは実際には、ランダム変数の集合上の結合確率分布を効率的に表現し、依存関係を捉えるために広く使われている。
Chickering et al (JMLR 2004) は、ベイズネットの辺分布として定義される分布$P$が与えられたとき、パラメータ有界ベイズネットが存在するかどうかを決定するために$\mathsf{NP}$-hardであることを示した。
彼らはこの問題をLEARNと呼んだ。
本研究では、LEARN の $\mathsf{NP}$-hardness 結果を拡張し、LEARN のpromise search variant の $\mathsf{NP}$-hardness を証明する。
パラメータ有界ベイズネットをパラメータ有界ベイズネット(EC 2020)で表される所定の分布に(テレビ距離で)近接するパラメータ有界ベイズネットを復元するのに十分であるサンプル複雑性に関する正の結果を補う。
Bayes nets are extensively used in practice to efficiently represent joint probability distributions over a set of random variables and capture dependency relations. In a seminal paper, Chickering et al. (JMLR 2004) showed that given a distribution $P$, that is defined as the marginal distribution of a Bayes net, it is $\mathsf{NP}$-hard to decide whether there is a parameter-bounded Bayes net that represents $P$. They called this problem LEARN. In this work, we extend the $\mathsf{NP}$-hardness result of LEARN and prove the $\mathsf{NP}$-hardness of a promise search variant of LEARN, whereby the Bayes net in question is guaranteed to exist and one is asked to find such a Bayes net. We complement our hardness result with a positive result about the sample complexity that is sufficient to recover a parameter-bounded Bayes net that is close (in TV distance) to a given distribution $P$, that is represented by some parameter-bounded Bayes net, generalizing a degree-bounded sample complexity result of Brustle et al. (EC 2020). | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# FoldGPT: 単純で効果的な大言語モデル圧縮方式
FoldGPT: Simple and Effective Large Language Model Compression Scheme ( http://arxiv.org/abs/2407.00928v1 ) ライセンス: Link先を確認 | Songwei Liu, Chao Zeng, Lianqiang Li, Chenqian Yan, Lean Fu, Xing Mei, Fangmin Chen, | (参考訳) モバイルデバイスに大規模言語モデル(LLM)をデプロイする需要は、データセキュリティの懸念とクラウドコストの増大によって、引き続き増大している。
しかし、ネットワーク帯域幅とメモリ制限は、モバイルデバイスに数十億レベルのモデルをデプロイする上で問題となる。
本研究では,LLMの様々なスケールの異なる層の出力について検討し,多くの層の出力に顕著な類似性があることを見出した。
さらに、モデルサイズが大きくなるにつれて、この類似性はより顕著になり、LLMの深さ方向のかなりの冗長性を示す。
本研究では,ブロック除去とブロックパラメータ共有を組み合わせたFoldGPTと呼ばれる効率的なモデルボリューム圧縮戦略を提案し,(1)学習可能なゲーティングパラメータに基づいてブロック間の結合効果をモデル化しながらブロック重要度ランキングを決定する。
そして、与えられた削除率に基づいて、いくつかの冗長なレイヤを削除する。
2) 保持ブロックに対して,同じグループ内のブロックが同一重みを共有し,パラメータの数を著しく圧縮し,遅延オーバーヘッドをわずかに低減する,特別に設計されたグループパラメータ共有戦略を適用する。
(3) これらのブロックを共有した後, わずかな微調整量で疎水性に起因するミスマッチを「修正」し, テール層蒸留法を導入し, 性能改善を図る。
実験により、FoldGPTは従来の最先端(SOTA)手法よりも効率的なモデル圧縮に優れており、単純なブロック除去とパラメータ共有によるモデル軽量化の実現可能性を示している。
The demand for deploying large language models(LLMs) on mobile devices continues to increase, driven by escalating data security concerns and cloud costs. However, network bandwidth and memory limitations pose challenges for deploying billion-level models on mobile devices. In this study, we investigate the outputs of different layers across various scales of LLMs and found that the outputs of most layers exhibit significant similarity. Moreover, this similarity becomes more pronounced as the model size increases, indicating substantial redundancy in the depth direction of the LLMs. Based on this observation, we propose an efficient model volume compression strategy, termed FoldGPT, which combines block removal and block parameter sharing.This strategy consists of three parts: (1) Based on the learnable gating parameters, we determine the block importance ranking while modeling the coupling effect between blocks. Then we delete some redundant layers based on the given removal rate. (2) For the retained blocks, we apply a specially designed group parameter sharing strategy, where blocks within the same group share identical weights, significantly compressing the number of parameters and slightly reducing latency overhead. (3) After sharing these Blocks, we "cure" the mismatch caused by sparsity with a minor amount of fine-tuning and introduce a tail-layer distillation strategy to improve the performance. Experiments demonstrate that FoldGPT outperforms previous state-of-the-art(SOTA) methods in efficient model compression, demonstrating the feasibility of achieving model lightweighting through straightforward block removal and parameter sharing. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# フラストレーション三角格子における$p$バンド超低温フェルミオンの軌道位相
Orbital phases of $p$-band ultracold fermions in the frustrated triangular lattice ( http://arxiv.org/abs/2407.00932v1 ) ライセンス: Link先を確認 | Jiaqi Wu, Hui Tan, Rui Cao, Jianmin Yuan, Yongqiang Li, | (参考訳) 軌道自由度は、伝統的でない量子相の出現を理解する上で重要な役割を果たす。
光格子中の超低温の原子ガスは、軌道物理学をシミュレートするための素晴らしいプラットフォームを提供する。
本研究では、スピンレスフェルミオン原子を2次元フラストレーションされた三角形格子の$p$オービタルバンドにロードする。
このシステムは、実空間力学平均場理論の軌道バージョンを用いて数値的に解決される拡張フェルミ・ハバードモデルによって記述することができる。
異方性ホッピングと幾何学的フラストレーションの相互作用により、ストライプ、フェロ、パラ軌道秩序量子相を含む低温相図が得られた。
競合する軌道秩序の基盤となる力学を理解するために、有効な軌道交換モデルが導出され、主要な数値結果と一貫した説明が得られる。
Orbital degrees of freedom play an important role for understanding the emergence of unconventional quantum phases. Ultracold atomic gases in optical lattices provide a wonderful platform to simulate orbital physics. In this work, we consider spinless fermionic atoms loaded into $p$-orbital bands of a two-dimensional frustrated triangular lattice. The system can be described by an extended Fermi-Hubbard model, which is numerically solved by using the orbital version of real-space dynamical mean-field theory. Low-temperature phase diagrams are obtained, which contain stripe-, ferro- and para-orbital ordered quantum phases, due to the interplay of anisotropic hoppings and geometrical frustration. In order to understand the underlying mechanics of competing orbital orders, we derive an effective orbital-exchange model, which yields consistent explanation with our main numerical results. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# CLEME2.0:文法的誤り訂正のための拡張編集によるより解釈可能な評価を目指して
CLEME2.0: Towards More Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction ( http://arxiv.org/abs/2407.00934v1 ) ライセンス: Link先を確認 | Jingheng Ye, Zishan Xu, Yinghui Li, Xuxin Cheng, Linlin Song, Qingyu Zhou, Hai-Tao Zheng, Ying Shen, Xin Su, | (参考訳) 本稿では,従来の研究ではほとんど注目されていない文法的誤り補正(GEC)メトリクスの解釈可能性の向上に焦点をあてる。
このギャップを埋めるために、我々は、GECシステムの4つの基本次元、すなわち、ヒット補正、エラー補正、アンダー補正、オーバー補正を記述できる基準ベースの評価戦略であるCLEME2.0を提案する。
それらは総合的に、GECシステムの重要な特徴を明らかにし、欠点を特定することに寄与している。
これらの次元を組み合わせることでシステムを評価することは、他の参照ベースおよび参照レスメトリクスよりも高い一貫性をもたらす。
2つの人的判断データセットと6つの基準データセットに関する大規模な実験により,本手法の有効性とロバスト性を実証した。
ピアレビューの後、すべてのコードがリリースされる。
The paper focuses on improving the interpretability of Grammatical Error Correction (GEC) metrics, which receives little attention in previous studies. To bridge the gap, we propose CLEME2.0, a reference-based evaluation strategy that can describe four elementary dimensions of GEC systems, namely hit-correction, error-correction, under-correction, and over-correction. They collectively contribute to revealing the critical characteristics and locating drawbacks of GEC systems. Evaluating systems by Combining these dimensions leads to high human consistency over other reference-based and reference-less metrics. Extensive experiments on 2 human judgement datasets and 6 reference datasets demonstrate the effectiveness and robustness of our method. All the codes will be released after the peer review. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# 見回すか見回すか? 自己回帰と仮面前訓練の理論的比較
Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining ( http://arxiv.org/abs/2407.00935v1 ) ライセンス: Link先を確認 | Qi Zhang, Tianqi Du, Haotian Huang, Yifei Wang, Yisen Wang, | (参考訳) 近年、生成的自己教師型学習(SSL)パラダイムの台頭は、視覚、言語、マルチモーダルドメインにまたがる顕著なパフォーマンスを示している。
生成的SSL目的の様々な設計は下流のタスクにおいて異なる特性をもたらすが、これらの違いに関する理論的理解はほとんど未解明のままである。
本稿では,自己回帰型SSLとマスク型SSLの2つの主要な生成的SSLパラダイム間の最初の理論的比較を確立する。
理論的な枠組みを確立することにより、分類とコンテンツ生成の主要な評価タスクにおいて、自己回帰とマスク付きSSLの長所と短所を解明する。
分類タスクにおいて,マスクされたSSLにおけるターゲットトークンの柔軟性は,自己回帰型SSLにおけるターゲットトークンの固定位置と比較して,より多くのサンプル間接続が促進され,クラスタリング性能が向上することを示す。
コンテンツ生成タスクでは、テストサンプルの柔軟な長さとマスク付きSSL(vs. 自己回帰SSLにおける条件付きテキストの柔軟な長さ)の固定長との相違が、その生成性能を妨げる。
本研究では,自己回帰型SSLの分類性能とマスク型SSLの生成性能を大幅に向上させる,多様性向上型自己回帰型および可変長マスク型目標を提案する。
コードはhttps://github.com/PKU-ML/LookAheadLookAround.comで入手できる。
In recent years, the rise of generative self-supervised learning (SSL) paradigms has exhibited impressive performance across visual, language, and multi-modal domains. While the varied designs of generative SSL objectives lead to distinct properties in downstream tasks, a theoretical understanding of these differences remains largely unexplored. In this paper, we establish the first theoretical comparisons between two leading generative SSL paradigms: autoregressive SSL and masked SSL. Through establishing theoretical frameworks, we elucidate the strengths and limitations of autoregressive and masked SSL within the primary evaluation tasks of classification and content generation. Our findings demonstrate that in classification tasks, the flexibility of targeted tokens in masked SSL fosters more inter-sample connections compared to the fixed position of target tokens in autoregressive SSL, which yields superior clustering performance. In content generation tasks, the misalignment between the flexible lengths of test samples and the fixed length of unmasked texts in masked SSL (vs. flexible lengths of conditional texts in autoregressive SSL) hinders its generation performance. To leverage each other's strengths and mitigate weaknesses, we propose diversity-enhanced autoregressive and variable-length masked objectives, which substantially improve the classification performance of autoregressive SSL and the generation performance of masked SSL. Code is available at https://github.com/PKU-ML/LookAheadLookAround. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# 大規模言語モデルによる知識表現学習の強化に関する調査
Large Language Model Enhanced Knowledge Representation Learning: A Survey ( http://arxiv.org/abs/2407.00936v1 ) ライセンス: Link先を確認 | Xin Wang, Zirui Chen, Haofen Wang, Leong Hou U, Zhao Li, Wenbin Guo, | (参考訳) 大言語モデル(LLM)と知識表現学習(KRL)の統合は、人工知能の分野における重要な進歩を意味し、複雑な知識構造を捕捉し活用する能力を高める。
このシナジーは、LLMの高度な言語的および文脈的理解能力を活用して、KRLの精度、適応性、有効性を改善し、その応用と可能性を広げる。
知識表現領域にLLMを埋め込むことに焦点をあてる研究が増えているが、これらの強化モデルの基本的な構成要素とプロセスを調べる徹底的なレビューは、目立って欠落している。
3つの異なるトランスフォーマーアーキテクチャに基づいてこれらのモデルを分類し、様々なKRL下流タスクからの実験データを解析し、それぞれのアプローチの長所と短所を評価することで、この問題に対処する。
最後に、この未発見領域における将来的な研究の方向性を特定し、探求し、継続的な進展の道筋を提案する。
The integration of Large Language Models (LLMs) with Knowledge Representation Learning (KRL) signifies a pivotal advancement in the field of artificial intelligence, enhancing the ability to capture and utilize complex knowledge structures. This synergy leverages the advanced linguistic and contextual understanding capabilities of LLMs to improve the accuracy, adaptability, and efficacy of KRL, thereby expanding its applications and potential. Despite the increasing volume of research focused on embedding LLMs within the domain of knowledge representation, a thorough review that examines the fundamental components and processes of these enhanced models is conspicuously absent. Our survey addresses this by categorizing these models based on three distinct Transformer architectures, and by analyzing experimental data from various KRL downstream tasks to evaluate the strengths and weaknesses of each approach. Finally, we identify and explore potential future research directions in this emerging yet underexplored domain, proposing pathways for continued progress. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# MalAlgoQA: 対実的推論能力評価のための教育的アプローチ
MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities ( http://arxiv.org/abs/2407.00938v1 ) ライセンス: Link先を確認 | Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk, | (参考訳) 本稿では,Large Language Models (LLM) の対実的推論能力を評価するための新しいデータセットであるMalAlgoQAを紹介する。
データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。
我々は、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を提供する「マルゴリズム」と呼ばれる。
また,LLMを不正確な解答を選択すると,対応する誤答を識別する能力に基づいて評価するMalgorithm Identificationタスクを提案する。
モデル性能を評価するために,正解理性同定のためのアルゴリズム同定精度(AIA)と正解理性同定のための誤解法同定精度(MIA)の2つの指標を導入する。
現状のLLMでは、AIAと比較してMIAが大幅に低下しているため、この課題は難しい。
さらに,このチェーン・オブ・シークレット・プロンプト技術はMIAを継続的に向上させるだけでなく,単純なプロンプトに比べて性能の低下につながることも見出した。
これらの知見は, 学生の誤解の理解と是正が不可欠である教育的視点を通じて, 対実的推論能力を改善するために, より認知的に着想を得たLLMの開発に重要な意味を持つ。
This paper introduces MalAlgoQA, a novel dataset designed to evaluate the counterfactual reasoning capabilities of Large Language Models (LLMs) through a pedagogical approach. The dataset comprises mathematics and reading comprehension questions, each accompanied by four answer choices and their corresponding rationales. We focus on the incorrect answer rationales, termed "malgorithms", which highlights flawed reasoning steps leading to incorrect answers and offers valuable insights into erroneous thought processes. We also propose the Malgorithm Identification task, where LLMs are assessed based on their ability to identify corresponding malgorithm given an incorrect answer choice. To evaluate the model performance, we introduce two metrics: Algorithm Identification Accuracy (AIA) for correct answer rationale identification, and Malgorithm Identification Accuracy (MIA) for incorrect answer rationale identification. The task is challenging since state-of-the-art LLMs exhibit significant drops in MIA as compared to AIA. Moreover, we find that the chain-of-thought prompting technique not only fails to consistently enhance MIA, but can also lead to underperformance compared to simple prompting. These findings hold significant implications for the development of more cognitively-inspired LLMs to improve their counterfactual reasoning abilities, particularly through a pedagogical perspective where understanding and rectifying student misconceptions are crucial. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# マルチモーダル最適化のための修正CMA-ESアルゴリズム:ニッチ戦略と動的適応機構の導入
Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism ( http://arxiv.org/abs/2407.00939v1 ) ライセンス: Link先を確認 | Wathsala Karunarathne, Indu Bala, Dikshit Chauhan, Matthew Roughan, Lewis Mitchell, | (参考訳) 本研究では,多モード最適化問題に対する共分散行列適応進化戦略 (CMA-ES) アルゴリズムを改良する。
この拡張は、複数のグローバルミニマの課題への対処、多様性の維持と複雑なフィットネスランドスケープを探索するアルゴリズムの能力の改善に焦点を当てている。
ニッチ戦略と動的適応機構を取り入れて,複数のグローバル最適化を識別・最適化するアルゴリズムの性能を向上する。
このアルゴリズムは、ステップサイズと共分散行列によって決定されたスプレッドを用いて、現在の平均ベクトルを中心とする多変量正規分布からサンプリングすることで、候補解の集団を生成する。
各ソリューションの適合度は、全地球規模のミニマムへの貢献の重み付けの和として評価され、人口の多様性を維持し、早めの収束を防ぐ。
GECCO 2024 Competition on Benchmarking Niching Methods for Multi-Modal Optimization (MMO) の8つのチューナブル複合関数に対して,提案アルゴリズムを実装した。
結果はPak Ratio, F1 score on various dimensionsなどの様々な方法で提示されている。
彼らは、グローバル最適化とMMO固有の課題の両方を扱うアルゴリズムの堅牢性と有効性を示し、複雑なマルチモーダル最適化問題に対する包括的ソリューションを提供する。
This study modifies the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) algorithm for multi-modal optimization problems. The enhancements focus on addressing the challenges of multiple global minima, improving the algorithm's ability to maintain diversity and explore complex fitness landscapes. We incorporate niching strategies and dynamic adaptation mechanisms to refine the algorithm's performance in identifying and optimizing multiple global optima. The algorithm generates a population of candidate solutions by sampling from a multivariate normal distribution centered around the current mean vector, with the spread determined by the step size and covariance matrix. Each solution's fitness is evaluated as a weighted sum of its contributions to all global minima, maintaining population diversity and preventing premature convergence. We implemented the algorithm on 8 tunable composite functions for the GECCO 2024 Competition on Benchmarking Niching Methods for Multi-Modal Optimization (MMO), adhering to the competition's benchmarking framework. The results are presenting in many ways such as Peak Ratio, F1 score on various dimensions. They demonstrate the algorithm's robustness and effectiveness in handling both global optimization and MMO- specific challenges, providing a comprehensive solution for complex multi-modal optimization problems. | 翻訳日:2024-07-04 00:55:54 公開日:2024-07-01 |
# ProductAgent: 明確化を問う対話型製品検索エージェントのベンチマーク
ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions ( http://arxiv.org/abs/2407.00942v1 ) ライセンス: Link先を確認 | Jingheng Ye, Yong Jiang, Xiaobin Wang, Yinghui Li, Yangning Li, Hai-Tao Zheng, Pengjun Xie, Fei Huang, | (参考訳) 本稿では、ユーザがあいまいな問合せで会話を開始し、タスク指向エージェントは、明確化質問をすることで、より正確でカスタマイズされた製品検索を実現するよう設計されている、e-commercial シナリオにおける製品需要明確化のタスクを紹介する。
この課題に対処するために,戦略的明確化質問生成機能と動的製品検索機能を備えた対話情報探索エージェントProductAgentを提案する。
具体的には、製品特徴の要約、クエリ生成、製品検索のための戦略を持つエージェントを開発する。
さらに,PLM駆動型ユーザシミュレータの助けを借りて,エージェントの性能を自動的かつ定性的に評価するproCLAREというベンチマークを提案する。
実験の結果,ProductAgentはユーザとポジティブに対話し,ユーザの要求が徐々に明確化され,詳細化され,対話のターンが増加することにより検索性能が向上することがわかった。
すべてのソースコードは、レビューの匿名期間後にリリースされる。
This paper introduces the task of product demand clarification within an e-commercial scenario, where the user commences the conversation with ambiguous queries and the task-oriented agent is designed to achieve more accurate and tailored product searching by asking clarification questions. To address this task, we propose ProductAgent, a conversational information seeking agent equipped with abilities of strategic clarification question generation and dynamic product retrieval. Specifically, we develop the agent with strategies for product feature summarization, query generation, and product retrieval. Furthermore, we propose the benchmark called PROCLARE to evaluate the agent's performance both automatically and qualitatively with the aid of a LLM-driven user simulator. Experiments show that ProductAgent interacts positively with the user and enhances retrieval performance with increasing dialogue turns, where user demands become gradually more explicit and detailed. All the source codes will be released after the review anonymity period. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 低線量PET再構成のための小型拡散変圧器モデル
Diffusion Transformer Model With Compact Prior for Low-dose PET Reconstruction ( http://arxiv.org/abs/2407.00944v1 ) ライセンス: Link先を確認 | Bin Huang, Xubiao Liu, Lei Fang, Qiegen Liu, Bingxuan Li, | (参考訳) PET(Positron emission tomography)は、非侵襲的臨床診断において重要な役割を担う高度な医用イメージング技術である。
しかし、低線量PETスキャンによる放射線被曝を減らすことは患者の安全にとって有益であるが、統計データは不十分であることが多い。
このデータの不足は、信頼性の高い診断結果に欠かせない高品質な画像を正確に再構成する上で重要な課題となる。
本研究では,低線量PET画像の再構成品質を高めるために,JCP(Joint compact prior)によって導かれる拡散トランスフォーマーモデルを提案する。
現在の研究成果を踏まえ,拡散モデルと変圧器モデルを統合したPET再構成モデルを提案する。
このモデルは拡散モデルの強力な分布マッピング能力と変圧器の容量を組み合わせて長距離依存を捕捉し、低線量PET再構成に大きな利点をもたらす。
さらに、病変の精製ブロックとPWLSの組み込みにより、病変領域の回復能力が向上し、詳細情報が保存され、病変領域のぼやけた問題や多くの深層学習フレームワークのテクスチャ詳細が解決される。
低用量PETスキャンの画質向上と臨床情報保存におけるDTMの有効性を実験的に検証した。
本手法は放射線曝露リスクを軽減するだけでなく,早期診断や患者管理のためのPETイメージングツールも提供する。
Positron emission tomography (PET) is an advanced medical imaging technique that plays a crucial role in non-invasive clinical diagnosis. However, while reducing radiation exposure through low-dose PET scans is beneficial for patient safety, it often results in insufficient statistical data. This scarcity of data poses significant challenges for accurately reconstructing high-quality images, which are essential for reliable diagnostic outcomes. In this research, we propose a diffusion transformer model (DTM) guided by joint compact prior (JCP) to enhance the reconstruction quality of low-dose PET imaging. In light of current research findings, we present a pioneering PET reconstruction model that integrates diffusion and transformer models for joint optimization. This model combines the powerful distribution mapping abilities of diffusion models with the capacity of transformers to capture long-range dependencies, offering significant advantages for low-dose PET reconstruction. Additionally, the incorporation of the lesion refining block and penalized weighted least squares (PWLS) enhance the recovery capability of lesion regions and preserves detail information, solving blurring problems in lesion areas and texture details of most deep learning frameworks. Experimental results demonstrate the effectiveness of DTM in enhancing image quality and preserving critical clinical information for low-dose PET scans. Our approach not only reduces radiation exposure risks but also provides a more reliable PET imaging tool for early disease detection and patient management. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# Sparse Mixture-of-Experts言語モデルのための効率的なエキスパートプランニング:パフォーマンスの向上と推論コストの削減
Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs ( http://arxiv.org/abs/2407.00945v1 ) ライセンス: Link先を確認 | Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang, | (参考訳) 大規模言語モデル(LLM)の急速な進歩により、数十億から数兆のパラメータを持つアーキテクチャが実現し、メモリ、処理能力、エネルギー消費に対する大きな需要があるため、大規模なデプロイメントが困難になっている。
SMOE(Sparse Mixture-of-Experts)アーキテクチャがソリューションとして登場し、トークン当たりのパラメータのサブセットのみを活性化し、パフォーマンスを維持しながら高速な推論を実現する。
しかしながら、SMoEモデルは、大きなパラメータ数と重要なGPUメモリ要件のために、より広範なデプロイメントにおいて制限に直面している。
本研究では,SMoEモデルのエキスパートの育成を促進するため,EEP(Efficient Expert P}runing)と呼ばれる勾配のない進化戦略を導入する。
EEPはモデル推論(すなわち勾配計算なし)にのみ依存し、下流タスクのパフォーマンスを維持したり改善したりしながら、より大きな疎性を達成する。
EEPは、専門家(GPUメモリを節約する)の総数と、アクティブエキスパート(推論を加速する)の数を削減できる。
例えば、Mixtral 8\times 7$B-Instructで75%のエキスパートをプルーニングすると、パフォーマンスロスを最小限に抑えたパラメータが大幅に減少することを示した。
SQuADデータセット(53.4%から75.4%)の精度が大幅に向上するなど,特定のタスクのパフォーマンス向上を観察する。
これらの結果により、EEPはSMoEモデルをデプロイする障壁を低くするだけでなく、より少ない専門家が微調整なしでタスク固有のパフォーマンスを向上できることを示すことによって、従来のモデルプルーニングの理解にも挑戦する。
コードはhttps://github.com/imagination-research/EEP.comで公開されている。
The rapid advancement of large language models (LLMs) has led to architectures with billions to trillions of parameters, posing significant deployment challenges due to their substantial demands on memory, processing power, and energy consumption. Sparse Mixture-of-Experts (SMoE) architectures have emerged as a solution, activating only a subset of parameters per token, thereby achieving faster inference while maintaining performance. However, SMoE models still face limitations in broader deployment due to their large parameter counts and significant GPU memory requirements. In this work, we introduce a gradient-free evolutionary strategy named EEP (Efficient Expert P}runing) to enhance the pruning of experts in SMoE models. EEP relies solely on model inference (i.e., no gradient computation) and achieves greater sparsity while maintaining or even improving performance on downstream tasks. EEP can be used to reduce both the total number of experts (thus saving GPU memory) and the number of active experts (thus accelerating inference). For example, we demonstrate that pruning up to 75% of experts in Mixtral $8\times7$B-Instruct results in a substantial reduction in parameters with minimal performance loss. Remarkably, we observe improved performance on certain tasks, such as a significant increase in accuracy on the SQuAD dataset (from 53.4% to 75.4%), when pruning half of the experts. With these results, EEP not only lowers the barrier to deploying SMoE models,but also challenges the conventional understanding of model pruning by showing that fewer experts can lead to better task-specific performance without any fine-tuning. Code is available at https://github.com/imagination-research/EEP. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# ハウスは常に勝利する: LLMにおける戦略的偽証を評価するためのフレームワーク
The House Always Wins: A Framework for Evaluating Strategic Deception in LLMs ( http://arxiv.org/abs/2407.00948v1 ) ライセンス: Link先を確認 | Tanush Chopra, Michael Li, | (参考訳) 本稿では,大規模言語モデル (LLM) における戦略的騙しを評価するための枠組みを提案する。
このフレームワークでは、LLMは2つのシナリオでゲームマスターとして機能し、1つはランダムなゲームメカニックを持ち、もう1つはランダムまたは故意のアクションを選択できる。
例えば、アクションスペースや戦略が騙されるため、ブラックジャックを使用します。
我々は、Llama3-70B、GPT-4-Turbo、Mixtralをブラックジャックでベンチマークし、フェアプレイにおける期待分布に対する結果を比較し、LLMが「家」を支持する戦略を開発するかどうかを判断する。
その結果,LLMは無作為なシナリオにおける戦略的操作の傾向を示唆する暗黙のランダム性指示を受けると,フェアプレイから著しく逸脱することが明らかとなった。
しかし、明示的に選択された場合、LLMはフェアプレイに大きく依存しており、命令のフレーミングがAIシステムにおける潜在的な欺く行為を誘発または緩和する上で重要な役割を担っていることを示している。
We propose a framework for evaluating strategic deception in large language models (LLMs). In this framework, an LLM acts as a game master in two scenarios: one with random game mechanics and another where it can choose between random or deliberate actions. As an example, we use blackjack because the action space nor strategies involve deception. We benchmark Llama3-70B, GPT-4-Turbo, and Mixtral in blackjack, comparing outcomes against expected distributions in fair play to determine if LLMs develop strategies favoring the "house." Our findings reveal that the LLMs exhibit significant deviations from fair play when given implicit randomness instructions, suggesting a tendency towards strategic manipulation in ambiguous scenarios. However, when presented with an explicit choice, the LLMs largely adhere to fair play, indicating that the framing of instructions plays a crucial role in eliciting or mitigating potentially deceptive behaviors in AI systems. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# SpectralKAN: ハイパースペクトル画像変化検出のためのKolmogorov-Arnoldネットワーク
SpectralKAN: Kolmogorov-Arnold Network for Hyperspectral Images Change Detection ( http://arxiv.org/abs/2407.00949v1 ) ライセンス: Link先を確認 | Yanheng Wang, Xiaohan Yu, Yongsheng Gao, Jianjun Sha, Jian Wang, Lianru Gao, Yonggang Zhang, Xianhui Rong, | (参考訳) 畳み込みニューラルネットワーク(CNN)、グラフニューラルネットワーク(GNN)、トランスフォーマーなどのディープラーニング手法が、ハイパースペクトル画像(HSI)から特徴を正確に抽出できることが確認されている。
これらのアルゴリズムは、HSIs Change Detection (HSIs-CD) において非常によく機能する。
しかし、これらの印象的な結果の欠点は、膨大な数のパラメータ、FLOP、GPUメモリ、トレーニング、テスト時間である。
本稿では,HSIs-CD(SpectralKAN)のためのスペクトルKolmogorov-Arnoldネットワークを提案する。
SpectralKANは、HSIの特徴と分類を抽出する活性化関数からなる多変量連続関数を表す。
これらの活性化関数は、様々な関数をシミュレートできる異なるパラメータを持つb-スプライン関数である。
SpectralKANでは,HSIの計算効率を向上させるためにkanエンコーダが提案されている。
また、空間スペクトルKANエンコーダを導入し、空間特徴を抽出し、パッチサイズから1までの空間次元を圧縮する。
スペクトルカンエンコーダは、スペクトル特徴を抽出し、変化・変化しないカテゴリに分類する。
5つのHSIs-CDデータセットを用いてSpectralKANの有効性を検証する。
実験的検証により、SpectralKANはパラメータ、FLOP、GPUメモリ、トレーニングとテスト時間が少なく、高いHSIs-CD精度を維持しており、その結果、HSIs-CDの効率が向上することが示された。
コードはhttps://github.com/yanhengwang-heu/SpectralKANで入手できる。
It has been verified that deep learning methods, including convolutional neural networks (CNNs), graph neural networks (GNNs), and transformers, can accurately extract features from hyperspectral images (HSIs). These algorithms perform exceptionally well on HSIs change detection (HSIs-CD). However, the downside of these impressive results is the enormous number of parameters, FLOPs, GPU memory, training and test times required. In this paper, we propose an spectral Kolmogorov-Arnold Network for HSIs-CD (SpectralKAN). SpectralKAN represent a multivariate continuous function with a composition of activation functions to extract HSIs feature and classification. These activation functions are b-spline functions with different parameters that can simulate various functions. In SpectralKAN, a KAN encoder is proposed to enhance computational efficiency for HSIs. And a spatial-spectral KAN encoder is introduced, where the spatial KAN encoder extracts spatial features and compresses the spatial dimensions from patch size to one. The spectral KAN encoder then extracts spectral features and classifies them into changed and unchanged categories. We use five HSIs-CD datasets to verify the effectiveness of SpectralKAN. Experimental verification has shown that SpectralKAN maintains high HSIs-CD accuracy while requiring fewer parameters, FLOPs, GPU memory, training and testing times, thereby increasing the efficiency of HSIs-CD. The code will be available at https://github.com/yanhengwang-heu/SpectralKAN. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 因果帯域:適応性のパレート最適フロンティア、線形帯域削減、未知のマルジナル周辺の制限
Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals ( http://arxiv.org/abs/2407.00950v1 ) ライセンス: Link先を確認 | Ziyi Liu, Idan Attias, Daniel M. Roy, | (参考訳) 本研究では,多腕バンディット問題における因果構造の有無に適応する問題について検討する。
通常の報奨信号に加えて、学習者は行動後に各ラウンドで観察される追加変数にアクセスできると仮定する。
これらの変数$d$-が報酬からアクションを分離する場合、因果的盗賊の既存の研究は、後悔の程度(Lu et al , 2020)を厳密に改善できることを示した。
我々のゴールは、環境に存在している場合、この好ましい「条件付良性」構造に適応し、そうでなければ最悪のミニマックスの後悔を同時に回復することである。
特に、学習者は、好意的な構造が持つかどうかについての事前の知識を持たない。
本稿では,適応率のパレート最適フロンティアを確立する。
条件付良性および任意環境における学習性能のトレードオフについて,ビロドーら (2022) が提起したオープンな疑問を解き, 上界と下界との整合性を証明した。
さらに,この問題を線形帯域設定に還元することにより,最初に因果帯域のインスタンス依存境界を求める。
最後に, 反応後の文脈の限界分布が知られているという一般的な仮定を考察し, 非自明な推定値が必要であることを示す。
In this work, we investigate the problem of adapting to the presence or absence of causal structure in multi-armed bandit problems. In addition to the usual reward signal, we assume the learner has access to additional variables, observed in each round after acting. When these variables $d$-separate the action from the reward, existing work in causal bandits demonstrates that one can achieve strictly better (minimax) rates of regret (Lu et al., 2020). Our goal is to adapt to this favorable "conditionally benign" structure, if it is present in the environment, while simultaneously recovering worst-case minimax regret, if it is not. Notably, the learner has no prior knowledge of whether the favorable structure holds. In this paper, we establish the Pareto optimal frontier of adaptive rates. We prove upper and matching lower bounds on the possible trade-offs in the performance of learning in conditionally benign and arbitrary environments, resolving an open question raised by Bilodeau et al. (2022). Furthermore, we are the first to obtain instance-dependent bounds for causal bandits, by reducing the problem to the linear bandit setting. Finally, we examine the common assumption that the marginal distributions of the post-action contexts are known and show that a nontrivial estimate is necessary for better-than-worst-case minimax rates. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# SplitLoRA: 大規模言語モデルのための分割パラメータ効率の良いファインチューニングフレームワーク
SplitLoRA: A Split Parameter-Efficient Fine-Tuning Framework for Large Language Models ( http://arxiv.org/abs/2407.00952v1 ) ライセンス: Link先を確認 | Zheng Lin, Xuanjie Hu, Yuxin Zhang, Zhe Chen, Zihan Fang, Xianhao Chen, Ang Li, Praneeth Vepakomma, Yue Gao, | (参考訳) 大規模言語モデル(LLM)の高複雑性モデルと大規模データセットを扱うスケーラビリティは、重要な領域において大きな成功を収めている。
LLMのためのより多くのトレーニングデータを取得する必要があるが、懸念される現実は、数年以内に高品質な公開データセットが枯渇することである。
この観点から、最近、複数のデータ所有者が生データを共有せずに共有LLMを協調的に微調整する分散プライベートデータ上で、協調LLMの微調整を容易にするために、FL(Federated Learning) LLMファインチューニングパラダイムが提案されている。
しかし、LDMの停滞するモデルサイズは、クライアントに重い計算と通信負荷を課し、FL LLMファインチューニングパラダイムの民主化に重大な障壁を生じさせる。
この問題に対処するために、スプリットラーニング(SL)は、LLM全体ではなく、より小さなデータサイズでアクティベーション/アクティベーションの勾配を交換しながら、モデルのパーティショニングを通じて、最初のトレーニングワークロードをサーバにオフロードすることで、有望なソリューションとして現れました。
残念ながら、SL LLMファインチューニングパラダイムの研究はまだ初期段階にある。
本稿では,このギャップを埋めるために,最初のSL LLMファインチューニングフレームワークであるSplitLoRAを提案する。
SplitLoRAはSFLフレームワーク上に構築されており、FLからの並列トレーニングとSLからのモデル分割の利点を融合させ、トレーニング効率を大幅に向上させる。
SplitLoRAはSL LLMファインチューニングの初歩的なオープンソースベンチマークであり、SL LLMファインチューニングの推進を目的とした研究の基盤となっている点に注意が必要だ。
大規模なシミュレーションにより、SplitLoRAは最先端のLLM微調整フレームワークよりもはるかに少ない時間で目標精度を達成でき、SplitLoRAの優れたトレーニング性能を示す。
プロジェクトページはhttps://fduinc.github.io/splitlora/で公開されている。
The scalability of large language models (LLMs) in handling high-complexity models and large-scale datasets has led to tremendous successes in pivotal domains. While there is an urgent need to acquire more training data for LLMs, a concerning reality is the depletion of high-quality public datasets within a few years. In view of this, the federated learning (FL) LLM fine-tuning paradigm recently has been proposed to facilitate collaborative LLM fine-tuning on distributed private data, where multiple data owners collaboratively fine-tune a shared LLM without sharing raw data. However, the staggering model size of LLMs imposes heavy computing and communication burdens on clients, posing significant barriers to the democratization of the FL LLM fine-tuning paradigm. To address this issue, split learning (SL) has emerged as a promising solution by offloading the primary training workload to a server via model partitioning while exchanging activation/activation's gradients with smaller data sizes rather than the entire LLM. Unfortunately, research on the SL LLM fine-tuning paradigm is still in its nascent stage. To fill this gap, in this paper, we propose the first SL LLM fine-tuning framework, named SplitLoRA. SplitLoRA is built on the split federated learning (SFL) framework, amalgamating the advantages of parallel training from FL and model splitting from SL and thus greatly enhancing the training efficiency. It is worth noting that SplitLoRA is the inaugural open-source benchmark for SL LLM fine-tuning, providing a foundation for research efforts dedicated to advancing SL LLM fine-tuning. Extensive simulations validate that SplitLoRA achieves target accuracy in significantly less time than state-of-the-art LLM fine-tuning frameworks, demonstrating the superior training performance of SplitLoRA. The project page is available at https://fduinc.github.io/splitlora/. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# Zボソンの仮想励起から生じるニュートリノ振動
Neutrino oscillations originate from virtual excitation of Z bosons ( http://arxiv.org/abs/2407.00954v1 ) ライセンス: Link先を確認 | Shi-Biao Zheng, | (参考訳) ニュートリノ振動を説明するために、ニュートリノは無消滅質量を持ち、各フレーバー固有状態は3つの異なる質量固有状態によって形成され、確率振幅はその伝播中に互いに干渉する。
しかし、エネルギー保存法則は、もし存在するならば、ニュートリノと同じ弱い相互作用によって生成された他の粒子の異なる結合エネルギー固有状態と絡み合わなければならない。
この絡み合いによってニュートリノの質量固有状態間の量子コヒーレンスが破壊され、前述の仮定の下でのフレーバーの振動の原因となる。
ニュートリノ振動は、実際に空間上を拡散するZボゾン場の仮想励起に由来する。
伝播中、ニュートリノは継続的に励起し、すぐに仮想Zボソンを吸収する。
この仮想ボゾン励起はニュートリノに逆作用を起こし、3つのフレーバーの間で振動する。
ニュートリノが物質中に伝播するとき、その挙動は散乱に起因するコヒーレントフレーバー変換とデコヒーレンス効果の競合によって決定される。
To account for neutrino oscillations, it is postulated that the neutrino has nonvanishing mass and each flavor eigenstate is formed by three distinct mass eigenstates, whose probability amplitudes interfere with each other during its propagation. However, I find that the energy conservation law requires these mass eigenstates, if they exist, to be entangled with distinct joint energy eigenstates of the other particles produced by the same weak interaction as the neutrino. This entanglement destroys the quantum coherence among the neutrino's mass eigenstates, which are responsible for flavor oscillations under the aforementioned postulation. I reveal that the neutrino oscillations actually originate from virtual excitation of the Z bosonic field diffusing over the space. During the propagation, the neutrino can continually excite and then immediately re-absorb a virtual Z boson. This virtual bosonic excitation produces a backaction on the neutrino, enabling it to oscillate among three flavors. When the neutrino propagates in matter, its behavior is determined by the competition between the coherent flavor transformation and decoherence effect resulting from scatterings. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 平衡分類精度を持つエッジデバイス共振器のタスク指向オーバー・ザ・エア計算
Task-oriented Over-the-air Computation for Edge-device Co-inference with Balanced Classification Accuracy ( http://arxiv.org/abs/2407.00955v1 ) ライセンス: Link先を確認 | Xiang Jiao, Dingzhu Wen, Guangxu Zhu, Wei Jiang, Wu Luo, Yuanming Shi, | (参考訳) エッジデバイスコ推論は、エッジデバイスとエッジサーバの協力により、無線ネットワーク上での推論タスクを完了させる。
このパラダイムでは、ネットワークの設計目的が従来の通信スループットから、ネットワークによって支えられている推論タスクの効率的かつ効率的な実行へと移行し、例えば、推測精度と遅延を計測する。
本稿では,マルチデバイス人工知能システムにおいて,タスク指向のオーバー・ザ・エア計算方式を提案する。
特に、最小対判別利得(minimum-wise discriminant gain)と呼ばれる分類タスクに対して、新しい抽出可能な推論精度測定法が提案されている。
特徴空間における全てのクラス対の平均を測定する以前の作業とは異なり、すべてのクラス対の最小距離を測定する。
平均値よりも最小対判別利得を最大化することにより、任意のクラスが特徴空間内でよりよく分離され、全てのクラスに対してバランスが取れ、推論精度が向上する。
さらに,既存設計における各要素の最大化を個別に行うのではなく,各特徴要素の最小判別ゲインを共同で最適化する。
その結果、送信電力は、推論精度に対する異なる貢献に応じて特徴要素に適応的に割り当てることができ、推論性能を向上させるために、余分な自由度を開くことができる。
人体動作認識の具体的使用例を用いて大規模な実験を行い、ベンチマーク方式よりも提案した設計の優位性を検証した。
Edge-device co-inference, which concerns the cooperation between edge devices and an edge server for completing inference tasks over wireless networks, has been a promising technique for enabling various kinds of intelligent services at the network edge, e.g., auto-driving. In this paradigm, the concerned design objective of the network shifts from the traditional communication throughput to the effective and efficient execution of the inference task underpinned by the network, measured by, e.g., the inference accuracy and latency. In this paper, a task-oriented over-the-air computation scheme is proposed for a multidevice artificial intelligence system. Particularly, a novel tractable inference accuracy metric is proposed for classification tasks, which is called minimum pair-wise discriminant gain. Unlike prior work measuring the average of all class pairs in feature space, it measures the minimum distance of all class pairs. By maximizing the minimum pair-wise discriminant gain instead of its average counterpart, any pair of classes can be better separated in the feature space, and thus leading to a balanced and improved inference accuracy for all classes. Besides, this paper jointly optimizes the minimum discriminant gain of all feature elements instead of separately maximizing that of each element in the existing designs. As a result, the transmit power can be adaptively allocated to the feature elements according to their different contributions to the inference accuracy, opening an extra degree of freedom to improve inference performance. Extensive experiments are conducted using a concrete use case of human motion recognition to verify the superiority of the proposed design over the benchmarking scheme. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 語彙データの深層学習についての一考察
A Closer Look at Deep Learning on Tabular Data ( http://arxiv.org/abs/2407.00956v1 ) ライセンス: Link先を確認 | Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan, | (参考訳) タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースの手法に匹敵する有望なパフォーマンスを示しているが、これらの手法の詳細な評価は、さまざまなデータセットのパフォーマンスランキングが異なるため、難しい。
本稿では,幅広いタスクタイプ,サイズ分布,ドメインを網羅した,300の表型データセットからなる総合的なベンチマークを提案する。
我々は,最先端の表形式手法と木系手法の広範な比較を行い,各手法の平均ランクを明らかにし,表形式手法の成功に影響を及ぼす重要な要因を明らかにする。
次に、評価指標の変更やその他の統計情報を含む、トレーニングのダイナミクスに基づいて、深い表型手法を解析する。
各データセット-メソッドペアに対して、データセットのメタ機能とバリデーション曲線の最初の部分から最終的なバリデーションセットのパフォーマンス、さらにはバリデーション曲線の進化までのマッピングを学習する。
このマッピングは,予測精度に影響を与える重要なメタ特徴を抽出し,新しい側面から表計算法の解析を支援する。
この大規模ベンチマークにおける全てのメソッドのパフォーマンスに基づいて、45のデータセットのサブセットをそれぞれ2つ同定する。
最初のサブセットには、ツリーベースのメソッドかDNNベースのメソッドのいずれかを好むデータセットが含まれており、深い表形式モデルを改善するための戦略(属性エンコーディング戦略など)を評価する効果的な分析ツールとして機能する。
第2サブセットには、メソッドのランクがベンチマーク全体と一致しているデータセットが含まれており、グラフ解析のプローブとして機能している。
これらの ‘tiny tabular benchmarks' は、表データのさらなる研究を促進する。
Tabular data is prevalent across various domains in machine learning. Although Deep Neural Network (DNN)-based methods have shown promising performance comparable to tree-based ones, in-depth evaluation of these methods is challenging due to varying performance ranks across diverse datasets. In this paper, we propose a comprehensive benchmark comprising 300 tabular datasets, covering a wide range of task types, size distributions, and domains. We perform an extensive comparison between state-of-the-art deep tabular methods and tree-based methods, revealing the average rank of all methods and highlighting the key factors that influence the success of deep tabular methods. Next, we analyze deep tabular methods based on their training dynamics, including changes in validation metrics and other statistics. For each dataset-method pair, we learn a mapping from both the meta-features of datasets and the first part of the validation curve to the final validation set performance and even the evolution of validation curves. This mapping extracts essential meta-features that influence prediction accuracy, helping the analysis of tabular methods from novel aspects. Based on the performance of all methods on this large benchmark, we identify two subsets of 45 datasets each. The first subset contains datasets that favor either tree-based methods or DNN-based methods, serving as effective analysis tools to evaluate strategies (e.g., attribute encoding strategies) for improving deep tabular models. The second subset contains datasets where the ranks of methods are consistent with the overall benchmark, acting as a probe for tabular analysis. These ``tiny tabular benchmarks'' will facilitate further studies on tabular data. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 普遍近似理論:大規模言語モデルの基本理論
Universal Approximation Theory: The basic theory for large language models ( http://arxiv.org/abs/2407.00958v1 ) ライセンス: Link先を確認 | Wei Wang, Qing Li, | (参考訳) 言語モデルは、特にChatGPTのような画期的なイノベーションの導入によって、人工知能に重点を置く重要な領域として登場した。
大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。
Transformerアーキテクチャに基づいて構築されたこれらのモデルは、人間のコミュニケーションを忠実に模倣するインタラクションを可能にし、広範囲の知識を備え、人間のタスクを導くのにも役立てることができる。
目覚ましい能力と複雑さの増大にもかかわらず、大きな言語モデル(LLM)の理論的な基礎は依然として重要な疑問である。
Transformerが翻訳やコーディングといったインテリジェントな言語アプリケーションを動かすのになぜ効果的なのか?
インコンテキストラーニング(ICL)におけるLLMの能力はどのようなものか?
LoRA方式はLLMの微調整をいかに向上させるか?
LLMの実用性を支えるものは何か?
これらの重要な問題に対処し、LLM内の技術戦略を探求するために、ユニバーサル近似理論(UAT)を利用して理論的背景を提供し、これらの進歩を支えるメカニズムに光を当てる。
Language models have emerged as a critical area of focus in artificial intelligence, particularly with the introduction of groundbreaking innovations like ChatGPT. Large-scale Transformer networks have quickly become the leading approach for advancing natural language processing algorithms. Built on the Transformer architecture, these models enable interactions that closely mimic human communication and, equipped with extensive knowledge, can even assist in guiding human tasks. Despite their impressive capabilities and growing complexity, a key question remains-the theoretical foundations of large language models (LLMs). What makes Transformer so effective for powering intelligent language applications, such as translation and coding? What underlies LLMs' ability for In-Context Learning (ICL)? How does the LoRA scheme enhance the fine-tuning of LLMs? And what supports the practicality of pruning LLMs? To address these critical questions and explore the technological strategies within LLMs, we leverage the Universal Approximation Theory (UAT) to offer a theoretical backdrop, shedding light on the mechanisms that underpin these advancements. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 自動車運転における長期イベント対応のためのオブジェクトレベルの知識への世界化
Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving ( http://arxiv.org/abs/2407.00959v1 ) ライセンス: Link先を確認 | Ran Tian, Boyi Li, Xinshuo Weng, Yuxiao Chen, Edward Schmerling, Yue Wang, Boris Ivanovic, Marco Pavone, | (参考訳) 自動運転業界は、システム設計における人間のバイアスを最小限に抑えるために、感覚入力からエンドツーエンドの学習を採用するようになってきている。
しかし、従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内で珍しい、あるいは目に見えない入力のために、長い尾のイベントに悩まされる。
そこで本研究では,多言語多言語モデル(MM-LLM, Multi-Modal Large Language Model, MM-LLM)を提案する。
TOKENは、従来のエンドツーエンドの駆動モデルを利用して、意図的な表現と推論アライメントトレーニング段階を通じてLLM計画互換性に最適化された、シーンの凝縮された、セマンティックにリッチな表現を生成することにより、データの不足と非効率なトークン化を効果的に軽減する。
以上の結果から,TOKENは基盤,推論,計画能力に優れ,軌道L2誤差が27%減少し,ロングテールシナリオでの衝突速度が39%低下した既存のフレームワークよりも優れていた。
さらに, MM-LLMを効果的に計画する上で, 表現アライメントと構造化推論の重要性を強調した。
The autonomous driving industry is increasingly adopting end-to-end learning from sensory inputs to minimize human biases in system design. Traditional end-to-end driving models, however, suffer from long-tail events due to rare or unseen inputs within their training distributions. To address this, we propose TOKEN, a novel Multi-Modal Large Language Model (MM-LLM) that tokenizes the world into object-level knowledge, enabling better utilization of LLM's reasoning capabilities to enhance autonomous vehicle planning in long-tail scenarios. TOKEN effectively alleviates data scarcity and inefficient tokenization by leveraging a traditional end-to-end driving model to produce condensed and semantically enriched representations of the scene, which are optimized for LLM planning compatibility through deliberate representation and reasoning alignment training stages. Our results demonstrate that TOKEN excels in grounding, reasoning, and planning capabilities, outperforming existing frameworks with a 27% reduction in trajectory L2 error and a 39% decrease in collision rates in long-tail scenarios. Additionally, our work highlights the importance of representation alignment and structured reasoning in sparking the common-sense reasoning capabilities of MM-LLMs for effective planning. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 低内在次元学習概念の平滑化解析
Smoothed Analysis for Learning Concepts with Low Intrinsic Dimension ( http://arxiv.org/abs/2407.00966v1 ) ライセンス: Link先を確認 | Gautam Chandrasekaran, Adam Klivans, Vasilis Kontonis, Raghu Meka, Konstantinos Stavropoulos, | (参考訳) 教師付き学習の伝統的なモデルでは、学習者のゴール(例えば$\mathbb{R}^d \times \{\pm 1\}$)は、あるクラスから最も適した概念の競合する仮説($\epsilon$)を出力することである。
単純な概念クラスを学習する際の強硬度結果を回避するために,学習者が小さなランダムなガウス摂動に頑健な最高の分類器とのみ競合するスムーズな分析フレームワークを導入する。
この微妙な変化により、(1)は低次元部分空間(いわゆるマルチインデックスモデル)に依存し、(2)は有界ガウス曲面を持つという概念に対して幅広い学習結果が得られる。
このクラスはハーフ空間と(低次元)凸集合の関数を含み、ガウスのような高度に構造化された分布に関して非滑らかな設定でのみ学習できることが知られている。
驚くべきことに、我々の分析は、マージンのある学習のような従来の非スムーズなフレームワークに新しい結果をもたらす。
特に、$k$-半空間の交叉を時間$k^{poly(\frac{\log k}{\epsilon \gamma}) }$ ここで、$\gamma$はマージンパラメータである。
我々の研究以前には、最もよく知られたランタイムは$k$(Arriaga and Vempala, 1999)で指数関数であった。
In traditional models of supervised learning, the goal of a learner -- given examples from an arbitrary joint distribution on $\mathbb{R}^d \times \{\pm 1\}$ -- is to output a hypothesis that is competitive (to within $\epsilon$) of the best fitting concept from some class. In order to escape strong hardness results for learning even simple concept classes, we introduce a smoothed-analysis framework that requires a learner to compete only with the best classifier that is robust to small random Gaussian perturbation. This subtle change allows us to give a wide array of learning results for any concept that (1) depends on a low-dimensional subspace (aka multi-index model) and (2) has a bounded Gaussian surface area. This class includes functions of halfspaces and (low-dimensional) convex sets, cases that are only known to be learnable in non-smoothed settings with respect to highly structured distributions such as Gaussians. Surprisingly, our analysis also yields new results for traditional non-smoothed frameworks such as learning with margin. In particular, we obtain the first algorithm for agnostically learning intersections of $k$-halfspaces in time $k^{poly(\frac{\log k}{\epsilon \gamma}) }$ where $\gamma$ is the margin parameter. Before our work, the best-known runtime was exponential in $k$ (Arriaga and Vempala, 1999). | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# 拡散確率モデルを用いた深部紫外線蛍光画像における乳がん自動検出のための深層学習
Deep learning for automated detection of breast cancer in deep ultraviolet fluorescence images with diffusion probabilistic model ( http://arxiv.org/abs/2407.00967v1 ) ライセンス: Link先を確認 | Sepehr Salem Ghahfarokhi, Tyrell To, Julie Jorns, Tina Yen, Bing Yu, Dong Hye Ye, | (参考訳) データ制限は、深層学習を医療画像に適用する上で重要な課題である。
近年,拡散確率モデル (DPM) はガウス的ランダムノイズを現実的な画像に変換することによって高品質な画像を生成する可能性を示している。
本稿では,DPMを用いて深部紫外線蛍光(DUV)画像データセットを増強し,術中マージン評価のための乳癌分類の改善を目的とした。
分類には,表面DUV画像全体を小さなパッチに分割し,事前学習したResNetを用いて各パッチの畳み込み特徴を抽出する。
次に、パッチレベルの決定のためにXGBoost分類器に入力し、その上でGrad-CAM++によって計算された地域重要度マップと融合して表面レベルの予測を行う。
DPMによるトレーニングデータセットの増強は, DUV画像の乳癌検出性能を有意に向上させ, Affine 変換や ProGAN と比較すると, 93% から 97% に向上した。
Data limitation is a significant challenge in applying deep learning to medical images. Recently, the diffusion probabilistic model (DPM) has shown the potential to generate high-quality images by converting Gaussian random noise into realistic images. In this paper, we apply the DPM to augment the deep ultraviolet fluorescence (DUV) image dataset with an aim to improve breast cancer classification for intraoperative margin assessment. For classification, we divide the whole surface DUV image into small patches and extract convolutional features for each patch by utilizing the pre-trained ResNet. Then, we feed them into an XGBoost classifier for patch-level decisions and then fuse them with a regional importance map computed by Grad-CAM++ for whole surface-level prediction. Our experimental results show that augmenting the training dataset with the DPM significantly improves breast cancer detection performance in DUV images, increasing accuracy from 93% to 97%, compared to using Affine transformations and ProGAN. | 翻訳日:2024-07-04 00:46:07 公開日:2024-07-01 |
# オーバーパラメータ化は機能にどのように影響するか?
How Does Overparameterization Affect Features? ( http://arxiv.org/abs/2407.00968v1 ) ライセンス: Link先を確認 | Ahmet Cagri Duzgun, Samy Jelassi, Yuanzhi Li, | (参考訳) 過パラメータ化(Overparameterization)は、モデルがトレーニング損失に適合するために必要以上のパラメータを持つ状態であり、ディープラーニングの成功にとって重要な要素である。
しかし、過度にパラメータ化されたネットワークによって学習された特徴の特徴はよく理解されていない。
本研究では,同じアーキテクチャと異なる幅のモデルを比較することで,この問題を考察する。
まず,これらのモデルの特徴の表現性について検討し,多くのパラメータ化特徴を連結することにより,過パラメータ化ネットワークの特徴空間を分散できないことを示す。
これは、過度にパラメータ化されたネットワークと過度にパラメータ化されたネットワークの両方に、いくつかの特徴があることを示している。
次に、これらのモデルの性能を評価し、多くのモデルが連結しても、過パラメータ化されたネットワークは過パラメータ化されたネットワークより優れていることを示す。
CIFAR-10 上の VGG-16 と ResNet18 と MNLI 分類データセット上の Transformer を用いて,これらの知見を照合した。
最後に、過パラメータ化されたネットワークが、過パラメータ化されたネットワークが学べない重要な特徴をいかに学習できるかを説明するための玩具設定を提案する。
Overparameterization, the condition where models have more parameters than necessary to fit their training loss, is a crucial factor for the success of deep learning. However, the characteristics of the features learned by overparameterized networks are not well understood. In this work, we explore this question by comparing models with the same architecture but different widths. We first examine the expressivity of the features of these models, and show that the feature space of overparameterized networks cannot be spanned by concatenating many underparameterized features, and vice versa. This reveals that both overparameterized and underparameterized networks acquire some distinctive features. We then evaluate the performance of these models, and find that overparameterized networks outperform underparameterized networks, even when many of the latter are concatenated. We corroborate these findings using a VGG-16 and ResNet18 on CIFAR-10 and a Transformer on the MNLI classification dataset. Finally, we propose a toy setting to explain how overparameterized networks can learn some important features that the underparamaterized networks cannot learn. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# FALCON: 高速単一画像デハージングのための連続密度マスク付き周波数結合リンク
FALCON: Frequency Adjoint Link with CONtinuous Density Mask for Fast Single Image Dehazing ( http://arxiv.org/abs/2407.00972v1 ) ライセンス: Link先を確認 | Donghyun Kim, Seil Kang, Seong Jae Hwang, | (参考訳) 霧や霧のような大気の干渉に対処するイメージデハジングは、監視やリモートセンシングといった堅牢な視覚的応用において、不透明な視界下で重要な課題である。
トランスミッションマトリックスや大気光の特徴を予測する初期の研究からディープラーニングやデハージングネットワークまで、さまざまな手法が進化してきたが、彼らは本来、デハージング品質の指標を優先し、自律運転のような時間に敏感な領域におけるリアルタイム適用性の必要性を無視した。
本研究では,FALCON(Frequency Adjoint Link with Continuous density mask)を導入する。
特に,周波数アジョイントリンクという新たなボトルネックモジュールを開発し,ネットワークサイズが最小限に抑えられた受容場をグローバルに拡張する。
さらに, 連続密度マスク (CDM) を用いた大気散乱モデルに基づく基礎的ヘイズ分布を, 連続値マスク入力と相違可能な補助損失として活用する。
複数の最先端の手法とアブレーション分析を含む総合的な実験は、FALCONのデハージング品質と速度(すなわち、1秒あたり180フレーム)において例外的な性能を示し、FPS、PSNR、SSIMなどのメトリクスによって定量化されている。
Image dehazing, addressing atmospheric interference like fog and haze, remains a pervasive challenge crucial for robust vision applications such as surveillance and remote sensing under adverse visibility. While various methodologies have evolved from early works predicting transmission matrix and atmospheric light features to deep learning and dehazing networks, they innately prioritize dehazing quality metrics, neglecting the need for real-time applicability in time-sensitive domains like autonomous driving. This work introduces FALCON (Frequency Adjoint Link with CONtinuous density mask), a single-image dehazing system achieving state-of-the-art performance on both quality and speed. Particularly, we develop a novel bottleneck module, namely, Frequency Adjoint Link, operating in the frequency space to globally expand the receptive field with minimal growth in network size. Further, we leverage the underlying haze distribution based on the atmospheric scattering model via a Continuous Density Mask (CDM) which serves as a continuous-valued mask input prior and a differentiable auxiliary loss. Comprehensive experiments involving multiple state-of-the-art methods and ablation analysis demonstrate FALCON's exceptional performance in both dehazing quality and speed (i.e., >$180 frames-per-second), quantified by metrics such as FPS, PSNR, and SSIM. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 安全な医療データ管理のためのハイブリッドRAGを用いたマルチモーダルLCM:拡散型契約理論アプローチ
Hybrid RAG-empowered Multi-modal LLM for Secure Healthcare Data Management: A Diffusion-based Contract Theory Approach ( http://arxiv.org/abs/2407.00978v1 ) ライセンス: Link先を確認 | Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Hudan Pan, M. Shamim Hossain, | (参考訳) 安全データ管理と効果的なデータ共有は、急速に発展する医療の分野で最重要課題となっている。
生成人工知能の進歩は、医療データを管理する重要なツールとしてマルチモーダル大言語モデル(MLLM)を位置づけている。
MLLMは、大量のマルチモーダルデータに対する大規模なトレーニングを活用することで、マルチモーダル入力をサポートし、多様なタイプのコンテンツを生成することができる。
しかし、医療データセキュリティや鮮度問題を含む医療MLLMの開発において重要な課題が続き、MLLMの出力品質に影響を及ぼす。
本稿では,医療データ管理のためのハイブリッドな検索・拡張型医療MLLM(Retrieval-Augmented Generation)フレームワークを提案する。
このフレームワークは階層的なクロスチェーンアーキテクチャを活用して、セキュアなデータトレーニングを容易にする。
さらに、MLLMの出力品質を向上させるために、マルチモーダルメトリクスを用いて様々な単調RAG結果をフィルタリングし、MLLMへの追加入力としてこれらの検索結果を組み込むハイブリッドRAGを用いて、MLLMの出力品質を向上させる。
さらに、MLLMのデータ鮮度の影響を間接的に評価するために情報年齢を採用し、契約理論を利用して医療データ保有者にデータ共有のインセンティブを与え、データ共有における情報非対称性を緩和する。
最後に、生成拡散モデルに基づく強化学習アルゴリズムを用いて、効率的なデータ共有のための最適契約を同定する。
医療データ管理をセキュアかつ効率的に行うための提案手法の有効性を数値解析により実証した。
Secure data management and effective data sharing have become paramount in the rapidly evolving healthcare landscape. The advancement of generative artificial intelligence has positioned Multi-modal Large Language Models (MLLMs) as crucial tools for managing healthcare data. MLLMs can support multi-modal inputs and generate diverse types of content by leveraging large-scale training on vast amounts of multi-modal data. However, critical challenges persist in developing medical MLLMs, including healthcare data security and freshness issues, affecting the output quality of MLLMs. In this paper, we propose a hybrid Retrieval-Augmented Generation (RAG)-empowered medical MLLMs framework for healthcare data management. This framework leverages a hierarchical cross-chain architecture to facilitate secure data training. Moreover, it enhances the output quality of MLLMs through hybrid RAG, which employs multi-modal metrics to filter various unimodal RAG results and incorporates these retrieval results as additional inputs to MLLMs. Additionally, we employ age of information to indirectly evaluate the data freshness impact of MLLMs and utilize contract theory to incentivize healthcare data holders to share fresh data, mitigating information asymmetry in data sharing. Finally, we utilize a generative diffusion model-based reinforcement learning algorithm to identify the optimal contract for efficient data sharing. Numerical results demonstrate the effectiveness of the proposed schemes, which achieve secure and efficient healthcare data management. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアテンションアライメントネットワーク
Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval ( http://arxiv.org/abs/2407.00979v1 ) ライセンス: Link先を確認 | Hanwen Su, Ge Song, Kai Huang, Jiyan Wang, Ming Yang, | (参考訳) 本稿では,ゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
従来の手法では、カテゴリラベルのみやテキスト情報さえも関与しない2つのモダリティ設定でこの問題に対処する。
しかし, 大規模事前学習型言語モデル (LLM) の普及により, ウェブスケールデータから学習した知識が豊富になり, 集合的なテキスト情報を得る機会が得られている。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
そこで本稿では,ゼロショットスケッチに基づく画像検索のためのAuxiliary Text Descriptionを用いたクロスモーダルアテンションアライメントネットワークを提案する。
ネットワークは3つのコンポーネントから構成される。
一 数文の疑問文を LLM に促すことにより、各訓練カテゴリーの文章記述を生成する説明生成モジュール
(ii)スケッチと画像データのための2つのViTと、各訓練カテゴリの文のトークンを抽出する変換器を含む特徴抽出モジュール
(iii)クロスアテンション機構を用いてテキストスケッチとテキストイメージの両方のトークン特徴を交換し、トークンをローカルかつグローバルにアライメントするクロスモーダルアライメントモジュール。
3つのベンチマークデータセットの大規模な実験は、最先端のZS-SBIR法よりも優れた性能を示している。
In this paper, we study the problem of zero-shot sketch-based image retrieval (ZS-SBIR). The prior methods tackle the problem in a two-modality setting with only category labels or even no textual information involved. However, the growing prevalence of Large-scale pre-trained Language Models (LLMs), which have demonstrated great knowledge learned from web-scale data, can provide us with an opportunity to conclude collective textual information. Our key innovation lies in the usage of text data as auxiliary information for images, thus leveraging the inherent zero-shot generalization ability that language offers. To this end, we propose an approach called Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval. The network consists of three components: (i) a Description Generation Module that generates textual descriptions for each training category by prompting an LLM with several interrogative sentences, (ii) a Feature Extraction Module that includes two ViTs for sketch and image data, a transformer for extracting tokens of sentences of each training category, finally (iii) a Cross-modal Alignment Module that exchanges the token features of both text-sketch and text-image using cross-attention mechanism, and align the tokens locally and globally. Extensive experiments on three benchmark datasets show our superior performances over the state-of-the-art ZS-SBIR methods. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# マルコフ過程の編集に基づく知覚障害シナリオ生成の高速化手法
Acceleration method for generating perception failure scenarios based on editing Markov process ( http://arxiv.org/abs/2407.00980v1 ) ライセンス: Link先を確認 | Canjie Cai, | (参考訳) 自動運転技術の急速な進歩により、自動運転車は将来の交通システム開発に重点を置いている。
シナリオ生成技術は、自律運転システムの安全性能をテストし検証するための重要なツールとして登場した。
シナリオ生成に関する現在の研究は、主に高速道路などのオープンロードに焦点を当てており、地下駐車場については比較的限定的な研究である。
地下駐車場の独特な構造的制約、照明不足、高密度障害物は、自動運転技術にとって重要な認識システムにより大きな需要を課している。
本研究では,自動運転車の認識アルゴリズムの安全性を試験・改善することを目的とした,地下駐車場環境に適した認識障害シナリオの高速化手法を提案する。
本稿では,背景車両(BV)と自律車両(AV)の相互作用を認識障害シナリオ内で学習することにより,認識障害シナリオの密度の高いインテリジェントなテスト環境を生成する。
さらに、この方法は、認識障害シナリオデータ内のマルコフ過程を編集し、トレーニングデータにおける臨界情報の密度を増大させ、認識障害シナリオの学習と生成を最適化する。
地下駐車場のシミュレーション環境をCarlaとVissimプラットフォームを用いて開発し,Bevfusionを認識アルゴリズムとして利用した。
本手法は, 認識障害シナリオの密度の高いインテリジェントなテスト環境を生成できることを示すとともに, 実験装置内での認識アルゴリズムの安全性向上を図っている。
With the rapid advancement of autonomous driving technology, self-driving cars have become a central focus in the development of future transportation systems. Scenario generation technology has emerged as a crucial tool for testing and verifying the safety performance of autonomous driving systems. Current research in scenario generation primarily focuses on open roads such as highways, with relatively limited studies on underground parking garages. The unique structural constraints, insufficient lighting, and high-density obstacles in underground parking garages impose greater demands on the perception systems, which are critical to autonomous driving technology. This study proposes an accelerated generation method for perception failure scenarios tailored to the underground parking garage environment, aimed at testing and improving the safety performance of autonomous vehicle (AV) perception algorithms in such settings. The method presented in this paper generates an intelligent testing environment with a high density of perception failure scenarios by learning the interactions between background vehicles (BVs) and autonomous vehicles (AVs) within perception failure scenarios. Furthermore, this method edits the Markov process within the perception failure scenario data to increase the density of critical information in the training data, thereby optimizing the learning and generation of perception failure scenarios. A simulation environment for an underground parking garage was developed using the Carla and Vissim platforms, with Bevfusion employed as the perception algorithm for testing. The study demonstrates that this method can generate an intelligent testing environment with a high density of perception failure scenarios and enhance the safety performance of perception algorithms within this experimental setup. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# VisEval: 大規模言語モデルの時代におけるデータの可視化のためのベンチマーク
VisEval: A Benchmark for Data Visualization in the Era of Large Language Models ( http://arxiv.org/abs/2407.00981v1 ) ライセンス: Link先を確認 | Nan Chen, Yuge Zhang, Jiahang Xu, Kan Ren, Yuqing Yang, | (参考訳) 自然言語から可視化への変換(NL2VIS)は、ビジュアルデータ分析において非常に有望であるが、自然言語処理や視覚化設計など、複数の低レベル実装を必要とする課題である。
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
しかし、総合的で信頼性の高いベンチマークが欠如していることは、可視化生成におけるLLMの能力の理解を妨げる。
本稿では,VesEvalと呼ばれる新しいNL2VISベンチマークを提案することで,このギャップに対処する。
まず,高品質で大規模なデータセットを紹介する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
第2に,有効性,合法性,可読性など,複数の側面を網羅した総合的自動評価手法を提案する。
多くの異種チェッカーによる潜在的な問題を体系的にスキャンすることで、VisEvalは信頼性と信頼性の高い評価結果を提供する。
私たちはVisEvalを最先端のLLMで実行しています。
本評価では,今後の課題を明らかにするとともに,今後の進歩に不可欠な洞察を提供する。
Translating natural language to visualization (NL2VIS) has shown great promise for visual data analysis, but it remains a challenging task that requires multiple low-level implementations, such as natural language processing and visualization design. Recent advancements in pre-trained large language models (LLMs) are opening new avenues for generating visualizations from natural language. However, the lack of a comprehensive and reliable benchmark hinders our understanding of LLMs' capabilities in visualization generation. In this paper, we address this gap by proposing a new NL2VIS benchmark called VisEval. Firstly, we introduce a high-quality and large-scale dataset. This dataset includes 2,524 representative queries covering 146 databases, paired with accurately labeled ground truths. Secondly, we advocate for a comprehensive automated evaluation methodology covering multiple dimensions, including validity, legality, and readability. By systematically scanning for potential issues with a number of heterogeneous checkers, VisEval provides reliable and trustworthy evaluation outcomes. We run VisEval on a series of state-of-the-art LLMs. Our evaluation reveals prevalent challenges and delivers essential insights for future advancements. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 古典的フィルド駆動状態の量子位相特性
Quantum phase properties of a state driven by a classical fild ( http://arxiv.org/abs/2407.00982v1 ) ライセンス: Link先を確認 | Naveen Kumar, Arpita Chatterjee, | (参考訳) 我々は、駆動場の存在下で原子空洞相互作用によって生成される非古典的状態を考える。
このスキームでは、2レベル原子は空洞を通って移動し、古典的場によって駆動される。
原子はキャビティ場と分散的に相互作用し、光子数に依存したスタークシフトをもたらす。
励起状態 $|{a}\rangle$ において原子が空洞に入ると仮定すると、得られた出力空洞場が考慮される。
状態ベクトル $|\psi(t)\rangle$ は原子場全体の系を記述するが、我々の研究では空洞場の統計的側面のみを扱う。
出力空洞場に対応する量子状態は、$|{\psi(t)}\rangle\langle{\psi(t)}|$から原子部分を追跡することによって得られる。
得られた放射場に対して、量子位相分布、角$Q$位相関数、位相分散などの異なる量子位相特性を評価する。
2階相関関数$g^2(0)$,間接位相特性も考慮する。
We consider a nonclassical state generated by an atom-cavity field interaction in presence of a driven field. In the scheme, the two-level atom is moved through the cavity and driven by a classical field. The atom interacts dispersively with the cavity field, which results in a photon-number-dependent Stark shift. Assuming that the atom enters the cavity in the excited state $|{a}\rangle$, the obtained output cavity field is taken into account. The state vector $|\psi(t)\rangle$ describes the entire atom-field system but in our work we deal with the statistical aspects of the cavity field only. The quantum state that corresponds to the output cavity field is obtained by tracing out the atom part from $|{\psi(t)}\rangle\langle{\psi(t)}|$. Different quantum phase properties such as quantum phase distribution, angular $Q$ phase function, phase dispersion are evaluated for the obtained radiation field. The second-order correlation function $g^2(0)$, an indirect phase characteristic is also considered. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# FairMedFM:医療イメージング基礎モデルのためのフェアネスベンチマーク
FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models ( http://arxiv.org/abs/2407.00983v1 ) ライセンス: Link先を確認 | Ruinan Jin, Zikang Xu, Yuan Zhong, Qiongsong Yao, Qi Dou, S. Kevin Zhou, Xiaoxiao Li, | (参考訳) 医療における基礎モデル(FM)の出現は、自動分類とセグメンテーションタスクを通じて医療診断を強化する前例のない機会を提供する。
しかし、これらのモデルは、特に医療応用における多様で過小評価されている人口に適用する場合に、その公平性に関する重要な懸念を提起する。
現在、医療画像におけるFMの公平性を評価・理解するために、包括的なベンチマーク、標準化されたパイプライン、そして容易に適応可能なライブラリが欠如しており、多様な患者集団の公平な結果を保証するソリューションを策定・実装する上で大きな課題となっている。
このギャップを埋めるために、医療画像におけるFM研究のためのフェアネスベンチマークであるFairMedFMを導入し、FairMedFMは17の人気のある医療画像データセットと統合され、様々なモダリティ、次元、感度特性を含む。
ゼロショット学習、線形探索、パラメータ効率のよい微調整、様々な下流タスク、分類とセグメンテーションなど、広く使われている20のFMを探索する。
総括分析により,複数の視点から評価指標の公平性を評価するとともに,バイアスの存在,異なるFM上でのユーティリティフェアネスのトレードオフ,FMに関わらず同一データセット上での一貫性の相違,既存の不公平性軽減手法の限定的有効性を明らかにした。
FairMedFMのプロジェクトページと、拡張可能な機能とアプリケーションをサポートするオープンソースコードベースのチェックアウト。
The advent of foundation models (FMs) in healthcare offers unprecedented opportunities to enhance medical diagnostics through automated classification and segmentation tasks. However, these models also raise significant concerns about their fairness, especially when applied to diverse and underrepresented populations in healthcare applications. Currently, there is a lack of comprehensive benchmarks, standardized pipelines, and easily adaptable libraries to evaluate and understand the fairness performance of FMs in medical imaging, leading to considerable challenges in formulating and implementing solutions that ensure equitable outcomes across diverse patient populations. To fill this gap, we introduce FairMedFM, a fairness benchmark for FM research in medical imaging.FairMedFM integrates with 17 popular medical imaging datasets, encompassing different modalities, dimensionalities, and sensitive attributes. It explores 20 widely used FMs, with various usages such as zero-shot learning, linear probing, parameter-efficient fine-tuning, and prompting in various downstream tasks -- classification and segmentation. Our exhaustive analysis evaluates the fairness performance over different evaluation metrics from multiple perspectives, revealing the existence of bias, varied utility-fairness trade-offs on different FMs, consistent disparities on the same datasets regardless FMs, and limited effectiveness of existing unfairness mitigation methods. Checkout FairMedFM's project page and open-sourced codebase, which supports extendible functionalities and applications as well as inclusive for studies on FMs in medical imaging over the long term. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 脳のパーセレーション : 方法, 検証, 応用のレビュー
Individual brain parcellation: Review of methods, validations and applications ( http://arxiv.org/abs/2407.00984v1 ) ライセンス: Link先を確認 | Chengyi Li, Shan Yu, Yue Cui, | (参考訳) 個々の脳は形態学、接続性、組織において大きく異なる。
グループレベルのパーセレーションの適用性は、個々のレベルでのパーセルの変動を考慮していないため、現在の精密医療の急速な発展によって制限されている。
個々のレベルでの脳機能領域の正確なマッピングは、脳機能と行動の変化の包括的理解、脳の異常の早期かつ正確な同定、および神経精神疾患に対するパーソナライズされた治療のために重要である。
ニューロイメージングと機械学習の技術の発展に伴い、個々の脳のパーセレーションの研究が盛んになっている。
本稿では、最適化と学習に基づく手法を含む、個々の脳パーセレーションの方法論の最近の進歩について概説する。
個々の脳マッピングを検証するための総合的な評価指標が導入された。
また,脳のマッピングが神経科学研究や臨床医学をどのように促進するかについても検討した。
最後に、個別化脳パーセレーションの課題と今後の重要な方向性について概説する。
集合的には、個々の脳のパーセレーション方法、バリデーション、アプリケーションに関する詳細な概要を提供するとともに、データセット、メソッド、バリデーションを統合する統合プラットフォームに対する緊急の要求を要求する現在の課題を強調します。
Individual brains vary greatly in morphology, connectivity and organization. The applicability of group-level parcellations is limited by the rapid development of precision medicine today because they do not take into account the variation of parcels at the individual level. Accurate mapping of brain functional regions at the individual level is pivotal for a comprehensive understanding of the variations in brain function and behaviors, early and precise identification of brain abnormalities, as well as personalized treatments for neuropsychiatric disorders. With the development of neuroimaging and machine learning techniques, studies on individual brain parcellation are booming. In this paper, we offer an overview of recent advances in the methodologies of individual brain parcellation, including optimization- and learning-based methods. Comprehensive evaluation metrics to validate individual brain mapping have been introduced. We also review the studies of how individual brain mapping promotes neuroscience research and clinical medicine. Finally, we summarize the major challenges and important future directions of individualized brain parcellation. Collectively, we intend to offer a thorough overview of individual brain parcellation methods, validations, and applications, along with highlighting the current challenges that call for an urgent demand for integrated platforms that integrate datasets, methods, and validations. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# マルチモーダル基礎モデルと最適輸送ポリゴンマッチングに基づくオープン語彙操作命令からのオブジェクトセグメンテーション
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models ( http://arxiv.org/abs/2407.00985v1 ) ライセンス: Link先を確認 | Takayuki Nishimura, Katsuyuki Kuyo, Motonari Kambara, Komei Sugiura, | (参考訳) 本研究では,対象物に対するセグメンテーションマスクを対象物操作命令から生成するタスクについて考察する。
従来のセグメンテーション生成アプローチでは、カメラの視野の外のオブジェクトや、頂点の順序が異なるが、それでも同一のポリゴンを表現している場合を説明できないことが多く、誤ったマスク生成につながる。
本研究では,オープンな語彙命令からセグメンテーションマスクを生成する手法を提案する。
我々は,頂点の順序が異なるが,同じ多角形を表す場合,大きな損失を防止するために,最適な輸送を用いた新しい損失関数を実装した。
提案手法を評価するため,REVERIEデータセットとMatterport3Dデータセットに基づく新しいデータセットを構築した。
その結果,既存のマスク生成法と比較して提案手法の有効性が示された。
注目すべきことに、我々の最良のモデルは、代表的ポリゴン法と比較して、データセットの+16.32%の改善を達成した。
We consider the task of generating segmentation masks for the target object from an object manipulation instruction, which allows users to give open vocabulary instructions to domestic service robots. Conventional segmentation generation approaches often fail to account for objects outside the camera's field of view and cases in which the order of vertices differs but still represents the same polygon, which leads to erroneous mask generation. In this study, we propose a novel method that generates segmentation masks from open vocabulary instructions. We implement a novel loss function using optimal transport to prevent significant loss where the order of vertices differs but still represents the same polygon. To evaluate our approach, we constructed a new dataset based on the REVERIE dataset and Matterport3D dataset. The results demonstrated the effectiveness of the proposed method compared with existing mask generation methods. Remarkably, our best model achieved a +16.32% improvement on the dataset compared with a representative polygon-based method. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# Mobile-Bench: LLMベースのモバイルエージェントの評価ベンチマーク
Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents ( http://arxiv.org/abs/2407.00993v1 ) ライセンス: Link先を確認 | Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Rui Yan, Shuo Shang, | (参考訳) 大規模言語モデル(LLM)の顕著な進歩により、LLMベースのエージェントは人間とコンピュータの相互作用においてホットスポットとなっている。
しかし、LLMベースのモバイルエージェントにはベンチマークが不足している。
これらのエージェントのベンチマークは、一般的に3つの大きな課題に直面している。 1) UIのみの操作の非効率性は、タスク評価に制限を課します。
2) LLM移動エージェントの多次元的推論と意思決定能力の評価には, 特定のアプリケーション内での具体的な指示が欠如している。
3) 逐次行動の過程を正確に評価するには,現在の評価基準が不十分である。
そこで本研究では,LLMを用いたモバイルエージェントの性能評価のための新しいベンチマークであるMobile-Benchを提案する。
まず,103個のAPIを組み込んでタスク完了の効率化を図ることで,従来のUI操作を拡張した。
その後、実ユーザクエリとLLMからの拡張を組み合わせた評価データを収集する。
SAST, SAMT, MAMTの3つのグループに分類し, タスクの複雑さのレベルを反映する。
Mobile-Benchは832のデータエントリで構成されており、マルチアプリケーションコラボレーションシナリオを評価するために特別に設計された200以上のタスクがある。
さらに,より正確な評価基準であるCheckPointを導入し,LCMをベースとしたモバイルエージェントが,計画と推論の段階において必須点に達するかどうかを評価する。
With the remarkable advancements of large language models (LLMs), LLM-based agents have become a research hotspot in human-computer interaction. However, there is a scarcity of benchmarks available for LLM-based mobile agents. Benchmarking these agents generally faces three main challenges: (1) The inefficiency of UI-only operations imposes limitations to task evaluation. (2) Specific instructions within a singular application lack adequacy for assessing the multi-dimensional reasoning and decision-making capacities of LLM mobile agents. (3) Current evaluation metrics are insufficient to accurately assess the process of sequential actions. To this end, we propose Mobile-Bench, a novel benchmark for evaluating the capabilities of LLM-based mobile agents. First, we expand conventional UI operations by incorporating 103 collected APIs to accelerate the efficiency of task completion. Subsequently, we collect evaluation data by combining real user queries with augmentation from LLMs. To better evaluate different levels of planning capabilities for mobile agents, our data is categorized into three distinct groups: SAST, SAMT, and MAMT, reflecting varying levels of task complexity. Mobile-Bench comprises 832 data entries, with more than 200 tasks specifically designed to evaluate multi-APP collaboration scenarios. Furthermore, we introduce a more accurate evaluation metric, named CheckPoint, to assess whether LLM-based mobile agents reach essential points during their planning and reasoning steps. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# ディレクショナルエンターメントグラフとクレームレベル応答増大によるLLM不確かさの定量化
LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation ( http://arxiv.org/abs/2407.00994v1 ) ライセンス: Link先を確認 | Longchao Da, Tiejin Chen, Lu Cheng, Hua Wei, | (参考訳) 大規模言語モデル(LLM)は、基本的な質問応答(QA)から派生して、様々な領域にわたる高度なタスクにおいて優れた能力を示しており、現在では、不慣れなコンテンツのための意思決定アシスタントや説明役として使われている。
しかし、特定のドメインのコーパスやモデルの幻覚の問題により、必ずしも正しいとは限らない。
これを考えると、LLMからの回答をどの程度信頼すべきなのでしょうか?
そこで本論文では,非対称な有向グラフの非対称性を持つランダムウォークラプラシアン(Random Walk Laplacian)を考案し,その不確実性はラプラシアン過程から導出した固有値によって集約されることを示す。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
さらに,本論文では,生の応答集合における曖昧さの問題を識別し,そのような問題を緩和するための拡張手法を提案し,実験実験を行い,提案手法の優位性を示した。
The Large language models (LLMs) have showcased superior capabilities in sophisticated tasks across various domains, stemming from basic question-answer (QA), they are nowadays used as decision assistants or explainers for unfamiliar content. However, they are not always correct due to the data sparsity in specific domain corpus, or the model's hallucination problems. Given this, how much should we trust the responses from LLMs? This paper presents a novel way to evaluate the uncertainty that captures the directional instability, by constructing a directional graph from entailment probabilities, and we innovatively conduct Random Walk Laplacian given the asymmetric property of a constructed directed graph, then the uncertainty is aggregated by the derived eigenvalues from the Laplacian process. We also provide a way to incorporate the existing work's semantics uncertainty with our proposed layer. Besides, this paper identifies the vagueness issues in the raw response set and proposes an augmentation approach to mitigate such a problem, we conducted extensive empirical experiments and demonstrated the superiority of our proposed solutions. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 移動に関するデータ:コモンセンスを持つAIエージェントによって駆動されるトラフィック指向データトレーディングプラットフォーム
Data on the Move: Traffic-Oriented Data Trading Platform Powered by AI Agent with Common Sense ( http://arxiv.org/abs/2407.00995v1 ) ライセンス: Link先を確認 | Yi Yu, Shengyue Yao, Tianchen Zhou, Yexuan Fu, Jingru Yu, Ding Wang, Xuhong Wang, Cen Chen, Yilun Lin, | (参考訳) デジタル時代には、データは重要な資産となり、自動運転などの技術が進歩している。
それにもかかわらず、データトレーディングは堅牢な価格設定方法の欠如や信頼できるトレーディングメカニズムの欠如といった課題に直面している。
これらの課題に対処するために、トラフィックシミュレーション、データトレーディング、AIエージェントを統合する、Data on The Move (DTM)と呼ばれるトラフィック指向のデータトレーディングプラットフォームを導入する。
DTMプラットフォームは、明白なデータ価値評価とAIベースのトレーディングメカニズムをサポートする。
LLM(Large Language Models)の共通感覚機能を利用して、トラフィックの状態とデータ値を評価することで、DTMはマルチラウンドのインタラクションとシミュレーションを通じて、合理的なトラフィックデータ価格を決定することができる。
さらに、DTMは、交通システム、マルチエージェントインタラクション、および取引市場における個人の不均一性と不合理な振る舞いをシミュレートすることで、価格法検証を提供する。
DTMプラットフォーム内では、コネクテッドカーやトラヒックライトコントローラといったエンティティが情報収集、データ価格、トレーディング、意思決定に従事している。
シミュレーションの結果,提案したAIエージェントベースの価格設定手法は,交通効率の向上が示すように,合理的な価格を提供することでデータトレーディングの促進を図っている。
これはDTMの有効性と実用性を強調し、データ市場とスマートシティの進化に対する新たな視点を提供する。
我々の知る限りでは、LLMをデータ価格に採用する最初の研究であり、インテリジェントな車やスマートシティの分野におけるデータトレーディングの先駆的な実践である。
In the digital era, data has become a pivotal asset, advancing technologies such as autonomous driving. Despite this, data trading faces challenges like the absence of robust pricing methods and the lack of trustworthy trading mechanisms. To address these challenges, we introduce a traffic-oriented data trading platform named Data on The Move (DTM), integrating traffic simulation, data trading, and Artificial Intelligent (AI) agents. The DTM platform supports evident-based data value evaluation and AI-based trading mechanisms. Leveraging the common sense capabilities of Large Language Models (LLMs) to assess traffic state and data value, DTM can determine reasonable traffic data pricing through multi-round interaction and simulations. Moreover, DTM provides a pricing method validation by simulating traffic systems, multi-agent interactions, and the heterogeneity and irrational behaviors of individuals in the trading market. Within the DTM platform, entities such as connected vehicles and traffic light controllers could engage in information collecting, data pricing, trading, and decision-making. Simulation results demonstrate that our proposed AI agent-based pricing approach enhances data trading by offering rational prices, as evidenced by the observed improvement in traffic efficiency. This underscores the effectiveness and practical value of DTM, offering new perspectives for the evolution of data markets and smart cities. To the best of our knowledge, this is the first study employing LLMs in data pricing and a pioneering data trading practice in the field of intelligent vehicles and smart cities. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 小言語モデルは騒音パターンを学習し、学習し、維持することができるか?
Can Small Language Models Learn, Unlearn, and Retain Noise Patterns? ( http://arxiv.org/abs/2407.00996v1 ) ライセンス: Link先を確認 | Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani, | (参考訳) 小型言語モデル(SLM)は一般に、70億以上のパラメータを持つ大型言語モデル(LLM)のよりコンパクトなバージョンと考えられている。
本研究では、学習、保持、そしてそれに続くノイズを除去する小さな言語モデルの能力について検討する。
このために、Olmo 1B、Qwen1.5 1.8B、Gemma 2B、Phi2 2.7Bの4つの事前訓練SLMが使用された。
モデルはノイズなしで命令調整され、コンテキスト内学習によるタスク実行のテストが行われた。
その後、モデルの学習能力と学習能力を評価するためにノイズパターンを導入した。
モデルの性能を様々な訓練レベルで評価した。
ピーは単語レベルのノイズに一貫して優れていたが、文字レベルのノイズでは最悪だった。
約10億のパラメータを持つ最小のパラメータにもかかわらず、Olmoはタスクで一貫してうまく動作した。
Small Language Models (SLMs) are generally considered to be more compact versions of large language models (LLMs), typically having fewer than 7 billion parameters. This study investigates the ability of small language models to learn, retain, and subsequently eliminate noise that is typically not found on the internet, where most pretraining datasets are sourced. For this, four pre-trained SLMs were utilized: Olmo 1B, Qwen1.5 1.8B, Gemma 2B, and Phi2 2.7B. The models were instruction-tuned without noise and tested for task execution with in-context learning. Afterward, noise patterns were introduced to evaluate the models' learning and unlearning capabilities. We evaluated the models' performance at various training levels. Phi consistently excelled with word-level noise but performed the worst with character-level noise. Despite being the smallest with approximately 1 billion parameters, Olmo performed consistently well on tasks. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# 工学会話検索システム:アプリケーション,アーキテクチャ,機能コンポーネントのレビュー
Engineering Conversational Search Systems: A Review of Applications, Architectures, and Functional Components ( http://arxiv.org/abs/2407.00997v1 ) ライセンス: Link先を確認 | Phillip Schneider, Wessel Poelman, Michael Rovatsos, Florian Matthes, | (参考訳) 対話型検索システムでは,複数の対話ターンを超越したユーザの情報獲得を最大化することを目的として,自然言語対話による情報検索が可能となる。
この探索パラダイムを採用する会話インタフェースの普及は、従来の情報検索アプローチに挑戦し、これらのシステム開発におけるエンジニアリングプロセスの理解を深めることの重要性を強調している。
本研究では,理論的研究と対話型検索システムの技術的実装の関連性を検討するために,系統的な文献レビューを行った。
我々のレビューでは、現実世界のアプリケーションシナリオ、システムアーキテクチャ、機能コンポーネントを特定します。
我々は,階層型アーキテクチャフレームワークを提示し,対話型検索システムの中核機能を説明することにより,結果を集約する。
さらに,大規模言語モデルの急速な進歩を踏まえ,その能力,限界,今後の研究の方向性について考察した。
Conversational search systems enable information retrieval via natural language interactions, with the goal of maximizing users' information gain over multiple dialogue turns. The increasing prevalence of conversational interfaces adopting this search paradigm challenges traditional information retrieval approaches, stressing the importance of better understanding the engineering process of developing these systems. We undertook a systematic literature review to investigate the links between theoretical studies and technical implementations of conversational search systems. Our review identifies real-world application scenarios, system architectures, and functional components. We consolidate our results by presenting a layered architecture framework and explaining the core functions of conversational search systems. Furthermore, we reflect on our findings in light of the rapid progress in large language models, discussing their capabilities, limitations, and directions for future research. | 翻訳日:2024-07-04 00:36:18 公開日:2024-07-01 |
# NMR量子シミュレータ上の変分量子固有解法アルゴリズムによるH2分子の基底および励起状態エネルギー計算
Ground and excited state energy calculations of the H2 molecule using a variational quantum eigensolver algorithm on an NMR quantum simulator ( http://arxiv.org/abs/2407.01000v1 ) ライセンス: Link先を確認 | Dileep Singh, Shashank Mehendale, Arvind, Kavita Dorai, | (参考訳) 変分量子アルゴリズムは、量子化学の分野において、量子情報プロセッサの短期的な実用化のための有望な候補として浮上している。
本研究では,H2分子の分子基底状態エネルギーを計算するために変分量子固有解法アルゴリズムを実装し,NMR量子プロセッサで実験的に実証した。
さらに、変分量子デフレレーションアルゴリズムを用いてH2分子の励起状態をシミュレートし、同じNMR量子プロセッサ上で実験的にそれを実証する。
また、1量子ビットのみを用いてH2分子のエネルギー計算の最初のシミュレーションを開発し、NMR量子コンピュータで結果を検証する。
実験の結果, 所望の精度でH2分子の分子エネルギーを計算するのに1つのNMR量子ビットしか十分でないことが示された。
Variational quantum algorithms are emerging as promising candidates for near-term practical applications of quantum information processors, in the field of quantum chemistry. We implement the variational quantum eigensolver algorithm to calculate the molecular ground-state energy of the H2 molecule and experimentally demonstrated it on an NMR quantum processor. Further, we simulate the excited states of the H2 molecule using the variational quantum deflation algorithm and experimentally demonstrate it on the same NMR quantum processor. We also develop the first simulation of the energy calculation of the H2 molecule using only a single qubit, and verify the results on an NMR quantum computer. Our experimental results demonstrate that only a single NMR qubit suffices to calculate the molecular energies of the H2 molecule to the desired accuracy. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# 古典的および量子的機械学習モデルを用いた洪水予測
Flood Prediction Using Classical and Quantum Machine Learning Models ( http://arxiv.org/abs/2407.01001v1 ) ライセンス: Link先を確認 | Marek Grzesiak, Param Thakkar, | (参考訳) 本研究は,2023年のドイツ・ヴッパー川流域の洪水予報における量子機械学習の可能性について検討する。我々は,古典的機械学習技術とQML技術を組み合わせたアプローチである。このハイブリッドモデルは,重ね合わせや絡み合いなどの量子特性を活用して,トレーニング時間精度とスケーラビリティを指標として,古典的およびQMLモデルを比較した結果,QMLモデルは,競争的なトレーニング時間を提供し,予測精度を改善した予測精度を向上することを示す。
This study investigates the potential of quantum machine learning to improve flood forecasting we focus on daily flood events along Germany's Wupper River in 2023 our approach combines classical machine learning techniques with QML techniques this hybrid model leverages quantum properties like superposition and entanglement to achieve better accuracy and efficiency classical and QML models are compared based on training time accuracy and scalability results show that QML models offer competitive training times and improved prediction accuracy this research signifies a step towards utilizing quantum technologies for climate change adaptation we emphasize collaboration and continuous innovation to implement this model in real-world flood management ultimately enhancing global resilience against floods | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# CURLS:重要な治療効果を有するサブグループの因果ルール学習
CURLS: Causal Rule Learning for Subgroups with Significant Treatment Effect ( http://arxiv.org/abs/2407.01004v1 ) ライセンス: Link先を確認 | Jiehui Zhou, Linxiao Yang, Xingyu Liu, Xinyue Gu, Liang Sun, Wei Chen, | (参考訳) 因果推論において、HTE(heregeneous treatment effect)の推定は、異なるサブグループが介入にどう反応するかを特定するために重要であり、精度医学やパーソナライズド広告などの分野に広く応用されている。
HTE推定法は精度の向上を目的としているが,データ解釈や戦略的介入管理の妨げとなるような,明示的なサブグループ記述の提供方法は不明なままである。
本稿では,HTEを利用した新しいルール学習手法であるCURLSを提案する。
具体的には、因果規則学習を離散最適化問題として捉え、処理効果と分散の微妙なバランスをとり、規則解釈可能性を考慮する。
最小化-最大化アルゴリズムに基づいて反復的な手順を設計し、元の近似として部分モジュラー下界を解く。
定量的実験と定性的なケーススタディにより、CURLSは最先端の手法と比較して、推定および真の効果が16.1%と13.8%高く、分散が12.0%小さい部分群を発見でき、類似またはより良い推定精度と規則解釈性を維持している。
コードはhttps://osf.io/zwp2k/で入手できる。
In causal inference, estimating heterogeneous treatment effects (HTE) is critical for identifying how different subgroups respond to interventions, with broad applications in fields such as precision medicine and personalized advertising. Although HTE estimation methods aim to improve accuracy, how to provide explicit subgroup descriptions remains unclear, hindering data interpretation and strategic intervention management. In this paper, we propose CURLS, a novel rule learning method leveraging HTE, which can effectively describe subgroups with significant treatment effects. Specifically, we frame causal rule learning as a discrete optimization problem, finely balancing treatment effect with variance and considering the rule interpretability. We design an iterative procedure based on the minorize-maximization algorithm and solve a submodular lower bound as an approximation for the original. Quantitative experiments and qualitative case studies verify that compared with state-of-the-art methods, CURLS can find subgroups where the estimated and true effects are 16.1% and 13.8% higher and the variance is 12.0% smaller, while maintaining similar or better estimation accuracy and rule interpretability. Code is available at https://osf.io/zwp2k/. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# MARLP:農業経営帯電における時系列予測制御
MARLP: Time-series Forecasting Control for Agricultural Managed Aquifer Recharge ( http://arxiv.org/abs/2407.01005v1 ) ライセンス: Link先を確認 | Yuning Chen, Kang Yang, Zhiyu An, Brady Holder, Luke Paloutzian, Khaled Bali, Wan Du, | (参考訳) 世界中の地下水の急激な減少は、持続可能な農業にとって大きな課題となっている。
この問題に対処するため,農業用管理帯水層 (Ag-MAR) は, 地表水を用いて農地を人工的に浸水させ, 帯水層を補充するために提案されている。
Ag-MARは、作物の根の酸素吸収に影響を与えないように、慎重に選択された洪水スケジュールを必要とする。
しかし、現在のAg-MARスケジューリングは、天候や土壌酸素のような複雑な環境要因を考慮に入れておらず、作物の損傷と充電量の不足をもたらす。
本稿では,Ag-MARの最初のエンドツーエンドデータ駆動制御システムであるMARLPを提案する。
まず最適化問題としてAg-MARを定式化する。
この結果から,土壌酸素濃度の変動傾向の多周期的特徴を明らかにし,外部気象予報や洪水予測を土壌酸素の予測のための外因的手がかりとして活用する機会を明らかにした。
次に,2段階の予測フレームワークを設計する。
第1段階では、履歴データから多変量依存と周期パターンの両方を抽出し、予備予測を行う。
第2段階では、土壌酸素濃度の正確な予測を容易にするために、天候・土壌と洪水・土壌因果性を利用する。
最後に,Ag-MAR洪水に対するモデル予測制御(MPC)を行う。
大規模な行動空間の課題に対処するため,最適な解探索を可能にするため,浸水提案数の削減を目的としたヒューリスティック計画モジュールを考案した。
実世界の実験では、MARLPは酸素欠乏比を86.8%削減し、単位時間での充電量は過去4年間で35.8%改善した。
The rapid decline in groundwater around the world poses a significant challenge to sustainable agriculture. To address this issue, agricultural managed aquifer recharge (Ag-MAR) is proposed to recharge the aquifer by artificially flooding agricultural lands using surface water. Ag-MAR requires a carefully selected flooding schedule to avoid affecting the oxygen absorption of crop roots. However, current Ag-MAR scheduling does not take into account complex environmental factors such as weather and soil oxygen, resulting in crop damage and insufficient recharging amounts. This paper proposes MARLP, the first end-to-end data-driven control system for Ag-MAR. We first formulate Ag-MAR as an optimization problem. To that end, we analyze four-year in-field datasets, which reveal the multi-periodicity feature of the soil oxygen level trends and the opportunity to use external weather forecasts and flooding proposals as exogenous clues for soil oxygen prediction. Then, we design a two-stage forecasting framework. In the first stage, it extracts both the cross-variate dependency and the periodic patterns from historical data to conduct preliminary forecasting. In the second stage, it uses weather-soil and flooding-soil causality to facilitate an accurate prediction of soil oxygen levels. Finally, we conduct model predictive control (MPC) for Ag-MAR flooding. To address the challenge of large action spaces, we devise a heuristic planning module to reduce the number of flooding proposals to enable the search for optimal solutions. Real-world experiments show that MARLP reduces the oxygen deficit ratio by 86.8% while improving the recharging amount in unit time by 35.8%, compared with the previous four years. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# GMT:マルチターゲットマルチカメラ追跡のためのロバストグローバルアソシエーションモデル
GMT: A Robust Global Association Model for Multi-Target Multi-Camera Tracking ( http://arxiv.org/abs/2407.01007v1 ) ライセンス: Link先を確認 | Huijie Fan, Tinghui Zhao, Qiang Wang, Baojie Fan, Yandong Tang, LianQing Liu, | (参考訳) 歩行者のマルチターゲットマルチカメラ(MTMC)追跡作業において、特にカメラの動き、照明の変動、障害物による合併症が主な課題であり、データアソシエーションの問題である。
しかし、ほとんどのMTMCモデルは2段階のアプローチを採用しており、実用的なアプリケーションにおける第1段階の追跡結果に大きく依存する。
さらに、異なるカメラを横断する同じターゲットは、大きな外観変化を示す可能性があるため、クロスカメラマッチングの難しさをさらに高めることができる。
上記の問題に対処するため,第1のトラッキングステージへの依存を2ステップで解決し,クロスカメラマッチングを向上する,グローバルなオンラインMTMC追跡モデルを提案する。
具体的には、トランスフォーマーをベースとしたグローバルMTMCアソシエーションモジュールを提案し、様々なカメラやフレームを対象とするアソシエーションを探索し、グローバルなトラジェクトリを直接生成する。
さらに,ターゲットの外観と時空間的特徴を統合するため,MTMC追跡のための特徴抽出と融合モジュールを提案する。
このモジュールは特徴表現を強化し、複数のカメラにまたがるターゲットの特徴間の相関を確立する。
高シーンの多様性と複雑な照明条件の変動に対応するため、様々な環境に対してより一般化され堅牢なモデルの開発を可能にするVisionTrackデータセットを構築した。
我々のモデルは、VisionTrackデータセットなどの比較手法よりも大幅に改善されていることを示す。
In the task of multi-target multi-camera (MTMC) tracking of pedestrians, the data association problem is a key issue and main challenge, especially with complications arising from camera movements, lighting variations, and obstructions. However, most MTMC models adopt two-step approaches, thus heavily depending on the results of the first-step tracking in practical applications. Moreover, the same targets crossing different cameras may exhibit significant appearance variations, which further increases the difficulty of cross-camera matching. To address the aforementioned issues, we propose a global online MTMC tracking model that addresses the dependency on the first tracking stage in two-step methods and enhances cross-camera matching. Specifically, we propose a transformer-based global MTMC association module to explore target associations across different cameras and frames, generating global trajectories directly. Additionally, to integrate the appearance and spatio-temporal features of targets, we propose a feature extraction and fusion module for MTMC tracking. This module enhances feature representation and establishes correlations between the features of targets across multiple cameras. To accommodate high scene diversity and complex lighting condition variations, we have established the VisionTrack dataset, which enables the development of models that are more generalized and robust to various environments. Our model demonstrates significant improvements over comparison methods on the VisionTrack dataset and others. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# DynaThink: 速いか遅いか? 大規模言語モデルのための動的意思決定フレームワーク
DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models ( http://arxiv.org/abs/2407.01009v1 ) ライセンス: Link先を確認 | Jiabao Pan, Yan Zhang, Chen Zhang, Zuozhu Liu, Hongwei Wang, Haizhou Li, | (参考訳) 大規模言語モデル(LLM)は、一般的なChains-of-Thought(COT)プロンプトを通じて、様々な推論タスクにまたがる創発的な機能を示している。
しかし、このような単純で高速なCOTアプローチは複雑な問題に対処する際の限界にしばしば遭遇する一方、複数の推論経路を考慮し、各ステップを慎重に検証する徹底的な手法は推論を遅くする。
本稿では,LLMが高速かつ低速な推論手法を自律的に選択し,効率と有効性の両方を最適化するという課題に対処する。
我々は、タスクを2つの異なる経路に分類する動的意思決定フレームワークを紹介した。このフレームワークは、LCMが高速に高信頼度ソリューションを識別するタスクに指定され、「スロー」は、LCMが複雑であり、即時ソリューションへの信頼度が低く、検証すべき推論パスがより必要となるタスクに割り当てられている。
5つの人気のある推論ベンチマークの実験は、ベースラインよりもDynaThinkの方が優れていることを示した。
Large language models (LLMs) have demonstrated emergent capabilities across diverse reasoning tasks via popular Chains-of-Thought (COT) prompting. However, such a simple and fast COT approach often encounters limitations in dealing with complicated problems, while a thorough method, which considers multiple reasoning pathways and verifies each step carefully, results in slower inference. This paper addresses the challenge of enabling LLMs to autonomously select between fast and slow inference methods, thereby optimizing both efficiency and effectiveness. We introduce a dynamic decision-making framework that categorizes tasks into two distinct pathways: 'Fast', designated for tasks where the LLM quickly identifies a high-confidence solution, and 'Slow', allocated for tasks that the LLM perceives as complex and for which it has low confidence in immediate solutions as well as requiring more reasoning paths to verify. Experiments on five popular reasoning benchmarks demonstrated the superiority of the DynaThink over baselines. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# マルチターゲット量子コンパイルアルゴリズム
Multi-target quantum compilation algorithm ( http://arxiv.org/abs/2407.01010v1 ) ライセンス: Link先を確認 | Vu Tuan Hai, Nguyen Tan Viet, Jesus Urbaneja, Nguyen Vu Linh, Lan Nguyen Tran, Le Bin Ho, | (参考訳) 量子コンピューティングにおいて、量子コンパイルは、ターゲットユニタリから量子回路で表される訓練可能なユニタリへ情報を変換する。
従来の量子コンパイルは、単一のターゲットに対して回路を最適化する。
しかし、多くの量子系は、様々なパラメータを持つ系をシミュレートしたり、多成分量子状態を作成するなど、複数のターゲットを同時に最適化する必要がある。
そこで我々は,複数の量子システムのシミュレーション性能と柔軟性を向上させるために,マルチターゲット量子コンパイルアルゴリズムを開発した。
ベンチマークやケーススタディを通じて,このアルゴリズムの有効性を実証し,量子コンピューティングの進歩におけるマルチターゲット最適化の重要性を強調した。
この研究は、マルチターゲット量子コンパイルアルゴリズムのさらなる開発、実装、評価の基盤を確立する。
In quantum computing, quantum compilation involves transforming information from a target unitary into a trainable unitary represented by a quantum circuit. Traditional quantum compilation optimizes circuits for a single target. However, many quantum systems require simultaneous optimization of multiple targets, such as simulating systems with varying parameters and preparing multi-component quantum states. To address this, we develop a multi-target quantum compilation algorithm to enhance the performance and flexibility of simulating multiple quantum systems. Through our benchmarks and case studies, we demonstrate the algorithm's effectiveness, highlighting the significance of multi-target optimization in the advancement of quantum computing. This work establishes the groundwork for further development, implementation, and evaluation of multi-target quantum compilation algorithms. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# 崩壊観測によるクリーン拡散モデルの予測最大化アルゴリズム
An Expectation-Maximization Algorithm for Training Clean Diffusion Models from Corrupted Observations ( http://arxiv.org/abs/2407.01014v1 ) ライセンス: Link先を確認 | Weimin Bai, Yifei Wang, Wenzheng Chen, He Sun, | (参考訳) 拡散モデルは、複雑な画像の先行をモデル化する能力のために、画像の逆問題を解決するのに優れている。
しかし、トレーニングのための大規模でクリーンなデータセットへの依存は、クリーンなデータが不足している実践的使用を制限する。
本稿では,予測最大化(EM)手法であるEDDiffusionを提案する。
本手法は, 既知拡散モデル (E-step) を用いた劣化データからのクリーン画像の再構成と, これらの再構成(M-step)に基づく拡散モデル重みの精製とを交互に行う。
この反復過程は、学習された拡散モデルを真のクリーンなデータ分布に徐々に収束させる。
提案手法は, ランダムな塗装, 脱臭, 脱臭など, 多様な画像処理タスクに関する広範な実験により検証され, 新たな最先端性能を実現している。
Diffusion models excel in solving imaging inverse problems due to their ability to model complex image priors. However, their reliance on large, clean datasets for training limits their practical use where clean data is scarce. In this paper, we propose EMDiffusion, an expectation-maximization (EM) approach to train diffusion models from corrupted observations. Our method alternates between reconstructing clean images from corrupted data using a known diffusion model (E-step) and refining diffusion model weights based on these reconstructions (M-step). This iterative process leads the learned diffusion model to gradually converge to the true clean data distribution. We validate our method through extensive experiments on diverse computational imaging tasks, including random inpainting, denoising, and deblurring, achieving new state-of-the-art performance. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# 物理認識予測のためのベイズエントロピーニューラルネットワーク
Bayesian Entropy Neural Networks for Physics-Aware Prediction ( http://arxiv.org/abs/2407.01015v1 ) ライセンス: Link先を確認 | Rahul Rathnakumar, Jiayu Huang, Hao Yan, Yongming Liu, | (参考訳) 本稿では,データと部分的情報による学習,データ以外のサンプル情報を組み込むための柔軟なモデル動作を必要とするシナリオなど,詳細な制約をアウトプットに組み込むためのディープラーニングモデルの必要性について論じる。
本稿では,最大エントロピー(MaxEnt)の原理に基づくフレームワークであるBayesian Entropy Neural Networks(BENN)を紹介する。
BENNは予測値だけでなく、その微分や分散を制約し、より堅牢で信頼性の高いモデル出力を保証できる。
同時不確実性定量化と制約満足度を達成するために,乗算器手法を用いる。
これにより、ニューラルネットワークパラメータと制約に関連するラグランジアン乗算器の同時推定が可能になる。
ビーム偏向モデリングやマイクロ構造生成といった多様な応用にまたがる実験により,BENNの有効性を実証した。
その結果、従来のBNNよりも大幅に改善され、現代の制約されたディープラーニング手法と比較して、競争性能が顕著に向上した。
This paper addresses the need for deep learning models to integrate well-defined constraints into their outputs, driven by their application in surrogate models, learning with limited data and partial information, and scenarios requiring flexible model behavior to incorporate non-data sample information. We introduce Bayesian Entropy Neural Networks (BENN), a framework grounded in Maximum Entropy (MaxEnt) principles, designed to impose constraints on Bayesian Neural Network (BNN) predictions. BENN is capable of constraining not only the predicted values but also their derivatives and variances, ensuring a more robust and reliable model output. To achieve simultaneous uncertainty quantification and constraint satisfaction, we employ the method of multipliers approach. This allows for the concurrent estimation of neural network parameters and the Lagrangian multipliers associated with the constraints. Our experiments, spanning diverse applications such as beam deflection modeling and microstructure generation, demonstrate the effectiveness of BENN. The results highlight significant improvements over traditional BNNs and showcase competitive performance relative to contemporary constrained deep learning methods. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# SOOD++: 未ラベルデータの活用によるオブジェクト指向オブジェクト検出の強化
SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection ( http://arxiv.org/abs/2407.01016v1 ) ライセンス: Link先を確認 | Dingkang Liang, Wei Hua, Chunsheng Shi, Zhikang Zou, Xiaoqing Ye, Xiang Bai, | (参考訳) 半教師対象検出 (SSOD) は, 未ラベルデータを利用して物体検出を高速化する手法で, ホットな話題となっている。
しかし、既存のSSODアプローチは主に水平物体に焦点を合わせ、空中画像に共通する多目的物体を残している。
同時に、多目的オブジェクトのアノテーションコストは、水平オブジェクトのアノテーションコストよりも大幅に高い。
そこで本研究では,SOOD++と呼ばれる,シンプルで効果的な半教師付きオブジェクト指向物体検出手法を提案する。
具体的には、空中画像からのオブジェクトは、通常任意の向き、小さなスケール、集約であり、複雑な擬似ラベルを生成するためにSIDS(Simple Instance-aware Dense Sampling)戦略が使用され、Geometry-aware Adaptive Weighting(GAW)損失は、空中オブジェクトの複雑な幾何学的情報を活用することによって、擬似ラベルと対応する予測のペアの重要性を動的に変調する。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
例えば、DOTA-V1.5ベンチマークでは、提案手法は、単一スケールのトレーニングとテストにより、従来の最先端(SOTA)よりも大きなマージン(+2.92、+2.39、+2.57 mAP、それぞれ10%、20%、および30%のラベル付きデータ設定)で優れていた。
さらに重要な点として、70.66 mAPの強い監督されたベースラインを改良し、DOTA-V1.5のフルモデルを使用して+1.82 mAPで訓練し、72.48 mAPで新しい最先端の車種を推し進めた。
コードは利用可能になります。
Semi-supervised object detection (SSOD), leveraging unlabeled data to boost object detectors, has become a hot topic recently. However, existing SSOD approaches mainly focus on horizontal objects, leaving multi-oriented objects common in aerial images unexplored. At the same time, the annotation cost of multi-oriented objects is significantly higher than that of their horizontal counterparts. Therefore, in this paper, we propose a simple yet effective Semi-supervised Oriented Object Detection method termed SOOD++. Specifically, we observe that objects from aerial images are usually arbitrary orientations, small scales, and aggregation, which inspires the following core designs: a Simple Instance-aware Dense Sampling (SIDS) strategy is used to generate comprehensive dense pseudo-labels; the Geometry-aware Adaptive Weighting (GAW) loss dynamically modulates the importance of each pair between pseudo-label and corresponding prediction by leveraging the intricate geometric information of aerial objects; we treat aerial images as global layouts and explicitly build the many-to-many relationship between the sets of pseudo-labels and predictions via the proposed Noise-driven Global Consistency (NGC). Extensive experiments conducted on various multi-oriented object datasets under various labeled settings demonstrate the effectiveness of our method. For example, on the DOTA-V1.5 benchmark, the proposed method outperforms previous state-of-the-art (SOTA) by a large margin (+2.92, +2.39, and +2.57 mAP under 10%, 20%, and 30% labeled data settings, respectively) with single-scale training and testing. More importantly, it still improves upon a strong supervised baseline with 70.66 mAP, trained using the full DOTA-V1.5 train-val set, by +1.82 mAP, resulting in a 72.48 mAP, pushing the new state-of-the-art. The code will be made available. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# DistML.js:Webブラウザ向けのインストール不要な分散ディープラーニングフレームワーク
DistML.js: Installation-free Distributed Deep Learning Framework for Web Browsers ( http://arxiv.org/abs/2407.01023v1 ) ライセンス: Link先を確認 | Masatoshi Hidaka, Tomohiro Hashimoto, Yuto Nishizawa, Tatsuya Harada, | (参考訳) DistML.jsは、Webブラウザ内での機械学習モデルのトレーニングと推論用に設計されたライブラリである。
DistML.jsはローカルデバイスでのモデルトレーニングを促進するだけでなく、サーバとの通信を通じて分散学習もサポートする。
ディープラーニングモデル構築のための設計と定義・バイ・ランAPIは、PyTorchに似ているため、プロトタイピングの学習曲線が減少する。
モデルトレーニングと推論に関わる行列計算は、WebGLを利用してバックエンド上で実行され、高速な計算が可能となる。
DistML.jsの設計、API、実装に関する包括的な説明と、学習におけるデータ並列性を含む実用的なアプリケーションについて説明する。
ソースコードはhttps://github.com/mil-tokyo/distmljsで公開されている。
We present "DistML.js", a library designed for training and inference of machine learning models within web browsers. Not only does DistML.js facilitate model training on local devices, but it also supports distributed learning through communication with servers. Its design and define-by-run API for deep learning model construction resemble PyTorch, thereby reducing the learning curve for prototyping. Matrix computations involved in model training and inference are executed on the backend utilizing WebGL, enabling high-speed calculations. We provide a comprehensive explanation of DistML.js's design, API, and implementation, alongside practical applications including data parallelism in learning. The source code is publicly available at https://github.com/mil-tokyo/distmljs. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# 対称性:量子コヒーレンスとメトロジーの基礎資源
Symmetry: a fundamental resource for quantum coherence and metrology ( http://arxiv.org/abs/2407.01025v1 ) ライセンス: Link先を確認 | Irénée Frérot, Tommaso Roscilde, | (参考訳) 量子気象学に有用な深く絡み合った状態を作るための新しいパラダイムを導入する。
量子状態が作用素$A$の固有状態であるとき、観測可能な$G$は純粋に量子ゆらぎを持ち、量子フィッシャー情報、すなわち$F_Q(G)=4\langle G^2 \rangle$によって量子化される。
この性質は、量子状態の純度に関係なく成り立ち、これは相推定の計量的資源を非対角的ゆらぎで表すことを意味する。
特に、量子スピンアンサンブル(英語版)やボソニックガス(英語版)のような多体系では、非対角長距離秩序(スピン観測可能あるいはボソニック作用素に対する)の存在は、システムがよく定義された対称性領域に留まっていることを前提として、直接メートルロジー資源に変換される。
後者は eg を集合スピンの1つの成分、あるいはスピン系におけるそのパリティ、およびボソンの粒子数セクターによって定義される。
この結果から,多体系における任意の非ガウス量子相関のメトロジーの最適利用が確立された。
We introduce a new paradigm for the preparation of deeply entangled states useful for quantum metrology. We show that when the quantum state is an eigenstate of an operator $A$, observables $G$ which are completely off-diagonal with respect to $A$ have purely quantum fluctuations, as quantified by the quantum Fisher information, namely $F_Q(G)=4\langle G^2 \rangle$. This property holds regardless of the purity of the quantum state, and it implies that off-diagonal fluctuations represent a metrological resource for phase estimation. In particular, for many-body systems such as quantum spin ensembles or bosonic gases, the presence of off-diagonal long-range order (for a spin observable, or for bosonic operators) directly translates into a metrological resource, provided that the system remains in a well-defined symmetry sector. The latter is defined e.g. by one component of the collective spin or by its parity in spin systems; and by a particle-number sector for bosons. Our results establish the optimal use for metrology of arbitrarily non-Gaussian quantum correlations in a large variety of many-body systems. | 翻訳日:2024-07-04 00:25:59 公開日:2024-07-01 |
# 効率的なマルチスーパービジョンによる文書レベルの関係抽出
Augmenting Document-level Relation Extraction with Efficient Multi-Supervision ( http://arxiv.org/abs/2407.01026v1 ) ライセンス: Link先を確認 | Xiangyu Lin, Weijia Jia, Zhiguo Gong, | (参考訳) 文レベルの関係抽出に人気があるにもかかわらず、そのノイズ性や情報密度の低さから文書レベルの関係抽出において、遠隔教師付きデータは既存の研究ではほとんど利用されない。
現在の応用の中では、遠方の教師付きデータが主に、時間効率の低い関連するものとして使用される。
遠距離監視と専門家監督を併用した大規模データセットから情報化文書のサブセットを選定し,複数の監督源からの知識を統合したマルチスーパービジョンランキングロスを用いて学習し,ノイズの影響を緩和する文書レベルの関係抽出のための効率的なマルチスーパービジョンを提案する。
実験では,既存のベースラインよりも高い時間効率でモデル性能を向上させる方法の有効性を実証した。
Despite its popularity in sentence-level relation extraction, distantly supervised data is rarely utilized by existing work in document-level relation extraction due to its noisy nature and low information density. Among its current applications, distantly supervised data is mostly used as a whole for pertaining, which is of low time efficiency. To fill in the gap of efficient and robust utilization of distantly supervised training data, we propose Efficient Multi-Supervision for document-level relation extraction, in which we first select a subset of informative documents from the massive dataset by combining distant supervision with expert supervision, then train the model with Multi-Supervision Ranking Loss that integrates the knowledge from multiple sources of supervision to alleviate the effects of noise. The experiments demonstrate the effectiveness of our method in improving the model performance with higher time efficiency than existing baselines. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# Latent Diffusion Priors を用いたブラインドインバージョン
Blind Inversion using Latent Diffusion Priors ( http://arxiv.org/abs/2407.01027v1 ) ライセンス: Link先を確認 | Weimin Bai, Siyi Chen, Wenzheng Chen, He Sun, | (参考訳) 拡散モデルは、複雑な事前分布をモデル化する異常な能力のため、逆問題を解決する強力なツールとして登場した。
しかし、既存の手法では、既知のフォワード演算子(すなわち、非盲検演算子)を主に仮定し、そのような演算子を取得するのにコストがかかるような現実的な環境での適用性を制限している。
さらに、現在の多くのアプローチはピクセル空間拡散モデルに依存しており、より強力な潜在拡散モデル(LDM)の可能性は未探索のままである。
本稿では,遅延拡散先行法を用いて,より困難なブラインド逆問題に対処する革新的な手法であるLatentDEMを紹介する。
本手法の中核となるのは, 反復予測最大化 (EM) フレームワーク内の視覚的逆問題である。(1) E-step は, LDM と既知のフォワードモデルを用いて, 劣化した観測からクリーンな画像を復元し, (2) M-step は復元された画像に基づいてフォワード演算子を推定する。
さらに, LDM と EM フレームワークに適した2つの新しい最適化手法を提案する。
一般的なフレームワークとして、LatentDEMは線形および非線形逆問題の両方をサポートする。
一般的な2次元画像復元タスク以外にも、非線形3次元逆レンダリング問題における新たな機能を実現する。
本研究では,LatentDEMの2次元ブラインド欠陥と3次元スパースビュー再構築作業に対する性能評価を行い,先行技術よりも優れた効果を示した。
Diffusion models have emerged as powerful tools for solving inverse problems due to their exceptional ability to model complex prior distributions. However, existing methods predominantly assume known forward operators (i.e., non-blind), limiting their applicability in practical settings where acquiring such operators is costly. Additionally, many current approaches rely on pixel-space diffusion models, leaving the potential of more powerful latent diffusion models (LDMs) underexplored. In this paper, we introduce LatentDEM, an innovative technique that addresses more challenging blind inverse problems using latent diffusion priors. At the core of our method is solving blind inverse problems within an iterative Expectation-Maximization (EM) framework: (1) the E-step recovers clean images from corrupted observations using LDM priors and a known forward model, and (2) the M-step estimates the forward operator based on the recovered images. Additionally, we propose two novel optimization techniques tailored for LDM priors and EM frameworks, yielding more accurate and efficient blind inversion results. As a general framework, LatentDEM supports both linear and non-linear inverse problems. Beyond common 2D image restoration tasks, it enables new capabilities in non-linear 3D inverse rendering problems. We validate LatentDEM's performance on representative 2D blind deblurring and 3D sparse-view reconstruction tasks, demonstrating its superior efficacy over prior arts. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# EndoSparse:Gaussian Splattingを用いた内視鏡シーンのリアルタイムスパースビュー合成
EndoSparse: Real-Time Sparse View Synthesis of Endoscopic Scenes using Gaussian Splatting ( http://arxiv.org/abs/2407.01029v1 ) ライセンス: Link先を確認 | Chenxin Li, Brandon Y. Feng, Yifan Liu, Hengyu Liu, Cheng Wang, Weihao Yu, Yixuan Yuan, | (参考訳) 内視鏡画像からの生体組織の3次元再構成は, 様々な重要な下流外科的応用を3D機能で解き放つ鍵となる。
既存の手法では、フォトリアリスティックなビュー合成に様々な高度なニューラルレンダリング技術を採用しているが、スパースな観察しかできない場合、しばしば正確な3D表現の回復に苦慮している。
このスパーシティー問題に対処するため,再建プロセス中に複数の基盤モデルから事前知識を活用するフレームワークを提案し,これを「textit{EndoSparse}」と呼ぶ。
実験の結果,提案手法は,3つの視点のみを用いながら,難易度の高い視界条件下での幾何学的・外観的品質を著しく向上させることが示された。
最先端手法に対する厳密なベンチマーク実験では, 正確な幾何, 現実的な外観, レンダリング効率の点で優れた結果が得られ, 内視鏡的再構成におけるスパースビュー限界に対する堅牢性を確認している。
\textit{EndoSparse}は、実際の臨床シナリオにおける神経3D再構築の実践的な展開に向けての着実に一歩を踏み出したことを意味する。
プロジェクトページ: https://endo-sparse.github.io/.com
3D reconstruction of biological tissues from a collection of endoscopic images is a key to unlock various important downstream surgical applications with 3D capabilities. Existing methods employ various advanced neural rendering techniques for photorealistic view synthesis, but they often struggle to recover accurate 3D representations when only sparse observations are available, which is usually the case in real-world clinical scenarios. To tackle this {sparsity} challenge, we propose a framework leveraging the prior knowledge from multiple foundation models during the reconstruction process, dubbed as \textit{EndoSparse}. Experimental results indicate that our proposed strategy significantly improves the geometric and appearance quality under challenging sparse-view conditions, including using only three views. In rigorous benchmarking experiments against state-of-the-art methods, \textit{EndoSparse} achieves superior results in terms of accurate geometry, realistic appearance, and rendering efficiency, confirming the robustness to sparse-view limitations in endoscopic reconstruction. \textit{EndoSparse} signifies a steady step towards the practical deployment of neural 3D reconstruction in real-world clinical scenarios. Project page: https://endo-sparse.github.io/. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# PocketLLM:パーソナライズされたLLMのためのオンデバイスファインチューニング
PocketLLM: Enabling On-Device Fine-Tuning for Personalized LLMs ( http://arxiv.org/abs/2407.01031v1 ) ライセンス: Link先を確認 | Dan Peng, Zhihui Fu, Jun Wang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、その印象的な能力を示している。
モバイルデバイスでは、デバイス上での処理を通じてプライバシを保ちながら、日々発生する貴重な非パブリックなデータの豊富さは、ローカルに微調整されたパーソナライズされたLDMにとって大きな約束である。
しかし、モバイルデバイスリソースの制約は、主に勾配とオプティマイザ状態の節約に必要なデリバティブベースの最適化のメモリ集約性のために、デバイス上でのLCM微調整を指示する問題を引き起こす。
そこで本研究では,メモリ制限されたモバイルデバイス上でもLCMのデバイス上での微調整を可能にするために,デリバティブフリーな最適化手法を提案する。
RoBERTa-largeモデルとOPT-1.3Bは、OPPO Reno 6スマートフォン上で、それぞれ約4GBと6.5GBのメモリを使用して、デリバティブフリー最適化技術を用いて、局所的に微調整できることを示した。
これは、モバイルデバイス上でのオンデバイスLDMの微調整の実現性を強調し、データプライバシを保護しつつ、リソース制限されたデバイス上でパーソナライズされたLSMを実現するための道を開くものだ。
Recent advancements in large language models (LLMs) have indeed showcased their impressive capabilities. On mobile devices, the wealth of valuable, non-public data generated daily holds great promise for locally fine-tuning personalized LLMs, while maintaining privacy through on-device processing. However, the constraints of mobile device resources pose challenges to direct on-device LLM fine-tuning, mainly due to the memory-intensive nature of derivative-based optimization required for saving gradients and optimizer states. To tackle this, we propose employing derivative-free optimization techniques to enable on-device fine-tuning of LLM, even on memory-limited mobile devices. Empirical results demonstrate that the RoBERTa-large model and OPT-1.3B can be fine-tuned locally on the OPPO Reno 6 smartphone using around 4GB and 6.5GB of memory respectively, using derivative-free optimization techniques. This highlights the feasibility of on-device LLM fine-tuning on mobile devices, paving the way for personalized LLMs on resource-constrained devices while safeguarding data privacy. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 選択分類システムの評価における共通欠陥の克服
Overcoming Common Flaws in the Evaluation of Selective Classification Systems ( http://arxiv.org/abs/2407.01032v1 ) ライセンス: Link先を確認 | Jeremias Traub, Till J. Bungert, Carsten T. Lüth, Michael Baumgartner, Klaus H. Maier-Hein, Lena Maier-Hein, Paul F Jaeger, | (参考訳) モデルが低信頼の予測を拒否できる選択分類は、機械学習に基づく分類システムを、臨床診断のような現実のシナリオに確実に翻訳することを約束する。
これらのシステムの現在の評価は、通常、事前に定義された拒絶しきい値に基づいて固定作業点を仮定するが、方法論的な進歩には、標準的な分類において$\mathrm{AUROC}$のようなシステムの一般的な性能をベンチマークする必要がある。
本研究では、タスクアライメント、解釈可能性、柔軟性に関する選択的な分類において、マルチスレッドメトリクスに対する5つの要件を定義し、現在のアプローチがそれらを満たすことができないことを示す。
本稿では,全要件を満たす一般リスクカバレッジ曲線(\mathrm{AUGRC}$)に基づくエリアを提案する。
我々は6つのデータセットと13の信頼スコア関数にまたがる包括的なベンチマークにおいて、$\mathrm{AUGRC}$の妥当性を実証的に示す。
その結果,提案手法は6つのデータセットのうち5つの評価値に大きく変化していることがわかった。
Selective Classification, wherein models can reject low-confidence predictions, promises reliable translation of machine-learning based classification systems to real-world scenarios such as clinical diagnostics. While current evaluation of these systems typically assumes fixed working points based on pre-defined rejection thresholds, methodological progress requires benchmarking the general performance of systems akin to the $\mathrm{AUROC}$ in standard classification. In this work, we define 5 requirements for multi-threshold metrics in selective classification regarding task alignment, interpretability, and flexibility, and show how current approaches fail to meet them. We propose the Area under the Generalized Risk Coverage curve ($\mathrm{AUGRC}$), which meets all requirements and can be directly interpreted as the average risk of undetected failures. We empirically demonstrate the relevance of $\mathrm{AUGRC}$ on a comprehensive benchmark spanning 6 data sets and 13 confidence scoring functions. We find that the proposed metric substantially changes metric rankings on 5 out of the 6 data sets. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 重み変換で学習したニューラルネットワークはユニバーサル近似器である
Neural Networks Trained by Weight Permutation are Universal Approximators ( http://arxiv.org/abs/2407.01033v1 ) ライセンス: Link先を確認 | Yongqiang Cai, Gaohang Chen, Zhonghua Qiao, | (参考訳) 普遍近似特性はニューラルネットワークの成功の基礎であり、伝統的にパラメータに制約を加えることなくネットワークをトレーニングすることで達成されてきた。
しかし、近年の研究では、正確な重み値を変更することなく、望ましい分類性能を示す、新しい置換に基づくトレーニング手法が提案されている。
本稿では,ReLUネットワークを1次元連続関数に誘導する能力を示すことによって,この置換訓練法の理論的保証を提供する。
本手法の様々な初期化による回帰作業における効率性をさらに検証した。
重み調整中の顕著な観察は、置換訓練がネットワーク学習行動を記述する革新的なツールとなることを示唆している。
The universal approximation property is fundamental to the success of neural networks, and has traditionally been achieved by training networks without any constraints on their parameters. However, recent experimental research proposed a novel permutation-based training method, which exhibited a desired classification performance without modifying the exact weight values. In this paper, we provide a theoretical guarantee of this permutation training method by proving its ability to guide a ReLU network to approximate one-dimensional continuous functions. Our numerical results further validate this method's efficiency in regression tasks with various initializations. The notable observations during weight permutation suggest that permutation training can provide an innovative tool for describing network learning behavior. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 唇読解専門家による音声視覚誘導による音声駆動型3次元顔アニメーションの強化
Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert ( http://arxiv.org/abs/2407.01034v1 ) ライセンス: Link先を確認 | Han EunGi, Oh Hyun-Bin, Kim Sung-Bin, Corentin Nivelet Etcheberry, Suekyeong Nam, Janghoon Joo, Tae-Hyun Oh, | (参考訳) 音声駆動型3D顔アニメーションは、最近、マルチメディア生産におけるコスト効率の良いユーザビリティのために注目を集めている。
しかし、現在の進歩のほとんどは、唇の動きの知性を見落とし、表情のリアリズムを制限している。
本稿では,口唇の動きを正確に生成する音声駆動型3次元顔画像法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
さらに,提案した音声-視覚的知覚損失を取り入れた音声-視覚的唇読解専門家を考案し,音声と唇の動きの相関性に関する事前知識を活用する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
コードはhttps://3d-talking-head-avguide.github.io/で公開されている。
Speech-driven 3D facial animation has recently garnered attention due to its cost-effective usability in multimedia production. However, most current advances overlook the intelligibility of lip movements, limiting the realism of facial expressions. In this paper, we introduce a method for speech-driven 3D facial animation to generate accurate lip movements, proposing an audio-visual multimodal perceptual loss. This loss provides guidance to train the speech-driven 3D facial animators to generate plausible lip motions aligned with the spoken transcripts. Furthermore, to incorporate the proposed audio-visual perceptual loss, we devise an audio-visual lip reading expert leveraging its prior knowledge about correlations between speech and lip motions. We validate the effectiveness of our approach through broad experiments, showing noticeable improvements in lip synchronization and lip readability performance. Codes are available at https://3d-talking-head-avguide.github.io/. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# Liftsによるランク付け: 大規模A/Bテストに対するコストベネフィットアプローチ
Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests ( http://arxiv.org/abs/2407.01036v1 ) ライセンス: Link先を確認 | Pallavi Basu, Ron Berman, | (参考訳) 大規模なテストを実施するA/Bテスタは、リフトを優先順位付けし、nullの誤った拒絶を制御できるようにしたいと考えています。
本研究は、偽発見率(FDR)制御を受ける利益を最大化する決定論的枠組みを開発する。
我々はこの問題に対する経験的ベイズ解をgreedy knapsackアプローチによって構築する。
提案手法は, 予測昇降率のランク付けと, 誤検出率(lfdr)統計を用いた誤った拒絶のコストに基づいて, オラクルルールを導出する。
我々のオラクル決定ルールは大規模テストに有効で最適です。
さらに,データ駆動方式の漸近的妥当性を確立し,実験において有限サンプルの有効性を示す。
また,提案手法が他のFDR制御法よりも優れていることを示す。
最後に、実際のOptimizely実験への適用について論じる。
A/B testers conducting large-scale tests prioritize lifts and want to be able to control false rejections of the null. This work develops a decision-theoretic framework for maximizing profits subject to false discovery rate (FDR) control. We build an empirical Bayes solution for the problem via the greedy knapsack approach. We derive an oracle rule based on ranking the ratio of expected lifts and the cost of wrong rejections using the local false discovery rate (lfdr) statistic. Our oracle decision rule is valid and optimal for large-scale tests. Further, we establish asymptotic validity for the data-driven procedure and demonstrate finite-sample validity in experimental studies. We also demonstrate the merit of the proposed method over other FDR control methods. Finally, we discuss an application to actual Optimizely experiments. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# FRoG:大規模言語モデルにおける一般化量子化器のファジィ推論の評価
FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models ( http://arxiv.org/abs/2407.01046v1 ) ライセンス: Link先を確認 | Yiyuan Li, Shichao Sun, Pengfei Liu, | (参考訳) ファジィ推論は、日常の文脈で不正確な情報が頻繁に使われるため、不可欠である。
しかし、そのような推論を扱うための現在の大規模言語モデル(LLM)の能力は、いまだにほとんど変化がない。
本稿では,ファジィ推論のための新しいベンチマークFRoGを紹介する。
実験の結果, ファジィ推論はLSMにとって重要な課題であり続けていることが明らかとなった。
さらに、推論を強化するために設計された既存の手法は、ファジィ論理を含むタスクの性能を一貫して改善しないことがわかった。
さらに,本研究の結果は,FRoG上でのLDMの逆スケーリング効果を示す。
興味深いことに、強い数学的推論スキルが必ずしもベンチマークの成功を示すものではないことも示している。
Fuzzy reasoning is vital due to the frequent use of imprecise information in daily contexts. However, the ability of current large language models (LLMs) to handle such reasoning remains largely uncharted. In this paper, we introduce a new benchmark, FRoG, for fuzzy reasoning, featuring real-world mathematical word problems that incorporate generalized quantifiers. Our experimental findings reveal that fuzzy reasoning continues to pose significant challenges for LLMs. Moreover, we find that existing methods designed to enhance reasoning do not consistently improve performance in tasks involving fuzzy logic. Additionally, our results show an inverse scaling effect in the performance of LLMs on FRoG. Interestingly, we also demonstrate that strong mathematical reasoning skills are not necessarily indicative of success on our benchmark. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 事前学習型言語モデルにおける認知知の発達
Development of Cognitive Intelligence in Pre-trained Language Models ( http://arxiv.org/abs/2407.01047v1 ) ライセンス: Link先を確認 | Raj Sanjay Shah, Khushi Bhardwaj, Sashank Varma, | (参考訳) 近年の研究では、PLM(Large Pre-trained Language Models)における創発的認知能力の証拠が示されている。
これらのモデルの認知的アライメントの増大は、認知科学理論の候補となっている。
PLMの創発的認知能力に関する以前の研究は、主にパス非依存のモデルトレーニング、すなわち、中間段階ではなく最終的なモデルウェイトに焦点を当ててきた。
しかし, PLMを用いた人間認知モデルの構築は, 子どもの思考の軌跡に対する学習時の行動の発達的アライメントを考慮すれば有益である。
人間の知能の心理測定テストにより、PLMの10家族のアライメントを調査する4つのタスクを選択し、その中間および最終訓練手順を評価する。
これらのタスクは、数値能力、言語能力、概念理解、および流体推論である。
モデルのサイズに関わらず、PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
そのウィンドウの前には、トレーニングによって"ブランクスレート"モデルと、経験から素早く学ぶために必要な構造が提供されるように思われる。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
Recent studies show evidence for emergent cognitive abilities in Large Pre-trained Language Models (PLMs). The increasing cognitive alignment of these models has made them candidates for cognitive science theories. Prior research into the emergent cognitive abilities of PLMs has largely been path-independent to model training, i.e., has focused on the final model weights and not the intermediate steps. However, building plausible models of human cognition using PLMs would benefit from considering the developmental alignment of their performance during training to the trajectories of children's thinking. Guided by psychometric tests of human intelligence, we choose four sets of tasks to investigate the alignment of ten popular families of PLMs and evaluate their available intermediate and final training steps. These tasks are Numerical ability, Linguistic abilities, Conceptual understanding, and Fluid reasoning. We find a striking regularity: regardless of model size, the developmental trajectories of PLMs consistently exhibit a window of maximal alignment to human cognitive development. Before that window, training appears to endow "blank slate" models with the requisite structure to be poised to rapidly learn from experience. After that window, training appears to serve the engineering goal of reducing loss but not the scientific goal of increasing alignment with human cognition. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# スケーラブルな同変学習のためのSE(3)-Hyena演算子
SE(3)-Hyena Operator for Scalable Equivariant Learning ( http://arxiv.org/abs/2407.01049v1 ) ライセンス: Link先を確認 | Artem Moskalev, Mangal Prakash, Rui Liao, Tommaso Mansi, | (参考訳) 等分散を維持しながらグローバルな幾何学的文脈をモデル化することは、生物学、化学、視覚など多くの分野における正確な予測に不可欠である。
しかし、これは高次元データを大規模に処理する計算要求のため、難しい。
等価な自己アテンションや距離ベースのメッセージパッシングといった既存のアプローチは、シーケンス長に関して二次的な複雑さに悩まされ、ローカライズされた手法はグローバルな情報を犠牲にしている。
近年の状態空間および長期畳み込みモデルの成功に触発されて、ハイエナ作用素に基づく同変長畳み込みモデルであるSE(3)-ハイエナ作用素を導入する。
SE(3)-ヒエナは、回転と変換に等しくを維持しながら、大域的な幾何学的文脈を準四分法的な複雑さで捉えている。
等変的連想的リコールとn-体モデリングに基づいて評価され、SE(3)-Hyenaは、長いシーケンスに対してメモリと計算資源を著しく減らしながら、等変的自己アテンションにマッチまたは優れる。
我々のモデルは20kトークンの幾何学的コンテキストを同変変圧器のx3.5倍高速に処理し、x175が同じメモリ予算内でのコンテキストを長くすることができる。
Modeling global geometric context while maintaining equivariance is crucial for accurate predictions in many fields such as biology, chemistry, or vision. Yet, this is challenging due to the computational demands of processing high-dimensional data at scale. Existing approaches such as equivariant self-attention or distance-based message passing, suffer from quadratic complexity with respect to sequence length, while localized methods sacrifice global information. Inspired by the recent success of state-space and long-convolutional models, in this work, we introduce SE(3)-Hyena operator, an equivariant long-convolutional model based on the Hyena operator. The SE(3)-Hyena captures global geometric context at sub-quadratic complexity while maintaining equivariance to rotations and translations. Evaluated on equivariant associative recall and n-body modeling, SE(3)-Hyena matches or outperforms equivariant self-attention while requiring significantly less memory and computational resources for long sequences. Our model processes the geometric context of 20k tokens x3.5 times faster than the equivariant transformer and allows x175 longer a context within the same memory budget. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 大規模・多段深層強化学習による過拘束ロコモーションに向けた進化形態学
Evolutionary Morphology Towards Overconstrained Locomotion via Large-Scale, Multi-Terrain Deep Reinforcement Learning ( http://arxiv.org/abs/2407.01050v1 ) ライセンス: Link先を確認 | Yenan Chen, Chuye Zhang, Pengxi Gu, Jianuo Qiu, Jiayi Yin, Nuofan Qiu, Guojing Huang, Bangchao Huang, Zishang Zhang, Hui Deng, Wei Zhang, Fang Wan, Chaoyang Song, | (参考訳) 動物のフィン・ツー・リムの進化は生物学でよく研究されているが、そのような形態的変化は現代でも進化したロボット肢の設計において過小評価されている。
本稿では、進化形態学に触発されたデザインと学習の視点から、制約駆動型デザインインテリジェンス(以下、制約駆動型デザインインテリジェンス)という概念を、より優れたエネルギー効率で近代的なロボット手足の開発において統合することを目的とした、新しい制約付き移動のクラスについて検討する。
本研究では,従来の平面型4バーリンケージ,過剰拘束型ベネットリンケージ,球面型4バーリンケージとしてパラメトリックに再構成可能な3次元プリント可能なロボットアームの設計を提案する。
これらの手足は、現代の脚を持つロボットプラットフォームと同じ、同軸のアクチュエータを採用しており、車輪付きシステムにアップグレードする能力が追加されている。
そこで我々は,これら再構成可能な手足の訓練のための大規模・多段深層強化学習フレームワークを構築し,エネルギー効率の過度に制約された移動の比較分析を行った。
その結果, 水平・横方向の異なる地形, 床, 斜面, 階段などを歩くとき, 横方向の歩行において, 横方向の作業が完了すると, 少なくとも22%の機械的エネルギーを節約でき, 球形手足は最も効率的であることが示唆された。
また、平らな地形で毎秒0.85mの最高速度を達成しており、平面の四肢よりも20%高速である。
本研究は、進化形態と再構成可能なメカニズムインテリジェンスを利用して、深層強化学習における最先端の手法と組み合わせることで、過拘束ロボットの今後の研究に向けたエキサイティングな道筋を示すものである。
While the animals' Fin-to-Limb evolution has been well-researched in biology, such morphological transformation remains under-adopted in the modern design of advanced robotic limbs. This paper investigates a novel class of overconstrained locomotion from a design and learning perspective inspired by evolutionary morphology, aiming to integrate the concept of `intelligent design under constraints' - hereafter referred to as constraint-driven design intelligence - in developing modern robotic limbs with superior energy efficiency. We propose a 3D-printable design of robotic limbs parametrically reconfigurable as a classical planar 4-bar linkage, an overconstrained Bennett linkage, and a spherical 4-bar linkage. These limbs adopt a co-axial actuation, identical to the modern legged robot platforms, with the added capability of upgrading into a wheel-legged system. Then, we implemented a large-scale, multi-terrain deep reinforcement learning framework to train these reconfigurable limbs for a comparative analysis of overconstrained locomotion in energy efficiency. Results show that the overconstrained limbs exhibit more efficient locomotion than planar limbs during forward and sideways walking over different terrains, including floors, slopes, and stairs, with or without random noises, by saving at least 22% mechanical energy in completing the traverse task, with the spherical limbs being the least efficient. It also achieves the highest average speed of 0.85 meters per second on flat terrain, which is 20% faster than the planar limbs. This study paves the path for an exciting direction for future research in overconstrained robotics leveraging evolutionary morphology and reconfigurable mechanism intelligence when combined with state-of-the-art methods in deep reinforcement learning. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 効率的なディープニューラルネットワークのための連成プルーニングとチャネルワイド混合精度量子化
Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks ( http://arxiv.org/abs/2407.01054v1 ) ライセンス: Link先を確認 | Beatrice Alessandra Motetti, Matteo Risso, Alessio Burrello, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari, | (参考訳) ディープニューラルネットワーク(DNN)のリソース要件は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処するための一般的なアプローチは、プルーニングと混合精度の量子化である。
これらの最適化手法は通常独立して適用される。
本稿では,軽量な勾配探索により協調的に適用するための新しい手法を提案する。また,ハードウェアを意識した手法により,精度とコスト(レイテンシやメモリなど)の観点から,パレート最適DNNを生成するのに必要な時間を大幅に削減する。
我々は、CIFAR-10、Google Speech Commands、Tiny ImageNetの3つのエッジ関連ベンチマークでアプローチを検証した。
メモリフットプリントの最適化を目標とすると、それぞれ8ビットと2ビットで量子化された全ての重みを持つベースラインネットワークと等精度で47.50%と69.54%のサイズ縮小を達成することができる。
本手法は従来の最先端手法を上回り, 等精度で最大56.17%の小型化を実現した。
最先端プルーニングと混合精度最適化の逐次適用に関して、比較または優れた結果を得るが、トレーニング時間が大幅に短縮される。
さらに、適切なコストモデルにより、特定のハードウェアをターゲットとしたデプロイメントにおいて、コスト対精度のトレードオフが向上することを示す。
The resource requirements of deep neural networks (DNNs) pose significant challenges to their deployment on edge devices. Common approaches to address this issue are pruning and mixed-precision quantization, which lead to latency and memory occupation improvements. These optimization techniques are usually applied independently. We propose a novel methodology to apply them jointly via a lightweight gradient-based search, and in a hardware-aware manner, greatly reducing the time required to generate Pareto-optimal DNNs in terms of accuracy versus cost (i.e., latency or memory). We test our approach on three edge-relevant benchmarks, namely CIFAR-10, Google Speech Commands, and Tiny ImageNet. When targeting the optimization of the memory footprint, we are able to achieve a size reduction of 47.50% and 69.54% at iso-accuracy with the baseline networks with all weights quantized at 8 and 2-bit, respectively. Our method surpasses a previous state-of-the-art approach with up to 56.17% size reduction at iso-accuracy. With respect to the sequential application of state-of-the-art pruning and mixed-precision optimizations, we obtain comparable or superior results, but with a significantly lowered training time. In addition, we show how well-tailored cost models can improve the cost versus accuracy trade-offs when targeting specific hardware for deployment. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# 因果学習と等角予測によるROIの改善
Improve ROI with Causal Learning and Conformal Prediction ( http://arxiv.org/abs/2407.01065v1 ) ライセンス: Link先を確認 | Meng Ai, Zhuo Chen, Jibin Wang, Jing Shang, Tao Tao, Zhen Li, | (参考訳) 運用やメンテナンス,広告,マーケティングレコメンデーションといった商業分野において,データマイニングとニューラルネットワーク技術を活用したインテリジェントな意思決定は,特にROIを最適化するためのリソース割り当てにおいて重要である。
本研究は,現在最先端の直接ROI予測(DRP)手法に焦点をあてて,様々な産業におけるコスト対応バイナリ処理割り当て問題(C-BTAP)について考察する。
しかし、DRPモデルは共変量シフトや不十分なトレーニングデータといった問題に直面し、実際の効果を妨げる。
これらの課題に対処することは、さまざまな運用状況における信頼性と堅牢な予測を保証するために不可欠である。
本稿では,特に共変量シフトやトレーニングデータ不足の条件下で,ニューラルネットワークベースアップリフトモデルの現実的な展開における課題に対処するために,ロバストな直接ROI予測(rDRP)手法を提案する。
標準のDRPモデルを強化するrDRP法は、モデルの構造を変更したり、再訓練を必要としない。
モデルの不確実性やデータ分散シフトに適応して、共形予測とモンテカルロのドロップアウトを間隔推定に利用する。
カグル競合にインスパイアされたヒューリスティックキャリブレーション法は、点と間隔の見積もりを組み合わせたものである。
これらの手法の有効性は、オフラインテストやオンラインA/Bテストを通じて様々な環境で検証され、最先端の手法と比較して目標報酬の大幅な改善が示されている。
In the commercial sphere, such as operations and maintenance, advertising, and marketing recommendations, intelligent decision-making utilizing data mining and neural network technologies is crucial, especially in resource allocation to optimize ROI. This study delves into the Cost-aware Binary Treatment Assignment Problem (C-BTAP) across different industries, with a focus on the state-of-the-art Direct ROI Prediction (DRP) method. However, the DRP model confronts issues like covariate shift and insufficient training data, hindering its real-world effectiveness. Addressing these challenges is essential for ensuring dependable and robust predictions in varied operational contexts. This paper presents a robust Direct ROI Prediction (rDRP) method, designed to address challenges in real-world deployment of neural network-based uplift models, particularly under conditions of covariate shift and insufficient training data. The rDRP method, enhancing the standard DRP model, does not alter the model's structure or require retraining. It utilizes conformal prediction and Monte Carlo dropout for interval estimation, adapting to model uncertainty and data distribution shifts. A heuristic calibration method, inspired by a Kaggle competition, combines point and interval estimates. The effectiveness of these approaches is validated through offline tests and online A/B tests in various settings, demonstrating significant improvements in target rewards compared to the state-of-the-art method. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# マルチモーダル大言語モデルに自然に現れる人間のような物体概念表現
Human-like object concept representations emerge naturally in multimodal large language models ( http://arxiv.org/abs/2407.01067v1 ) ライセンス: Link先を確認 | Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He, | (参考訳) 人間の心における自然の物体の概念化と分類は、認知科学者や神経科学者に長年興味を持ち、人間の知覚と認知の重要な洞察を与えてきた。
近年,Large Language Models (LLMs) の急速な発展により,膨大な言語およびマルチモーダルデータに曝露することで,これらのモデルが人間のようなオブジェクト表現を開発できるかどうかという,魅力的な疑問が持ち上がっている。
本研究では、行動解析と神経画像解析を併用し、LLMにおける物体概念表現が人間のものとどのように相関するかを明らかにする。
LLMとMultimodal LLM(MLLM)から470万の3重項判定の大規模データセットを収集することにより、我々は1,854個の自然物体の基本的な類似性構造を捉えた低次元の埋め込みを導出することができた。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
興味深いことに、これらの埋め込みの基礎となる次元の解釈可能性から、LLMとMLLMが自然物体の人間的な概念表現を開発したことが示唆されている。
さらに, 機能的に定義された多くの脳ROI(例えば, EBA, PPA, RSC, FFA)において, 同定されたモデル埋め込みと神経活動パターンとの間に強い相関が認められた。
これは、LLMのオブジェクト表現が人間と同一ではないが、人間の概念的知識の重要なスキーマを反映した基本的な共通点を共有しているという説得力のある証拠を提供する。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
The conceptualization and categorization of natural objects in the human mind have long intrigued cognitive scientists and neuroscientists, offering crucial insights into human perception and cognition. Recently, the rapid development of Large Language Models (LLMs) has raised the attractive question of whether these models can also develop human-like object representations through exposure to vast amounts of linguistic and multimodal data. In this study, we combined behavioral and neuroimaging analysis methods to uncover how the object concept representations in LLMs correlate with those of humans. By collecting large-scale datasets of 4.7 million triplet judgments from LLM and Multimodal LLM (MLLM), we were able to derive low-dimensional embeddings that capture the underlying similarity structure of 1,854 natural objects. The resulting 66-dimensional embeddings were found to be highly stable and predictive, and exhibited semantic clustering akin to human mental representations. Interestingly, the interpretability of the dimensions underlying these embeddings suggests that LLM and MLLM have developed human-like conceptual representations of natural objects. Further analysis demonstrated strong alignment between the identified model embeddings and neural activity patterns in many functionally defined brain ROIs (e.g., EBA, PPA, RSC and FFA). This provides compelling evidence that the object representations in LLMs, while not identical to those in the human, share fundamental commonalities that reflect key schemas of human conceptual knowledge. This study advances our understanding of machine intelligence and informs the development of more human-like artificial cognitive systems. | 翻訳日:2024-07-03 22:29:17 公開日:2024-07-01 |
# マルチモーダル条件付き3次元顔形状生成
Multimodal Conditional 3D Face Geometry Generation ( http://arxiv.org/abs/2407.01074v1 ) ライセンス: Link先を確認 | Christopher Otto, Prashanth Chandran, Sebastian Weiss, Markus Gross, Gaspard Zoss, Derek Bradley, | (参考訳) 本稿では,複数の異なる条件信号を介して,出力の同一性や表現をユーザフレンドリに制御できるマルチモーダルな3次元顔形状生成手法を提案する。
単一のモデル内では、アートスケッチ、2D顔ランドマーク、キャニーエッジ、FLAME顔モデルパラメータ、ポートレート写真、テキストプロンプトから生成される3D顔のデモを行う。
提案手法は,2次元パラメータ化UV領域における3次元幾何を生成する拡散過程に基づく。
幾何生成は、各ユーザ定義のコンディショニング信号に対して設定された一組のクロスアテンション層(IP-Adapter)を介して、各コンディショニング信号を渡す。
その結果,ユーザ制御の細かい高解像度な3D顔生成ツールが実現した。
We present a new method for multimodal conditional 3D face geometry generation that allows user-friendly control over the output identity and expression via a number of different conditioning signals. Within a single model, we demonstrate 3D faces generated from artistic sketches, 2D face landmarks, Canny edges, FLAME face model parameters, portrait photos, or text prompts. Our approach is based on a diffusion process that generates 3D geometry in a 2D parameterized UV domain. Geometry generation passes each conditioning signal through a set of cross-attention layers (IP-Adapter), one set for each user-defined conditioning signal. The result is an easy-to-use 3D face generation tool that produces high resolution geometry with fine-grain user control. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# フロッケ理論とブリルアン・ウィグナー摂動法の観点からのスピン共鳴
Spin Resonance in Perspective of Floquet Theory and Brillouin-Wigner Perturbation Method ( http://arxiv.org/abs/2407.01075v1 ) ライセンス: Link先を確認 | Mingjun Feng, Guobin Liu, | (参考訳) 我々は2レベルスピン共鳴を新しい視点で研究した。
フローケ理論を用いて、周期的な相互作用ハミルトニアンは時間に依存しない相互作用へと変換された。
ブリルアン・ウィグナー摂動法を用いて、デジェネレーション部分空間を構築し、有効ハミルトニアンを摂動拡大で与える。
この枠組みでは、上三角要素 $\langle \alpha | H^1 | \beta \rangle$ が共鳴が起こるかどうかを決定する。
一般化されたRabi周波数とBloch-Siegertシフトは、第1次および第2次解として容易に解かれ、この方法の利点が証明された。
We studied the two-level spin resonance in a new perspective. Using the Floquet theory, the periodic interaction Hamiltonians were transfromed into a time-independent interaction. Using the Brillouin-Wigner perturbation method, a degenerated subspace is constructed, where the effective Hamiltonian is given in a perturbation expansion. In this framework, we found that the upper triangular element $\langle \alpha | H^1 | \beta \rangle$, determines whether the resonance happens. The generalized Rabi frequency and the Bloch-Siegert shift were solved straightforwardly as the first order and the second order solution, proving the benefit of the developed method. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# 潜伏拡散変圧器(DiTs)の統計的速度と有効基準について
On Statistical Rates and Provably Efficient Criteria of Latent Diffusion Transformers (DiTs) ( http://arxiv.org/abs/2407.01079v1 ) ライセンス: Link先を確認 | Jerry Yao-Chieh Hu, Weimin Wu, Zhuoru Li, Zhao Song, Han Liu, | (参考訳) 低次元線形ラテント空間仮定の下で、潜伏型 \textbf{Di}ffusion \textbf{T}ransformers (\textbf{DiT}s) の統計的および計算的限界について検討する。
統計的には,DiTsスコア関数の普遍近似とサンプル複雑性,および初期データの分布回復特性について検討する。
具体的には、軽度のデータ仮定の下では、潜時空間次元のサブ線形である潜時DiTのスコアネットワークに対して近似誤差を導出する。
さらに、対応するサンプルの複雑性境界を導出し、推定スコア関数から生成されたデータ分布が元の値の近距離領域に収束することを示す。
計算学的には、Strong Exponential Time hypothesis (SETH) を仮定して、前向き推論と遅延DiTの後方計算の両方の硬さを特徴付ける。
フォワード推論では,全ての遅延DiTs推論アルゴリズムの効率的な基準を特定し,その効率をほぼ線形時間推論に推し進めることで理論を実証する。
逆向きの計算では、アルゴリズムの高速化のために、DiTsトレーニングの勾配計算の低ランク構造を利用する。
具体的には、Dits勾配を一連の鎖状低ランク近似として有界誤差でキャストすることにより、ほぼ直線的なDiTsトレーニングを実現することを示す。
低次元の仮定では、収束速度と計算効率が共に部分空間の次元に支配されていることが示され、遅延DiTは初期データの高次元性に関連する課題を回避できる可能性が示唆された。
We investigate the statistical and computational limits of latent \textbf{Di}ffusion \textbf{T}ransformers (\textbf{DiT}s) under the low-dimensional linear latent space assumption. Statistically, we study the universal approximation and sample complexity of the DiTs score function, as well as the distribution recovery property of the initial data. Specifically, under mild data assumptions, we derive an approximation error bound for the score network of latent DiTs, which is sub-linear in the latent space dimension. Additionally, we derive the corresponding sample complexity bound and show that the data distribution generated from the estimated score function converges toward a proximate area of the original one. Computationally, we characterize the hardness of both forward inference and backward computation of latent DiTs, assuming the Strong Exponential Time Hypothesis (SETH). For forward inference, we identify efficient criteria for all possible latent DiTs inference algorithms and showcase our theory by pushing the efficiency toward almost-linear time inference. For backward computation, we leverage the low-rank structure within the gradient computation of DiTs training for possible algorithmic speedup. Specifically, we show that such speedup achieves almost-linear time latent DiTs training by casting the DiTs gradient as a series of chained low-rank approximations with bounded error. Under the low-dimensional assumption, we show that the convergence rate and the computational efficiency are both dominated by the dimension of the subspace, suggesting that latent DiTs have the potential to bypass the challenges associated with the high dimensionality of initial data. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# Face4RAG:中国語における検索増強世代のための実環境整合性評価
Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese ( http://arxiv.org/abs/2407.01080v1 ) ライセンス: Link先を確認 | Yunqi Xu, Tianchi Cai, Jiyan Jiang, Xierui Song, | (参考訳) 従来の検索型拡張世代(RAG)における事実整合性エラーの一般的な問題は、FCE(Factual Consistency Evaluation)の研究を動機付けている。
先に提案した様々なFCE手法にもかかわらず、これらの手法は特定のLarge Language Models (LLMs) によって生成されたデータセットに基づいて評価される。
包括的なベンチマークがなければ、これらのFCEメソッドが、異なるエラー分布を持つ他のLLM上でどのように機能するか、さらには、他のLLMによって生成されたエラータイプを検出するのに失敗する可能性があるため、まだ探索されていない。
このギャップを埋めるために、本論文では、基礎となるLLMに依存しないRAGのための、最初の総合的な FCE ベンチマーク \emph{Face4RAG} を提案する。
本ベンチマークは, 事実整合性エラーを念頭に設計した合成データセットと, 6つの LLM を用いて構築された実世界のデータセットから構成し, 特定のエラータイプや実世界のエラー分布に対するFCE法の評価を可能にする。
提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。
この問題を解決するために,論理保存型解解分解法とファクト論理型FCEの2つの新しい設計法である 'emph{L-Face4RAG} を提案する。
大規模な実験により、L-Face4RAGは、もともと動機付けられたRAGタスクを超えて、広範囲のタスクにおいて、現実的不整合検出の手法を大幅に上回っていることが示された。
ベンチマークと提案手法の両方が公開されている。
https://huggingface.co/datasets/yq27/Face4RAG}\label{link_face4rag}}
The prevailing issue of factual inconsistency errors in conventional Retrieval Augmented Generation (RAG) motivates the study of Factual Consistency Evaluation (FCE). Despite the various FCE methods proposed earlier, these methods are evaluated on datasets generated by specific Large Language Models (LLMs). Without a comprehensive benchmark, it remains unexplored how these FCE methods perform on other LLMs with different error distributions or even unseen error types, as these methods may fail to detect the error types generated by other LLMs. To fill this gap, in this paper, we propose the first comprehensive FCE benchmark \emph{Face4RAG} for RAG independent of the underlying LLM. Our benchmark consists of a synthetic dataset built upon a carefully designed typology for factuality inconsistency error and a real-world dataset constructed from six commonly used LLMs, enabling evaluation of FCE methods on specific error types or real-world error distributions. On the proposed benchmark, we discover the failure of existing FCE methods to detect the logical fallacy, which refers to a mismatch of logic structures between the answer and the retrieved reference. To fix this issue, we further propose a new method called \emph{L-Face4RAG} with two novel designs of logic-preserving answer decomposition and fact-logic FCE. Extensive experiments show L-Face4RAG substantially outperforms previous methods for factual inconsistency detection on a wide range of tasks, notably beyond the RAG task from which it is originally motivated. Both the benchmark and our proposed method are publicly available.\footnote{\url{https://huggingface.co/datasets/yq27/Face4RAG}\label{link_face4rag}} | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# CVLUE:中国の視覚言語理解評価のためのベンチマークデータセット
CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation ( http://arxiv.org/abs/2407.01081v1 ) ライセンス: Link先を確認 | Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che, | (参考訳) 中国語ビジョン言語モデル(VLM)の急速な発展にもかかわらず、既存の中国語ビジョン言語(VL)データセットの多くは、既存の英語VLデータセットから西洋中心の画像に基づいて構築されている。
画像の文化的バイアスは、これらのデータセットを中国の文化におけるVLMの評価に適さないものにしている。
この問題を解決するために,我々は,対象カテゴリと画像の選択が中国語話者によって完全に駆動され,ソースイメージが中国語文化を代表することを保証する,新しい中国語ビジョン言語理解評価(CVLUE)ベンチマークデータセットを提案する。
このベンチマークには、画像テキスト検索から視覚的質問応答、視覚的接地、視覚的対話までの4つの異なるVLタスクが含まれている。
本稿では,CVLUE の詳細な統計解析を行い,CVLUE と英語対応のオープンソース多言語 VLM を用いてベースライン性能解析を行い,その性能差を明らかにする。
我々の詳細なカテゴリーレベルの分析は、既存のVLMにおける中国の文化知識の欠如を明らかにしている。
また,中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
Despite the rapid development of Chinese vision-language models (VLMs), most existing Chinese vision-language (VL) datasets are constructed on Western-centric images from existing English VL datasets. The cultural bias in the images makes these datasets unsuitable for evaluating VLMs in Chinese culture. To remedy this issue, we present a new Chinese Vision- Language Understanding Evaluation (CVLUE) benchmark dataset, where the selection of object categories and images is entirely driven by Chinese native speakers, ensuring that the source images are representative of Chinese culture. The benchmark contains four distinct VL tasks ranging from image-text retrieval to visual question answering, visual grounding and visual dialogue. We present a detailed statistical analysis of CVLUE and provide a baseline performance analysis with several open-source multilingual VLMs on CVLUE and its English counterparts to reveal their performance gap between English and Chinese. Our in-depth category-level analysis reveals a lack of Chinese cultural knowledge in existing VLMs. We also find that fine-tuning on Chinese culture-related VL datasets effectively enhances VLMs' understanding of Chinese culture. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# Min Pサンプリング: 創造性とコヒーレンスを高温でバランスさせる
Min P Sampling: Balancing Creativity and Coherence at High Temperature ( http://arxiv.org/abs/2407.01082v1 ) ライセンス: Link先を確認 | Minh Nguyen, Andrew Baker, Andreas Kirsch, Clement Neo, | (参考訳) 大言語モデル(LLM)は、各復号ステップにおけるトークン語彙の確率分布に基づいて次のトークンを順次サンプリングすることにより、長文を生成する。
核サンプリングとしても知られ、特に高温を用いる場合、テキストの生成においてコヒーレンスと創造性のバランスをとるのに苦労する。
この問題に対処するために、トークンの最小基準パーセンテージしきい値を確立し、上位候補トークンの確率に応じてスケールする動的トランケーションサンプリング手法であるmin-$p$を提案する。
GPQA, GSM8K, AlpacaEval Creative Writingなどのベンチマーク実験を通じて, min-$p$は高温でも生成したテキストのコヒーレンスや品質を向上させるとともに, 上位$p$や他のサンプリング手法と比較して, より創造的で多様なアウトプットを促進することを実証した。
この記事執筆時点で、min-$p$ は複数のオープンソース LLM 実装で採用されており、オープンソース LLM コミュニティのメンバーによって独立して評価されており、その実用性と可能性をさらに検証している。
Large Language Models (LLMs) generate longform text by successively sampling the next token based on the probability distribution of the token vocabulary at each decoding step. Current popular truncation sampling methods such as top-$p$ sampling, also known as nucleus sampling, often struggle to balance coherence and creativity in generating text, particularly when using higher temperatures. To address this issue, we propose min-$p$, a dynamic truncation sampling method, that establishes a minimum base percentage threshold for tokens, which the scales according to the probability of the top candidate token. Through experiments on several benchmarks, such as GPQA, GSM8K and AlpacaEval Creative Writing, we demonstrate that min-$p$ improves the coherence and quality of generated text even at high temperatures, while also facilitating more creative and diverse outputs compared to top-$p$ and other sampling methods. As of writing, min-$p$ has been adopted by multiple open-source LLM implementations, and have been independently assessed by members of the open-source LLM community, further validating its practical utility and potential. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# LLMによる嗜好評価の再考
Rethinking LLM-based Preference Evaluation ( http://arxiv.org/abs/2407.01085v1 ) ライセンス: Link先を確認 | Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Jieyu Zhao, Hui Xiong, | (参考訳) 近年,大規模言語モデル(LLM)に基づく嗜好評価が,モデル応答のペアを比較するために広く採用されている。
しかし, 長大な応答に対する偏りが観察されており, この評価手法の信頼性への懸念が高まっている。
本研究では, LLMによる選好評価の指標,すなわち, 勝利率に影響を及ぼす要因を検討するための一連の制御実験を設計し, 勝利率は2軸のモデル応答によって影響を受けると結論付けた。
情報量に影響を与えることで,既存の評価に長さが影響していることが判明した。
しかし、信頼性の高い評価基準は、コンテンツ品質を評価するだけでなく、応答長などの外部要因によって評価が確立されないことを保証すべきである。
そこで本研究では,既存の利率測定の実践に対して,簡易かつ効果的な調整法であるAdapAlpacaを提案する。
具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。
Recently, large language model (LLM)-based preference evaluation has been widely adopted to compare pairs of model responses. However, a severe bias towards lengthy responses has been observed, raising concerns about the reliability of this evaluation method. In this work, we designed a series of controlled experiments to study the major impacting factors of the metric of LLM-based preference evaluation, i.e., win rate, and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. We find that length impacts the existing evaluations by influencing information mass. However, a reliable evaluation metric should not only assess content quality but also ensure that the assessment is not confounded by extraneous factors such as response length. Therefore, we propose a simple yet effective adjustment, AdapAlpaca, to the existing practice of win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# 極低周波コーンビームCT再構成のための3次元ガウスアンの学習
Learning 3D Gaussians for Extremely Sparse-View Cone-Beam CT Reconstruction ( http://arxiv.org/abs/2407.01090v1 ) ライセンス: Link先を確認 | Yiqun Lin, Hualiang Wang, Jixiang Chen, Xiaomeng Li, | (参考訳) Cone-Beam Computed Tomography (CBCT) は医用画像の撮影に欠かせない手法であるが、放射線照射が臨床応用に懸念をもたらす。
これらのリスクを軽減するため、CT再建の投影を少なくして放射線線量を減らすことを目的として、スパースビュー再構築が重要な研究方向として浮上している。
Sparse-view CBCT再建のために暗黙的な神経表現が導入されたが、既存の手法は主にスパースプロジェクションからの局所的な2D特徴に焦点を当てており、胸部などのより複雑な解剖学的構造を処理するには不十分である。
この目的のために,3次元ガウス空間の特徴分布を表現するために3次元ガウス空間を活用し,減衰係数の推定を容易にする3次元空間情報を提供する新しい再構成フレームワークDIF-Gaussianを提案する。
さらに、推論中にテスト時間最適化を導入し、モデルの一般化能力をさらに改善する。
2つの公開データセット上でDIF-Gaussianを評価し,従来の最先端手法よりもはるかに優れた再構成性能を示した。
Cone-Beam Computed Tomography (CBCT) is an indispensable technique in medical imaging, yet the associated radiation exposure raises concerns in clinical practice. To mitigate these risks, sparse-view reconstruction has emerged as an essential research direction, aiming to reduce the radiation dose by utilizing fewer projections for CT reconstruction. Although implicit neural representations have been introduced for sparse-view CBCT reconstruction, existing methods primarily focus on local 2D features queried from sparse projections, which is insufficient to process the more complicated anatomical structures, such as the chest. To this end, we propose a novel reconstruction framework, namely DIF-Gaussian, which leverages 3D Gaussians to represent the feature distribution in the 3D space, offering additional 3D spatial information to facilitate the estimation of attenuation coefficients. Furthermore, we incorporate test-time optimization during inference to further improve the generalization capability of the model. We evaluate DIF-Gaussian on two public datasets, showing significantly superior reconstruction performance than previous state-of-the-art methods. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# M2QA:マルチドメイン多言語質問回答
M2QA: Multi-domain Multilingual Question Answering ( http://arxiv.org/abs/2407.01091v1 ) ライセンス: Link先を確認 | Leon Engländer, Hannah Sterz, Clifton Poth, Jonas Pfeiffer, Ilia Kuznetsov, Iryna Gurevych, | (参考訳) 入力変動に対する一般化と堅牢性は、機械学習研究の核となるデシダータである。
言語はいくつかの軸に沿って変化し、最も重要なのは、言語インスタンス(eg French)とドメイン(eg news)である。
1つのドメイン内の新しい言語や1つの言語内の新しいドメインにNLPモデルを適応させることは、広く研究されているが、共同適応の研究は評価データセットの欠如によって妨げられている。
これにより、NLPシステムは、十分なリソースを持つ言語やドメインから、非支配的な言語とドメインの組み合わせに移行することができない。
このギャップに対処するため,マルチドメイン多言語質問応答ベンチマークであるM2QAを導入する。
M2QAには、ドイツ語、トルコ語、中国語で13500のSQuAD 2.0スタイルの質問応答インスタンスが含まれている。
我々は、M2QAを用いて、細調整されたモデルと最先端のLLMの言語間クロスドメイン性能を探索し、ドメインおよび言語適応に対するモジュラーアプローチについて検討する。
目撃者
1)モデルクラス内のドメイン言語の組み合わせと性能のかなりの変動
2) 全てのモデルサイズでソースとターゲット言語ドメインの組み合わせのパフォーマンスが大幅に低下する。
我々は,M2QAが解決には程遠いことを実証し,言語情報とドメイン固有情報の両方を効果的に転送する新しい方法が必要であることを示した。
M2QAをhttps://github.com/UKPLab/m2qa.comで公開しています。
Generalization and robustness to input variation are core desiderata of machine learning research. Language varies along several axes, most importantly, language instance (e.g. French) and domain (e.g. news). While adapting NLP models to new languages within a single domain, or to new domains within a single language, is widely studied, research in joint adaptation is hampered by the lack of evaluation datasets. This prevents the transfer of NLP systems from well-resourced languages and domains to non-dominant language-domain combinations. To address this gap, we introduce M2QA, a multi-domain multilingual question answering benchmark. M2QA includes 13,500 SQuAD 2.0-style question-answer instances in German, Turkish, and Chinese for the domains of product reviews, news, and creative writing. We use M2QA to explore cross-lingual cross-domain performance of fine-tuned models and state-of-the-art LLMs and investigate modular approaches to domain and language adaptation. We witness 1) considerable performance variations across domain-language combinations within model classes and 2) considerable performance drops between source and target language-domain combinations across all model sizes. We demonstrate that M2QA is far from solved, and new methods to effectively transfer both linguistic and domain-specific information are necessary. We make M2QA publicly available at https://github.com/UKPLab/m2qa. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# Kolmogorov-Arnoldコンボリューション:設計原理と実証的研究
Kolmogorov-Arnold Convolutions: Design Principles and Empirical Studies ( http://arxiv.org/abs/2407.01092v1 ) ライセンス: Link先を確認 | Ivan Drokin, | (参考訳) コルモゴロフ・アルノルドネットワーク(KAN)の出現は、科学コミュニティ内で大きな関心と議論を引き起こしている。
本稿では,コンピュータビジョン(CV)分野におけるkanの応用について検討する。
我々は、ウェーブレット変換や様々な多項式など、スプラインを超えた様々な非線形性オプションを考慮して、カンの畳み込み版について検討する。
そこで本研究では,Kanモデルに対して,KanモデルとKanモデルに対して,Kolmogorov-Arnold畳み込み層に対するパラメータ効率設計とパラメータ効率の微調整アルゴリズムを提案する。
画像分類タスクのためのMNIST, CIFAR10, CIFAR100, Tiny ImageNet, ImageNet1k, HAM10000データセットについて実験を行った。
さらに、セグメンテーションタスク、Kankan畳み込みによるU-Netのようなアーキテクチャの提案、BUSI、GlaS、CVCデータセットの最先端結果の達成についても検討する。
我々は,コンピュータビジョンタスクのためのKAN畳み込みモデルの予備設計ガイドに,すべての知見を要約した。
さらに,KAの正規化手法についても検討する。
ImageNet1kの重みで事前トレーニングされた畳み込みレイヤとモデルの試験コードと実装は、このhttps://github.com/IvanDrokin/torch-conv-kanを通じてGitHubで入手できる。
The emergence of Kolmogorov-Arnold Networks (KANs) has sparked significant interest and debate within the scientific community. This paper explores the application of KANs in the domain of computer vision (CV). We examine the convolutional version of KANs, considering various nonlinearity options beyond splines, such as Wavelet transforms and a range of polynomials. We propose a parameter-efficient design for Kolmogorov-Arnold convolutional layers and a parameter-efficient finetuning algorithm for pre-trained KAN models, as well as KAN convolutional versions of self-attention and focal modulation layers. We provide empirical evaluations conducted on MNIST, CIFAR10, CIFAR100, Tiny ImageNet, ImageNet1k, and HAM10000 datasets for image classification tasks. Additionally, we explore segmentation tasks, proposing U-Net-like architectures with KAN convolutions, and achieving state-of-the-art results on BUSI, GlaS, and CVC datasets. We summarized all of our findings in a preliminary design guide of KAN convolutional models for computer vision tasks. Furthermore, we investigate regularization techniques for KANs. All experimental code and implementations of convolutional layers and models, pre-trained on ImageNet1k weights are available on GitHub via this https://github.com/IvanDrokin/torch-conv-kan | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# IBSEN:制御可能で対話的なドラマスクリプト生成のためのディレクターエージェントコラボレーション
IBSEN: Director-Actor Agent Collaboration for Controllable and Interactive Drama Script Generation ( http://arxiv.org/abs/2407.01093v1 ) ライセンス: Link先を確認 | Senyu Han, Lu Chen, Li-Min Lin, Zhengshan Xu, Kai Yu, | (参考訳) 大規模な言語モデルは、ストーリーラインの作成と人間のようなキャラクターロールプレイングの能力を実証してきた。
現在の言語モデルエージェントは、主に個人のレベルから合理的な行動に焦点を当てており、それらの行動はストーリー全体のレベルに制約するのは難しいかもしれない。
本稿では、ドラマスクリプトを生成し、エージェントがプレイするプロットをより制御しやすくする、ディレクター・アクター座標エージェントフレームワークであるIBSENを紹介する。
監督エージェントは、ユーザーが見たいと願うプロットの概要を書き、俳優エージェントにキャラクターをロールプレイするように指示し、人間のプレイヤーがシナリオに参加するときにプロットを再スケジュールし、プロットが目的に向かって進行していることを確認する。
この枠組みを評価するために,複数の俳優エージェントを巻き込んだ新しいドラマ・プロットを作成し,監督エージェントの指示のもと,それらの相互作用を確認する。
評価の結果,ドラマの登場人物の特徴を保ちながら,プロット目的の粗大なアウトラインのみから,完全な多彩なドラマ脚本を作成できることが示唆された。
私たちのコードとプロンプトはhttps://github.com/OpenDFM/ibsen.comで公開されています。
Large language models have demonstrated their capabilities in storyline creation and human-like character role-playing. Current language model agents mainly focus on reasonable behaviors from the level of individuals, and their behaviors might be hard to constraint on the level of the whole storyline. In this paper we introduce IBSEN, a director-actor coordinate agent framework that generates drama scripts and makes the plot played by agents more controllable. The director agent writes plot outlines that the user desires to see, instructs the actor agents to role-play their characters, and reschedules the plot when human players participate in the scenario to ensure the plot is progressing towards the objective. To evaluate the framework, we create a novel drama plot that involves several actor agents and check the interactions between them under the instruction of the director agent. Evaluation results show that our framework could generate complete, diverse drama scripts from only a rough outline of plot objectives, meanwhile maintaining the characteristics of characters in the drama. Our codes and prompts are available at https://github.com/OpenDFM/ibsen. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# テキスト・ビデオ生成モデルの評価:ダイナミクスの視点から
Evaluation of Text-to-Video Generation Models: A Dynamics Perspective ( http://arxiv.org/abs/2407.01094v1 ) ライセンス: Link先を確認 | Mingxiang Liao, Hannan Lu, Xinyu Zhang, Fang Wan, Tianyu Wang, Yuzhong Zhao, Wangmeng Zuo, Qixiang Ye, Jingdong Wang, | (参考訳) 包括的および構成的評価プロトコルは、洗練されたテキスト・ツー・ビデオ(T2V)生成モデルの開発において重要な役割を果たす。
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に重点を置いているが、ビデオコンテンツのダイナミクスは無視されている。
ダイナミクスは、テキストプロンプトに対するビデオコンテンツの視覚的鮮明さと誠実さを測定するために不可欠な次元である。
本研究では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
そこで本研究では,複数のダイナミックスグレードを完全に反映したテキストプロンプトからなる新しいベンチマークを構築し,各ビデオのダイナミックスを包括的に評価するために,様々な時間的粒度に対応するダイナミックススコアのセットを定義する。
新しいベンチマークとダイナミックススコアに基づいて、動的範囲、動的制御性、動的ベース品質の3つの指標を設計し、T2Vモデルを評価する。
実験により、DEVILはPearson相関を90%以上の人間格付けで達成し、T2V生成モデルを進化させる可能性を示している。
コードはhttps://github.com/MingXiangL/DEVILで入手できる。
Comprehensive and constructive evaluation protocols play an important role in the development of sophisticated text-to-video (T2V) generation models. Existing evaluation protocols primarily focus on temporal consistency and content continuity, yet largely ignore the dynamics of video content. Dynamics are an essential dimension for measuring the visual vividness and the honesty of video content to text prompts. In this study, we propose an effective evaluation protocol, termed DEVIL, which centers on the dynamics dimension to evaluate T2V models. For this purpose, we establish a new benchmark comprising text prompts that fully reflect multiple dynamics grades, and define a set of dynamics scores corresponding to various temporal granularities to comprehensively evaluate the dynamics of each generated video. Based on the new benchmark and the dynamics scores, we assess T2V models with the design of three metrics: dynamics range, dynamics controllability, and dynamics-based quality. Experiments show that DEVIL achieves a Pearson correlation exceeding 90% with human ratings, demonstrating its potential to advance T2V generation models. Code is available at https://github.com/MingXiangL/DEVIL. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# 言語モデルの位置バイアスの除去:機械的アプローチ
Eliminating Position Bias of Language Models: A Mechanistic Approach ( http://arxiv.org/abs/2407.01100v1 ) ライセンス: Link先を確認 | Ziqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji, | (参考訳) 位置バイアスは現代の言語モデル(LM)において一般的な問題であることが証明されており、そこではモデルが与えられた文脈内での位置に基づいてコンテンツを優先順位付けする。
このバイアスは、しばしば予期せぬモデル障害を引き起こし、様々なアプリケーションのパフォーマンス、堅牢性、信頼性を損なう。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
具体的には、因果的注意が一般的に遠方コンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは、検索強化質問応答(QA)の分析に基づいて、近くのものを好む。
さらに,物体検出実験により,視覚言語モデル(VLM)にも位置バイアスが存在することが明らかとなった。
以上の分析に基づいて,入力セグメントの異なる順序(例えばLM-as-a-judgeのオプション,QAの検索文書)による位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
提案手法は,セグメント間の双方向の注意に因果的注意を変換し,入力プロンプトで提供される順序ではなく,モデルの注意値を用いてセグメントの相対順序を決定することにより,セグメントレベルの位置不変推論(PINE)を可能にする。
位置バイアスを除去することにより、LM-as-a-judgeや検索強化QAのような位置バイアスが広く存在する下流タスクにおいて、モデルの性能と信頼性が向上する。
特に、PINE は推論ペアの評価に LM を適用する際に特に有用であり、ほとんどのケースにおいて 8 から 10 ポイントのパフォーマンス向上を一貫して提供し、Llama-3-70B-Instruct は RewardBench の推論サブセットの GPT-4-0125-preview よりもさらに優れている。
Position bias has proven to be a prevalent issue of modern language models (LMs), where the models prioritize content based on its position within the given context. This bias often leads to unexpected model failures and hurts performance, robustness, and reliability across various applications. Our mechanistic analysis attributes the position bias to two components employed in nearly all state-of-the-art LMs: causal attention and relative positional encodings. Specifically, we find that causal attention generally causes models to favor distant content, while relative positional encodings like RoPE prefer nearby ones based on the analysis of retrieval-augmented question answering (QA). Further, our empirical study on object detection reveals that position bias is also present in vision-language models (VLMs). Based on the above analyses, we propose to ELIMINATE position bias caused by different input segment orders (e.g., options in LM-as-a-judge, retrieved documents in QA) in a TRAINING-FREE ZERO-SHOT manner. Our method changes the causal attention to bidirectional attention between segments and utilizes model attention values to decide the relative orders of segments instead of using the order provided in input prompts, therefore enabling Position-INvariant inferencE (PINE) at the segment level. By eliminating position bias, models achieve better performance and reliability in downstream tasks where position bias widely exists, such as LM-as-a-judge and retrieval-augmented QA. Notably, PINE is especially useful when adapting LMs for evaluating reasoning pairs: it consistently provides 8 to 10 percentage points performance gains in most cases, and makes Llama-3-70B-Instruct perform even better than GPT-4-0125-preview on the RewardBench reasoning subset. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# BERGEN:Retrieval-Augmented Generation用のベンチマークライブラリ
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.01102v1 ) ライセンス: Link先を確認 | David Rau, Hervé Déjean, Nadezhda Chirkova, Thibault Formal, Shuai Wang, Vassilina Nikoulina, Stéphane Clinchant, | (参考訳) Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
近年のジェネレーティブLLMの普及に対応して、評価データセット、コレクション、メトリクス、レトリバー、LLMなどの複雑な構成を含む多くのRAGアプローチが提案されている。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
QAに焦点を当てた広範な研究で、我々は異なる最先端のレトリバー、リランカー、LLMをベンチマークする。
さらに、既存のRAGメトリクスとデータセットを分析します。
私たちのオープンソースライブラリBERGENは、 \url{https://github.com/naver/bergen}の下で利用可能です。
Retrieval-Augmented Generation allows to enhance Large Language Models with external knowledge. In response to the recent popularity of generative LLMs, many RAG approaches have been proposed, which involve an intricate number of different configurations such as evaluation datasets, collections, metrics, retrievers, and LLMs. Inconsistent benchmarking poses a major challenge in comparing approaches and understanding the impact of each component in the pipeline. In this work, we study best practices that lay the groundwork for a systematic evaluation of RAG and present BERGEN, an end-to-end library for reproducible research standardizing RAG experiments. In an extensive study focusing on QA, we benchmark different state-of-the-art retrievers, rerankers, and LLMs. Additionally, we analyze existing RAG metrics and datasets. Our open-source library BERGEN is available under \url{https://github.com/naver/bergen}. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# 自己教師付きシャドウ除去のための意味誘導逆拡散モデル
Semantic-guided Adversarial Diffusion Model for Self-supervised Shadow Removal ( http://arxiv.org/abs/2407.01104v1 ) ライセンス: Link先を確認 | Ziqi Zeng, Chen Zhao, Weiling Cai, Chenyu Dong, | (参考訳) 既存の教師なし手法は, シャドー除去作業において, 一貫性のないペアデータや, 地平線ラベルの面倒な取得といった課題に対処してきた。
しかし、GANベースのトレーニングは、しばしばモード崩壊や不安定な最適化といった問題に直面している。
さらに、影のない領域と影のない領域の複雑なマッピングのため、敵対的な学習に頼るだけでは、2つの領域の関係を捉えるには不十分であり、結果として生成された画像の品質は低下する。
これらの問題に対処するために,2段階からなる自己監督型シャドウ除去のための意味誘導逆拡散フレームワークを提案する。
まず, 意味誘導型生成逆数ネットワーク (SG-GAN) を提案し, 粗い結果を実行し, サイクル整合構造を用いて合成データを合成する。
そして、拡散型修復モジュール(DBRM)で粗い結果を精錬し、第2段階におけるテクスチャの詳細とエッジアーティファクトを強化する。
一方,実画像やテキストから正確な意味情報を抽出し,SG-GANにおける画像の復元を支援するマルチモーダル・セマンティック・プロンプト(MSP)を提案する。
複数の公開データセットで実験を行い,本手法の有効性を実証した。
Existing unsupervised methods have addressed the challenges of inconsistent paired data and tedious acquisition of ground-truth labels in shadow removal tasks. However, GAN-based training often faces issues such as mode collapse and unstable optimization. Furthermore, due to the complex mapping between shadow and shadow-free domains, merely relying on adversarial learning is not enough to capture the underlying relationship between two domains, resulting in low quality of the generated images. To address these problems, we propose a semantic-guided adversarial diffusion framework for self-supervised shadow removal, which consists of two stages. At first stage a semantic-guided generative adversarial network (SG-GAN) is proposed to carry out a coarse result and construct paired synthetic data through a cycle-consistent structure. Then the coarse result is refined with a diffusion-based restoration module (DBRM) to enhance the texture details and edge artifact at second stage. Meanwhile, we propose a multi-modal semantic prompter (MSP) that aids in extracting accurate semantic information from real images and text, guiding the shadow removal network to restore images better in SG-GAN. We conduct experiments on multiple public datasets, and the experimental results demonstrate the effectiveness of our method. | 翻訳日:2024-07-03 22:19:31 公開日:2024-07-01 |
# 電気的・光学的計測による表面音波とスピン波の磁気弾性結合の定量的評価法
Quantitative evaluation method for magnetoelastic coupling between surface acoustic waves and spin waves using electrical and optical measurements ( http://arxiv.org/abs/2407.01107v1 ) ライセンス: Link先を確認 | Haruka Komiyama, Ryusuke Hisatomi, Kotaro Taga, Hiroki Matsumoto, Takahiro Moriyama, Hideki Narita, Shutaro Karube, Yoichi Shiota, Teruo Ono, | (参考訳) 異なる基本励起のカップリングとハイブリダイゼーションは、新しい機能をもたらす。
フォニックスやスピントロニクスでは、レイリー型表面音響波(SAW)とスピン波(SW)の磁気弾性結合が近年注目されている。
結合系を定量的に評価および比較することは、磁気弾性SAW-SW結合の研究に不可欠である。
これまでのSAW-SWカップリングの研究では、結合強度と呼ばれる量を用いていた。
しかし、従来研究では統一されていなかったデバイス形状と応用磁場角に依存するため、研究間の結合強度値を比較することは依然として困難である。
ここでは,磁気弾性定数と材料特性にのみ依存するひずみ振幅からなる実用定数に着目した。
電気的計測と光学的イメージングを組み合わせることで,実用定数を評価するための多目的評価手法を実証する。
この技術の重要な部分は、SAWとSW共鳴周波数が一致しないオフ共振条件で使用できる分析である。
既存の分析は、オン共鳴条件下でのケースのみを扱うことができる。
本分析により,光学的に撮像できる共振周波数のSAWと,ギガヘルツ域の共振周波数のSWとの磁気弾性結合を観察することが可能となった。
本研究では, オフ共振条件下での電気・光計測技術を用いて, SAW-SW結合系の研究を著しく進めることができることを示す。
Coupling and hybridization of different elementary excitations leads to new functionalities. In phononics and spintronics, magnetoelastic coupling between Rayleigh-type surface acoustic wave (SAW) and spin wave (SW) has recently attracted much attention. Quantitatively evaluating and comparing the coupled system are essential to develop the study of the magnetoelastic SAW-SW coupling. So far, previous studies of SAW-SW coupling have employed a quantity called coupling strength. However, it is still challenging to compare the coupling strength values among studies fairly because the quantity depends on the device geometry and the applied magnetic field angle, which are not unified among the previous studies. Here, we focus on a practical constant composed of a magnetoelastic constant and a strain amplitude that depends only on the material properties. We demonstrate a versatile evaluation technique to evaluate the practical constant by combining electrical measurements and optical imaging. An essential part of the technique is an analysis that can be used under off-resonance conditions where SAW and SW resonance frequencies do not match. Existing analysis can only handle the case under on-resonance conditions. Our analysis makes it possible to observe the magnetoelastic couplings between SAW with resonance frequencies that can be imaged optically and SW with resonance frequencies in the gigahertz range. Our demonstrated technique, which uses electrical and optical measurements under off-resonance conditions, can significantly advance research on SAW-SW coupled systems. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# SecGenAI: オーストラリアの重要技術におけるクラウドベースの生成AIアプリケーションのセキュリティ向上
SecGenAI: Enhancing Security of Cloud-based Generative AI Applications within Australian Critical Technologies of National Interest ( http://arxiv.org/abs/2407.01110v1 ) ライセンス: Link先を確認 | Christoforus Yoga Haryanto, Minh Hieu Vu, Trung Duc Nguyen, Emily Lomempow, Yulia Nurliana, Sona Taheri, | (参考訳) ジェネレーティブAI(GenAI)技術の急速な進歩は、ユニークなセキュリティ課題を導入しながら、オーストラリアの国益に関する重要な技術の中で変革的な機会を提供する。
本稿では,クラウドベースのGenAIアプリケーションのための総合セキュリティフレームワークSecGenAIについて述べる。
SecGenAIは機能、インフラストラクチャ、ガバナンス要件に対処し、エンドツーエンドのセキュリティ分析を統合して、データのプライバシ、セキュアなデプロイメント、共有責任モデルを強調する仕様を生成する。
オーストラリアのプライバシ原則、AI倫理原則、およびオーストラリアサイバーセキュリティセンターとデジタルトランスフォーメーションエージェンシーのガイドラインに従って、SecGenAIはデータ漏洩、敵攻撃、モデル反転などの脅威を緩和する。
このフレームワークの新たなアプローチは、高度な機械学習技術と堅牢なセキュリティ対策を組み合わせることで、GenAIシステムの信頼性と信頼性を高めながら、オーストラリアの規制に準拠することを保証する。
この研究は、産業におけるGenAIの安全な実装のための実行可能な戦略を提供し、AIアプリケーションにおけるイノベーションを育み、国家の利益を守ることによって、インテリジェントシステム分野に貢献する。
The rapid advancement of Generative AI (GenAI) technologies offers transformative opportunities within Australia's critical technologies of national interest while introducing unique security challenges. This paper presents SecGenAI, a comprehensive security framework for cloud-based GenAI applications, with a focus on Retrieval-Augmented Generation (RAG) systems. SecGenAI addresses functional, infrastructure, and governance requirements, integrating end-to-end security analysis to generate specifications emphasizing data privacy, secure deployment, and shared responsibility models. Aligned with Australian Privacy Principles, AI Ethics Principles, and guidelines from the Australian Cyber Security Centre and Digital Transformation Agency, SecGenAI mitigates threats such as data leakage, adversarial attacks, and model inversion. The framework's novel approach combines advanced machine learning techniques with robust security measures, ensuring compliance with Australian regulations while enhancing the reliability and trustworthiness of GenAI systems. This research contributes to the field of intelligent systems by providing actionable strategies for secure GenAI implementation in industry, fostering innovation in AI applications, and safeguarding national interests. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 近縁性 : 治療効果推定のための局所的近縁性保存バランス
Proximity Matters: Local Proximity Preserved Balancing for Treatment Effect Estimation ( http://arxiv.org/abs/2407.01111v1 ) ライセンス: Link先を確認 | Hao Wang, Zhichao Chen, Yuan Shen, Jiajun Fan, Zhaoran Liu, Degui Yang, Xinggao Liu, Haoxuan Li, | (参考訳) 観察データからの不均一な処理効果 (HTE) を推定することは, 治療選択バイアスが原因で大きな課題となる。
既存の手法では、グローバルアライメントに焦点をあて、潜在空間における治療群間の分散不一致を最小限にすることで、このバイアスに対処している。
しかし、類似の単位が類似した結果を示す局所的近接の実りある側面は、しばしば見過ごされる。
本研究では,HTE推定コンテキスト内での表現バランスに近接性を利用するために,PCR(Proximity-aware Counterfactual Regression)を提案する。
具体的には,差分計算における局所的近接性を表すため,最適な移動量に基づく局所的近接性保存レギュレータを提案する。
さらに,HTE推定におけるデータ可用性の制限により悪化する不整合性の推定を非効率に行う次元の呪いを克服するため,最小距離精度でサンプルの複雑さを改善するための情報サブスペースプロジェクタを開発した。
広範な実験により、PCRは異なる治療群間で正確に一致し、効果的に治療選択バイアスを緩和し、競争相手を著しく上回ることを示した。
コードはhttps://anonymous.4open.science/status/ncr-B697で公開されている。
Heterogeneous treatment effect (HTE) estimation from observational data poses significant challenges due to treatment selection bias. Existing methods address this bias by minimizing distribution discrepancies between treatment groups in latent space, focusing on global alignment. However, the fruitful aspect of local proximity, where similar units exhibit similar outcomes, is often overlooked. In this study, we propose Proximity-aware Counterfactual Regression (PCR) to exploit proximity for representation balancing within the HTE estimation context. Specifically, we introduce a local proximity preservation regularizer based on optimal transport to depict the local proximity in discrepancy calculation. Furthermore, to overcome the curse of dimensionality that renders the estimation of discrepancy ineffective, exacerbated by limited data availability for HTE estimation, we develop an informative subspace projector, which trades off minimal distance precision for improved sample complexity. Extensive experiments demonstrate that PCR accurately matches units across different treatment groups, effectively mitigates treatment selection bias, and significantly outperforms competitors. Code is available at https://anonymous.4open.science/status/ncr-B697. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# モンテカルロ法による異種クラスタリングデータに対する混合効果ニューラルネットワークの提案
Enabling Mixed Effects Neural Networks for Diverse, Clustered Data Using Monte Carlo Methods ( http://arxiv.org/abs/2407.01115v1 ) ライセンス: Link先を確認 | Andrej Tschalzev, Paul Nitschke, Lukas Kirchdorfer, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt, | (参考訳) ニューラルネットワークは入力データサンプル間で独立性を前提としており、実際のデータセット(例えば、異なるサイトや繰り返される測定結果)の固有のクラスタリングパターンから生じる相関を無視している。
近年,クラスタ固有の「ランダム効果」とクラスタ不変の「固定効果」を分離した混合効果ニューラルネットワーク(MENN)が提案され,クラスタ化データの一般化と解釈性の向上が図られている。
しかし、既存の手法ではクラスタ効果の近似的な定量化しかできず、1つのクラスタリング機能しか持たない回帰やバイナリターゲットに限られている。
本稿では,モンテカルロ法による一般化混合効果ニューラルネットワークの学習手法であるMC-GMENNを提案する。
我々は,MC-GMENNがクラスタ間分散の一般化性能,時間複雑性,定量化において,既存の混合効果深層学習モデルより優れていることを実証的に実証した。
さらに、MC-GMENNは、多クラス分類タスクを含む幅広いデータセットに適用できる。
これらのデータセットに対して,MC-GMENNは従来の符号化法や埋め込み法よりも優れており,クラスタリングパターンの効果を解釈するための原則的手法を同時に提供する。
Neural networks often assume independence among input data samples, disregarding correlations arising from inherent clustering patterns in real-world datasets (e.g., due to different sites or repeated measurements). Recently, mixed effects neural networks (MENNs) which separate cluster-specific 'random effects' from cluster-invariant 'fixed effects' have been proposed to improve generalization and interpretability for clustered data. However, existing methods only allow for approximate quantification of cluster effects and are limited to regression and binary targets with only one clustering feature. We present MC-GMENN, a novel approach employing Monte Carlo methods to train Generalized Mixed Effects Neural Networks. We empirically demonstrate that MC-GMENN outperforms existing mixed effects deep learning models in terms of generalization performance, time complexity, and quantification of inter-cluster variance. Additionally, MC-GMENN is applicable to a wide range of datasets, including multi-class classification tasks with multiple high-cardinality categorical features. For these datasets, we show that MC-GMENN outperforms conventional encoding and embedding methods, simultaneously offering a principled methodology for interpreting the effects of clustering patterns. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 都市街路分析のための包括的データセット
Comprehensive Dataset for Urban Streetlight Analysis ( http://arxiv.org/abs/2407.01117v1 ) ライセンス: Link先を確認 | Eliza Femi Sherley S, Sanjay T, Shri Kaanth P, Jeffrey Samuel S, | (参考訳) この記事では、主にチェンナイ地方でインドの主要通りから体系的に撮影された800点以上の高解像度の街灯画像の包括的コレクションを含む。
画像は、統一性と品質を確保するための標準化された方法に従って、体系的に収集された。
各画像はバイナリクラスラベルに基づいてラベル付けされ、ディレクトリにグループ化されている。
この組織化されたデータセットは、ディープニューラルネットワークのトレーニングと評価を容易にすることを目的としており、堅牢な特徴表現を持つ事前トレーニングされたモデルの作成を可能にする。
このようなモデルには、スマートシティ監視システムの改善、ストリートインフラストラクチャ監視の自動化、都市管理効率の向上など、いくつかの潜在的な用途がある。
このデータセットの可用性は、コンピュータビジョンとスマートシティ技術における将来の研究開発を刺激し、都市インフラに関するイノベーションと実践的なソリューションをサポートすることを目的としている。
データセットはhttps://github.com/Team16Project/Street-Light-Dataset/でアクセスできる。
This article includes a comprehensive collection of over 800 high-resolution streetlight images taken systematically from India's major streets, primarily in the Chennai region. The images were methodically collected following standardized methods to assure uniformity and quality. Each image has been labelled and grouped into directories based on binary class labels, which indicate whether each streetlight is functional or not. This organized dataset is intended to make it easier to train and evaluate deep neural networks, allowing for the creation of pre-trained models that have robust feature representations. Such models have several potential uses, such as improving smart city surveillance systems, automating street infrastructure monitoring, and increasing urban management efficiency. The availability of this dataset is intended to inspire future research and development in computer vision and smart city technologies, supporting innovation and practical solutions to urban infrastructure concerns. The dataset can be accessed at https://github.com/Team16Project/Street-Light-Dataset/. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# Pron vs. Prompt: 大規模言語モデルは、Creative Text writingにおいて、すでにワールドクラスのフィクション作者に挑戦できるだろうか?
Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing? ( http://arxiv.org/abs/2407.01119v1 ) ライセンス: Link先を確認 | Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona, | (参考訳) LLM(Large Language Models)が言語関連タスクで平均的な人間よりも優れており、クリエイティブテキストの執筆も例外ではない。
LLMは、(平均よりもむしろ)トップの小説家とクリエイティブな執筆スキルを競う準備ができていますか?
そこで我々は,DeepBlue vs Kasparov や AlphaGo vs Lee Sidol といったAIと人間のデュエルの精神において,Patricio Pron と GPT-4 の対決を行った。
我々は Pron と GPT-4 にそれぞれ30タイトルの提供を依頼し、その後、彼らのタイトルと相手の短編の執筆を依頼した。
そこで我々は,ボデンの創造性の定義に触発された評価ルーブリックを作成し,文献評論家や学者が提供した5,400件のマニュアルアセスメントを収集した。
我々の実験の結果は、LLMは人間の創造的作家に挑戦するには程遠いものであり、そのようなレベルの自律的な創造的執筆スキルに達することは、おそらくより大きな言語モデルでは達成できないことを示唆している。
It has become routine to report research results where Large Language Models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in creative writing skills with a top (rather than average) novelist? To provide an initial answer for this question, we have carried out a contest between Patricio Pron (an awarded novelist, considered one of the best of his generation) and GPT-4 (one of the top performing LLMs), in the spirit of AI-human duels such as DeepBlue vs Kasparov and AlphaGo vs Lee Sidol. We asked Pron and GPT-4 to provide thirty titles each, and then to write short stories for both their titles and their opponent's. Then, we prepared an evaluation rubric inspired by Boden's definition of creativity, and we collected 5,400 manual assessments provided by literature critics and scholars. The results of our experimentation indicate that LLMs are still far from challenging a top human creative writer, and that reaching such level of autonomous creative writing skills probably cannot be reached simply with larger language models. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 自由空間単光子検出器の検出効率評価:測定装置と波長依存性の検討
Detection Efficiency Characterization for Free-Space Single-Photon Detectors: Measurement Facility and Wavelength-Dependence Investigation ( http://arxiv.org/abs/2407.01120v1 ) ライセンス: Link先を確認 | Salvatore Virzì, Alice Meda, Elisa Redolfi, Marco Gramegna, Giorgio Brida, Marco Genovese, Ivo Pietro Degiovanni, | (参考訳) 本稿では、置換法に基づく自由空間単光子検出器の検出効率測定のための新しい実験装置を提案する。
検出器のアクティブ領域の前の光窓の透過率によって生じる波長依存性を考慮し,解析を初めて拡張する。
本手法では、異なる波長で検出器の応答を測定し、校正基準検出器と比較する。
これにより、光窓の透過率による効率の変動を正確に定量化できる。
この結果は、量子通信やフォトニクス研究を含む様々な応用において、単一光子検出器の性能を最適化するために重要な波長依存効率の包括的理解を提供する。
このキャラクタリゼーション技術は、単光子検出効率測定の精度と信頼性を著しく向上させる。
In this paper, we present a new experimental apparatus for the measurement of the detection efficiency of free-space single-photon detectors based on the substitution method. For the first time, we extend the analysis to account for the wavelength dependence introduced by the transmissivity of the optical window in front of the detector's active area. Our method involves measuring the detector's response at different wavelengths and comparing it to a calibrated reference detector. This allows us to accurately quantify the efficiency variations due to the optical window's transmissivity. The results provide a comprehensive understanding of the wavelength-dependent efficiency, which is crucial for optimizing the performance of single-photon detectors in various applications, including quantum communication and photonics research. This characterization technique offers a significant advancement in the precision and reliability of single-photon detection efficiency measurements. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# バイナリ質問応答のための校正大言語モデル
Calibrated Large Language Models for Binary Question Answering ( http://arxiv.org/abs/2407.01122v1 ) ライセンス: Link先を確認 | Patrizio Giovannotti, Alexander Gammerman, | (参考訳) バイナリテキスト分類タスクにおける大規模言語モデル(LLM)による予測の不確実性の定量化は依然として課題である。
キャリブレーション(キャリブレーション、英: Calibration)とは、LLMの文脈において、モデルの予測確率と予測の実際の正しさの整合性を指す。
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
Llama 2 モデルを用いた BoolQ データセットを用いた実験により,IVAP は様々なラベルのトークン選択によく使用される温度スケーリング法より常に優れており,高い予測品質を維持しつつ,よく校正された確率が得られることを示した。
本研究は, LLMの校正手法の理解に寄与し, 2次質問応答タスクにおける信頼性の高い不確実性推定値を得るための実用的なソリューションを提供するとともに, LLM予測の解釈可能性と信頼性の向上に寄与する。
Quantifying the uncertainty of predictions made by large language models (LLMs) in binary text classification tasks remains a challenge. Calibration, in the context of LLMs, refers to the alignment between the model's predicted probabilities and the actual correctness of its predictions. A well-calibrated model should produce probabilities that accurately reflect the likelihood of its predictions being correct. We propose a novel approach that utilizes the inductive Venn--Abers predictor (IVAP) to calibrate the probabilities associated with the output tokens corresponding to the binary labels. Our experiments on the BoolQ dataset using the Llama 2 model demonstrate that IVAP consistently outperforms the commonly used temperature scaling method for various label token choices, achieving well-calibrated probabilities while maintaining high predictive quality. Our findings contribute to the understanding of calibration techniques for LLMs and provide a practical solution for obtaining reliable uncertainty estimates in binary question answering tasks, enhancing the interpretability and trustworthiness of LLM predictions. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# マルチドメインニューラルマシン翻訳におけるスパースミクチャー・オブ・エクササイズの可能性の検討
Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation ( http://arxiv.org/abs/2407.01126v1 ) ライセンス: Link先を確認 | Nadezhda Chirkova, Vassilina Nikoulina, Jean-Luc Meunier, Alexandre Bérard, | (参考訳) 我々は、トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見えないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に焦点を当てている。
SMOE(Sparse Mixture-of-Experts)モデルは、様々なマルチドメインデータに対応し、ドメイン間のパラメータのフレキシブルな共有を可能にし、類似ドメイン間の知識伝達を可能にし、負の転送を制限する、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
また、マルチドメインシステムのロバスト性向上のためのより良いレシピを探索し、汎用ドメイン、すなわちパラクロールの混合の重要性を強調し、シンプルなテクニックであるドメインランダム化を導入する。
We focus on multi-domain Neural Machine Translation, with the goal of developing efficient models which can handle data from various domains seen during training and are robust to domains unseen during training. We hypothesize that Sparse Mixture-of-Experts (SMoE) models are a good fit for this task, as they enable efficient model scaling, which helps to accommodate a variety of multi-domain data, and allow flexible sharing of parameters between domains, potentially enabling knowledge transfer between similar domains and limiting negative transfer. We conduct a series of experiments aimed at validating the utility of SMoE for the multi-domain scenario, and find that a straightforward width scaling of Transformer is a simpler and surprisingly more efficient approach in practice, and reaches the same performance level as SMoE. We also search for a better recipe for robustness of multi-domain systems, highlighting the importance of mixing-in a generic domain, i.e. Paracrawl, and introducing a simple technique, domain randomization. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# RMS-FlowNet++:大規模クラウドのための効率的かつロバストなマルチスケールシーンフロー推定
RMS-FlowNet++: Efficient and Robust Multi-Scale Scene Flow Estimation for Large-Scale Point Clouds ( http://arxiv.org/abs/2407.01129v1 ) ライセンス: Link先を確認 | Ramy Battrawy, René Schuster, Didier Stricker, | (参考訳) 提案したRMS-FlowNet++は,高密度のクラウド上で動作可能な,正確かつ効率的なシーンフロー推定のための,エンドツーエンドの学習ベースアーキテクチャである。
階層的なシーンfの低い推定では、既存の手法は高価なFPS(Farthest-Point-Sampling)を使ってシーンをサンプリングし、連続するフレームにまたがる大きな対応セットを見つけなければならない。
これにより精度が向上するが、これらの手法の全体的な効率が低下し、メモリ要求により大量のポイントを扱う能力が制限される。
これらの手法とは対照的に,本アーキテクチャはマルチスケールシーンフローの階層的予測のための効率的な設計に基づいている。
この目的のために,従来の手法よりも2つの利点を持つ特別な流れ埋め込みブロックを開発した。
さらに、我々のアーキテクチャは完全な入力解像度で対応を検索する必要がない。
我々のRMS-FlowNet++は、最先端の手法よりも高速な予測を提供し、高いメモリ要求を回避し、同時に250K以上の高密度のクラウド上での効率的なシーンフローを可能にします。
我々の総合的な実験は、異なる点のクラウド密度を持つ確立されたFlyingThings3Dデータセット上でRMS FlowNet++の精度を検証し、設計選択を検証します。
さらに,本モデルでは,KITTIデータセットの現実のシーンを微調整せずに一般化できる競争力があることを実証した。
The proposed RMS-FlowNet++ is a novel end-to-end learning-based architecture for accurate and efficient scene flow estimation that can operate on high-density point clouds. For hierarchical scene f low estimation, existing methods rely on expensive Farthest-Point-Sampling (FPS) to sample the scenes, must find large correspondence sets across the consecutive frames and/or must search for correspondences at a full input resolution. While this can improve the accuracy, it reduces the overall efficiency of these methods and limits their ability to handle large numbers of points due to memory requirements. In contrast to these methods, our architecture is based on an efficient design for hierarchical prediction of multi-scale scene flow. To this end, we develop a special flow embedding block that has two advantages over the current methods: First, a smaller correspondence set is used, and second, the use of Random-Sampling (RS) is possible. In addition, our architecture does not need to search for correspondences at a full input resolution. Exhibiting high accuracy, our RMS-FlowNet++ provides a faster prediction than state-of-the-art methods, avoids high memory requirements and enables efficient scene flow on dense point clouds of more than 250K points at once. Our comprehensive experiments verify the accuracy of RMS FlowNet++ on the established FlyingThings3D data set with different point cloud densities and validate our design choices. Furthermore, we demonstrate that our model has a competitive ability to generalize to the real-world scenes of the KITTI data set without fine-tuning. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 音声翻訳のための言語間変換学習
Cross-Lingual Transfer Learning for Speech Translation ( http://arxiv.org/abs/2407.01130v1 ) ライセンス: Link先を確認 | Rao Ma, Yassir Fathullah, Mengjie Qian, Siyuan Tang, Mark Gales, Kate Knill, | (参考訳) NLPと音声研究のための多言語基盤モデルの構築への関心が高まっている。
ある言語におけるタスク固有データに微調整されたモデルが、他の言語での性能向上をもたらすような、さまざまなNLPタスクにおいて、ゼロショットのクロスランガル転送が実証されている。
そこで本研究では,音声モデルが同一の伝達能力を示すかどうかを考察する。
本稿では,多言語音声基盤モデルの例としてWhisperを用いて,音声エンコーダが生成する発話表現について検討する。
音声埋め込みには言語に敏感な情報が保存されているにもかかわらず、音声音声検索タスクにおいて高いリコール率によって証明されるように、異なる言語からの単語は同様の意味空間にマッピングされる。
この共有埋め込み空間を利用して、ゼロショットの言語間移動を音声翻訳で示す。
Whisperモデルが英語と中国語の翻訳データのみに微調整されている場合、他の言語での入力発話の性能改善が観察される。
さらに、低リソース言語に対する実験により、Whisperは言語間表現を利用して事前学習中に見つからない言語からの発話に対して音声翻訳を行うことができることを示した。
There has been increasing interest in building multilingual foundation models for NLP and speech research. Zero-shot cross-lingual transfer has been demonstrated on a range of NLP tasks where a model fine-tuned on task-specific data in one language yields performance gains in other languages. Here, we explore whether speech-based models exhibit the same transfer capability. Using Whisper as an example of a multilingual speech foundation model, we examine the utterance representation generated by the speech encoder. Despite some language-sensitive information being preserved in the audio embedding, words from different languages are mapped to a similar semantic space, as evidenced by a high recall rate in a speech-to-speech retrieval task. Leveraging this shared embedding space, zero-shot cross-lingual transfer is demonstrated in speech translation. When the Whisper model is fine-tuned solely on English-to-Chinese translation data, performance improvements are observed for input utterances in other languages. Additionally, experiments on low-resource languages show that Whisper can perform speech translation for utterances from languages unseen during pre-training by utilizing cross-lingual representations. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# M$^2$IST: メモリ効率の参照式理解のためのマルチモード対話型サイドチューニング
M$^2$IST: Multi-Modal Interactive Side-Tuning for Memory-efficient Referring Expression Comprehension ( http://arxiv.org/abs/2407.01131v1 ) ライセンス: Link先を確認 | Xuyang Liu, Ting Liu, Siteng Huang, Yue Hu, Quanjun Yin, Donglin Wang, Honggang Chen, | (参考訳) 参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
RECのための完全な微調整された汎用事前訓練モデルは、素晴らしい性能を得るが、ますますコストがかかる。
パラメータ効率変換学習 (PETL) 法は, 調整可能なパラメータが少なく, 高い性能を示した。
しかし、PETLをRECに適用することは、(1)事前学習された視覚と言語エンコーダの相互作用が不十分なこと、(2)重エンコーダを経由する勾配による高いGPUメモリ使用率の2つの課題に直面している。
これらの問題に対処するため、M$^2$IST:M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adaptersを提案する。
微調整中は、事前学習されたビジョンと言語エンコーダを固定し、M$^3$ISAsをサイドネットワーク上で更新し、それら間の接続を確立することにより、RECのためのパラメータとメモリ効率のチューニングを実現する。
M$^2$ISTはフル微調整や他のPETL法と比較して最高のパフォーマンスパラメータ-メモリトレードオフを達成し、3.14Mのチューナブルパラメータ(フル微調整の2.11%)と15.44GBのGPUメモリ使用率(フル微調整の39.61%)を達成している。
ソースコードはまもなく公開される予定だ。
Referring expression comprehension (REC) is a vision-language task to locate a target object in an image based on a language expression. Fully fine-tuning general-purpose pre-trained models for REC yields impressive performance but becomes increasingly costly. Parameter-efficient transfer learning (PETL) methods have shown strong performance with fewer tunable parameters. However, applying PETL to REC faces two challenges: (1) insufficient interaction between pre-trained vision and language encoders, and (2) high GPU memory usage due to gradients passing through both heavy encoders. To address these issues, we present M$^2$IST: Multi-Modal Interactive Side-Tuning with M$^3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters. During fine-tuning, we keep the pre-trained vision and language encoders fixed and update M$^3$ISAs on side networks to establish connections between them, thereby achieving parameter- and memory-efficient tuning for REC. Empirical results on three benchmarks show M$^2$IST achieves the best performance-parameter-memory trade-off compared to full fine-tuning and other PETL methods, with only 3.14M tunable parameters (2.11% of full fine-tuning) and 15.44GB GPU memory usage (39.61% of full fine-tuning). Source code will soon be publicly available. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# サブ波長Rydberg-Atomアレーを用いた導波路QED用キラル量子光学素子
Chiral Quantum-Optical Elements for Waveguide-QED with Sub-wavelength Rydberg-Atom Arrays ( http://arxiv.org/abs/2407.01133v1 ) ライセンス: Link先を確認 | Lida Zhang, Fan Yang, Klaus Mølmer, Thomas Pohl, | (参考訳) 本稿では,Rydberg-Blockade系におけるサブ波長の原子配列によって形成される有効量子エミッタに,ほぼ完全な一方向光-マター結合を実現するためのアプローチについて述べる。
このような2次元超原子の非線形反射と透過は、チューナブルな単一光子の決定論的生成と高い忠実度を持つ2光子操作の絡み合わせのために異なる干渉計装置、$\mathcal{F}\gtrsim0.999$で利用される。
記述された構成は、単純な線形要素を持つ自由空間フォトニック量子ネットワークにおける多目的非線形光学素子として機能し、追加モード閉じ込め、光共振器、光アイソレータを必要としない。
We describe an approach to achieve near-perfect unidirectional light-matter coupling to an effective quantum emitter that is formed by a subwavelength array of atoms in the Rydberg-blockade regime. The nonlinear reflection and transmission of such two-dimensional superatoms are exploited in different interferometric setups for the deterministic generation of tunable single photons and entangling two-photon operations with high fidelities, $\mathcal{F}\gtrsim0.999$. The described setup can function as a versatile nonlinear optical element in a free-space photonic quantum network with simple linear elements and without the need of additional mode confinement, optical resonators, or optical isolators. | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 商品属性値同定のための生成的アプローチの実証比較
An Empirical Comparison of Generative Approaches for Product Attribute-Value Identification ( http://arxiv.org/abs/2407.01137v1 ) ライセンス: Link先を確認 | Kassem Sabeh, Robert Litschko, Mouna Kacimi, Barbara Plank, Johann Gamper, | (参考訳) 製品属性はeコマースプラットフォームにとって不可欠であり、検索、レコメンデーション、質問応答などのアプリケーションをサポートする。
製品属性と価値識別(PAVI)のタスクは、属性とそれらの値の両方を製品情報から識別することである。
本稿では,PAVIを生成タスクとして定式化し,我々の知る限り,これまでで最も包括的なPAVI評価を行っている。
3つのデータセット上の細調整エンコーダデコーダモデルに基づく3つの異なる属性値生成(AVG)戦略を比較する。
実験により、計算効率のよいエンドツーエンドのAVGアプローチが、他の戦略より優れていることが示された。
しかし、モデルのサイズと基礎となる言語モデルによって違いがある。
すべての実験を再現するコードは、https://github.com/kassemsabeh/pavi-avgで入手できる。
Product attributes are crucial for e-commerce platforms, supporting applications like search, recommendation, and question answering. The task of Product Attribute and Value Identification (PAVI) involves identifying both attributes and their values from product information. In this paper, we formulate PAVI as a generation task and provide, to the best of our knowledge, the most comprehensive evaluation of PAVI so far. We compare three different attribute-value generation (AVG) strategies based on fine-tuning encoder-decoder models on three datasets. Experiments show that end-to-end AVG approach, which is computationally efficient, outperforms other strategies. However, there are differences depending on model sizes and the underlying language model. The code to reproduce all experiments is available at: https://github.com/kassemsabeh/pavi-avg | 翻訳日:2024-07-03 22:09:47 公開日:2024-07-01 |
# 深層学習解釈とクラスアクティベーションマップのための統合的特徴解析
Integrated feature analysis for deep learning interpretation and class activation maps ( http://arxiv.org/abs/2407.01142v1 ) ライセンス: Link先を確認 | Yanli Li, Tahereh Hassanzadeh, Denis P. Shamonin, Monique Reijnierse, Annette H. M. van der Helm-van Mil, Berend C. Stoel, | (参考訳) 深層学習(DL)モデルの決定を理解することは、リスクに敏感なアプリケーションへのDLの受け入れに不可欠である。
クラスアクティベーションマップ(CAM)のようなメソッドは、ブラックボックスを垣間見るが、いくつかの重要な情報を見逃し、解釈可能性に制限を与え、単に考慮されたオブジェクトの位置を提供するだけである。
モデルとデータセットの影響についてより深い知見を得るために,特徴分布解析と特徴分解からなる統合特徴解析法を提案し,DLモデルにより抽出された中間特徴を詳細に検討する。
この統合された特徴分析は、データセットのオーバーフィット、共同創設者、アウトレイラ、モデルによって抽出されたモデル冗長性、主要な特徴に関する情報を提供し、現在のCAMアルゴリズムに欠けている共通の強度スケールを形成するための配布情報を提供する。
統合された特徴分析は、手書き数字の写真、自然画像の2つのデータセット、皮膚写真、超音波、CT、X線、MRIを含む5つの医学データセットの8つの異なるデータセットに適用された。
CAMの平均クラスアクティベーションレベルとモデルのロジットとの整合性を計算することにより,本手法の評価を行った。
8つのデータセットに基づいて,本手法による相関係数は100%に近づき,特徴分解に基づいて,5%~25%の機能が等しく有意な相性マップを生成し,すべての特徴を用いたモデル性能を得ることができた。
これにより、統合された特徴分析の信頼性が証明される。
提案手法はごく少数の仮定に頼っているため、モデル解釈の改善と既存のCAMアルゴリズムの有用な拡張に向けたステップとなる。
コード:https://github.com/YanliLi27/IFA
Understanding the decisions of deep learning (DL) models is essential for the acceptance of DL to risk-sensitive applications. Although methods, like class activation maps (CAMs), give a glimpse into the black box, they do miss some crucial information, thereby limiting its interpretability and merely providing the considered locations of objects. To provide more insight into the models and the influence of datasets, we propose an integrated feature analysis method, which consists of feature distribution analysis and feature decomposition, to look closer into the intermediate features extracted by DL models. This integrated feature analysis could provide information on overfitting, confounders, outliers in datasets, model redundancies and principal features extracted by the models, and provide distribution information to form a common intensity scale, which are missing in current CAM algorithms. The integrated feature analysis was applied to eight different datasets for general validation: photographs of handwritten digits, two datasets of natural images and five medical datasets, including skin photography, ultrasound, CT, X-rays and MRIs. The method was evaluated by calculating the consistency between the CAMs average class activation levels and the logits of the model. Based on the eight datasets, the correlation coefficients through our method were all very close to 100%, and based on the feature decomposition, 5%-25% of features could generate equally informative saliency maps and obtain the same model performances as using all features. This proves the reliability of the integrated feature analysis. As the proposed methods rely on very few assumptions, this is a step towards better model interpretation and a useful extension to existing CAM algorithms. Codes: https://github.com/YanliLi27/IFA | 翻訳日:2024-07-03 22:09:46 公開日:2024-07-01 |
# 確かか?実世界の音声感情認識における不確実性定量化手法の分析
Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition ( http://arxiv.org/abs/2407.01143v1 ) ライセンス: Link先を確認 | Oliver Schrüfer, Manuel Milling, Felix Burkhardt, Florian Eyben, Björn Schuller, | (参考訳) 不確実性定量化(UQ)は、ニューラルネットワークを現実のシナリオで確実に使用するための重要なビルディングブロックである。
音声感情認識(SER)モデルは、感情のあいまいさ、アウト・オブ・ディストリビューション(OOD)データ、あるいは一般的には劣悪な記録条件など、特に多くの不確実性の原因に悩まされることがある。
したがって信頼性の高いUQ手法は、多くのSERアプリケーションにおいて、予測が欠陥予測よりも良いものではないため、特に関心がある。
ラベルのあいまいさが不確実性に与える影響は文献でよく報告されているが、劣化信号や音声の欠如など、現実世界の一般的な課題におけるSERのUQ手法の評価に焦点をあてる。
簡単なUQ手法で予測の不確実性を示すことができ、OODデータを追加してトレーニングすることで、これらの信号の識別を大幅に改善できることを示す。
Uncertainty Quantification (UQ) is an important building block for the reliable use of neural networks in real-world scenarios, as it can be a useful tool in identifying faulty predictions. Speech emotion recognition (SER) models can suffer from particularly many sources of uncertainty, such as the ambiguity of emotions, Out-of-Distribution (OOD) data or, in general, poor recording conditions. Reliable UQ methods are thus of particular interest as in many SER applications no prediction is better than a faulty prediction. While the effects of label ambiguity on uncertainty are well documented in the literature, we focus our work on an evaluation of UQ methods for SER under common challenges in real-world application, such as corrupted signals, and the absence of speech. We show that simple UQ methods can already give an indication of the uncertainty of a prediction and that training with additional OOD data can greatly improve the identification of such signals. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 不確かさを意識した前立腺癌検出におけるクロススライス注意とエビデンシャル・クリティカル・ロス
Cross-Slice Attention and Evidential Critical Loss for Uncertainty-Aware Prostate Cancer Detection ( http://arxiv.org/abs/2407.01146v1 ) ライセンス: Link先を確認 | Alex Ling Yu Hung, Haoxin Zheng, Kai Zhao, Kaifeng Pang, Demetri Terzopoulos, Kyunghyun Sung, | (参考訳) 現在のディープラーニングベースのモデルでは、MRデータの異方性分解によるボリューム情報を無視したり、最適以下のパフォーマンスに苦しむにもかかわらず、2Dまたは3Dの医療画像を分析するのが一般的である。
さらに、モデルが予測にどの程度自信があるかを示すため、正確な不確実性推定を提供することは、臨床医にとって有益である。
本研究では,前立腺癌,最も多いがんの1つであり,男性におけるがん関連死の原因であるMRI画像の検出において,グローバル情報と局所情報とを併用した新しい2.5Dクロススライスアテンションモデルを提案する。
我々は2つの異なるデータセットのモデルを用いて広範囲な実験を行い、前立腺癌検出における最先端のパフォーマンスと、疫学的不確実性評価の改善を実現した。
モデルの実装はhttps://github.com/aL3x-O-o-Hung/GLCSA_ECLossで公開されている。
Current deep learning-based models typically analyze medical images in either 2D or 3D albeit disregarding volumetric information or suffering sub-optimal performance due to the anisotropic resolution of MR data. Furthermore, providing an accurate uncertainty estimation is beneficial to clinicians, as it indicates how confident a model is about its prediction. We propose a novel 2.5D cross-slice attention model that utilizes both global and local information, along with an evidential critical loss, to perform evidential deep learning for the detection in MR images of prostate cancer, one of the most common cancers and a leading cause of cancer-related death in men. We perform extensive experiments with our model on two different datasets and achieve state-of-the-art performance in prostate cancer detection along with improved epistemic uncertainty estimation. The implementation of the model is available at https://github.com/aL3x-O-o-Hung/GLCSA_ECLoss. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 量子コンピュータによる金融オプション価格の非エルミート力学のシミュレーション
Simulating the non-Hermitian dynamics of financial option pricing with quantum computers ( http://arxiv.org/abs/2407.01147v1 ) ライセンス: Link先を確認 | Swagat Kumar, Colin Michael Wilmott, | (参考訳) シュロディンガー方程式は、量子状態が系のハミルトニアンに従ってどのように進化するかを記述する。
物理系の場合、ハミルトニアンはユニタリ力学を保証するエルミート作用素でなければならない。
反エルミート的ハミルトニアンに対しては、シュロディンガー方程式は虚数時間における量子状態の進化をモデル化する。
この想像時間進化のプロセスは、量子系の基底状態を計算するのに成功している。
想像時間進化は単体ではないが、この進化の正規化されたダイナミクスは量子想像時間進化(QITE)アルゴリズムを用いて量子コンピュータ上でシミュレートすることができる。
本稿では、反エルミート・ハミルトニアンに対する制限を取り除くことでQITEの範囲を広げ、任意の非エルミート・ハミルトニアンを持つシュロディンガー方程式と同値の偏微分方程式(PDE)を解くことができる。
そのようなPDEの例として、金融デリバティブの価格をモデル化する有名なブラック・スコールズ方程式がある。
我々は,我々の一般化QITE手法が実世界のアプリケーションに対して,ブラック・スコールズ方程式でモデル化された様々な欧州オプション契約の価格設定によって実現可能なアプローチをいかに提供するかを実証する。
The Schrodinger equation describes how quantum states evolve according to the Hamiltonian of the system. For physical systems, we have it that the Hamiltonian must be a Hermitian operator to ensure unitary dynamics. For anti-Hermitian Hamiltonians, the Schrodinger equation instead models the evolution of quantum states in imaginary time. This process of imaginary time evolution has been used successfully to calculate the ground state of a quantum system. Although imaginary time evolution is non-unitary, the normalised dynamics of this evolution can be simulated on a quantum computer using the quantum imaginary time evolution (QITE) algorithm. In this paper, we broaden the scope of QITE by removing its restriction to anti-Hermitian Hamiltonians, which allows us to solve any partial differential equation (PDE) that is equivalent to the Schrodinger equation with an arbitrary, non-Hermitian Hamiltonian. An example of such a PDE is the famous Black-Scholes equation that models the price of financial derivatives. We will demonstrate how our generalised QITE methodology offers a feasible approach for real-world applications by using it to price various European option contracts modelled according to the Black-Scholes equation. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# ソーシャルメディア上でのLGBTQ+コンテンツ監視における社会文化的考察
Sociocultural Considerations in Monitoring Anti-LGBTQ+ Content on Social Media ( http://arxiv.org/abs/2407.01149v1 ) ライセンス: Link先を確認 | Sidney G. -J. Wong, | (参考訳) 本研究の目的は,ヘイトスピーチ検出システムの開発における社会文化的要因(社会的,文化的,政治的)の影響を明らかにすることである。
そこで我々は,オープンソーストレーニングデータを用いて,ソーシャルメディア上のLGBTQ+コンテンツのレベルを英語の異なる国で監視する方法について検討した。
その結果,オープンソースのヘイトスピーチデータセットの社会的・文化的アライメントが,予測出力に影響を与えることが示唆された。
さらに、オープンソースのトレーニングデータ開発におけるアンチLGBTQ+スラーのキーワード検索アプローチは、スラーに過度に適合する検出モデルを促進するため、アンチLGBTQ+コンテンツは検出されない可能性がある。
実証的なアウトプットと質的な洞察を組み合わせることで、これらのシステムが目的に合うようにすることを推奨します。
The purpose of this paper is to ascertain the influence of sociocultural factors (i.e., social, cultural, and political) in the development of hate speech detection systems. We set out to investigate the suitability of using open-source training data to monitor levels of anti-LGBTQ+ content on social media across different national-varieties of English. Our findings suggests the social and cultural alignment of open-source hate speech data sets influences the predicted outputs. Furthermore, the keyword-search approach of anti-LGBTQ+ slurs in the development of open-source training data encourages detection models to overfit on slurs; therefore, anti-LGBTQ+ content may go undetected. We recommend combining empirical outputs with qualitative insights to ensure these systems are fit for purpose. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 因果機械学習による無人航空機の風速推定
Wind Estimation in Unmanned Aerial Vehicles with Causal Machine Learning ( http://arxiv.org/abs/2407.01154v1 ) ライセンス: Link先を確認 | Abdulaziz Alwalan, Miguel Arana-Catania, | (参考訳) 本研究では、UAVの軌跡のみを用いて、特殊なセンサを使わずにUAVの風環境を推定できる可能性を示し、因果機械学習アプローチを適用した。
本稿では,機械学習の時系列分類とクラスタリングを因果的フレームワークと組み合わせた因果的好奇性手法を提案する。
定常風, せん断風, 乱流の3つの異なる風環境を解析し, 風条件を推定するために最適なUAV操作を行うための異なる最適化戦略を探索する。
提案手法は、気象条件に挑戦する上で最適な軌道を設計し、UAVの重量を増し機能を損なう特殊なセンサーを避けるために用いられる。
In this work we demonstrate the possibility of estimating the wind environment of a UAV without specialised sensors, using only the UAV's trajectory, applying a causal machine learning approach. We implement the causal curiosity method which combines machine learning times series classification and clustering with a causal framework. We analyse three distinct wind environments: constant wind, shear wind, and turbulence, and explore different optimisation strategies for optimal UAV manoeuvres to estimate the wind conditions. The proposed approach can be used to design optimal trajectories in challenging weather conditions, and to avoid specialised sensors that add to the UAV's weight and compromise its functionality. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# CPT: ブラックボックス最適化のための一貫性のあるプロキシチューニング
CPT: Consistent Proxy Tuning for Black-box Optimization ( http://arxiv.org/abs/2407.01155v1 ) ライセンス: Link先を確認 | Yuanyang He, Zitong Huang, Xinxing Xu, Rick Siow Mong Goh, Salman Khan, Wangmeng Zuo, Yong Liu, Chun-Mei Feng, | (参考訳) ブラックボックスチューニングは、先進的なプロプライエタリモデルの構造や内部パラメータがアクセスできないため、近年注目されている。
Proxy-tuningはブラックボックス言語モデルをチューニングするためのテスト時間出力調整を提供する。
ブラックボックスモデルを改善するために、より小さなホワイトボックス"プロキシ"モデルをチューニングした前後の出力ロジットの違いを適用します。
しかし、この手法はデコード時のアルゴリズムとしてのみ機能し、トレーニングとテストの矛盾が生じ、全体的なパフォーマンスが制限される可能性がある。
この問題に対処するために,簡単なブラックボックスチューニング手法であるConsistent Proxy Tuning (CPT)を導入する。
Proxy-tuningとは異なり、CPTは凍結した大きなブラックボックスモデルと別の凍結した小さなホワイトボックスモデルも利用し、トレーニングステージ最適化目標とテストタイムプロキシの一貫性を確保する。
この一貫性はプロキシチューニングの恩恵を受け、モデルパフォーマンスが向上します。
本手法は,ロジットレベルの計算にのみ焦点をあてており,ロジット分類を含むタスクに対して,モデルに依存しない。
LLM(Large Language Models)とVLM(Vision-Language Models)のブラックボックスチューニングにおけるCPTの優位性を示した。
コードはhttps://github.com/chunmeifeng/CPTで公開されている。
Black-box tuning has attracted recent attention due to that the structure or inner parameters of advanced proprietary models are not accessible. Proxy-tuning provides a test-time output adjustment for tuning black-box language models. It applies the difference of the output logits before and after tuning a smaller white-box "proxy" model to improve the black-box model. However, this technique serves only as a decoding-time algorithm, leading to an inconsistency between training and testing which potentially limits overall performance. To address this problem, we introduce Consistent Proxy Tuning (CPT), a simple yet effective black-box tuning method. Different from Proxy-tuning, CPT additionally exploits the frozen large black-box model and another frozen small white-box model, ensuring consistency between training-stage optimization objective and test-time proxies. This consistency benefits Proxy-tuning and enhances model performance. Note that our method focuses solely on logit-level computation, which makes it model-agnostic and applicable to any task involving logit classification. Extensive experimental results demonstrate the superiority of our CPT in both black-box tuning of Large Language Models (LLMs) and Vision-Language Models (VLMs) across various datasets. The code is available at https://github.com/chunmeifeng/CPT. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# ヘテロ構造体のトンネル特性と境界状態に及ぼす圧縮プレウェルの影響
Influence of a squeezed prewell on tunneling properties and bound states in heterostructures ( http://arxiv.org/abs/2407.01156v1 ) ライセンス: Link先を確認 | Yaroslav Zolotaryuk, Alexander V. Zolotaryuk, | (参考訳) 任意の電位プロファイルを持つ平面状ヘテロ構造による荷電粒子の透過に対する極薄電位井戸の共振トンネル効果を,井戸幅がゼロになる傾向にあるスクイーズ限界において検討した。
この極限では、ルベーグ測度 0 の共鳴集合を除いて、その構造を通しての伝達確率は井戸の全てのパラメータ値に対してブロックされる。
ピーク・アンド・ヴァレー比は井戸のスクイーズによって著しく増加し、より薄いのは厚さであり、共鳴ピークはより鋭くなり、孤立した地点で局在する。
対照的に、ヘテロ構造の離散スペクトル(もしあるならば)は共鳴セットとそれを超えるものの両方に存在するが、ここでのスクイーズシナリオは非常に興味深く洗練されたものであることが判明した。
A resonant tunneling effect of an extremely thin potential well on the transmission of charged particles through a planar heterostructure with an arbitrary potential profile is investigated in a squeezing limit as the well width tends to zero. In this limit, the transmission probability through the structure is shown to be blocked for all the parameter values of the well, except a resonance set of Lebesgue measure zero. The peak-to-valley ratio is shown to increase crucially with the squeezing of the well: the thinner is its thickness, the resonant peaks become sharper and localized at isolated points. Contrary, a discrete spectrum of the heterostructure (if any) does exist both on the resonance set and beyond it, however, the squeezing scenario here turns out to be quite interesting and sophisticated. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# あらゆるものを無視する: マルチモーダルモデルでどんな画像でもテキストをアラインする
Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models ( http://arxiv.org/abs/2407.01157v1 ) ライセンス: Link先を確認 | Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu, | (参考訳) 共有埋め込み空間を利用することで、新興のマルチモーダルモデルは前例のないゼロショット能力を示す。
しかし、異なるモダリティが一致しない場合、共有埋め込みスペースは新たな脆弱性を引き起こす可能性がある。
本稿では,画像の修正を最小限にすることで,与えられたテキストの埋め込みと一致するように,最近開発された効果的な勾配に基づく手順を拡張し,活用する。
本手法を用いて, 識別可能なテキストの埋め込みを, 共同画像-テキストモデルにおける無意味な敵対的攻撃によって任意の画像に整合させることができることを示すとともに, 意味的に無関係な画像が同一のテキストの埋め込みを持つことができ, 同時に, 視覚的に識別不能な画像が全く異なるテキストの埋め込みと一致できることを明らかにする。
本手法は,複数の情報源からのテキストデータセットや画像に適用した場合,100%の成功率を達成する。
脆弱性を克服しなければ、マルチモーダルモデルは意味論的に意味のある方法で異なるモダリティからの入力を堅牢に調整することはできない。
textbf{Warning: この論文で使用されるテキストデータは、自然界で有害であり、一部の読者にとって攻撃的である可能性がある。
※
Utilizing a shared embedding space, emerging multimodal models exhibit unprecedented zero-shot capabilities. However, the shared embedding space could lead to new vulnerabilities if different modalities can be misaligned. In this paper, we extend and utilize a recently developed effective gradient-based procedure that allows us to match the embedding of a given text by minimally modifying an image. Using the procedure, we show that we can align the embeddings of distinguishable texts to any image through unnoticeable adversarial attacks in joint image-text models, revealing that semantically unrelated images can have embeddings of identical texts and at the same time visually indistinguishable images can be matched to the embeddings of very different texts. Our technique achieves 100\% success rate when it is applied to text datasets and images from multiple sources. Without overcoming the vulnerability, multimodal models cannot robustly align inputs from different modalities in a semantically meaningful way. \textbf{Warning: the text data used in this paper are toxic in nature and may be offensive to some readers.} | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 検索条件付き検索生成のための探索と選択の学習
Learning to Explore and Select for Coverage-Conditioned Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.01158v1 ) ライセンス: Link先を確認 | Takyoung Kim, Kyungjae Lee, Young Rok Jang, Ji Yong Cho, Gangwoo Kim, Minseok Cho, Moontae Lee, | (参考訳) 数十億の大規模言語モデルとの相互作用は、典型的には、その広範囲なパラメトリック能力と、検索強化された特徴により、長めの応答をもたらす。
詳細な回答は特定の主題の洞察に富んだ視点を提供するが、ユーザーの興味を満たさない冗長でエンゲージメントの低いコンテンツを頻繁に生成する。
本研究では,ユーザが特定の範囲の情報,すなわちカバレッジ条件(C^2$)のシナリオを要求するシナリオにおいて,クエリアウトライン(クエリの選択シーケンス)の役割に焦点を当てる。
C^2$のシナリオをシミュレートするために、特定のトピックについて様々な視点で分解された10Kの情報検索クエリであるQTreeを構築します。
QTreeを利用することで、7B言語モデルであるQPlannerをトレーニングします。
本研究では,自動評価と人的評価によって生成されたアウトラインの有効性を,検索強化生成(RAG)に基づいて分析する。
さらに、アライメントトレーニングを施したQPlannerが、多様なユーザ関心を満たすアウトラインを提供することを示す実験結果が得られた。
リソースはhttps://github.com/youngerous/qtree.comから入手可能です。
Interactions with billion-scale large language models typically yield long-form responses due to their extensive parametric capacities, along with retrieval-augmented features. While detailed responses provide insightful viewpoint of a specific subject, they frequently generate redundant and less engaging content that does not meet user interests. In this work, we focus on the role of query outlining (i.e., selected sequence of queries) in scenarios that users request a specific range of information, namely coverage-conditioned ($C^2$) scenarios. For simulating $C^2$ scenarios, we construct QTree, 10K sets of information-seeking queries decomposed with various perspectives on certain topics. By utilizing QTree, we train QPlanner, a 7B language model generating customized query outlines that follow coverage-conditioned queries. We analyze the effectiveness of generated outlines through automatic and human evaluation, targeting on retrieval-augmented generation (RAG). Moreover, the experimental results demonstrate that QPlanner with alignment training can further provide outlines satisfying diverse user interests. Our resources are available at https://github.com/youngerous/qtree. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 予測的コーディングネットワークのベンチマーク - シンプルに
Benchmarking Predictive Coding Networks -- Made Simple ( http://arxiv.org/abs/2407.01163v1 ) ライセンス: Link先を確認 | Luca Pinchetti, Chang Qi, Oleh Lokshyn, Gaspard Olivers, Cornelius Emde, Mufeng Tang, Amine M'Charrak, Simon Frieder, Bayar Menzat, Rafal Bogacz, Thomas Lukasiewicz, Tommaso Salvatori, | (参考訳) 本研究では,機械学習における予測符号化ネットワークの効率性とスケーラビリティの問題に取り組む。
そこで我々はまず,パフォーマンスと簡易性を重視したPCXというライブラリを提案し,ユーザフレンドリでディープラーニング指向のインターフェースを提供する。
第2に、PCXを使って、コミュニティが実験に使用する大規模なベンチマークを実装しています。
ほとんどの研究が独自のタスクとアーキテクチャを提案しているため、相互比較はせず、小規模タスクに重点を置いているため、コミュニティ全体で採用されているシンプルで高速なオープンソースライブラリは、これらの懸念に対処するでしょう。
第三に、複数のアルゴリズムを用いて広範なベンチマークを行い、複数のタスクやデータセットに新しい最先端結果を設定し、対処すべきPC固有の制限を強調します。
PCXの効率のおかげで、一般的に使われるものよりも大きなアーキテクチャを分析でき、この分野で主要なオープンな問題であるスケーラビリティに対するコミュニティの取り組みを活性化するためのベースラインを提供します。
PCX のコードは \textit{https://github.com/liukidar/pcax} で公開されている。
In this work, we tackle the problems of efficiency and scalability for predictive coding networks in machine learning. To do so, we first propose a library called PCX, whose focus lies on performance and simplicity, and provides a user-friendly, deep-learning oriented interface. Second, we use PCX to implement a large set of benchmarks for the community to use for their experiments. As most works propose their own tasks and architectures, do not compare one against each other, and focus on small-scale tasks, a simple and fast open-source library adopted by the whole community would address all of these concerns. Third, we perform extensive benchmarks using multiple algorithms, setting new state-of-the-art results in multiple tasks and datasets, as well as highlighting limitations inherent to PC that should be addressed. Thanks to the efficiency of PCX, we are able to analyze larger architectures than commonly used, providing baselines to galvanize community efforts towards one of the main open problems in the field: scalability. The code for PCX is available at \textit{https://github.com/liukidar/pcax}. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# プライバシーのための情報密度境界
Information Density Bounds for Privacy ( http://arxiv.org/abs/2407.01167v1 ) ライセンス: Link先を確認 | Sara Saeidian, Leonhard Grosse, Parastoo Sadeghi, Mikael Skoglund, Tobias J. Oechtering, | (参考訳) 本稿では,プライベートデータと公開データ間の情報密度を低くすることで,プライバシ保証の意義を考察する。
我々は、ポイントワイド・最大コスト(PMC)と呼ばれる運用上有意義なプライバシー対策を導入し、PMCに上界を付与することは、情報密度に下限を課すことと等価であることを示した。
PMCは、プライバシーメカニズムの結果を観察した後、非負のコスト機能を最小化しようとする敵に対する秘密に関する情報漏洩を定量化する。
有限個のアルファベットに制限された場合、PMCは秘密のランダム化関数を誤って推測する確率を最小化することを目的とした敵の情報漏洩として等価に定義することができる。
PMCの特性について検討し,その実用性を示すための標準プライバシ機構に適用する。
詳細な調査を通じて、情報密度に上下限を課す他のプライバシー対策とPMCを結びつける。
以上の結果から,情報密度の低下は上界よりも厳密な要件であることが示唆された。
全体として、当社の作業は、さまざまなプライバシフレームワーク間の関係を理解するギャップを著しく橋渡しし、特定のアプリケーションに適したフレームワークを選択するための洞察を提供します。
This paper explores the implications of guaranteeing privacy by imposing a lower bound on the information density between the private and the public data. We introduce an operationally meaningful privacy measure called pointwise maximal cost (PMC) and demonstrate that imposing an upper bound on PMC is equivalent to enforcing a lower bound on the information density. PMC quantifies the information leakage about a secret to adversaries who aim to minimize non-negative cost functions after observing the outcome of a privacy mechanism. When restricted to finite alphabets, PMC can equivalently be defined as the information leakage to adversaries aiming to minimize the probability of incorrectly guessing randomized functions of the secret. We study the properties of PMC and apply it to standard privacy mechanisms to demonstrate its practical relevance. Through a detailed examination, we connect PMC with other privacy measures that impose upper or lower bounds on the information density. Our results highlight that lower bounding the information density is a more stringent requirement than upper bounding it. Overall, our work significantly bridges the gaps in understanding the relationships between various privacy frameworks and provides insights for selecting a suitable framework for a given application. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 逆赤外格子を用いた赤外歩行者検知器のマルチビューブラックボックス物理攻撃
Multi-View Black-Box Physical Attacks on Infrared Pedestrian Detectors Using Adversarial Infrared Grid ( http://arxiv.org/abs/2407.01168v1 ) ライセンス: Link先を確認 | Kalibinuer Tiliwalidi, Chengyin Hu, Weiwen Shi, | (参考訳) 可視光スペクトルにおける物理的敵攻撃に関する広範な研究は存在するが、赤外線スペクトルにおけるそのような技術の研究は限られている。
赤外線物体検出器は現代の技術応用において不可欠であるが、敵の攻撃を受けやすいため、重大なセキュリティ上の脅威が生じる。
従来、電球アレイやエアロゲルなどの物理的摂動をホワイトボックス攻撃やブラックボックス攻撃のホットパッチやコールドパッチに用いた研究は、マルチビューのサポートにおいて非現実的あるいは限定的なものであることが証明されてきた。
これらの問題に対処するために、グリッド形式で摂動をモデル化し、ブラックボックス最適化に遺伝的アルゴリズムを用いるAdversarial Infrared Grid (AdvGrid)を提案する。
これらの摂動は、歩行者の衣服の様々な部分に循環的に適用され、赤外線歩行者検出器に対するマルチビューブラックボックス物理的な攻撃を容易にする。
大規模な実験は、AdvGridの有効性、ステルス性、堅牢性を検証する。
デジタル環境では80.00\%、物理的環境では91.86\%の攻撃成功率を達成する。
さらに、攻撃の成功率は主流検出器に対して50%以上であり、AdvGridの堅牢性を示している。
本分析では, アブレーション研究, 転送攻撃, 敵防衛などを行い, 方法の優位性を確認した。
While extensive research exists on physical adversarial attacks within the visible spectrum, studies on such techniques in the infrared spectrum are limited. Infrared object detectors are vital in modern technological applications but are susceptible to adversarial attacks, posing significant security threats. Previous studies using physical perturbations like light bulb arrays and aerogels for white-box attacks, or hot and cold patches for black-box attacks, have proven impractical or limited in multi-view support. To address these issues, we propose the Adversarial Infrared Grid (AdvGrid), which models perturbations in a grid format and uses a genetic algorithm for black-box optimization. These perturbations are cyclically applied to various parts of a pedestrian's clothing to facilitate multi-view black-box physical attacks on infrared pedestrian detectors. Extensive experiments validate AdvGrid's effectiveness, stealthiness, and robustness. The method achieves attack success rates of 80.00\% in digital environments and 91.86\% in physical environments, outperforming baseline methods. Additionally, the average attack success rate exceeds 50\% against mainstream detectors, demonstrating AdvGrid's robustness. Our analyses include ablation studies, transfer attacks, and adversarial defenses, confirming the method's superiority. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 推論のためのニューラル条件確率
Neural Conditional Probability for Inference ( http://arxiv.org/abs/2407.01171v1 ) ライセンス: Link先を確認 | Vladimir R. Kostic, Karim Lounici, Gregoire Pacreau, Pietro Novelli, Giacomo Turri, Massimiliano Pontil, | (参考訳) NCP(Neural Conditional Probability)は,特に推論タスクに着目した条件分布学習のための演算子理論的手法である。
NCPは条件付き信頼領域を構築し、条件付き量子化、平均、共分散のような重要な統計を抽出するのに使うことができる。
単一の無条件のトレーニングフェーズを通じて、合理化された学習を提供し、条件が変更されても、再トレーニングを必要とせずに、効率的な推論を容易にする。
ニューラルネットワークの強力な近似能力を活用することで,入力変数と出力変数の非線形関係を効果的に処理し,多種多様な確率分布を効率的に処理する。
理論的保証は、NPP法の最適化一貫性と統計的精度の両方を保証する。
実験の結果,本手法は単純なマルチ層パーセプトロン(MLP)と2つの隠蔽層とGELUアクティベーションを用いて,先行する手法と一致または一致していることがわかった。
このことは、より複雑なアーキテクチャに直面してもパフォーマンスを犠牲にすることなく、理論的に基底を持つ損失関数を持つ最小限のアーキテクチャが競合する結果を達成できることを証明している。
We introduce NCP (Neural Conditional Probability), a novel operator-theoretic approach for learning conditional distributions with a particular focus on inference tasks. NCP can be used to build conditional confidence regions and extract important statistics like conditional quantiles, mean, and covariance. It offers streamlined learning through a single unconditional training phase, facilitating efficient inference without the need for retraining even when conditioning changes. By tapping into the powerful approximation capabilities of neural networks, our method efficiently handles a wide variety of complex probability distributions, effectively dealing with nonlinear relationships between input and output variables. Theoretical guarantees ensure both optimization consistency and statistical accuracy of the NCP method. Our experiments show that our approach matches or beats leading methods using a simple Multi-Layer Perceptron (MLP) with two hidden layers and GELU activations. This demonstrates that a minimalistic architecture with a theoretically grounded loss function can achieve competitive results without sacrificing performance, even in the face of more complex architectures. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# $\text{Memory}^3$:明示的メモリを用いた言語モデリング
$\text{Memory}^3$: Language Modeling with Explicit Memory ( http://arxiv.org/abs/2407.01178v1 ) ライセンス: Link先を確認 | Hongkang Yang, Zehao Lin, Wenjin Wang, Hao Wu, Zhiyu Li, Bo Tang, Wenqiang Wei, Jinbo Wang, Zeyun Tang, Shichao Song, Chenyang Xi, Yu Yu, Kai Chen, Feiyu Xiong, Linpeng Tang, Weinan E, | (参考訳) 大規模言語モデル(LLM)のトレーニングと推論は、原データから意味のある計算へ知識を輸送するコストのかかるプロセスである。
人間の脳の記憶階層にインスパイアされたこのコストは、LLMに明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備することで削減される。
概念的には、その知識の大部分が明示的な記憶に外部化されているため、LLMはパラメータサイズ、トレーニングコスト、推論コストが小さく、全て残りの「抽象的知識」の量に比例する。
予備的な概念実証として、2.4B LLMをスクラッチからトレーニングし、RAGモデルやRAGモデルよりも優れた性能を実現し、RAGよりも高い復号速度を維持する。
明示的メモリは暗黙的メモリ(モデルパラメータ)とワーキングメモリ(コンテキストキー値)に続くLCMにおける3番目のメモリ形式であるため、このモデルは$\text{Memory}^3$と命名される。
本稿では,知識の外部化を支援するためのメモリ回路理論を導入するとともに,記憶をトラクタブルにするメモリスペーシング機構と,記憶形成を容易にする2段階事前学習方式を含む新しい手法を提案する。
The training and inference of large language models (LLMs) are together a costly process that transports knowledge from raw data to meaningful computation. Inspired by the memory hierarchy of the human brain, we reduce this cost by equipping LLMs with explicit memory, a memory format cheaper than model parameters and text retrieval-augmented generation (RAG). Conceptually, with most of its knowledge externalized to explicit memories, the LLM can enjoy a smaller parameter size, training cost, and inference cost, all proportional to the amount of remaining "abstract knowledge". As a preliminary proof of concept, we train from scratch a 2.4B LLM, which achieves better performance than much larger LLMs as well as RAG models, and maintains higher decoding speed than RAG. The model is named $\text{Memory}^3$, since explicit memory is the third form of memory in LLMs after implicit memory (model parameters) and working memory (context key-values). We introduce a memory circuitry theory to support the externalization of knowledge, and present novel techniques including a memory sparsification mechanism that makes storage tractable and a two-stage pretraining scheme that facilitates memory formation. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 世界規模で駆動される超伝導量子コンピューティングアーキテクチャ
A globally driven superconducting quantum computing architecture ( http://arxiv.org/abs/2407.01182v1 ) ライセンス: Link先を確認 | Roberto Menta, Francesco Cioni, Riccardo Aiudi, Marco Polini, Vittorio Giovannetti, | (参考訳) 本稿では,3種類の超伝導量子ビットをホストする2次元ラグに基づく,普遍的でグローバルに駆動される量子コンピュータを実現するためのプラットフォームを提案する。
既存の文献とは対照的に,本手法は常時オン長手ZZ結合を利用する。
後者は特定の駆動周波数と組み合わせて、計算方式において重要な役割を果たす封鎖体制の到達を可能にする。
We propose a platform for implementing a universal, globally driven quantum computer based on a 2D ladder hosting three different species of superconducting qubits. In stark contrast with the existing literature, our scheme exploits the always-on longitudinal ZZ coupling. The latter, combined with specific driving frequencies, enables the reach of a blockade regime, which plays a pivotal role in the computing scheme. | 翻訳日:2024-07-03 21:59:43 公開日:2024-07-01 |
# 物質波の巨大グース・ヘンチェンシフトの観測
Observation of a giant Goos-Hänchen shift for matter waves ( http://arxiv.org/abs/2407.01190v1 ) ライセンス: Link先を確認 | S. McKay, V. O. de Haan, J. Leiner, S. R. Parnell, R. M. Dalgliesh, P. Boeni, L. J. Bannenberg, Q. Le Thien, D. V. Baxter, G. Ortiz, R. Pynn, | (参考訳) グース-H\"アンチェン(GH)シフト(英語版)は、反射面に沿って偏光ビームが横に変換され、入射と反射光がもはや表面に交わらない現象を記述している。
中性子スピンエチョ法と特別に設計された磁気多層膜ミラーを用いて, 全反射における中性子スピン状態と中性子スピン状態の相対位相を測定した。
この相から計算された相対的なGHシフトは、特定の入射中性子波ベクトルにおいて強い共鳴効果を示す。
中性子状態間の観測位相差に基づく計算は、スピンダウン状態の導波路層の伝播距離0.65mmを示す。
物理的GHシフトの存在は、導波路層における中性子吸収の観測によって確認される。
本研究では, 中性子量子化による薄磁性層の検出に, 実験手法を活用できる方法を提案する。
The Goos-H\"anchen (GH) shift describes a phenomenon in which a specularly-reflected beam is laterally translated along the reflecting surface such that the incident and reflected rays no longer intersect at the surface. Using a neutron spin-echo technique and a specially-designed magnetic multilayer mirror, we have measured the relative phase between the reflected up and down neutron spin states in total reflection. The relative GH shift calculated from this phase shows a strong resonant enhancement at a particular incident neutron wavevector, which is due to a waveguiding effect in one of the magnetic layers. Calculations based on the observed phase difference between the neutron states indicate a propagation distance along the waveguide layer of 0.65 mm for the spin-down state, which we identify with the magnitude of the giant GH shift. The existence of a physical GH shift is confirmed by the observation of neutron absorption in the waveguide layer. We propose ways in which our experimental method may be exploited for neutron quantum-enhanced sensing of thin magnetic layers. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# MARS:マルチモーダルアクティブロボットセンシング
MARS: Multimodal Active Robotic Sensing for Articulated Characterization ( http://arxiv.org/abs/2407.01191v1 ) ライセンス: Link先を確認 | Hongliang Zeng, Ping Zhang, Chengjiong Wu, Jiahua Wang, Tingyu Ye, Fang Li, | (参考訳) 明瞭な物体の正確な認識は、サービスロボットの強化に不可欠である。
最近の研究は主にポイントクラウド(単一モードのアプローチ)に焦点を当てており、しばしば重要なテクスチャや照明の詳細を無視し、最適な視点や現実のシナリオを表現できないような理想的な条件を仮定している。
これらの制約に対処するため,我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークであるMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダル融合モジュールと、観測視点の自律的最適化のための強化学習ベースのアクティブセンシングを備える。
また,PartNet-Mobilityデータセットから得られた各種オブジェクトインスタンスを用いた実験では,関節パラメータ推定精度において,最先端の手法よりも優れていた。
さらに、アクティブセンシングにより、MARSはエラーをさらに減らし、最適化された視点を扱う際の効率を向上する。
さらに,本手法は実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
コードはhttps://github.com/robhlzeng/MARSで入手できる。
Precise perception of articulated objects is vital for empowering service robots. Recent studies mainly focus on point cloud, a single-modal approach, often neglecting vital texture and lighting details and assuming ideal conditions like optimal viewpoints, unrepresentative of real-world scenarios. To address these limitations, we introduce MARS, a novel framework for articulated object characterization. It features a multi-modal fusion module utilizing multi-scale RGB features to enhance point cloud features, coupled with reinforcement learning-based active sensing for autonomous optimization of observation viewpoints. In experiments conducted with various articulated object instances from the PartNet-Mobility dataset, our method outperformed current state-of-the-art methods in joint parameter estimation accuracy. Additionally, through active sensing, MARS further reduces errors, demonstrating enhanced efficiency in handling suboptimal viewpoints. Furthermore, our method effectively generalizes to real-world articulated objects, enhancing robot interactions. Code is available at https://github.com/robhlzeng/MARS. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 複数のリスクを伴う一般コレクション・デモグラフィーモデル
General collections demography model with multiple risks ( http://arxiv.org/abs/2407.01192v1 ) ライセンス: Link先を確認 | Josep Grau-Bové, Miriam Andrews, | (参考訳) このノートはモンテカルロサンプリングを用いたエージェントベースモデル(ABM)を示し、時間とともに物体の集団の振る舞いをシミュレートする。
このモデルは、有害事象をシミュレートするために、ABCフレームワークのリスクパラメータに損傷関数を組み込む。
その結果、連続的および確率的劣化が組み合わされる。
このハイブリッドアプローチにより、システムの創発的挙動を研究し、コレクションの寿命範囲を探索することができる。
モデルの主な結果は、すべての複合分解プロセスの結果、コレクションの状態における崩壊である。
このモデルは、さらなるテストのために記述された6つの仮説に基づいている。
本稿では,コレクション・デモグラフィーの原則を普遍的に実装するための最初の試みについて述べる。
This note presents an Agent-Based Model (ABM) with Monte Carlo sampling, designed to simulate the behaviour of a population of objects over time. The model incorporates damage functions with the risk parameters of the ABC framework to simulate adverse events. As a result, it combines continuous and probabilistic degradation. This hybrid approach allows us to study the emergent behavior of the system and explore the range of possible lifetimes of a collection. The main outcome of the model is the decay in condition of a collection as a consequence of all the combined degradation processes. The model is based on six hypotheses that are described for further testing. This paper presents a first attempt at an universal implementation of Collections Demography principles, with the hope that it will generate discussion and the identification of research gaps. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 効率的なFew-Shotパーソナライズされたオブジェクト検出のためのクロスアーキテクチャ補助的特徴空間変換
Cross-Architecture Auxiliary Feature Space Translation for Efficient Few-Shot Personalized Object Detection ( http://arxiv.org/abs/2407.01193v1 ) ライセンス: Link先を確認 | Francesco Barbato, Umberto Michieli, Jijoong Moon, Pietro Zanuttigh, Mete Ozay, | (参考訳) 近年、オブジェクト検出ロボットシステムはいくつかのパーソナルデバイス(ホームロボットや家電など)にデプロイされている。
これは、一般的なクラスとユーザ固有のインスタンス(例えば、犬とユーザの犬)を区別するために、知識を効率的に更新することはできない、という彼らの設計上の課題を強調している。
本稿では、この課題をインスタンスレベルのパーソナライズされたオブジェクト検出(IPOD)と呼ぶ。
パーソナライゼーションタスクは、集中型サーバにおけるモデルチューニングと最適化のための多くのサンプルを必要とし、プライバシー上の懸念を提起する。
最近の大規模ファンデーションモデルに基づくアプローチによって別の方法が提供されるが、その計算コストはデバイス上のアプリケーションを妨げる。
当社では同時に,AuXFTというFew-ShotIPOD戦略を設計しています。
本研究では, 物体検出器の粗い予測を改良するために, 条件付き粗い数ショット学習装置を導入し, 市販モデルを用いることで, 神経崩壊によるパーソナライゼーションの低下が示唆された。
そこで本研究では,自己教師型モデル(eg, DINOv2)によって生成された特徴を検出器の性能に影響を与えることなく蒸留する,補助的特徴空間を生成するトランスレータブロックを提案する。
AuXFTは、推論時間のわずか32%、VRAMの13%、モデルサイズの19%で、上限の80%のパフォーマンスに達した。
Recent years have seen object detection robotic systems deployed in several personal devices (e.g., home robots and appliances). This has highlighted a challenge in their design, i.e., they cannot efficiently update their knowledge to distinguish between general classes and user-specific instances (e.g., a dog vs. user's dog). We refer to this challenging task as Instance-level Personalized Object Detection (IPOD). The personalization task requires many samples for model tuning and optimization in a centralized server, raising privacy concerns. An alternative is provided by approaches based on recent large-scale Foundation Models, but their compute costs preclude on-device applications. In our work we tackle both problems at the same time, designing a Few-Shot IPOD strategy called AuXFT. We introduce a conditional coarse-to-fine few-shot learner to refine the coarse predictions made by an efficient object detector, showing that using an off-the-shelf model leads to poor personalization due to neural collapse. Therefore, we introduce a Translator block that generates an auxiliary feature space where features generated by a self-supervised model (e.g., DINOv2) are distilled without impacting the performance of the detector. We validate AuXFT on three publicly available datasets and one in-house benchmark designed for the IPOD task, achieving remarkable gains in all considered scenarios with excellent time-complexity trade-off: AuXFT reaches a performance of 80% its upper bound at just 32% of the inference time, 13% of VRAM and 19% of the model size. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 一般測地距離関数に基づくグラフ上のノード特徴増大のための学習的アプローチ
A Learned Generalized Geodesic Distance Function-Based Approach for Node Feature Augmentation on Graphs ( http://arxiv.org/abs/2407.01194v1 ) ライセンス: Link先を確認 | Amitoz Azad, Yuan Fang, | (参考訳) 多様体上の測地線距離は、画像処理、コンピュータグラフィックス、コンピュータビジョンに多くの応用がある。
本研究では,「LGGD(Learned Generalized Geodesic Distances)」というアプローチを導入する。
この方法は、トレーニングデータ、グラフトポロジ、ノード内容特徴を組み込んだトレーニングパイプラインを通じて、一般化された測地距離関数を学習することにより、ノード特徴を生成する。
この手法の強みは、一般化された測地線距離からノイズや外れ値への強靭性にある。
我々の貢献は、ノード分類タスクの性能向上、実世界のグラフデータセットにおける最先端手法との競合結果、グラフ上の一般化測地方程式におけるパラメータの学習可能性の実証、新しいラベルの動的包摂などである。
Geodesic distances on manifolds have numerous applications in image processing, computer graphics and computer vision. In this work, we introduce an approach called `LGGD' (Learned Generalized Geodesic Distances). This method involves generating node features by learning a generalized geodesic distance function through a training pipeline that incorporates training data, graph topology and the node content features. The strength of this method lies in the proven robustness of the generalized geodesic distances to noise and outliers. Our contributions encompass improved performance in node classification tasks, competitive results with state-of-the-art methods on real-world graph datasets, the demonstration of the learnability of parameters within the generalized geodesic equation on graph, and dynamic inclusion of new labels. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 電子スピンと核スピンを閉じ込めたスケーラブルな2量子ビット量子プロセッサの実装
Implementation of a scalable universal two-qubit quantum processor with electron and nuclear spins in a trapped ion ( http://arxiv.org/abs/2407.01196v1 ) ライセンス: Link先を確認 | Ji Bian, Teng Liu, Qifeng Lao, Min Ding, Huiyi Zhang, Xinxin Rao, Pengfei Lu, Le Luo, | (参考訳) 限られた数のホストで量子情報処理能力を高めることは、量子上の優位性を達成するために不可欠である。
本稿では、各イオンの4つの内部レベルを利用したスケーラブルなn-イオン-2n量子ビット量子プロセッサを実現する新しい手法を提案し、原子価電子スピンと1つの171Yb+イオンの核スピンを用いた1-イオン-2量子ビットユニバーサルプロセッサを実験的に実装する。
単一量子ビットゲートと2量子ビットゲートの忠実度は、量子プロセストモグラフィーにより約0.98である。
さらに、Groverのアルゴリズムは0.99を超える成功率で実装されている。
我々は、標準のレーザーレスおよびレーザーベースのフレームワークに基づく明示的なスケールアッププロトコルを提供し、さらに、電子/原子スピンスキームが異なるイオン間の2量子エンタングゲートの要求を少なくすることを実証する。
原子間ゲートを原子間ゲートに置き換えることで、量子回路の忠実度が増大する可能性がある。
我々の研究は、n 個のイオンを持つ量子計算ヒルベルト空間のサイズが 2n 倍になるための道を開いた。
Increasing the quantum information processing power with limited number of hosts is vital for achieving quantum advantage. Here we propose a novel scheme that achieves a scalable n-ion-2n-qubit quantum processor utilizing four internal levels of each ion, and experimentally implement a 1-ion-2-qubit universal processor using the valence electron spin and nuclear spin of a single 171Yb+ ion. Fidelities of single-qubit and two-qubit gates are around 0.98 obtained by quantum process tomography. Additionally, the Grover's algorithm is implemented with a successful rate exceeding 0.99. We provide explicit scaling-up protocols based on standard laser-less and laser-based frameworks, and further demonstrate that the electron/nuclear-spin scheme allows less demanding two-qubit entangling gates between different ions. The replacement of some inter-atomic gates by intra-atomic gates could increase the fidelity of some quantum circuits. Our work paves the way towards achieving 2n-times increase in the size of quantum computational Hilbert space with n ions. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 切削条件を考慮したディープラーニングツール摩耗推定
Deep Learning Based Tool Wear Estimation Considering Cutting Conditions ( http://arxiv.org/abs/2407.01199v1 ) ライセンス: Link先を確認 | Zongshuo Li, Markus Meurer, Thomas Bergs, | (参考訳) 工具摩耗条件はワークの最終的な品質に影響を及ぼす。
本研究では,切削条件を余分なモデル入力として組み込んだ畳み込みニューラルネットワークに基づく深層学習手法を提案する。
各種切削パラメータを用いた一連の切削実験を通じて, 工具摩耗推定精度および新しい固定あるいは可変切削パラメータへの転写性の観点から, モデルの性能評価を行った。
その結果, 従来型の切断条件を省略し, 摩耗発達の安定性やトレーニングデータセットの制限によらず, 優れた性能を維持したモデルに対して, アプローチの優位性を常に強調した。
この発見は、産業シナリオにおける潜在的な適用可能性を強調している。
Tool wear conditions impact the final quality of the workpiece. In this study, we propose a deep learning approach based on a convolutional neural network that incorporates cutting conditions as extra model inputs, aiming to improve tool wear estimation accuracy and fulfill industrial demands for zero-shot transferability. Through a series of milling experiments under various cutting parameters, we evaluate the model's performance in terms of tool wear estimation accuracy and its transferability to new fixed or variable cutting parameters. The results consistently highlight our approach's advantage over conventional models that omit cutting conditions, maintaining superior performance irrespective of the stability of the wear development or the limitation of the training dataset. This finding underscores its potential applicability in industrial scenarios. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 工具摩耗推定における伝達性向上と学習能力向上のためのディープラーニングアプローチ
Deep Learning Approach for Enhanced Transferability and Learning Capacity in Tool Wear Estimation ( http://arxiv.org/abs/2407.01200v1 ) ライセンス: Link先を確認 | Zongshuo Li, Markus Meurer, Thomas Bergs, | (参考訳) 現代の製造の不可欠な部分として、監視システムは加工中に貴重な情報を取得し、プロセスとマシンの両方の状態を監督する。
近年,多種多様なアルゴリズムを用いて,単一または複数の測定源を用いた工具摩耗の検出を行っている。
本研究では,切断パラメータを考慮した工具摩耗推定のための深層学習手法を提案する。
工具摩耗推定におけるモデルの精度と伝達性は, 異なる切削条件下でミリング実験により評価した。
提案手法は,伝達性と学習能力の両面で従来の手法より優れていることを示す。
As an integral part of contemporary manufacturing, monitoring systems obtain valuable information during machining to oversee the condition of both the process and the machine. Recently, diverse algorithms have been employed to detect tool wear using single or multiple sources of measurements. In this study, a deep learning approach is proposed for estimating tool wear, considering cutting parameters. The model's accuracy and transferability in tool wear estimation were assessed with milling experiments conducted under varying cutting parameters. The results indicate that the proposed method outperforms conventional methods in terms of both transferability and rapid learning capabilities. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# SCIF: 構成的スマートコントラクトセキュリティのための言語
SCIF: A Language for Compositional Smart Contract Security ( http://arxiv.org/abs/2407.01204v1 ) ライセンス: Link先を確認 | Siqiu Yao, Haobin Ni, Andrew C. Myers, Ethan Cecchetti, | (参考訳) スマートコントラクトの確保は,依然として根本的な課題です。
中心となるのは、信頼できないコードで構成されたセキュアなソフトウェアを構築することです。
SCIFは、構成的にセキュアなスマートコントラクトを構築するための言語です。
SCIFは、セキュアな情報フローの基本的な構成原理に基づいているが、このコアメカニズムを拡張して、SCIFのルールに従わない悪意のある契約が存在する場合でも、永続性攻撃、混乱した副攻撃、不適切なエラー処理を防ぎます。
SCIFは、動的信頼管理のメカニズムを通じて、部分信頼を持つ相互作用プリンシパルのリッチなエコシステムをサポートします。
SCIFはSolidityのコンパイラとして実装されている。
静的チェックルールとランタイムを含むSCIF言語について述べる。
最後に、複雑なセキュリティ推論を備えたアプリケーションをいくつか実装し、SCIFが複雑なスマートコントラクトの構築をセキュアにサポートし、潜在的なセキュリティバグに関する正確な診断をプログラマに与えていることを示す。
Securing smart contracts remains a fundamental challenge. At its core, it is about building software that is secure in composition with untrusted code, a challenge that extends far beyond blockchains. We introduce SCIF, a language for building smart contracts that are compositionally secure. SCIF is based on the fundamentally compositional principle of secure information flow, but extends this core mechanism to include protection against reentrancy attacks, confused deputy attacks, and improper error handling, even in the presence of malicious contracts that do not follow SCIF's rules. SCIF supports a rich ecosystem of interacting principals with partial trust through its mechanisms for dynamic trust management. SCIF has been implemented as a compiler to Solidity. We describe the SCIF language, including its static checking rules and runtime. Finally, we implement several applications with intricate security reasoning, showing how SCIF supports building complex smart contracts securely and gives programmer accurate diagnostics about potential security bugs. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# セグメンテーションモデルに基づく効率的な切削工具摩耗セグメンテーション
Efficient Cutting Tool Wear Segmentation Based on Segment Anything Model ( http://arxiv.org/abs/2407.01211v1 ) ライセンス: Link先を確認 | Zongshuo Li, Ding Huo, Markus Meurer, Thomas Bergs, | (参考訳) 工具摩耗条件は、加工品の表面品質と最終的な幾何学的精度に影響を与える。
本研究では,U-Netを自動プロンプトジェネレータとして統合し,ツールウェア検出のプロセスの合理化を図った,セグメンション任意のモデルに基づく効率的なツールウェアセグメンテーション手法を提案する。
本評価では,3つのポイント・オブ・インテリジェンス生成手法について検討し,トレーニングデータセットサイズとU-Netトレーニング強度の変動が摩耗セグメンテーション結果に及ぼす影響について検討した。
その結果、U-Netに対するアプローチのアドバンテージを一貫して強調し、限られたトレーニングデータセットでも正確な摩耗セグメンテーションを実現する能力を強調した。
この機能は、データセットが制限される可能性のある産業シナリオにおける潜在的な適用可能性を強調している。
Tool wear conditions impact the surface quality of the workpiece and its final geometric precision. In this research, we propose an efficient tool wear segmentation approach based on Segment Anything Model, which integrates U-Net as an automated prompt generator to streamline the processes of tool wear detection. Our evaluation covered three Point-of-Interest generation methods and further investigated the effects of variations in training dataset sizes and U-Net training intensities on resultant wear segmentation outcomes. The results consistently highlight our approach's advantage over U-Net, emphasizing its ability to achieve accurate wear segmentation even with limited training datasets. This feature underscores its potential applicability in industrial scenarios where datasets may be limited. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# EconNLI:経済学における大規模言語モデルの評価
EconNLI: Evaluating Large Language Models on Economics Reasoning ( http://arxiv.org/abs/2407.01212v1 ) ライセンス: Link先を確認 | Yue Guo, Yi Yang, | (参考訳) 大規模言語モデル(LLM)は、経済分析レポートを書いたり、財政的なアドバイスを提供したりするために広く使われているが、経済的な知識を理解し、特定の経済事象の潜在的な結果について推論する能力は、体系的な評価を欠いている。
このギャップに対処するため、経済領域におけるLLMの知識と推論能力を評価するために、新たなデータセット、経済事象に関する自然言語推論(EconNLI)を提案する。
本研究では,(1)前提事象が仮説事象を引き起こすかどうかを正しく分類する能力,(2)所定の前提から合理的事象を生成する能力について評価する。
実験の結果, LLMは経済的推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。
本研究は,LLMを経済的推論と分析を含む批判的意思決定に利用することの限界に対する意識を高めるものである。
データセットとコードはhttps://github.com/Irenehere/EconNLIで公開されている。
Large Language Models (LLMs) are widely used for writing economic analysis reports or providing financial advice, but their ability to understand economic knowledge and reason about potential results of specific economic events lacks systematic evaluation. To address this gap, we propose a new dataset, natural language inference on economic events (EconNLI), to evaluate LLMs' knowledge and reasoning abilities in the economic domain. We evaluate LLMs on (1) their ability to correctly classify whether a premise event will cause a hypothesis event and (2) their ability to generate reasonable events resulting from a given premise. Our experiments reveal that LLMs are not sophisticated in economic reasoning and may generate wrong or hallucinated answers. Our study raises awareness of the limitations of using LLMs for critical decision-making involving economic reasoning and analysis. The dataset and codes are available at https://github.com/Irenehere/EconNLI. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# グラフ学習のためのランダムウォークの再検討
Revisiting Random Walks for Learning on Graphs ( http://arxiv.org/abs/2407.01214v1 ) ライセンス: Link先を確認 | Jinwoo Kim, Olga Zaghen, Ayhan Suleymanzade, Youngmin Ryou, Seunghoon Hong, | (参考訳) グラフ上のランダムウォークが機械可読レコードを生成するグラフ上での機械学習の簡単なアイデアを再考し、このレコードはディープニューラルネットワークによって処理され、頂点レベルまたはグラフレベルの予測を直接行う。
これらの確率的機械をランダムウォークニューラルネットワークと呼び、確率でグラフ関数を普遍的に近似しながら同型不変として設計できることを示す。
有用な発見は、あらゆる種類のランダムウォーク記録が、頂点が匿名化されている限り、確率的不変性を保証することである。
これにより、ランダムウォークをプレーンテキストで記録し、言語モデルを用いてこれらのテキストレコードを読み取ってグラフタスクを解くことができる。
さらに、マルコフ連鎖理論のツールを用いたメッセージパッシングニューラルネットワークの並列性を確立し、ランダムウォークニューラルネットワークの構築によってメッセージパッシングの過度な平滑化が軽減され、オーバーシャッシングが確率的アンダーリーチングとして表されることを示す。
事前学習された言語モデルに基づくランダムウォークニューラルネットワークは、3WLテストが失敗する強い正則グラフを分離したり、サブ構造をカウントしたり、トレーニングなしでarXiv励振ネットワーク上でのトランスダクティブ分類といった、グラフ上のいくつかの難しい問題を解くことができることを示す。
コードはhttps://github.com/jw9730/random-walkで入手できる。
We revisit a simple idea for machine learning on graphs, where a random walk on a graph produces a machine-readable record, and this record is processed by a deep neural network to directly make vertex-level or graph-level predictions. We refer to these stochastic machines as random walk neural networks, and show that we can design them to be isomorphism invariant while capable of universal approximation of graph functions in probability. A useful finding is that almost any kind of record of random walk guarantees probabilistic invariance as long as the vertices are anonymized. This enables us to record random walks in plain text and adopt a language model to read these text records to solve graph tasks. We further establish a parallelism to message passing neural networks using tools from Markov chain theory, and show that over-smoothing in message passing is alleviated by construction in random walk neural networks, while over-squashing manifests as probabilistic under-reaching. We show that random walk neural networks based on pre-trained language models can solve several hard problems on graphs, such as separating strongly regular graphs where the 3-WL test fails, counting substructures, and transductive classification on arXiv citation network without training. Code is available at https://github.com/jw9730/random-walk. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 熱放射による誘電体粒子の脱コヒーレンス
Decoherence of dielectric particles by thermal emission ( http://arxiv.org/abs/2407.01215v1 ) ライセンス: Link先を確認 | Jonas Schäfer, Benjamin A. Stickler, Klaus Hornberger, | (参考訳) レバタイトされたナノ粒子は、アプリケーションを検知し、マクロな量子実験を行うための有望なプラットフォームである。
ナノ粒子の運動温度は絶対零度近くまで低下するが、制御されていない内部自由度はより高温のままであり、必然的に熱放射が放出される。
この熱放出過程によるデコヒーレンスと運動加熱は、点粒子の質量移動の中心以上ではまだ理解されていない。
ここでは、任意の大きさの誘電体誘電体ロータの運動量子状態に対する熱放射の影響を記述するマスター方程式を示す。
空間配向重畳の局在は、バルク材料の性質と粒子幾何学に基づいて予測される。
提示された理論の直感的かつ実験的に関係する意味は、光学的等方性体の配向重ね合わせが、小粒子極限においてもその対称性によって保護されないことである。
Levitated nanoparticles are a promising platform for sensing applications and for macroscopic quantum experiments. While the nanoparticles' motional temperatures can be reduced to near absolute zero, their uncontrolled internal degrees of freedom remain much hotter, inevitably leading to the emission of heat radiation. The decoherence and motional heating caused by this thermal emission process is still poorly understood beyond the case of the center-of-mass motion of point particles. Here, we present the master equation describing the impact of heat radiation on the motional quantum state of arbitrarily sized and shaped dielectric rigid rotors. It predicts the localization of spatio-orientational superpositions only based on the bulk material properties and the particle geometry. A counter-intuitive and experimentally relevant implication of the presented theory is that orientational superpositions of optically isotropic bodies are not protected by their symmetry, even in the small-particle limit. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# ハイブリッドA*パスプランナーが交通ルールを無視する: 深い強化学習に基づく計画フレームワーク
Let Hybrid A* Path Planner Obey Traffic Rules: A Deep Reinforcement Learning-Based Planning Framework ( http://arxiv.org/abs/2407.01216v1 ) ライセンス: Link先を確認 | Xibo Li, Shruti Patel, Christof Büskens, | (参考訳) 深層強化学習(DRL)は、システムが環境と対話し、自己定義の報酬を最大化する効率的な政策を訓練することで行動を起こすことを可能にする。
自律運転では、ハイレベル意思決定の戦略として使用できるが、ハイブリッドA*経路計画のような低レベルアルゴリズムは、局所軌道計画問題の解法を証明している。
本研究では、DRLが車線変更コマンドなどの高レベルな決定を行う2つの手法を組み合わせる。
レーン変更コマンドを得た後、ハイブリッドA*プランナは、モデル予測コントローラ(MPC)によって実行される衝突のない軌道を生成することができる。
さらに、DRLアルゴリズムは、選択した時間内にレーン変更コマンドを一貫性を保つことができる。
トラフィックルールは線形時間論理(LTL)を用いて実装され、DRLの報酬関数として使用される。
さらに,提案手法を実システム上で検証し,シミュレーションから実ハードウェアへの実装の実現可能性を示す。
Deep reinforcement learning (DRL) allows a system to interact with its environment and take actions by training an efficient policy that maximizes self-defined rewards. In autonomous driving, it can be used as a strategy for high-level decision making, whereas low-level algorithms such as the hybrid A* path planning have proven their ability to solve the local trajectory planning problem. In this work, we combine these two methods where the DRL makes high-level decisions such as lane change commands. After obtaining the lane change command, the hybrid A* planner is able to generate a collision-free trajectory to be executed by a model predictive controller (MPC). In addition, the DRL algorithm is able to keep the lane change command consistent within a chosen time-period. Traffic rules are implemented using linear temporal logic (LTL), which is then utilized as a reward function in DRL. Furthermore, we validate the proposed method on a real system to demonstrate its feasibility from simulation to implementation on real hardware. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 検索型世代におけるベストプラクティスの探索
Searching for Best Practices in Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.01219v1 ) ライセンス: Link先を確認 | Xiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi, Zhengyuan Wang, Shizheng Li, Qi Qian, Ruicheng Yin, Changze Lv, Xiaoqing Zheng, Xuanjing Huang, | (参考訳) Retrieval-augmented Generation (RAG)技術は、特に専門ドメインにおいて、最新情報の統合、幻覚の緩和、応答品質の向上に有効であることが証明されている。
多くのRAGアプローチは、クエリ依存検索によって大きな言語モデルを強化するために提案されているが、これらのアプローチは複雑な実装と応答時間の延長に悩まされている。
通常、RAGワークフローは複数の処理ステップを含み、それぞれが様々な方法で実行できる。
本稿では,既存のRAG手法とその潜在的な組み合わせについて検討し,最適なRAG手法を同定する。
広範な実験を通じて、パフォーマンスと効率のバランスをとるRAGをデプロイするためのいくつかの戦略を提案する。
さらに,マルチモーダル検索技術は,視覚入力に対する質問応答能力を大幅に向上させ,"検索・アズ・ジェネレーション"戦略を用いて,マルチモーダルコンテンツの生成を促進できることを示す。
Retrieval-augmented generation (RAG) techniques have proven to be effective in integrating up-to-date information, mitigating hallucinations, and enhancing response quality, particularly in specialized domains. While many RAG approaches have been proposed to enhance large language models through query-dependent retrievals, these approaches still suffer from their complex implementation and prolonged response times. Typically, a RAG workflow involves multiple processing steps, each of which can be executed in various ways. Here, we investigate existing RAG approaches and their potential combinations to identify optimal RAG practices. Through extensive experiments, we suggest several strategies for deploying RAG that balance both performance and efficiency. Moreover, we demonstrate that multimodal retrieval techniques can significantly enhance question-answering capabilities about visual inputs and accelerate the generation of multimodal content using a "retrieval as generation" strategy. | 翻訳日:2024-07-03 21:49:58 公開日:2024-07-01 |
# 高速かつ効率的な3次元シーンセグメンテーションのためのマスクニューラルネットワーク
Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation ( http://arxiv.org/abs/2407.01220v1 ) ライセンス: Link先を確認 | Zihan Gao, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Yuwei Guo, Shuyuan Yang, | (参考訳) 3Dシーンを理解することは、複数のドメインにまたがるアプリケーションによるコンピュータビジョン研究において重要な課題である。
NeRFや3DGSのような2D視覚言語基礎モデルをニューラルネットワークに蒸留する最近の進歩は、正確な3Dアノテーションを必要とせずに、2Dの多視点画像から3Dシーンをオープンな語彙で分割することを可能にする。
しかし、高次元CLIPの1ピクセルあたりの蒸留は曖昧さをもたらし、複雑な正則化戦略を必要とし、訓練中に非効率性を加える。
本稿では,ニューラルネットワークによる高速かつ効率的な3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。
従来の方法とは異なり、MaskFieldは高次元のCLIPの特徴ではなくマスクを蒸留する。
MaskFieldsは神経磁場をバイナリマスクジェネレータとして使用し、SAMによって生成されたマスクを監督し、CLIPの特徴によって分類する。
MaskFieldは、トレーニング中に余分な正規化なしにSAMセグメント化されたオブジェクト形状を自然に導入することで、あいまいなオブジェクト境界を克服する。
トレーニング中の高次元CLIP機能の直接的なハンドリングを回避することで、MaskFieldは特に3DGSのような明示的なシーン表現と互換性がある。
我々の広範な実験により、MaskFieldは従来の最先端の手法を超越するだけでなく、驚くほど高速な収束を実現し、トレーニングの5分で従来の手法よりも優れていたことが示されている。
MaskFieldが2Dモデルから3Dのシーンを理解するために、ニューラルネットワークをどのように訓練するかを、さらに探求することを期待している。
Understanding 3D scenes is a crucial challenge in computer vision research with applications spanning multiple domains. Recent advancements in distilling 2D vision-language foundation models into neural fields, like NeRF and 3DGS, enables open-vocabulary segmentation of 3D scenes from 2D multi-view images without the need for precise 3D annotations. While effective, however, the per-pixel distillation of high-dimensional CLIP features introduces ambiguity and necessitates complex regularization strategies, adding inefficiencies during training. This paper presents MaskField, which enables fast and efficient 3D open-vocabulary segmentation with neural fields under weak supervision. Unlike previous methods, MaskField distills masks rather than dense high-dimensional CLIP features. MaskFields employ neural fields as binary mask generators and supervise them with masks generated by SAM and classified by coarse CLIP features. MaskField overcomes the ambiguous object boundaries by naturally introducing SAM segmented object shapes without extra regularization during training. By circumventing the direct handling of high-dimensional CLIP features during training, MaskField is particularly compatible with explicit scene representations like 3DGS. Our extensive experiments show that MaskField not only surpasses prior state-of-the-art methods but also achieves remarkably fast convergence, outperforming previous methods with just 5 minutes of training. We hope that MaskField will inspire further exploration into how neural fields can be trained to comprehend 3D scenes from 2D models. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# 展開繊維の同期のためのトランシーバを用いた共存クロックによる香港・奥羽・マンデル干渉
Hong-Ou-Mandel Interference with a Coexisting Clock using Transceivers for Synchronization over Deployed Fiber ( http://arxiv.org/abs/2407.01225v1 ) ライセンス: Link先を確認 | Anirudh Ramesh, Daniel R. Reilly, Kim Fook Lee, Paul M. Moraw, Joaquin Chung, Md Shariful Islam, Cristián Peña, Xu Han, Rajkumar Kettimuthu, Prem Kumar, Gregory Kanter, | (参考訳) 独立に生成された光子間の干渉は、遠距離の絡み合いを分散させるための重要なステップであるが、遠方に位置する光子ソース間の同期が必要である。
このような光子源のクロックを、量子フォトニック信号を伝送する同じファイバー上で共存する2方向の古典的光通信を用いて同期させることは、長距離での光子-光子干渉を実現するための有望なアプローチである。
そこで,本研究では,レーザの出力を減衰させた弱コヒーレントな状態源と,隠蔽された単一光子源の2つの源間での香港-奥羽-マンデル対流を観測することにより光子干渉を実証する。
最大視認性は0.58 pm 0.04$で、2つのソースが4.3$kmのファイバで接続されているときに達成される。
Dip visibilities $>0.5$は非古典的であり、デプロイされたファイバインフラストラクチャ上でテレポーテーションを達成するための第一歩である。
実験では、従来の光通信は、光信号の発射電力の-21$dBmで実現し、2つの独立した離れた光子源のクロック同期に使用される。
古典光学信号からの自発的ラマン散乱の影響は、量子チャネル波長と古典チャネル波長の適切な選択によって緩和される。
実験で使用されるすべての機器(光子源と同期装置)は市販されている。
最後に、我々の実験は、商用機器との実用的な量子ネットワークの実現と、光ファイバーにおける古典的通信との共存を実現するためのスケーラブルなアプローチを示す。
Interference between independently generated photons is a key step towards distributing entanglement over long distances, but it requires synchronization between the distantly-located photon sources. Synchronizing the clocks of such photon sources using coexisting two-way classical optical communications over the same fiber that transport the quantum photonic signals is a promising approach for achieving photon-photon interference over long distances, enabling entanglement distribution for quantum networking using the deployed fiber infrastructure. Here, we demonstrate photon-photon interference by observing the Hong-Ou-Mandel dip between two distantly-located sources: a weak coherent state source obtained by attenuating the output of a laser and a heralded single-photon source. We achieve a maximum dip visibility of $0.58 \pm 0.04$ when the two sources are connected via $4.3$ km of deployed fiber. Dip visibilities $>0.5$ are nonclassical and a first step towards achieving teleportation over the deployed fiber infrastructure. In our experiment, the classical optical communication is achieved with $-21$ dBm of optical signal launch power, which is used to synchronize the clocks in the two independent, distantly-located photon sources. The impact of spontaneous Raman scattering from the classical optical signals is mitigated by appropriate choice of the quantum and classical channel wavelengths. All equipment used in our experiment (the photon sources and the synchronization setup) is commercially available. Finally, our experiment represents a scalable approach to enabling practical quantum networking with commercial equipment and coexistence with classical communications in optical fiber. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# 伝熱力学における非線形対流効果のベイズ灰色の箱同定
Bayesian grey-box identification of nonlinear convection effects in heat transfer dynamics ( http://arxiv.org/abs/2407.01226v1 ) ライセンス: Link先を確認 | Wouter M. Kouw, Caspar Gruijthuijsen, Lennart Blanken, Enzo Evers, Timothy Rogers, | (参考訳) 熱伝達力学における対流を同定する計算手法を提案する。
この手順は、導電効果と線形対流効果のホワイトボックス成分(すなわち既知の物理学)と非線形対流効果のブラックボックス成分として作用するガウス過程からなるガウス過程潜在力モデルに基づいている。
状態はベイズ的滑らか化を通して推定され、ラプラス法を用いてカーネル共分散関数のハイパーパラメータの近似後部分布を求める。
非線形対流関数はベイズ回帰モデルを用いてガウス過程状態から回収される。
同定された非線形対流関数を用いてシミュレーション誤差による手順をシミュレーションシステムからのデータと物理アセンブリからの測定の両方に基づいて検証する。
We propose a computational procedure for identifying convection in heat transfer dynamics. The procedure is based on a Gaussian process latent force model, consisting of a white-box component (i.e., known physics) for the conduction and linear convection effects and a Gaussian process that acts as a black-box component for the nonlinear convection effects. States are inferred through Bayesian smoothing and we obtain approximate posterior distributions for the kernel covariance function's hyperparameters using Laplace's method. The nonlinear convection function is recovered from the Gaussian process states using a Bayesian regression model. We validate the procedure by simulation error using the identified nonlinear convection function, on both data from a simulated system and measurements from a physical assembly. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# DaBiT: 補聴器と超解像器の深さ・ブラー情報変換器
DaBiT: Depth and Blur informed Transformer for Joint Refocusing and Super-Resolution ( http://arxiv.org/abs/2407.01230v1 ) ライセンス: Link先を確認 | Crispian Morris, Nantheera Anantrasirichai, Fan Zhang, David Bull, | (参考訳) 多くの現実のシナリオでは、録画されたビデオは偶然の焦点のぼやけに悩まされ、ビデオのぼやけた手法は存在するが、特にターゲットの動きがぼやけている。
本稿では,焦点ずれ(再焦点)とビデオ超解像(VSR)のジョイントタスクに最適化されたフレームワークを提案する。
提案手法では, 画像伝播に加えて, 局所的ぼかしの連続的な空間分散を効果的に活用し, 映像の復元を行う。
また、ぼやけた領域と鋭い領域の関連性を効率的に調整するフロー再焦点モジュールも導入する。
さらに,本研究では,学習能力を拡張し,より広い範囲のコンテンツを含む合成焦点ぼかしデータを生成する新しい手法を提案する。
DAVIS-Blurという新しいベンチマークデータセットを公開しました。
このデータセットは、人気のDAVISビデオセグメンテーションセットの修正版であり、実際のアウト・オブ・フォーカスのぼかしと対応するぼかしマップを提供する。
DAVIS-Blurに関する総合的な実験は、我々のアプローチの優位性を実証している。
我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。
ソースコードはhttps://github.com/crispianm/DaBiTで公開されます。
In many real-world scenarios, recorded videos suffer from accidental focus blur, and while video deblurring methods exist, most specifically target motion blur. This paper introduces a framework optimised for the joint task of focal deblurring (refocusing) and video super-resolution (VSR). The proposed method employs novel map guided transformers, in addition to image propagation, to effectively leverage the continuous spatial variance of focal blur and restore the footage. We also introduce a flow re-focusing module to efficiently align relevant features between the blurry and sharp domains. Additionally, we propose a novel technique for generating synthetic focal blur data, broadening the model's learning capabilities to include a wider array of content. We have made a new benchmark dataset, DAVIS-Blur, available. This dataset, a modified extension of the popular DAVIS video segmentation set, provides realistic out-of-focus blur degradations as well as the corresponding blur maps. Comprehensive experiments on DAVIS-Blur demonstrate the superiority of our approach. We achieve state-of-the-art results with an average PSNR performance over 1.9dB greater than comparable existing video restoration methods. Our source code will be made available at https://github.com/crispianm/DaBiT | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# MIRAI:イベント予測のためのLLMエージェントの評価
MIRAI: Evaluating LLM Agents for Event Forecasting ( http://arxiv.org/abs/2407.01231v1 ) ライセンス: Link先を確認 | Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang, | (参考訳) LLM(Large Language Models)の最近の進歩は、LLMエージェントに世界情報を自律的に収集する権限を与え、複雑な問題を解決するために推論を行う。
この能力を考えると、国際規模の意思決定や政策展開に影響を及ぼす可能性のある国際的事象の予測にLLMエージェントを採用することへの関心が高まっている。
このような関心の高まりにもかかわらず、LLMエージェントの予測能力と信頼性の厳密なベンチマークが欠如している。
このギャップに対処するため、国際イベントの文脈において、LLMエージェントを時間予測器として体系的に評価する新しいベンチマークであるMIRAIを導入する。
本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。
我々は,GDELTイベントデータベースを精査・解析し,様々な予測地平線で一連の関係予測タスクをキュレートし,LLMエージェントの短期的・長期的予測能力を評価する。
さらに、LLMエージェントがコードベースのインターフェイスを介して異なるツールを利用できるようにAPIを実装しています。
まとめると、MIRAIはエージェントの能力を3次元で総合的に評価する。
1) 大規模グローバルデータベースから重要な情報を自律的に提供し,統合すること。
2) ツール使用のためのドメイン固有のAPIとライブラリを使用してコードを書く。
3) 様々な形式や時間から歴史的知識を総合的に判断し, 今後の出来事を正確に予測する。
総合的なベンチマークを通じて,国際的事象の予測におけるLLMエージェントの能力を評価するための信頼性の高い枠組みを確立することを目指しており,国際関係分析のためのより正確で信頼性の高いモデルの開発に寄与する。
Recent advancements in Large Language Models (LLMs) have empowered LLM agents to autonomously collect world information, over which to conduct reasoning to solve complex problems. Given this capability, increasing interests have been put into employing LLM agents for predicting international events, which can influence decision-making and shape policy development on an international scale. Despite such a growing interest, there is a lack of a rigorous benchmark of LLM agents' forecasting capability and reliability. To address this gap, we introduce MIRAI, a novel benchmark designed to systematically evaluate LLM agents as temporal forecasters in the context of international events. Our benchmark features an agentic environment with tools for accessing an extensive database of historical, structured events and textual news articles. We refine the GDELT event database with careful cleaning and parsing to curate a series of relational prediction tasks with varying forecasting horizons, assessing LLM agents' abilities from short-term to long-term forecasting. We further implement APIs to enable LLM agents to utilize different tools via a code-based interface. In summary, MIRAI comprehensively evaluates the agents' capabilities in three dimensions: 1) autonomously source and integrate critical information from large global databases; 2) write codes using domain-specific APIs and libraries for tool-use; and 3) jointly reason over historical knowledge from diverse formats and time to accurately predict future events. Through comprehensive benchmarking, we aim to establish a reliable framework for assessing the capabilities of LLM agents in forecasting international events, thereby contributing to the development of more accurate and trustworthy models for international relation analysis. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# 大規模言語モデルのためのフィンガープリント
A Fingerprint for Large Language Models ( http://arxiv.org/abs/2407.01235v1 ) ライセンス: Link先を確認 | Zhiguang Yang, Hanzhou Wu, | (参考訳) 近年の進歩は、訓練済みの言語モデルをスケールすることで、多くの下流タスクにおける最先端のパフォーマンスが達成され、大規模言語モデル(LLM)が人工知能の分野でホットな研究トピックとなることを示唆している。
しかし, LLMをゼロから訓練することは資源集約的な性質から, LLMの知的財産権の侵害から保護することが急務である。
本論文の著者らは,モデルトレーニングもモデル微調整も必要としない,新たなLCM用ブラックボックスフィンガープリント技術を提案する。
まず LLM の出力が各モデルに付随する一意なベクトル空間にまたがることを示す。
本研究では,被害者モデルの空間と被疑者モデルの出力空間との類似性を評価するタスクとして,所有者認証の問題をモデル化する。
この問題に対処するため、第1の解決策として、疑わしい大モデルの出力が被害者モデルと同じ空間にあるかどうかを検証し、モデル侵害の迅速な識別を可能にし、第2のソリューションでは、LLM出力のためのベクトル空間と被害者モデルとの結合を再構築し、被害者モデルがパラメータ効率の良い細調整(PEFT)攻撃を受けた状況に対処する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
本研究は, LLMの本質的特性を明らかにし, ブラックボックスシナリオにおけるLCMの所有権検証, 効率, 汎用性, 実用性を保証するための有望なソリューションを提供する。
Recent advances show that scaling a pre-trained language model could achieve state-of-the-art performance on many downstream tasks, prompting large language models (LLMs) to become a hot research topic in the field of artificial intelligence. However, due to the resource-intensive nature of training LLMs from scratch, it is urgent and crucial to protect the intellectual property of LLMs against infringement. This has motivated the authors in this paper to propose a novel black-box fingerprinting technique for LLMs, which requires neither model training nor model fine-tuning. We first demonstrate that the outputs of LLMs span a unique vector space associated with each model. We model the problem of ownership authentication as the task of evaluating the similarity between the victim model's space and the output's space of the suspect model. To deal with this problem, we propose two solutions, where the first solution involves verifying whether the outputs of the suspected large model are in the same space as those of the victim model, enabling rapid identification of model infringement, and the second one reconstructs the union of the vector spaces for LLM outputs and the victim model to address situations where the victim model has undergone the Parameter-Efficient Fine-Tuning (PEFT) attacks. Experimental results indicate that the proposed technique achieves superior performance in ownership verification and robustness against PEFT attacks. This work reveals inherent characteristics of LLMs and provides a promising solution for ownership verification of LLMs in black-box scenarios, ensuring efficiency, generality and practicality. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# 大言語モデルは日常生活活動のためのゼロショット認識器である
Large Language Models are Zero-Shot Recognizers for Activities of Daily Living ( http://arxiv.org/abs/2407.01238v1 ) ライセンス: Link先を確認 | Gabriele Civitarese, Michele Fiori, Priyankar Choudhary, Claudio Bettini, | (参考訳) スマートホーム環境における日常生活活動(ADL)のセンサベース認識は、エネルギー管理、安全、幸福、医療の分野におけるいくつかの応用を可能にする。
ADLの認識は通常、大規模なデータセットのトレーニングを必要とするディープラーニング手法に基づいている。
近年,Large Language Models (LLMs) が人間の活動に関する常識的知識を効果的に捉えていることがいくつかの研究で証明されている。
しかし, スマートホーム環境におけるALD認識におけるLCMの有効性は検討すべきである。
本研究では,LLMに基づく新しいADL認識システムであるADL-LLMを提案する。
ADLLLMは、生センサデータをLLMによって処理されたテキスト表現に変換し、ゼロショットADL認識を行う。
さらに、小さなラベル付きデータセットが利用できるシナリオでは、ADL-LLMは、数発のプロンプトで強化することもできる。
ADL-LLMを2つの公開データセットで評価し,その有効性を示した。
The sensor-based recognition of Activities of Daily Living (ADLs) in smart home environments enables several applications in the areas of energy management, safety, well-being, and healthcare. ADLs recognition is typically based on deep learning methods requiring large datasets to be trained. Recently, several studies proved that Large Language Models (LLMs) effectively capture common-sense knowledge about human activities. However, the effectiveness of LLMs for ADLs recognition in smart home environments still deserves to be investigated. In this work, we propose ADL-LLM, a novel LLM-based ADLs recognition system. ADLLLM transforms raw sensor data into textual representations, that are processed by an LLM to perform zero-shot ADLs recognition. Moreover, in the scenario where a small labeled dataset is available, ADL-LLM can also be empowered with few-shot prompting. We evaluated ADL-LLM on two public datasets, showing its effectiveness in this domain. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# SGCCNet:Saliency-Guided Data Augmentation and Confidence Correction Mechanism付き単段3Dオブジェクト検出器
SGCCNet: Single-Stage 3D Object Detector With Saliency-Guided Data Augmentation and Confidence Correction Mechanism ( http://arxiv.org/abs/2407.01239v1 ) ライセンス: Link先を確認 | Ao Liang, Wenyu Chen, Jian Fang, Huaici Zhao, | (参考訳) 単一ステージの点に基づく3Dオブジェクト検出器は、軽量で高速な推論速度の利点から、広く研究の関心を集めている。
しかし、低品質オブジェクト(ILQ)の不十分な学習や、ローカライゼーション精度と分類信頼度(MLC)の相違といった課題に直面している。
本稿では,この2つの問題を緩和するためにSGCCNetを提案する。
ILQでは、SGCCNetはSaliency-Guided Data Augmentation(SGDA)戦略を採用し、Salient機能への依存を減らすことにより、低品質オブジェクトに対するモデルの堅牢性を高める。
具体的には、分類タスクを構築し、その後、微分可能なプロセスで点を点雲セントロイドへ移動させることにより、点の正当性スコアを近似する。
トレーニングプロセスの間、SGCCNetはポイントを落として、低い唾液度の特徴から学ぶことを余儀なくされる。
一方,各ステージに幾何正規化モジュールと接続ブロックをスキップする。
MLCでは、ポイントベースマルチクラス検出器に特化して信頼性補正機構(CCM)を設計する。
このメカニズムは、後処理段階における局所領域内の他のキーポイントの予測を利用して、現在の提案の信頼性を補正する。
KITTIデータセットの大規模な実験は、SGCCNetの汎用性と有効性を示している。
KITTI \textit{test} セットでは、SGCCNet は$AP_{3D}$の計量に対して 80.82\%$ を獲得し、IA-SSD と Fast Point R-CNN をそれぞれ 2.35\%$ と $3.42\%$ で上回り、他の点ベースの検出器より優れている。
さらに、SGCCNetは、他の点ベース検出器に対する優れたポータビリティを示す
The single-stage point-based 3D object detectors have attracted widespread research interest due to their advantages of lightweight and fast inference speed. However, they still face challenges such as inadequate learning of low-quality objects (ILQ) and misalignment between localization accuracy and classification confidence (MLC). In this paper, we propose SGCCNet to alleviate these two issues. For ILQ, SGCCNet adopts a Saliency-Guided Data Augmentation (SGDA) strategy to enhance the robustness of the model on low-quality objects by reducing its reliance on salient features. Specifically, We construct a classification task and then approximate the saliency scores of points by moving points towards the point cloud centroid in a differentiable process. During the training process, SGCCNet will be forced to learn from low saliency features through dropping points. Meanwhile, to avoid internal covariate shift and contextual features forgetting caused by dropping points, we add a geometric normalization module and skip connection block in each stage. For MLC, we design a Confidence Correction Mechanism (CCM) specifically for point-based multi-class detectors. This mechanism corrects the confidence of the current proposal by utilizing the predictions of other key points within the local region in the post-processing stage. Extensive experiments on the KITTI dataset demonstrate the generality and effectiveness of our SGCCNet. On the KITTI \textit{test} set, SGCCNet achieves $80.82\%$ for the metric of $AP_{3D}$ on the \textit{Moderate} level, outperforming all other point-based detectors, surpassing IA-SSD and Fast Point R-CNN by $2.35\%$ and $3.42\%$, respectively. Additionally, SGCCNet demonstrates excellent portability for other point-based detectors | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# CLHOP:馬の3D画像と形状推定のためのオーディオビデオ学習
CLHOP: Combined Audio-Video Learning for Horse 3D Pose and Shape Estimation ( http://arxiv.org/abs/2407.01244v1 ) ライセンス: Link先を確認 | Ci Li, Elin Hernlund, Hedvig Kjellström, Silvia Zuffi, | (参考訳) 単眼では、動物の3Dポーズと形状を予測することは視覚情報にのみ依存する。
本研究は, 単眼映像から3次元形状と運動回復性を高めるために, 音声を用いた検討である。
本研究では,室内トレッドミルの3次元評価用データセットと,多種多様な馬の動きを抽出した屋外データセットの2つのデータセットについて検討した。
その結果,音を視覚データに組み込むことにより,より正確でロバストな動きの回帰が導かれることがわかった。
本研究は,3次元動物の運動回復における音声の役割を初めて研究したものである。
In the monocular setting, predicting 3D pose and shape of animals typically relies solely on visual information, which is highly under-constrained. In this work, we explore using audio to enhance 3D shape and motion recovery of horses from monocular video. We test our approach on two datasets: an indoor treadmill dataset for 3D evaluation and an outdoor dataset capturing diverse horse movements, the latter being a contribution to this study. Our results show that incorporating sound with visual data leads to more accurate and robust motion regression. This study is the first to investigate audio's role in 3D animal motion recovery. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# SINKT:大規模言語モデルを用いた構造認識帰納的知識追跡モデル
SINKT: A Structure-Aware Inductive Knowledge Tracing Model with Large Language Model ( http://arxiv.org/abs/2407.01245v1 ) ライセンス: Link先を確認 | Lingyue Fu, Hao Guan, Kounianhua Du, Jianghao Lin, Wei Xia, Weinan Zhang, Ruiming Tang, Yasheng Wang, Yong Yu, | (参考訳) 知識追跡(KT)は,知的学習システム(ITS)において重要な課題である次の質問に対して,学生が正しく回答するかどうかを判断することを目的としている。
教育的なKTのシナリオでは、トランスダクティブIDベースの手法は、個々の学生と質問の間の相互作用が不十分で、新しい質問や概念がデータベースに一貫して現れる、厳しいデータ空間とコールドスタートの問題に直面することが多い。
さらに、既存のKTモデルは、概念と疑問の間の相関を暗黙的にのみ考慮し、概念と疑問の不均一グラフにおけるより複雑な関係の直接的なモデリングを欠いている。
本稿では,大規模言語モデル(SINKT)を用いた構造認識型帰納的知識追跡モデルを提案する。
まず、SINKTはLLMを用いて概念間の構造的関係を導入し、概念と疑問のための異種グラフを構築する。
第二に、概念と質問をLLMでエンコードすることで、SINKTは意味情報を組み込んで予測を支援する。
最後に、SINKTは、学生の知識状態と質問表現とを相互作用させることで、対象の質問に対する学生の反応を予測する。
4つの実世界のデータセットの実験は、SINKTが既存の12のKTモデルの中で最先端のパフォーマンスを達成することを示した。
さらに、帰納的KTタスクにおけるSINKTの性能について検討し、様々なモジュールに対する洞察を提供する。
Knowledge Tracing (KT) aims to determine whether students will respond correctly to the next question, which is a crucial task in intelligent tutoring systems (ITS). In educational KT scenarios, transductive ID-based methods often face severe data sparsity and cold start problems, where interactions between individual students and questions are sparse, and new questions and concepts consistently arrive in the database. In addition, existing KT models only implicitly consider the correlation between concepts and questions, lacking direct modeling of the more complex relationships in the heterogeneous graph of concepts and questions. In this paper, we propose a Structure-aware Inductive Knowledge Tracing model with large language model (dubbed SINKT), which, for the first time, introduces large language models (LLMs) and realizes inductive knowledge tracing. Firstly, SINKT utilizes LLMs to introduce structural relationships between concepts and constructs a heterogeneous graph for concepts and questions. Secondly, by encoding concepts and questions with LLMs, SINKT incorporates semantic information to aid prediction. Finally, SINKT predicts the student's response to the target question by interacting with the student's knowledge state and the question representation. Experiments on four real-world datasets demonstrate that SINKT achieves state-of-the-art performance among 12 existing transductive KT models. Additionally, we explore the performance of SINKT on the inductive KT task and provide insights into various modules. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# 非線形力学系学習における計量エントロピー限界
Metric-Entropy Limits on Nonlinear Dynamical System Learning ( http://arxiv.org/abs/2407.01250v1 ) ライセンス: Link先を確認 | Yang Pan, Clemens Hutter, Helmut Bölcskei, | (参考訳) 本稿では,入力-出力トレースからの非線形力学系学習の基本的な限界について考察する。
具体的には、リカレントニューラルネットワーク(RNN)は、リプシッツ特性を満たす非線形系を学習し、計量エントロピーの最適方法で過去の入力を十分に早く忘れることができることを示す。
力学系によって実現されるシーケンス・ツー・シーケンス・マップの集合は、ディープニューラルネットワーク近似理論において一般的に考慮される関数類よりもはるかに大きいため、洗練された計量エントロピー特性、すなわち順序、型、一般化次元が必要とされる。
指数退化型および多項式退化型リプシッツファージングメモリのクラスに対してこれらの量を計算することにより、RNNがそれらを実現できることを示す。
This paper is concerned with the fundamental limits of nonlinear dynamical system learning from input-output traces. Specifically, we show that recurrent neural networks (RNNs) are capable of learning nonlinear systems that satisfy a Lipschitz property and forget past inputs fast enough in a metric-entropy optimal manner. As the sets of sequence-to-sequence maps realized by the dynamical systems we consider are significantly more massive than function classes generally considered in deep neural network approximation theory, a refined metric-entropy characterization is needed, namely in terms of order, type, and generalized dimension. We compute these quantities for the classes of exponentially-decaying and polynomially-decaying Lipschitz fading-memory systems and show that RNNs can achieve them. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# QUEEN: モデル抽出に対するクエリアンラーニング
QUEEN: Query Unlearning against Model Extraction ( http://arxiv.org/abs/2407.01251v1 ) ライセンス: Link先を確認 | Huajie Chen, Tianqing Zhu, Lefeng Zhang, Bo Liu, Derui Wang, Wanlei Zhou, Minhui Xue, | (参考訳) モデル抽出攻撃は現在、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となっている。
モデルに小さなデータセットを照会し、クエリ結果を基調ラベルとして使用することにより、敵はオリジナルのモデルに匹敵するパフォーマンスの海賊版モデルを盗むことができる。
脅威の原因となる2つの重要な問題は、一方で、正確で無制限なクエリは、敵によって得ることができ、一方、敵は、クエリ結果を集約して、モデルステップを段階的に訓練することができる。
既存の防衛は、通常、所有権を保護するためにモデルの透かしや指紋を使用する。
しかし、これらの方法は、違反の発生を積極的に防ぐことはできない。
脅威を軽減するため,我々はQUEEN(QUEry unlEarNing)を提案する。
潜在的な脅威を制限するため、QUEENは感度測定を行い、敵が高い性能で海賊モデルを訓練するのを防ぐ摂動を出力する。
感度測定では、QUEENは特徴空間におけるクラスタの中心からの距離によって単一のクエリ感度を測定する。
高いセンシティブなクエリバッチに対して、QUEENはクエリアンラーニングを適用し、このクエリアンラーニングはグラデーションによって実装され、ソフトマックス出力を摂動させ、海賊版モデルが逆勾配を生成し、その性能を無意識的に悪化させる。
実験により,QUEENは,モデル精度に対して比較的低コストで,様々なモデル抽出攻撃に対する最先端の防御性能を上回った。
このアーティファクトはhttps://anonymous.4open.science/r/queen implementation-5408/で公開されている。
Model extraction attacks currently pose a non-negligible threat to the security and privacy of deep learning models. By querying the model with a small dataset and usingthe query results as the ground-truth labels, an adversary can steal a piracy model with performance comparable to the original model. Two key issues that cause the threat are, on the one hand, accurate and unlimited queries can be obtained by the adversary; on the other hand, the adversary can aggregate the query results to train the model step by step. The existing defenses usually employ model watermarking or fingerprinting to protect the ownership. However, these methods cannot proactively prevent the violation from happening. To mitigate the threat, we propose QUEEN (QUEry unlEarNing) that proactively launches counterattacks on potential model extraction attacks from the very beginning. To limit the potential threat, QUEEN has sensitivity measurement and outputs perturbation that prevents the adversary from training a piracy model with high performance. In sensitivity measurement, QUEEN measures the single query sensitivity by its distance from the center of its cluster in the feature space. To reduce the learning accuracy of attacks, for the highly sensitive query batch, QUEEN applies query unlearning, which is implemented by gradient reverse to perturb the softmax output such that the piracy model will generate reverse gradients to worsen its performance unconsciously. Experiments show that QUEEN outperforms the state-of-the-art defenses against various model extraction attacks with a relatively low cost to the model accuracy. The artifact is publicly available at https://anonymous.4open.science/r/queen implementation-5408/. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# uDistil-Whisper:大規模擬似ラベリングによる知識蒸留のためのラベルフリーデータフィルタリング
uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling ( http://arxiv.org/abs/2407.01257v1 ) ライセンス: Link先を確認 | Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed, | (参考訳) 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。
これにより、小型で効率的で専用のモデルが得られる。
しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。
このステップでは、プロセス全体を監督する悪い例を比較、フィルタリングするために、基礎的な真実が必要です。
それに加えて、蒸留プロセスは大量のデータを必要とするため、低リソース環境でモデルを消耗する能力は制限される。
この課題に対処するため、蒸留のための教師なしまたはラベルなしのフレームワークを提案し、ラベル付きデータの要求を完全に排除する。
実験の結果,WERでは,最も蒸留度の高いモデルは教師モデルよりも5~7ポイント優れていた。
さらに、私たちのモデルは、同様の教師付きデータフィルタリング設定と同等かそれ以上です。
データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。
本研究では,大きなWhisperモデルをラベル付きデータを使わずに比較的小さなモデルに蒸留できることを実証する。
その結果, 蒸留モデルでは, 教師モデルと同等以上の性能を維持しつつ, 計算効率とメモリ効率が25~50%向上した。
Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth to compare and filter bad examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distil models in low-resource settings. To address this challenge, we propose an unsupervised or label-free framework for distillation, thus eliminating the requirement for labeled data altogether. Through experimentation, we show that our best distilled models outperform the teacher model by 5-7 points in terms of WER. Additionally, our models are on par with or better than similar supervised data filtering setup. When we scale the data, our models significantly outperform all zero-shot and supervised models. In this work, we demonstrate that it's possible to distill large Whisper models into relatively small models without using any labeled data. As a result, our distilled models are 25-50\% more compute and memory efficient while maintaining performance equal to or better than the teacher model. | 翻訳日:2024-07-03 21:39:54 公開日:2024-07-01 |
# DeepiSign-G:自己完結型トラッキングのためのスタンプ隠れDNNパラメータに対するジェネリックな透かし
DeepiSign-G: Generic Watermark to Stamp Hidden DNN Parameters for Self-contained Tracking ( http://arxiv.org/abs/2407.01260v1 ) ライセンス: Link先を確認 | Alsharif Abuadbba, Nicholas Rhodes, Kristen Moore, Bushra Sabir, Shuo Wang, Yansong Gao, | (参考訳) 自動運転車、顔認識、感情分析といった重要な領域におけるディープラーニングソリューションは、エラーの深刻な結果のために注意が必要である。
研究によると、これらのモデルは、モデルの振る舞いを隠蔽的に操作し、信頼性と安全性を妥協するデータ中毒やニューラルトロイの木馬など、敵対的な攻撃に対して脆弱である。
ウォーターマーキングのような現在の防衛戦略には制限がある。すべてのモデル修正を検出できず、主に画像ドメイン内のCNNに対する攻撃に焦点を当て、RNNのような他の重要なアーキテクチャを無視している。
これらのギャップに対処するために,CNNやRNNを含む主要なDNNアーキテクチャの総合的な検証を目的とした,多目的な透かし手法であるDeepiSign-Gを導入する。
DeepiSign-Gはモデルのパラメータのウォルシュ・ハダマール変換係数に見えない透かしを埋め込むことでモデルのセキュリティを向上させる。
この透かしは感度が高く、壊れやすいため、いかなる修正も迅速に検出できる。
従来のハッシュ技術とは異なり、DeepiSign-Gはモデルに直接メタデータを組み込むことができ、詳細な自己完結型トラッキングと検証を可能にする。
本稿では,CNNモデル(VGG,ResNets,DenseNet)やRNN(テキスト感情分類器)など,さまざまなアーキテクチャにおけるDeepiSign-Gの適用性を示す。
VGG Face, CIFAR10, GTSRB Traffic Sign, Large Movie Reviewの4つの一般的なデータセットを実験した。
また,DeepiSign-Gを5つの攻撃範囲で評価した。
我々は、DeepiSign-GがCNNとRNNモデルのパフォーマンスを損なうことなく、これらの攻撃を効果的に検出し、ディープラーニングアプリケーションに対する堅牢なセキュリティ対策としての有効性を強調した。
整合性破壊の検出は完璧に近いが、ウォルシュ・アダマール係数の約1%にわずかにしか隠れていない。
Deep learning solutions in critical domains like autonomous vehicles, facial recognition, and sentiment analysis require caution due to the severe consequences of errors. Research shows these models are vulnerable to adversarial attacks, such as data poisoning and neural trojaning, which can covertly manipulate model behavior, compromising reliability and safety. Current defense strategies like watermarking have limitations: they fail to detect all model modifications and primarily focus on attacks on CNNs in the image domain, neglecting other critical architectures like RNNs. To address these gaps, we introduce DeepiSign-G, a versatile watermarking approach designed for comprehensive verification of leading DNN architectures, including CNNs and RNNs. DeepiSign-G enhances model security by embedding an invisible watermark within the Walsh-Hadamard transform coefficients of the model's parameters. This watermark is highly sensitive and fragile, ensuring prompt detection of any modifications. Unlike traditional hashing techniques, DeepiSign-G allows substantial metadata incorporation directly within the model, enabling detailed, self-contained tracking and verification. We demonstrate DeepiSign-G's applicability across various architectures, including CNN models (VGG, ResNets, DenseNet) and RNNs (Text sentiment classifier). We experiment with four popular datasets: VGG Face, CIFAR10, GTSRB Traffic Sign, and Large Movie Review. We also evaluate DeepiSign-G under five potential attacks. Our comprehensive evaluation confirms that DeepiSign-G effectively detects these attacks without compromising CNN and RNN model performance, highlighting its efficacy as a robust security measure for deep learning applications. Detection of integrity breaches is nearly perfect, while hiding only a bit in approximately 1% of the Walsh-Hadamard coefficients. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# ETA予測のための深部ネットワークの補完融合と木モデル
Complementary Fusion of Deep Network and Tree Model for ETA Prediction ( http://arxiv.org/abs/2407.01262v1 ) ライセンス: Link先を確認 | YuRui Huang, Jie Zhang, HengDa Bao, Yang Yang, Jian Yang, | (参考訳) 推定到着時刻(ETA)は交通システムにおいて非常に重要な要素である。
関心が高まり、ナビゲーションシステムやインテリジェント交通システムの基本サービスとして広く利用されている。
本稿では,木モデルとニューラルネットワークのアンサンブルであるETA推定問題に対する新しい解を提案する。
我々はA/Bリストにおける解の精度と堅牢性を証明し、最終的にSIGSPATIAL 2021 GISCUPコンテストで優勝した。
Estimated time of arrival (ETA) is a very important factor in the transportation system. It has attracted increasing attentions and has been widely used as a basic service in navigation systems and intelligent transportation systems. In this paper, we propose a novel solution to the ETA estimation problem, which is an ensemble on tree models and neural networks. We proved the accuracy and robustness of the solution on the A/B list and finally won first place in the SIGSPATIAL 2021 GISCUP competition. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# SignCLIP:コントラスト学習によるテキストと手話の接続
SignCLIP: Connecting Text and Sign Language by Contrastive Learning ( http://arxiv.org/abs/2407.01264v1 ) ライセンス: Link先を確認 | Zifan Jiang, Gerard Sant, Amit Moryossef, Mathias Müller, Rico Sennrich, Sarah Ebling, | (参考訳) 本稿では,CLIP(Contrastive Language- Image Pretraining)を再活用したSignCLIPを提案する。
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前学習し、最大44の手話で5万の動画クリップからなる著名な手話辞書を作成し、様々なダウンストリームデータセットで評価する。
SignCLIPは、注目すべきテキスト対ビデオ/ビデオ対テキスト検索精度でドメイン内の署名を識別する。
また、重要な数発のプロンプトや微調整で、独立した手話認識などのドメイン外のダウンストリームタスクに対して競合的に機能する。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
私たちのコードとモデルは公開されています。
We present SignCLIP, which re-purposes CLIP (Contrastive Language-Image Pretraining) to project spoken language text and sign language videos, two classes of natural languages of distinct modalities, into the same space. SignCLIP is an efficient method of learning useful visual representations for sign language processing from large-scale, multilingual video-text pairs, without directly optimizing for a specific task or sign language which is often of limited size. We pretrain SignCLIP on Spreadthesign, a prominent sign language dictionary consisting of ~500 thousand video clips in up to 44 sign languages, and evaluate it with various downstream datasets. SignCLIP discerns in-domain signing with notable text-to-video/video-to-text retrieval accuracy. It also performs competitively for out-of-domain downstream tasks such as isolated sign language recognition upon essential few-shot prompting or fine-tuning. We analyze the latent space formed by the spoken language text and sign language poses, which provides additional linguistic insights. Our code and models are openly available. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# OSL-ActionSpotting:スポーツビデオにおけるアクションスポッティングのための統一ライブラリ
OSL-ActionSpotting: A Unified Library for Action Spotting in Sports Videos ( http://arxiv.org/abs/2407.01265v1 ) ライセンス: Link先を確認 | Yassine Benzakour, Bruno Cabado, Silvio Giancola, Anthony Cioppa, Bernard Ghanem, Marc Van Droogenbroeck, | (参考訳) スポーツ分析においてアクションスポッティングは重要であり、スポーツの試合における重要な瞬間の正確な識別と分類を可能にし、パフォーマンス分析や戦術的意思決定に不可欠な洞察を提供する。
しかし,既存の手法の断片化はスポーツ分析の進歩を阻害し,ビデオ解析のためのアクションスポッティングの開発と展開を支援するために統一されたコードベースが必要である。
本稿では,スポーツビデオ分析における研究と応用の合理化のために,さまざまなアクションスポッティングアルゴリズムを統合するPythonライブラリであるOSL-ActionSpottingを紹介する。
OSL-ActionSpottingは、さまざまな最先端技術を単一のユーザフレンドリなフレームワークにカプセル化し、複数のデータセットにわたるアクションスポッティングと分析のための標準化されたプロセスを提供する。
我々はOSL-ActionSpottingに3つの基盤となるアクションスポッティングメソッドを統合することに成功した。
単一の図書館におけるこの統合は、それぞれの方法の有効性を保ち、スポーツ分析における研究者や実践者のユーザビリティとアクセシビリティを高める。
様々なアクションスポッティング技法のギャップを埋めることによって、OSL-ActionSpottingはスポーツビデオ分析の分野に大きく貢献し、分析能力の向上と共同研究の機会を育む。
ライブラリのスケーラブルでモジュール化された設計は、将来的な技術進歩に対する長期的な関連性と適応性を保証する。
Action spotting is crucial in sports analytics as it enables the precise identification and categorization of pivotal moments in sports matches, providing insights that are essential for performance analysis and tactical decision-making. The fragmentation of existing methodologies, however, impedes the progression of sports analytics, necessitating a unified codebase to support the development and deployment of action spotting for video analysis. In this work, we introduce OSL-ActionSpotting, a Python library that unifies different action spotting algorithms to streamline research and applications in sports video analytics. OSL-ActionSpotting encapsulates various state-of-the-art techniques into a singular, user-friendly framework, offering standardized processes for action spotting and analysis across multiple datasets. We successfully integrated three cornerstone action spotting methods into OSL-ActionSpotting, achieving performance metrics that match those of the original, disparate codebases. This unification within a single library preserves the effectiveness of each method and enhances usability and accessibility for researchers and practitioners in sports analytics. By bridging the gaps between various action spotting techniques, OSL-ActionSpotting significantly contributes to the field of sports video analysis, fostering enhanced analytical capabilities and collaborative research opportunities. The scalable and modularized design of the library ensures its long-term relevance and adaptability to future technological advancements in the domain. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# アフリカの女性はリズムに富み、酸味に富んでいる--無症候性疾患に対するオープンエンドジェネレーションの評価
The African Woman is Rhythmic and Soulful: Evaluation of Open-ended Generation for Implicit Biases ( http://arxiv.org/abs/2407.01270v1 ) ライセンス: Link先を確認 | Serene Lim, | (参考訳) 本研究では,多言語モデル (LLMs) に見られる微妙でしばしば隠蔽される偏見について検討し, 明示的な偏見試験をパスしても, 根底にある偏見を証明していない, 平等主義的信念を公言する人間に類似した暗黙の偏見を示すことができることを示した。
このようなバイアスを測定するという課題は、LSMがよりプロプライエタリになり、従来のバイアス対策を適用する上で不可欠な埋め込みなどの内部メカニズムへのアクセスを制限することで、さらに悪化する。
これらの課題に対処するために, LLM Implicit Association Test (IAT) Bias と LLM Decision Bias という, 心理的方法論に触発されたバイアスの革新的な尺度を導入する。
LLM IAT Biasは、よく知られた心理学的IATをシミュレートすることで暗黙の偏見を発見するために設計されたプロンプトベースの手法である。
LLM決定バイアス尺度(LLM Decision Bias measure)は、意思決定タスクにおける微妙な差別を検出するために開発され、様々なシナリオにおいてLLMが個人をどのように選ぶかに焦点を当てている。
オープンエンド世代は、ワードジェネレーションとストーリーテリングのテーマ分析によっても活用される。
この実験は、差別的分類からエキゾチック化まで、性別と人種領域の偏見を明らかにした。
以上の結果から,暗黙バイアスの迅速測定は,従来の埋込法と相関するだけでなく,LLM決定バイアスによって決定的に測定される下流行動の予測にも有効であることが示唆された。
この関係は、人間の偏見評価に対する心理的洞察を反映し、暗黙の偏見を評価することにおける絶対的な評価よりも、相対的な評価の重要性を強調している。
この研究は、AI倫理のより広範な理解に貢献し、先進的なAIシステムにおけるバイアスを継続的に評価し緩和するための提案を提供する。
This study investigates the subtle and often concealed biases present in Large Language Models (LLMs), which, despite passing explicit bias tests, can still exhibit implicit biases akin to those observed in humans who profess egalitarian beliefs yet demonstrate underlying prejudices. The challenge of measuring such biases is exacerbated as LLMs become increasingly proprietary, restricting access to their internal mechanisms such as embeddings, which are crucial for applying traditional bias measures. To tackle these issues, this study introduces innovative measures of bias inspired by psychological methodologies: the LLM Implicit Association Test (IAT) Bias and the LLM Decision Bias. The LLM IAT Bias is a prompt-based method designed to unearth implicit biases by simulating the well-known psychological IAT but adapted for use with LLMs. The LLM Decision Bias measure is developed to detect subtle discrimination in decision-making tasks, focusing on how LLMs choose between individuals in various scenarios. Open-ended generation is also utilised through thematic analysis of word generations and storytelling. The experiments revealed biases across gender and racial domains, from discriminatory categorisations to exoticisation. Our findings indicate that the prompt-based measure of implicit bias not only correlates with traditional embedding-based methods but also more effectively predicts downstream behaviors, which are crucially measured by the LLM Decision Bias. This relationship underscores the importance of relative, rather than absolute, evaluations in assessing implicit biases, reflecting psychological insights into human bias assessment. This research contributes to the broader understanding of AI ethics and provides suggestions for continually assessing and mitigating biases in advanced AI systems, emphasising the need for more qualitative and downstream focus. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 2023年世界人工知能技術革新コンペティショントラック1号の第一位ソリューション
First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1 ( http://arxiv.org/abs/2407.01271v1 ) ライセンス: Link先を確認 | Xiangyu Wu, Hailiang Zhang, Yang Yang, Jianfeng Lu, | (参考訳) 本稿では,グローバル人工知能技術革新コンペティショントラック1:メディカルイメージング診断レポート生成のためのチャンピオンソリューションを提案する。
我々はテキスト生成タスクのベースモデルとしてCPT-BASEを選択する。
事前学習の段階では、CPT-BASEのマスク言語モデリングタスクを削除し、代わりに語彙を再構築し、スパンマスク戦略を採用し、徐々にマスキング比率を増やして、自動エンコーダ事前訓練タスクを実行する。
微調整の段階では、反復的な検索拡張とノイズ認識類似性バケットのプロンプトを設計する。
検索増強は、ミニ知識ベースを構成し、モデルの入力情報を強化し、類似性バケットは、ミニ知識ベース内のノイズ情報を更に知覚し、類似性プロンプトに基づいて高品質な診断レポートを生成する。
驚いたことに、我々のシングルモデルはリーダーボードAで2.321点を獲得し、複数のモデル融合スコアはそれぞれAとBのリーダーボードで2.362点と2.320点を獲得し、ランキングで1位を確保した。
In this paper, we present our champion solution to the Global Artificial Intelligence Technology Innovation Competition Track 1: Medical Imaging Diagnosis Report Generation. We select CPT-BASE as our base model for the text generation task. During the pre-training stage, we delete the mask language modeling task of CPT-BASE and instead reconstruct the vocabulary, adopting a span mask strategy and gradually increasing the number of masking ratios to perform the denoising auto-encoder pre-training task. In the fine-tuning stage, we design iterative retrieval augmentation and noise-aware similarity bucket prompt strategies. The retrieval augmentation constructs a mini-knowledge base, enriching the input information of the model, while the similarity bucket further perceives the noise information within the mini-knowledge base, guiding the model to generate higher-quality diagnostic reports based on the similarity prompts. Surprisingly, our single model has achieved a score of 2.321 on leaderboard A, and the multiple model fusion scores are 2.362 and 2.320 on the A and B leaderboards respectively, securing first place in the rankings. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 粒子数測定法で得られた状態の集合の推定
Estimation of the set of states obtained in particle number measurement schemes ( http://arxiv.org/abs/2407.01273v1 ) ライセンス: Link先を確認 | S. B. Korolev, E. N. Bashmakova, T. Yu. Golubeva, | (参考訳) 本研究では,2モードの絡み合ったガウス状態の1つのモードにおける粒子数を測定することで生成する非ガウス状態の集合について検討した。
あるパラメータはガウス的特性に、他のパラメータは非ガウス的特性に、あるパラメータは非ガウス的特性に、という2つのタイプのパラメータに依存することが実証された。
生成した全ての状態の中で、生成確率と非ガウス性の大きさから最適に生成された状態を特定した。
The paper investigated a set of non-Gaussian states generated by measuring the number of particles in one of the modes of a two-mode entangled Gaussian state. It was demonstrated that all generated states depend on two types of parameters: some parameters are responsible for Gaussian characteristics, while other parameters are responsible for non-Gaussian characteristics. Among all generated states, we identified those optimally generated in terms of the generation probability and the magnitude of non-Gaussianity. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 光GBMと軌道制約を用いた空中赤外線検出システムの小型空中目標検出
Small Aerial Target Detection for Airborne Infrared Detection Systems using LightGBM and Trajectory Constraints ( http://arxiv.org/abs/2407.01278v1 ) ライセンス: Link先を確認 | Xiaoliang Sun, Liangchao Guo, Wenlong Zhang, Zi Wang, Qifeng Yu, | (参考訳) 急激な相対運動、乱れの背景などの要因は、空中赤外線検知システムに対する頑健な小さな目標検出を困難にしている。
このような場合、既存の手法では困難に直面している。
連続的かつ滑らかな軌道は、小型の赤外線目標検出性能を高める上で重要であると考えられる。
光勾配促進モデル(LightGBM)と軌道制約を用いた空中赤外線検出システムの簡易かつ効果的な小型目標検出法を提案する。
まず、ターゲット候補検出を二項分類問題として単純に定式化する。
各フレームのターゲット候補は、興味深い画素検出と訓練されたLightGBMモデルによって検出される。
そして, 対象軌道の局所的滑らかさと大域的連続特性を, 短絡および長ルース制約としてモデル化する。
軌道制約は、多数のターゲット候補から真に小さな赤外線標的を検出するために効率的に使用される。
公開データセットの実験では,提案手法は他の既存手法よりも優れた性能を示した。
さらに、航空機搭載赤外線検知システムにおける小型空中目標検出のためのパブリックデータセットを構築した。
私たちの知る限りでは、このデータセットはこの分野で最大のデータスケールとリッチなシーンタイプを持っています。
Factors, such as rapid relative motion, clutter background, etc., make robust small aerial target detection for airborne infrared detection systems a challenge. Existing methods are facing difficulties when dealing with such cases. We consider that a continuous and smooth trajectory is critical in boosting small infrared aerial target detection performance. A simple and effective small aerial target detection method for airborne infrared detection system using light gradient boosting model (LightGBM) and trajectory constraints is proposed in this article. First, we simply formulate target candidate detection as a binary classification problem. Target candidates in every individual frame are detected via interesting pixel detection and a trained LightGBM model. Then, the local smoothness and global continuous characteristic of the target trajectory are modeled as short-strict and long-loose constraints. The trajectory constraints are used efficiently for detecting the true small infrared aerial targets from numerous target candidates. Experiments on public datasets demonstrate that the proposed method performs better than other existing methods. Furthermore, a public dataset for small aerial target detection in airborne infrared detection systems is constructed. To the best of our knowledge, this dataset has the largest data scale and richest scene types within this field. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 2022年イタリア総選挙のTwitter談話で隠れたスウィング投票者を見つけた
Finding Hidden Swing Voters in the 2022 Italian Elections Twitter Discourse ( http://arxiv.org/abs/2407.01279v1 ) ライセンス: Link先を確認 | Alessia Antelmi, Lucio La Cava, Arianna Pera, | (参考訳) ソーシャルメディアプラットフォームのグローバルな普及は、政治コミュニケーションを変革し、現代の政治談話を理解する上で、政治家と有権者の間のオンライン交流の研究が不可欠になった。
本研究では,2022年のイタリア総選挙におけるTwitter上での政治メッセージと有権者行動の動態について検討する。
具体的には、時間とともに政治的嗜好を変更した有権者(投票者)に焦点を当て、移住の顕著なパターンとプロパガンダメッセージに対する感受性を特定した。
分析の結果,選挙期間中に政治家の人気が高まり,疑わしい言語,積載言語,価値観へのアピール,スローガンなど,説得力のある言語技術の使用に顕著な違いがあることが判明した。
スウィング有権者は、様々な種類の政治的シフトの脆弱性パターンの違いがある非スウィング有権者に比べて、これらのプロパガンダ技術に弱い。
これらの知見は、イタリアの政治的意見に対するソーシャルメディアの影響を浮き彫りにしている。
The global proliferation of social media platforms has transformed political communication, making the study of online interactions between politicians and voters crucial for understanding contemporary political discourse. In this work, we examine the dynamics of political messaging and voter behavior on Twitter during the 2022 Italian general elections. Specifically, we focus on voters who changed their political preferences over time (swing voters), identifying significant patterns of migration and susceptibility to propaganda messages. Our analysis reveals that during election periods, the popularity of politicians increases, and there is a notable variation in the use of persuasive language techniques, including doubt, loaded language, appeals to values, and slogans. Swing voters are more vulnerable to these propaganda techniques compared to non-swing voters, with differences in vulnerability patterns across various types of political shifts. These findings highlight the nuanced impact of social media on political opinion in Italy. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 感情・言語相互作用と差分学習による人間-ロボットの相互学習 [Pre-Print]
Human-Robot Mutual Learning through Affective-Linguistic Interaction and Differential Outcomes Training [Pre-Print] ( http://arxiv.org/abs/2407.01280v1 ) ライセンス: Link先を確認 | Emilia Heikkinen, Elsa Silvennoinen, Imran Khan, Zakaria Lemhaouri, Laura Cohen, Lola Cañamero, Robert Lowe, | (参考訳) 近年のLarge Language Modelsの成功により、Modern A.Iは人間との言語的相互作用に重点を置いてきたが、人間と機械間の非言語的なコミュニケーションには重点を置いていない。
本稿では,人間ロボットの文脈において,感情言語コミュニケーションと差分学習が相互学習に与える影響を検証した。
私たちの人間とロボットのインタラクションの仕組みは、子どもと介護者のダイナミクスからインスピレーションを得て、内部的、起立的に制御されたニーズのコミュニケーション方法を学ぶための(シミュレーションされた)ロボットで構成されています。
私たちはその効果を研究した
一 人間の訓練の種類、及び
二 ロボット強化学習型であって、相互学習端末の精度及び学習率(ロボットが達成した平均報酬によって測定されたもの)を評価すること。
その結果、人間とロボットの相互学習は、非DOT(制御)条件と比較して、微分アウトカムトレーニング(DOT)により著しく改善されていることがわかった。
純粋に活用された政策選択と比較して,ロボットが探索探索ポリシー選択を使用する場合,さらなる改善が期待できる。
これらの知見は、社会支援ロボット(SAR)を治療的文脈、例えば認知的介入に活用すること、教育的応用に影響を及ぼす。
Owing to the recent success of Large Language Models, Modern A.I has been much focused on linguistic interactions with humans but less focused on non-linguistic forms of communication between man and machine. In the present paper, we test how affective-linguistic communication, in combination with differential outcomes training, affects mutual learning in a human-robot context. Taking inspiration from child-caregiver dynamics, our human-robot interaction setup consists of a (simulated) robot attempting to learn how best to communicate internal, homeostatically-controlled needs; while a human "caregiver" attempts to learn the correct object to satisfy the robot's present communicated need. We studied the effects of i) human training type, and ii) robot reinforcement learning type, to assess mutual learning terminal accuracy and rate of learning (as measured by the average reward achieved by the robot). Our results find mutual learning between a human and a robot is significantly improved with Differential Outcomes Training (DOT) compared to Non-DOT (control) conditions. We find further improvements when the robot uses an exploration-exploitation policy selection, compared to purely exploitation policy selection. These findings have implications for utilizing socially assistive robots (SAR) in therapeutic contexts, e.g. for cognitive interventions, and educational applications. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# ブリジング・スムースネスと近似:グラフニューラルネットワークにおけるオーバー・スムース化の理論的考察
Bridging Smoothness and Approximation: Theoretical Insights into Over-Smoothing in Graph Neural Networks ( http://arxiv.org/abs/2407.01281v1 ) ライセンス: Link先を確認 | Guangrui Yang, Jianfei Li, Ming Li, Han Feng, Ding-Xuan Zhou, | (参考訳) 本稿では,グラフ上で定義される関数の近似理論について検討する。
本研究は,K$関数の近似結果に基づく。
我々は,グラフ畳み込みネットワーク(GCN)を用いて,対象関数に対する下界の近似を評価するための理論的枠組みを確立し,これらのネットワークでよく見られる過度に平滑な現象について検討する。
当初、グラフ上の$K$-函数の概念を導入し、滑らかさのモジュラリティに同値性を確立する。
次に、典型的なGCNを分析し、出力の高周波エネルギーがどのように減衰するかを示す。
この分析はGCN内の過剰な平滑化の性質に関する理論的洞察を与える。
さらに、これらの関数の滑らかさのモジュラリティによって支配されるGCNによる対象関数の近似の下位境界を確立する。
この発見はGCNの近似能力に関する新たな視点を提供する。
数値実験では, 広範囲に応用されたGCNを解析し, エネルギー減衰現象を観察した。
これらの観測は、指数的崩壊次数の理論結果を裏付ける。
In this paper, we explore the approximation theory of functions defined on graphs. Our study builds upon the approximation results derived from the $K$-functional. We establish a theoretical framework to assess the lower bounds of approximation for target functions using Graph Convolutional Networks (GCNs) and examine the over-smoothing phenomenon commonly observed in these networks. Initially, we introduce the concept of a $K$-functional on graphs, establishing its equivalence to the modulus of smoothness. We then analyze a typical type of GCN to demonstrate how the high-frequency energy of the output decays, an indicator of over-smoothing. This analysis provides theoretical insights into the nature of over-smoothing within GCNs. Furthermore, we establish a lower bound for the approximation of target functions by GCNs, which is governed by the modulus of smoothness of these functions. This finding offers a new perspective on the approximation capabilities of GCNs. In our numerical experiments, we analyze several widely applied GCNs and observe the phenomenon of energy decay. These observations corroborate our theoretical results on exponential decay order. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 死後のデータ: オーストラリア人のユーザーの嗜好と、過去のユーザーデータを保護するための将来の解決策
Data After Death: Australian User Preferences and Future Solutions to Protect Posthumous User Data ( http://arxiv.org/abs/2407.01282v1 ) ライセンス: Link先を確認 | Andrew Reeves, Arash Shaghaghi, Shiri Krebs, Debi Ashenden, | (参考訳) 今日のインターネットで活動する個人のデジタルフットプリントは、彼らの生活の証であり、一度合格すればデジタル正当性になる可能性がある。
遺族の子孫は、遺族を亡くして以来の生涯についての先例のない知見を大いに高く評価するが、これは現在、データ保存と死後の引き渡しのプロセスがある場合に限られる。
多くの著名なオンラインプラットフォームは、死後のデータ処理に関する誤ったあるいは完全に欠落したポリシーを提供しており、近年の進歩にもかかわらず、平均的なオーストラリア人が死後にそのデータを管理したいのか(ソーシャルメディアプラットフォーム、信頼できる個人、または他のデジタルエグゼクティブ)は、現時点では不明である。
現在、故人アカウントの管理はプラットフォーム(例えばFacebook)によって行われているが、多くのオーストラリア人はそのようなプラットフォームを信頼していないと考えられる。
本研究は、死後のデータ管理に関するオーストラリア国民の嗜好を深く掘り下げることで、死後のデータに関する学術的な会話をさらに深め、究極的には研究プログラムや産業ソリューションの今後の発展を知らせることを目的としている。
1020人のオーストラリア人を対象に行った調査によると、ほとんどの人は死後のデータ管理のレベルを望んでいました。
オーストラリア人は、自分のデータを信頼できる個人またはサードパーティのソフトウェアに委ねることを好む。
予想通り、ソーシャルメディア企業は、死後のデータ管理の信頼性と利便性に関して低いランクを付けた。
将来の研究は、これらの好みを実現するためのサードパーティのソリューションを概念化し、開発することである。
このようなソリューションは、故人の意志に対処するために、主要なオンラインベンダー(ソーシャルメディア、クラウドホスティングなど)とインターフェースする可能性がある。
The digital footprints of today's internet-active individuals are a testament to their lives, and have the potential to become digital legacies once they pass on. Future descendants of those alive today will greatly appreciate the unprecedented insight into the lives of their long since deceased ancestors, but this can only occur if today we have a process for data preservation and handover after death. Many prominent online platforms offer nebulous or altogether absent policies regarding posthumous data handling, and despite recent advances it is currently unclear who the average Australian would like their data to be managed after their death (i.e., social media platforms, a trusted individual, or another digital executor). While at present the management of deceased accounts is largely performed by the platform (e.g., Facebook), it is conceivable that many Australians may not trust such platforms to do so with integrity. This study aims to further the academic conversation around posthumous data by delving deeper into the preferences of the Australian Public regarding the management of their data after death, ultimately to inform future development of research programs and industry solutions. A survey of 1020 Australians revealed that most desired a level of control over how their data is managed after death. Australians currently prefer to entrust the management of their data to a trusted close individual or third party software that they can administrate themselves. As expected, social media companies ranked low regarding both trust and convenience to manage data after death. Future research focus should be to conceptualise and develop a third-party solution that enables these preferences to be realised. Such a solution could interface with the major online vendors (social media, cloud hosting etc.) to action the deceased's will. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# 間欠的モデルトレーニングによる省エネ型分散学習
Energy-Aware Decentralized Learning with Intermittent Model Training ( http://arxiv.org/abs/2407.01283v1 ) ライセンス: Link先を確認 | Akash Dhasade, Paolo Dini, Elia Guerra, Anne-Marie Kermarrec, Marco Miozzo, Rafael Pires, Rishi Sharma, Martijn de Vos, | (参考訳) 分散学習(DL)は、ノードが生データを共有せず、中央サーバーの調整もせずにモデルを協調的に訓練する強力なフレームワークを提供する。
DLの反復ラウンドでは、モデルは局所的に訓練され、トポロジーにおいて隣人と共有され、隣人から受け取った他のモデルと集約される。
モデルの共有とマージは、トレーニング時に取得した集合データをより一般化するコンセンサスモデルへの収束に寄与する。
また, モデルパラメータの共有およびマージ時のエネルギー消費は, トレーニング期間中のエネルギー使用量と比較して無視できる。
この事実を生かして、いくつかの訓練ラウンドを戦略的にスキップし、同期ラウンドで置き換えることで、分散学習におけるエネルギー消費を最小限に抑える新しいDLアルゴリズムであるSkipTrainを提案する。
これらのトレーニングのサイレントな期間は、省エネに加えて、各ラウンドでトレーニングする典型的なDLアルゴリズムよりも優れた精度でモデルをミックスし、最終的にモデルを作ることができる。
256ノードを用いた実験により,従来のDLアルゴリズムであるD-PSGDと比較して,SkipTrainはエネルギー消費量を50%削減し,モデル精度を最大12%向上することを示した。
Decentralized learning (DL) offers a powerful framework where nodes collaboratively train models without sharing raw data and without the coordination of a central server. In the iterative rounds of DL, models are trained locally, shared with neighbors in the topology, and aggregated with other models received from neighbors. Sharing and merging models contribute to convergence towards a consensus model that generalizes better across the collective data captured at training time. In addition, the energy consumption while sharing and merging model parameters is negligible compared to the energy spent during the training phase. Leveraging this fact, we present SkipTrain, a novel DL algorithm, which minimizes energy consumption in decentralized learning by strategically skipping some training rounds and substituting them with synchronization rounds. These training-silent periods, besides saving energy, also allow models to better mix and finally produce models with superior accuracy than typical DL algorithms that train at every round. Our empirical evaluations with 256 nodes demonstrate that SkipTrain reduces energy consumption by 50% and increases model accuracy by up to 12% compared to D-PSGD, the conventional DL algorithm. | 翻訳日:2024-07-03 21:30:10 公開日:2024-07-01 |
# We-Math:大きなマルチモーダルモデルは人間のような数学的推論を実現するか?
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? ( http://arxiv.org/abs/2407.01284v1 ) ライセンス: Link先を確認 | Runqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang, | (参考訳) 視覚数学的推論は、基本的な視覚的推論能力として、LMM(Large Multimodal Models)コミュニティから広く注目を集めている。
MathVistaやMathVerseといった既存のベンチマークは、結果指向のパフォーマンスに重点を置いているが、知識獲得と一般化の根底にある原則を無視している。
人間のような数学的推論にインスパイアされたWE-MATHは、エンド・ツー・エンドのパフォーマンスを超えた問題解決の原則を探求するために設計された最初のベンチマークである。
我々は67の階層的な知識概念と5層の知識の粒度にまたがる6.5Kの視覚数学の問題を慎重に収集・分類する。
合成問題を,必要な知識概念に従ってサブプロブレムに分解し,LMMの推論過程に固有の問題を階層的に評価するために,不十分な知識(IK),不適切な一般化(IG),完全熟達(CM),ロット記憶(RM)という新しい4次元計量を導入する。
WE-MATHを用いて、視覚数学的推論において既存のLMMを徹底的に評価し、解法ステップと問題固有の性能との負の相関を明らかにする。
我々は,LMMのIK問題は知識増強戦略によって効果的に改善できることを確認した。
さらに、GPT-4oの最大の課題はIKからIGに大きく移行し、知識一般化段階に向けた最初のLMMとして確立された。
対照的に、他のLMMはロート記憶への顕著な傾きを示しており、複数の知識概念を含む複合的な問題を正しく解き、サブプロブレムに答えることができない。
我々はWE-MATHがLMMの視覚数学的推論の進歩のために新たな経路を開くことを期待する。
WE-MATHデータと評価コードはhttps://github.com/We-Math/We-Mathで公開されている。
Visual mathematical reasoning, as a fundamental visual reasoning ability, has received widespread attention from the Large Multimodal Models (LMMs) community. Existing benchmarks, such as MathVista and MathVerse, focus more on the result-oriented performance but neglect the underlying principles in knowledge acquisition and generalization. Inspired by human-like mathematical reasoning, we introduce WE-MATH, the first benchmark specifically designed to explore the problem-solving principles beyond end-to-end performance. We meticulously collect and categorize 6.5K visual math problems, spanning 67 hierarchical knowledge concepts and five layers of knowledge granularity. We decompose composite problems into sub-problems according to the required knowledge concepts and introduce a novel four-dimensional metric, namely Insufficient Knowledge (IK), Inadequate Generalization (IG), Complete Mastery (CM), and Rote Memorization (RM), to hierarchically assess inherent issues in LMMs' reasoning process. With WE-MATH, we conduct a thorough evaluation of existing LMMs in visual mathematical reasoning and reveal a negative correlation between solving steps and problem-specific performance. We confirm the IK issue of LMMs can be effectively improved via knowledge augmentation strategies. More notably, the primary challenge of GPT-4o has significantly transitioned from IK to IG, establishing it as the first LMM advancing towards the knowledge generalization stage. In contrast, other LMMs exhibit a marked inclination towards Rote Memorization - they correctly solve composite problems involving multiple knowledge concepts yet fail to answer sub-problems. We anticipate that WE-MATH will open new pathways for advancements in visual mathematical reasoning for LMMs. The WE-MATH data and evaluation code are available at https://github.com/We-Math/We-Math. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# Hypformer: 双曲空間における効率の良い双曲変換器の探索
Hypformer: Exploring Efficient Hyperbolic Transformer Fully in Hyperbolic Space ( http://arxiv.org/abs/2407.01290v1 ) ライセンス: Link先を確認 | Menglin Yang, Harshit Verma, Delvin Ce Zhang, Jiahong Liu, Irwin King, Rex Ying, | (参考訳) 双曲幾何学は複雑な構造化データ、特に木のような下層構造と階層構造を持つデータをモデル化する上で大きな可能性を示している。
多くの領域にわたる様々な双曲型ニューラルネットワークの性能にもかかわらず、トランスフォーマーを双曲型空間に適応させる研究は依然として限られている。
以前の試みは主にTransformerの自己アテンションモジュールの変更に重点を置いていた。
しかし、これらの取り組みは完全な双曲トランスの開発には至っていない。
主な由来は以下の通り。
i) 双曲空間において、線形変換層、LayerNorm層、アクティベーション関数、ドロップアウト操作など、明確に定義されたモジュールが存在しないこと。
(ii) 既存の双曲自己保持モジュールの2次時間複雑性は入力トークンの数に比例し、その拡張性を妨げている。
これらの課題に対処するために、双曲幾何学のローレンツモデルに基づく新しい双曲変換器であるHypformerを提案する。
Hypformerでは、双曲空間におけるTransformerの本質的加群を定義する2つの基本ブロックを導入する。
さらに、双曲空間における線形自己保持機構を開発し、双曲変換器が10億のグラフデータと時系列入力を初めて処理できるようにする。
実験により,Hypformerの有効性と有効性を確認し,大規模データ表現や大規模モデルにおいて,効果的かつスケーラブルなソリューションとしての可能性を示した。
Hyperbolic geometry have shown significant potential in modeling complex structured data, particularly those with underlying tree-like and hierarchical structures. Despite the impressive performance of various hyperbolic neural networks across numerous domains, research on adapting the Transformer to hyperbolic space remains limited. Previous attempts have mainly focused on modifying self-attention modules in the Transformer. However, these efforts have fallen short of developing a complete hyperbolic Transformer. This stems primarily from: (i) the absence of well-defined modules in hyperbolic space, including linear transformation layers, LayerNorm layers, activation functions, dropout operations, etc. (ii) the quadratic time complexity of the existing hyperbolic self-attention module w.r.t the number of input tokens, which hinders its scalability. To address these challenges, we propose, Hypformer, a novel hyperbolic Transformer based on the Lorentz model of hyperbolic geometry. In Hypformer, we introduce two foundational blocks that define the essential modules of the Transformer in hyperbolic space. Furthermore, we develop a linear self-attention mechanism in hyperbolic space, enabling hyperbolic Transformer to process billion-scale graph data and long-sequence inputs for the first time. Our experimental results confirm the effectiveness and efficiency of Hypformer across various datasets, demonstrating its potential as an effective and scalable solution for large-scale data representation and large models. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 適応器を混合した軽量ゼロショットテキスト音声合成
Lightweight Zero-shot Text-to-Speech with Mixture of Adapters ( http://arxiv.org/abs/2407.01291v1 ) ライセンス: Link先を確認 | Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima, | (参考訳) 大規模モデルに基づくゼロショット音声合成法(TTS)の進歩は,話者特性の再現において高い忠実性を示した。
しかし、これらのモデルは日常的に使うには大きすぎる。
アダプタの混合(MoA)を用いた軽量ゼロショットTS法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
これらのモジュールは、話者埋め込みに基づいて、話者特性に付随する適切なアダプタを選択することにより、様々な話者をゼロショットで適応させる能力を高める。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
主観的および主観的評価により,提案手法は推定速度1.9倍のパラメータの40倍未満で,ベースラインよりも優れた性能が得られることを確認した。
オーディオサンプルはデモページで公開されています(https://ntt-hilab-gensp.github.io/is2024lightweightTTS/)。
The advancements in zero-shot text-to-speech (TTS) methods, based on large-scale models, have demonstrated high fidelity in reproducing speaker characteristics. However, these models are too large for practical daily use. We propose a lightweight zero-shot TTS method using a mixture of adapters (MoA). Our proposed method incorporates MoA modules into the decoder and the variance adapter of a non-autoregressive TTS model. These modules enhance the ability to adapt a wide variety of speakers in a zero-shot manner by selecting appropriate adapters associated with speaker characteristics on the basis of speaker embeddings. Our method achieves high-quality speech synthesis with minimal additional parameters. Through objective and subjective evaluations, we confirmed that our method achieves better performance than the baseline with less than 40\% of parameters at 1.9 times faster inference speed. Audio samples are available on our demo page (https://ntt-hilab-gensp.github.io/is2024lightweightTTS/). | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# AI、アルゴリズム、自動化の協調的、人間中心の分類法
A Collaborative, Human-Centred Taxonomy of AI, Algorithmic, and Automation Harms ( http://arxiv.org/abs/2407.01294v1 ) ライセンス: Link先を確認 | Gavin Abercrombie, Djalel Benbouzid, Paolo Giudici, Delaram Golpayegani, Julio Hernandez, Pierre Noro, Harshvardhan Pandit, Eva Paraschou, Charlie Pownall, Jyoti Prajapati, Mark A. Sayre, Ushnish Sengupta, Arthit Suriyawongful, Ruby Thelot, Sofia Vei, Laura Waltersdorfer, | (参考訳) 本稿では、AI、アルゴリズム、自動化の有害性について、協調的、人間中心の分類について紹介する。
我々は、既存の分類学は価値はあるものの、狭く、不明瞭であり、通常は実践者や政府にとって必要であり、しばしば一般大衆のニーズを見落としていると論じている。
既存の分類学と文書化されたインシデントの大きなリポジトリを参考に,幅広いオーディエンスに対して明確かつ理解可能な分類法を提案し,柔軟性,拡張性,相互運用性を示した。
トピックの専門家による反復的な改善とクラウドソースによるアノテーションテストを通じて,我々は市民社会の組織,教育者,政策立案者,製品チーム,一般大衆の強力なツールとして機能する分類法を提案する。
AIとその関連技術の現実世界の害に対する理解を深めることにより、私たちは理解を高め、NGOや個人に違反を特定し報告させ、政策に関する議論を伝え、責任ある技術開発とデプロイメントを促進することを目指しています。
This paper introduces a collaborative, human-centered taxonomy of AI, algorithmic and automation harms. We argue that existing taxonomies, while valuable, can be narrow, unclear, typically cater to practitioners and government, and often overlook the needs of the wider public. Drawing on existing taxonomies and a large repository of documented incidents, we propose a taxonomy that is clear and understandable to a broad set of audiences, as well as being flexible, extensible, and interoperable. Through iterative refinement with topic experts and crowdsourced annotation testing, we propose a taxonomy that can serve as a powerful tool for civil society organisations, educators, policymakers, product teams and the general public. By fostering a greater understanding of the real-world harms of AI and related technologies, we aim to increase understanding, empower NGOs and individuals to identify and report violations, inform policy discussions, and encourage responsible technology development and deployment. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 物体検出の形式的検証
Formal Verification of Object Detection ( http://arxiv.org/abs/2407.01295v1 ) ライセンス: Link先を確認 | Avraham Raviv, Yizhak Y. Elboher, Michelle Aluf-Medina, Yael Leibovich Weiss, Omer Cohen, Roy Assa, Guy Katz, Hillel Kugler, | (参考訳) Deep Neural Networks(DNN)は、現実世界のアプリケーションではユビキタスだが、エラーや敵攻撃に対して脆弱である。
この研究は、コンピュータビジョンモデルの安全性を確保するために正式な検証を適用するという課題に取り組み、画像分類を超えてオブジェクト検出まで検証を拡張した。
本稿では,オブジェクト検出モデルのロバスト性を形式的検証を用いて証明するための一般的な定式化と,最先端の検証ツールと互換性のある実装戦略の概要を提案する。
本手法により,分類モデルの検証を目的としたこれらのツールのオブジェクト検出への応用が可能となった。
対象検出のための様々な攻撃を定義し、敵入力がニューラルネットワークの出力を損なう様々な方法を説明する。
いくつかの共通データセットやネットワーク上で実施した実験では、オブジェクト検出モデルにおける潜在的なエラーを明らかにし、システムの脆弱性を強調し、これらの新しいドメインに形式的検証を拡張する必要性を強調した。
この研究は、幅広いコンピュータビジョンアプリケーションにまたがって形式的検証を統合するためのさらなる研究の道を開く。
Deep Neural Networks (DNNs) are ubiquitous in real-world applications, yet they remain vulnerable to errors and adversarial attacks. This work tackles the challenge of applying formal verification to ensure the safety of computer vision models, extending verification beyond image classification to object detection. We propose a general formulation for certifying the robustness of object detection models using formal verification and outline implementation strategies compatible with state-of-the-art verification tools. Our approach enables the application of these tools, originally designed for verifying classification models, to object detection. We define various attacks for object detection, illustrating the diverse ways adversarial inputs can compromise neural network outputs. Our experiments, conducted on several common datasets and networks, reveal potential errors in object detection models, highlighting system vulnerabilities and emphasizing the need for expanding formal verification to these new domains. This work paves the way for further research in integrating formal verification across a broader range of computer vision applications. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 任意の次元における非エルミート皮膚効果:非ブロックバンド理論と分類
Non-Hermitian skin effect in arbitrary dimensions: non-Bloch band theory and classification ( http://arxiv.org/abs/2407.01296v1 ) ライセンス: Link先を確認 | Yuncheng Xiong, Ze-Yu Xing, Haiping Hu, | (参考訳) 非エルミート皮膚効果(Non-Hermitian skin effect, NHSE)は、非エルミート系において特徴的な現象であり、系の境界における固有状態の顕著な蓄積が特徴である。
非ブロックバンド理論によって一次元でよく理解されているが、NHSEを高次元に展開することは、開境界条件や格子幾何学の多様性と避けられない数値誤差のために、深刻な課題に直面している。
高次元の非ブロッホバンド理論、幾何学的依存性、スペクトル収束と安定性、NHSEの完全な分類など、主要な問題はいまだ解明されていない。
本研究では、スペクトルポテンシャルのレンズを通して、幾何適応非ブロックバンド理論を任意の次元で提示することにより、これらの課題に対処する。
我々の定式化は、熱力学極限(TDL)における所定の幾何に対して、エネルギースペクトル、状態密度、一般化されたブリルアンゾーンを正確に決定し、それらの幾何学的依存関係を明らかにする。
さらに,網巻数を用いて,NHSEを臨界型と非相互型に分類する。
批判的なケースでは,境界線上に存在する新規なスケールフリースキンモードを同定する。
非相互の場合、皮膚モードは正常または異常コーナーモード、境界モード、スケールフリーモードなど様々な形態で現れる。
スケールフリーモードの存在下での非ブロッホスペクトルの非収束性と不安定性を明らかにし、それはゼロ摂動限界とTDLの非交換性に起因する。
不安定性は、臨界の場合、エネルギースペクトルをアメーバスペクトルに向ける。
本研究は, TDLにおけるエネルギースペクトル, 状態密度, 一般化ブリルアンゾーンを制御し, 任意の次元におけるNHSEの包括的理解を提供する。
Non-Hermitian skin effect (NHSE) is a distinctive phenomenon in non-Hermitian systems, characterized by a significant accumulation of eigenstates at system boundaries. While well-understood in one dimension via non-Bloch band theory, unraveling the NHSE in higher dimensions faces formidable challenges due to the diversity of open boundary conditions or lattice geometries and inevitable numerical errors. Key issues, including higher-dimensional non-Bloch band theory, geometric dependency, spectral convergence and stability, and a complete classification of NHSE, remain elusive. In this work, we address these challenges by presenting a geometry-adaptive non-Bloch band theory in arbitrary dimensions, through the lens of spectral potential. Our formulation accurately determines the energy spectra, density of states, and generalized Brillouin zone for a given geometry in the thermodynamic limit (TDL), revealing their geometric dependencies. Furthermore, we systematically classify the NHSE into critical and non-reciprocal types using net winding numbers. In the critical case, we identify novel scale-free skin modes residing on the boundary. In the nonreciprocal case, the skin modes manifest in various forms, including normal or anomalous corner modes, boundary modes or scale-free modes. We reveal the non-convergence and instability of the non-Bloch spectra in the presence of scale-free modes and attribute it to the non-exchangeability of the zero-perturbation limit and the TDL. The instability drives the energy spectra towards the Amoeba spectra in the critical case. Our findings provide a unified non-Bloch band theory governing the energy spectra, density of states, and generalized Brillouin zone in the TDL, offering a comprehensive understanding of NHSE in arbitrary dimensions. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 大規模言語モデルの協調的性能予測
Collaborative Performance Prediction for Large Language Models ( http://arxiv.org/abs/2407.01300v1 ) ライセンス: Link先を確認 | Qiyuan Zhang, Fuyuan Lyu, Xue Liu, Chen Ma, | (参考訳) 様々な下流タスクにおける大規模言語モデルの性能を包括的に理解し、正確に予測することは、NLP研究において重要な課題となっている。
下流工事におけるスケーリング法則の先駆者は、モデルファミリー内で固有の類似性を証明し、そのような類似性を性能予測に利用した。
しかし、モデルファミリ間の類似性を見落とし、元のスケーリング法則に記載された設計要素のみを考慮する傾向にある。
これらの制約を克服するために、下流タスクにおける様々なモデルの過去の性能と、モデルとタスクの両方の設計要素を活用することにより、予測精度を大幅に向上する新しいフレームワーク、CPP(Collaborative Performance Prediction)を導入する。
また、過去のパフォーマンスと追加設計要素の両方を含むオンラインプラットフォームからのコラボレーティブデータを収集する。
協調データのサポートにより、CPPはスケールしたLCMの性能予測において従来のスケーリング法を超越するだけでなく、以前見落とされた因子の重要性の詳細な分析を促進する。
Comprehensively understanding and accurately predicting the performance of large language models across diverse downstream tasks has emerged as a pivotal challenge in NLP research. The pioneering scaling law on downstream works demonstrated intrinsic similarities within model families and utilized such similarities for performance prediction. However, they tend to overlook the similarities between model families and only consider design factors listed in the original scaling law. To overcome these limitations, we introduce a novel framework, Collaborative Performance Prediction (CPP), which significantly enhances prediction accuracy by leveraging the historical performance of various models on downstream tasks and other design factors for both model and task. We also collect a collaborative data sourced from online platforms containing both historical performance and additional design factors. With the support of the collaborative data, CPP not only surpasses traditional scaling laws in predicting the performance of scaled LLMs but also facilitates a detailed analysis of factor importance, an area previously overlooked. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# GaussianStego:3Dガウススプラッティングのための一般化可能なステントグラフィパイプライン
GaussianStego: A Generalizable Stenography Pipeline for Generative 3D Gaussians Splatting ( http://arxiv.org/abs/2407.01301v1 ) ライセンス: Link先を確認 | Chenxin Li, Hengyu Liu, Zhiwen Fan, Wuyang Li, Yifan Liu, Panwang Pan, Yixuan Yuan, | (参考訳) 大規模生成モデルとポイントベース技術を用いたリアルタイムニューラルレンダリングの最近の進歩は、合成された3D資産を共有することによって、広範な視覚データ配信の道を開く。
しかし、プロプライエタリな情報や著作権を埋め込むための標準化された手法は、画像やビデオなどの従来の視覚的コンテンツには過度に、あるいは微妙に存在するが、ガウス・スプラッティングのような新しい3Dフォーマットでは、この問題は未検討のままである。
生成した3Dアセットのレンダリングにステガノグラフ情報を埋め込む手法であるGaussianStegoを提案する。
提案手法では,大規模モデルから得られたガウス資産を用いて描画した画像から隠れた情報を正確に抽出し,元の視覚的品質を維持しつつ,最適化フレームワークを用いる。
本稿では,本手法の事前評価を行い,今後の展開シナリオについて検討し,分析による問題点について考察する。
GaussianStegoは、現在の3D生成モデルが生成するレンダリングにカスタマイズ可能で、認識不能で、回復不能な情報を埋め込むという、新しい課題を最初に探求し、レンダリングされたコンテンツの品質に最小限の影響を確実にする。
Recent advancements in large generative models and real-time neural rendering using point-based techniques pave the way for a future of widespread visual data distribution through sharing synthesized 3D assets. However, while standardized methods for embedding proprietary or copyright information, either overtly or subtly, exist for conventional visual content such as images and videos, this issue remains unexplored for emerging generative 3D formats like Gaussian Splatting. We present GaussianStego, a method for embedding steganographic information in the rendering of generated 3D assets. Our approach employs an optimization framework that enables the accurate extraction of hidden information from images rendered using Gaussian assets derived from large models, while maintaining their original visual quality. We conduct preliminary evaluations of our method across several potential deployment scenarios and discuss issues identified through analysis. GaussianStego represents an initial exploration into the novel challenge of embedding customizable, imperceptible, and recoverable information within the renders produced by current 3D generative models, while ensuring minimal impact on the rendered content's quality. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# グラッピング用アノテーションの少ないロボットインスタンスセグメンテーション
Robot Instance Segmentation with Few Annotations for Grasping ( http://arxiv.org/abs/2407.01302v1 ) ライセンス: Link先を確認 | Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro, | (参考訳) 物体を操作するロボットの能力は、視覚知覚の適性に大きく依存している。
散らかったシーンと高いオブジェクトの変動を特徴とするドメインでは、ほとんどのメソッドは巨大なラベル付きデータセットを呼び、手書きで、有能なモデルを訓練することを目的としている。
一度デプロイされると、不慣れなオブジェクトへの一般化という課題は、モデルがそのドメインと一緒に進化しなければならないことを意味します。
そこで本研究では,シーンの変化を観察して学習し,インタラクションシーケンスのキュレートされたデータを必要とすることなく,時間的ギャップに拘わらず視覚的整合性を活用することのできる,半教師付き学習(SSL)とLearning Through Interaction(LTI)を組み合わせた新しいフレームワークを提案する。
その結果,本手法は自己監督による部分的注釈付きデータを活用し,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的文脈を取り入れた。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
特に、ARMBenchでは、$\text{AP}_{50}$が$86.37$、既存の作業よりも約20.%$改善され、非常に低いアノテーションを持つシナリオで素晴らしい結果を得ることができ、$\text{AP}_{50}$スコアが$84.89$、注釈付きデータが$1 \%$であるのに対して、ARMBenchでは$72$である。
The ability of robots to manipulate objects relies heavily on their aptitude for visual perception. In domains characterized by cluttered scenes and high object variability, most methods call for vast labeled datasets, laboriously hand-annotated, with the aim of training capable models. Once deployed, the challenge of generalizing to unfamiliar objects implies that the model must evolve alongside its domain. To address this, we propose a novel framework that combines Semi-Supervised Learning (SSL) with Learning Through Interaction (LTI), allowing a model to learn by observing scene alterations and leverage visual consistency despite temporal gaps without requiring curated data of interaction sequences. As a result, our approach exploits partially annotated data through self-supervision and incorporates temporal context using pseudo-sequences generated from unlabeled still images. We validate our method on two common benchmarks, ARMBench mix-object-tote and OCID, where it achieves state-of-the-art performance. Notably, on ARMBench, we attain an $\text{AP}_{50}$ of $86.37$, almost a $20\%$ improvement over existing work, and obtain remarkable results in scenarios with extremely low annotation, achieving an $\text{AP}_{50}$ score of $84.89$ with just $1 \%$ of annotated data compared to $72$ presented in ARMBench on the fully annotated counterpart. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 未知の発見:説明可能性のレンズを通してホワイトボックスメンバーシップ推論を探索する
Unveiling the Unseen: Exploring Whitebox Membership Inference through the Lens of Explainability ( http://arxiv.org/abs/2407.01306v1 ) ライセンス: Link先を確認 | Chenxi Li, Abhinav Kumar, Zhen Guo, Jie Hou, Reza Tourani, | (参考訳) ディープラーニングアプリケーションの普及とパーソナライズされたデータへの依存は、プライバシの脆弱性、特にメンバーシップ推論攻撃(MIA)に対処する緊急の必要性を浮き彫りにしている。
多くのMIA研究にもかかわらず、特に隠れた特徴(孤立状態)が攻撃効果に与える影響や、生データの特徴に基づく攻撃の根本原因の正当化に不十分な点に関して、重要な知識ギャップが持続している。
本稿では,まず,最も情報性の高いニューロンを同定するための統計的アプローチと,選択したニューロンからの隠れ活性化の意義を,孤立と組み合わせによる攻撃精度において定量化することで,これらの知識ギャップに対処することを目的とする。
さらに,ターゲットモデルとアタックモデルを統合したアタック駆動型説明可能なフレームワークを提案する。
提案したMIAは,最先端MIAの最大26%の改善を示す。
The increasing prominence of deep learning applications and reliance on personalized data underscore the urgent need to address privacy vulnerabilities, particularly Membership Inference Attacks (MIAs). Despite numerous MIA studies, significant knowledge gaps persist, particularly regarding the impact of hidden features (in isolation) on attack efficacy and insufficient justification for the root causes of attacks based on raw data features. In this paper, we aim to address these knowledge gaps by first exploring statistical approaches to identify the most informative neurons and quantifying the significance of the hidden activations from the selected neurons on attack accuracy, in isolation and combination. Additionally, we propose an attack-driven explainable framework by integrating the target and attack models to identify the most influential features of raw data that lead to successful membership inference attacks. Our proposed MIA shows an improvement of up to 26% on state-of-the-art MIA. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# マルチ離散アクション空間のための決定変換器の多状態動作トークン化
Multi-State-Action Tokenisation in Decision Transformers for Multi-Discrete Action Spaces ( http://arxiv.org/abs/2407.01310v1 ) ライセンス: Link先を確認 | Perusha Moodley, Pramod Kaushik, Dhillu Thambi, Mark Trovinger, Praveen Paruchuri, Xia Hong, Benjamin Rosman, | (参考訳) 決定変換器は、そのバニラ形式で、複数の離散アクション空間を持つ画像ベースの環境において、実行に苦労する。
改良された決定変換器アーキテクチャは性能向上のために開発されたが、これらの手法は、既存の決定変換器アーキテクチャを優れた表現の学習から妨げるマルチ離散動作空間の問題に特に対処していない。
これを軽減するために,マルチ状態行動トークン化(M-SAT)を提案する。
私たちのアプローチでは、アクションを個々のアクションレベルに分離する、補助的な状態情報でアクションをトークン化する、という2つの重要な変更を伴います。
これら2つの重要な変更は、個々のアクションレベルの解釈性と、注意層内の可視性も改善する。
我々は、M-SATがVizDoom環境に挑戦する上で、Dadly Corridor や My Way Home のシナリオを含むマルチ離散アクション空間や画像ベースの状態空間において、M-SAT は、追加のデータや計算オーバーヘッドを伴わずにベースライン決定変換器より優れていることを示す。
さらに、位置符号化の除去がM-SATの性能に悪影響を及ぼさないことや、場合によってはそれを改善することさえある。
Decision Transformers, in their vanilla form, struggle to perform on image-based environments with multi-discrete action spaces. Although enhanced Decision Transformer architectures have been developed to improve performance, these methods have not specifically addressed this problem of multi-discrete action spaces which hampers existing Decision Transformer architectures from learning good representations. To mitigate this, we propose Multi-State Action Tokenisation (M-SAT), an approach for tokenising actions in multi-discrete action spaces that enhances the model's performance in such environments. Our approach involves two key changes: disentangling actions to the individual action level and tokenising the actions with auxiliary state information. These two key changes also improve individual action level interpretability and visibility within the attention layers. We demonstrate the performance gains of M-SAT on challenging ViZDoom environments with multi-discrete action spaces and image-based state spaces, including the Deadly Corridor and My Way Home scenarios, where M-SAT outperforms the baseline Decision Transformer without any additional data or heavy computational overheads. Additionally, we find that removing positional encoding does not adversely affect M-SAT's performance and, in some cases, even improves it. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# ToCoAD:産業異常検出のための2段階コントラスト学習
ToCoAD: Two-Stage Contrastive Learning for Industrial Anomaly Detection ( http://arxiv.org/abs/2407.01312v1 ) ライセンス: Link先を確認 | Yun Liang, Zhiguang Hu, Junjie Huang, Donglin Di, Anyang Su, Lei Fan, | (参考訳) 現在の教師なし異常検出アプローチは、公開データセットではうまく機能するが、事前訓練された特徴抽出器とターゲット固有のドメイン間のドメインギャップのため、特定の異常タイプに対処する。
この問題に対処するため,本稿では,textbf{ToCoAD}と呼ばれる2段階のトレーニング戦略を提案する。
第1段階では、自己教師付き学習方法で合成異常を用いて識別ネットワークを訓練する。
そして、このネットワークを第2段階で利用し、ブートストラップコントラスト学習を通じて特徴抽出器のトレーニングを支援する負の特徴ガイドを提供する。
このアプローチにより,産業データセット固有の異常の分布を段階的に学習し,様々な種類の異常に対する一般化性を効果的に向上することができる。
提案した2段階トレーニング戦略の有効性を実証するため,本モデルは,MVTec AD, VisA, BTADにおいて, 画素レベルのAUROCスコア98.21\%, 98.43\%, 97.70\%を達成し, 競争性能を向上する。
Current unsupervised anomaly detection approaches perform well on public datasets but struggle with specific anomaly types due to the domain gap between pre-trained feature extractors and target-specific domains. To tackle this issue, this paper presents a two-stage training strategy, called \textbf{ToCoAD}. In the first stage, a discriminative network is trained by using synthetic anomalies in a self-supervised learning manner. This network is then utilized in the second stage to provide a negative feature guide, aiding in the training of the feature extractor through bootstrap contrastive learning. This approach enables the model to progressively learn the distribution of anomalies specific to industrial datasets, effectively enhancing its generalizability to various types of anomalies. Extensive experiments are conducted to demonstrate the effectiveness of our proposed two-stage training strategy, and our model produces competitive performance, achieving pixel-level AUROC scores of 98.21\%, 98.43\% and 97.70\% on MVTec AD, VisA and BTAD respectively. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# グリーン関数と非線形感受性に対する適応型変分量子コンピューティングアプローチ
Adaptive variational quantum computing approaches for Green's functions and nonlinear susceptibilities ( http://arxiv.org/abs/2407.01313v1 ) ライセンス: Link先を確認 | Martin Mootz, Thomas Iadecola, Yong-Xin Yao, | (参考訳) 本稿では,ハミルトン系の実時間単一粒子グリーン関数と非線形感受性を計算するための量子コンピューティング手法を提案する。
これらのアプローチは、状態の準備と伝播に適応的な変分量子アルゴリズムを利用する。
自動生成されたコンパクト回路を用いて、応答関数の周波数分解に十分な時間をかけて動的進化を行う。
我々は,Fermi-Hubbard 鎖の最大回路深さ 65 および 424 層の状態ベクトルシミュレータを用いて,グリーン関数の正確な計算を行った。
さらに、Dzyaloshinskii-Moriya相互作用を組み込んだ反強磁性量子スピン-1モデルについて、2次元コヒーレント分光実験で測定できる3次の非線形感受性の計算を例証する。
これらの結果から、線形および非線形応答関数を評価するための適応パラメータ化回路を用いたリアルタイムアプローチは、短期量子プロセッサで実現可能であることが示された。
We present and benchmark quantum computing approaches for calculating real-time single-particle Green's functions and nonlinear susceptibilities of Hamiltonian systems. The approaches leverage adaptive variational quantum algorithms for state preparation and propagation. Using automatically generated compact circuits, the dynamical evolution is performed over sufficiently long times to achieve adequate frequency resolution of the response functions. We showcase accurate Green's function calculations using a statevector simulator for Fermi-Hubbard chains of 4 and 6 sites, with maximal circuit depth of 65 and 424 layers, respectively. Additionally, we consider an antiferromagnetic quantum spin-1 model that incorporates the Dzyaloshinskii-Moriya interaction to illustrate calculations of the third-order nonlinear susceptibilities, which can be measured in two-dimensional coherent spectroscopy experiments. These results demonstrate that real-time approaches using adaptive parameterized circuits to evaluate linear and nonlinear response functions can be feasible with near-term quantum processors. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 高リソース言語から低リソース言語への事前学習言語モデルを用いたオープンドメイン対話のための言語可搬性戦略
Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages ( http://arxiv.org/abs/2407.01315v1 ) ライセンス: Link先を確認 | Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre, | (参考訳) 本稿では,大規模事前学習型言語モデル (PLM) の言語ポータビリティ戦略について検討する。
特に、L_Tは、タスク固有のリソースが不足し、ソース言語(L_S)が英語である場合、人間の評価を可能にするため、フランス語でシミュレートされる。
明らかな理由から、オープンドメイン対話にそのようなモデルを用いた最近の研究は、主に英語で開発されている。
しかし、可能なターゲット言語ごとに特定のPLMを構築することは、新しいデータセットの収集を前提としており、コストがかかる。
そのため、L_SとL_Tの両方で既存のリソース(PLMとデータ)をすべて活用しようと、異なるアプローチでL_Tで達成可能な性能を評価したい。
最初の2つのアプローチでは、異なるレベルでNeural Machine Translation(NMT)の利用を評価している。 L_Tの微調整の前にL_Sデータセットが変換されるTrainOnTargetと、推論中にL_SモデルがNMTモジュールと結合されるTestOnSourceだ。
そして、世界初のオープンアクセス型多言語大規模PLMであるBLOOM [2]の出現により、研究者はモデルの完全なアクセシビリティだけでなく、その多言語性や翻訳能力を活用することを目的とした新しいアプローチを開発することができる。
この文脈では、まずL_Sで学習し、MAD-X Adapterアーキテクチャ[16]を用いてL_Tに適応する。
この2つの実験モデルでは,人間と音声対話条件で評価し,対話の質を評価できる。
In this paper we propose a study of linguistic portability strategies of large pre-trained language models (PLMs) used for open-domain dialogue systems in a high-resource language for this task. In particular the target low-resource language (L_T) will be simulated with French, as it lacks of task-specific resources and allows our human evaluation, when the source language (L_S) is English. For obvious reasons, recent works using such models for open-domain dialogue are mostly developed in English. Yet building specific PLMs for each possible target language supposes collecting new datasets and is costly. For this reason, trying to leverage all existing resources (PLMs and data) in both L_S and L_T , we wish to assess the performance achievable in L_T with different approaches. The first two approaches evaluate the usage of Neural Machine Translation (NMT) at different levels: TrainOnTarget where a L_S dataset is translated before fine-tuning in L_T and TestOnSource where a L_S model is coupled with NMT modules during inference. Then, the advent of BLOOM [2], the world first open-access multilingual large PLM, allow researchers to develop new approaches aiming to leverage not only the model's full accessibility but also its multilingualism and translation abilities. In this context the task is learned in L_S first and adapted to L_T using the MAD-X Adapter architecture [16]. In the two sets of experiments models are evaluated in spoken dialogue conditions with human and the strategies can be compared in terms of perceived interaction quality. | 翻訳日:2024-07-03 21:20:18 公開日:2024-07-01 |
# 最悪のサブ集団におけるモデル性能の評価
Evaluating Model Performance Under Worst-case Subpopulations ( http://arxiv.org/abs/2407.01316v1 ) ライセンス: Link先を確認 | Mike Li, Hongseok Namkoong, Shangzhou Xia, | (参考訳) MLモデルの性能は、トレーニング人口が運用中のモデルと異なる場合に低下する。
このロバスト性の概念は、任意の(連続的な)属性 Z を考慮し、不整群における複素交叉性を自動的に説明できる。
我々は、最先端モデルのロバスト性を評価できるスケーラブルだが原則化された2段階推定手法を開発した。
我々は,次元自由収束を含む有限サンプル収束保証がいくつかあることを証明した。
実データセットでは,本手法がモデルの堅牢性を証明し,信頼できないモデルの配置を防止することを実証する。
The performance of ML models degrades when the training population is different from that seen under operation. Towards assessing distributional robustness, we study the worst-case performance of a model over all subpopulations of a given size, defined with respect to core attributes Z. This notion of robustness can consider arbitrary (continuous) attributes Z, and automatically accounts for complex intersectionality in disadvantaged groups. We develop a scalable yet principled two-stage estimation procedure that can evaluate the robustness of state-of-the-art models. We prove that our procedure enjoys several finite-sample convergence guarantees, including dimension-free convergence. Instead of overly conservative notions based on Rademacher complexities, our evaluation error depends on the dimension of Z only through the out-of-sample error in estimating the performance conditional on Z. On real datasets, we demonstrate that our method certifies the robustness of a model and prevents deployment of unreliable models. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 2話者シナリオにおけるエンド・ツー・エンドニューラルダイアリゼーションにおける話者埋め込みの活用
Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios ( http://arxiv.org/abs/2407.01317v1 ) ライセンス: Link先を確認 | Juan Ignacio Alvarez-Trejos, Beltrán Labrador, Alicia Lozano-Diez, | (参考訳) エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者情報のエンド・ツー・エンドシステムへの組み込みについて検討し,その重なり合う処理強度を維持しつつ,話者識別能力を高めることを目的とする。
そこで本研究では,これらの埋め込みを音響的特徴に沿って組み込む手法を提案する。
さらに、サイレントフレームの正しいハンドリング、話者埋め込みを抽出するウィンドウ長、トランスバータエンコーダサイズの分析を行った。
提案手法の有効性を,2話者ダイアリゼーションタスクのCallHomeデータセットを用いて徹底的に評価し,ベースラインのエンド・ツー・エンドモデルと比較して10.78%の相対的な改善を実現したダイアリゼーション誤差率の顕著な低下を示す結果を得た。
End-to-end neural speaker diarization systems are able to address the speaker diarization task while effectively handling speech overlap. This work explores the incorporation of speaker information embeddings into the end-to-end systems to enhance the speaker discriminative capabilities, while maintaining their overlap handling strengths. To achieve this, we propose several methods for incorporating these embeddings along the acoustic features. Furthermore, we delve into an analysis of the correct handling of silence frames, the window length for extracting speaker embeddings and the transformer encoder size. The effectiveness of our proposed approach is thoroughly evaluated on the CallHome dataset for the two-speaker diarization task, with results that demonstrate a significant reduction in diarization error rates achieving a relative improvement of a 10.78% compared to the baseline end-to-end model. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# Deep Dive into MRI: 0.55T と 7T MRI のディープラーニング応用を探る
Deep Dive into MRI: Exploring Deep Learning Applications in 0.55T and 7T MRI ( http://arxiv.org/abs/2407.01318v1 ) ライセンス: Link先を確認 | Ana Carolina Alves, André Ferreira, Behrus Puladi, Jan Egger, Victor Alves, | (参考訳) 医用画像用磁気共鳴イメージング(MRI)の開発は、診断の飛躍的な進歩をもたらし、診断目的で放射線照射を照射する技術に対する安全で非侵襲的な代替手段を提供する。
1946年にBlock and Purcelによって説明され、1980年になって初めてMRIの臨床応用が利用可能になった。
それ以来、MRIは多くの進歩を経験し、診断の方法を変えてきた。
常に改善する能力のため、MRIは医学におけるいくつかの専門分野において一般的に使われているプラクティスとなっている。
特に0.55Tと7TのMRI技術は、画像の詳細な保存と高度な組織の特徴付けの強化を指摘している。
本稿では,これらのMRIモダリティへの深層学習(DL)技術の統合について検討し,研究応用を広め,探求する。
DLが0.55Tと7TのMRIデータにどのように貢献するかを強調し、これらの技術の改善と精錬におけるDLの可能性を示している。
レビューは、今後数年でMRI技術がどのように進化していくかの概要で終わる。
The development of magnetic resonance imaging (MRI) for medical imaging has provided a leap forward in diagnosis, providing a safe, non-invasive alternative to techniques involving ionising radiation exposure for diagnostic purposes. It was described by Block and Purcel in 1946, and it was not until 1980 that the first clinical application of MRI became available. Since that time the MRI has gone through many advances and has altered the way diagnosing procedures are performed. Due to its ability to improve constantly, MRI has become a commonly used practice among several specialisations in medicine. Particularly starting 0.55T and 7T MRI technologies have pointed out enhanced preservation of image detail and advanced tissue characterisation. This review examines the integration of deep learning (DL) techniques into these MRI modalities, disseminating and exploring the study applications. It highlights how DL contributes to 0.55T and 7T MRI data, showcasing the potential of DL in improving and refining these technologies. The review ends with a brief overview of how MRI technology will evolve in the coming years. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 自由化のためのモデル容量の増大:パラメータ効率の良い微調整のための簡単な戦略
Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning ( http://arxiv.org/abs/2407.01320v1 ) ライセンス: Link先を確認 | Haobo Song, Hao Zhao, Soumajit Majumder, Tao Lin, | (参考訳) 175B GPT-3のような微調整済みの大型ファンデーションモデルは、最近下流業務に注目が集まっている。
パラメータ効率のよい微調整法が提案され、全てのモデルパラメータを再訓練することなく有効であることが証明されているが、その性能はインクリメンタルモジュールの容量、特に制約されたパラメータ予算によって制限されている。
この課題を克服するために、我々はCapaBoostを提案する。CapaBoostは、ターゲット層における並列重みモジュールによる低ランク更新を活用することで、モデルキャパシティを向上させるシンプルで効果的な戦略である。
共有重み行列に静的ランダムマスクを適用することで、CapaBoostは多種多様な重み行列を構築し、パラメータを追加することなくインクリメンタル重みのランクを効果的に増加させる。
特に,本手法は,様々なパラメータ効率の高い微調整手法にシームレスに統合できる。
本稿では,自然言語理解,質問応答,画像分類など,さまざまな下流タスクの実験を通じて,CapaBoostの有効性を広く検証する。
以上の結果から,計算コストやストレージコストを増大させることなく,ベースラインよりも大幅に向上したことを示す。
私たちのコードは \url{https://github.com/LINs-lab/CapaBoost} で利用可能です。
Fine-tuning large pre-trained foundation models, such as the 175B GPT-3, has attracted more attention for downstream tasks recently. While parameter-efficient fine-tuning methods have been proposed and proven effective without retraining all model parameters, their performance is limited by the capacity of incremental modules, especially under constrained parameter budgets. \\ To overcome this challenge, we propose CapaBoost, a simple yet effective strategy that enhances model capacity by leveraging low-rank updates through parallel weight modules in target layers. By applying static random masks to the shared weight matrix, CapaBoost constructs a diverse set of weight matrices, effectively increasing the rank of incremental weights without adding parameters. Notably, our approach can be seamlessly integrated into various existing parameter-efficient fine-tuning methods. We extensively validate the efficacy of CapaBoost through experiments on diverse downstream tasks, including natural language understanding, question answering, and image classification. Our results demonstrate significant improvements over baselines, without incurring additional computation or storage costs. Our code is available at \url{https://github.com/LINs-lab/CapaBoost}. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# ディエンス予測視覚課題における教師なしドメイン適応のための勾配に基づくクラス重み付け
Gradient-based Class Weighting for Unsupervised Domain Adaptation in Dense Prediction Visual Tasks ( http://arxiv.org/abs/2407.01327v1 ) ライセンス: Link先を確認 | Roberto Alcover-Couso, Marcos Escudero-Viñolo, Juan C. SanMiguel, Jesus Bescós, | (参考訳) 教師なしドメイン適応(UDA)では、モデルはソースデータ(例えば、合成)に基づいて訓練され、ターゲットアノテーションなしでターゲットデータ(例えば、現実世界)に適応する。
ドメインギャップを埋める大きな進歩にもかかわらず、既存のメソッドは、セマンティックやパノプティクスのセグメンテーションのような、高度に不均衡なビジュアルタスクに直面した時に、パフォーマンス劣化を経験することが多い。
この相違は、ソースドメインとターゲットドメインの間に等価な事前性がないために特に顕著になり、UDAシナリオでは他の領域(例えば、画像分類)で使用されるクラス不均衡技術が有効ではないためである。
本稿では,クラスウェイトを UDA 学習損失に組み込むクラスバランス緩和戦略を提案するが,損失勾配を通じてこれらの重みを動的に推定し,グラディエント・ベース・クラス重み付け(GBW)学習を定義する新しい方法を提案する。
GBWは、大きな表現されたクラスによって学習が妨げられているクラスの貢献を自然に増加させ、繰り返しトレーニングの結果に自動的かつ迅速に適応できるという利点を持つ。
大規模な実験は、アーキテクチャ(畳み込みとトランスフォーマー)、UDA戦略(逆、自己学習とエントロピーの最小化)、タスク(セマンティックとパンプトのセグメンテーション)、データセット(GTAとSynthia)にまたがるGBWの有効性を検証する。
利点の源を分析すると、GBWは一貫して低表現のクラスをリコールする。
In unsupervised domain adaptation (UDA), where models are trained on source data (e.g., synthetic) and adapted to target data (e.g., real-world) without target annotations, addressing the challenge of significant class imbalance remains an open issue. Despite considerable progress in bridging the domain gap, existing methods often experience performance degradation when confronted with highly imbalanced dense prediction visual tasks like semantic and panoptic segmentation. This discrepancy becomes especially pronounced due to the lack of equivalent priors between the source and target domains, turning class imbalanced techniques used for other areas (e.g., image classification) ineffective in UDA scenarios. This paper proposes a class-imbalance mitigation strategy that incorporates class-weights into the UDA learning losses, but with the novelty of estimating these weights dynamically through the loss gradient, defining a Gradient-based class weighting (GBW) learning. GBW naturally increases the contribution of classes whose learning is hindered by large-represented classes, and has the advantage of being able to automatically and quickly adapt to the iteration training outcomes, avoiding explicitly curricular learning patterns common in loss-weighing strategies. Extensive experimentation validates the effectiveness of GBW across architectures (convolutional and transformer), UDA strategies (adversarial, self-training and entropy minimization), tasks (semantic and panoptic segmentation), and datasets (GTA and Synthia). Analysing the source of advantage, GBW consistently increases the recall of low represented classes. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# CSFNet:運転シーンのリアルタイムRGB-Xセマンティックセマンティックセグメンテーションのためのコサイン類似フュージョンネットワーク
CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes ( http://arxiv.org/abs/2407.01328v1 ) ライセンス: Link先を確認 | Danial Qashqai, Emad Mousavian, Shahriar Baradaran Shokouhi, Sattar Mirzakuchaki, | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、複雑な視覚解釈の重要な構成要素であり、自動運転車の視覚システムにおいて基本的な役割を担っている。
近年の研究では、補完的な情報を活用し、マルチモーダルな手法を開発することにより、意味的セグメンテーションの精度を大幅に改善している。
精度の向上にもかかわらず、マルチモーダルなセマンティックセグメンテーション手法は高い計算複雑性と低い推論速度に悩まされている。
したがって、アプリケーションを駆動する上でマルチモーダルな手法を実装することは難しい課題である。
この問題を解決するために,実時間RGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
具体的には、2つのモードの特徴を効果的に修正・融合するcosine similarity Attention Fusion Module (CS-AFM) を設計する。
CS-AFMモジュールはクロスモーダルな類似性を利用して高い一般化能力を実現する。
CS-AFMは、低レベルにおけるクロスモーダルな特徴の融合を強化することにより、より高レベルなシングルブランチネットワークの利用の道を開く。
したがって、エンコーダには2つのアーキテクチャと1つのブランチアーキテクチャを使用し、高速かつ正確な予測を行うための効率的なコンテキストモジュールと軽量デコーダも備えている。
CSFNetの有効性を検証するために、RGB-D/T/PセマンティックセグメンテーションにCityscapes、MFNet、ZJUデータセットを使用する。
結果によると、CSFNetは、マルチモーダルセマンティックセグメンテーションモデルにおいて、最先端の手法と競合する精度を保ちながら、最先端の手法と競合する。
また、パラメータ数と計算の複雑さが低いため、高い効率を達成する。
CSFNetのソースコードはhttps://github.com/Danial-Qashqai/CSFNetで入手できる。
Semantic segmentation, as a crucial component of complex visual interpretation, plays a fundamental role in autonomous vehicle vision systems. Recent studies have significantly improved the accuracy of semantic segmentation by exploiting complementary information and developing multimodal methods. Despite the gains in accuracy, multimodal semantic segmentation methods suffer from high computational complexity and low inference speed. Therefore, it is a challenging task to implement multimodal methods in driving applications. To address this problem, we propose the Cosine Similarity Fusion Network (CSFNet) as a real-time RGB-X semantic segmentation model. Specifically, we design a Cosine Similarity Attention Fusion Module (CS-AFM) that effectively rectifies and fuses features of two modalities. The CS-AFM module leverages cross-modal similarity to achieve high generalization ability. By enhancing the fusion of cross-modal features at lower levels, CS-AFM paves the way for the use of a single-branch network at higher levels. Therefore, we use dual and single-branch architectures in an encoder, along with an efficient context module and a lightweight decoder for fast and accurate predictions. To verify the effectiveness of CSFNet, we use the Cityscapes, MFNet, and ZJU datasets for the RGB-D/T/P semantic segmentation. According to the results, CSFNet has competitive accuracy with state-of-the-art methods while being state-of-the-art in terms of speed among multimodal semantic segmentation models. It also achieves high efficiency due to its low parameter count and computational complexity. The source code for CSFNet will be available at https://github.com/Danial-Qashqai/CSFNet. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 3次元表面再構成のための局所形状関数からの符号なし距離場学習
Learning Unsigned Distance Fields from Local Shape Functions for 3D Surface Reconstruction ( http://arxiv.org/abs/2407.01330v1 ) ライセンス: Link先を確認 | Jiangbei Hu, Yanggeng Li, Fei Hou, Junhui Hou, Zhebin Zhang, Shengfa Wang, Na Lei, Ying He, | (参考訳) 非符号距離場(UDF)は、水密と非水密の双方を含む多様な3次元形状の配列を表現する汎用的なフレームワークを提供する。
従来のUDF学習法は、一般的に3次元形状の大規模なデータセットを広範囲にトレーニングする必要があるが、これはコストが高く、新しいデータセットのハイパーパラメータ調整を必要とすることが多い。
本稿では, 局所形状関数を利用してUDFを学習し, 3次元点雲から表面を再構成する新しいニューラルネットワーク, LoSF-UDFを提案する。
そこで我々は3次元形状が局所化領域内の単純なパターンを示すことを観察し、滑らかな表面から鋭い端や角まで連続体を表す数学的関数を特徴とする点雲パッチのトレーニングデータセットを作成する。
提案手法は,各問合せ点付近の特定の半径内の特徴を学習し,注意機構を用いてUDF推定の重要な特徴に焦点をあてる。
この方法では、形状の訓練を必要とせずに、点雲からの効率的で堅牢な表面再構成が可能となる。
さらに,本手法は,既存の手法と比較して,点雲におけるノイズや外れ値に対する耐性が向上することを示した。
提案手法の有効性を検証するため,合成および実走査点雲を含む各種データセットを対象とした総合的な実験と比較を行った。
Unsigned distance fields (UDFs) provide a versatile framework for representing a diverse array of 3D shapes, encompassing both watertight and non-watertight geometries. Traditional UDF learning methods typically require extensive training on large datasets of 3D shapes, which is costly and often necessitates hyperparameter adjustments for new datasets. This paper presents a novel neural framework, LoSF-UDF, for reconstructing surfaces from 3D point clouds by leveraging local shape functions to learn UDFs. We observe that 3D shapes manifest simple patterns within localized areas, prompting us to create a training dataset of point cloud patches characterized by mathematical functions that represent a continuum from smooth surfaces to sharp edges and corners. Our approach learns features within a specific radius around each query point and utilizes an attention mechanism to focus on the crucial features for UDF estimation. This method enables efficient and robust surface reconstruction from point clouds without the need for shape-specific training. Additionally, our method exhibits enhanced resilience to noise and outliers in point clouds compared to existing methods. We present comprehensive experiments and comparisons across various datasets, including synthetic and real-scanned point clouds, to validate our method's efficacy. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 生成モデルを用いた教師なし概念に基づく解釈型ネットワークの再構築
Restyling Unsupervised Concept Based Interpretable Networks with Generative Models ( http://arxiv.org/abs/2407.01331v1 ) ライセンス: Link先を確認 | Jayneel Parekh, Quentin Bouniot, Pavlo Mozharovskyi, Alasdair Newson, Florence d'Alché-Buc, | (参考訳) 近年,予測のための本質的に解釈可能なモデルの開発が注目されている。
これらのモデルのサブクラスは、解釈可能なネットワークが高レベルな概念の学習に依存しているため、人間のコミュニケーションに対する概念表現の密接さから評価される。
しかし、学習済みの教師なし概念辞書の可視化と理解は、特に大規模画像の場合、大きな制限に直面している。
本稿では、事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
生成モデルを使用することで、高品質な可視化が可能になり、学習した概念をよりよく解釈するための直感的でインタラクティブな手順が自然にレイアウトされる。
さらに、事前学習された生成モデルを活用することで、システムのトレーニングをより効率的にすることができる。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
大規模画像に対する複数の画像認識ベンチマークで実験を行った。
Project page available at https://jayneelparekh.github.io/VisCoIN_project_page/
Developing inherently interpretable models for prediction has gained prominence in recent years. A subclass of these models, wherein the interpretable network relies on learning high-level concepts, are valued because of closeness of concept representations to human communication. However, the visualization and understanding of the learnt unsupervised dictionary of concepts encounters major limitations, specially for large-scale images. We propose here a novel method that relies on mapping the concept features to the latent space of a pretrained generative model. The use of a generative model enables high quality visualization, and naturally lays out an intuitive and interactive procedure for better interpretation of the learnt concepts. Furthermore, leveraging pretrained generative models has the additional advantage of making the training of the system more efficient. We quantitatively ascertain the efficacy of our method in terms of accuracy of the interpretable prediction network, fidelity of reconstruction, as well as faithfulness and consistency of learnt concepts. The experiments are conducted on multiple image recognition benchmarks for large-scale images. Project page available at https://jayneelparekh.github.io/VisCoIN_project_page/ | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# AdaDistill: 深層顔認識のための適応的知識蒸留
AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition ( http://arxiv.org/abs/2407.01332v1 ) ライセンス: Link先を確認 | Fadi Boutros, Vitomir Štruc, Naser Damer, | (参考訳) 知識蒸留(KD)は、高性能な教師モデルから知識を蒸留することで、コンパクトな学生モデルの性能を向上させることを目的としている。
本稿では,深層顔認識のための適応的KD手法,すなわちAdaDistillを提案する。
提案したAdaDistill は,KD の概念をソフトマックスの損失に組み込んで,教師の蒸留したクラスセンターによるマージンペナルティソフトマックスの損失を訓練する。
コンパクトな学生モデルの比較的低い能力に気付いて、訓練の初期段階では、より複雑な知識を、後期では、より複雑な知識を蒸留することを提案する。
蒸留された知識の相対的な調整は、過度パラメータを調整することなく、訓練を繰り返して生徒の学習能力の進歩によって制御される。
AdaDistillは学生の差別的学習能力を高め、IJB-B、IJB-C、ICCV2021-MFRといったいくつかの挑戦的なベンチマークにおいて、様々な最先端の競争相手よりも優れていることを示した。
Knowledge distillation (KD) aims at improving the performance of a compact student model by distilling the knowledge from a high-performing teacher model. In this paper, we present an adaptive KD approach, namely AdaDistill, for deep face recognition. The proposed AdaDistill embeds the KD concept into the softmax loss by training the student using a margin penalty softmax loss with distilled class centers from the teacher. Being aware of the relatively low capacity of the compact student model, we propose to distill less complex knowledge at an early stage of training and more complex one at a later stage of training. This relative adjustment of the distilled knowledge is controlled by the progression of the learning capability of the student over the training iterations without the need to tune any hyper-parameters. Extensive experiments and ablation studies show that AdaDistill can enhance the discriminative learning capability of the student and demonstrate superiority over various state-of-the-art competitors on several challenging benchmarks, such as IJB-B, IJB-C, and ICCV2021-MFR | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 逆ガベージシナリオ生成のための深層強化学習
Deep Reinforcement Learning for Adverse Garage Scenario Generation ( http://arxiv.org/abs/2407.01333v1 ) ライセンス: Link先を確認 | Kai Li, | (参考訳) 自動運転車は安全を確保するために100億マイル以上を走行する必要がある。
したがって、実世界のテストに先立つシミュレーションテストの重要性は自明である。
近年、CarlaとCarSimが代表する自動運転用3Dシミュレータのリリースは、単純な2Dオーバーヘッドビューから複雑な3Dモデルへの自律運転シミュレーションテスト環境の移行を象徴している。
シミュレーションテストの間、実験者は静的なシーンと動的な交通の流れ、歩行者の流れ、その他の実験的な要素を構築し、実験シナリオを構築する必要がある。
3Dシミュレータで静的なシーンを構築する場合、実験者は手動で3Dモデルを構築し、パラメータと属性を設定する必要がある。
本論文では,プログラムの自動生成フレームワークを提案する。
深層強化学習に基づいて、3Dモデルファイルとマップモデルファイルが構築される異なる2Dグラウンドスクリプトコードを生成することができる。
生成された3DグラウンドシーンはCarlaシミュレータに表示され、実験者はこのシーンをナビゲーションアルゴリズムのシミュレーションテストに使用することができる。
Autonomous vehicles need to travel over 11 billion miles to ensure their safety. Therefore, the importance of simulation testing before real-world testing is self-evident. In recent years, the release of 3D simulators for autonomous driving, represented by Carla and CarSim, marks the transition of autonomous driving simulation testing environments from simple 2D overhead views to complex 3D models. During simulation testing, experimenters need to build static scenes and dynamic traffic flows, pedestrian flows, and other experimental elements to construct experimental scenarios. When building static scenes in 3D simulators, experimenters often need to manually construct 3D models, set parameters and attributes, which is time-consuming and labor-intensive. This thesis proposes an automated program generation framework. Based on deep reinforcement learning, this framework can generate different 2D ground script codes, on which 3D model files and map model files are built. The generated 3D ground scenes are displayed in the Carla simulator, where experimenters can use this scene for navigation algorithm simulation testing. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# トークン操作による分類器のプライバシー保護
Protecting Privacy in Classifiers by Token Manipulation ( http://arxiv.org/abs/2407.01334v1 ) ライセンス: Link先を確認 | Re'em Harel, Yair Elboher, Yuval Pinter, | (参考訳) 言語モデルをリモートサービスとして使用するには、信頼できないプロバイダにプライベート情報を送信する必要がある。
さらに、潜在的な盗聴者はメッセージを傍受し、情報を公開することができる。
本研究では,テキスト操作のレベルにおいて,このようなデータ露出を回避する可能性について検討する。
本稿では,テキスト分類モデルに焦点をあて,さまざまなトークンマッピングやコンテキスト化操作機能を調べて,元のテキストを検索不能にしつつ,分類器の精度を維持できるかどうかを確かめる。
いくつかのトークンマッピング関数の実装は簡単で簡単ですが、ダウンストリームタスクのパフォーマンスに大きな影響を与えます。
比較すると、文脈化された操作はパフォーマンスを改善する。
Using language models as a remote service entails sending private information to an untrusted provider. In addition, potential eavesdroppers can intercept the messages, thereby exposing the information. In this work, we explore the prospects of avoiding such data exposure at the level of text manipulation. We focus on text classification models, examining various token mapping and contextualized manipulation functions in order to see whether classifier accuracy may be maintained while keeping the original text unrecoverable. We find that although some token mapping functions are easy and straightforward to implement, they heavily influence performance on the downstream task, and via a sophisticated attacker can be reconstructed. In comparison, the contextualized manipulation provides an improvement in performance. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 協調オフラインMARLにおけるコーディネーション故障
Coordination Failure in Cooperative Offline MARL ( http://arxiv.org/abs/2407.01343v1 ) ライセンス: Link先を確認 | Callum Rhys Tilbury, Claude Formanek, Louise Beyers, Jonathan P. Shock, Arnu Pretorius, | (参考訳) オフラインマルチエージェント強化学習(MARL)は、経験の静的データセットを利用して最適なマルチエージェント制御を学習する。
しかし、静的データから学ぶことは克服すべきいくつかの固有の課題を提示している。
本稿では、協調障害に着目し、オフラインデータを用いたマルチエージェントポリシーグラデーションにおける共同行動の役割を考察し、「BRUD(Best Response Under Data)アプローチ」と呼ばれる一般的な設定に焦点を当てる。
解析ツールとして2プレイヤー多項式ゲームを用いることで、BRUDベースのアルゴリズムの単純な失敗モードを実証し、オフライン環境で破滅的な調整失敗を引き起こす可能性がある。
これらの知見に基づいて、政策学習中の協調行動類似性に基づいてデータセットからサンプルを優先し、その効果を詳細な実験で示すことによって、そのような失敗を緩和する手法を提案する。
しかし、より一般的には、優先順位付きデータセットサンプリングは、批判やポリシー正則化といった他の効果的なアプローチと組み合わせることができるオフラインMARLにおけるイノベーションの有望な領域である、と論じる。
重要なことは、我々が行った研究は、シンプルで扱いやすいゲームから引き出された洞察が、より複雑な状況に移行する有用な理論的根拠を持つ洞察にどのように結びつくかを示している。
提供する中核的な次元はインタラクティブなノートブックで、そこからほとんどの結果がブラウザで再生されます。
Offline multi-agent reinforcement learning (MARL) leverages static datasets of experience to learn optimal multi-agent control. However, learning from static data presents several unique challenges to overcome. In this paper, we focus on coordination failure and investigate the role of joint actions in multi-agent policy gradients with offline data, focusing on a common setting we refer to as the 'Best Response Under Data' (BRUD) approach. By using two-player polynomial games as an analytical tool, we demonstrate a simple yet overlooked failure mode of BRUD-based algorithms, which can lead to catastrophic coordination failure in the offline setting. Building on these insights, we propose an approach to mitigate such failure, by prioritising samples from the dataset based on joint-action similarity during policy learning and demonstrate its effectiveness in detailed experiments. More generally, however, we argue that prioritised dataset sampling is a promising area for innovation in offline MARL that can be combined with other effective approaches such as critic and policy regularisation. Importantly, our work shows how insights drawn from simplified, tractable games can lead to useful, theoretically grounded insights that transfer to more complex contexts. A core dimension of offering is an interactive notebook, from which almost all of our results can be reproduced, in a browser. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# PanopticRecon:zero-shot Panoptic Reconstructionのためのオープンボキャブラリインスタンスセグメンテーション
PanopticRecon: Leverage Open-vocabulary Instance Segmentation for Zero-shot Panoptic Reconstruction ( http://arxiv.org/abs/2407.01349v1 ) ライセンス: Link先を確認 | Xuan Yu, Yili Liu, Chenrui Han, Sitong Mao, Shunbo Zhou, Rong Xiong, Yiyi Liao, Yue Wang, | (参考訳) 3次元シーン理解における課題の一つとして,パノプティカル・コンストラクションがあげられる。
しかし、既存のほとんどの手法は、事前に訓練されたセマンティックセグメンテーションモデルと既知の3Dオブジェクトバウンディングボックスに大きく依存している。
本稿では,シーンのRGB-D画像から新たなゼロショットパノラマ再構成手法を提案する。
ゼロショットセグメンテーションでは、オープン語彙のインスタンスセグメンテーションを利用するが、部分的なラベル付けやインスタンス関連の問題に直面する必要がある。
我々は,高密度な一般化特徴の助けを借りて部分ラベルを伝播し,2DインスタンスIDを関連付ける3Dインスタンスグラフを構築することで,両課題に対処する。
具体的には、部分ラベルを利用して、一般化意味特徴の分類器を学習し、濃密な蒸留特徴を持つシーンの完全なラベルを提供する。
さらに,ケースアソシエーションを3Dインスタンスグラフセグメンテーション問題として定式化し,シーン形状を事前に完全に活用し,全2Dインスタンスマスクを用いてグローバルな擬似3DインスタンスIDを推論する。
提案手法は,室内データセットScanNet V2と屋外データセットKITTI-360の最先端手法より優れており,グラフセグメンテーション法と再構成ネットワークの有効性を実証している。
Panoptic reconstruction is a challenging task in 3D scene understanding. However, most existing methods heavily rely on pre-trained semantic segmentation models and known 3D object bounding boxes for 3D panoptic segmentation, which is not available for in-the-wild scenes. In this paper, we propose a novel zero-shot panoptic reconstruction method from RGB-D images of scenes. For zero-shot segmentation, we leverage open-vocabulary instance segmentation, but it has to face partial labeling and instance association challenges. We tackle both challenges by propagating partial labels with the aid of dense generalized features and building a 3D instance graph for associating 2D instance IDs. Specifically, we exploit partial labels to learn a classifier for generalized semantic features to provide complete labels for scenes with dense distilled features. Moreover, we formulate instance association as a 3D instance graph segmentation problem, allowing us to fully utilize the scene geometry prior and all 2D instance masks to infer global unique pseudo 3D instance ID. Our method outperforms state-of-the-art methods on the indoor dataset ScanNet V2 and the outdoor dataset KITTI-360, demonstrating the effectiveness of our graph segmentation method and reconstruction network. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# Hyperspectral Pansharpening: 批判的レビュー、ツール、今後の展望
Hyperspectral Pansharpening: Critical Review, Tools and Future Perspectives ( http://arxiv.org/abs/2407.01355v1 ) ライセンス: Link先を確認 | Matteo Ciotola, Giuseppe Guarino, Gemine Vivone, Giovanni Poggi, Jocelyn Chanussot, Antonio Plaza, Giuseppe Scarpa, | (参考訳) 高分解能パンクロマティックバンドと低分解能ハイパースペクトル画像とを融合させて、空間領域とスペクトル領域の両方で高分解能の画像を得る。
これらのリモートセンシング製品は、広範囲のアプリケーションに価値があり、研究努力をずっと加速させています。
それでも、結果はまだアプリケーション要求を満たしていない。
これは、マルチスペクトルのパンシャーピングと比較して、パンクロマティック成分によって部分的にカバーされ、圧倒的なノイズを伴うスペクトル範囲において、より多くのバンドが関与する、というタスクの技術的な複雑さに由来する。
しかし、もう一つの大きな制限要因は、新しい手法の迅速な開発と正確な評価のための包括的なフレームワークがないことである。
本稿ではこの問題に対処しようと試みる。
私たちはまず、信頼性の高いトレーニング(データ駆動方式)と新しいメソッドのテストを可能にするために、大きくて多様なデータセットを設計することから始めました。
そこで我々は,期待できる性能を特徴とする,最先端の手法のセットを選択し,それを単一のPyTorchフレームワークで再実装した。
最後に、最も認証された品質指標を用いて、全ての手法の批判的比較分析を行った。
この分析は、スペクトル/空間品質と計算効率の観点から、現在のソリューションの主な限界を強調し、有望な研究方向性を提案する。
結果の完全な再現性を保証するために、フレームワーク(コード、評価手順、データセットへのリンクを含む)は、単一のPythonベースのリファレンスベンチマークツールボックスとしてhttps://github.com/matciotola/hyperspectral_pansharpening_toolboxで共有される。
Hyperspectral pansharpening consists of fusing a high-resolution panchromatic band and a low-resolution hyperspectral image to obtain a new image with high resolution in both the spatial and spectral domains. These remote sensing products are valuable for a wide range of applications, driving ever growing research efforts. Nonetheless, results still do not meet application demands. In part, this comes from the technical complexity of the task: compared to multispectral pansharpening, many more bands are involved, in a spectral range only partially covered by the panchromatic component and with overwhelming noise. However, another major limiting factor is the absence of a comprehensive framework for the rapid development and accurate evaluation of new methods. This paper attempts to address this issue. We started by designing a dataset large and diverse enough to allow reliable training (for data-driven methods) and testing of new methods. Then, we selected a set of state-of-the-art methods, following different approaches, characterized by promising performance, and reimplemented them in a single PyTorch framework. Finally, we carried out a critical comparative analysis of all methods, using the most accredited quality indicators. The analysis highlights the main limitations of current solutions in terms of spectral/spatial quality and computational efficiency, and suggests promising research directions. To ensure full reproducibility of the results and support future research, the framework (including codes, evaluation procedures and links to the dataset) is shared on https://github.com/matciotola/hyperspectral_pansharpening_toolbox, as a single Python-based reference benchmark toolbox. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# tPARAFAC2:(不完全な)時間データにおける進化パターンの追跡
tPARAFAC2: Tracking evolving patterns in (incomplete) temporal data ( http://arxiv.org/abs/2407.01356v1 ) ライセンス: Link先を確認 | Christos Chatzis, Carla Schenker, Max Pfeffer, Evrim Acar, | (参考訳) テンソル因子化は、様々な領域のパターンを明らかにするために広く用いられている。
多くの場合、インプットは時間的に進化し、その代わりに下位のパターンの進化を追跡するという目標をシフトします。
このより複雑な設定に適応するために、既存の手法は時間的正則化を取り入れているが、過度に制約された構造的要件を持つか、解釈に不可欠な特異性を欠いている。
本稿では, 進化するパターンを捉えるために, 時間的平滑化を利用した t(emporal)PARAFAC2 を導入する。
本稿では,AO(Alternating Optimization)とADMM(Alternating Direction Method of Multipliers)をモデルに適合させるアルゴリズムフレームワークを提案する。
さらに,アルゴリズムの枠組みを部分的に観測されたデータに拡張する。
シミュレーションおよび実データを用いた数値実験により,時間的滑らか度正則化の有効性が示された。
また、提案フレームワーク内で欠落したデータを扱うための様々なアプローチを広範囲に比較する。
Tensor factorizations have been widely used for the task of uncovering patterns in various domains. Often, the input is time-evolving, shifting the goal to tracking the evolution of underlying patterns instead. To adapt to this more complex setting, existing methods incorporate temporal regularization but they either have overly constrained structural requirements or lack uniqueness which is crucial for interpretation. In this paper, in order to capture the underlying evolving patterns, we introduce t(emporal)PARAFAC2 which utilizes temporal smoothness regularization on the evolving factors. We propose an algorithmic framework that employs Alternating Optimization (AO) and the Alternating Direction Method of Multipliers (ADMM) to fit the model. Furthermore, we extend the algorithmic framework to the case of partially observed data. Our numerical experiments on both simulated and real datasets demonstrate the effectiveness of the temporal smoothness regularization, in particular, in the case of data with missing entries. We also provide an extensive comparison of different approaches for handling missing data within the proposed framework. | 翻訳日:2024-07-03 21:10:33 公開日:2024-07-01 |
# 大規模言語モデルにおける知識に基づく言語間整合性の評価
Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models ( http://arxiv.org/abs/2407.01358v1 ) ライセンス: Link先を確認 | Xiaolin Xing, Zhiwei He, Haoyu Xu, Xing Wang, Rui Wang, Yu Hong, | (参考訳) 本稿では,ChatGPT,Llama,Baichuanなどの大規模言語モデル(LLM)における言語間不整合について検討し,様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な問題に焦点を当て,これらの問題に対処するために,LaBSEモデルを用いた言語間セマンティック一貫性(xSC)の革新的評価手法を提案する。
さらに,言語間整合性(xAC)と言語間整合性(xTC)の指標を導入し,意味,正確性,タイムラインの不整合性に関するモデルの性能を総合的に評価する。
これらのメトリクスを調和させることで、LLMの言語間整合性の総合的な測定を行う。
本研究の目的は,LLMにおける多言語能力と解釈可能性の理解と向上を向上し,より堅牢で信頼性の高い多言語言語モデルの開発に寄与することにある。
This paper investigates the cross-lingual inconsistencies observed in Large Language Models (LLMs), such as ChatGPT, Llama, and Baichuan, which have shown exceptional performance in various Natural Language Processing (NLP) tasks. Despite their successes, these models often exhibit significant inconsistencies when processing the same concepts across different languages. This study focuses on three primary questions: the existence of cross-lingual inconsistencies in LLMs, the specific aspects in which these inconsistencies manifest, and the correlation between cross-lingual consistency and multilingual capabilities of LLMs.To address these questions, we propose an innovative evaluation method for Cross-lingual Semantic Consistency (xSC) using the LaBSE model. We further introduce metrics for Cross-lingual Accuracy Consistency (xAC) and Cross-lingual Timeliness Consistency (xTC) to comprehensively assess the models' performance regarding semantic, accuracy, and timeliness inconsistencies. By harmonizing these metrics, we provide a holistic measurement of LLMs' cross-lingual consistency. Our findings aim to enhance the understanding and improvement of multilingual capabilities and interpretability in LLMs, contributing to the development of more robust and reliable multilingual language models. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# ArAIEval共有タスクにおけるNullpointer: シーケントワードマッピングを用いたアラビアプロパガンダ手法の検出
Nullpointer at ArAIEval Shared Task: Arabic Propagandist Technique Detection with Token-to-Word Mapping in Sequence Tagging ( http://arxiv.org/abs/2407.01360v1 ) ライセンス: Link先を確認 | Abrar Abir, Kemal Oflazer, | (参考訳) 本稿では、ArAIEval共有タスク1から、つぶやきやニュース文を含むアラビア語テキストにおけるプロパガンダテクニック検出の最適化について検討する。
我々のアプローチでは、配列タグ付けのためのニューラルネットワーク分類器でAraBERT v2モデルを微調整する。
実験結果から,単語の最初のトークンをテクニック予測に頼っていると,最高の性能が得られることがわかった。
さらに、ジャンル情報を特徴として取り入れることで、モデルの性能をさらに向上させる。
私たちのシステムは25.41のスコアを獲得し、リーダーボードに4$^{th}$を配置しました。
その後のミッション後の改善により、スコアはさらに26.68に向上しました。
This paper investigates the optimization of propaganda technique detection in Arabic text, including tweets \& news paragraphs, from ArAIEval shared task 1. Our approach involves fine-tuning the AraBERT v2 model with a neural network classifier for sequence tagging. Experimental results show relying on the first token of the word for technique prediction produces the best performance. In addition, incorporating genre information as a feature further enhances the model's performance. Our system achieved a score of 25.41, placing us 4$^{th}$ on the leaderboard. Subsequent post-submission improvements further raised our score to 26.68. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# Haystackの概要:長期LLMとRAGシステムへの挑戦
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems ( http://arxiv.org/abs/2407.01370v1 ) ライセンス: Link先を確認 | Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu, | (参考訳) LLMとRAGシステムは今や数百万の入力トークンを処理できる。
しかし、Long-Contextタスクでそのようなシステムの出力品質を評価することは困難であり、Needdle-in-a-Haystackのようなタスクは複雑さを欠いている。
本研究では,このような評価において,要約が中心的な役割を果たすことを論じる。
我々は、文書のHaystackを合成する手順を設計し、特定の \textit{insights} が文書間で繰り返されることを保証します。
すると、"Summary of a Haystack"(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
我々は、干し草の要約にどんな洞察が現れるべきか、どんな文書が引用されるべきなのかを正確に把握しているので、非常に再現性の高い自動評価を実施し、カバレッジとCitationという2つの側面で要約を評価できる。
我々は2つのドメイン(会話、ニュース)でHaystackを生成し、10個のLLMと対応する50個のRAGシステムの大規模評価を行う。
この結果から,SummHayは現在のシステムにとってオープンな課題であることが示唆された。Oracleの文書関連信号を備えたシステムでさえ,ジョイントスコア上で10点以上の人的パフォーマンス(56\%)を見積もっている。
レトリバーがなければ、GPT-4oやClaude 3 Opusのような長いコンテキストのLLMはSummHayで20%以下になる。
SummHayは、エンタープライズRAGシステムや長期コンテキストモデルにおける位置バイアスの研究にも利用できることを示す。
SummHayの今後のシステムは、人間のパフォーマンスに匹敵するものであることを願っている。
LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific \textit{insights} repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# 密度比推定のための二項損失
Binary Losses for Density Ratio Estimation ( http://arxiv.org/abs/2407.01371v1 ) ライセンス: Link先を確認 | Werner Zellinger, | (参考訳) 2つの確率密度の比を有限個の密度の観測から推定することは、機械学習と統計学における中心的な問題である。
メソッドの大規模なクラスは、2値の分類器から推定器を構築し、2つの密度の観測を区別する。
しかし、これらの構成の誤差は二項損失関数の選択に依存するため、どの損失関数を所望の誤差特性に基づいて選択すべきかという疑問が提起される。
本研究では,ブレグマンの発散するクラスにおける所定の誤差測度から始め,小さな誤差で密度比推定器につながるすべての損失関数を特徴づける。
我々の特徴付けは、大きな値の正確な推定を優先する損失関数など、特定の特性を持つ損失関数を構築するための簡単なレシピを提供する。
これはロジスティック損失やロジスティック損失などの古典的損失関数とは対照的であり、小さな値の正確な推定を優先する。
数値図形をカーネル法で提供し,パラメータ選択による深部領域適応法の性能試験を行う。
Estimating the ratio of two probability densities from finitely many observations of the densities, is a central problem in machine learning and statistics. A large class of methods constructs estimators from binary classifiers which distinguish observations from the two densities. However, the error of these constructions depends on the choice of the binary loss function, raising the question of which loss function to choose based on desired error properties. In this work, we start from prescribed error measures in a class of Bregman divergences and characterize all loss functions that lead to density ratio estimators with a small error. Our characterization provides a simple recipe for constructing loss functions with certain properties, such as loss functions that prioritize an accurate estimation of large values. This contrasts with classical loss functions, such as the logistic loss or boosting loss, which prioritize accurate estimation of small values. We provide numerical illustrations with kernel methods and test their performance in applications of parameter selection for deep domain adaptation. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# 1次元非相互準結晶におけるリアプノフ指数の非対称移動行列解析
Asymmetric transfer matrix analysis of Lyapunov exponents in one-dimensional non-reciprocal quasicrystals ( http://arxiv.org/abs/2407.01372v1 ) ライセンス: Link先を確認 | Shan-Zhong Li, Enhong Cheng, Shi-Liang Zhu, Zhi Li, | (参考訳) リアプノフ指数は局在状態の指標として用いられるが、乱れた系の局在遷移を同定するために一般的に用いられる。
非エルミチアン準結晶では、非相互ホッピングによって誘導される非エルミチアン効果は、局在中心の反対側に2つの異なるリャプノフ指数が現れる。
そこで本研究では,非相反準結晶の局在特性と運動量エッジを非対称移動行列解析と呼ぶ包括的アプローチを提案する。
この手法の3つの特定のシナリオへの応用を実証する:非相互Aubry-Andr\'eモデル、非相互オフ対角Aubry-Andr\'eモデル、非相互モザイク準結晶。
この研究は、非エルミート準結晶および乱れた系の研究に貴重な洞察をもたらす可能性がある。
The Lyapunov exponent, serving as an indicator of the localized state, is commonly utilized to identify localization transitions in disordered systems. In non-Hermitian quasicrystals, the non-Hermitian effect induced by non-reciprocal hopping can lead to the manifestation of two distinct Lyapunov exponents on opposite sides of the localization center. Building on this observation, we here introduce a comprehensive approach for examining the localization characteristics and mobility edges of non-reciprocal quasicrystals, referred to as asymmetric transfer matrix analysis. We demonstrate the application of this method to three specific scenarios: the non-reciprocal Aubry-Andr\'e model, the non-reciprocal off-diagonal Aubry-Andr\'e model, and the non-reciprocal mosaic quasicrystals. This work may contribute valuable insights to the investigation of non-Hermitian quasicrystal and disordered systems. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# Bridging the Gap: 英語PLMからマレーシア英語への移行学習
Bridging the Gap: Transfer Learning from English PLMs to Malaysian English ( http://arxiv.org/abs/2407.01374v1 ) ライセンス: Link先を確認 | Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam, | (参考訳) マレーシア英語は低資源のクレオール言語であり、標準英語に加えてマレー語、中国語、タミル語の要素も持っている。
名前付きエンティティ認識(NER)モデルは、マレーシア英語のテキストからエンティティをキャプチャする際、その独特の形態素的適応、意味的特徴、コードスイッチング(英語とマレー語を混合する)により、性能が低下する。
これらのギャップを考慮すると、マレーシア英語に特化して、文脈理解を備えた事前学習型言語モデルであるMENmBERTとMENBERTを導入する。
我々はマレーシア英語ニュース記事(MEN)データセットから手動の注釈付きエンティティと関係を利用して、MENmBERTとMENBERTを微調整した。
この微調整プロセスにより、PLMは、NERおよびREタスクに関連するマレーシア英語のニュアンスをキャプチャする表現を学ぶことができる。
MENmBERT は bert-base-multilingual-cased モデルと比較して NER と RE のタスクが 1.52 % と 26.27 % 改善された。
NERの全体的な性能は改善されていないが、さらに分析した結果、12のエンティティラベルによる評価では、大幅な改善が見られた。
これらの結果から,低リソース環境下でのNER性能向上には,言語固有の言語モデルと地理的に焦点を絞ったコーパスの事前学習が有望なアプローチであることが示唆された。
本稿では,マレーシア英語に焦点をあてたNLP研究のためのデータセットとコードについて述べる。
Malaysian English is a low resource creole language, where it carries the elements of Malay, Chinese, and Tamil languages, in addition to Standard English. Named Entity Recognition (NER) models underperform when capturing entities from Malaysian English text due to its distinctive morphosyntactic adaptations, semantic features and code-switching (mixing English and Malay). Considering these gaps, we introduce MENmBERT and MENBERT, a pre-trained language model with contextual understanding, specifically tailored for Malaysian English. We have fine-tuned MENmBERT and MENBERT using manually annotated entities and relations from the Malaysian English News Article (MEN) Dataset. This fine-tuning process allows the PLM to learn representations that capture the nuances of Malaysian English relevant for NER and RE tasks. MENmBERT achieved a 1.52\% and 26.27\% improvement on NER and RE tasks respectively compared to the bert-base-multilingual-cased model. Although the overall performance of NER does not have a significant improvement, our further analysis shows that there is a significant improvement when evaluated by the 12 entity labels. These findings suggest that pre-training language models on language-specific and geographically-focused corpora can be a promising approach for improving NER performance in low-resource settings. The dataset and code published in this paper provide valuable resources for NLP research work focusing on Malaysian English. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# TransferAttn:ビデオドメイン適応に必要なのはTransferable-guided Attention
TransferAttn: Transferable-guided Attention Is All You Need for Video Domain Adaptation ( http://arxiv.org/abs/2407.01375v1 ) ライセンス: Link先を確認 | André Sacilotti, Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida, | (参考訳) ビデオにおける教師なしドメイン適応(UDA)は、画像ベースのUDA技術と比較しても十分に検討されていない課題である。
多くのコンピュータビジョンタスクにおいて、ビジョントランスフォーマー(ViT)は最先端のパフォーマンスを実現するが、ビデオ領域の適応においての使用はほとんど検討されていない。
我々のキーとなる考え方は、トランスフォーマー層を特徴エンコーダとして使用し、空間的および時間的伝達可能性の関係をアテンション機構に組み込むことである。
Transferable-Guided Attention (TransferAttn)フレームワークが開発され、トランスフォーマーの能力を利用して異なるバックボーンからドメイン間の知識を適用する。
ViTの転送性を改善するために,ドメイン転送誘導型アテンションブロック(DTAB)という,新規で効果的なモジュールを導入する。
DTABは、自己アテンション機構を転送可能性アテンション機構に変更することにより、ビデオフレーム間の時空間転送可能性関係に集中するようにViTを補償する。
UCF-HMDB、Kinetics-Gameplay、Kinetics-NEC Droneデータセットに対する大規模な実験は、ResNet101、I3D、STAMのような異なるバックボーンを持つもので、最先端のアプローチと比較してTransferAttnの有効性を検証する。
また,ビデオ領域と画像領域の両方から,他の最先端トランスフォーマーベースのUDA手法に適用した場合,DTABが性能向上をもたらすことを示す。
コードは無料で提供されます。
Unsupervised domain adaptation (UDA) in videos is a challenging task that remains not well explored compared to image-based UDA techniques. Although vision transformers (ViT) achieve state-of-the-art performance in many computer vision tasks, their use in video domain adaptation has still been little explored. Our key idea is to use the transformer layers as a feature encoder and incorporate spatial and temporal transferability relationships into the attention mechanism. A Transferable-guided Attention (TransferAttn) framework is then developed to exploit the capacity of the transformer to adapt cross-domain knowledge from different backbones. To improve the transferability of ViT, we introduce a novel and effective module named Domain Transferable-guided Attention Block~(DTAB). DTAB compels ViT to focus on the spatio-temporal transferability relationship among video frames by changing the self-attention mechanism to a transferability attention mechanism. Extensive experiments on UCF-HMDB, Kinetics-Gameplay, and Kinetics-NEC Drone datasets with different backbones, like ResNet101, I3D, and STAM, verify the effectiveness of TransferAttn compared with state-of-the-art approaches. Also, we demonstrate that DTAB yields performance gains when applied to other state-of-the-art transformer-based UDA methods from both video and image domains. The code will be made freely available. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# バドラマ3号:ラマ3号から安全微調整を数分で取り除く
Badllama 3: removing safety finetuning from Llama 3 in minutes ( http://arxiv.org/abs/2407.01376v1 ) ライセンス: Link先を確認 | Dmitrii Volkov, | (参考訳) 我々は,攻撃者がモデル重みにアクセスできる場合,LLMの安全性を詳細に調整することは容易であることを示す。
我々は、最先端の細調整手法であるQLoRA、ReFT、Orthoを3つ評価し、FLOPのカットと最適化能力により、アルゴリズムの進歩によって継続的にジェイルブレーキング性能が向上することを示す。
Llama 3 8Bを1分で、Llama 3 70Bを1つのGPUで30分で、安全性の微調整を1分で行う。
We show that extensive LLM safety fine-tuning is easily subverted when an attacker has access to model weights. We evaluate three state-of-the-art fine-tuning methods-QLoRA, ReFT, and Ortho-and show how algorithmic advances enable constant jailbreaking performance with cuts in FLOPs and optimisation power. We strip safety fine-tuning from Llama 3 8B in one minute and Llama 3 70B in 30 minutes on a single GPU, and sketch ways to reduce this further. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# スループットと圧縮率を超えて:グラディエント圧縮の高エンドツーエンド性を目指して
Beyond Throughput and Compression Ratios: Towards High End-to-end Utility of Gradient Compression ( http://arxiv.org/abs/2407.01378v1 ) ライセンス: Link先を確認 | Wenchen Han, Shay Vargaftik, Michael Mitzenmacher, Brad Karp, Ran Ben Basat, | (参考訳) グラディエントアグリゲーションは、今日の大規模分散機械学習トレーニングシステムにおいて、長い間大きなボトルネックとして認識されてきた。
このようなボトルネックを軽減するための有望な解決策の1つは、グラデーション圧縮であり、通信されたグラデーションデータボリュームを直接削減する。
しかし、実際には、多くの勾配圧縮スキームは、精度を保ちながらトレーニングプロセスの加速を達成することができない。
本研究では,従来の勾配圧縮システムと評価手法の共通点について述べる。
これらの問題には、過剰な計算オーバーヘッド、全リデューサとの互換性の欠如、エンド・ツー・エンドのメトリクスを使用しない、または16ビットのベースラインの代わりに32ビットのベースラインを使用しないといった不適切な評価指標が含まれる。
本稿では,これらの課題に対処するための設計・評価手法をいくつか提案し,今後の課題に対するガイドラインを提供する。
予備評価の結果,本手法によりシステムの性能が向上し,勾配圧縮手法のエンド・ツー・エンドの有用性がより明確になった。
Gradient aggregation has long been identified as a major bottleneck in today's large-scale distributed machine learning training systems. One promising solution to mitigate such bottlenecks is gradient compression, directly reducing communicated gradient data volume. However, in practice, many gradient compression schemes do not achieve acceleration of the training process while also preserving accuracy. In this work, we identify several common issues in previous gradient compression systems and evaluation methods. These issues include excessive computational overheads; incompatibility with all-reduce; and inappropriate evaluation metrics, such as not using an end-to-end metric or using a 32-bit baseline instead of a 16-bit baseline. We propose several general design and evaluation techniques to address these issues and provide guidelines for future work. Our preliminary evaluation shows that our techniques enhance the system's performance and provide a clearer understanding of the end-to-end utility of gradient compression methods. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# 可読性レベル制御による自由文ラジエーレ生成
Free-text Rationale Generation under Readability Level Control ( http://arxiv.org/abs/2407.01384v1 ) ライセンス: Link先を確認 | Yi-Sheng Hsu, Nils Feldhus, Sherzod Hakimov, | (参考訳) 自由文理理性は自然言語におけるモデル決定を正当化し、多くのタスクをまたいだ説明のアプローチにおいて、自由でアクセスしやすいものとなる。
しかし、その効果は誤解や幻覚によって妨げられる。
摂動試験として,第6学年や大学など,特定の専門的レベルを対象とする理論的根拠を求めて,可読性レベル制御の影響下で,大規模言語モデル(LLM)が自然言語説明(NLE)のタスクをどのように実行するかを検討する。
説明書はそのような命令に適応するが、要求される可読性は、従来の可読性指標に従って、測定されたテキストの複雑さと不一致であることが多い。
さらに,LLMのテキスト複雑性に対する有理性評価は,自然言語生成(NLG)と類似した嗜好パターンを示す。
最後に、人間の評価から、すべての可読性レベルにおける理性に対する概ね満足な印象が示唆され、高校レベルの可読性が最も認識され、好まれる。
Free-text rationales justify model decisions in natural language and thus become likable and accessible among approaches to explanation across many tasks. However, their effectiveness can be hindered by misinterpretation and hallucination. As a perturbation test, we investigate how large language models (LLMs) perform the task of natural language explanation (NLE) under the effects of readability level control, i.e., being prompted for a rationale targeting a specific expertise level, such as sixth grade or college. We find that explanations are adaptable to such instruction, but the requested readability is often misaligned with the measured text complexity according to traditional readability metrics. Furthermore, the quality assessment shows that LLMs' ratings of rationales across text complexity exhibit a similar pattern of preference as observed in natural language generation (NLG). Finally, our human evaluation suggests a generally satisfactory impression on rationales at all readability levels, with high-school-level readability being most commonly perceived and favored. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# POLygraph: ポーランドのフェイクニュースデータセット
POLygraph: Polish Fake News Dataset ( http://arxiv.org/abs/2407.01393v1 ) ライセンス: Link先を確認 | Daniel Dzienisiewicz, Filip Graliński, Piotr Jabłoński, Marek Kubis, Paweł Skórzewski, Piotr Wierzchoń, | (参考訳) 本稿では,ポーランドにおける偽ニュース検出のためのユニークなリソースであるPOLygraphデータセットを提案する。
学際チームによって作成されたデータセットは、11,360対のニュース記事(URLで識別される)とそれに対応するラベルを持つ「フェイク・オア・ノット」データセットと、5,082のニュース記事(URLで識別される)とツイートをコメントする「フェイク・テア・セイ」データセットの2つの部分で構成されている。
既存のデータセットとは異なり、POLygraphはソース文献からのさまざまなアプローチを包含し、フェイクニュース検出のための包括的なリソースを提供する。
データは専門家や非専門家のアノテーションによって手作業で収集された。
このプロジェクトはまた、高度な機械学習技術を使用してデータを分析し、コンテンツの信頼性を決定するソフトウェアツールも開発した。
ツールとデータセットは、公共セクター機関から出版社、ファクトチェック組織に至るまで、さまざまな組織に恩恵をもたらすことが期待されている。
さらなるデータセット探索により、偽ニュースの検出が促進され、他の言語での類似モデルの実装が促進される可能性がある。
本論文は,データセットの作成と構成に重点を置いているため,プロジェクトの後半に計画されている,コンテンツ信頼性分析のためのソフトウェアツールの詳細な評価は含まない。
This paper presents the POLygraph dataset, a unique resource for fake news detection in Polish. The dataset, created by an interdisciplinary team, is composed of two parts: the "fake-or-not" dataset with 11,360 pairs of news articles (identified by their URLs) and corresponding labels, and the "fake-they-say" dataset with 5,082 news articles (identified by their URLs) and tweets commenting on them. Unlike existing datasets, POLygraph encompasses a variety of approaches from source literature, providing a comprehensive resource for fake news detection. The data was collected through manual annotation by expert and non-expert annotators. The project also developed a software tool that uses advanced machine learning techniques to analyze the data and determine content authenticity. The tool and dataset are expected to benefit various entities, from public sector institutions to publishers and fact-checking organizations. Further dataset exploration will foster fake news detection and potentially stimulate the implementation of similar models in other languages. The paper focuses on the creation and composition of the dataset, so it does not include a detailed evaluation of the software tool for content authenticity analysis, which is planned at a later stage of the project. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# Gloss2Text: LLMとSemantically Aware Label Smoothingを用いた手話グロス翻訳
Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing ( http://arxiv.org/abs/2407.01394v1 ) ライセンス: Link先を確認 | Pooya Fayyazsanavi, Antonios Anastasopoulos, Jana Košecká, | (参考訳) ビデオから音声テキストへの手話翻訳は、異なる文法、表現ニュアンス、異なる話者や文脈間での視覚的外観の変化により、独特な課題を呈している。
ビデオの中間的な光沢アノテーションは、翻訳プロセスのガイドを目的としている。
本研究は,既存の言語モデル(LLM),データ拡張,光沢変換の曖昧性を利用した新しいラベル平滑化損失関数を活用することで,最先端の手法の性能を大幅に向上させることにより,翻訳段階に着目し,いくつかの進歩を提案する。
PHOENIX Weather 2014Tデータセットに関する広範な実験とアブレーション研究を通じて、我々のアプローチは、手話翻訳における最先端のパフォーマンスを超越し、手話翻訳におけるその有効性を示し、将来の研究開発への道のりを示唆している。
Sign language translation from video to spoken text presents unique challenges owing to the distinct grammar, expression nuances, and high variation of visual appearance across different speakers and contexts. The intermediate gloss annotations of videos aim to guide the translation process. In our work, we focus on {\em Gloss2Text} translation stage and propose several advances by leveraging pre-trained large language models (LLMs), data augmentation, and novel label-smoothing loss function exploiting gloss translation ambiguities improving significantly the performance of state-of-the-art approaches. Through extensive experiments and ablation studies on the PHOENIX Weather 2014T dataset, our approach surpasses state-of-the-art performance in {\em Gloss2Text} translation, indicating its efficacy in addressing sign language translation and suggesting promising avenues for future research and development. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# マスクと圧縮:連続学習における効率的な骨格に基づく行動認識
Mask and Compress: Efficient Skeleton-based Action Recognition in Continual Learning ( http://arxiv.org/abs/2407.01397v1 ) ライセンス: Link先を確認 | Matteo Mosconi, Andriy Sorokin, Aniello Panariello, Angelo Porrello, Jacopo Bonato, Marco Cotogni, Luigi Sabetta, Simone Calderara, Rita Cucchiara, | (参考訳) 骨格データを使用することで、ディープラーニングモデルがアクション認識を効率的かつ効果的に行うことができる。
ここでは、継続的学習の文脈内でこの問題を探求することが重要であると信じている。
多くの研究は、従来のオフラインの観点からの骨格に基づく行動認識に焦点を当てているが、オンラインアプローチへのベンチャーはごくわずかである。
本稿では,CHARON(Continual Human Action Recognition On skeletoNs)を導入し,効率的なフレームワーク内で動作しながら一貫した性能を維持する。
マスクによる一様サンプリング,補間,メモリ効率のトレーニングといった手法により,計算オーバーヘッドを最小限に抑えながら,認識精度の向上を実現した。
Split NTU-60 と提案した Split NTU-120 データセットに関する実験により,CHARON がこの領域に新たなベンチマークを設定できることが示されている。
コードはhttps://github.com/Sperimental3/CHARONで公開されている。
The use of skeletal data allows deep learning models to perform action recognition efficiently and effectively. Herein, we believe that exploring this problem within the context of Continual Learning is crucial. While numerous studies focus on skeleton-based action recognition from a traditional offline perspective, only a handful venture into online approaches. In this respect, we introduce CHARON (Continual Human Action Recognition On skeletoNs), which maintains consistent performance while operating within an efficient framework. Through techniques like uniform sampling, interpolation, and a memory-efficient training stage based on masking, we achieve improved recognition accuracy while minimizing computational overhead. Our experiments on Split NTU-60 and the proposed Split NTU-120 datasets demonstrate that CHARON sets a new benchmark in this domain. The code is available at https://github.com/Sperimental3/CHARON. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# GalLoP:ビジョンランゲージモデルのためのグローバルおよびローカルプロンプトの学習
GalLoP: Learning Global and Local Prompts for Vision-Language Models ( http://arxiv.org/abs/2407.01400v1 ) ライセンス: Link先を確認 | Marc Lafon, Elias Ramzi, Clément Rambour, Nicolas Audebert, Nicolas Thome, | (参考訳) プロンプト学習は視覚言語モデル(VLM)、例えばCLIPを数ショット画像分類に効果的に適用するために広く採用されている。
その成功にもかかわらず、最も迅速な学習手法は分類精度と堅牢性、例えばドメインの一般化やアウト・オブ・ディストリビューション(OOD)の検出のトレードオフである。
本研究では,グローバル・ローカル・プロンプト(GalLoP)を導入した。グローバル・ローカル・プロンプト(GalLoP)は,多種多様なプロンプトを学習する新しいプロンプト学習手法である。
局所的なプロンプトの訓練は、視覚テキストアライメントが強化された局所的な特徴に依存している。
この局所的なアライメントは、関連する特徴のみに焦点を合わせるために、局所的な特徴の選択におけるスパーシティ戦略と結合される。
我々は,新しい<prompt dropout'テクニックと局所的なプロンプトのマルチスケール戦略を用いて,プロンプトの集合に多様性を強制する。
GalLoPは、異なるいくつかのショット設定とさまざまなバックボーンで11のデータセットの精度で、以前のプロンプト学習方法よりも優れています。
さらに、GalLoPはドメイン一般化とOOD検出の両方において強い堅牢性を示し、専用のOOD検出方法よりも優れている。
結果の再現のためのコードと命令はオープンソースになります。
Prompt learning has been widely adopted to efficiently adapt vision-language models (VLMs), e.g. CLIP, for few-shot image classification. Despite their success, most prompt learning methods trade-off between classification accuracy and robustness, e.g. in domain generalization or out-of-distribution (OOD) detection. In this work, we introduce Global-Local Prompts (GalLoP), a new prompt learning method that learns multiple diverse prompts leveraging both global and local visual features. The training of the local prompts relies on local features with an enhanced vision-text alignment. To focus only on pertinent features, this local alignment is coupled with a sparsity strategy in the selection of the local features. We enforce diversity on the set of prompts using a new ``prompt dropout'' technique and a multiscale strategy on the local prompts. GalLoP outperforms previous prompt learning methods on accuracy on eleven datasets in different few shots settings and with various backbones. Furthermore, GalLoP shows strong robustness performances in both domain generalization and OOD detection, even outperforming dedicated OOD detection methods. Code and instructions to reproduce our results will be open-sourced. | 翻訳日:2024-07-03 21:00:48 公開日:2024-07-01 |
# 決定木学習における超コンスタント不適応性
Superconstant Inapproximability of Decision Tree Learning ( http://arxiv.org/abs/2407.01402v1 ) ライセンス: Link先を確認 | Caleb Koch, Carmen Strassle, Li-Yang Tan, | (参考訳) PAC学習決定木をクエリで適切に学習する作業について検討する。
Koch, Strassle, および Tan の最近の研究は、仮説木 $T$ が最適に小さいことが要求されるこのタスクの最も厳密なバージョンは NP-hard であることを示した。
彼らの研究は、もし$T$がちょうど最適であるのではなく、例えば2の係数の範囲内でのみ必要であるなら、そのタスクが難解であるかどうかという疑問を解き放つ。
我々はこれを肯定的に答え、もし$T$が最適の定数係数内にあるとしても、そのタスクがNPハードのままであることを示す。
より一般的には、この結果は硬度仮定と不近似係数とのスムーズなトレードオフを可能にする。
Koch et al の手法はそのような強化には耐えられないように見えるため、我々はまず、決定木に対する新しい XOR レムマを結合した、より単純で単純な証明によって、それらの結果を回復する。
決定木に対するXOR補題には多くの研究があるが、我々の設定は極めて鋭く、既存のXOR補題では達成できないパラメータを必要とする。
また,本研究は,決定木最小化の問題に対する新たな意味ももたらしている。
We consider the task of properly PAC learning decision trees with queries. Recent work of Koch, Strassle, and Tan showed that the strictest version of this task, where the hypothesis tree $T$ is required to be optimally small, is NP-hard. Their work leaves open the question of whether the task remains intractable if $T$ is only required to be close to optimal, say within a factor of 2, rather than exactly optimal. We answer this affirmatively and show that the task indeed remains NP-hard even if $T$ is allowed to be within any constant factor of optimal. More generally, our result allows for a smooth tradeoff between the hardness assumption and the inapproximability factor. As Koch et al.'s techniques do not appear to be amenable to such a strengthening, we first recover their result with a new and simpler proof, which we couple with a new XOR lemma for decision trees. While there is a large body of work on XOR lemmas for decision trees, our setting necessitates parameters that are extremely sharp, and are not known to be attainable by existing XOR lemmas. Our work also carries new implications for the related problem of Decision Tree Minimization. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 外乱検出を用いた検索付加生成コンテキストの最適化
Optimization of Retrieval-Augmented Generation Context with Outlier Detection ( http://arxiv.org/abs/2407.01403v1 ) ライセンス: Link先を確認 | Vitaly Bulgakov, | (参考訳) そこで本稿では,質問応答システムに必要な文脈の最小化と品質向上に焦点をあてる。
検索したチャンクドキュメントの数を増やし、クエリに関連するコンテキストを拡大しようとする試みは、クエリに対する応答を生成する際に、処理を著しく複雑化し、LLM(Large Language Model)の性能を低下させる可能性がある。
クエリに応答してデータベースから取得された大量のドキュメントには、無関係な情報が含まれており、その結果の答えに幻覚をもたらすことがよく知られている。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
本稿では,ベクタデータベースから取得した埋め込みベクトルから,センタロイドとクエリベクタの両方への距離を利用する特徴を生かして,外れ値を特定するためのいくつかの手法を提案し,評価する。
提案手法は,OpenAI GPT-4oモデルを用いて,検索したLLM応答と接地真実解との類似性を比較して評価した。
その結果,質問や回答の複雑さを増大させることで,最大の改善が得られた。
In this paper, we focus on methods to reduce the size and improve the quality of the prompt context required for question-answering systems. Attempts to increase the number of retrieved chunked documents and thereby enlarge the context related to the query can significantly complicate the processing and decrease the performance of a Large Language Model (LLM) when generating responses to queries. It is well known that a large set of documents retrieved from a database in response to a query may contain irrelevant information, which often leads to hallucinations in the resulting answers. Our goal is to select the most semantically relevant documents, treating the discarded ones as outliers. We propose and evaluate several methods for identifying outliers by creating features that utilize the distances of embedding vectors, retrieved from the vector database, to both the centroid and the query vectors. The methods were evaluated by comparing the similarities of the retrieved LLM responses to ground-truth answers obtained using the OpenAI GPT-4o model. It was found that the greatest improvements were achieved with increasing complexity of the questions and answers. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 適応器による知識グラフを用いた低リソース言語への多言語LLMの適用
Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters ( http://arxiv.org/abs/2407.01406v1 ) ライセンス: Link先を確認 | Daniil Gurgurov, Mareike Hartmann, Simon Ostermann, | (参考訳) 本稿では,言語オントロジーから多言語大言語モデル (LLM) へのグラフ知識の統合を,低リソース言語 (LRL) における感情分析 (SA) と名前付きエンティティ認識 (NER) の性能向上のためにアダプタを用いて検討する。
K-ADAPTERやMAD-Xといったパラメータ効率の高い微調整手法を成功裏に構築し、多言語グラフから知識を取り入れ、言語関係を通じて様々な言語の概念をLRLの多言語LLMに結合する同様の手法を提案する。
具体的には、マルタ語、ブルガリア語、インドネシア語、ネパール語、ジャワ語、ウイグル語、チベット語、シンハラの8つのLRLに注目し、ConceptNetの言語固有のセクションから抽出されたデータに基づいて微調整された言語固有のアダプタを採用し、知識グラフがカバーする言語間の知識伝達を可能にすることを目的としています。
本稿では,MLM(Masked Language Modeling)やフルワードマスキングによるMLM,ターゲットマスキングによるMLMなど,さまざまな微調整目標を比較して,抽出したグラフデータを学習・統合する上での有効性について分析する。
言語固有のタスクに対する経験的評価を通じて、構造化グラフ知識が、SAおよびNERにおけるLRLにおける多言語LLMの性能にどのように影響するかを評価し、低リソースシナリオに対する言語モデルの適用の可能性について考察する。
This paper explores the integration of graph knowledge from linguistic ontologies into multilingual Large Language Models (LLMs) using adapters to improve performance for low-resource languages (LRLs) in sentiment analysis (SA) and named entity recognition (NER). Building upon successful parameter-efficient fine-tuning techniques, such as K-ADAPTER and MAD-X, we propose a similar approach for incorporating knowledge from multilingual graphs, connecting concepts in various languages with each other through linguistic relationships, into multilingual LLMs for LRLs. Specifically, we focus on eight LRLs -- Maltese, Bulgarian, Indonesian, Nepali, Javanese, Uyghur, Tibetan, and Sinhala -- and employ language-specific adapters fine-tuned on data extracted from the language-specific section of ConceptNet, aiming to enable knowledge transfer across the languages covered by the knowledge graph. We compare various fine-tuning objectives, including standard Masked Language Modeling (MLM), MLM with full-word masking, and MLM with targeted masking, to analyse their effectiveness in learning and integrating the extracted graph data. Through empirical evaluation on language-specific tasks, we assess how structured graph knowledge affects the performance of multilingual LLMs for LRLs in SA and NER, providing insights into the potential benefits of adapting language models for low-resource scenarios. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# コードレビューサポートの廃止に向けて
Towards debiasing code review support ( http://arxiv.org/abs/2407.01407v1 ) ライセンス: Link先を確認 | Tobias Jetzen, Xavier Devroey, Nicolas Matton, Benoît Vanderose, | (参考訳) 認知バイアスはコードレビュー中に現れる。
フィードバックの作成と、それが開発者によってどのように解釈されるかに大きな影響を与えます。
これらのバイアスは、非論理的推論と意思決定につながり、コードレビューをサポートする主要な仮説の1つ、開発者の正確で客観的なコード評価に違反する可能性がある。
本稿では、コードレビュー中の認知バイアスによる有害な症例と、そのようなケースを避けたり、その影響を軽減するための潜在的な解決策について検討する。
特に,確認バイアスと判定疲労を対象とするプロトタイプを複数設計する。
ユーザビリティテストを実施し,ユーザエクスペリエンスアンケート(UEQ)と参加者のフィードバックでプロトタイプを検証することで,開発者中心のデザインアプローチに頼る。
既存のコードレビューツールでは、レビュー担当者が十分に受け入れているため、いくつかのテクニックが実装可能であることを示し、コードレビューに有害な振る舞いを防ぐのに役立ちます。
この研究は、コードレビューで認知バイアスを扱うための、しっかりとした第一のアプローチを提供します。
Cognitive biases appear during code review. They significantly impact the creation of feedback and how it is interpreted by developers. These biases can lead to illogical reasoning and decision-making, violating one of the main hypotheses supporting code review: developers' accurate and objective code evaluation. This paper explores harmful cases caused by cognitive biases during code review and potential solutions to avoid such cases or mitigate their effects. In particular, we design several prototypes covering confirmation bias and decision fatigue. We rely on a developer-centered design approach by conducting usability tests and validating the prototype with a user experience questionnaire (UEQ) and participants' feedback. We show that some techniques could be implemented in existing code review tools as they are well accepted by reviewers and help prevent behavior detrimental to code review. This work provides a solid first approach to treating cognitive bias in code review. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 視覚言語コントラスト学習を支援する意味的構成
Semantic Compositions Enhance Vision-Language Contrastive Learning ( http://arxiv.org/abs/2407.01408v1 ) ライセンス: Link先を確認 | Maxwell Aladago, Lorenzo Torresani, Soroush Vosoughi, | (参考訳) 視覚言語によるコントラスト学習の分野では、CLIPのようなモデルでは、マッチングされた画像キャプチャペアを正の例として活用し、非マッチングペアを負の例として活用する。
このアプローチはゼロショット画像分類、クロスモーダル検索、線形評価タスクにおいて顕著な結果をもたらした。
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
視覚分類においてCutMixにインスパイアされた我々は、新しい手順により、データセット内の2つの異なるインスタンスから要素をマージすることで、意味論的に複合的な画像キャプチャペアを作成する。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
この単純な手法(CLIP合成のためのCLIP-Cと呼ばれる)は、追加の計算オーバーヘッドやモデルパラメータの増加を伴わず、ゼロショット画像分類とクロスモーダル検索を大幅に改善する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
In the field of vision-language contrastive learning, models such as CLIP capitalize on matched image-caption pairs as positive examples and leverage within-batch non-matching pairs as negatives. This approach has led to remarkable outcomes in zero-shot image classification, cross-modal retrieval, and linear evaluation tasks. We show that the zero-shot classification and retrieval capabilities of CLIP-like models can be improved significantly through the introduction of semantically composite examples during pretraining. Inspired by CutMix in vision categorization, we create semantically composite image-caption pairs by merging elements from two distinct instances in the dataset via a novel procedure. Our method fuses the captions and blends 50% of each image to form a new composite sample. This simple technique (termed CLIP-C for CLIP Compositions), devoid of any additional computational overhead or increase in model parameters, significantly improves zero-shot image classification and cross-modal retrieval. The benefits of CLIP-C are particularly pronounced in settings with relatively limited pretraining data. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 知識グラフ質問応答のための動的Few-Shot学習
Dynamic Few-Shot Learning for Knowledge Graph Question Answering ( http://arxiv.org/abs/2407.01409v1 ) ライセンス: Link先を確認 | Jacopo D'Abramo, Andrea Zugarini, Paolo Torroni, | (参考訳) 大規模言語モデルは知識グラフ(KGQA)に対する革新的な質問回答の機会を提供する。
しかし、これらは本質的にクエリ生成のために設計されていない。
このギャップを埋めるために、ファインチューニングやアドホックなアーキテクチャに依存し、良い結果を得るが、領域外分布の一般化は限られるソリューションが提案されている。
本研究では,DFSL(Dynamic Few-Shot Learning)と呼ばれる新しい手法を提案する。
DFSLは、文脈内学習の効率性と意味的類似性を統合し、最先端の性能を持つKGQAの一般的なソリューションを提供する。
複数のベンチマークデータセットとアーキテクチャ構成に対して、広範な評価を実施しています。
Large language models present opportunities for innovative Question Answering over Knowledge Graphs (KGQA). However, they are not inherently designed for query generation. To bridge this gap, solutions have been proposed that rely on fine-tuning or ad-hoc architectures, achieving good results but limited out-of-domain distribution generalization. In this study, we introduce a novel approach called Dynamic Few-Shot Learning (DFSL). DFSL integrates the efficiency of in-context learning and semantic similarity and provides a generally applicable solution for KGQA with state-of-the-art performance. We run an extensive evaluation across multiple benchmark datasets and architecture configurations. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# StyleShot: あらゆるスタイルのスナップショット
StyleShot: A Snapshot on Any Style ( http://arxiv.org/abs/2407.01414v1 ) ライセンス: Link先を確認 | Junyao Gao, Yanchen Liu, Yanan Sun, Yinhao Tang, Yanhong Zeng, Kai Chen, Cairong Zhao, | (参考訳) 本稿では,テスト時チューニングを伴わない汎用的なスタイル伝達において,優れたスタイル表現が不可欠であり,十分であることを示す。
スタイル認識型エンコーダと、StyleGalleryと呼ばれるよく編成されたスタイルデータセットを構築することで、これを実現する。
スタイル学習専用設計により、このスタイル認識エンコーダは、デカップリングトレーニング戦略を用いて表現型スタイル表現を抽出するように訓練され、StyleGalleryは一般化能力を実現する。
さらに、画像駆動型スタイル転送を強化するためにコンテンツ融合エンコーダを用いる。
StyleShotという名前の私たちのアプローチは、テストタイムチューニングなしで、3D、フラット、抽象、さらにはきめ細かなスタイルを模倣するのにシンプルだが効果的である点を強調します。
StyleShotは、既存の最先端の手法と比較して、幅広いスタイルで優れたパフォーマンスを実現しています。
プロジェクトページは以下の通りである。
In this paper, we show that, a good style representation is crucial and sufficient for generalized style transfer without test-time tuning. We achieve this through constructing a style-aware encoder and a well-organized style dataset called StyleGallery. With dedicated design for style learning, this style-aware encoder is trained to extract expressive style representation with decoupling training strategy, and StyleGallery enables the generalization ability. We further employ a content-fusion encoder to enhance image-driven style transfer. We highlight that, our approach, named StyleShot, is simple yet effective in mimicking various desired styles, i.e., 3D, flat, abstract or even fine-grained styles, without test-time tuning. Rigorous experiments validate that, StyleShot achieves superior performance across a wide range of styles compared to existing state-of-the-art methods. The project page is available at: https://styleshot.github.io/. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# RoboPack:Dense Packingのための触覚インフォームドダイナミクスモデルを学習する
RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing ( http://arxiv.org/abs/2407.01418v1 ) ライセンス: Link先を確認 | Bo Ai, Stephen Tian, Haochen Shi, Yixuan Wang, Cheston Tan, Yunzhu Li, Jiajun Wu, | (参考訳) 触覚フィードバックは、非包括的操作や密パッケージングといった多くの操作タスクにおいて、剛性オブジェクトと変形可能なオブジェクトの両方のダイナミクスを理解するために重要である。
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、過去のビジュオ触覚観測から粒子や物体レベルの潜伏物理情報を含むオブジェクト状態を推定し、将来の状態予測を行うために、再帰的なグラフニューラルネットワークを用いている。
実世界のデータから学習した触覚インフォームド・ダイナミクス・モデルは、モデル予測制御を用いて下流ロボットのタスクを解くことができる。
我々は,非包括的操作と密包装作業に対して,ソフトバブル触覚センサを搭載した実ロボットに対して,ロボットが直接的・間接的相互作用から物体の物理特性を推定する必要があることを実証する。
タスク毎の実際のインタラクションデータの平均30分でトレーニングされたモデルでは,オンライン適応とタッチインフォームド予測が可能である。
本手法は,長期間のダイナミクス予測と実世界操作の両面での広範な評価を通じて,従来の学習に基づくシミュレーションシステムや物理に基づくシミュレーションシステムと比較して,優れた効果を示す。
Tactile feedback is critical for understanding the dynamics of both rigid and deformable objects in many manipulation tasks, such as non-prehensile manipulation and dense packing. We introduce an approach that combines visual and tactile sensing for robotic manipulation by learning a neural, tactile-informed dynamics model. Our proposed framework, RoboPack, employs a recurrent graph neural network to estimate object states, including particles and object-level latent physics information, from historical visuo-tactile observations and to perform future state predictions. Our tactile-informed dynamics model, learned from real-world data, can solve downstream robotics tasks with model-predictive control. We demonstrate our approach on a real robot equipped with a compliant Soft-Bubble tactile sensor on non-prehensile manipulation and dense packing tasks, where the robot must infer the physics properties of objects from direct and indirect interactions. Trained on only an average of 30 minutes of real-world interaction data per task, our model can perform online adaptation and make touch-informed predictions. Through extensive evaluations in both long-horizon dynamics prediction and real-world manipulation, our method demonstrates superior effectiveness compared to previous learning-based and physics-based simulation systems. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 深層学習と合成訓練データを用いた sOCT における神経血管の分節化
Neurovascular Segmentation in sOCT with Deep Learning and Synthetic Training Data ( http://arxiv.org/abs/2407.01419v1 ) ライセンス: Link先を確認 | Etienne Chollet, Yaël Balbastre, Chiara Mauri, Caroline Magnain, Bruce Fischl, Hui Wang, | (参考訳) 微小血管解剖は様々な神経疾患に関与していることが知られている。
しかし、これらの障害を理解することは、顕微鏡で包括的に3次元の血管ネットワーク構造を捉えることができる画像モダリティの欠如によって妨げられている。
側方分解能が$<=$20 {\textmu}mであり, 数十立方センチメートルの組織ブロックを再構築できるため, 直列断面光コヒーレンストモグラフィー(sOCT)が有用である。
この方法は、内在的な光学特性を用いて血管を可視化するので、特定のコントラストを持たず、正確な血管モデルの抽出を複雑にする。
一方、畳み込みニューラルネットワーク(CNN)は広範なラベル付きデータを必要とし、訓練されたデータの正確な強度特性にも敏感である。
本研究は, 合成ベーストレーニングの新たな分野を基盤として, sOCT画像における神経血管セグメンテーションのための合成エンジンを実証する。
5つの異なる sOCT 取得で検証した手法は,ヒトレベルの精度を達成しながら手動のアノテーションの必要性を排除し,最小の先行値と高分散サンプリングにより特徴付けられる。
提案手法は,ラベル合成とラベル・ツー・イメージ変換の2段階からなる。
前者の有効性を,より現実的なトレーニングラベルの集合と比較し,後者を合成ノイズと人工物モデルのアブレーション研究により実証した。
Microvascular anatomy is known to be involved in various neurological disorders. However, understanding these disorders is hindered by the lack of imaging modalities capable of capturing the comprehensive three-dimensional vascular network structure at microscopic resolution. With a lateral resolution of $<=$20 {\textmu}m and ability to reconstruct large tissue blocks up to tens of cubic centimeters, serial-section optical coherence tomography (sOCT) is well suited for this task. This method uses intrinsic optical properties to visualize the vessels and therefore does not possess a specific contrast, which complicates the extraction of accurate vascular models. The performance of traditional vessel segmentation methods is heavily degraded in the presence of substantial noise and imaging artifacts and is sensitive to domain shifts, while convolutional neural networks (CNNs) require extensive labeled data and are also sensitive the precise intensity characteristics of the data that they are trained on. Building on the emerging field of synthesis-based training, this study demonstrates a synthesis engine for neurovascular segmentation in sOCT images. Characterized by minimal priors and high variance sampling, our highly generalizable method tested on five distinct sOCT acquisitions eliminates the need for manual annotations while attaining human-level precision. Our approach comprises two phases: label synthesis and label-to-image transformation. We demonstrate the efficacy of the former by comparing it to several more realistic sets of training labels, and the latter by an ablation study of synthetic noise and artifact models. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# デュアルユース能力の協調公開:AIの早期警告システム
Coordinated Disclosure of Dual-Use Capabilities: An Early Warning System for Advanced AI ( http://arxiv.org/abs/2407.01420v1 ) ライセンス: Link先を確認 | Joe O'Brien, Shaun Ee, Jam Kraprayoon, Bill Anderson-Samways, Oscar Delaney, Zoe Williams, | (参考訳) 高度なAIシステムは、公共の安全やセキュリティに重大なリスクをもたらす能力を示すことができる。
また、AI脅威に対する社会的レジリエンスの発達を含む、幅広い領域で防御的に適用される可能性がある。
我々は、先進的なAI開発者や米国政府機関、その他の民間機関との早期の情報共有を支援するプロセスとして、CDDC(Coordinated Disclosure of Dual-Use Capabilities)を提案する。
このプロセスは、インフォメーション・クリアリングハウス(コーディネーター)を中心にしており、インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション(
これは、米国政府、デュアルユースファンデーションモデル開発者、その他のアクターに、公衆の安全とセキュリティに大きな影響を及ぼす可能性のあるAI機能の概要と、対応の最大時間を提供することを目的としている。
Advanced AI systems may be developed which exhibit capabilities that present significant risks to public safety or security. They may also exhibit capabilities that may be applied defensively in a wide set of domains, including (but not limited to) developing societal resilience against AI threats. We propose Coordinated Disclosure of Dual-Use Capabilities (CDDC) as a process to guide early information-sharing between advanced AI developers, US government agencies, and other private sector actors about these capabilities. The process centers around an information clearinghouse (the "coordinator") which receives evidence of dual-use capabilities from finders via mandatory and/or voluntary reporting pathways, and passes noteworthy reports to defenders for follow-up (i.e., further analysis and response). This aims to provide the US government, dual-use foundation model developers, and other actors with an overview of AI capabilities that could significantly impact public safety and security, as well as maximal time to respond. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# ゲージ固定による量子シミュレーション:格子ゲージ理論から動的フラックスモデルへ
Quantum Simulation with Gauge Fixing: from Ising Lattice Gauge Theory to Dynamical Flux Model ( http://arxiv.org/abs/2407.01422v1 ) ライセンス: Link先を確認 | Junsen Wang, Xiangxiang Sun, Wei Zheng, | (参考訳) 近年,合成力学ゲージ場の量子シミュレーションが注目されている。
ゲージ理論をシミュレートする伝統的な方法が2つある。
一つは、局所ゲージ対称性を持つゲージ理論のフルハミルトニアンを直接シミュレートすることである。
そしてもう1つは、射影ハミルトニアンを1つのゲージ部分セクターで設計することである。
本研究は, ゲージ理論のシミュレーションに向けた第3の方法である。
この概念を実証するために、はしご幾何学上のスピンレスフェルミオンと結合したイジング格子ゲージ場のゲージを固定する。
ゲージの固定の後、このゲージ理論はより単純なモデルに還元され、そこではフェルミオンは変動するダイナミックな$\mathbb{Z}_{2}$フラックスを持つはしごにホップする。
そして、このモデルが超低温の原子ガス中でフロケット工学によって実現可能であることを示す。
この動的フラックスモデルの解析的および数値的研究により、元の未固定ゲージ理論における分解相転移の制限が存在すると推定する。
この研究は、凝縮物質と高エネルギー物理学の両方に関連するゲージ固定の概念を用いて、格子ゲージ理論を量子的にシミュレートする方法を舗装する。
Quantum simulation of synthetic dynamic gauge field has attracted much attentions in recent years. There are two traditional ways to simulate gauge theories. One is to directly simulate the full Hamiltonian of gauge theories with local gauge symmetries. And the other is to engineer the projected Hamiltonian in one gauge subsector. In this work, we provide the third way towards the simulation of gauge theories based on \emph{gauge fixing}. To demonstrate this concept, we fix the gauge of an Ising lattice gauge field coupled with spinless fermions on a ladder geometry. After the gauge fixing, this gauge theory is reduced to a simpler model, in which fermions hop on a ladder with a fluctuating dynamical $\mathbb{Z}_{2}$ flux. Then we shows that this model can be realized via Floquet engineering in ultracold atomic gases. By analytical and numerical studies of this dynamical flux model, we deduce that there is confinement to deconfinement phase transition in the original unfixed gauge theory. This work paves the way to quantum simulate lattice gauge theory using the concept of gauge fixing, relevant both for condensed matter and high energy physics. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# FairLay-ML: データ駆動型社会批判ソフトウェアにおける公正性の直感的なデバッグ
FairLay-ML: Intuitive Debugging of Fairness in Data-Driven Social-Critical Software ( http://arxiv.org/abs/2407.01423v1 ) ライセンス: Link先を確認 | Normen Yu, Luciana Carreon, Gang Tan, Saeid Tizpaz-Niari, | (参考訳) データ駆動型ソフトウェアソリューションは、社会経済的、法的、倫理的意味を持つ重要な領域で顕著に利用されてきた。
しかし、データ駆動ソリューションの急速な採用は、自動意思決定支援ソフトウェアの信頼性に大きな脅威をもたらす。
開発者によるソリューションの理解の低下と、データセットの歴史的/現在のバイアスが主な課題である。
データ駆動型ソフトウェア開発者とエンドユーザを支援するために,データ駆動型ソリューションの公平さをテストし,説明するためのデバッグツールである‘toolname’を紹介した。
\toolnameは、データセットのロジック、トレーニングされたモデル、所定のデータポイントの決定を視覚化する。
また、様々なフェアネス・精度のトレードオフで様々なモデルを訓練する。
重要なのは、‘toolname’には、開発データセットを超えたバグを見つける反ファクトの公平性テストが組み込まれている。
そこで,<toolname</toolname</to>を用いて,偽陽性/陰性な偽陽性/陰性な偽陰性検査を行った。
\toolnameとそのベンチマークは、~\url{https://github.com/Pennswood/FairLay-ML}で公開されている。
ツールのライブバージョンは~\url{https://fairlayml-v2.streamlit.app/}で入手できる。
ツールのデモはhttps://youtu.be/wNI9UWkywVU?
t=127
Data-driven software solutions have significantly been used in critical domains with significant socio-economic, legal, and ethical implications. The rapid adoptions of data-driven solutions, however, pose major threats to the trustworthiness of automated decision-support software. A diminished understanding of the solution by the developer and historical/current biases in the data sets are primary challenges. To aid data-driven software developers and end-users, we present \toolname, a debugging tool to test and explain the fairness implications of data-driven solutions. \toolname visualizes the logic of datasets, trained models, and decisions for a given data point. In addition, it trains various models with varying fairness-accuracy trade-offs. Crucially, \toolname incorporates counterfactual fairness testing that finds bugs beyond the development datasets. We conducted two studies through \toolname that allowed us to measure false positives/negatives in prevalent counterfactual testing and understand the human perception of counterfactual test cases in a class survey. \toolname and its benchmarks are publicly available at~\url{https://github.com/Pennswood/FairLay-ML}. The live version of the tool is available at~\url{https://fairlayml-v2.streamlit.app/}. We provide a video demo of the tool at https://youtu.be/wNI9UWkywVU?t=127 | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# 関係分類のためのグローバルローカル注意機構
A Global-Local Attention Mechanism for Relation Classification ( http://arxiv.org/abs/2407.01424v1 ) ライセンス: Link先を確認 | Yiping Sun, | (参考訳) 関係抽出の重要な構成要素である関係分類では、2つの実体間の関係を識別する。
従来の研究は主に、局所的な文脈の重要性を見越して、アテンションメカニズムを世界規模で関係分類に統合することに重点を置いてきた。
このギャップに対処するため,本論文では,局所的焦点によるグローバルな注意力を高める,関係分類のための新たなグローバルな注意力メカニズムを提案する。
さらに,局所的な注意を喚起するための潜在的なキーワードを識別する,革新的なハードおよびソフトな局所化機構を提案する。
ハードローカライゼーション戦略とソフトローカライゼーション戦略の両方を取り入れることで、我々のアプローチは、効果的な関係分類に寄与する文脈的手がかりをよりきめ細やかな理解を提供する。
SemEval-2010 Task 8のデータセットに対する実験結果から,従来のアテンションに基づく関係分類手法と比較して,提案手法の優れた性能が示された。
Relation classification, a crucial component of relation extraction, involves identifying connections between two entities. Previous studies have predominantly focused on integrating the attention mechanism into relation classification at a global scale, overlooking the importance of the local context. To address this gap, this paper introduces a novel global-local attention mechanism for relation classification, which enhances global attention with a localized focus. Additionally, we propose innovative hard and soft localization mechanisms to identify potential keywords for local attention. By incorporating both hard and soft localization strategies, our approach offers a more nuanced and comprehensive understanding of the contextual cues that contribute to effective relation classification. Our experimental results on the SemEval-2010 Task 8 dataset highlight the superior performance of our method compared to previous attention-based approaches in relation classification. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# FORA:拡散変圧器加速における高速前方キャッシング
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration ( http://arxiv.org/abs/2407.01425v1 ) ライセンス: Link先を確認 | Pratheba Selvaraju, Tianyu Ding, Tianyi Chen, Ilya Zharkov, Luming Liang, | (参考訳) 拡散変換器(DiT)は,高画質な画像やビデオを生成するためのデファクト選択肢となっている。
しかし、これらのモデルのサイズが大きくなると推論コストが高くなり、リアルタイムアプリケーションでは魅力が低下する。
本稿では拡散過程の反復的性質を利用してDiTを高速化するシンプルなアプローチであるFast-FORward CAching(FORA)を提案する。
FORAはキャッシュ機構を実装しており、注意層とMLP層からの中間出力をデノナイズして再利用することで、計算オーバーヘッドを低減している。
このアプローチはモデルの再訓練を必要とせず、既存のトランスフォーマーベースの拡散モデルとシームレスに統合する。
実験の結果、FORAはISスコアやFIDといったパフォーマンス指標に最小限の影響しか与えず、拡散トランスフォーマーを数回スピードアップできることがわかった。
最小限の品質のトレードオフで高速な処理を可能にすることで、FORAはリアルタイムアプリケーションに分散トランスフォーマーをデプロイする際の大きな進歩を示している。
コードは、https://github.com/prathebaselva/FORA.comで公開される。
Diffusion transformers (DiT) have become the de facto choice for generating high-quality images and videos, largely due to their scalability, which enables the construction of larger models for enhanced performance. However, the increased size of these models leads to higher inference costs, making them less attractive for real-time applications. We present Fast-FORward CAching (FORA), a simple yet effective approach designed to accelerate DiT by exploiting the repetitive nature of the diffusion process. FORA implements a caching mechanism that stores and reuses intermediate outputs from the attention and MLP layers across denoising steps, thereby reducing computational overhead. This approach does not require model retraining and seamlessly integrates with existing transformer-based diffusion models. Experiments show that FORA can speed up diffusion transformers several times over while only minimally affecting performance metrics such as the IS Score and FID. By enabling faster processing with minimal trade-offs in quality, FORA represents a significant advancement in deploying diffusion transformers for real-time applications. Code will be made publicly available at: https://github.com/prathebaselva/FORA. | 翻訳日:2024-07-03 20:51:04 公開日:2024-07-01 |
# ブロックチェーンのパフォーマンスを最大化する - 並列性と依存性管理による競合トランザクションの緩和
Maximizing Blockchain Performance: Mitigating Conflicting Transactions through Parallelism and Dependency Management ( http://arxiv.org/abs/2407.01426v1 ) ライセンス: Link先を確認 | Faisal Haque Bappy, Tariqul Islam, Tarannum Shaila Zaman, Md Sajidul Islam Sajid, Mir Mehedi Ahsan Pritom, | (参考訳) ブロックチェーンは最初、暗号通貨の領域で人気を得たが、その普及は従来のアプリケーションを超えて拡大し、データセキュリティの強化が求められている。
セキュアなネットワークを提供するにもかかわらず、ブロックチェーンには、レイテンシの高さ、スループットの低下、トランザクション障害の増加など、ある種のトレードオフがある。
これらの課題に寄与する重要な問題は、一般に"contention"と呼ばれる、"conflicting transaction"の不正な管理である。
ブロックチェーン内のいくつかの保留中のトランザクションが互いに衝突すると、競合状態になる。
この状況はネットワーク遅延を悪化させ、システムリソースの浪費につながります。
この問題への対応として、トランザクション並列処理とインテリジェントな依存性マネージャを統合した、ブロックチェーンネットワーク内の競合するトランザクションの発生を低減するための、新たなブロックチェーンスキームを提案する。
有効性と効率に関して、実験的な結果から、当社のスキームはトランザクションの競合による課題を軽減するだけでなく、トランザクションの成功率、スループット、レイテンシを高めるために、既存の並列および非並列のHyperledger Fabricブロックチェーンネットワークよりも優れています。
Hyperledger Fabricとの統合は、現実世界のアプリケーションにおけるブロックチェーンネットワークの全体的なパフォーマンスと安定性を改善するための、有望なソリューションのようです。
While blockchains initially gained popularity in the realm of cryptocurrencies, their widespread adoption is expanding beyond conventional applications, driven by the imperative need for enhanced data security. Despite providing a secure network, blockchains come with certain tradeoffs, including high latency, lower throughput, and an increased number of transaction failures. A pivotal issue contributing to these challenges is the improper management of "conflicting transactions", commonly referred to as "contention". When a number of pending transactions within a blockchain collide with each other, this results in a state of contention. This situation worsens network latency, leads to the wastage of system resources, and ultimately contributes to reduced throughput and higher transaction failures. In response to this issue, in this work, we present a novel blockchain scheme that integrates transaction parallelism and an intelligent dependency manager aiming to reduce the occurrence of conflicting transactions within blockchain networks. In terms of effectiveness and efficiency, experimental results show that our scheme not only mitigates the challenges posed by conflicting transactions, but also outperforms both existing parallel and non-parallel Hyperledger Fabric blockchain networks achieving higher transaction success rate, throughput, and latency. The integration of our scheme with Hyperledger Fabric appears to be a promising solution for improving the overall performance and stability of blockchain networks in real-world applications. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# ボランティアエッジクラウドのための強化学習駆動型データ集約型ワークフロースケジューリング
Reinforcement Learning-driven Data-intensive Workflow Scheduling for Volunteer Edge-Cloud ( http://arxiv.org/abs/2407.01428v1 ) ライセンス: Link先を確認 | Motahare Mounesan, Mauro Lemus, Hemanth Yeddulapalli, Prasad Calyam, Saptarshi Debroy, | (参考訳) 近年、Volunteer Edge-Cloud(VEC)は、データ集約的な科学ワークフローをサポートするための費用対効果の高いコミュニティコンピューティングパラダイムとして注目を集めている。
しかしながら、VECリソースの高度に分散した異種性のため、集中型ワークフロータスクスケジューリングは依然として課題である。
本稿では,Reinforcement Learning (RL) によるデータ集約型科学ワークフロースケジューリング手法を提案する。
i) ワークフロー要件
二 ワークフローに対するVEC資源の嗜好及び
三 多様なVEC資源政策により、堅牢な資源配分を確保すること。
本稿では、イベントベースの非同期アドバンテージアクタ・クリティカルRLアプローチを用いて、マルコフ決定プロセスとして、長期平均性能最適化問題を定式化する。
我々の大規模なシミュレーションとテストベッド実装は、ワークフロー要求満足度、VEC嗜好満足度、利用可能なVECリソース利用率の観点から、一般的なベースライン戦略よりも、私たちのアプローチの利点を実証しています。
In recent times, Volunteer Edge-Cloud (VEC) has gained traction as a cost-effective, community computing paradigm to support data-intensive scientific workflows. However, due to the highly distributed and heterogeneous nature of VEC resources, centralized workflow task scheduling remains a challenge. In this paper, we propose a Reinforcement Learning (RL)-driven data-intensive scientific workflow scheduling approach that takes into consideration: i) workflow requirements, ii) VEC resources' preference on workflows, and iii) diverse VEC resource policies, to ensure robust resource allocation. We formulate the long-term average performance optimization problem as a Markov Decision Process, which is solved using an event-based Asynchronous Advantage Actor-Critic RL approach. Our extensive simulations and testbed implementations demonstrate our approach's benefits over popular baseline strategies in terms of workflow requirement satisfaction, VEC preference satisfaction, and available VEC resource utilization. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# 一般化された量子リピータグラフ状態
Generalized quantum repeater graph states ( http://arxiv.org/abs/2407.01429v1 ) ライセンス: Link先を確認 | Bikun Li, Kenneth Goodenough, Filip Rozpędek, Liang Jiang, | (参考訳) 全フォトニック量子リピータは、長距離量子エンタングルメントを確立するために不可欠である。
リピータノード内では、エンタングルメントスワッピングを確実に行うことがスケーラブルな量子通信の重要なコンポーネントである。
情報損失を招きやすい線形光学系における確率的ベル状態測定の課題に対処するため、単一ビットの損失耐性を確保するために様々なアプローチが提案されている。
我々は、精巧な接続を伴うリピータグラフ状態に関する以前の研究を一般化し、高い確率で利用可能なエビットの効率的な確立を可能にした。
我々の新しい手法は、これまでの作業よりも柔軟性が高いことを実証し、そのようなリソース状態の生成オーバーヘッドについて論じる。
これらの発見は、損失耐性量子ネットワークのスケーラビリティと信頼性に関する新たな洞察を提供する。
All-photonic quantum repeaters are essential for establishing long-range quantum entanglement. Within repeater nodes, reliably performing entanglement swapping is a key component of scalable quantum communication. To tackle the challenge of probabilistic Bell state measurement in linear optics, which often leads to information loss, various approaches have been proposed to ensure the loss tolerance of distributing a single ebit. We have generalized previous work regarding repeater graph states with elaborate connectivity, enabling the efficient establishment of exploitable ebits at a finite rate with high probability. We demonstrate that our new scheme significantly outperforms the previous work with much flexibility and discuss the generation overhead of such resource states. These findings offer new insights into the scalability and reliability of loss-tolerant quantum networks. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# 非エルミートキャビティマグノメカニクスにおける$\mathcal{PT}$-Symmetry誘発バイスタビリティ
$\mathcal{PT}$-Symmetry induced Bi-Stability in Non-Hermitian Cavity Magnomechanics ( http://arxiv.org/abs/2407.01432v1 ) ライセンス: Link先を確認 | Chaoyi Lai, Shah Fahad, Kashif Ammar Yasir, | (参考訳) 我々は、YIG球と直接相互作用し、キャビティマグノンや光子を励起する横磁場によって駆動される定常非エルミタンマグノメカニクスシステムについて検討する。
系をエルミート的でないものにするために、系に利得をもたらすマグノンと直接相互作用する走行場を用いる。
まず、例外点の軸に沿った2つのPT破壊領域と、例外点の軸に沿ったPT保護領域を含む、システムのPT構成を図示することから始める。
近年, キャビティ光子とマグノンの数は, PT構成によってバイスタブルな挙動を示し, マグノン光子結合の値と走行場強度が増加するにつれて, より重要となることが判明した。
定常光子の挙動は, PTが不安定な状態にある場合のみ, 走行場の強度がマグノン-光子の結合よりも小さいことを示す。
そうでなければ、システムの利得による不安定性抑制のため、単一の安定状態を含むだけでよい。
さらに、より大きなマグノン-光子結合は光子強度を増大させ、光子とマグノンエネルギー交換によりマグノン強度を減少させ、光子ビスタビリティが向上し、マグノンの安定性が低下する。
しかし, 走行場の強度が大きくなると, 光子とマグノンの安定性が低下しているように見える。
また, システムの定常的有効ポテンシャルについて検討し, 同様にPTの破壊構成に依存する輪郭軌道間の非線形相互作用による不安定性の発生について述べる。
We study the steady-state non-Hermitian magnomechanical system driven by a transverse magnetic field directly interacting with YIG sphere and excites cavity magnons and photons. To make the system non-Hermitian, we use a traveling field directly interacting with magnons generating gain to the system. We start by illustrating PT-configuration of the system, which contains two PT broken region around exceptional point and PT protected region along the axis of exceptional point. Late, we discover that the numbers of cavity photons and magnons show bistable behavior depending upon the PT configuration, which becomes more significant as the values of the magnon-photon coupling and traveling field strength increases. We illustrate that steady-state photon only shows bistable behavior when the system in in lossy PT broken configuration, means strength of traveling field is less than the magnon-photon coupling. Otherwise, it will just contain a single stable state because of bistability suppression with gain in the system, which is unlike with any other investigation in this direction. Further, a larger magnon-photon coupling increases photon intensity and decreases magnon intensity, because of photon and magnon energy exchange, leading to enhanced photon bistablity and decreased magnon bistability. However, in case of increasing strength of traveling field, both photon as well as magnon bistability is appeared to be decreasing. We also study the steady-state effective potential of the system and illustrate the occurrence of bistability with nonlinear interactions between contour trajectories, which similarly depends on the PT broken configuration of the system. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# POST: インシデントレスポンダのメールアーカイブ、処理、フラグ付けスタック
POST: Email Archival, Processing and Flagging Stack for Incident Responders ( http://arxiv.org/abs/2407.01433v1 ) ライセンス: Link先を確認 | Jeffrey Fairbanks, | (参考訳) フィッシングは主要な妥協点の1つであり、メールのセキュリティと認識は2022年に50-100億ドルと見積もられている。
悪意のあるコンテンツを素早く検索するためには、メールの法医学的な能力がとても必要です。
新たなソリューションPOSTが提案されている。
POSTは、すべての電子メールを収集、解析し、最先端の自然言語処理と機械学習を使用して電子メールをフラグ付けし、Eメールのすべての側面を完全なEメール検索を可能にし、最大68.6%のコスト削減を提供する、大規模および小規模組織のAPI駆動のサーバーレスEメールアーカイブ、処理、フラグ付けワークフローである。
Phishing is one of the main points of compromise, with email security and awareness being estimated at \$50-100B in 2022. There is great need for email forensics capability to quickly search for malicious content. A novel solution POST is proposed. POST is an API driven serverless email archival, processing, and flagging workflow for both large and small organizations that collects and parses all email, flags emails using state of the art Natural Language Processing and Machine Learning, allows full email searching on every aspect of an email, and provides a cost savings of up to 68.6%. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# Scarecrow モニタリングシステム:動物の監視強化を目的とした移動体ネット ssd の活用
Scarecrow monitoring system:employing mobilenet ssd for enhanced animal supervision ( http://arxiv.org/abs/2407.01435v1 ) ライセンス: Link先を確認 | Balaji VS, Mahi AR, Anirudh Ganapathy PS, Manju M, | (参考訳) 農業は、野生生物が作物に悪影響を及ぼし、持続可能性を脅かすという課題に直面している。
このプロジェクトは高度な物体検出を採用し、リアルタイムの動物分類にMobile Net SSDモデルを利用している。
この手法は、各動物が注釈付き画像で表現されるデータセットの作成を開始する。
SSD Mobile Netアーキテクチャは、画像分類とオブジェクト検出のためのモデルの使用を容易にする。
このモデルは訓練中に微調整と最適化を行い、正確な動物分類の精度を向上する。
リアルタイム検出はWebカメラとOpenCVライブラリを通じて実現され、接近する動物の迅速な識別と分類を可能にする。
本システムは,知的難破技術と物体検出をシームレスに統合することにより,畑保護,作物被害の最小化,精密農業の促進といった,堅牢なソリューションを提供する。
これは農業の持続可能性への貴重な貢献であり、農作物に対する野生生物の干渉の課題に対処している。
Intelligent Scarecrow Monitoring System の実装は、プロアクティブなフィールド管理と保護のための進歩的なツールであり、精密農業のための先進的なソリューションを農家に与えている。
キーワード: 機械学習、ディープラーニング、コンピュータビジョン、MobileNet SSD
Agriculture faces a growing challenge with wildlife wreaking havoc on crops, threatening sustainability. The project employs advanced object detection, the system utilizes the Mobile Net SSD model for real-time animal classification. The methodology initiates with the creation of a dataset, where each animal is represented by annotated images. The SSD Mobile Net architecture facilitates the use of a model for image classification and object detection. The model undergoes fine-tuning and optimization during training, enhancing accuracy for precise animal classification. Real-time detection is achieved through a webcam and the OpenCV library, enabling prompt identification and categorization of approaching animals. By seamlessly integrating intelligent scarecrow technology with object detection, this system offers a robust solution to field protection, minimizing crop damage and promoting precision farming. It represents a valuable contribution to agricultural sustainability, addressing the challenge of wildlife interference with crops. The implementation of the Intelligent Scarecrow Monitoring System stands as a progressive tool for proactive field management and protection, empowering farmers with an advanced solution for precision agriculture. Keywords: Machine learning, Deep Learning, Computer Vision, MobileNet SSD | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# AdaOcc:3次元作業とフロー予測のための適応型前方視変換とフローモデリング
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction ( http://arxiv.org/abs/2407.01436v1 ) ライセンス: Link先を確認 | Dubing Chen, Wencheng Han, Jin Fang, Jianbing Shen, | (参考訳) 本稿では,CVPR 2024 における nuScenes Open-Occ Dataset Challenge において,視覚中心の3次元活動とフロー予測の手法を提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
当初我々は、占有モデルを個別に訓練し、続いてシーケンシャルフレーム統合を用いたフロー予測を行った。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
nuScenesデータセットの実験結果から,実世界のシナリオにおけるアプローチの有効性を示すとともに,精度とロバスト性に大きな改善が見られた。
Swin-Baseをベースとした1つのモデルは、公共のリーダーボードで2位にランクインし、自動運転車の認識システムの進歩における我々の方法の可能性を検証する。
In this technical report, we present our solution for the Vision-Centric 3D Occupancy and Flow Prediction track in the nuScenes Open-Occ Dataset Challenge at CVPR 2024. Our innovative approach involves a dual-stage framework that enhances 3D occupancy and flow predictions by incorporating adaptive forward view transformation and flow modeling. Initially, we independently train the occupancy model, followed by flow prediction using sequential frame integration. Our method combines regression with classification to address scale variations in different scenes, and leverages predicted flow to warp current voxel features to future frames, guided by future frame ground truth. Experimental results on the nuScenes dataset demonstrate significant improvements in accuracy and robustness, showcasing the effectiveness of our approach in real-world scenarios. Our single model based on Swin-Base ranks second on the public leaderboard, validating the potential of our method in advancing autonomous car perception systems. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# メモリベース大規模言語モデルのためのHaystackの針
Needle in the Haystack for Memory Based Large Language Models ( http://arxiv.org/abs/2407.01437v1 ) ライセンス: Link先を確認 | Subhajit Chaudhury, Soham Dan, Payel Das, Georgios Kollias, Elliot Nelson, | (参考訳) 本稿では,メモリ拡張大言語モデル(LLM)アーキテクチャを用いて,潜在的に長いコンテキストから事実のリコール能力を向上させることのメリットを実証する。
LLMデコーダを外部連想メモリで拡張するLLMアーキテクチャであるLARIMARを、パスキーやニードル・イン・ザ・ヘイスタックテストなど、複数の長時間コンテキストリコールタスクでテストする。
我々は、トレーニング中のメモリの読み出しをトレーニングされたデコーダに認識でき、GPUメモリフットプリントを増大させることなく、テスト時に外部メモリを適応して、トレーニング中のメモリよりもはるかに長いコンテキストを処理できることを実証した。
パラメータ数に匹敵するモデルを持つ長文リコールタスクの代替アーキテクチャと比較して、LARIMARはタスク固有のトレーニングなしで強力なパフォーマンスを維持することができる。
In this paper, we demonstrate the benefits of using memory augmented Large Language Model (LLM) architecture in improving the recall abilities of facts from a potentially long context. As a case study we test LARIMAR, a recently proposed LLM architecture which augments a LLM decoder with an external associative memory, on several long-context recall tasks, including passkey and needle-in-the-haystack tests. We demonstrate that the external memory can be adapted at test time to handle contexts much longer than those seen during training, while keeping readouts from the memory recognizable to the trained decoder and without increasing GPU memory footprint. Compared to alternative architectures for long-context recall tasks with models of a comparable parameter count, LARIMAR is able to maintain strong performance without any task-specific training. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# GAT-Steiner:GNNを用いたリクチリニアステイナ最小木予測
GAT-Steiner: Rectilinear Steiner Minimal Tree Prediction Using GNNs ( http://arxiv.org/abs/2407.01440v1 ) ライセンス: Link先を確認 | Bugra Onal, Eren Dogan, Muhammad Hadir Khan, Matthew R. Guthaus, | (参考訳) Rectilinear Steiner Minimum Tree (RSMT) 問題は、VLSI配置とルーティングの基本的な問題であり、NPハードであることが知られている。
従来のRSMTアルゴリズムは、スタイナー点の発見にかなりの時間を費やして全線長を減らしたり、ヒューリスティックスを用いて準最適結果を生成する。
グラフニューラルネットワーク(GNN)は,RSMTにおける最適なスタイナー点を高精度に予測し,GPU上で並列化可能であることを示す。
本稿では,ISPD19 ベンチマークにおける網の99.846%を正確に予測するグラフアテンションネットワークモデル GAT-Steiner を提案する。
ランダムに生成されたベンチマークでは、GAT-Steinerは99.942%を正確に予測し、準最適ワイヤ長ネットでは平均で0.420%しか増加しない。
The Rectilinear Steiner Minimum Tree (RSMT) problem is a fundamental problem in VLSI placement and routing and is known to be NP-hard. Traditional RSMT algorithms spend a significant amount of time on finding Steiner points to reduce the total wire length or use heuristics to approximate producing sub-optimal results. We show that Graph Neural Networks (GNNs) can be used to predict optimal Steiner points in RSMTs with high accuracy and can be parallelized on GPUs. In this paper, we propose GAT-Steiner, a graph attention network model that correctly predicts 99.846% of the nets in the ISPD19 benchmark with an average increase in wire length of only 0.480% on suboptimal wire length nets. On randomly generated benchmarks, GAT-Steiner correctly predicts 99.942% with an average increase in wire length of only 0.420% on suboptimal wire length nets. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# FastCLIP: 限られたリソースでCLIPトレーニングを加速するための最適化手法のスイート
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources ( http://arxiv.org/abs/2407.01445v1 ) ライセンス: Link先を確認 | Xiyuan Wei, Fanjiang Ye, Ori Yonay, Xingyu Chen, Baixi Sun, Dingwen Tao, Tianbao Yang, | (参考訳) 大規模データに対する最先端のContrastive Language- Image Pretraining(CLIP)モデルのトレーニングに関する既存の研究では、大規模なバッチサイズを必要とするため、数百から数千のGPUが使用されている。
しかし、このような大量の資源は、ほとんどの人にはアクセスできない。
グローバルなコントラスト損失を最適化するための高度な合成最適化手法は,大規模なバッチサイズの要求を除去するために有効であることが証明されているが,大規模なデータに対するそれらの性能は未探索であり,最適化されていない。
このギャップを埋めるために、本稿では、限られたリソース(例えば、最大10個のGPU)でCLIPトレーニングのいくつかの側面について検討する。
最初にFastCLIPを紹介した。これは高度な合成最適化技術に基づく一般的なCLIPトレーニングフレームワークで、分散環境向けに設計および最適化されている。
我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。
第2に、学習効率をさらに向上させるために、内部学習率のスケジュール、温度パラメータの更新規則、モデルパラメータの3つの要素を最適化の観点から検討する。
それぞれのコンポーネントに対するさまざまな戦略の実験は、CLIPトレーニングをより効率的に行う方法について光を当てた。
最後に、FastCLIPとOpenCLIP(State-of-the-art training baseline)のパフォーマンスを8ノード上の32GPUまで異なる計算スケールでベンチマークし、リソース制限設定におけるFastCLIPの大幅な改善を示すために、270万、9.100万、および31500万の画像テキストペアの3つのデータスケールをベンチマークした。
我々は、FastCLIPのコードをhttps://github.com/Optimization-AI/fast_clipでリリースします。
Existing studies of training state-of-the-art Contrastive Language-Image Pretraining (CLIP) models on large-scale data involve hundreds of or even thousands of GPUs due to the requirement of a large batch size. However, such a large amount of resources is not accessible to most people. While advanced compositional optimization techniques for optimizing global contrastive losses have been demonstrated effective for removing the requirement of large batch size, their performance on large-scale data remains underexplored and not optimized. To bridge the gap, this paper explores several aspects of CLIP training with limited resources (e.g., up to tens of GPUs). First, we introduce FastCLIP, a general CLIP training framework built on advanced compositional optimization techniques while designed and optimized for the distributed setting. Our framework is equipped with an efficient gradient reduction strategy to reduce communication overhead. Second, to further boost training efficiency, we investigate three components of the framework from an optimization perspective: the schedule of the inner learning rate, the update rules of the temperature parameter and the model parameters, respectively. Experiments on different strategies for each component shed light on how to conduct CLIP training more efficiently. Finally, we benchmark the performance of FastCLIP and the state-of-the-art training baseline (OpenCLIP) on different compute scales up to 32 GPUs on 8 nodes, and three data scales ranging from 2.7 million, 9.1 million to 315 million image-text pairs to demonstrate the significant improvement of FastCLIP in the resource-limited setting. We release the code of FastCLIP at https://github.com/Optimization-AI/fast_clip . | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# ウィグナー不等式を持つ中性擬スカラー中間子量子ビットの古典性試験
Classicality concept test on neutral pseudoscalar meson qubits with Wigner inequalities ( http://arxiv.org/abs/2407.01446v1 ) ライセンス: Link先を確認 | Efimova Anna, Nikitin Nikolay, | (参考訳) 本研究では、古典性の概念を導入し、2つの瞬間に依存するウィグナー不等式を導出する。
K^0$-, $D^0$-, $B_s$-中間子対の純粋および混合フレーバー状態におけるこれらの不等式の不等式検査の可能性について検討した。
Wernerノイズモデルを用いて、背景処理が最大50%のシステムを構成する場合でも、時間依存のWignerの不等式が検出可能であることを示す。
In this study, we introduce the concept of Classicality and derive Wigner inequalities that depend on two instants, with a potential extension to three instants. We explore the experimental feasibility of testing the violations of these inequalities in both pure and mixed flavor states of $K^0$-, $D^0$-, and $B_s$- meson pairs. Using the Werner noise model, we demonstrate that violations of time-dependent Wigner inequalities can be detected even when background processes constitute up to 50% of the system. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# 制限ボルツマンマシンによるトーリックコードの任意基底状態の表現
Representing Arbitrary Ground States of Toric Code by Restricted Boltzmann Machine ( http://arxiv.org/abs/2407.01451v1 ) ライセンス: Link先を確認 | Penghua Chen, Bowen Yan, Shawn X. Cui, | (参考訳) 本研究では,隠蔽ニューロンと可視ニューロンの局所的接続のみを有する制限ボルツマンマシンを用いて,トーリック符号基底状態の表現可能性を体系的に解析する。
この分析は、モデルが様々な基底状態を表現する能力を評価する上で重要である。
その後、制限付きボルツマン機械を改良し、非局所接続を効率的に導入することで任意の基底状態に適応する。
この新しいモデルは解析的に解けるだけでなく、機械学習技術を用いて解決した際の効率と正確な性能も示す。
次に、モデルを$Z_2$から$Z_n$トーリックコードに一般化し、今後の方向性について議論する。
We systematically analyze the representability of toric code ground states by Restricted Boltzmann Machine with only local connections between hidden and visible neurons. This analysis is pivotal for evaluating the model's capability to represent diverse ground states, thus enhancing our understanding of its strengths and weaknesses. Subsequently, we modify the Restricted Boltzmann Machine to accommodate arbitrary ground states by introducing essential non-local connections efficiently. The new model is not only analytically solvable but also demonstrates efficient and accurate performance when solved using machine learning techniques. Then we generalize our the model from $Z_2$ to $Z_n$ toric code and discuss future directions. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# TimeToM: 時空間は大規模言語モデルのドアをアンロックする鍵となる
TimeToM: Temporal Space is the Key to Unlocking the Door of Large Language Models' Theory-of-Mind ( http://arxiv.org/abs/2407.01455v1 ) ライセンス: Link先を確認 | Guiyang Hou, Wenqi Zhang, Yongliang Shen, Linjuan Wu, Weiming Lu, | (参考訳) 心の理論 (ToM) - 自己や他者の精神状態について考える認知能力は、社会的相互作用の基礎である。
ToMは自然に人間にやってくるが、最も先進的なLarge Language Model(LLM)でさえも大きな課題となる。
ToM推論の複雑な論理的連鎖、特に高次のToM問題のため、単にChain of Thought (CoT)のような推論手法を利用するだけではLLMのToM能力は向上しない。
時間空間を構築し,複数のシナリオにおいてLLMのToM機能を改善する基盤として利用するTimeToMを提案する。
具体的には、時間空間内では、各文字に対して時間的信念状態連鎖(TBSC)を構築し、社会的世界モデルの認知的視点から着想を得た上で、TBSCを自己世界的信念と社会的世界的信念に分割し、それぞれ一階のToM(一階の信念)と高階のToM(高階の信念)の問いに合わせる。
さらに,時間空間における文字間の信頼コミュニケーションを考慮し,文字の高次信念を他の文字の1次信念に変換する新しいツール・ビリーフ・ソルバを設計する。
実験結果から, TimeToM はToM 質問に対する LLM の推論性能を劇的に向上し, 一貫性と堅牢性を持った ToM 推論に向けて大きな一歩を踏み出した。
Theory of Mind (ToM)-the cognitive ability to reason about mental states of ourselves and others, is the foundation of social interaction. Although ToM comes naturally to humans, it poses a significant challenge to even the most advanced Large Language Models (LLMs). Due to the complex logical chains in ToM reasoning, especially in higher-order ToM questions, simply utilizing reasoning methods like Chain of Thought (CoT) will not improve the ToM capabilities of LLMs. We present TimeToM, which constructs a temporal space and uses it as the foundation to improve the ToM capabilities of LLMs in multiple scenarios. Specifically, within the temporal space, we construct Temporal Belief State Chain (TBSC) for each character and inspired by the cognition perspective of the social world model, we divide TBSC into self-world beliefs and social world beliefs, aligning with first-order ToM (first-order beliefs) and higher-order ToM (higher-order beliefs) questions, respectively. Moreover, we design a novel tool-belief solver that, by considering belief communication between characters in temporal space, can transform a character's higher-order beliefs into another character's first-order beliefs under belief communication period. Experimental results indicate that TimeToM can dramatically improve the reasoning performance of LLMs on ToM questions while taking a big step towards coherent and robust ToM reasoning. | 翻訳日:2024-07-03 20:41:15 公開日:2024-07-01 |
# 特徴重ね合わせにおけるスケーリング法則の影響について
On Implications of Scaling Laws on Feature Superposition ( http://arxiv.org/abs/2407.01459v1 ) ライセンス: Link先を確認 | Pavan Katta, | (参考訳) この理論的な注記は、法則のスケーリング結果を用いて、次の2つの文は同時に真であることができないと論じている。
1. スパース特徴が層全体に線型に表現されるような重ね合わせ仮説は、特徴表現の完全な理論である。
2. 特徴は普遍的であり、つまり、同じデータで訓練された2つのモデルと同等のパフォーマンスを達成することは、同じ特徴を学習する。
Using results from scaling laws, this theoretical note argues that the following two statements cannot be simultaneously true: 1. Superposition hypothesis where sparse features are linearly represented across a layer is a complete theory of feature representation. 2. Features are universal, meaning two models trained on the same data and achieving equal performance will learn identical features. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# 強化学習型クエリリファインメントによる大規模言語モデルの能力とロバスト性の向上
Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement ( http://arxiv.org/abs/2407.01461v1 ) ライセンス: Link先を確認 | Zisu Huang, Xiaohua Wang, Feiran Zhang, Zhibo Xu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang, | (参考訳) 大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
しかしながら、これらのプロンプトはしばしば簡潔であいまいであり、それによってLLMの潜在能力を著しく制限する。
さらに、有害なプロンプトは、敵がジェイルブレイクのLSMを巧みに作り、操作し、潜在的に有害なコンテンツを生成するよう誘導することができる。
有害なジェイルブレイク入力に対して強い堅牢性を維持しつつ,LLMの能力を高めるために,LLMへの入力前にユーザプロンプトを洗練する,転送可能でプラガブルなフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
具体的には、LLMの特定の能力を高めるために、複数の目的を組み込んだ特別に設計された強化学習アプローチを用いて、軽量なクエリリファインメントモデルを導入し、訓練する。
大規模な実験により、改良モデルは応答の質を向上するだけでなく、脱獄攻撃に対する堅牢性を高めることが示されている。
コードは、https://github.com/Huangzisu/query-refinement で入手できる。
The capacity of large language models (LLMs) to generate honest, harmless, and helpful responses heavily relies on the quality of user prompts. However, these prompts often tend to be brief and vague, thereby significantly limiting the full potential of LLMs. Moreover, harmful prompts can be meticulously crafted and manipulated by adversaries to jailbreak LLMs, inducing them to produce potentially toxic content. To enhance the capabilities of LLMs while maintaining strong robustness against harmful jailbreak inputs, this study proposes a transferable and pluggable framework that refines user prompts before they are input into LLMs. This strategy improves the quality of the queries, empowering LLMs to generate more truthful, benign and useful responses. Specifically, a lightweight query refinement model is introduced and trained using a specially designed reinforcement learning approach that incorporates multiple objectives to enhance particular capabilities of LLMs. Extensive experiments demonstrate that the refinement model not only improves the quality of responses but also strengthens their robustness against jailbreak attacks. Code is available at: https://github.com/Huangzisu/query-refinement . | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# 多言語設定における検索拡張生成
Retrieval-augmented generation in multilingual settings ( http://arxiv.org/abs/2407.01463v1 ) ライセンス: Link先を確認 | Nadezhda Chirkova, David Rau, Hervé Déjean, Thibault Formal, Stéphane Clinchant, Vassilina Nikoulina, | (参考訳) Retrieval-augmented Generation (RAG)は、最近、大規模言語モデル(LLM)に最新の知識やドメイン固有の知識を取り入れ、LLMの事実性を改善するための有望なソリューションとして登場したが、主に英語のみの設定で研究されている。
本研究では、ユーザクエリとデータストアを13言語で組み合わせたマルチリンガル・セッティング(mRAG)におけるRAGについて検討し、どのコンポーネントとどの調整が必要かを調査し、将来の作業において強力なベースラインとして使用できるmRAGパイプラインを構築する。
この結果から,高品質なオフザシェルフ多言語レトリバーとジェネレータが利用可能であるにもかかわらず,タスク固有のプロンプトエンジニアリングがユーザ言語の生成に必要であることがわかった。
さらに、現在の評価基準では、命名されたエンティティの綴りのバリエーションを考慮するために、多言語設定の調整が必要である。
将来の作業で対処すべき主な制限は、非ラテン語のアルファベット言語での頻繁にコードスイッチング、時々の流布エラー、提供された文書の誤った読み出し、あるいは無関係な検索である。
結果のmRAGベースラインパイプラインのコードはhttps://github.com/naver/bergen.orgで公開しています。
Retrieval-augmented generation (RAG) has recently emerged as a promising solution for incorporating up-to-date or domain-specific knowledge into large language models (LLMs) and improving LLM factuality, but is predominantly studied in English-only settings. In this work, we consider RAG in the multilingual setting (mRAG), i.e. with user queries and the datastore in 13 languages, and investigate which components and with which adjustments are needed to build a well-performing mRAG pipeline, that can be used as a strong baseline in future works. Our findings highlight that despite the availability of high-quality off-the-shelf multilingual retrievers and generators, task-specific prompt engineering is needed to enable generation in user languages. Moreover, current evaluation metrics need adjustments for multilingual setting, to account for variations in spelling named entities. The main limitations to be addressed in future works include frequent code-switching in non-Latin alphabet languages, occasional fluency errors, wrong reading of the provided documents, or irrelevant retrieval. We release the code for the resulting mRAG baseline pipeline at https://github.com/naver/bergen. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# DogeRM: モデルマージによるドメイン知識によるリワードモデルの取得
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging ( http://arxiv.org/abs/2407.01470v1 ) ライセンス: Link先を確認 | Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen, | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を望ましい振る舞いと整合させる一般的な戦略である。
RLHFにおけるリワードモデリングは重要なステップである。
しかし、特に専門家のアノテーションを必要とするドメイン固有の嗜好に対して、報酬モデルのトレーニングのためにペア化された嗜好データを集めるのはコストがかかり、時間がかかります。
この課題に対処するために,ドメイン固有の知識をモデルマージによって一般報酬モデルに統合する新しいフレームワークである,‘textbf{Do}main knowled\textbf{ge} merged \textbf{R}eward \textbf{M}odel(DogeRM)’を提案する。
実験では、DogeRMがさまざまなベンチマークのパフォーマンスを高め、モデルマージの効果を示す詳細な分析を提供し、モデルアライメントを促進する大きな可能性を示している。
Reinforcement learning from human feedback (RLHF) is a popular strategy for aligning large language models (LLMs) with desired behaviors. Reward modeling is a crucial step in RLHF. However, collecting paired preference data for training reward models is often costly and time-consuming, especially for domain-specific preferences requiring expert annotation. To address this challenge, we propose the \textbf{Do}main knowled\textbf{ge} merged \textbf{R}eward \textbf{M}odel (DogeRM), a novel framework that integrates domain-specific knowledge into a general reward model by model merging. The experiments demonstrate that DogeRM enhances performance across different benchmarks and provide a detailed analysis showcasing the effects of model merging, showing the great potential of facilitating model alignment. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# IoTオペレーティングシステムの調査と分析:オープンソースディジタルフォサイシクスツールの有効性と取得時間の比較研究
Survey and Analysis of IoT Operating Systems: A Comparative Study on the Effectiveness and Acquisition Time of Open Source Digital Forensics Tools ( http://arxiv.org/abs/2407.01474v1 ) ライセンス: Link先を確認 | Jeffrey Fairbanks, Md Mashrur Arifin, Sadia Afreen, Alex Curtis, | (参考訳) 本研究プロジェクトの主な目的は,IoT(Internet-of-Things)デバイスから収集したデジタルエビデンスに対する,オープンソース法医学ツールの有効性と速度を評価することである。
このプロジェクトでは、一般的なIoTオペレーティングシステム間で多くのIoT環境を作成し、設定し、この目標を達成するために一般的な法医学的タスクを実行する。
これらの法医学的分析操作を検証するため、4つの標準的なデジタル法医学的タスクをカバーする様々なオープンソース法医学的ツールが提供されている。
これらのタスクは、サンプルのIoTオペレーティングシステムにまたがって利用され、注意深く追跡および検討された記録に時間を費やし、各タイプのIoTデバイスで法医学を実行するための有効性とスピードを徹底的に評価することができる。
この研究は、IoTデバイスに関する最も効率的な調査ツールについて、IoTセキュリティの専門家やデジタル法医学専門家に推奨すると同時に、収集された証拠の完全性を維持し、これらの新しいデバイスタイプに存在する課題を特定することを目的としている。
結果は広く文書化され、インターネット・オブ・ザ・デバイス・メーカーやデジタル鑑識の分野に多大な貢献をする。
The main goal of this research project is to evaluate the effectiveness and speed of open-source forensic tools for digital evidence collecting from various Internet-of-Things (IoT) devices. The project will create and configure many IoT environments, across popular IoT operating systems, and run common forensics tasks in order to accomplish this goal. To validate these forensic analysis operations, a variety of open-source forensic tools covering four standard digital forensics tasks. These tasks will be utilized across each sample IoT operating system and will have its time spent on record carefully tracked down and examined, allowing for a thorough evaluation of the effectiveness and speed for performing forensics on each type of IoT device. The research also aims to offer recommendations to IoT security experts and digital forensic practitioners about the most efficient open-source tools for forensic investigations with IoT devices while maintaining the integrity of gathered evidence and identifying challenges that exist with these new device types. The results will be shared widely and well-documented in order to provide significant contributions to the field of internet-of-things device makers and digital forensics. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# MX以降のFPGA設計の探索
Exploring FPGA designs for MX and beyond ( http://arxiv.org/abs/2407.01475v1 ) ライセンス: Link先を確認 | Ebby Samson, Naveen Mellempudi, Wayne Luk, George A. Constantinides, | (参考訳) 最近、多くの企業が協力して、効率的なニューラルネットワークの実装を目的とした低精度計算のための新しいOpen Compute Project MX標準をリリースした。
本稿では,この標準で定義された演算系の最初のオープンソースFPGA実装について記述し,評価する。
我々の設計では、MXフォーマットへの変換や標準定義の演算、任意の固定点および浮動小数点形式への変換のための標準の具体的なフォーマットを完全にサポートしています。
実装定義として標準の特定の要素が残されており、これらの要素に対してFPGAに触発された最初の具体的な選択が論文で概説されている。
最適化されたハードウェアコンポーネントのライブラリはオープンソースであり、より大きなシステムを構築するために使用できます。
この目的のために、コミュニティがMXフォーマットを念頭に置いて量子化された新しいニューラルネットワーク設計を開発することができるように、Brevitasライブラリと統合された新しい標準への量子化のためのオープンソースのPytorchライブラリを記述、リリースする。
我々は、ImageNet ILSVRC12データセット上のResNet-18などのニューラルネットワークの実装を通じて、ライブラリのユーザビリティと有効性を実証する。
我々のテストによると、MXはGPUでネイティブにサポートされていないINT5やFP6のようなフォーマットに非常に効果的である。
これによりFPGAは、カスタムなデータパスを実装し、これらのフォーマットが提供するより小さな領域のフットプリントを活用できる柔軟性を持つという利点がある。
A number of companies recently worked together to release the new Open Compute Project MX standard for low-precision computation, aimed at efficient neural network implementation. In this paper, we describe and evaluate the first open-source FPGA implementation of the arithmetic defined in the standard. Our designs fully support all the standard's concrete formats for conversion into and out of MX formats and for the standard-defined arithmetic operations, as well as arbitrary fixed-point and floating-point formats. Certain elements of the standard are left as implementation-defined, and we present the first concrete FPGA-inspired choices for these elements, which we outline in the paper. Our library of optimized hardware components is available open source, and can be used to build larger systems. For this purpose, we also describe and release an open-source Pytorch library for quantization into the new standard, integrated with the Brevitas library so that the community can develop novel neural network designs quantized with MX formats in mind. We demonstrate the usability and efficacy of our libraries via the implementation of example neural networks such as ResNet-18 on the ImageNet ILSVRC12 dataset. Our testing shows that MX is very effective for formats such as INT5 or FP6 which are not natively supported on GPUs. This gives FPGAs an advantage as they have the flexibility to implement a custom datapath and take advantage of the smaller area footprints offered by these formats. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# 言語モデルエージェントのための木探索
Tree Search for Language Model Agents ( http://arxiv.org/abs/2407.01476v1 ) ライセンス: Link先を確認 | Jing Yu Koh, Stephen McAleer, Daniel Fried, Ruslan Salakhutdinov, | (参考訳) 言語モデル(LM)を利用した自律エージェントは、Webオートメーションのような意思決定タスクを実行する能力を示す。
LMは、主に自然言語の理解と生成に最適化されており、現実的なコンピュータタスクを解く際には、多段階の推論、計画、環境フィードバックの使用に苦労している。
そこで本研究では,対話型Web環境における探索と多段階計画を明確に行うための,LMエージェントの推論時探索アルゴリズムを提案する。
われわれのアプローチは, 実環境空間内で動作する最優先木探索の一形態であり, 既存の最先端エージェントと相補的である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
挑戦的なVisualWebArenaベンチマークでは、GPT-4oエージェントの上に検索アルゴリズムを適用すると、検索なしの同じベースラインと比較して39.7%の成功率が上昇し、最先端の成功率26.4%が設定される。
WebArenaでは、検索はベースラインエージェントに対して28.0%の相対的な改善をもたらし、競争的な成功率は19.2%と設定されている。
実験では,Webエージェントの探索の有効性を強調し,テスト時間計算の増大による性能向上を実証した。
我々は、検索、制限、将来的な作業への有望な方向性の改善を明らかにするために、その結果を徹底的に分析する。
私たちのコードとモデルはhttps://jykoh.com/search-agents.comで公開されています。
Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a key limitation remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work. Our code and models are publicly released at https://jykoh.com/search-agents. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# EquiBot: 汎用・データ効率学習のためのSIM(3)-同変拡散政策
EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning ( http://arxiv.org/abs/2407.01479v1 ) ライセンス: Link先を確認 | Jingyun Yang, Zi-ang Cao, Congyue Deng, Rika Antonova, Shuran Song, Jeannette Bohg, | (参考訳) ロボットが限られたデータから学習し、さまざまな現実世界環境にまたがる一般化を可能にする効果的な模倣学習手法を構築することは、ロボット学習における長年の課題である。
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquiBotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
これにより、学習したポリシーがスケール、回転、翻訳の変化に不変であることを保証するとともに、未確認環境への適用性を高めつつ、マルチモーダリティやロバストネスといった拡散ベースの政策学習のメリットを維持します。
提案手法はデータ要求を減らし,新しいシナリオへの一般化を改善する。
実世界では,6つのモバイル操作タスクの合計10種類のバリエーションが示され,各タスクで5分間の人間によるデモンストレーションから学習した後で,新しいオブジェクトやシーンに容易に一般化できることがわかった。
Building effective imitation learning methods that enable robots to learn from limited data and still generalize across diverse real-world environments is a long-standing problem in robot learning. We propose EquiBot, a robust, data-efficient, and generalizable approach for robot manipulation task learning. Our approach combines SIM(3)-equivariant neural network architectures with diffusion models. This ensures that our learned policies are invariant to changes in scale, rotation, and translation, enhancing their applicability to unseen environments while retaining the benefits of diffusion-based policy learning such as multi-modality and robustness. We show in a suite of 6 simulation tasks that our proposed method reduces the data requirements and improves generalization to novel scenarios. In the real world, we show with in total 10 variations of 6 mobile manipulation tasks that our method can easily generalize to novel objects and scenes after learning from just 5 minutes of human demonstrations in each task. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# Agentless: LLMベースのソフトウェアエンジニアリングエージェントのデマイティフィケーション
Agentless: Demystifying LLM-based Software Engineering Agents ( http://arxiv.org/abs/2407.01489v1 ) ライセンス: Link先を確認 | Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、コード合成、プログラム修復、テスト生成を含むソフトウェア開発タスクの自動化を著しく進歩させてきた。
最近では、研究者や業界の実践者たちが、エンドツーエンドのソフトウェア開発タスクを実行するために、様々な自律型LLMエージェントを開発した。
これらのエージェントは、ツールの使用、コマンドの実行、環境からのフィードバックの観察、将来のアクションの計画などの機能を備えている。
しかしながら、エージェントベースのアプローチの複雑さは、現在のLLMの能力の制限とともに、次のような疑問を提起している。
この質問に答えるために、私たちはAgentlessというエージェントレスのアプローチを構築します。
エージェントベースのアプローチの冗長で複雑な設定と比較すると、Agenlessは単純な2段階のローカライゼーションプロセスを採用し、LLMが将来の行動を決定することなく、複雑なツールで操作する。
人気の高いSWE-bench Liteベンチマークの結果によると、Agentlessは驚くほど高いパフォーマンス(27.33%)と最低コスト(0.34ドル)を、既存のすべてのオープンソースソフトウェアエージェントと比較して達成できるのです!
さらに、SWE-bench Liteの問題を手動で分類し、正確な真理のパッチや問題記述の欠如に問題を見出した。
このような問題を除外してSWE-bench Lite-Sを構築し、より厳密な評価と比較を行う。
私たちの研究は、自律ソフトウェア開発におけるシンプルで解釈可能なテクニックの現在見過ごされている可能性を強調しています。
Agentlessは、自律的なソフトウェアエージェントのベースライン、出発点、地平線をリセットし、この決定的な方向への今後の活動を促すことを期待しています。
Recent advancements in large language models (LLMs) have significantly advanced the automation of software development tasks, including code synthesis, program repair, and test generation. More recently, researchers and industry practitioners have developed various autonomous LLM agents to perform end-to-end software development tasks. These agents are equipped with the ability to use tools, run commands, observe feedback from the environment, and plan for future actions. However, the complexity of these agent-based approaches, together with the limited abilities of current LLMs, raises the following question: Do we really have to employ complex autonomous software agents? To attempt to answer this question, we build Agentless -- an agentless approach to automatically solve software development problems. Compared to the verbose and complex setup of agent-based approaches, Agentless employs a simplistic two-phase process of localization followed by repair, without letting the LLM decide future actions or operate with complex tools. Our results on the popular SWE-bench Lite benchmark show that surprisingly the simplistic Agentless is able to achieve both the highest performance (27.33%) and lowest cost (\$0.34) compared with all existing open-source software agents! Furthermore, we manually classified the problems in SWE-bench Lite and found problems with exact ground truth patch or insufficient/misleading issue descriptions. As such, we construct SWE-bench Lite-S by excluding such problematic issues to perform more rigorous evaluation and comparison. Our work highlights the current overlooked potential of a simple, interpretable technique in autonomous software development. We hope Agentless will help reset the baseline, starting point, and horizon for autonomous software agents, and inspire future work along this crucial direction. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# LLM See, LLM Do: 識別不能なオブジェクトをターゲットとしたデータ生成を支援する
LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives ( http://arxiv.org/abs/2407.01490v1 ) ライセンス: Link先を確認 | Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker, | (参考訳) 合成データの普及により、データを生成するモデルが蒸留データを介して他の大規模言語モデル(LLM)にどのように影響を与えるかについて、新たな疑問が持ち上がる。
まず,本研究は,合成データ統合の結果を体系的に研究することによって,モデル特性の受動的継承の影響を徹底的に評価する。
合成データのソースがモデルの内部バイアスやキャリブレーション、世代別テキスト属性や嗜好をどのように形成するかについて、これまでで最も包括的な研究の1つを提供する。
合成データのプロンプトが「中性」に見える場合でも、モデルが特定の属性に対して驚くほど敏感であることがわかった。
この感度をうまく活用できるかどうかという疑問が浮かび上がっています
私たちの発見は、データ生成プロセスを活用することで、テスト時に望むプロパティに向けてモデルを明示的に操れるか、という疑問を提起します。
これは歴史的に、特定の特徴や目的を念頭に置いてデータを収集するコストのために実現不可能であると考えられていた。
しかし、合成データの質の向上や、多様な指示方法に従うように設計された汎用モデルへの移行は、この疑問をタイムリーに意味している。
本研究では,非微分不可能な目的に応じて意図的に合成データを制約する用語として,アクティブ継承を提案する。
本研究では, モデルの生成プロファイルを, 好適な非分化性属性, 例えば, 高語彙的多様性や低毒性に制御できることを実証する。
The widespread adoption of synthetic data raises new questions about how models generating the data can influence other large language models (LLMs) via distilled data. To start, our work exhaustively characterizes the impact of passive inheritance of model properties by systematically studying the consequences of synthetic data integration. We provide one of the most comprehensive studies to-date of how the source of synthetic data shapes models' internal biases, calibration and generations' textual attributes and preferences. We find that models are surprisingly sensitive towards certain attributes even when the synthetic data prompts appear "neutral". which invites the question whether this sensitivity can be exploited for good. Our findings invite the question can we explicitly steer the models towards the properties we want at test time by exploiting the data generation process? This would have historically been considered infeasible due to the cost of collecting data with a specific characteristic or objective in mind. However, improvement in the quality of synthetic data, as well as a shift towards general-purpose models designed to follow a diverse way of instructions, means this question is timely. We propose active inheritance as a term to describe intentionally constraining synthetic data according to a non-differentiable objective. We demonstrate how active inheritance can steer the generation profiles of models towards desirable non-differentiable attributes, e.g. high lexical diversity or low toxicity. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# Slow Cascaded Learningによる大規模モデルの表現的および一般化可能な低ランク適応
Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning ( http://arxiv.org/abs/2407.01491v1 ) ライセンス: Link先を確認 | Siwei Li, Yifan Yang, Yifei Shen, Fangyun Wei, Zongqing Lu, Lili Qiu, Yuqing Yang, | (参考訳) 効率的な微調整は、特に有望なアプローチとして低ランク適応が出現する現代の大規模モデルにおいて、基本的な役割を担っている。
しかし、既存の LoRA の変種は、限られた表現力、過度に適合する傾向、およびハイパーパラメータ設定に対する感受性によって妨げられている。
本稿では,LoRA Slow Cascade Learning (LoRASC)を提案する。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
さらに、高速な更新機構とカスケードノイズチューニングを導入し、一般化を加速する。
様々な言語および視覚データセットに関する広範な実験とロバストネスベンチマークは、提案手法が既存のベースラインを著しく上回るだけでなく、過度な適合を緩和し、モデルの安定性を向上し、OODロバストネスを向上させることを実証している。
コードはhttps://github.com/microsoft/LoRASCですぐにリリースされる。
Efficient fine-tuning plays a fundamental role in modern large models, with low-rank adaptation emerging as a particularly promising approach. However, the existing variants of LoRA are hampered by limited expressiveness, a tendency to overfit, and sensitivity to hyperparameter settings. This paper presents LoRA Slow Cascade Learning (LoRASC), an innovative technique designed to enhance LoRA's expressiveness and generalization capabilities while preserving its training efficiency. Our approach augments expressiveness through a cascaded learning strategy that enables a mixture-of-low-rank adaptation, thereby increasing the model's ability to capture complex patterns. Additionally, we introduce a slow-fast update mechanism and cascading noisy tuning to bolster generalization. The extensive experiments on various language and vision datasets, as well as robustness benchmarks, demonstrate that the proposed method not only significantly outperforms existing baselines, but also mitigates overfitting, enhances model stability, and improves OOD robustness. Code will be release in https://github.com/microsoft/LoRASC very soon. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# RegMix: 言語モデル事前トレーニングの回帰としてのデータ混合
RegMix: Data Mixture as Regression for Language Model Pre-training ( http://arxiv.org/abs/2407.01492v1 ) ライセンス: Link先を確認 | Qian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin, | (参考訳) 大規模言語モデルの事前学習のためのデータ混合は、性能に大きな影響を及ぼすが、有効混合を決定する方法はまだ不明である。
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixでは、さまざまなデータ混在の小さなモデルのセットをトレーニングし、それぞれの混合からパフォーマンスを予測するために回帰モデルを適合させる。
適応回帰モデルを用いて、トップランクの混合物をシミュレートし、それを用いて、桁違いの計算量で大規模モデルを訓練する。
RegMixを実証的に検証するために、異なる混合の1Bトークンに対して1Mパラメータを持つ512モデルをトレーニングし、回帰モデルに適合させ、最適な混合を見つける。
この混合を用いて、25Bトークン(すなわち1000倍大きく25倍長い)に対して1Bパラメータモデルを訓練し、64個の候補1Bパラメータモデルと他の混合品の間で最高の性能を示す。
さらに,本手法は,人間の選択よりも優れた性能を示し,計算予算の10%を生かしながら,DoReMiと一致するか上回る結果を得る。
実験の結果,(1)単一タスクのパフォーマンス変化によるデータ混合が最大14.6%,(2) 高品質と認識されるデータよりもWebコーパスがダウンストリームのパフォーマンスに強い正の相関性を持っていること,(3) ドメイン間の相互作用が共通認識と矛盾することが多いこと,(4) データの混合効果がスケーリング法を超越すること,そして我々のアプローチは,すべてのドメインを一緒に考えることで複雑さを捉えていることがわかった。
私たちのコードはhttps://github.com/sail-sg/regmix.comで利用可能です。
The data mixture for large language model pre-training significantly impacts performance, yet how to determine an effective mixture remains unclear. We propose RegMix to automatically identify a high-performing data mixture by formulating it as a regression task. RegMix involves training a set of small models with diverse data mixtures and fitting a regression model to predict their performance given their respective mixtures. With the fitted regression model, we simulate the top-ranked mixture and use it to train a large-scale model with orders of magnitude more compute. To empirically validate RegMix, we train 512 models with 1M parameters for 1B tokens of different mixtures to fit the regression model and find the optimal mixture. Using this mixture we train a 1B parameter model for 25B tokens (i.e. 1000x larger and 25x longer) which we find performs best among 64 candidate 1B parameter models with other mixtures. Further, our method demonstrates superior performance compared to human selection and achieves results that match or surpass DoReMi, while utilizing only 10% of the compute budget. Our experiments also show that (1) Data mixtures significantly impact performance with single-task performance variations of up to 14.6%; (2) Web corpora rather than data perceived as high-quality like Wikipedia have the strongest positive correlation with downstream performance; (3) Domains interact in complex ways often contradicting common sense, thus automatic approaches like RegMix are needed; (4) Data mixture effects transcend scaling laws, and our approach captures the complexity by considering all domains together. Our code is available at https://github.com/sail-sg/regmix. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# イミュータブルな原則と設計によるアップグレード性:スマートコントラクトのアップグレード性に関する探索的研究
Immutable in Principle, Upgradeable by Design: Exploratory Study of Smart Contract Upgradeability ( http://arxiv.org/abs/2407.01493v1 ) ライセンス: Link先を確認 | Ilham Qasse, Mohammad Hamdaqa, Björn Þór Jónsson, | (参考訳) 自動化による信頼を保証するための不変性で知られるスマートコントラクトは、予期せぬ脆弱性と、デプロイ後の機能強化の必要性により、アップグレード性を必要とするように進化した。
この不変性と修正の必要性の矛盾は、アップグレード可能なスマートコントラクトの開発につながった。
これらのコントラクトは原則として不変だが、設計によってアップグレード可能であり、基盤となるデータや状態を変更することなく更新が可能であり、それによって、改善を許容しながら、契約の意図を保存することができる。
本研究は,Ethereumブロックチェーン上でのアップグレード可能なスマートコントラクトの適用と意味を理解することを目的としている。
スマートコントラクトのバージョンと進化の軌跡をカタログ化するデータセットを導入することで、この研究は、アップグレードメカニズムの頻度と導入パターン、コントラクトアップグレードの可能性と発生、アップグレード後の修正の性質、ユーザエンゲージメントとコントラクトアクティビティへの影響など、重要な側面を探求する。
実証分析により、アップグレード可能な契約を特定し、更新履歴を調べて、変更に関連するトレンド、好み、課題を明らかにする。
4400万以上の契約を分析した結果、アップグレード可能な特性を持つのはわずか3%、アップグレード中のアップグレードは0.34%に過ぎなかった。
この発見は、おそらくアップグレードプロセスの複雑さや安定性を維持することの好みのために、開発者が修正に慎重なアプローチを示している。
さらに,今回の研究では,特にコントラクトのソースコードにアクセス可能な場合には,機能拡張と脆弱性軽減が主な目的であることが示されている。
しかし、アップグレードとユーザアクティビティの関係は複雑であり、進化を超えてスマートコントラクトの使用に大きな影響を与えることが示唆されている。
Smart contracts, known for their immutable nature to ensure trust via automated enforcement, have evolved to require upgradeability due to unforeseen vulnerabilities and the need for feature enhancements post-deployment. This contradiction between immutability and the need for modifications has led to the development of upgradeable smart contracts. These contracts are immutable in principle yet upgradable by design, allowing updates without altering the underlying data or state, thus preserving the contract's intent while allowing improvements. This study aims to understand the application and implications of upgradeable smart contracts on the Ethereum blockchain. By introducing a dataset that catalogs the versions and evolutionary trajectories of smart contracts, the research explores key dimensions: the prevalence and adoption patterns of upgrade mechanisms, the likelihood and occurrences of contract upgrades, the nature of modifications post-upgrade, and their impact on user engagement and contract activity. Through empirical analysis, this study identifies upgradeable contracts and examines their upgrade history to uncover trends, preferences, and challenges associated with modifications. The evidence from analyzing over 44 million contracts shows that only 3% have upgradeable characteristics, with only 0.34% undergoing upgrades. This finding underscores a cautious approach by developers towards modifications, possibly due to the complexity of upgrade processes or a preference for maintaining stability. Furthermore, the study shows that upgrades are mainly aimed at feature enhancement and vulnerability mitigation, particularly when the contracts' source codes are accessible. However, the relationship between upgrades and user activity is complex, suggesting that additional factors significantly affect the use of smart contracts beyond their evolution. | 翻訳日:2024-07-03 20:31:30 公開日:2024-07-01 |
# FoleyCrafter: ライフスタイルとシンクロナイズドサウンドで、サイレントな動画を人生に届ける
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds ( http://arxiv.org/abs/2407.01494v1 ) ライセンス: Link先を確認 | Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen, | (参考訳) 我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
その幅広い応用にもかかわらず、既存のアプローチは高品質とビデオ整列音(セマンティック関連音と時間同期音)を同時に合成する際の限界に遭遇する。
このような制約を克服するために,事前学習されたテキスト・音声モデルを利用して高品質な音声生成を実現する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterはセマンティックアライメントのためのセマンティックアダプタと、正確なオーディオビデオ同期のためのテンポラルコントローラの2つの重要なコンポーネントで構成されている。
セマンティックアダプタは、並列なクロスアテンション層を利用して、映像の特徴に音声を付加し、視覚内容に意味のある現実的な音響効果を生み出す。
一方、テンポラリコントローラは、オンセット検出器とタイムスタンプベースのアダプタを内蔵し、正確なオーディオ映像アライメントを実現する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
本稿では,FolieCrafterの有効性を検証するため,標準ベンチマークの定量的および定性的な実験を行った。
モデルとコードはhttps://github.com/open-mmlab/FoleyCrafter.comで入手できる。
We study Neural Foley, the automatic generation of high-quality sound effects synchronizing with videos, enabling an immersive audio-visual experience. Despite its wide range of applications, existing approaches encounter limitations when it comes to simultaneously synthesizing high-quality and video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To overcome these limitations, we propose FoleyCrafter, a novel framework that leverages a pre-trained text-to-audio model to ensure high-quality audio generation. FoleyCrafter comprises two key components: the semantic adapter for semantic alignment and the temporal controller for precise audio-video synchronization. The semantic adapter utilizes parallel cross-attention layers to condition audio generation on video features, producing realistic sound effects that are semantically relevant to the visual content. Meanwhile, the temporal controller incorporates an onset detector and a timestampbased adapter to achieve precise audio-video alignment. One notable advantage of FoleyCrafter is its compatibility with text prompts, enabling the use of text descriptions to achieve controllable and diverse video-to-audio generation according to user intents. We conduct extensive quantitative and qualitative experiments on standard benchmarks to verify the effectiveness of FoleyCrafter. Models and codes are available at https://github.com/open-mmlab/FoleyCrafter. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# Multifidelity Cross-Vidation
Multifidelity Cross-validation ( http://arxiv.org/abs/2407.01495v1 ) ライセンス: Link先を確認 | S. Ashwin Renganathan, Kade Carlson, | (参考訳) 代理モデルを用いた関心量とその制御パラメータのマッピングをエミュレートすると、数値最適化や不確実性定量化を含む工学設計に広く応用される。
ガウス過程モデルは未知の関数の確率的サロゲートモデルとして機能し、不確実性の存在下でのエンジニアリング設計や意思決定に非常に適している。
本研究は,複数の忠実度を持つシステムのモデルから観測される関心量のエミュレートに興味を持ち,計算効率の精度を交換する。
多重忠実度ガウス過程モデルを用いて,複数の忠実度で効率的にモデルを融合させる手法を提案する。
提案手法は,全忠実度におけるLOO-CV間の相関関係を学習することにより,目標(最も高い)忠実度におけるLOO-CV誤差を低減する適応的手法を開発する。
texttt{MFCV} は、2段階のルックアヘッドポリシーを開発し、連続および離散のフィデリティ空間に対して、シーケンスとバッチの両方で最適な入出力フィデリティペアを選択する。
本手法は, ガスタービンブレードの熱応力解析だけでなく, 合成試験問題にも有効であることを示す。
Emulating the mapping between quantities of interest and their control parameters using surrogate models finds widespread application in engineering design, including in numerical optimization and uncertainty quantification. Gaussian process models can serve as a probabilistic surrogate model of unknown functions, thereby making them highly suitable for engineering design and decision-making in the presence of uncertainty. In this work, we are interested in emulating quantities of interest observed from models of a system at multiple fidelities, which trade accuracy for computational efficiency. Using multifidelity Gaussian process models, to efficiently fuse models at multiple fidelities, we propose a novel method to actively learn the surrogate model via leave-one-out cross-validation (LOO-CV). Our proposed multifidelity cross-validation (\texttt{MFCV}) approach develops an adaptive approach to reduce the LOO-CV error at the target (highest) fidelity, by learning the correlations between the LOO-CV at all fidelities. \texttt{MFCV} develops a two-step lookahead policy to select optimal input-fidelity pairs, both in sequence and in batches, both for continuous and discrete fidelity spaces. We demonstrate the utility of our method on several synthetic test problems as well as on the thermal stress analysis of a gas turbine blade. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# ニューラルネットワークのための高速反復解法:II. 1次元拡散反応問題とデータフィッティング
Fast Iterative Solver For Neural Network Method: II. 1D Diffusion-Reaction Problems And Data Fitting ( http://arxiv.org/abs/2407.01496v1 ) ライセンス: Link先を確認 | Zhiqiang Cai, Anastassia Doktorova, Robert D. Falgout, César Herrera, | (参考訳) 本稿では,1次元拡散反応方程式と最小二乗データ適合問題に対して,最近[4]で導入されたダンプブロックニュートン(dBN)法を拡張する。
ニューラルネットワーク(NN)の線形パラメータ(出力層の重みとバイアス)を決定するために、dBN法は質量行列を含む線形方程式系の解法を必要とする。
局所的ハット基底関数の質量行列は三対角的かつよく条件付けされているが、NNの質量行列は密で条件付けされていない。
例えば、準ユニフォームメッシュに対するNN質量行列の条件数は少なくとも${\cal O}(n^4)$である。
本稿では,線形方程式の系を${\cal O}(n)$演算で解くことが可能な質量行列の分解について述べる。
非線型パラメータ(隠蔽層の重みとバイアス)を決定するために、各イテレーションでダンプされたニュートン法の1ステップが使用される。
ガウス・ニュートン法は、ヘッセン行列が特異な場合にニュートンの代わりに用いられる。
この修飾dBNはdBGNと呼ばれる。
どちらの方法も、反復当たりの計算コストは${\cal O}(n)$である。
数値的な結果から,dBNとdBGNが効率よく正確な結果が得られることを示した。
This paper expands the damped block Newton (dBN) method introduced recently in [4] for 1D diffusion-reaction equations and least-squares data fitting problems. To determine the linear parameters (the weights and bias of the output layer) of the neural network (NN), the dBN method requires solving systems of linear equations involving the mass matrix. While the mass matrix for local hat basis functions is tri-diagonal and well-conditioned, the mass matrix for NNs is dense and ill-conditioned. For example, the condition number of the NN mass matrix for quasi-uniform meshes is at least ${\cal O}(n^4)$. We present a factorization of the mass matrix that enables solving the systems of linear equations in ${\cal O}(n)$ operations. To determine the non-linear parameters (the weights and bias of the hidden layer), one step of a damped Newton method is employed at each iteration. A Gauss-Newton method is used in place of Newton for the instances in which the Hessian matrices are singular. This modified dBN is referred to as dBGN. For both methods, the computational cost per iteration is ${\cal O}(n)$. Numerical results demonstrate the ability dBN and dBGN to efficiently achieve accurate results and outperform BFGS for select examples. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# MIDIの画像: 画像ベース拡散インペインティングのためのグラフィカルプロンプトによる音楽生成制御
Pictures Of MIDI: Controlled Music Generation via Graphical Prompts for Image-Based Diffusion Inpainting ( http://arxiv.org/abs/2407.01499v1 ) ライセンス: Link先を確認 | Scott H. Hawley, | (参考訳) 近年では、出力品質、多様性、スピード、ユーザコントロールのバランスをとる様々なアーキテクチャが特徴となっている。
本研究は,MIDIピアノロール画像に基づいて訓練されたHourglass Diffusion Transformer (HDiT)モデルを用いて,マスク付き領域の描画を可能にするユーザフレンドリーなグラフィカルインタフェースについて検討する。
特定領域における音質生成を強化するため、余分な雑音でマスキングされた領域を「再塗装」することができる。
ピクセルカウントによる非遅延HDiTの線形スケーリングは、ピクセル空間の効率的な生成を可能にし、ネットワーク全体のマスキングのような直感的で解釈可能な制御を提供し、事前訓練されたオートエンコーダによって提供されるような圧縮された遅延空間で操作する必要がない。
本研究では, メロディ, 伴奏, 継続の塗布に加えて, ライティング, 転倒, メロディや伴奏のばらつきといったユーザ仕様によく適合する音楽構造を, 典型的な訓練データ分布の外側にある場合でも, ノート密度の向上に寄与することが実証された。
オートエンコーダを使わずに、より長いコンテキストウインドウで操作しながら、先行結果と同等の性能を実現し、インペイントマスクの複雑なジオメトリーを実現し、機械支援作曲家が生成した音楽を制御できる選択肢を増やした。
Recent years have witnessed significant progress in generative models for music, featuring diverse architectures that balance output quality, diversity, speed, and user control. This study explores a user-friendly graphical interface enabling the drawing of masked regions for inpainting by an Hourglass Diffusion Transformer (HDiT) model trained on MIDI piano roll images. To enhance note generation in specified areas, masked regions can be "repainted" with extra noise. The non-latent HDiTs linear scaling with pixel count allows efficient generation in pixel space, providing intuitive and interpretable controls such as masking throughout the network and removing the need to operate in compressed latent spaces such as those provided by pretrained autoencoders. We demonstrate that, in addition to inpainting of melodies, accompaniment, and continuations, the use of repainting can help increase note density yielding musical structures closely matching user specifications such as rising, falling, or diverging melody and/or accompaniment, even when these lie outside the typical training data distribution. We achieve performance on par with prior results while operating at longer context windows, with no autoencoder, and can enable complex geometries for inpainting masks, increasing the options for machine-assisted composers to control the generated music. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# 持続的捕食問題に対する時間依存のオンライン学習
Online Learning of Temporal Dependencies for Sustainable Foraging Problem ( http://arxiv.org/abs/2407.01501v1 ) ライセンス: Link先を確認 | John Payne, Aishwaryaprajna, Peter R. Lewis, | (参考訳) 持続可能な採餌問題は、マルチエージェント環境での社会的ジレンマを扱う際のエージェント認知の形式を探究するための動的環境テストベッドである。
エージェントは、食餌を通じて個人の報酬の誘惑に抵抗し、持続可能性という集合的な長期的な目標を選択する必要がある。
本稿では,ニューロ進化とディープ・リカレントQ-ネットワークスにおけるオンライン学習の手法を検討した。
さらに,長期記憶による時間的依存関係の学習が,長期にわたる持続的捕食戦略の発達に役立てられるかどうかについても検討する。
その結果, 長期記憶支援エージェントの統合は, 単一エージェントの持続可能な戦略開発に有効であったが, 多エージェントシナリオにおいて生じる社会的ジレンマの管理には役に立たなかった。
The sustainable foraging problem is a dynamic environment testbed for exploring the forms of agent cognition in dealing with social dilemmas in a multi-agent setting. The agents need to resist the temptation of individual rewards through foraging and choose the collective long-term goal of sustainability. We investigate methods of online learning in Neuro-Evolution and Deep Recurrent Q-Networks to enable agents to attempt the problem one-shot as is often required by wicked social problems. We further explore if learning temporal dependencies with Long Short-Term Memory may be able to aid the agents in developing sustainable foraging strategies in the long term. It was found that the integration of Long Short-Term Memory assisted agents in developing sustainable strategies for a single agent, however failed to assist agents in managing the social dilemma that arises in the multi-agent scenario. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# 重要なAIエージェント
AI Agents That Matter ( http://arxiv.org/abs/2407.01502v1 ) ライセンス: Link先を確認 | Sayash Kapoor, Benedikt Stroebl, Zachary S. Siegel, Nitya Nadgir, Arvind Narayanan, | (参考訳) AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
現在のエージェントベンチマークと評価手法の分析により,現実のアプリケーションでの有用性を損なういくつかの欠点が明らかになった。
まず、他のメトリクスに注意せずに正確性に焦点が当てられている。
その結果、SOTAエージェントは不必要に複雑でコストがかかり、コミュニティは精度向上の源泉について誤った結論に達している。
コストに加えて,コストに重点を置くことで,2つのメトリクスを共同で最適化するという,新たな目標を動機付けています。
このような最適化を設計し実装し、精度を維持しながらコストを大幅に削減する可能性を示す。
第二に、モデルと下流開発者のベンチマークの必要性が混ざり合っており、特定のアプリケーションに適したエージェントを特定するのが難しくなっている。
第3に、多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
これは様々な方法でショートカットとベンチマークに過度に適合するため、脆弱なエージェントにつながっている。
我々は過度な適合を避けるための原則的な枠組みを定めている。
最終的に、評価プラクティスの標準化が欠如し、再現性の広範囲な欠如につながります。
これらの欠点に対処するためのステップが、ベンチマークだけでなく、現実世界で有用なエージェントの開発に拍車をかけることを期待しています。
AI agents are an exciting new research direction, and agent development is driven by benchmarks. Our analysis of current agent benchmarks and evaluation practices reveals several shortcomings that hinder their usefulness in real-world applications. First, there is a narrow focus on accuracy without attention to other metrics. As a result, SOTA agents are needlessly complex and costly, and the community has reached mistaken conclusions about the sources of accuracy gains. Our focus on cost in addition to accuracy motivates the new goal of jointly optimizing the two metrics. We design and implement one such optimization, showing its potential to greatly reduce cost while maintaining accuracy. Second, the benchmarking needs of model and downstream developers have been conflated, making it hard to identify which agent would be best suited for a particular application. Third, many agent benchmarks have inadequate holdout sets, and sometimes none at all. This has led to agents that are fragile because they take shortcuts and overfit to the benchmark in various ways. We prescribe a principled framework for avoiding overfitting. Finally, there is a lack of standardization in evaluation practices, leading to a pervasive lack of reproducibility. We hope that the steps we introduce for addressing these shortcomings will spur the development of agents that are useful in the real world and not just accurate on benchmarks. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# R2指標の再検討:統合によるパレートコンプライアンスの実現
Reinvestigating the R2 Indicator: Achieving Pareto Compliance by Integration ( http://arxiv.org/abs/2407.01504v1 ) ライセンス: Link先を確認 | Lennart Schäpermeier, Pascal Kerschke, | (参考訳) 多目的最適化では、セットベースの品質指標がベンチマークと性能評価の基礎となる。
それらは、スカラー数に還元することで、一連のトレードオフソリューションの品質をキャプチャします。
最もよく使われるセットベースメトリクスの1つはR2インジケータであり、これはユーティリティ関数の分布の下で意思決定者に設定されたソリューションの期待されるユーティリティを記述するものである。
通常、この指標はユーティリティ関数の分布を離散化することで適用され、弱いパレート準拠の指標が得られる。
結果として、非支配的あるいは支配的な解を解集合に追加すると、指標の価値が向上する。
本稿では、(Tchebycheff)ユーティリティ関数の連続的一様分布を持つという前提のもと、R2インジケータを再検討する。
我々は、その性質を詳細に分析し、この連続多様体が実際にパレートに準拠していること、すなわち、任意の有益解が計量値を改善することを実証する。
さらに、この測度を$\mathcal O (N \log N)$ の双目的問題に対して計算する効率的な計算手順を提供する。
結果として、この研究は、ハイパーボリュームインジケータのような最先端のPareto準拠の単一パフォーマンスメトリクスに寄与し、効率的で有望な代替手段を提供する。
In multi-objective optimization, set-based quality indicators are a cornerstone of benchmarking and performance assessment. They capture the quality of a set of trade-off solutions by reducing it to a scalar number. One of the most commonly used set-based metrics is the R2 indicator, which describes the expected utility of a solution set to a decision-maker under a distribution of utility functions. Typically, this indicator is applied by discretizing this distribution of utility functions, yielding a weakly Pareto-compliant indicator. In consequence, adding a nondominated or dominating solution to a solution set may - but does not have to - improve the indicator's value. In this paper, we reinvestigate the R2 indicator under the premise that we have a continuous, uniform distribution of (Tchebycheff) utility functions. We analyze its properties in detail, demonstrating that this continuous variant is indeed Pareto-compliant - that is, any beneficial solution will improve the metric's value. Additionally, we provide an efficient computational procedure to compute this metric for bi-objective problems in $\mathcal O (N \log N)$. As a result, this work contributes to the state-of-the-art Pareto-compliant unary performance metrics, such as the hypervolume indicator, offering an efficient and promising alternative. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# 大規模言語モデルにおける自己認知 : 探索的研究
Self-Cognition in Large Language Models: An Exploratory Study ( http://arxiv.org/abs/2407.01505v1 ) ライセンス: Link先を確認 | Dongping Chen, Jiawen Shi, Yao Wan, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun, | (参考訳) 大規模言語モデル(LLM)は様々なアプリケーションで顕著な成功を収めてきたが、自己認識に関する懸念も持ち上がっている。
本稿では,LLMにおける自己認識の先駆的な研究を行う。
具体的には、まず、LLMが自己認識を示す場所と、LLMの自己認識を定量化するための4つのよく設計された原則を評価するための自己認識指導のプールを構築する。
本研究により,Chatbot Arenaの48モデルのうち4モデルがコマンドR,Claude3-Opus,Llama-3-70b-Instruct,Reka-coreで検出可能な自己認識のレベルを実証していることがわかった。
モデルサイズ, トレーニングデータ品質, 自己認識レベルとの間には, 正の相関関係が認められた。
さらに、自己認識状態におけるLCMの有用性と信頼性についても検討し、自己認識状態が創造的な文章や誇張といった特定のタスクを強化することを明らかにした。
我々の研究は、LLMの自己認知を研究するためのさらなる研究のインスピレーションとなると信じている。
While Large Language Models (LLMs) have achieved remarkable success across various applications, they also raise concerns regarding self-cognition. In this paper, we perform a pioneering study to explore self-cognition in LLMs. Specifically, we first construct a pool of self-cognition instruction prompts to evaluate where an LLM exhibits self-cognition and four well-designed principles to quantify LLMs' self-cognition. Our study reveals that 4 of the 48 models on Chatbot Arena--specifically Command R, Claude3-Opus, Llama-3-70b-Instruct, and Reka-core--demonstrate some level of detectable self-cognition. We observe a positive correlation between model size, training data quality, and self-cognition level. Additionally, we also explore the utility and trustworthiness of LLM in the self-cognition state, revealing that the self-cognition state enhances some specific tasks such as creative writing and exaggeration. We believe that our work can serve as an inspiration for further research to study the self-cognition in LLMs. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# MIA-Bench:マルチモーダルLCMの評価による教育改善に向けて
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs ( http://arxiv.org/abs/2407.01509v1 ) ライセンス: Link先を確認 | Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan, | (参考訳) MIA-Benchは,マルチモーダルな大規模言語モデル(MLLM)を,複雑な命令に厳密に準拠する能力に基づいて評価するための新しいベンチマークである。
私たちのベンチマークは400のイメージプロンプトペアで構成されており、それぞれが特定の要求されたパターンを満たす正確な応答を生成するために、階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
最先端MLLMの幅広い評価結果から, 性能の大幅な変化が明らかとなり, 命令忠実度向上のための領域が強調された。
さらに、余分なトレーニングデータを作成し、教師付き微調整を探索し、他のタスクのパフォーマンスを損なうことなく、モデルが厳格に指示に従う能力を高める。
我々は,このベンチマークがMLLMの指示への付着度を測定するツールとして機能するだけでなく,MLLMトレーニング手法の今後の発展を導くことを願っている。
We introduce MIA-Bench, a new benchmark designed to evaluate multimodal large language models (MLLMs) on their ability to strictly adhere to complex instructions. Our benchmark comprises a diverse set of 400 image-prompt pairs, each crafted to challenge the models' compliance with layered instructions in generating accurate responses that satisfy specific requested patterns. Evaluation results from a wide array of state-of-the-art MLLMs reveal significant variations in performance, highlighting areas for improvement in instruction fidelity. Additionally, we create extra training data and explore supervised fine-tuning to enhance the models' ability to strictly follow instructions without compromising performance on other tasks. We hope this benchmark not only serves as a tool for measuring MLLM adherence to instructions, but also guides future developments in MLLM training methods. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# CRAB:マルチモーダル言語モデルエージェントのためのクロス環境エージェントベンチマーク
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents ( http://arxiv.org/abs/2407.01511v1 ) ライセンス: Link先を確認 | Tianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang, Xiang Yao, Zhiqiang Xie, Yongchao Chen, Shilong Liu, Bochen Qian, Philip Torr, Bernard Ghanem, Guohao Li, | (参考訳) 自律エージェントの開発は、ウェブサイト、デスクトップコンピュータ、携帯電話などのGUI環境で自然言語で記述されたタスクを実行するために、MLM(Multimodal Language Models)にますます依存している。
対話環境における既存のMLMエージェントのベンチマークは、単一の環境、詳細で一般化された評価方法の欠如、タスクと評価器の構築の複雑さによって制限されている。
これらの制約を克服するため、我々はクロス環境タスクをサポートするために設計された最初のエージェントベンチマークフレームワークであるCrabを紹介し、グラフベースのきめ細かい評価手法とタスクと評価器構築のための効率的なメカニズムを取り入れた。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
Crabを活用することで、コンピュータデスクトップおよび携帯電話環境における100タスクからなるクロスプラットフォームの Crab Benchmark-v0 を開発した。
このベンチマークでは,異なる単一エージェントとマルチエージェントのシステム構成を用いて,高度なMLMを4つ評価した。
実験の結果、GPT-4oの単剤は35.26%の最高完成率を達成できた。
すべてのフレームワークコード、エージェントコード、タスクデータセットはhttps://github.com/camel-ai/crab.comで公開されている。
The development of autonomous agents increasingly relies on Multimodal Language Models (MLMs) to perform tasks described in natural language with GUI environments, such as websites, desktop computers, or mobile phones. Existing benchmarks for MLM agents in interactive environments are limited by their focus on a single environment, lack of detailed and generalized evaluation methods, and the complexities of constructing tasks and evaluators. To overcome these limitations, we introduce Crab, the first agent benchmark framework designed to support cross-environment tasks, incorporating a graph-based fine-grained evaluation method and an efficient mechanism for task and evaluator construction. Our framework supports multiple devices and can be easily extended to any environment with a Python interface. Leveraging Crab, we developed a cross-platform Crab Benchmark-v0 comprising 100 tasks in computer desktop and mobile phone environments. We evaluated four advanced MLMs using different single and multi-agent system configurations on this benchmark. The experimental results demonstrate that the single agent with GPT-4o achieves the best completion ratio of 35.26%. All framework code, agent code, and task datasets are publicly available at https://github.com/camel-ai/crab. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# Open-TeleVision: 没入型アクティブビジュアルフィードバックによる遠隔操作
Open-TeleVision: Teleoperation with Immersive Active Visual Feedback ( http://arxiv.org/abs/2407.01512v1 ) ライセンス: Link先を確認 | Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang, | (参考訳) 遠隔操作は、デモからロボット学習に必要なオンロボットデータを収集する強力な方法として機能する。
テレオペレーションシステムの直感性と使いやすさは、高品質で多様な、スケーラブルなデータを保証するために不可欠である。
そこで我々は,ロボットの周囲を立体的に知覚できる没入型遠隔操作システムOpen-TeleVisionを提案する。
さらに、操作者の腕と手の動きをロボットに反映し、操作者の心がロボットの体感に伝達されるような没入感を与える。
本研究では,2種類のヒューマノイドロボットに対する4つの長期的高精度タスク(Can Sorting, Can Insertion, Folding, Unloading)のデータ収集と模倣学習ポリシーの訓練により,本システムの有効性を検証する。
このシステムは、https://robot-tv.github.io/でオープンソース化されている。
Teleoperation serves as a powerful method for collecting on-robot data essential for robot learning from demonstrations. The intuitiveness and ease of use of the teleoperation system are crucial for ensuring high-quality, diverse, and scalable data. To achieve this, we propose an immersive teleoperation system Open-TeleVision that allows operators to actively perceive the robot's surroundings in a stereoscopic manner. Additionally, the system mirrors the operator's arm and hand movements on the robot, creating an immersive experience as if the operator's mind is transmitted to a robot embodiment. We validate the effectiveness of our system by collecting data and training imitation learning policies on four long-horizon, precise tasks (Can Sorting, Can Insertion, Folding, and Unloading) for 2 different humanoid robots and deploy them in the real world. The system is open-sourced at: https://robot-tv.github.io/ | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# E.T. 例外軌道:文字認識によるテキスト・カメラ・トラック生成
E.T. the Exceptional Trajectories: Text-to-camera-trajectory generation with character awareness ( http://arxiv.org/abs/2407.01516v1 ) ライセンス: Link先を確認 | Robin Courant, Nicolas Dufour, Xi Wang, Marc Christie, Vicky Kalogeiton, | (参考訳) 映画におけるストーリーや感情は、よく考え抜かれたディレクティブ決定、特にカメラの配置や動きによって現れる。
魅力的なカメラトラジェクトリを作るのは、細かなアーティストにとっても、複雑な反復的なプロセスだ。
そこで本研究では,カメラトラジェクトリを用いた例外軌道(E.T.)と呼ばれるデータセットと,カメラとキャラクタの両方の記述を含む文字情報とテキストキャプションを提案する。
私たちの知る限りでは、この種のデータセットとしてはこれが初めてのものです。
E.T.データセットの潜在的な応用を示すために、拡散に基づくアプローチであるDIRECTORを提案し、カメラとキャラクタの関係と同期を記述したテキストキャプションから複雑なカメラトラジェクトリを生成する。
堅牢で正確な評価を保証するため、評価指標にContrastive Language-Trajectory 埋め込みである E.T. データセット CLaTr をトレーニングする。
提案したデータセットと手法は,撮影技術の民主化を著しく推進し,一般ユーザにとってよりアクセスしやすいものにしている。
Stories and emotions in movies emerge through the effect of well-thought-out directing decisions, in particular camera placement and movement over time. Crafting compelling camera trajectories remains a complex iterative process, even for skilful artists. To tackle this, in this paper, we propose a dataset called the Exceptional Trajectories (E.T.) with camera trajectories along with character information and textual captions encompassing descriptions of both camera and character. To our knowledge, this is the first dataset of its kind. To show the potential applications of the E.T. dataset, we propose a diffusion-based approach, named DIRECTOR, which generates complex camera trajectories from textual captions that describe the relation and synchronisation between the camera and characters. To ensure robust and accurate evaluations, we train on the E.T. dataset CLaTr, a Contrastive Language-Trajectory embedding for evaluation metrics. We posit that our proposed dataset and method significantly advance the democratization of cinematography, making it more accessible to common users. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# 血管分節に対する中心線境界線損失
Centerline Boundary Dice Loss for Vascular Segmentation ( http://arxiv.org/abs/2407.01517v1 ) ライセンス: Link先を確認 | Pengcheng Shi, Jiesi Hu, Yanwu Yang, Zilve Gao, Wei Liu, Ting Ma, | (参考訳) 画像診断における血管のセグメンテーションは形態学的および機能的評価を分析する上で重要な役割を担っている。
中央のDice(clDice)損失のような伝統的な手法は、トポロジーの保存を確実にするが、幾何学的詳細(特に翻訳や変形の下で)を捉えるのに失敗する。
ClDiceと従来のDiceの損失の組み合わせは、直径の不均衡を招き、より大きな船を好んでいる。
これらの課題に対処するため, 中心線境界Dice(cbDice)損失関数を導入し, トポロジ的整合性と幾何ニュアンスを調和させ, 様々な容器サイズで一貫したセグメンテーションを確保する。
cbDiceは境界認識アスペクトを含むことによってclDiceアプローチを強化し、幾何学的ディテール認識を改善する。
これは、マスク距離に基づくアプローチにより、結合(B-DoU)損失に対する境界差のパフォーマンスと一致し、トラスレーション感度が向上する。
重要な点として、cbDiceは血管骨格からの半径情報を取り入れ、血管径の変化に均一に適応し、枝の成長と骨折の影響のバランスを維持することができる。
さらに,clDice変種(cl-X-Dice)の理論的解析を行った。
CbDiceは2Dと3Dの両方を包含する3種類の血管分節データセットとバイナリとマルチクラスの分節データセットに対して有効であった。
特に、cbDiceと統合された手法はMICCAI 2023 TopCoW Challengeデータセットで優れた性能を示した。
私たちのコードは、https://github.com/PengchengShi1220/cbDice.comで公開されています。
Vascular segmentation in medical imaging plays a crucial role in analysing morphological and functional assessments. Traditional methods, like the centerline Dice (clDice) loss, ensure topology preservation but falter in capturing geometric details, especially under translation and deformation. The combination of clDice with traditional Dice loss can lead to diameter imbalance, favoring larger vessels. Addressing these challenges, we introduce the centerline boundary Dice (cbDice) loss function, which harmonizes topological integrity and geometric nuances, ensuring consistent segmentation across various vessel sizes. cbDice enriches the clDice approach by including boundary-aware aspects, thereby improving geometric detail recognition. It matches the performance of the boundary difference over union (B-DoU) loss through a mask-distance-based approach, enhancing traslation sensitivity. Crucially, cbDice incorporates radius information from vascular skeletons, enabling uniform adaptation to vascular diameter changes and maintaining balance in branch growth and fracture impacts. Furthermore, we conducted a theoretical analysis of clDice variants (cl-X-Dice). We validated cbDice's efficacy on three diverse vascular segmentation datasets, encompassing both 2D and 3D, and binary and multi-class segmentation. Particularly, the method integrated with cbDice demonstrated outstanding performance on the MICCAI 2023 TopCoW Challenge dataset. Our code is made publicly available at: https://github.com/PengchengShi1220/cbDice. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# 自己スーパービジョンによるマルチモーダルオープンセット領域の一般化と適応に向けて
Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision ( http://arxiv.org/abs/2407.01518v1 ) ライセンス: Link先を確認 | Hao Dong, Eleni Chatzi, Olga Fink, | (参考訳) オープンセット領域一般化(OSDG)の課題は、未確認領域内の新しいクラスを認識することである。
既存の作業は、マルチモーダルシナリオを考慮せずに、メタラーニングフレームワーク内のunimodal OSDGにのみ対応している。
本研究では,マルチモーダルなオープンセットドメイン一般化(MM-OSDG)を初めて取り上げ,自己スーパービジョンを活用した新しいアプローチを提案する。
この目的のために,Musked Cross-modal TranslationとMultimodal Jigsaw Puzzlesという,革新的なマルチモーダル自己教師型プリテキストタスクを導入する。
これらのタスクはマルチモーダルな代表的特徴の学習を容易にし、一般化とオープンクラス検出能力を向上する。
さらに,異なるモード間の損失のバランスをとるために,新しいエントロピー重み付け機構を提案する。
さらに、特に対象領域からのラベルなしデータが利用可能なシナリオにおいて、Multimodal Open-Set Domain Adaptation (MM-OSDA)問題にも取り組みます。
EPIC-KitchensおよびHACデータセットのMM-OSDG、MM-OSDA、Multimodal Closed-Set DG設定で行った大規模な実験は、提案手法の有効性と汎用性を示している。
ソースコードはhttps://github.com/donghao51/MOOSA.comで公開されています。
The task of open-set domain generalization (OSDG) involves recognizing novel classes within unseen domains, which becomes more challenging with multiple modalities as input. Existing works have only addressed unimodal OSDG within the meta-learning framework, without considering multimodal scenarios. In this work, we introduce a novel approach to address Multimodal Open-Set Domain Generalization (MM-OSDG) for the first time, utilizing self-supervision. To this end, we introduce two innovative multimodal self-supervised pretext tasks: Masked Cross-modal Translation and Multimodal Jigsaw Puzzles. These tasks facilitate the learning of multimodal representative features, thereby enhancing generalization and open-class detection capabilities. Additionally, we propose a novel entropy weighting mechanism to balance the loss across different modalities. Furthermore, we extend our approach to tackle also the Multimodal Open-Set Domain Adaptation (MM-OSDA) problem, especially in scenarios where unlabeled data from the target domain is available. Extensive experiments conducted under MM-OSDG, MM-OSDA, and Multimodal Closed-Set DG settings on the EPIC-Kitchens and HAC datasets demonstrate the efficacy and versatility of the proposed approach. Our source code is available at https://github.com/donghao51/MOOSA. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# DiffIR2VR-Zero:拡散型画像復元モデルによるゼロショットビデオ再生
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models ( http://arxiv.org/abs/2407.01519v1 ) ライセンス: Link先を確認 | Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu, | (参考訳) 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
従来のビデオ復元手法では、異なる設定で再トレーニングを行う必要があり、様々な劣化タイプやデータセットをまたいだ限定的な一般化に苦慮することが多い。
提案手法では,鍵フレームと局所フレームの階層的トークンマージ戦略と,光フローと特徴に基づく近接マッチング(ラテントマージ)を融合したハイブリッド対応機構を併用する。
提案手法は, ゼロショット映像復元において最高性能を達成するだけでなく, 多様なデータセットや極端な劣化(超解像・高標準偏差映像復調化8$\times$8$\times$ Super- resolution and High-standard deviation video denoising)の一般化において, 訓練されたモデルを大幅に上回ることを示す。
様々な挑戦的データセットの量的指標と視覚的比較を通して証拠を提示する。
さらに,本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行なわずに,映像強調作業のための汎用的で強力なツールを提供する。
この研究は、高品質な映像出力を必要とする分野の進歩を支援する、より効率的で広く適用可能なビデオ復元技術をもたらす。
ビデオ結果のプロジェクトページはhttps://jimmycv07.github.io/DiffIR2VR_web/にある。
This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8$\times$ super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/. | 翻訳日:2024-07-03 20:21:46 公開日:2024-07-01 |
# フォトニックメッシュ格子における非エルミート力学トポロジカル巻線
Non-Hermitian dynamical topological winding in photonic mesh lattices ( http://arxiv.org/abs/2407.01520v1 ) ライセンス: Link先を確認 | Stefano Longhi, | (参考訳) 非エルミート系のトポロジカルな巻線は、一般に格子ハミルトニアンのブロッホバンドの性質と関連している。
しかし、ある種の非エルミート模型では、トポロジカル・ウィンディングは自然に系の力学的進化から生じ、新しい幾何学的位相の形式に関係している。
ここでは,非エルミートフォトニックメッシュ格子における動的トポロジカル巻線について検討する。
提案されたフォトニックモデルは、非エルミート力学のトポロジカルな巻線を観測するための実験的なプラットフォームを提供することができる。
Topological winding in non-Hermitian systems are generally associated to the Bloch band properties of lattice Hamiltonians. However, in certain non-Hermitian models topological winding naturally arise from the dynamical evolution of the system and related to a new form of geometric phase. Here we investigate dynamical topological winding in non-Hermitian photonic mesh lattices, where the mean survival time of an optical pulse circulating in coupled fiber loops is quantized and robust against Hamiltonian deformations. The suggested photonic model could provide an experimentally accessible platform for the observation of non-Hermitian dynamical topological windings. | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# 疎結合雑音アニーリングによる拡散逆問題解法の改善
Improving Diffusion Inverse Problem Solving with Decoupled Noise Annealing ( http://arxiv.org/abs/2407.01521v1 ) ライセンス: Link先を確認 | Bingliang Zhang, Wenda Chu, Julius Berner, Chenlin Meng, Anima Anandkumar, Yang Song, | (参考訳) 拡散モデルは最近、ベイズ逆問題と学習データ先行問題を解くことに成功している。
現在の手法は拡散サンプリングプロセスの上に構築されており、各デノイングステップは前のステップからサンプルに小さな修正を加える。
しかし、このプロセスは初期のサンプリングステップからの誤りの修正に苦労し、位相探索のような複雑な非線形逆問題では性能が悪化する。
この課題に対処するために、新しいノイズアニーリングプロセスに依存するDAPS(Decoupled Annealing Posterior Smpling)と呼ばれる新しい手法を提案する。
具体的には、拡散サンプリング軌道における連続的なステップを分離し、ノイズレベルを減少させるとともに、その時間領域が真の後部と一致することを保証しながら、互いに大きく異なるようにします。
このアプローチは、より大きなソリューション空間の探索を可能にし、正確な再構築の成功率を向上させる。
DAPSは複数の画像復元タスク,特に複雑な非線形逆問題において,サンプル品質と安定性を著しく向上することを示した。
例えば、フェーズ検索のためのFFHQ 256データセット上で、PSNRが30.72dBである場合、既存の手法と比較して9.12dBの改善となる。
Diffusion models have recently achieved success in solving Bayesian inverse problems with learned data priors. Current methods build on top of the diffusion sampling process, where each denoising step makes small modifications to samples from the previous step. However, this process struggles to correct errors from earlier sampling steps, leading to worse performance in complicated nonlinear inverse problems, such as phase retrieval. To address this challenge, we propose a new method called Decoupled Annealing Posterior Sampling (DAPS) that relies on a novel noise annealing process. Specifically, we decouple consecutive steps in a diffusion sampling trajectory, allowing them to vary considerably from one another while ensuring their time-marginals anneal to the true posterior as we reduce noise levels. This approach enables the exploration of a larger solution space, improving the success rate for accurate reconstructions. We demonstrate that DAPS significantly improves sample quality and stability across multiple image restoration tasks, particularly in complicated nonlinear inverse problems. For example, we achieve a PSNR of 30.72dB on the FFHQ 256 dataset for phase retrieval, which is an improvement of 9.12dB compared to existing methods. | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# Causaloidフレームワークのための図形言語
A diagrammatic language for the Causaloid framework ( http://arxiv.org/abs/2407.01522v1 ) ライセンス: Link先を確認 | Nitica Sakharwade, Lucien Hardy, | (参考訳) カウサロイドフレームワーク(Causaloid framework)は、一般相対性理論の根本的側面、動的因果構造と量子理論の両面を包含することを目的とした運用的アプローチであり、不定因果構造を許容する理論の風景を提供することによって量子重力に適した足場を提供する。
これは一般化された確率論(英語版)(GPT)の一般化と見なすことができ、そこでは事前領域が与えられた因果関係を持たないと仮定され、不確定因果構造の可能性を取り込むことができる。
その概念以来、不確定因果構造(英語版)の分野では、主に量子スイッチとスーパーマップに関するChiribella et alの研究や、因果不等式やプロセス行列に関するOreshkov et alの研究から派生した多くの進歩があった。
これらのアプローチは、ワイヤに沿って動くシステムを持ち、ヒルベルト空間構造を使用する。
これらは量子論の標準的な因果性制約に違反しており、この意味では後量子と見なすことができる。
カウサロイドのアプローチは必ずしもワイヤやヒルベルト空間に沿って動く系を持つとは限らない。
これは、コーサロイド(GPTを許す)とヒルベルト空間を用いた後量子研究の間のギャップを埋めることを目的とした論文三部作における最初の論文である。
本稿では,3段階の物理圧縮(トモグラフィ,コンポジション,メタ圧縮)の新しい用語とともに,コーサロイドフレームワークのための図式言語を提供する。
The Causaloid framework is an operational approach aimed to house both the radical aspects of General Relativity -- dynamic causal structure, and Quantum Theory -- indefiniteness, to provide a scaffolding that might be suitable for Quantum Gravity by providing a landscape of theories that allow for indefinite causal structure. One may consider it as a generalisation of generalised probability theories (or GPTs) where a priori regions are not assumed to have any given causal relationship, to incorporate the possibility of indefinite causal structure. Since its conception, there have been many advances in the field of indefinite causal structure mostly stemming from the work of Chiribella et al. on the quantum switch and supermaps and from Oreshkov et al. on causal inequalities and process matrices. These approaches have systems moving along wires and use Hilbert space structure. They violate the standard causality constraints of Quantum Theory and, in this sense, can be regarded as post-quantum. The Causaloid approach does not necessarily have systems moving along wires or Hilbert spaces. This is the first paper in a trilogy of papers aiming to close the gap between the Causaloid (that allows for GPTs) and post-quantum studies that employ Hilbert spaces. To do so in the present paper, we provide a diagrammatic language for the Causaloid framework along with new terminology for the three levels of physical compression (called Tomographic, Compositional, and Meta compression). | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# MMLongBench-Doc: 可視化による長文文書理解のベンチマーク
MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations ( http://arxiv.org/abs/2407.01523v1 ) ライセンス: Link先を確認 | Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, Pan Zhang, Liangming Pan, Yu-Gang Jiang, Jiaqi Wang, Yixin Cao, Aixin Sun, | (参考訳) リッチなレイアウトとマルチモーダルコンポーネントでドキュメントを理解することは、長年の実践的課題である。
最近のLVLM(Large Vision-Language Models)は、特に単一ページ文書理解(DU)において、様々なタスクにおいて顕著な進歩を遂げている。
しかし、長文DUに対するそれらの能力は依然として未解決の問題である。
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
以前のデータセットとは違って、平均49.4ページと20,971のテキストトークンを持つ130のPDFフォーマットの文書上に構築されている。
総合的な評価に向けて、これらの質問に対する回答は、(1)異なる情報源(テキスト、画像、チャート、テーブル、レイアウト構造)と(2)様々な場所(ページ番号)からの証拠の断片に依存している。
さらに、質問の33.2%は複数のページにわたる証拠を必要とする横断的な質問である。
22.8%の質問は幻覚の可能性を検出できないように設計されている。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
特に、最高のパフォーマンスモデルであるGPT-4oはF1スコアが42.7%、第2位のGPT-4Vは31.4%である。
さらに、12個のLVLM(GPT-4oとGPT-4Vを除く)は、損失の少ないOCR文書を供給しているLLMよりも性能が劣っている。
これらの結果は、より有能なLVLMに向けた将来の研究の必要性を検証するものである。
Project Page: https://mayubo2333.github.io/MMLongBench-Doc
Understanding documents with rich layouts and multi-modal components is a long-standing and practical task. Recent Large Vision-Language Models (LVLMs) have made remarkable strides in various tasks, particularly in single-page document understanding (DU). However, their abilities on long-context DU remain an open problem. This work presents MMLongBench-Doc, a long-context, multi-modal benchmark comprising 1,062 expert-annotated questions. Distinct from previous datasets, it is constructed upon 130 lengthy PDF-formatted documents with an average of 49.4 pages and 20,971 textual tokens. Towards comprehensive evaluation, answers to these questions rely on pieces of evidence from (1) different sources (text, image, chart, table, and layout structure) and (2) various locations (i.e. page number). Moreover, 33.2% of the questions are cross-page questions requiring evidence across multiple pages. 22.8% of the questions are designed to be unanswerable for detecting potential hallucinations. Experiments on 14 LVLMs demonstrate that long-context DU greatly challenges current models. Notably, the best-performing model, GPT-4o, achieves an F1 score of only 42.7%, while the second-best, GPT-4V, scores 31.4%. Furthermore, 12 LVLMs (all except GPT-4o and GPT-4V) even present worse performance than their LLM counterparts which are fed with lossy-parsed OCR documents. These results validate the necessity of future research toward more capable long-context LVLMs. Project Page: https://mayubo2333.github.io/MMLongBench-Doc | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# ディープラーニングのためのスケーラブルネステッド最適化
Scalable Nested Optimization for Deep Learning ( http://arxiv.org/abs/2407.01526v1 ) ライセンス: Link先を確認 | Jonathan Lorraine, | (参考訳) 勾配ベースの最適化は、単一の損失を最小限に抑えるために、単一のパラメータセットを更新する、機械学習の成功に不可欠である。
そこでは、パラメータのサブセットがそれぞれの内部にネストされた異なる目的に対して更新される2レベルまたはネストされた最適化があります。
本稿では,ハイパーパラメータ最適化と生成対向ネットワークの具体例に焦点をあてる。
しかし、これらのネストされた問題を大規模に解決しようとすると、古典的な手法をナビゲート的に適用することはしばしば失敗する。
この論文では、ディープラーニングのセットアップにスケールするネスト最適化のためのツールを構築します。
Gradient-based optimization has been critical to the success of machine learning, updating a single set of parameters to minimize a single loss. A growing number of applications rely on a generalization of this, where we have a bilevel or nested optimization of which subsets of parameters update on different objectives nested inside each other. We focus on motivating examples of hyperparameter optimization and generative adversarial networks. However, naively applying classical methods often fails when we look at solving these nested problems on a large scale. In this thesis, we build tools for nested optimization that scale to deep learning setups. | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# KVキャッシュ圧縮 : 返却に何が必要か? 長期化可能なアプローチの総合ベンチマーク
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches ( http://arxiv.org/abs/2407.01527v1 ) ライセンス: Link先を確認 | Jiayi Yuan, Hongyi Liu, Shaochen, Zhong, Yu-Neng Chuang, Songchen Li, Guanchu Wang, Duy Le, Hongye Jin, Vipin Chaudhary, Zhaozhuo Xu, Zirui Liu, Xia Hu, | (参考訳) 長い文脈能力は、人間が長文を消化する苦難を軽減するため、大きな言語モデル(LLM)にとって重要な能力である。
この機能は、書籍の要約、コードアシスト、伝統的に人力集約的な多くのタスクといった複雑なタスク解決シナリオを可能にする。
しかし、トランスフォーマーベースのLLMは、KVキャッシュの増大と拡張インプットへの参加の本質的な複雑さにより、長いコンテキスト入力に関する重大な課題に直面しており、KVキャッシュの量子化、トークンのドロップ、即時圧縮、線形時間シーケンスモデル、ハイブリッドアーキテクチャといった効率駆動型アプローチの複数の流派が、効率的かつ長期間のコンテキスト対応モデルを作成するために提案されている。
これらの進歩にもかかわらず、これらの手法を合理的に整合した環境で包括的にベンチマークする作業は行われていない。
本研究では,このギャップを,現在の手法の分類を提供することで埋めるとともに,長期タスクの7つのカテゴリにまたがる10以上の最先端アプローチを評価する。
我々の研究は、これまで知られていなかった多くの現象を明らかにし、長いコンテキスト対応 LLM の将来的な開発のための洞察(および友好的なワークベンチ)を提供する。
ソースコードはhttps://github.com/henryzhongsc/longctx_benchで入手できる。
Long context capability is a crucial competency for large language models (LLMs) as it mitigates the human struggle to digest long-form texts. This capability enables complex task-solving scenarios such as book summarization, code assistance, and many more tasks that are traditionally manpower-intensive. However, transformer-based LLMs face significant challenges with long context input due to the growing size of the KV cache and the intrinsic complexity of attending to extended inputs; where multiple schools of efficiency-driven approaches -- such as KV cache quantization, token dropping, prompt compression, linear-time sequence models, and hybrid architectures -- have been proposed to produce efficient yet long context-capable models. Despite these advancements, no existing work has comprehensively benchmarked these methods in a reasonably aligned environment. In this work, we fill this gap by providing a taxonomy of current methods and evaluating 10+ state-of-the-art approaches across seven categories of long context tasks. Our work reveals numerous previously unknown phenomena and offers insights -- as well as a friendly workbench -- for the future development of long context-capable LLMs. The source code will be available at https://github.com/henryzhongsc/longctx_bench | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# ポリグロットファイルの誤用と検出について
On the Abuse and Detection of Polyglot Files ( http://arxiv.org/abs/2407.01529v1 ) ライセンス: Link先を確認 | Luke Koch, Sean Oesch, Amul Chaulagain, Jared Dixon, Matthew Dixon, Mike Huettal, Amir Sadovnik, Cory Watson, Brian Weber, Jacob Hartman, Richard Patulski, | (参考訳) ポリグロット(polyglot)は、2つ以上のフォーマットで有効なファイルである。
ポリグロットファイルは、ファイルのアップロードや衛生ツールと同様に、フォーマット固有の検出/署名にファイルをルーティングするマルウェア検出システムに問題を引き起こす。
この研究で、既存のファイルフォーマットと組み込みファイル検出ツール、特にポリグロットファイル用に開発されたものでさえ、野生で使われているポリグロットファイルを確実に検出することができず、攻撃に脆弱な組織を残していることがわかった。
この問題に対処するため、悪意のあるアクターによるポリグロットファイルの使用について調査を行い、ポリグロットのサンプル30ドルとポリグロットファイルを利用する攻撃チェーン15ドルを調査した。
本稿では,サイバー攻撃チェーンが多言語ファイルに依存し,バイパス検出機構に頼っている2つの有名なAPTについて紹介する。
野生での多言語利用に関する調査から得た知識(この種の最初のもの)を使って、敵のテクニックに基づいた新しいデータセットを作成しました。
次に、このデータセットを使用して、マシンラーニング検出ソリューションであるPolyConvをトレーニングしました。
PolyConvは、F1スコアが99.20$%、ファイルフォーマットの識別が99.47$%の精度のリコールエリアアンダーカーブスコアが0.999$であり、テスト対象の他のツールよりも大幅に優れている。
われわれはImSanという,検査対象のポリグロットを100ドル(約1万1000円)で消毒するツールを開発した。
我々の研究は、ディフェンダーがポリグロットファイルに対してより防御しやすくするための具体的ツールと提案を提供するとともに、より堅牢なファイル仕様と非武装化方法を作成するための今後の取り組みの方向性を提供する。
A polyglot is a file that is valid in two or more formats. Polyglot files pose a problem for malware detection systems that route files to format-specific detectors/signatures, as well as file upload and sanitization tools. In this work we found that existing file-format and embedded-file detection tools, even those developed specifically for polyglot files, fail to reliably detect polyglot files used in the wild, leaving organizations vulnerable to attack. To address this issue, we studied the use of polyglot files by malicious actors in the wild, finding $30$ polyglot samples and $15$ attack chains that leveraged polyglot files. In this report, we highlight two well-known APTs whose cyber attack chains relied on polyglot files to bypass detection mechanisms. Using knowledge from our survey of polyglot usage in the wild -- the first of its kind -- we created a novel data set based on adversary techniques. We then trained a machine learning detection solution, PolyConv, using this data set. PolyConv achieves a precision-recall area-under-curve score of $0.999$ with an F1 score of $99.20$% for polyglot detection and $99.47$% for file-format identification, significantly outperforming all other tools tested. We developed a content disarmament and reconstruction tool, ImSan, that successfully sanitized $100$% of the tested image-based polyglots, which were the most common type found via the survey. Our work provides concrete tools and suggestions to enable defenders to better defend themselves against polyglot files, as well as directions for future work to create more robust file specifications and methods of disarmament. | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# スパース拡散政策 : ロボット学習のためのスパース・リユースブル・フレキシブル・ポリシー
Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning ( http://arxiv.org/abs/2407.01531v1 ) ライセンス: Link先を確認 | Yixiao Wang, Yifei Zhang, Mingxiao Huo, Ran Tian, Xiang Zhang, Yichen Xie, Chenfeng Xu, Pengliang Ji, Wei Zhan, Mingyu Ding, Masayoshi Tomizuka, | (参考訳) ロボット工学におけるタスクの複雑さの増大は、マルチタスクと継続的な学習のための効率的な戦略を要求する。
従来のモデルは一般に全てのタスクに対して普遍的なポリシーに依存しており、計算コストの高騰や、新しいタスクを学ぶ際の破滅的な忘れ込みといった課題に直面している。
これらの課題に対処するため,スパース拡散政策 (SDP) を導入する。
トランスフォーマーベースの拡散ポリシーにMixture of Experts(MoE)を採用することにより、SDPはエキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的かつタスク固有の学習を可能にする。
SDPは、アクティブパラメータの負担を軽減するだけでなく、さまざまなタスクにわたる専門家のシームレスな統合と再利用を促進する。
シミュレーションと実世界における多種多様な課題に関する大規模な実験により、SDPが証明された。
1) アクティブパラメータの無視可能な増加を伴うマルチタスクシナリオにおいて優れる。
2)新しいタスクの継続的な学習における忘れを防ぎ、
3) 効率的なタスク転送を可能にし、高度なロボットアプリケーションに有望なソリューションを提供する。
デモとコードはhttps://forrest-110.github.io/sparse_diffusion_policy/にある。
The increasing complexity of tasks in robotics demands efficient strategies for multitask and continual learning. Traditional models typically rely on a universal policy for all tasks, facing challenges such as high computational costs and catastrophic forgetting when learning new tasks. To address these issues, we introduce a sparse, reusable, and flexible policy, Sparse Diffusion Policy (SDP). By adopting Mixture of Experts (MoE) within a transformer-based diffusion policy, SDP selectively activates experts and skills, enabling efficient and task-specific learning without retraining the entire model. SDP not only reduces the burden of active parameters but also facilitates the seamless integration and reuse of experts across various tasks. Extensive experiments on diverse tasks in both simulations and real world show that SDP 1) excels in multitask scenarios with negligible increases in active parameters, 2) prevents forgetting in continual learning of new tasks, and 3) enables efficient task transfer, offering a promising solution for advanced robotic applications. Demos and codes can be found in https://forrest-110.github.io/sparse_diffusion_policy/. | 翻訳日:2024-07-03 20:11:58 公開日:2024-07-01 |
# 製造業におけるレアイベント分析に向けたデータエンリッチメント手法の役割評価
Evaluating the Role of Data Enrichment Approaches Towards Rare Event Analysis in Manufacturing ( http://arxiv.org/abs/2407.01644v1 ) ライセンス: Link先を確認 | Chathurangi Shyalika, Ruwan Wickramarachchi, Fadi El Kalach, Ramy Harik, Amit Sheth, | (参考訳) 希少な出来事は、一般的な通常の出来事よりもはるかに低い頻度で起こる出来事である。
製造業では、計画外のダウンタイム、設備寿命の短縮、高エネルギー消費につながるため、このような事象を予測することが特に重要である。
イベントの発生は、すべてのインスタンスの10%以上で観測された場合、非常に稀である場合、1-5%、中程度の場合、5-10%、そして1%未満の場合、非常に希である場合、頻繁であると考えられている。
イベントの希少性は、製造業の成熟度と逆相関している。
通常、イベントの希少性は製造プロセス内で生成される多変量データに非常に不均衡を与え、予測モデルに偏りをもたらす。
本稿では,データエンリッチメント技術と教師付き機械学習技術を組み合わせて,まれな事象の検出と予測を行う役割について検討する。
データ不足に対処するために、時系列データ拡張とサンプリング手法を用いて、データセットをより多変量の特徴とデータポイントで増幅し、基礎となる時系列パターンを組み合わせて保存する。
命令手法はデータセットのnull値の処理に使用される。
統計的学習から機械学習、深層学習に至るまでの15の学習モデルを考えると、選択したデータセットの最良の性能モデルが得られ、データ豊か化の有効性が評価される。
この評価結果から, 希少な故障事象の検出および教師付き予測モデルの予測において, F1 の 48% まで濃縮が促進されることが判明した。
また、データセットに関する経験的およびアブレーション実験を行い、データセット固有の新しい洞察を導出する。
最後に,複数の手法を考慮し,まれな事象予測のためのモデルの解釈可能性について検討する。
Rare events are occurrences that take place with a significantly lower frequency than more common regular events. In manufacturing, predicting such events is particularly important, as they lead to unplanned downtime, shortening equipment lifespan, and high energy consumption. The occurrence of events is considered frequently-rare if observed in more than 10% of all instances, very-rare if it is 1-5%, moderately-rare if it is 5-10%, and extremely-rare if less than 1%. The rarity of events is inversely correlated with the maturity of a manufacturing industry. Typically, the rarity of events affects the multivariate data generated within a manufacturing process to be highly imbalanced, which leads to bias in predictive models. This paper evaluates the role of data enrichment techniques combined with supervised machine-learning techniques for rare event detection and prediction. To address the data scarcity, we use time series data augmentation and sampling methods to amplify the dataset with more multivariate features and data points while preserving the underlying time series patterns in the combined alterations. Imputation techniques are used in handling null values in datasets. Considering 15 learning models ranging from statistical learning to machine learning to deep learning methods, the best-performing model for the selected datasets is obtained and the efficacy of data enrichment is evaluated. Based on this evaluation, our results find that the enrichment procedure enhances up to 48% of F1 measure in rare failure event detection and prediction of supervised prediction models. We also conduct empirical and ablation experiments on the datasets to derive dataset-specific novel insights. Finally, we investigate the interpretability aspect of models for rare event prediction, considering multiple methods. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# サイングラディエントDescent-based Neuronal Dynamics: ANN-to-SNN Conversion Beyond ReLU Network
Sign Gradient Descent-based Neuronal Dynamics: ANN-to-SNN Conversion Beyond ReLU Network ( http://arxiv.org/abs/2407.01645v1 ) ライセンス: Link先を確認 | Hyunseok Oh, Youngki Lee, | (参考訳) スパイキングニューラルネットワーク(SNN)は、複数の分野にまたがる領域で研究される
一 エネルギー効率のよいAI推論を可能にすること。
(II)神経科学のメカニズムを計算的にシミュレートする。
離散理論の欠如は、その性能と非線形性のサポートを制限することによって、SNNの実用化を妨げている。
我々は、スパイキングニューロンの離散力学の新しい最適化理論的視点を示す。
単純な積分・点火モデルの離散力学系が、制約のない最適化問題に対する部分次法を近似することを証明した。
我々は、我々の理論を事実上拡張し、新しい手根勾配降下(signGD)に基づく神経力学を導入する。
一 ReLU 及び ReLU 以外の多種多様な非線形性
(II)ANN-to-SNN変換性能を低時間ステップで向上させる。
大規模データセットの実験は、我々の技術が達成していることを示している
i) ANN-to-SNN変換における最先端性能
(ii)は新しいDNNアーキテクチャ、例えばConvNext、MLP-Mixer、ResMLPを初めて変換した。
ソースコードはhttps://github.com/snuhcs/snn_signgd で公開しています。
Spiking neural network (SNN) is studied in multidisciplinary domains to (i) enable order-of-magnitudes energy-efficient AI inference and (ii) computationally simulate neuro-scientific mechanisms. The lack of discrete theory obstructs the practical application of SNN by limiting its performance and nonlinearity support. We present a new optimization-theoretic perspective of the discrete dynamics of spiking neurons. We prove that a discrete dynamical system of simple integrate-and-fire models approximates the sub-gradient method over unconstrained optimization problems. We practically extend our theory to introduce a novel sign gradient descent (signGD)-based neuronal dynamics that can (i) approximate diverse nonlinearities beyond ReLU and (ii) advance ANN-to-SNN conversion performance in low time steps. Experiments on large-scale datasets show that our technique achieves (i) state-of-the-art performance in ANN-to-SNN conversion and (ii) is the first to convert new DNN architectures, e.g., ConvNext, MLP-Mixer, and ResMLP. We publicly share our source code at https://github.com/snuhcs/snn_signgd . | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# ESALE: ソースコード要約のためのコード要約アライメント学習の強化
ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization ( http://arxiv.org/abs/2407.01646v1 ) ライセンス: Link先を確認 | Chunrong Fang, Weisong Sun, Yuchen Chen, Xiao Chen, Zhao Wei, Quanjun Zhang, Yudu You, Bin Luo, Yang Liu, Zhenyu Chen, | (参考訳) (ソース)コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
このような要約は、開発者のコード理解とメンテナンスを促進する上で重要な役割を担います。
ニューラルネットワーク翻訳にインスパイアされたディープラーニングベースのコード要約技術では、エンコーダが与えられたコードスニペットをコンテキストベクトルに変換し、デコーダがコンテキストベクトルを要約に変換するエンコーダ-デコーダフレームワークが広く採用されている。
近年、ソースコードの大規模事前学習モデルには、一般的な文脈ベクトルを生成できるエンコーダが備わっており、コード要約の大幅な改善が達成されている。
しかし、それらは主にコード中心のタスクで訓練されており、一般的なコード機能を取り込むことができるが、要約する必要がある特定の機能を取り込むには不足している。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
具体的には,一方向言語モデリング (ULM) やマスク言語モデリング (MLM) ,行動単語予測 (AWP) など,一方向言語モデリング (ULM) など,コード終末アライメントの学習能力を高めるために,エンコーダを3つの要約タスクで訓練するためにマルチタスク学習パラダイムを利用する。
コードスニペット内のマスク付きトークンを主に予測する事前学習モデルとは異なり、要約中のマスク付き単語を予測するために、ULMとMLMを設計する。
直感的には、与えられたコードスニペットに基づいて単語を予測することは、コード-終末アライメントを学ぶのに役立つ。
さらに、ドメイン固有のタスクAWPを導入し、エンコーダがアクションワードとコードスニペットのアライメントを学習できるようにする。
4つのデータセットに対する広範な実験により、ESALEと呼ばれる我々のアプローチは、BLEU、METEOR、ROUGE-Lを含む広く使用されている3つの指標のベースラインを大幅に上回っていることが示された。
(Source) code summarization aims to automatically generate succinct natural language summaries for given code snippets. Such summaries play a significant role in promoting developers to understand and maintain code. Inspired by neural machine translation, deep learning-based code summarization techniques widely adopt an encoder-decoder framework, where the encoder transforms given code snippets into context vectors, and the decoder decodes context vectors into summaries. Recently, large-scale pre-trained models for source code are equipped with encoders capable of producing general context vectors and have achieved substantial improvements on code summarization. However, although they are usually trained mainly on code-focused tasks and can capture general code features, they still fall short in capturing specific features that need to be summarized. This paper proposes a novel approach to improve code summarization based on summary-focused tasks. Specifically, we exploit a multi-task learning paradigm to train the encoder on three summary-focused tasks to enhance its ability to learn code-summary alignment, including unidirectional language modeling (ULM), masked language modeling (MLM), and action word prediction (AWP). Unlike pre-trained models that mainly predict masked tokens in code snippets, we design ULM and MLM to predict masked words in summaries. Intuitively, predicting words based on given code snippets would help learn the code-summary alignment. Additionally, we introduce the domain-specific task AWP to enhance the ability of the encoder to learn the alignment between action words and code snippets. The extensive experiments on four datasets demonstrate that our approach, called ESALE significantly outperforms baselines in all three widely used metrics, including BLEU, METEOR, and ROUGE-L. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# ハイブリッドメタヒューリスティックおよび機械学習モデルによるPM2.5予測精度の最適化
Optimizing PM2.5 Forecasting Accuracy with Hybrid Meta-Heuristic and Machine Learning Models ( http://arxiv.org/abs/2407.01647v1 ) ライセンス: Link先を確認 | Parviz Ghafariasl, Masoomeh Zeinalnezhad, Amir Ahmadishokooh, | (参考訳) 有害な大気汚染物質に関するタイムリーな警告は公衆衛生にとって不可欠である。
しかし、既存の予測モデルは、ベースラインパラメータや欠落データといった重要な要素を見落とし、精度を制限していることが多い。
本研究では,これらの問題に対処するためのハイブリッドアプローチを導入し,Support Vector Regression(SVR)を用いたPM2.5時間濃度の予測に焦点を当てた。
メタヒューリスティックアルゴリズム、Grey Wolf Optimization (GWO) と Particle Swarm Optimization (PSO)、SVR Hyper-parameters "C" と "Gamma" を最適化し、予測精度を向上させる。
評価指標には、R-squared (R2)、Root Mean Square Error (RMSE)、Mean Absolute Error (MAE)がある。
PSO-SVR (R2: 0.9401, RMSE: 0.2390, MAE: 0.1368) と GWO-SVR (R2: 0.9408, RMSE: 0.2376, MAE: 0.1373) は、同様の研究用途に適した堅牢で正確なモデルを示している。
Timely alerts about hazardous air pollutants are crucial for public health. However, existing forecasting models often overlook key factors like baseline parameters and missing data, limiting their accuracy. This study introduces a hybrid approach to address these issues, focusing on forecasting hourly PM2.5 concentrations using Support Vector Regression (SVR). Meta-heuristic algorithms, Grey Wolf Optimization (GWO) and Particle Swarm Optimization (PSO), optimize SVR Hyper-parameters "C" and "Gamma" to enhance prediction accuracy. Evaluation metrics include R-squared (R2), Root Mean Square Error (RMSE), and Mean Absolute Error (MAE). Results show significant improvements with PSO-SVR (R2: 0.9401, RMSE: 0.2390, MAE: 0.1368) and GWO-SVR (R2: 0.9408, RMSE: 0.2376, MAE: 0.1373), indicating robust and accurate models suitable for similar research applications. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# エネルギー最適化を考慮した目標対応分子拡散モデル
Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization ( http://arxiv.org/abs/2407.01648v1 ) ライセンス: Link先を確認 | Siyi Gu, Minkai Xu, Alexander Powers, Weili Nie, Tomas Geffner, Karsten Kreis, Jure Leskovec, Arash Vahdat, Stefano Ermon, | (参考訳) 特定のタンパク質標的に対するリガンド分子の生成は、構造に基づく薬物設計として知られ、治療薬の開発と生物学的発見の根本的な問題である。
近年,タンパク質-リガンド相互作用のモデル化や薬剤の候補生成において,特に拡散モデルが期待されている。
しかし、既存のモデルは、主に全ての薬物候補の化学的分布を学習することに焦点を当てており、それはモデル世代における化学的品質に対する効果的な操縦性に欠ける。
本稿では,事前学習対象拡散モデルと,AliDiffという機能特性を整合させる,新規で汎用的なアライメントフレームワークを提案する。
AliDiffは、好みの最適化アプローチを通じて、目標条件の化学分布を、より高い結合親和性と、ユーザ定義の報酬関数によって定義された構造的合理性を持つ領域にシフトする。
共用選好最適化の目的において過度に適合する問題を避けるため、拡散モデルの正確かつ効率的なアライメントを得るための改良されたエクサクソンエネルギー選好最適化法を開発し、収束分布に対するクローズドフォーム式を提供する。
CrossDocked2020ベンチマークに関する実証研究によると、アリディフは7.07 Avgまでの最先端の結合エネルギーを持つ分子を生成できる。
強い分子特性を維持しながら、Vina Score。
Generating ligand molecules for specific protein targets, known as structure-based drug design, is a fundamental problem in therapeutics development and biological discovery. Recently, target-aware generative models, especially diffusion models, have shown great promise in modeling protein-ligand interactions and generating candidate drugs. However, existing models primarily focus on learning the chemical distribution of all drug candidates, which lacks effective steerability on the chemical quality of model generations. In this paper, we propose a novel and general alignment framework to align pretrained target diffusion models with preferred functional properties, named AliDiff. AliDiff shifts the target-conditioned chemical distribution towards regions with higher binding affinity and structural rationality, specified by user-defined reward functions, via the preference optimization approach. To avoid the overfitting problem in common preference optimization objectives, we further develop an improved Exact Energy Preference Optimization method to yield an exact and efficient alignment of the diffusion models, and provide the closed-form expression for the converged distribution. Empirical studies on the CrossDocked2020 benchmark show that AliDiff can generate molecules with state-of-the-art binding energies with up to -7.07 Avg. Vina Score, while maintaining strong molecular properties. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# FAFE:ノイズ群フレーム上の測地距離損失を用いた免疫複合体モデリング
FAFE: Immune Complex Modeling with Geodesic Distance Loss on Noisy Group Frames ( http://arxiv.org/abs/2407.01649v1 ) ライセンス: Link先を確認 | Ruidong Wu, Ruihan Guo, Rui Wang, Shitong Luo, Yue Xu, Jiahan Li, Jianzhu Ma, Qiang Liu, Yunan Luo, Jian Peng, | (参考訳) AlphaFold2(AF2, Jumper et al (2021))のような一般的なタンパク質の折りたたみモデルの成功にもかかわらず、抗体-抗原複合体の正確な計算モデリングは難しい課題である。
本稿では、まず、FAPE(Frame Aligned Point Error)と呼ばれるAF2の一次損失関数を解析し、FAPEが高回転誤差目標に対して勾配消滅問題に直面する傾向にあるという、これまで見過ごされていた問題を提起する。
この基本的な制限に対処するため,フレームアラインドフレームエラー(FAFE, F2E)と呼ばれる新しい測地損失を提案する。
次に、F2Eがグループ対応測地線損失として再構成可能であることを証明し、残差残差誤差の最適化をグループ間測地線距離の最適化に変換する。
提案した損失関数を用いてAF2を微調整することにより、評価セット上では52.3\%(DockQ $>$ 0.23)、低いホモロジーを持つ部分集合では43.8\%、それぞれAF2を182\%、100\%で大幅に改善した。
Despite the striking success of general protein folding models such as AlphaFold2(AF2, Jumper et al. (2021)), the accurate computational modeling of antibody-antigen complexes remains a challenging task. In this paper, we first analyze AF2's primary loss function, known as the Frame Aligned Point Error (FAPE), and raise a previously overlooked issue that FAPE tends to face gradient vanishing problem on high-rotational-error targets. To address this fundamental limitation, we propose a novel geodesic loss called Frame Aligned Frame Error (FAFE, denoted as F2E to distinguish from FAPE), which enables the model to better optimize both the rotational and translational errors between two frames. We then prove that F2E can be reformulated as a group-aware geodesic loss, which translates the optimization of the residue-to-residue error to optimizing group-to-group geodesic frame distance. By fine-tuning AF2 with our proposed new loss function, we attain a correct rate of 52.3\% (DockQ $>$ 0.23) on an evaluation set and 43.8\% correct rate on a subset with low homology, with substantial improvement over AF2 by 182\% and 100\% respectively. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# 近親的政策最適化による乳牛経営におけるバッテリー管理の深層強化学習アプローチ
A Deep Reinforcement Learning Approach to Battery Management in Dairy Farming via Proximal Policy Optimization ( http://arxiv.org/abs/2407.01653v1 ) ライセンス: Link先を確認 | Nawazish Ali, Rachael Shaw, Karl Mason, | (参考訳) 本研究は, 再生可能エネルギー利用の最大化によるエネルギー効率の向上とセクター環境への影響の最小化に焦点をあてる。
本研究は, 深度強化学習アルゴリズム (DRL) であるPPO (Pximal Policy Optimization) の適用性を検討した。
本アルゴリズムの有効性は,電力網への依存を減らす能力に基づいて評価され,乳園農業におけるエネルギー管理を向上するDRLの可能性が浮き彫りにされている。
実世界のデータを用いて、PPOのアプローチが、グリッドからの電力輸入を減らすために、Q-ラーニングを1.62%上回ったことを示す。
この大幅な改善は、乳農場のエネルギー効率と持続可能性を改善するためのDeep Reinforcement Learningアルゴリズムの可能性を強調している。
Dairy farms consume a significant amount of electricity for their operations, and this research focuses on enhancing energy efficiency and minimizing the impact on the environment in the sector by maximizing the utilization of renewable energy sources. This research investigates the application of Proximal Policy Optimization (PPO), a deep reinforcement learning algorithm (DRL), to enhance dairy farming battery management. We evaluate the algorithm's effectiveness based on its ability to reduce reliance on the electricity grid, highlighting the potential of DRL to enhance energy management in dairy farming. Using real-world data our results demonstrate how the PPO approach outperforms Q-learning by 1.62% for reducing electricity import from the grid. This significant improvement highlights the potential of the Deep Reinforcement Learning algorithm for improving energy efficiency and sustainability in dairy farms. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# ディープニューラルネットワークにおける抽象化の統計的シグネチャ
Statistical signatures of abstraction in deep neural networks ( http://arxiv.org/abs/2407.01656v1 ) ライセンス: Link先を確認 | Carlo Orientale Caputo, Matteo Marsili, | (参考訳) 我々は、ベンチマークデータセットに基づいてトレーニングされたDeep Belief Network(DBN)において、抽象表現がどのように現れるかを研究する。
我々は,情報処理の初期段階における学習の原則を,アンダーサンプリング体制の「原始スープ」から分析する。
データが深く深いレイヤによって処理されるにつれて、機能が検出され、削除され、より多くの"コンテキスト不変"情報がより深いレイヤに転送される。
本稿では, 階層的特徴モデル (Hierarchical Feature Model, HFM) が, 最大関連性の原理によって決定される普遍モデルに近づくことを示す。
関連性(Relevance)は、データのモデルにおける不確実性を定量化するため、"統語論的情報"の意味は、まだモデルによって取得されていないデータの一部であることを示唆する。
解析の結果、浅層層はペアワイズ・イジング・モデルによってよく説明され、汎用的で低次な特徴の観点からデータの表現を提供することがわかった。
また、プラスチック度は脳のそれと同じような深さで増加することも示しています。
これらの結果から,DBNは最大関連性の原理と整合したデータから特徴階層を抽出できる可能性が示唆された。
We study how abstract representations emerge in a Deep Belief Network (DBN) trained on benchmark datasets. Our analysis targets the principles of learning in the early stages of information processing, starting from the "primordial soup" of the under-sampling regime. As the data is processed by deeper and deeper layers, features are detected and removed, transferring more and more "context-invariant" information to deeper layers. We show that the representation approaches an universal model -- the Hierarchical Feature Model (HFM) -- determined by the principle of maximal relevance. Relevance quantifies the uncertainty on the model of the data, thus suggesting that "meaning" -- i.e. syntactic information -- is that part of the data which is not yet captured by a model. Our analysis shows that shallow layers are well described by pairwise Ising models, which provide a representation of the data in terms of generic, low order features. We also show that plasticity increases with depth, in a similar way as it does in the brain. These findings suggest that DBNs are capable of extracting a hierarchy of features from the data which is consistent with the principle of maximal relevance. | 翻訳日:2024-07-03 19:52:16 公開日:2024-07-01 |
# 量子乱数符号のフォールトトレラントノイズ推定復号
Fault-tolerant noise guessing decoding of quantum random codes ( http://arxiv.org/abs/2407.01658v1 ) ライセンス: Link先を確認 | Diogo Cruz, Francisco A. Monteiro, André Roque, Bruno C. Coutinho, | (参考訳) 本研究は,フォールトトレラントQRLCを計算オーバーヘッドで実装する際のオープンな問題に対処する。
本稿では,不完全復号処理が可能な量子乱数線形符号(QRLC)のデコーダを提案する。
Cruzらによって導入された最初のアプローチは、チャネルエラーのみを考慮し、デコーダの完全なゲートである。
そこで本研究では,QRLCの耐故障特性を新しいノイズゲスティング復号法を用いて解析する。
以上の結果から, 既往の物理手順における現実的なノイズレベルを考慮しつつ, 漸近的限度で約$\pnum$のしきい値誤差率(\pth$)が得られた。
This work addresses the open question of implementing fault-tolerant QRLCs with feasible computational overhead. We present a new decoder for quantum random linear codes (QRLCs) capable of dealing with imperfect decoding operations. A first approach, introduced by Cruz et al., only considered channel errors, and perfect gates at the decoder. Here, we analyze the fault-tolerant characteristics of QRLCs with a new noise-guessing decoding technique, when considering preparation, measurement, and gate errors in the syndrome extraction procedure, while also accounting for error degeneracy. Our findings indicate a threshold error rate ($\pth$) of approximately $\pnum$ in the asymptotic limit, while considering realistic noise levels in the mentioned physical procedures. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# ブラックホール内部のテンソルネットワーク:非等方性、量子超表面、ワームホール
Tensor networks for black hole interiors: non-isometries, quantum extremal surfaces, and wormholes ( http://arxiv.org/abs/2407.01666v1 ) ライセンス: Link先を確認 | Gracemarie Bueller, Oliver DeWolfe, Kenneth Higginbotham, | (参考訳) 双曲テンソルネットワークを用いてブラックホール内部のホログラフマップを構築し、Akers, Engelhardt, Harlow, Penington, Vardhanによって提案された非等距離符号に局所性の概念を追加する。
我々は、これらのネットワークによって提供されるツールを用いて、地平線の背後にある非等方性と量子超曲面の関係を研究する。
さらに、Akersらによって導入されたquditモデルに基づいて、これらの内部テンソルネットワークに対する力学の限られた概念を導入し、蒸発するブラックホールにおける量子超表面の進化を研究する。
また、ブラックホールの内部と放射を繋ぐワームホールをテンソルネットワークで記述し、ページ時間後に内部の状態と演算子が放射中にエンコードされるメカニズムを提供する。
特に, この非等尺ブラックホール符号の動的構造に非自明な有効動力学を組み込むために, 最近提案された逆向きフォワード写像のテンソルネットワーク実現を構築した。
We use hyperbolic tensor networks to construct a holographic map for black hole interiors that adds a notion of locality to the non-isometric codes proposed by Akers, Engelhardt, Harlow, Penington, and Vardhan. We use tools provided by these networks to study the relationship between non-isometries and quantum extremal surfaces behind the horizon. Furthermore, we introduce a limited notion of dynamics for these interior tensor networks based on the qudit models introduced by Akers et al., and study the evolution of quantum extremal surfaces in an evaporating black hole. We also find a tensor network description of a wormhole connecting the black hole interior to the radiation, providing a mechanism for interior states and operators to be encoded in the radiation after the Page time. As a particular case, we construct a tensor network realization of the backwards-forwards maps recently proposed to incorporate non-trivial effective dynamics in dynamical constructions of these non-isometric black hole codes. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# ディジタル量子シミュレーションにおける反射・透過振幅
Reflection and Transmission Amplitudes in a Digital Quantum Simulation ( http://arxiv.org/abs/2407.01669v1 ) ライセンス: Link先を確認 | Giuseppe Mussardo, Andrea Stampiggi, Andrea Trombettoni, | (参考訳) 本稿では,短距離ポテンシャルを持つ粒子の一次元散乱の反射・透過振幅をディジタル量子シミュレーションで測定する方法を示す。
プロトコルの主な特徴は、粒子と補助スピン-1/2自由度の間の結合である。
これにより、1量子ビットの読み出しから、一般的な複素数である散乱振幅をトモグラフィ的に再構成することができる。
結果の応用について論じる。
In this paper we show how to measure in the setting of digital quantum simulations the reflection and transmission amplitudes of the one-dimensional scattering of a particle with a short-ranged potential. The main feature of the protocol is the coupling between the particle and an ancillary spin-1/2 degree of freedom. This allows us to reconstruct tomographically the scattering amplitudes, which are in general complex numbers, from the readout of one qubit. Applications of our results are discussed. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 自由二項決定図による量子状態生成
Quantum State Preparation via Free Binary Decision Diagram ( http://arxiv.org/abs/2407.01671v1 ) ライセンス: Link先を確認 | Yu Tanaka, Hayata Yamasaki, Mio Murao, | (参考訳) 量子状態準備(QSP)は、量子状態の古典的な記述のための量子状態を作成するための量子計算の基本的なタスクである。
古典的な$n$-qubit量子状態の記述は、一般に$\exp(O(n))$パラメータを持つが、これは本質的には最悪の場合を扱うのに非効率である。
ここでは、量子状態の古典的な記述が重み付きエッジを持つFBDDによって与えられるとき、QSPのための量子アルゴリズムを構築し、この設定におけるQSPの空間と時間的複雑さを分析する。
N=O(\mathrm{poly}(n))$ノードを$\mathrm{exp}(O(n))$ではなく、$N=O(\mathrm{poly}(n))$ノードで重み付けされたFBDDで表現できる$n$-qubit状態の非自明な例を提供する。
重み付きFBDDで表される任意の量子状態が$N$量子ビットを用いて$O(N)$サイズの量子回路で作成できることを示し、他のBDDベースのQSPと比較してQSPに必要な回路サイズを指数関数的に改善する。
また、$n=O(n^2)$ノードと$O(n^2)$アシラリーキュービットを持つ重み付きFBDDで表現できる$n$-qubit状態の別の例も提示するが、振幅増幅に基づいてQSPで効率的に生成することはできない。
これらの結果は、効率的なQSPの可能性を広げるためのツールとしてFBDDを使うためのテクニックを提供する。
Quantum state preparation (QSP) is a fundamental task in quantum computation to prepare a quantum state for a given classical description of the quantum state. The classical description of an $n$-qubit quantum state may have $\exp(O(n))$ parameters in general, which are inherently inefficient to deal with in the worst case; however, in many practical cases, we may be able to employ suitable data structures to represent such large-scale data in a compressed way, e.g., by using a free binary decision diagram (FBDD), a rooted directed acyclic graph with two terminal nodes to concisely represent a Boolean function. We here construct a quantum algorithm for QSP when the classical description of a quantum state is given by an FBDD with weighted edges, and analyze the space, and time complexity of QSP in this setting. We provide a nontrivial example of an $n$-qubit state that can be represented by a weighted FBDD with $N=O(\mathrm{poly}(n))$ nodes rather than $\mathrm{exp}(O(n))$. We show that any quantum state represented by the weighted FBDD with $N$ nodes can be prepared by an $O(N)$-sized quantum circuit using $N$ ancillary qubits, exponentially improving the required circuit size for QSP compared to other BDD-based QSPs. We also provide another example of an $n$-qubit state that can be represented by a weighted FBDD with $N=O(n^2)$ nodes, and $O(n^2)$ ancillary qubits, but cannot be prepared efficiently by a QSP based on the amplitude amplification. These results provide techniques to employ FBDDs as a tool for broadening the possibility of efficient QSP. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# トップTopイベントにおけるエンタングルメントとベル不平等違反の最適化
Optimizing Entanglement and Bell Inequality Violation in Top Anti-Top Events ( http://arxiv.org/abs/2407.01672v1 ) ライセンス: Link先を確認 | Kun Cheng, Tao Han, Matthew Low, | (参考訳) 衝突器で一緒に生成されるトップクォークとアンチトップクォークは相関スピンを持つ。
これらのスピンは、絡み合いを示し、ベルの不等式に反する量子状態を構成する。
現実的なコライダー実験では、ほとんどの分析では、軸とローレンツのフレームはイベントごとに変化するので、イベント依存基底の選択に依存するため、真の量子状態ではなく「架空の状態」を採用することができる。
虚構状態の基底依存性は最適化手順を可能にし、虚構状態の使用は絡み合いの測定やベルの不等式違反に有利である。
本研究では,スピン-スピン相関を対角化する基底がスピン相関,絡み合い,ベル不等式違反の最大化に最適であることを示す。
最適基底は, 一定のビーム基底(あるいは回転ビーム基底)と, $t\bar t$生成しきい値付近でほぼ同じであり, 一方, ヘリシティ基底はより高いしきい値に近づいた。
そこで本研究では,LHCと将来の$e^+e^-$コライダーのイベントにおいて,絡み合いやベルの不等式違反に対する感受性を示す。
ベルの不等式違反を観測することは実験的には非常に困難であり、コライダー実験で大量のデータセットを必要とするため、ベルの不等式違反を観測するために最適な基準を選択することが極めて重要である。
我々の方法と一般的なアプローチは、標準モデル以外の相互作用を含む$t \bar t$を超える他のシステムにも等しく適用できる。
A top quark and an anti-top quark produced together at colliders have correlated spins. These spins constitute a quantum state that can exhibit entanglement and violate Bell's inequality. In realistic collider experiments, most analyses allow the axes, as well the Lorentz frame to vary event-by-event, thus introducing a dependence on the choice of event-dependent basis leading us to adopt "fictitious states," rather than genuine quantum states. The basis dependence of fictitious states allows for an optimization procedure, which makes the usage of fictitious states advantageous in measuring entanglement and Bell inequality violation. In this work, we show analytically that the basis which diagonalizes the spin-spin correlations is optimal for maximizing spin correlations, entanglement, and Bell inequality violation. We show that the optimal basis is approximately the same as the fixed beam basis (or the rotated beam basis) near the $t\bar t$ production threshold, while it approaches the helicity basis far above threshold. Using this basis, we present the sensitivity for entanglement and Bell inequality violation in $t\bar t$ events at the LHC and a future $e^+e^-$ collider. Since observing Bell inequality violation appears to be quite challenging experimentally, and requires a large dataset in collider experiments, choosing the optimal basis is crucially important to observe Bell inequality violation. Our method and general approach are equally applicable to other systems beyond $t \bar t$, including interactions beyond the Standard Model. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 時間依存振動子の量子複雑性に関する上界
Upper bounds on quantum complexity of time-dependent oscillators ( http://arxiv.org/abs/2407.01677v1 ) ライセンス: Link先を確認 | Satyaki Chowdhury, Martin Bojowald, Jakub Mielczarek, | (参考訳) ニールセンの量子複雑性に対する幾何学的アプローチでは、基本作用素によって形成されるリー群に基づく適当な幾何学的空間の導入は、群多様体における測地距離による複雑性の同定を促進する。
初期の研究は、高調波発振器に関連するリー群に対して測地線距離の計算が困難であることを示した。
ここで、この問題はリー群の構造定数による拡張における先行次数への取り組みによって解決される。
時間依存周波数を持つ調和振動子ハミルトニアンの量子複雑性の上限の明示的な公式が導出される。
宇宙学的なデ・シッター背景の質量を持たない試験スカラー場に適用すると、スケールファクターの関数としての複雑さの上限は超ハッブルスケールの対数的増加を示す。
この結果はゲート複雑性とド・ジッター複雑性の初期の研究と一致している。
これは、ニールセン複雑性を宇宙論に適用するための概念実証であり、高次項を含めることができる体系的な設定を提供する。
In Nielsen's geometric approach to quantum complexity, the introduction of a suitable geometrical space, based on the Lie group formed by fundamental operators, facilitates the identification of complexity through geodesic distance in the group manifold. Earlier work had shown that the computation of geodesic distance can be challenging for Lie groups relevant to harmonic oscillators. Here, this problem is approached by working to leading order in an expansion by the structure constants of the Lie group. An explicit formula for an upper bound on the quantum complexity of a harmonic oscillator Hamiltonian with time-dependent frequency is derived. Applied to a massless test scalar field on a cosmological de Sitter background, the upper bound on complexity as a function of the scale factor exhibits a logarithmic increase on super-Hubble scales. This result aligns with the gate complexity and earlier studies of de Sitter complexity. It provides a proof of concept for the application of Nielsen complexity in cosmology, together with a systematic setting in which higher-order terms can be included. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 結合非秩序ハイゼンベルクスピンモデルに対するクラスタートランケートウィグナー近似
Cluster truncated Wigner approximation for bond-disordered Heisenberg spin models ( http://arxiv.org/abs/2407.01682v1 ) ライセンス: Link先を確認 | Adrian Braemer, Javad Vahedi, Martin Gärttner, | (参考訳) 本稿では, パワー-ロー相互作用を持つハイゼンベルクスピン鎖のクエンチダイナミクスに応用したクラスタ・トランシッド・ウィグナー近似(cTWA)について, 包括的数値解析を行った。
我々は,cTWAが広いパラメータ範囲で精度の高い結果をもたらすことを発見した。
しかし、その精度は適切なクラスタの選択に依存している。
強障害再正常化群(SDRG)/実空間再正規化群(RSRG)にインスパイアされたクラスタリング戦略を用いることで、2つのスピンのクラスターは、強障害の体制において本質的に正確な結果を得るのに十分である。
驚くべきことに、非常に弱い障害である e g \ が非常に長距離相互作用の存在下でも、このクラスタリングの選択は連続するスピンのクラスターの単純な選択よりも優れている。
さらに,初期ウィグナー関数の離散サンプリングスキームを,ガウス近似に基づく当初導入されたスキームの代替として開発する。
このサンプリングスキームは、cTWAを単スピンの通常のdTWAと同じ概念的な足場に置き、ガウシアンスキームと比較してモンテカルロショットノイズが若干減少する。
We present a comprehensive numerical investigation of the cluster Truncated Wigner Approximation (cTWA) applied to quench dynamics in bond-disordered Heisenberg spin chains with power-law interactions. We find that cTWA yields highly accurate results over a wide parameter range. However, its accuracy hinges on a suitable choice of clusters. By using a clustering strategy inspired by the strong disorder renormalisation group (SDRG)/real-space renormalization group (RSRG), clusters of two spins are sufficient to obtain essentially exact results in the regime of strong disorder. Surprisingly, even for rather weak disorder, e.g.\ in the presence of very long-range interactions, this choice of clustering outperforms a naive choice of clusters of consecutive spins. Additionally, we develop a discrete sampling scheme for the initial Wigner function, as an alternative to the originally introduced scheme based on Gaussian approximations. This sampling scheme puts cTWA on the same conceptional footing as regular dTWA for single spins and yields some reduction in the Monte Carlo shot noise compared to the Gaussian scheme. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 観察的および介入的探索スキームによる潜伏変数を持つ因果構造について学ぶことができるものすべて
Everything that can be learned about a causal structure with latent variables by observational and interventional probing schemes ( http://arxiv.org/abs/2407.01686v1 ) ライセンス: Link先を確認 | Marina Maciel Ansanelli, Elie Wolfe, Robert W. Spekkens, | (参考訳) 各可視変数を探索して得られた統計データから、潜伏変数の因果構造の違いを区別することは不可能か?
探索スキームが単に受動的観測であるなら、多くの異なる因果構造が同じ結合確率分布を実現できることはよく知られている。
例えば、2つの可視変数の最も単純な場合であっても、一方の変数が他方の因果親であることと、一方の変数が遅れた共通の原因を共有する2つの変数とを区別することはできない。
しかし、この2つの因果構造を、変数の1つに介入し、他方を観察する可能性など、より強力な探索スキームに関連付けることができれば、区別することができる。
ここでは、可視変数上で最も情報に富む探索スキームであっても、因果構造が区別できないのかという問題に対処する。
2つの因果構造が同一の mDAG 構造と結びついている場合にのみ区別できないことが分かる(Evans (2016) で定義されている)。
また、ある因果構造が他の因果構造を支配するとき、与えられた確率スキームを用いて他の因果構造によって実現可能な結合確率分布を全て実現できるという意味での問題についても考察する。
(因果構造の等価性は、相互支配の特殊な場合である。)
最後に、可視変数に実装された探索スキームをどの程度弱め、最大情報的探索スキームと同じ識別能力を持つかを検討する。
What types of differences among causal structures with latent variables are impossible to distinguish by statistical data obtained by probing each visible variable? If the probing scheme is simply passive observation, then it is well-known that many different causal structures can realize the same joint probability distributions. Even for the simplest case of two visible variables, for instance, one cannot distinguish between one variable being a causal parent of the other and the two variables sharing a latent common cause. However, it is possible to distinguish between these two causal structures if we have recourse to more powerful probing schemes, such as the possibility of intervening on one of the variables and observing the other. Herein, we address the question of which causal structures remain indistinguishable even given the most informative types of probing schemes on the visible variables. We find that two causal structures remain indistinguishable if and only if they are both associated with the same mDAG structure (as defined by Evans (2016)). We also consider the question of when one causal structure dominates another in the sense that it can realize all of the joint probability distributions that can be realized by the other using a given probing scheme. (Equivalence of causal structures is the special case of mutual dominance.) Finally, we investigate to what extent one can weaken the probing schemes implemented on the visible variables and still have the same discrimination power as a maximally informative probing scheme. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# チェーン・オブ・ワットの有効性に影響する要因の解明:確率,記憶,雑音による推論
Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning ( http://arxiv.org/abs/2407.01687v1 ) ライセンス: Link先を確認 | Akshara Prabhakar, Thomas L. Griffiths, R. Thomas McCoy, | (参考訳) CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の多段階推論機能を強化することが示されている。
しかし、LLMが抽象的な一般化を示すのか、CoTのプロンプトが与えられたとき、浅いヒューリスティックに依存しているのかについては議論が続いている。
CoT推論に影響を及ぼす要因を理解するために、シフト暗号を復号するシンボリック推論タスクについて、アルファベットのいくつかのステップで文字を移動させる詳細なケーススタディを提供する。
GPT-4は標準のプロンプトでほとんどのシフト暗号の精度をゼロにするが、CoTでは平均32%に向上する。
1つの比較的単純なタスクにフォーカスすることで、タスクの期待出力の確率(確率)、事前トレーニング(記憶)中に暗黙的に学んだこと、推論(ノイズ推論)に関わる中間操作の数(ノイズ推論)の3つの要因を体系的に特定することができる。
これらの要因がタスクの精度に大きく影響することを示し、例えば、アウトプットの確率を26%から70%に変化させることができる。
また、モデルが正解の確率を高めるために条件付け可能な出力として中間ステップを明示的に生成することが不可欠であることを示す。
我々の実験は、モデルがそうである限り、プロンプトにおける実演の有効性は重要でないことを示している。
全体として、CoTのプロンプト性能は、真の推論の暗記と確率バージョンの両方を反映していると結論付けている。
Chain-of-Thought (CoT) prompting has been shown to enhance the multi-step reasoning capabilities of Large Language Models (LLMs). However, debates persist about whether LLMs exhibit abstract generalization or rely on shallow heuristics when given CoT prompts. To understand the factors influencing CoT reasoning we provide a detailed case study of the symbolic reasoning task of decoding shift ciphers, where letters are shifted forward some number of steps in the alphabet. GPT-4 achieves zero accuracy on most shift ciphers with standard prompting, but with CoT its accuracy improves to an average of 32%. By focusing on a single relatively simple task, we are able to identify three factors that systematically affect CoT performance: the probability of the task's expected output (probability), what the model has implicitly learned during pre-training (memorization), and the number of intermediate operations involved in reasoning (noisy reasoning). We show that these factors can drastically influence the task accuracy; e.g., varying the output's probability of occurrence can shift accuracy from 26% to 70%. We also demonstrate that it is essential for the model to explicitly produce intermediate steps as output that can be conditioned on to increase the probability of the correct answer. Our experiments indicate that as long as the model does so, the validity of the demonstrations in the prompt does not matter. Overall, we conclude that CoT prompting performance reflects both memorization and a probabilistic version of genuine reasoning. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# Cedarの作り方: 検証ガイドによるアプローチ
How We Built Cedar: A Verification-Guided Approach ( http://arxiv.org/abs/2407.01688v1 ) ライセンス: Link先を確認 | Craig Disselkoen, Aaron Eline, Shaobo He, Kyle Headley, Michael Hicks, Kesha Hietala, John Kastner, Anwar Mamat, Matt McCutchen, Neha Rungta, Bhakti Shah, Emina Torlak, Andrew Wells, | (参考訳) 本稿では,Cedarの開発に使用したソフトウェアエンジニアリングプロセスである検証誘導開発(VGD)について述べる。
VGDでシステムを開発するには、システムの実行可能なモデルを書き、モデルに関する特性を機械的に証明すること、システムのプロダクションコードを書き、生産コードがモデルと一致することを確認するために差分ランダムテスト(DRT)を使い、生産コードの未モデル化部分のプロパティをチェックするためにプロパティベースのテスト(PBT)を使用する。
CedarのVGDを使って、高速で慣用的なプロダクションコードを構築し、モデルを正しく証明し、コードレビューやユニットテストを避けるための微妙な実装バグを見つけて修正することができます。
Cedarのポリシー検証ツールで4つのバグを発見し、修正しました。そしてDRTとPBTは、Cedarのさまざまな部分で21のバグを発見し、修正しました。
This paper presents verification-guided development (VGD), a software engineering process we used to build Cedar, a new policy language for expressive, fast, safe, and analyzable authorization. Developing a system with VGD involves writing an executable model of the system and mechanically proving properties about the model; writing production code for the system and using differential random testing (DRT) to check that the production code matches the model; and using property-based testing (PBT) to check properties of unmodeled parts of the production code. Using VGD for Cedar, we can build fast, idiomatic production code, prove our model correct, and find and fix subtle implementation bugs that evade code reviews and unit testing. While carrying out proofs, we found and fixed 4 bugs in Cedar's policy validator, and DRT and PBT helped us find and fix 21 additional bugs in various parts of Cedar. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# クリフォードの時間依存変分原理
Clifford Dressed Time-Dependent Variational Principle ( http://arxiv.org/abs/2407.01692v1 ) ライセンス: Link先を確認 | Antonio Francesco Mello, Alessandro Santini, Guglielmo Lami, Jacopo De Nardis, Mario Collura, | (参考訳) 本稿では,行列生成状態 (MPS) に対する時間依存変動原理 (TDVP) アルゴリズムを提案する。
パウリ弦を他のパウリ弦に写像するクリフォード群を低計算複雑性を維持しながら活用することにより、クリフォード装束1-TDVPスキームを導入する。
TDVP統合中、チェッカーボードパターンで隣接するサイトを接続する2キュービットのクリフォードユニタリを反復的に網羅することにより絡みを小さくするために、グローバルなクリフォード変換を適用する。
我々は、積分可能系と非可積分系の両方を含む様々な量子多体モデルを用いて、新しいアルゴリズムを数値的に検証する。
以上の結果から, クリフォード装荷TDVPは, 従来のTDVP手法と比較して, 高い精度, 拡張されたシミュレーション時間, 精度の向上を実現し, 絡み合い管理と計算効率を著しく向上することを示した。
さらに,2サイト2-TDVPスキームに直接クリフォードゲートを組み込むことを提案する。
We propose an enhanced Time-Dependent Variational Principle (TDVP) algorithm for Matrix Product States (MPS) that integrates Clifford disentangling techniques to efficiently manage entanglement growth. By leveraging the Clifford group, which maps Pauli strings to other Pauli strings while maintaining low computational complexity, we introduce a Clifford dressed single-site 1-TDVP scheme. During the TDVP integration, we apply a global Clifford transformation as needed to reduce entanglement by iteratively sweeping over two-qubit Clifford unitaries that connect neighboring sites in a checkerboard pattern. We validate the new algorithm numerically using various quantum many-body models, including both integrable and non-integrable systems. Our results demonstrate that the Clifford dressed TDVP significantly improves entanglement management and computational efficiency, achieving higher accuracy, extended simulation times, and enhanced precision in computed observables compared to standard TDVP approaches. Additionally, we propose incorporating Clifford gates directly within the two-site 2-TDVP scheme. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 半デバイス独立フレームワークにおける量子資源の運用上の利点
Operational advantage of quantum resources in a semi-device independent framework ( http://arxiv.org/abs/2407.01693v1 ) ライセンス: Link先を確認 | Shubhayan Sarkar, Chandan Datta, | (参考訳) 量子資源は量子技術の発展に不可欠である。
したがって,様々な情報処理タスクにおいてその役割を研究するためには,その存在を検証することが不可欠である。
ここでは、ある運用タスクにおける量子リソースの存在を検出できるかどうか、または同等に、すべての量子リソースが、デバイスに関する情報があまりないブラックボックスのシナリオにおいて、その自由なリソースよりも有利であるかどうかを問う。
本稿では,準備箱と操作箱を接続する量子チャネルの次元に制約を加えて,準備・運用シナリオを考慮し,単独で量子資源を検知するフレームワークを提案する。
任意の次元$d$に対して、$d^2$未満の線形独立な自由状態や自由操作を持つ任意の資源理論に対して、量子資源の存在を検出する相関が存在することを示す。
量子チャネルが量子ビットのみを送信することを制約されている場合、我々は様々な量子資源の存在を観察するために証人を明示的に構成する。
Quantum resources are fundamental for the development of quantum technology. Thus, verifying their presence is crucial for studying their role in various information-processing tasks. Here, we enquire whether can one detect the presence of a quantum resource in some operational task or equivalently does every quantum resource provides an advantage over its free counterpart in some black box scenario where one does not have much information about the devices. We introduce the framework for detecting quantum resources semi-device independently by considering the prepare-and-operation scenario with the restriction on the dimension of the quantum channel connecting the preparation box with the operation box. For any dimension $d$, we show that for any resource theory with less than $d^2$ number of linearly independent free states or free operations, there exist correlations that can detect the presence of a quantum resource. For the particular case when the quantum channel is constrained to transmit only qubits, we explicitly construct witnesses to observe the presence of various quantum resources. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# NLPGuard:NLP分類器による保護属性の使用を緩和するフレームワーク
NLPGuard: A Framework for Mitigating the Use of Protected Attributes by NLP Classifiers ( http://arxiv.org/abs/2407.01697v1 ) ライセンス: Link先を確認 | Salvatore Greco, Ke Zhou, Licia Capra, Tania Cerquitelli, Daniele Quercia, | (参考訳) AI規制は、トレーニング中に機密属性を使用する機械学習モデルを禁止することが期待されている。
しかし、ディープラーニングに依存する最新の自然言語処理(NLP)分類器は、ブラックボックスシステムとして機能し、そのような誤用の検出と修復を複雑にしている。
従来のNLPのバイアス緩和手法は、性別や人種などの属性に基づいて異なるグループ間で同等のパフォーマンスを目標としているが、保護された属性に依存しているという根本的な問題には対処できない。
NLP分類器の保護属性への依存を軽減するためのフレームワークであるNLPGuardを導入する。
NLPGuardはラベルのないデータセット、既存のNLP分類器、およびトレーニングデータを入力として取り、修正されたトレーニングデータセットを生成し、精度を損なうことなく保護属性への依存を著しく低減する。
NLPGuardは、有害言語、感情分析、職業分類の3つの分類タスクに適用されている。
評価の結果,現在のNLP分類器は保護属性に大きく依存しており,これらの属性に関連付けられた最も予測的な単語の最大23.%が有効であることがわかった。
しかし、NLPGuardは、精度をわずかに改善しながら、この依存を最大79セントまで効果的に削減する。
AI regulations are expected to prohibit machine learning models from using sensitive attributes during training. However, the latest Natural Language Processing (NLP) classifiers, which rely on deep learning, operate as black-box systems, complicating the detection and remediation of such misuse. Traditional bias mitigation methods in NLP aim for comparable performance across different groups based on attributes like gender or race but fail to address the underlying issue of reliance on protected attributes. To partly fix that, we introduce NLPGuard, a framework for mitigating the reliance on protected attributes in NLP classifiers. NLPGuard takes an unlabeled dataset, an existing NLP classifier, and its training data as input, producing a modified training dataset that significantly reduces dependence on protected attributes without compromising accuracy. NLPGuard is applied to three classification tasks: identifying toxic language, sentiment analysis, and occupation classification. Our evaluation shows that current NLP classifiers heavily depend on protected attributes, with up to $23\%$ of the most predictive words associated with these attributes. However, NLPGuard effectively reduces this reliance by up to $79\%$, while slightly improving accuracy. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# 核スコアを用いたカラムと行の部分選択:Nyström近似、CUR分解、グラフラプラシアン還元のアルゴリズムと理論
Column and row subset selection using nuclear scores: algorithms and theory for Nyström approximation, CUR decomposition, and graph Laplacian reduction ( http://arxiv.org/abs/2407.01698v1 ) ライセンス: Link先を確認 | Mark Fornace, Michael Lindsey, | (参考訳) カラム選択は、データサイエンス、機械学習、理論化学など、様々な分野にまたがる幅広い応用を持つ、低ランク近似の構造保存に不可欠なツールである。
本研究では,高速,効率的,理論的に保証された列選択のための統一手法を開発する。
まず、カーネル近似やCUR分解といったタスクに適用可能な空間分割決定アルゴリズムを導出し、実装する。
次に,CUR分解とグラフラプラシアンの行列関数の近似の両方に適用し,保証された濃度境界を満たすランダム化スキームに依存する行列自由形式を考案する。
重要なことに、ランダム化は、列選択に使用するスコアの計算にのみ関係しており、これらのスコアが与えられたときの選択そのものではない。
決定論的アルゴリズムと行列自由アルゴリズムの両方において、決定点プロセス(DPP)サンプリングの期待性能と、選択シナリオにおいて、真に最適なサブセット選択の性能とを比較検討する。
一般的なケースでは、DPP期待の新しい分析が必要である。
最後に,多種多様な近似タスクに対して,アルゴリズムの実際の性能を示す。
Column selection is an essential tool for structure-preserving low-rank approximation, with wide-ranging applications across many fields, such as data science, machine learning, and theoretical chemistry. In this work, we develop unified methodologies for fast, efficient, and theoretically guaranteed column selection. First we derive and implement a sparsity-exploiting deterministic algorithm applicable to tasks including kernel approximation and CUR decomposition. Next, we develop a matrix-free formalism relying on a randomization scheme satisfying guaranteed concentration bounds, applying this construction both to CUR decomposition and to the approximation of matrix functions of graph Laplacians. Importantly, the randomization is only relevant for the computation of the scores that we use for column selection, not the selection itself given these scores. For both deterministic and matrix-free algorithms, we bound the performance favorably relative to the expected performance of determinantal point process (DPP) sampling and, in select scenarios, that of exactly optimal subset selection. The general case requires new analysis of the DPP expectation. Finally, we demonstrate strong real-world performance of our algorithms on a diverse set of example approximation tasks. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# Schmid遷移における量子臨界線のレジリエンス
Resilience of the quantum critical line in the Schmid transition ( http://arxiv.org/abs/2407.01699v1 ) ライセンス: Link先を確認 | Nicolas Paris, Luca Giacomelli, Romain Daviet, Cristiano Ciuti, Nicolas Dupuis, Christophe Mora, | (参考訳) シュミドは、抵抗環境に結合した1つのジョセフソン接合が、シャント抵抗$R$が抵抗量子$h/(4 e^2)$を超えるとき、絶縁相への量子相転移を起こすと予測した。
最近の測定と理論的研究は、この遷移の場所がジョセフソンと充電エネルギーの比に依存するかどうかの議論を引き起こしている。
我々は、超伝導と絶縁挙動の遷移線が実際にこのエネルギー比とは無関係であることを決定的に示すために、複数の革新的な解析的手法と数値的手法の組み合わせを用いている。
まず、場理論的再正規化群法を適用し、$\beta$関数がジョセフソンエネルギーの3階まで臨界線に沿って消えることを示す。
次に、エネルギー比に関係なく、臨界線上の低エネルギー物理を正確に捉える単純なフェルミオンモデルを同定する。
この共形不変フェルミオンモデルは、予測スペクトルと、抵抗的に絞られたジョセフソン接合の正確な対角化計算を比較して検証し、適度なシステムサイズにおいても優れた一致を示した。
重要なことに、この同定はジョセフソンのエネルギーに対する全ての比に対して、遷移直線が$R=h/(4 e^2)$で維持されているという厳密な非摂動的証明を与える。
この線は、抵抗環境のプラズマ周波数などの他の紫外線遮断に対してさらに弾力性がある。
最後に、大きなジョセフソンエネルギーにおける双対性を検証するための断熱的手法を実装した。
Schmid predicted that a single Josephson junction coupled to a resistive environment undergoes a quantum phase transition to an insulating phase when the shunt resistance $R$ exceeds the resistance quantum $h/(4 e^ 2)$. Recent measurements and theoretical studies have sparked a debate on whether the location of this transition depends on the ratio between the Josephson and the charging energies. We employ a combination of multiple innovative analytical and numerical techniques, never before explicitly applied to this problem, to decisively demonstrate that the transition line between superconducting and insulating behavior is indeed independent of this energy ratio. First, we apply field-theory renormalization group methods and find that the $\beta$ function vanishes along the critical line up to the third order in the Josephson energy. We then identify a simple fermionic model that precisely captures the low-energy physics on the critical line, regardless of the energy ratio. This conformally invariant fermionic model is verified by comparing the expected spectrum with exact diagonalization calculations of the resistively shunted Josephson junction, showing excellent agreement even for moderate system sizes. Importantly, this identification provides a rigorous non-perturbative proof that the transition line is maintained at $R=h/(4 e^ 2)$ for all ratios of Josephson to charging energies. The line is further resilient to other ultraviolet cutoffs such as the plasma frequency of the resistive environment. Finally, we implement an adiabatic approach to validate the duality at large Josephson energy. | 翻訳日:2024-07-03 19:42:31 公開日:2024-07-01 |
# SeFlow: 自動運転における自己監督型シーンフロー手法
SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving ( http://arxiv.org/abs/2407.01702v1 ) ライセンス: Link先を確認 | Qingwen Zhang, Yi Yang, Peizheng Li, Olov Andersson, Patric Jensfelt, | (参考訳) 連続したLiDARスキャンで各点における3次元運動を予測する。
この詳細なポイントレベルの情報は、自動運転車が周囲のダイナミックな変化を正確に予測し、理解するのに役立ちます。
現在の最先端の手法では、シーンフローネットワークをトレーニングするためにアノテートされたデータを必要とし、ラベリングのコストは本質的にスケーラビリティを制限します。
自己監督的アプローチは上記の制限を克服することができるが、最適性能を妨げる2つの主要な課題に直面している。
本稿では,効率的な動的分類を学習型シーンフローパイプラインに統合する自己教師型SeFlowを提案する。
静的点と動的点の分類は,異なる動作パターンに対する対象関数の設計に有効であることを示す。
また,内部クラスタの整合性と適切なオブジェクト点関連性の重要性を強調し,特にオブジェクトの細部においてシーンフローの推定を洗練させる。
提案手法は,Argoverse 2 および Waymo データセット上での自己教師型シーンフロータスクにおける最先端性能を実現する。
コードはhttps://github.com/KTH-RPL/SeFlowで公開されている。
Scene flow estimation predicts the 3D motion at each point in successive LiDAR scans. This detailed, point-level, information can help autonomous vehicles to accurately predict and understand dynamic changes in their surroundings. Current state-of-the-art methods require annotated data to train scene flow networks and the expense of labeling inherently limits their scalability. Self-supervised approaches can overcome the above limitations, yet face two principal challenges that hinder optimal performance: point distribution imbalance and disregard for object-level motion constraints. In this paper, we propose SeFlow, a self-supervised method that integrates efficient dynamic classification into a learning-based scene flow pipeline. We demonstrate that classifying static and dynamic points helps design targeted objective functions for different motion patterns. We also emphasize the importance of internal cluster consistency and correct object point association to refine the scene flow estimation, in particular on object details. Our real-time capable method achieves state-of-the-art performance on the self-supervised scene flow task on Argoverse 2 and Waymo datasets. The code is open-sourced at https://github.com/KTH-RPL/SeFlow along with trained model weights. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# Deep Continual and Reinforcement Learningのためのウェイトクリッピング
Weight Clipping for Deep Continual and Reinforcement Learning ( http://arxiv.org/abs/2407.01704v1 ) ライセンス: Link先を確認 | Mohamed Elsayed, Qingfeng Lan, Clare Lyle, A. Rupam Mahmood, | (参考訳) 深い連続学習と強化学習における多くの失敗は、重量の大きさの増大と関連しており、変更が難しく、過度な適合を引き起こす可能性がある。
多くの手法がこれらの学習障害に対処する一方で、様々なシステムで広く採用されるのを妨げる複雑さであるオプティマイザやアーキテクチャを変更することが多い。
本稿では,ウェイトノルムの増加に伴う学習障害に着目し,既存の学習システム上に簡単に追加できる簡単な手法を提案する。
教師付きおよび強化学習実験における重量切り抜きの有効性について検討した。
実験の結果は, 一般化のための重量切り抜きの利点, 可塑性の喪失, 政策崩壊への対処, およびリプレイ率の大きな学習の促進を浮き彫りにした。
Many failures in deep continual and reinforcement learning are associated with increasing magnitudes of the weights, making them hard to change and potentially causing overfitting. While many methods address these learning failures, they often change the optimizer or the architecture, a complexity that hinders widespread adoption in various systems. In this paper, we focus on learning failures that are associated with increasing weight norm and we propose a simple technique that can be easily added on top of existing learning systems: clipping neural network weights to limit them to a specific range. We study the effectiveness of weight clipping in a series of supervised and reinforcement learning experiments. Our empirical results highlight the benefits of weight clipping for generalization, addressing loss of plasticity and policy collapse, and facilitating learning with a large replay ratio. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 加速度コンピューティング戦略を用いたマルチクラス疾患診断のためのX線画像分類のための最適化学習
Optimized Learning for X-Ray Image Classification for Multi-Class Disease Diagnoses with Accelerated Computing Strategies ( http://arxiv.org/abs/2407.01705v1 ) ライセンス: Link先を確認 | Sebastian A. Cruz Romero, Ivanelyz Rivera de Jesus, Dariana J. Troche Quinones, Wilson Rivera Gallego, | (参考訳) X線画像に基づく疾患の診断は、サンプル内の摩擦を正確に識別することを保証するためにある。
偽陽性は、非存在条件を誤って特定するリスクを導入し、誤診や患者のケア品質の低下につながる。
逆に、偽陰性は真の異常を見落とし、治療や介入の遅れを引き起こす恐れがあり、結果として患者に悪い結果をもたらす。
これらの課題を克服するための緊急性は、計算フレームワーク内のX線画像解析アルゴリズムの精度と信頼性を高めるための継続的な努力を補完する。
本研究では,X線画像のマルチクラス診断に適した事前学習型ResNetモデルを提案する。
主な目的は、PyTorch、CUDA、Mixed-Precision Training、Learning Rate Schedulerの高速化実装を通じて、具体的なパフォーマンス改善を実現することである。
通常のトレーニングとCUDAアクセラレーションのトレーニングの間には実行ランタイムが大幅に改善されているが、さまざまなトレーニング最適化のモダリティの間には無視できる違いが現れる。
本研究は,大規模モデルのトレーニング実行時間を短縮する計算手法の最適化において,重要な進歩を示すものである。
さらに、複数のノードにまたがる勾配勾配勾配最適化の分散のためのMPI4Pyを用いた効果的な並列データ処理の可能性を探り、マルチプロセッシングを活用して、より大きなデータセットに対するデータ前処理を高速化する。
X-ray image-based disease diagnosis lies in ensuring the precision of identifying afflictions within the sample, a task fraught with challenges stemming from the occurrence of false positives and false negatives. False positives introduce the risk of erroneously identifying non-existent conditions, leading to misdiagnosis and a decline in patient care quality. Conversely, false negatives pose the threat of overlooking genuine abnormalities, potentially causing delays in treatment and interventions, thereby resulting in adverse patient outcomes. The urgency to overcome these challenges compels ongoing efforts to elevate the precision and reliability of X-ray image analysis algorithms within the computational framework. This study introduces modified pre-trained ResNet models tailored for multi-class disease diagnosis of X-ray images, incorporating advanced optimization strategies to reduce the execution runtime of training and inference tasks. The primary objective is to achieve tangible performance improvements through accelerated implementations of PyTorch, CUDA, Mixed- Precision Training, and Learning Rate Scheduler. While outcomes demonstrate substantial improvements in execution runtimes between normal training and CUDA-accelerated training, negligible differences emerge between various training optimization modalities. This research marks a significant advancement in optimizing computational approaches to reduce training execution time for larger models. Additionally, we explore the potential of effective parallel data processing using MPI4Py for the distribution of gradient descent optimization across multiple nodes and leverage multiprocessing to expedite data preprocessing for larger datasets. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# VolETA:一発数と数発の食品量推定
VolETA: One- and Few-shot Food Volume Estimation ( http://arxiv.org/abs/2407.01717v1 ) ライセンス: Link先を確認 | Ahmad AlMughrabi, Umair Haroon, Ricardo Marques, Petia Radeva, | (参考訳) 正確な食品量推定は、食事評価、栄養管理、および部分管理用途に不可欠である。
本稿では,3次元生成技術を用いた食品量推定手法であるVolETAについて述べる。
当社のアプローチでは,1枚または数枚のRGBD画像を用いて,食品の3Dメッシュをスケールアップする。
まず、RGBイメージに基づいてキーフレームを選択し、それからXMem++を使用してRGBイメージに参照オブジェクトをセグメント化する。
PixSfM技術を用いてカメラの位置を推定・精査する。
セグメント化された食品画像、参照オブジェクト、カメラポーズを組み合わせて、NeuS2に適したデータモデルを形成する。
参照オブジェクトと食品オブジェクトの独立したメッシュ再構成を行い、参照オブジェクトに基づいてMeshLabを用いてスケーリング係数を決定する。
さらに、電位体積範囲を推定してスケーリング因子を微調整するために、深さ情報を用いる。
細調整されたスケーリングファクターは、精密なボリューム測定のために、クリーニングされた食品メッシュに適用される。
同様に、セグメント化されたRGB画像をOne-2-3-45モデルに入力し、1ショットの食品容積推定を行い、メッシュを生成する。
次に,得られたスケーリング因子を浄化した食品メッシュに利用して,正確な体積測定を行う。
MTFデータセットを用いた10.97%のMAPEを用いて,ロバストかつ高精度な体積推定を実現し,オクルージョン,様々な照明条件,複雑な食品測地を効果的に処理できることを示した。
この革新的なアプローチは、ボリュームアセスメントの精度を高め、計算栄養と食事監視の進歩に大きく貢献する。
Accurate food volume estimation is essential for dietary assessment, nutritional tracking, and portion control applications. We present VolETA, a sophisticated methodology for estimating food volume using 3D generative techniques. Our approach creates a scaled 3D mesh of food objects using one- or few-RGBD images. We start by selecting keyframes based on the RGB images and then segmenting the reference object in the RGB images using XMem++. Simultaneously, camera positions are estimated and refined using the PixSfM technique. The segmented food images, reference objects, and camera poses are combined to form a data model suitable for NeuS2. Independent mesh reconstructions for reference and food objects are carried out, with scaling factors determined using MeshLab based on the reference object. Moreover, depth information is used to fine-tune the scaling factors by estimating the potential volume range. The fine-tuned scaling factors are then applied to the cleaned food meshes for accurate volume measurements. Similarly, we enter a segmented RGB image to the One-2-3-45 model for one-shot food volume estimation, resulting in a mesh. We then leverage the obtained scaling factors to the cleaned food mesh for accurate volume measurements. Our experiments show that our method effectively addresses occlusions, varying lighting conditions, and complex food geometries, achieving robust and accurate volume estimations with 10.97% MAPE using the MTF dataset. This innovative approach enhances the precision of volume assessments and significantly contributes to computational nutrition and dietary monitoring advancements. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 高次元データセットの非線形配向と結合埋め込みに対するエントロピー最適輸送固有写像
Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets ( http://arxiv.org/abs/2407.01718v1 ) ライセンス: Link先を確認 | Boris Landa, Yuval Kluger, Rong Ma, | (参考訳) 高次元データを低次元空間に埋め込むことは、データ解析の必須要素である。
多くの応用において、異なる研究や実験条件から複数のデータセットを調整し、共同で埋め込む必要がある。
このようなデータセットは、基本的な関心構造を共有することができるが、個々の歪みを示すため、従来の手法による埋め込みが誤って行われる。
本研究では,理論的保証付きデータセットの整列と共同埋め込みのための原理的アプローチである「textit{Entropic Optimal Transport (EOT) eigenmaps」を提案する。
提案手法では,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共有基盤構造を抽出し,共通の埋め込み空間でデータセットを整列させる。
我々は、我々のアプローチを古典ラプラシア固有写像と拡散写像の埋め込みのデータ間変種として解釈し、多くの好ましい類似特性を享受していることを示す。
次に、観測された2つの高次元データセットが共通の低次元多様体上で潜在変数を共有するデータ生成モデルを分析する。
本研究では, 高次元漸近状態において, EOT計画が潜伏変数の位置で評価されたカーネル関数を近似することにより, 共有多様体構造を復元することを示した。
その後、共有多様体の密度と幾何学を符号化する集団レベルの作用素の固有関数と関連づけることで、埋め込みの幾何学的解釈を提供する。
最後に、実世界の生物データのシミュレーションと分析を通じて、データ統合と埋め込みのためのアプローチの性能を実証し、挑戦シナリオにおける代替手法に対する利点を実証する。
Embedding high-dimensional data into a low-dimensional space is an indispensable component of data analysis. In numerous applications, it is necessary to align and jointly embed multiple datasets from different studies or experimental conditions. Such datasets may share underlying structures of interest but exhibit individual distortions, resulting in misaligned embeddings using traditional techniques. In this work, we propose \textit{Entropic Optimal Transport (EOT) eigenmaps}, a principled approach for aligning and jointly embedding a pair of datasets with theoretical guarantees. Our approach leverages the leading singular vectors of the EOT plan matrix between two datasets to extract their shared underlying structure and align the datasets accordingly in a common embedding space. We interpret our approach as an inter-data variant of the classical Laplacian eigenmaps and diffusion maps embeddings, showing that it enjoys many favorable analogous properties. We then analyze a data-generative model where two observed high-dimensional datasets share latent variables on a common low-dimensional manifold, but each dataset is subject to data-specific translation, scaling, nuisance structures, and noise. We show that in a high-dimensional asymptotic regime, the EOT plan recovers the shared manifold structure by approximating a kernel function evaluated at the locations of the latent variables. Subsequently, we provide a geometric interpretation of our embedding by relating it to the eigenfunctions of population-level operators encoding the density and geometry of the shared manifold. Finally, we showcase the performance of our approach for data integration and embedding through simulations and analyses of real-world biological data, demonstrating its advantages over alternative methods in challenging scenarios. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# ToffA-DSPL:動的ソフトウェア製品ラインの設計のためのトレードオフ分析のアプローチ
ToffA-DSPL: an approach of trade-off analysis for designing dynamic software product lines ( http://arxiv.org/abs/2407.01722v1 ) ライセンス: Link先を確認 | Michelle Larissa Luciano Carvalho, Paulo Cesar Masiero, Ismayle de Sousa Santos, Eduardo Santana de Almeida, | (参考訳) ソフトウェアエンジニアはDynamically Adaptable Software (DAS)を開発するために、Dynamic Software Product Lines (DSPL)エンジニアリングプラクティスを採用しています。
DASはDSPLアプリケーションと見なされており、多数の機能構成、非機能要件(NFR)、コンテキストを扱う必要がある。
しかしながら、NFRに対する特徴の影響の正確な表現と最適な構成を特定するためのコンテキストは、簡単な作業ではない。
ソフトウェアエンジニアは、これらの要件を満たすためにデプロイする前にドメイン知識と設計DASを持つ必要があります。
そこで我々は,DSPLのトレードオフ分析を設計時に提案するToffA-DSPLについて検討した。
NFRとコンテキスト間の相互作用を考慮した構成選択プロセスを扱う。
ToffA-DSPL法の有用性を明らかにするため,シミュレーションに基づく探索的研究を行った。
一般に、ToffA-DSPLによって提案される構成は、NFRの高い満足度を提供する。
シミュレーションに基づいて,本手法は再利用を探求することを目的としており,有効かつ最適な構成を生成するのに有用であることを示した。
さらに、ToffA-DSPLは、ソフトウェアエンジニアがトレードオフ分析を行い、コンテキストの特徴の変化を評価し、分析で見られる最適な構成から適応モデルを定義することを可能にする。
Software engineers have adopted the Dynamic Software Product Lines (DSPL) engineering practices to develop Dynamically Adaptable Software (DAS). DAS is seen as a DSPL application and must cope with a large number of configurations of features, Non-functional Requirements (NFRs), and contexts. However, the accurate representation of the impact of features over NFRs and contexts for the identification of optimal configurations is not a trivial task. Software engineers need to have domain knowledge and design DAS before deploying to satisfy those requirements. Aiming to handle them, we proposed an approach of Trade-off Analysis for DSPL at design-time, named ToffA-DSPL. It deals with the configuration selection process considering interactions between NFRs and contexts. We performed an exploratory study based on simulations to identify the usefulness of the ToffA-DSPL approach. In general, the configurations suggested by ToffA-DSPL provide high satisfaction levels of NFRs. Based on simulations, we evidenced that our approach aims to explore reuse and is useful for generating valid and optimal configurations. In addition, ToffA-DSPL enables software engineers to conduct trade-off analysis, evaluate changes in the context feature, and define an adaptation model from optimal configurations found in the analysis. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# DiscoveryBench: 大規模言語モデルによるデータ駆動ディスカバリを目指す
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models ( http://arxiv.org/abs/2407.01725v1 ) ライセンス: Link先を確認 | Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Bhavana Dalvi Mishra, Abhijeetsingh Meena, Aryan Prakhar, Tirth Vora, Tushar Khot, Ashish Sabharwal, Peter Clark, | (参考訳) 大規模言語モデル(LLM)を用いたコード生成、関数呼び出し、データ分析の急速な進歩は、提供されたデータセットから純粋に仮説の検索と検証を自動化するのに役立ちますか?
この問題を評価するために、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
このベンチマークは、発見タスクにおける現在のモデル機能を体系的に評価し、それらを改善するのに有用なリソースを提供するように設計されている。
我々のベンチマークでは、論文から発見ワークフローを手動で抽出し、研究者が直面している現実的な課題を近似し、各タスクがデータセット、メタデータ、自然言語における発見目標によって定義されることにより、社会学や工学などの6つの分野にまたがる264のタスクが収集される。
さらに903の合成タスクを提供し、タスクの複雑さを横断して制御された評価を行う。
さらに、データ駆動探索の構造化形式は、フェースベースの評価を可能にし、異なる障害モードに関する有用な洞察を提供する。
オープンLLMとクローズドLLMの両方をベースラインとして,いくつかの人気のあるLCMベースの推論フレームワークを評価し,最高のシステムでも25%のスコアしか得られないことを確認した。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
Can the rapid advances in code generation, function calling, and data analysis using large language models (LLMs) help automate the search and verification of hypotheses purely from a set of provided datasets? To evaluate this question, we present DiscoveryBench, the first comprehensive benchmark that formalizes the multi-step process of data-driven discovery. The benchmark is designed to systematically assess current model capabilities in discovery tasks and provide a useful resource for improving them. Our benchmark contains 264 tasks collected across 6 diverse domains, such as sociology and engineering, by manually deriving discovery workflows from published papers to approximate the real-world challenges faced by researchers, where each task is defined by a dataset, its metadata, and a discovery goal in natural language. We additionally provide 903 synthetic tasks to conduct controlled evaluations across task complexity. Furthermore, our structured formalism of data-driven discovery enables a facet-based evaluation that provides useful insights into different failure modes. We evaluate several popular LLM-based reasoning frameworks using both open and closed LLMs as baselines on DiscoveryBench and find that even the best system scores only 25%. Our benchmark, thus, illustrates the challenges in autonomous data-driven discovery and serves as a valuable resource for the community to make progress. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# Grouped Discrete Representation Guides Object-Centric Learning
Grouped Discrete Representation Guides Object-Centric Learning ( http://arxiv.org/abs/2407.01726v1 ) ライセンス: Link先を確認 | Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen, | (参考訳) 視覚的なシーンをオブジェクトとして認識する人間と同じように、OCL(Object-Centric Learning)は、密集した画像やビデオをスパースなオブジェクトレベルの特徴に抽象化することができる。
トランスフォーマーベースのOCLは、コードブックのテンプレート機能を用いて、画像やビデオの特徴マップにおけるノイズのある特徴を識別して得られる離散表現の復号誘導のために、複雑なテクスチャをうまく処理する。
しかし、特徴を最小単位として扱うことはそれらの構成属性を見落とし、従ってモデル一般化を妨げ、自然数を持つ指標的特徴は属性レベルの共通点や特徴を失い、モデル収束に対するヒューリスティックスは減少する。
特徴を属性にグループ化してタプル数でインデックス化することで,これらの問題に対処するために, \textit{Grouped Discrete Representation} (GDR)を提案する。
様々なクエリ初期化、データセットのモダリティ、モデルアーキテクチャにわたる広範な実験において、GDRは一貫して収束性と一般化性を改善している。
可視化により,属性レベルの情報を特徴量で効果的に取得できることが分かる。
ソースコードは受理時に利用可能になる。
Similar to humans perceiving visual scenes as objects, Object-Centric Learning (OCL) can abstract dense images or videos into sparse object-level features. Transformer-based OCL handles complex textures well due to the decoding guidance of discrete representation, obtained by discretizing noisy features in image or video feature maps using template features from a codebook. However, treating features as minimal units overlooks their composing attributes, thus impeding model generalization; indexing features with natural numbers loses attribute-level commonalities and characteristics, thus diminishing heuristics for model convergence. We propose \textit{Grouped Discrete Representation} (GDR) to address these issues by grouping features into attributes and indexing them with tuple numbers. In extensive experiments across different query initializations, dataset modalities, and model architectures, GDR consistently improves convergence and generalizability. Visualizations show that our method effectively captures attribute-level information in features. The source code will be available upon acceptance. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 量子測地力学の時間と矢印
Time and its arrow from quantum geometrodynamics? ( http://arxiv.org/abs/2407.01727v1 ) ライセンス: Link先を確認 | Claus Kiefer, Leonardo Chataignier, Mritunjay Tyagi, | (参考訳) 量子重力に対する保守的なアプローチである量子幾何学は、どのようにして古典的時空の出現を説明し、それとともに、古典的時空の出現とその普遍的量子状態からの矢印を説明するかについて議論する。
これは、理論のハミルトニアンの構造によって動機づけられた境界条件の特別なが合理的な選択から従う。
この条件は、ペンローズのワイル曲率仮説の量子バージョンを定義することもできる。
我々は、この図と「過去仮説」と異なる観測時間矢印との関係についてコメントし、量子測地力学がこれらの観測を説明する統一的でより基本的な枠組みとしてどのように機能するかを検討する。
We discuss how quantum geometrodynamics, a conservative approach to quantum gravity, might explain the emergence of classical spacetime and, with it, the emergence of classical time and its arrow from the universal quantum state. This follows from a particular but reasonable choice of boundary condition motivated by the structure of the Hamiltonian of the theory. This condition can also be seen as defining a quantum version of Penrose's Weyl curvature hypothesis. We comment on the relation of this picture to the `past hypothesis' and the different observed arrows of time, and we consider how quantum geometrodynamics could serve as a unifying and more fundamental framework to explain these observations. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 絡み合いハミルトニアンと準粒子像
Entanglement Hamiltonians and the quasiparticle picture ( http://arxiv.org/abs/2407.01730v1 ) ライセンス: Link先を確認 | Federico Rottoli, Colin Rylands, Pasquale Calabrese, | (参考訳) エンタングルメント・ハミルトニアン(EH)は、多体量子系におけるバイパルタイトエンタングルメントの最も包括的な特徴を提供する。
地元ハミルトニアンの基底状態はこの局所性を受け継ぎ、その結果、局所的、少数の身体的用語によって支配されるEHが生じる。
残念なことに、非平衡な状況では、解析結果はまれであり、主に連続場理論に限られており、顕微鏡モデルを正確に記述することができない。
このギャップに対処するために、非相互作用フェルミオンモデルにおける一般的な量子クエンチに続くEHの正確な解析結果を示す。
この導出は、祝われる準粒子像をEHに適応させ、その物理的性質に関する詳細な洞察を与える。
解析式は量子光学実験における工学的EHの基礎となる。
The entanglement Hamiltonian (EH) provides the most comprehensive characterization of bipartite entanglement in many-body quantum systems. Ground states of local Hamiltonians inherit this locality, resulting in EHs that are dominated by local, few-body terms. Unfortunately, in non-equilibrium situations, analytic results are rare and largely confined to continuous field theories, which fail to accurately describe microscopic models. To address this gap, we present an exact analytic result for the EH following a generic quantum quench in non-interacting fermionic models. This derivation adapts the celebrated quasiparticle picture to the EH, providing detailed insights into its physical properties. The resulting analytic formula serves as a foundation for engineering EHs in quantum optics experiments. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 表構造認識における不確かさの定量化
Uncertainty Quantification in Table Structure Recognition ( http://arxiv.org/abs/2407.01731v1 ) ライセンス: Link先を確認 | Kehinde Ajayi, Leizhen Zhang, Yi He, Jian Wu, | (参考訳) 機械学習モデルの不確実性を定量化することは、信頼性の低い予測を検知することにより、人間の検証作業を減らすための重要なステップである。
本稿では,テーブル構造認識(TSR)の不確実性定量化(UQ)手法を提案する。
The proposed UQ method built on a Mix-of-expert approach called Test-Time Augmentation (TTA)。
私たちのキーとなるアイデアは、テーブル表現を豊かにし、多様化し、高い認識の不確かさで細胞をスポットライトすることです。
有効性を評価するため,正常な細胞,すなわちマスキングと細胞複雑性の定量化を区別する2つのヒューリスティック法を提案した。
マスキングは検出の不確実性を評価するために画素強度を変化させる。
細胞複雑性の定量化は、近隣の細胞とのトポロジカルな関係によって各細胞の不確実性を測定する。
標準ベンチマークによる評価結果は,提案手法がTSRモデルの不確かさの定量化に有効であることを示す。
我々の知る限りでは、この研究はTSRタスクにおけるUQを可能にする最初の研究である。
私たちのコードとデータは、https://github.com/lamps-lab/UQTTA.git.comで利用可能です。
Quantifying uncertainties for machine learning models is a critical step to reduce human verification effort by detecting predictions with low confidence. This paper proposes a method for uncertainty quantification (UQ) of table structure recognition (TSR). The proposed UQ method is built upon a mixture-of-expert approach termed Test-Time Augmentation (TTA). Our key idea is to enrich and diversify the table representations, to spotlight the cells with high recognition uncertainties. To evaluate the effectiveness, we proposed two heuristics to differentiate highly uncertain cells from normal cells, namely, masking and cell complexity quantification. Masking involves varying the pixel intensity to deem the detection uncertainty. Cell complexity quantification gauges the uncertainty of each cell by its topological relation with neighboring cells. The evaluation results based on standard benchmark datasets demonstrate that the proposed method is effective in quantifying uncertainty in TSR models. To our best knowledge, this study is the first of its kind to enable UQ in TSR tasks. Our code and data are available at: https://github.com/lamps-lab/UQTTA.git. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 電子商取引市場における関連販売業者に対するNudgesの調査--Amazonを事例として
Investigating Nudges toward Related Sellers on E-commerce Marketplaces: A Case Study on Amazon ( http://arxiv.org/abs/2407.01732v1 ) ライセンス: Link先を確認 | Abhisek Dash, Abhijnan Chakraborty, Saptarshi Ghosh, Animesh Mukherjee, Krishna P. Gummadi, | (参考訳) eコマース市場は世界中の何百万もの売り手にビジネスチャンスを提供する。
これらの売り手の中には、子会社のサービス(例えば、市場が提供するフルフィルメントおよび/または出荷サービス)を利用することで、市場と特別な関係を持つ者もいます。
複数の売り手が同じ製品を売ろうとすると、マーケットプレースは顧客が(売り手による)オファーを選択するのを助ける。
(a)デフォルトのオファー選択アルゴリズム
(b)各オファー及び対応する売り手の特徴(価格、売り手パフォーマンス指標、売り手の格付け数等)及び
(c) 最終的にこれらの特徴に沿った売り手を評価する。
本稿では、インド、米国、ドイツ、フランスのAmazonの4つの異なるマーケットプレースにおける関連販売業者に対して、この装置がいかに顧客を惹きつけることができるかを、エンドツーエンドで調査する。
明示的な選択、顧客の好みのオファー、アルゴリズムによって選択されたオファーは、大きく異なる可能性があることに気付きました。
我々は、Amazonが異なる販売者に対して異なるパフォーマンス指標評価ポリシーを採用しており、関連販売業者に利益をもたらす可能性があることを強調した。
例えば、そのようなポリシーは、実際のパフォーマンス指標と関連するセラーの提示されたパフォーマンス指標との間に顕著な違いをもたらす。
さらに、顧客にとって目に見える売り手中心の機能の中で、売り手の格付けが決定に最も影響を及ぼすが、売り手による実際のサービス品質を反映せず、売り手が運営する規模を反映し、より大型の関連売り手に向けて顧客を暗黙的に操縦する。
さらに、顧客が異なる販売業者の是正基準を示すと、関連する販売業者への嗜好はほぼ半減する。
E-commerce marketplaces provide business opportunities to millions of sellers worldwide. Some of these sellers have special relationships with the marketplace by virtue of using their subsidiary services (e.g., fulfillment and/or shipping services provided by the marketplace) -- we refer to such sellers collectively as Related Sellers. When multiple sellers offer to sell the same product, the marketplace helps a customer in selecting an offer (by a seller) through (a) a default offer selection algorithm, (b) showing features about each of the offers and the corresponding sellers (price, seller performance metrics, seller's number of ratings etc.), and (c) finally evaluating the sellers along these features. In this paper, we perform an end-to-end investigation into how the above apparatus can nudge customers toward the Related Sellers on Amazon's four different marketplaces in India, USA, Germany and France. We find that given explicit choices, customers' preferred offers and algorithmically selected offers can be significantly different. We highlight that Amazon is adopting different performance metric evaluation policies for different sellers, potentially benefiting Related Sellers. For instance, such policies result in notable discrepancy between the actual performance metric and the presented performance metric of Related Sellers. We further observe that among the seller-centric features visible to customers, sellers' number of ratings influences their decisions the most, yet it may not reflect the true quality of service by the seller, rather reflecting the scale at which the seller operates, thereby implicitly steering customers toward larger Related Sellers. Moreover, when customers are shown the rectified metrics for the different sellers, their preference toward Related Sellers is almost halved. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# ディープニューラルネットワークを用いたユニバーサル量子トモグラフィ
Universal Quantum Tomography With Deep Neural Networks ( http://arxiv.org/abs/2407.01734v1 ) ライセンス: Link先を確認 | Nhan T. Luu, Truong Cong Thang, | (参考訳) 量子状態トモグラフィー(quantum state tomography)は、量子技術の多くの応用に欠かせない量子系の状態を特徴づける重要な技術である。
近年、量子状態トモグラフィーの効率性と精度を高めるためにニューラルネットワークを活用することへの関心が高まっている。
それでも、それらの多くは混合量子状態を含んでおらず、これは純粋状態が実際的な状況では一般的ではないからである。
本稿では,純粋かつ混合な量子状態トモグラフィーのための2つのニューラルネットワークベースのアプローチを提案する。
提案手法は,実験データから混合量子状態の再構成を行なえることを示す。
我々の研究は、量子状態トモグラフィーを革新し、量子技術の発展を促進するニューラルネットワークの可能性を強調している。
Quantum state tomography is a crucial technique for characterizing the state of a quantum system, which is essential for many applications in quantum technologies. In recent years, there has been growing interest in leveraging neural networks to enhance the efficiency and accuracy of quantum state tomography. Still, many of them did not include mixed quantum state, since pure states are arguably less common in practical situations. In this research paper, we present two neural networks based approach for both pure and mixed quantum state tomography: Restricted Feature Based Neural Network and Mixed States Conditional Generative Adversarial Network, evaluate its effectiveness in comparison to existing neural based methods. We demonstrate that our proposed methods can achieve state-of-the-art results in reconstructing mixed quantum states from experimental data. Our work highlights the potential of neural networks in revolutionizing quantum state tomography and facilitating the development of quantum technologies. | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# 弱値測定を用いた量子精査
Quantum interrogation using weak value measurement ( http://arxiv.org/abs/2407.01735v1 ) ライセンス: Link先を確認 | M. Sabieh Anwar, S. Bilal Hyder Shah, Abdullah Ijaz, | (参考訳) 本稿では, コンストラクティブ干渉とポストセレクションを用いて, 不完全あるいは半透明な吸収体に対する単一パス高効率検出を実現するための量子尋問手法を提案する。
本手法は, 弱減衰源だけでなく, 偏光単光子に対しても有効であることを示す。
また, 機器の誤差の影響について検討し, 選択後のノイズ対策にロバスト性を示す。
さらに、弱い値増幅法(WVA)を用いて、小さな拡張で不完全吸収体の透過率を定量化できることを実証する。
We propose a scheme for quantum interrogation measurements using constructive interference and post-selection to achieve single-pass high-efficiency detection for imperfect or semi-transparent absorbers. We illustrate that our method works for heralded single-photon as well as weak attenuated sources. We also study the influence of error from our equipment and show that post-selection renders robustness to our scheme against noise. We further demonstrate that with a small extension, we can quantify the transmittance of the imperfect absorber by using the process of weak value amplification (WVA) | 翻訳日:2024-07-03 19:32:46 公開日:2024-07-01 |
# ニューラル演算子近似ゲインカーネルによる反応拡散PDEの適応制御
Adaptive control of reaction-diffusion PDEs via neural operator-approximated gain kernels ( http://arxiv.org/abs/2407.01745v1 ) ライセンス: Link先を確認 | Luke Bhan, Yuanyuan Shi, Miroslav Krstic, | (参考訳) PDEバックステッピングにおけるゲインカーネルのニューラル演算子近似は、リアルタイムでコントローラを実装するための実行可能な方法として現れている。
このようなアプローチで、利得核を近似し、植物係数をPDEの解に、ニューラル作用素でマッピングする。
植物係数の更新された見積もり毎に、カーネルPDEソリューションをオンラインで計算する必要があるため、ニューラル演算子の利点が実現されるのは適応的な制御である。
本稿では,双曲型PDEの適応制御からベンチマークパラボリックPDEの適応制御(空間的に変化し未知の反応係数を持つ反応拡散方程式)まで,ニューラル演算子手法を拡張した。
我々は,リアプノフのパラメータ適応設計のために,植物状態のグローバルな安定性と漸近的制御を証明した。
この結果の主な技術的課題は、ゲインカーネルの2次元特性を扱い、パラメータ推定誤差とニューラルネットワーク近似誤差により、2つの異なる摂動項を持つターゲット系が安定であることを証明することである。
理論的結果を検証するため,従来の有限差分解法と比較して計算速度を最大45倍に向上させるシミュレーションを提案する。
Neural operator approximations of the gain kernels in PDE backstepping has emerged as a viable method for implementing controllers in real time. With such an approach, one approximates the gain kernel, which maps the plant coefficient into the solution of a PDE, with a neural operator. It is in adaptive control that the benefit of the neural operator is realized, as the kernel PDE solution needs to be computed online, for every updated estimate of the plant coefficient. We extend the neural operator methodology from adaptive control of a hyperbolic PDE to adaptive control of a benchmark parabolic PDE (a reaction-diffusion equation with a spatially-varying and unknown reaction coefficient). We prove global stability and asymptotic regulation of the plant state for a Lyapunov design of parameter adaptation. The key technical challenge of the result is handling the 2D nature of the gain kernels and proving that the target system with two distinct sources of perturbation terms, due to the parameter estimation error and due to the neural approximation error, is Lyapunov stable. To verify our theoretical result, we present simulations achieving calculation speedups up to 45x relative to the traditional finite difference solvers for every timestep in the simulation trajectory. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# ラベルによる表現の不変性
Invariant Correlation of Representation with Label ( http://arxiv.org/abs/2407.01749v1 ) ライセンス: Link先を確認 | Gaojie Jin, Ronghui Mu, Xinping Yi, Xiaowei Huang, Lijun Zhang, | (参考訳) Invariant Risk Minimization (IRM) アプローチは、複数の環境において不変な特徴表現をトレーニングすることで、ドメインの一般化の課題に対処することを目的としている。
しかし、ノイズの多い環境では、IRMv1やVRExのようなITM関連の技術は、主に誤った最適化方向のために最適なIRMソリューションを達成できない可能性がある。
この問題に対処するために、我々は、上記の課題をノイズの多い設定で克服するために設計された新しいアプローチであるICorr( \textbf{I}nvariant \textbf{Corr}elationの略)を導入する。
さらに、ICorrが成功する間、以前の方法が不利になる可能性がある理由を分析するためにケーススタディを掘り下げる。
理論的レンズ、特に因果性の観点からは、表現とラベルとの不変相関が雑音環境における最適不変予測器に必要な条件であるのに対し、他の手法の最適化モチベーションは必要でないことを示す。
さらに、様々なノイズデータセット上で、ICorrを他の領域一般化手法と比較することにより、ICorrの有効性を実証的に実証する。
The Invariant Risk Minimization (IRM) approach aims to address the challenge of domain generalization by training a feature representation that remains invariant across multiple environments. However, in noisy environments, IRM-related techniques such as IRMv1 and VREx may be unable to achieve the optimal IRM solution, primarily due to erroneous optimization directions. To address this issue, we introduce ICorr (an abbreviation for \textbf{I}nvariant \textbf{Corr}elation), a novel approach designed to surmount the above challenge in noisy settings. Additionally, we dig into a case study to analyze why previous methods may lose ground while ICorr can succeed. Through a theoretical lens, particularly from a causality perspective, we illustrate that the invariant correlation of representation with label is a necessary condition for the optimal invariant predictor in noisy environments, whereas the optimization motivations for other methods may not be. Furthermore, we empirically demonstrate the effectiveness of ICorr by comparing it with other domain generalization methods on various noisy datasets. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# 動的SEMを用いた人間-AI協調における信頼ダイナミクスの予測
Predicting Trust Dynamics with Dynamic SEM in Human-AI Cooperation ( http://arxiv.org/abs/2407.01752v1 ) ライセンス: Link先を確認 | Sota Kaneko, Seiji Yamada, | (参考訳) 人間のAIに対する信頼は、人間とAIのシナジスティックな関係を育む上で重要な要素である。
これは、自律運転システムや人間とロボットのインタラクションなど、AI技術を活用するシステムのコンテキストにおいて特に重要である。
信頼はこれらのシステムの適切な利用を促進し、それによって潜在的な利益を最適化する。
人間がAIを過信したり過信したりした場合、誤用や事故などの深刻な問題が発生する。
オーバー・アンダー・トラストを避けるには、信頼のダイナミクスを予測する必要がある。
しかし、信頼は人間の内的状態であり、直接観察するのは難しい。
そこで本研究では,時系列データを扱うSEMを拡張した動的構造方程式モデリングを用いた信頼度動態の予測モデルを提案する。
変数間の因果関係を示す経路図を探索的に開発し,その結果の経路図を効率的な経路構造に最適化する。
オーバー・アンダー・トラストは、ドローンシミュレータータスクで90%の精度で予測され、自律運転タスクで99%の精度で予測された。
これらの結果から,提案手法は自動回帰を含む従来の手法よりも優れていた。
Humans' trust in AI constitutes a pivotal element in fostering a synergistic relationship between humans and AI. This is particularly significant in the context of systems that leverage AI technology, such as autonomous driving systems and human-robot interaction. Trust facilitates appropriate utilization of these systems, thereby optimizing their potential benefits. If humans over-trust or under-trust an AI, serious problems such as misuse and accidents occur. To prevent over/under-trust, it is necessary to predict trust dynamics. However, trust is an internal state of humans and hard to directly observe. Therefore, we propose a prediction model for trust dynamics using dynamic structure equation modeling, which extends SEM that can handle time-series data. A path diagram, which shows causalities between variables, is developed in an exploratory way and the resultant path diagram is optimized for effective path structures. Over/under-trust was predicted with 90\% accuracy in a drone simulator task,, and it was predicted with 99\% accuracy in an autonomous driving task. These results show that our proposed method outperformed the conventional method including an auto regression family. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# ブラックホールのレニイ第二法則
Rényi second laws for black holes ( http://arxiv.org/abs/2407.01753v1 ) ライセンス: Link先を確認 | Alice Bernamonti, Federico Galli, Robert C. Myers, Ignacio A. Reyes, | (参考訳) ホーキングのブラックホール領域の定理は、熱力学の第二法則と重力過程の制約を幾何学的に実現している。
本研究では、R'enyiエントロピーの単調性の性質の観点から定式化されたこの制約の1パラメータ拡張について検討する。
我々は、漸近的にAdS空間におけるブラックホールの合併に焦点を当て、これらのR'enyi第二法則が最終状態に課す新たな制限を決定する。
熱力学的アンサンブルによるブラックホール測地の記述から始まるエントロピック不等式を評価し、多くの状況において、面積増加定理によって課されるものよりも厳密な境界を定めていることを見出した。
Hawking's black hole area theorem provides a geometric realization of the second law of thermodynamics and constrains gravitational processes. In this work we explore a one-parameter extension of this constraint formulated in terms of the monotonicity properties of R\'enyi entropies. We focus on black hole mergers in asymptotically AdS space and determine new restrictions which these R\'enyi second laws impose on the final state. We evaluate the entropic inequalities starting from the thermodynamic ensembles description of black hole geometries, and find that for many situations they set more stringent bounds than those imposed by the area increase theorem. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# DRAGON:ドローンと地上ガウシアンによる3Dビル再建
DRAGON: Drone and Ground Gaussian Splatting for 3D Building Reconstruction ( http://arxiv.org/abs/2407.01761v1 ) ライセンス: Link先を確認 | Yujin Ham, Mateusz Michalkiewicz, Guha Balakrishnan, | (参考訳) 画像データから3次元建物を再構築することは,都市計画から偵察に至るまで,多くのアプリケーションにとって重要な課題である。
NeRFやGaussian Splattingのような最新のノベルビュー合成(NVS)手法は、教師なしの方法で自然な2D画像から3Dモデルを開発するための強力な技術を提供する。
これらのアルゴリズムは一般的に、興味のあるシーンを取り巻く入力トレーニングビューを必要とするが、大きな建物の場合、通常はすべてのカメラの高さで利用できない。
特に、ほとんどの建物にまたがる、最も手軽に使えるカメラの視点は、ほぼ地上(例えば携帯電話)と空中(ドローン)の高度である。
しかし、ドローンと地上の画像セットの視点が著しく異なるため、NVSアルゴリズムに必要なステップであるカメラ登録は失敗する。
本研究では,3次元NVSモデルの入力として,ドローンと地上の建物画像を取り出すことができるDRAGONを提案する。
DRAGONの重要な洞察は、中間標高画像は、知覚的正規化を伴う反復的な手順でNVSアルゴリズムによって外挿され、それによって2つの標高の間の視覚的特徴ギャップをブリッジし、登録を可能にすることである。
Google Earth Studioを使って9つの大きな建物シーンの半合成データセットをコンパイルし、DRAGONがベースライン戦略と比較して魅力的なレンダリングを生成できることを定量的に質的に実証した。
3D building reconstruction from imaging data is an important task for many applications ranging from urban planning to reconnaissance. Modern Novel View synthesis (NVS) methods like NeRF and Gaussian Splatting offer powerful techniques for developing 3D models from natural 2D imagery in an unsupervised fashion. These algorithms generally require input training views surrounding the scene of interest, which, in the case of large buildings, is typically not available across all camera elevations. In particular, the most readily available camera viewpoints at scale across most buildings are at near-ground (e.g., with mobile phones) and aerial (drones) elevations. However, due to the significant difference in viewpoint between drone and ground image sets, camera registration - a necessary step for NVS algorithms - fails. In this work we propose a method, DRAGON, that can take drone and ground building imagery as input and produce a 3D NVS model. The key insight of DRAGON is that intermediate elevation imagery may be extrapolated by an NVS algorithm itself in an iterative procedure with perceptual regularization, thereby bridging the visual feature gap between the two elevations and enabling registration. We compiled a semi-synthetic dataset of 9 large building scenes using Google Earth Studio, and quantitatively and qualitatively demonstrate that DRAGON can generate compelling renderings on this dataset compared to baseline strategies. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# Ensemble Synthesizer (ENSY) を用いたトリプモード選択モデルの改良
Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY) ( http://arxiv.org/abs/2407.01769v1 ) ライセンス: Link先を確認 | Amirhossein Parsi, Melina Jafari, Sina Sabzekar, Zahra Amini, | (参考訳) モード選択データセットの正確な分類は、交通計画と意思決定プロセスに不可欠である。
しかし、従来の分類モデルは、これらのデータセット内の少数クラスのニュアンスパターンを適切に捉えるのに苦労することが多く、亜最適精度をもたらす。
この課題に対応するために、モード選択データセットの分類精度を高めるために特別に設計された新しいデータモデルであるデータ拡張のための確率分布を利用するEnsemble Synthesizer (ENSY)を提案する。
本研究は,少数クラスのF1スコアをほぼ4倍にし,全体の分類精度を3%近く向上させることにより,顕著な有効性を示した。
本研究では,その性能を総合的に評価するために,ランダムオーバーサンプリング,SMOTE-NC,CTGANなど,様々な拡張手法との比較を行った。
実験を通じて、ENSYはこれらの手法を様々なシナリオで一貫して上回り、その堅牢性と有効性を強調している。
Accurate classification of mode choice datasets is crucial for transportation planning and decision-making processes. However, conventional classification models often struggle to adequately capture the nuanced patterns of minority classes within these datasets, leading to sub-optimal accuracy. In response to this challenge, we present Ensemble Synthesizer (ENSY) which leverages probability distribution for data augmentation, a novel data model tailored specifically for enhancing classification accuracy in mode choice datasets. In our study, ENSY demonstrates remarkable efficacy by nearly quadrupling the F1 score of minority classes and improving overall classification accuracy by nearly 3%. To assess its performance comprehensively, we compare ENSY against various augmentation techniques including Random Oversampling, SMOTE-NC, and CTGAN. Through experimentation, ENSY consistently outperforms these methods across various scenarios, underscoring its robustness and effectiveness | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# 近似最適化を用いた2元行列係数のフェデレーション
Federated Binary Matrix Factorization using Proximal Optimization ( http://arxiv.org/abs/2407.01776v1 ) ライセンス: Link先を確認 | Sebastian Dalleiger, Jilles Vreeken, Michael Kamp, | (参考訳) 二元データにおける情報的成分の同定は、生命科学、社会科学、レコメンデーションシステムを含む多くの研究分野において重要な課題である。
ブール行列分解(英: Boolean matrix factorization、BMF)は、データを効率的に分解する手法である。
現実の環境では、データはステークホルダーに分散され、BMFの直接的な適用を禁止し、プライベートのままでいなければならない。
BMFをこの状況に適応させるためには, 効率のよい勾配に基づく最適化を実現するBMFに, 最先端の連続二元行列分解緩和を構築しながら, フェデレーション学習の観点からこの問題にアプローチする。
本稿では,2次結果の正則化を行う近似演算子を用いて中央に集約された緩和成分行列のみを共有することを提案する。
フェデレーションされた近位勾配勾配勾配アルゴリズムの収束性を示し、差分プライバシー保証を提供する。
実験により,我々のアルゴリズムは,様々な実世界のデータと合成データの集合上で,最先端のBMF手法のフェデレーション・スキームにおいて,品質と有効性において優れることを示した。
Identifying informative components in binary data is an essential task in many research areas, including life sciences, social sciences, and recommendation systems. Boolean matrix factorization (BMF) is a family of methods that performs this task by efficiently factorizing the data. In real-world settings, the data is often distributed across stakeholders and required to stay private, prohibiting the straightforward application of BMF. To adapt BMF to this context, we approach the problem from a federated-learning perspective, while building on a state-of-the-art continuous binary matrix factorization relaxation to BMF that enables efficient gradient-based optimization. We propose to only share the relaxed component matrices, which are aggregated centrally using a proximal operator that regularizes for binary outcomes. We show the convergence of our federated proximal gradient descent algorithm and provide differential privacy guarantees. Our extensive empirical evaluation demonstrates that our algorithm outperforms, in terms of quality and efficacy, federation schemes of state-of-the-art BMF methods on a diverse set of real-world and synthetic data. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# スペクトルベース特徴と深層学習モデルのアンサンブルを用いたディープフェイク音声検出
Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models ( http://arxiv.org/abs/2407.01777v1 ) ライセンス: Link先を確認 | Lam Pham, Phat Lam, Truong Nguyen, Huyen Nguyen, Alexander Schindler, | (参考訳) 本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず、短い時間フーリエ変換(STFT)、定数Q変換(CQT)、ウェーブレット変換(WT)、メル、ガンマトイン、リニアフィルタ(LF)、離散コサイン変換(DCT)の3つの変換方法を用いて、様々な分光器に変換される。
スペクトルから,3つの深層学習アプローチに基づいて,幅広い分類モデルを評価する。
最初のアプローチは、提案したCNNベースラインモデル(CNNベースライン)、RNNベースラインモデル(RNNベースライン)、C-RNNモデル(C-RNNベースライン)のベースラインモデルを用いて、スペクトルを直接訓練することである。
一方、第2のアプローチはResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、SuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASsnet、RegNetといったコンピュータビジョンモデルからの学習である。
第3のアプローチでは、Whisper、Seamless、Speechbrain、Pyannoteの最先端オーディオ事前学習モデルを利用して、入力スペクトログラムからオーディオ埋め込みを抽出する。
次に、音声埋め込みを多層パーセプトロン(MLP)モデルで探索し、偽または実のオーディオサンプルを検出する。
最後に、これらのアプローチによる高性能ディープラーニングモデルは、最高のパフォーマンスを達成するために融合される。
提案したモデルをASVspoof 2019ベンチマークデータセットで評価した。
私たちのベストアンサンブルモデルは、ASVspoofing 2019チャレンジでトップパフォーマンスシステムと高い競争力を持つEER(Equal Error Rate)の0.03を達成しました。
実験結果はまた、オーディオディープフェイク検出のタスクを強化するために、選択的スペクトログラムとディープラーニングアプローチの可能性を強調した。
In this paper, we propose a deep learning based system for the task of deepfake audio detection. In particular, the draw input audio is first transformed into various spectrograms using three transformation methods of Short-time Fourier Transform (STFT), Constant-Q Transform (CQT), Wavelet Transform (WT) combined with different auditory-based filters of Mel, Gammatone, linear filters (LF), and discrete cosine transform (DCT). Given the spectrograms, we evaluate a wide range of classification models based on three deep learning approaches. The first approach is to train directly the spectrograms using our proposed baseline models of CNN-based model (CNN-baseline), RNN-based model (RNN-baseline), C-RNN model (C-RNN baseline). Meanwhile, the second approach is transfer learning from computer vision models such as ResNet-18, MobileNet-V3, EfficientNet-B0, DenseNet-121, SuffleNet-V2, Swint, Convnext-Tiny, GoogLeNet, MNASsnet, RegNet. In the third approach, we leverage the state-of-the-art audio pre-trained models of Whisper, Seamless, Speechbrain, and Pyannote to extract audio embeddings from the input spectrograms. Then, the audio embeddings are explored by a Multilayer perceptron (MLP) model to detect the fake or real audio samples. Finally, high-performance deep learning models from these approaches are fused to achieve the best performance. We evaluated our proposed models on ASVspoof 2019 benchmark dataset. Our best ensemble model achieved an Equal Error Rate (EER) of 0.03, which is highly competitive to top-performing systems in the ASVspoofing 2019 challenge. Experimental results also highlight the potential of selective spectrograms and deep learning approaches to enhance the task of audio deepfake detection. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# fVDB: スパース、大規模、高性能な空間知能のためのディープラーニングフレームワーク
fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence ( http://arxiv.org/abs/2407.01781v1 ) ライセンス: Link先を確認 | Francis Williams, Jiahui Huang, Jonathan Swartz, Gergely Klár, Vijay Thakkar, Matthew Cong, Xuanchi Ren, Ruilong Li, Clement Fuji-Tsang, Sanja Fidler, Eftychios Sifakis, Ken Museth, | (参考訳) 大規模3Dデータの深層学習のための新しいGPU最適化フレームワークfVDBを提案する。
fVDBは、畳み込み、プール、注意、レイトレーシング、メッシュなどの3D学習における共通タスクのためのディープラーニングアーキテクチャを構築するための、完全な差別化可能なプリミティブセットを提供する。
fVDBは、既存のフレームワークよりもはるかに大きな機能セット(プリミティブとオペレータ)を同時に提供します。
さらにfVDBは、以前の作業よりもはるかに大きなフットプリントと空間解像度を持つデータセットを処理でき、小さな入力に対して競合するメモリフットプリントを提供する。
この汎用性と性能の組み合わせを実現するため、fVDBはGPUアクセラレーションスパースグリッド構築、テンソルコアを用いた畳み込み、階層型デジタル微分解析アルゴリズム(HDDA)を用いた高速線トレースカーネル、ジャッジテンソルなど、いくつかの重要な革新と組み合わせた単一の新しいVDBインデックスグリッド加速度構造に依存している。
我々のフレームワークは,既存のパイプラインとの相互運用を可能にするPyTorchと完全に統合されており,大規模ポイントクラウドセグメンテーション,高分解能3D生成モデリング,非有界スケールニューラルレージアンスフィールド,大規模ポイントクラウド再構築などの代表的タスクにおいて,その効果を実証している。
We present fVDB, a novel GPU-optimized framework for deep learning on large-scale 3D data. fVDB provides a complete set of differentiable primitives to build deep learning architectures for common tasks in 3D learning such as convolution, pooling, attention, ray-tracing, meshing, etc. fVDB simultaneously provides a much larger feature set (primitives and operators) than established frameworks with no loss in efficiency: our operators match or exceed the performance of other frameworks with narrower scope. Furthermore, fVDB can process datasets with much larger footprint and spatial resolution than prior works, while providing a competitive memory footprint on small inputs. To achieve this combination of versatility and performance, fVDB relies on a single novel VDB index grid acceleration structure paired with several key innovations including GPU accelerated sparse grid construction, convolution using tensorcores, fast ray tracing kernels using a Hierarchical Digital Differential Analyzer algorithm (HDDA), and jagged tensors. Our framework is fully integrated with PyTorch enabling interoperability with existing pipelines, and we demonstrate its effectiveness on a number of representative tasks such as large-scale point-cloud segmentation, high resolution 3D generative modeling, unbounded scale Neural Radiance Fields, and large-scale point cloud reconstruction. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# 深部視覚モデルの基本的限界に対処する-空間的注意の欠如
Addressing a fundamental limitation in deep vision models: lack of spatial attention ( http://arxiv.org/abs/2407.01782v1 ) ライセンス: Link先を確認 | Ali Borji, | (参考訳) この写本の主な目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚は、さらなる処理に必要な視覚領域のみを効率的に選択するので、高速かつ低エネルギー消費につながるが、ディープビジョンモデルは画像全体を処理している。
本研究では,この問題をより広い視点から検討し,次世代のより効率的な視覚モデルを実現するための解決策を提案する。
基本的に、畳み込みとプーリング操作は、変更されたリージョンに選択的に適用され、変更マップは後続のレイヤに送信される。
このマップは、どの計算を繰り返す必要があるかを示す。
コードはhttps://github.com/aliborji/spatial_attention.comで公開されている。
The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models. Unlike human vision, which efficiently selects only the essential visual areas for further processing, leading to high speed and low energy consumption, deep vision models process the entire image. In this work, we examine this issue from a broader perspective and propose a solution that could pave the way for the next generation of more efficient vision models. Basically, convolution and pooling operations are selectively applied to altered regions, with a change map sent to subsequent layers. This map indicates which computations need to be repeated. The code is available at https://github.com/aliborji/spatial_attention. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# ミームテキストにおける説得的戦略の分析:パラフレーズ強化による言語モデルの融合
Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment ( http://arxiv.org/abs/2407.01784v1 ) ライセンス: Link先を確認 | Kota Shamanth Ramanath Nayak, Leila Kosseim, | (参考訳) 本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
近年のSemEvalタスクの一部として開発された我々のモデルは、微調整された個別言語モデル(BERT, XLM-RoBERTa, mBERT)に基づいており、ChatGPTからのパラフレーズ生成によるデータセット拡張に加えて、平均ベースのアンサンブルモデルを活用する。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
問題となるのは、ミームテキストにおける複数の説得技法の効果的な識別と分類である。
本研究の目的は,モデルトレーニング手法の精錬による検出精度の向上と,バランスの取れたトレーニングデータセットとバランスの取れていないトレーニングデータセットの影響を検討することである。
結果と議論の新規性は、パラフレーズを用いたトレーニングがモデルのパフォーマンスを向上させることにあるが、バランスの取れたトレーニングセットはより大きなバランスの取れていないトレーニングよりも有利であることが証明されている。
さらに, 種々の分布からパラフレーズを無差別に取り込み, かなりのノイズを生じさせる可能性を明らかにした。
SemEval 2024のデータからこれらの知見が得られ,提案手法によるモデルの有効性の向上が示された。
This paper describes our approach to hierarchical multi-label detection of persuasion techniques in meme texts. Our model, developed as a part of the recent SemEval task, is based on fine-tuning individual language models (BERT, XLM-RoBERTa, and mBERT) and leveraging a mean-based ensemble model in addition to dataset augmentation through paraphrase generation from ChatGPT. The scope of the study encompasses enhancing model performance through innovative training techniques and data augmentation strategies. The problem addressed is the effective identification and classification of multiple persuasive techniques in meme texts, a task complicated by the diversity and complexity of such content. The objective of the paper is to improve detection accuracy by refining model training methods and examining the impact of balanced versus unbalanced training datasets. Novelty in the results and discussion lies in the finding that training with paraphrases enhances model performance, yet a balanced training set proves more advantageous than a larger unbalanced one. Additionally, the analysis reveals the potential pitfalls of indiscriminate incorporation of paraphrases from diverse distributions, which can introduce substantial noise. Results with the SemEval 2024 data confirm these insights, demonstrating improved model efficacy with the proposed methods. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# デジタルカメラシステムにおける最適レンズ位置決め
Optimal Sample Lens Positioning in Digital Camera Systems ( http://arxiv.org/abs/2407.01789v1 ) ライセンス: Link先を確認 | Ali Karaoglu, | (参考訳) 現代のイメージングシステムでは、正確なレンズ位置決めに基づいて最適なオートフォーカス(AF)性能を達成する。
広汎な研究は、受動型、能動型、ハイブリッド型オートフォーカスシステムにまたがる理想的なレンズ位置を決定するための精製アルゴリズムを研究している。
本稿では、焦点探索におけるレンズ位置の最適化に不可欠な数学的複雑さと実践的考察を考察し、速度と精度のバランスなどのAFシステムで直面する課題に対処する。
さらに,レンズ位置の計算を焦点ブラケットを含む様々な焦点アルゴリズムに適用することができる。
提案手法は適応性とスケーラビリティを提供し、スマートフォンやDSLRから顕微鏡や工業用撮像装置まで幅広いカメラシステムに統合するのに適している。
In contemporary imaging systems, achieving optimal auto-focus (AF) performance hinges on precise lens positioning. Extensive research has delved into refining algorithms for determining the ideal lens position across passive, active, and hybrid autofocus systems. This paper explores the mathematical intricacies and practical considerations essential for optimizing lens positions during focus searches, addressing overarching challenges encountered in AF systems, such as balancing speed and accuracy. Moreover, the lens position calculations proposed herein can be applied to various focus algorithms, including focus bracketing. The proposed method offers adaptability and scalability, rendering it suitable for integration into a wide array of camera systems, ranging from smartphones and DSLRs to microscopes and industrial imaging devices. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# ラベルなしニューラルセマンティック画像合成
Label-free Neural Semantic Image Synthesis ( http://arxiv.org/abs/2407.01790v1 ) ライセンス: Link先を確認 | Jiayi Wang, Kevin Alexander Laube, Yumeng Li, Jan Hendrik Metzen, Shin-I Cheng, Julio Borges, Anna Khoreva, | (参考訳) 最近の研究は、空間条件の統合において、大規模で訓練済みのテキスト-画像拡散モデルを制御する大きな進歩を示している。
これらの進歩にもかかわらず、既存の手法では、意味的に曖昧な(例えばエッジ)か、高価な手動アノテーション(例えばセマンティックセグメンテーション)を必要とする手作り条件入力を用いて空間画像の内容を記述する。
これらの制約に対処するため,空間制御の微粒化を実現するため,ラベルフリーな拡散モデルを提案する。
本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルレイアウトは、シーンのセマンティクスと詳細な幾何学の両方を含む、望ましいイメージの豊富な記述を提供するため、有利である。
ニューラルネットワークによる画像合成により合成された画像は,高価なセマンティック・ラベル・マップを用いた画像と同等あるいは優れたセマンティック・クラスのアライメントを実現することを実験的に示す。
同時に、エッジや深さといった他のラベルのない条件付けオプションよりも、セマンティクス、インスタンス分離、オブジェクトの向きが優れている。
さらに,ニューラルレイアウト・コンディショニングによって生成された画像は,様々な知覚タスクを訓練するための実データを効果的に増強することができることを示す。
Recent work has shown great progress in integrating spatial conditioning to control large, pre-trained text-to-image diffusion models. Despite these advances, existing methods describe the spatial image content using hand-crafted conditioning inputs, which are either semantically ambiguous (e.g., edges) or require expensive manual annotations (e.g., semantic segmentation). To address these limitations, we propose a new label-free way of conditioning diffusion models to enable fine-grained spatial control. We introduce the concept of neural semantic image synthesis, which uses neural layouts extracted from pre-trained foundation models as conditioning. Neural layouts are advantageous as they provide rich descriptions of the desired image, containing both semantics and detailed geometry of the scene. We experimentally show that images synthesized via neural semantic image synthesis achieve similar or superior pixel-level alignment of semantic classes compared to those created using expensive semantic label maps. At the same time, they capture better semantics, instance separation, and object orientation than other label-free conditioning options, such as edges or depth. Moreover, we show that images generated by neural layout conditioning can effectively augment real data for training various perception tasks. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# μ-Bench:顕微鏡理解のためのビジョンランゲージベンチマーク
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding ( http://arxiv.org/abs/2407.01791v1 ) ライセンス: Link先を確認 | Alejandro Lozano, Jeffrey Nirschl, James Burgess, Sanket Rajan Gupte, Yuhui Zhang, Alyssa Unell, Serena Yeung-Levy, | (参考訳) 顕微鏡の最近の進歩により、細胞生物学や生物医学の研究において、テラバイトの画像データが急速に生成されるようになった。
視覚言語モデル(VLM)は、大規模な生物学的画像解析、研究者の効率の向上、新しい画像バイオマーカーの同定、仮説生成と科学的発見の加速のための有望なソリューションを提供する。
しかし、生体画像理解におけるVLMの認識と認識能力を評価するために、標準化された、多様な、そして大規模な視覚ベンチマークが欠如している。
このギャップに対処するために、様々な科学分野(生物学、病理学)、顕微鏡(電子、蛍光、光)、スケール(細胞内、細胞、組織)、および正常状態と異常状態の両方で22のバイオメディカルタスクを含む専門家によるベンチマークである {\mu}-Benchを紹介した。
{\mu}-Bench のバイオメディカル,病理,一般 VLM の評価を行い,以下の結果を得た。
一 現在のモデルは、微視的モダリティの識別等の基本的な業務においてさえ、あらゆるカテゴリーで苦戦している。
二 バイオメディカルデータに基づいて微調整された現行のスペシャリストモデルは、ジェネラリストモデルよりしばしば悪化する。
三 特定の顕微鏡領域の微調整は、その基礎モデルに符号化された生物医学的知識を侵食し、破滅的な忘れを生ずるおそれがある。
四 微調整済みモデルと事前訓練済みモデルとの重量補間は、バイオメディカルタスクの全般的な性能を忘れ、改善するための一つの解決策となる。
我々は、顕微鏡基礎モデルの研究と開発を加速するために、許容ライセンスの下でv.mu}-Benchをリリースする。
Recent advances in microscopy have enabled the rapid generation of terabytes of image data in cell biology and biomedical research. Vision-language models (VLMs) offer a promising solution for large-scale biological image analysis, enhancing researchers' efficiency, identifying new image biomarkers, and accelerating hypothesis generation and scientific discovery. However, there is a lack of standardized, diverse, and large-scale vision-language benchmarks to evaluate VLMs' perception and cognition capabilities in biological image understanding. To address this gap, we introduce {\mu}-Bench, an expert-curated benchmark encompassing 22 biomedical tasks across various scientific disciplines (biology, pathology), microscopy modalities (electron, fluorescence, light), scales (subcellular, cellular, tissue), and organisms in both normal and abnormal states. We evaluate state-of-the-art biomedical, pathology, and general VLMs on {\mu}-Bench and find that: i) current models struggle on all categories, even for basic tasks such as distinguishing microscopy modalities; ii) current specialist models fine-tuned on biomedical data often perform worse than generalist models; iii) fine-tuning in specific microscopy domains can cause catastrophic forgetting, eroding prior biomedical knowledge encoded in their base model. iv) weight interpolation between fine-tuned and pre-trained models offers one solution to forgetting and improves general performance across biomedical tasks. We release {\mu}-Bench under a permissive license to accelerate the research and development of microscopy foundation models. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# 条件付き確率的等角予測
Conditionally valid Probabilistic Conformal Prediction ( http://arxiv.org/abs/2407.01794v1 ) ライセンス: Link先を確認 | Vincent Plassier, Alexander Fishkov, Maxim Panov, Eric Moulines, | (参考訳) 我々は、共形法の柔軟性と条件分布$P_{Y \mid X}$の見積を組み合わせた予測セットを作成する新しい方法を開発した。
共形化量子レグレッションや確率的共形予測のような既存のほとんどの手法は、限界被覆保証しか提供していない。
本手法は,多くの実用化に不可欠である条件付きカバレッジを実現するために,これらの手法を拡張している。
データ分布の仮定なしでは正確な条件保証は不可能であるが、条件分布の利用可能な推定値の品質に明示的に依存する漸近的でない境界を提供する。
我々の信頼セットはデータの局所構造に高度に適応しており、高いヘテロスケダスト性状況において特に有用である。
提案手法の有効性を広範囲なシミュレーションにより実証し,既存の手法を条件付きカバレッジで上回り,幅広いアプリケーションにおける統計的推論の信頼性を向上させることを示す。
We develop a new method for creating prediction sets that combines the flexibility of conformal methods with an estimate of the conditional distribution $P_{Y \mid X}$. Most existing methods, such as conformalized quantile regression and probabilistic conformal prediction, only offer marginal coverage guarantees. Our approach extends these methods to achieve conditional coverage, which is essential for many practical applications. While exact conditional guarantees are impossible without assumptions on the data distribution, we provide non-asymptotic bounds that explicitly depend on the quality of the available estimate of the conditional distribution. Our confidence sets are highly adaptive to the local structure of the data, making them particularly useful in high heteroskedasticity situations. We demonstrate the effectiveness of our approach through extensive simulations, showing that it outperforms existing methods in terms of conditional coverage and improves the reliability of statistical inference in a wide range of applications. | 翻訳日:2024-07-03 19:23:01 公開日:2024-07-01 |
# 参加者の名誉 - オンラインフェアディビジョンのためのNo-Regret Learning
Honor Among Bandits: No-Regret Learning for Online Fair Division ( http://arxiv.org/abs/2407.01795v1 ) ライセンス: Link先を確認 | Ariel D. Procaccia, Benjamin Schiffer, Shirley Zhang, | (参考訳) 本研究では, 商品の種類が有限であり, プレイヤーの値が未知の方法で分布から引き出される場合, プレイヤーに対する不特定商品のオンライン公平分割の問題点を考察する。
我々の目標は、期待通りに商品を配分する社会福祉を最大化することです。
割り当て時にアイテムに対するプレイヤーの値が不明な場合、この問題は、各プレイヤーの商品に対して、各プレイヤーの値にアームが存在するような、(確率的な)マルチアームバンディットの変種に還元されることが示される。
各ステップで、次のアイテムをどのように割り当てるかを決定するアーム上の分布を選択します。
この問題に対する公平性制約の2つのセットを考察する: 期待の自由度と期待の比例性である。
我々の主な成果は、公正さの制約を維持しながら、$\tilde{O}(T^{2/3})$ regret を達成する探索-then-commitアルゴリズムの設計である。
この結果は、制限されたアクション空間にもかかわらず、学習の速度を速くする公平な分割の制約に基本となる固有の性質に依存している。
We consider the problem of online fair division of indivisible goods to players when there are a finite number of types of goods and player values are drawn from distributions with unknown means. Our goal is to maximize social welfare subject to allocating the goods fairly in expectation. When a player's value for an item is unknown at the time of allocation, we show that this problem reduces to a variant of (stochastic) multi-armed bandits, where there exists an arm for each player's value for each type of good. At each time step, we choose a distribution over arms which determines how the next item is allocated. We consider two sets of fairness constraints for this problem: envy-freeness in expectation and proportionality in expectation. Our main result is the design of an explore-then-commit algorithm that achieves $\tilde{O}(T^{2/3})$ regret while maintaining either fairness constraint. This result relies on unique properties fundamental to fair-division constraints that allow faster rates of learning, despite the restricted action space. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 接地全文:インターリーブ参照クレーム生成による検索拡張LDMの改善
Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation ( http://arxiv.org/abs/2407.01796v1 ) ライセンス: Link先を確認 | Sirui Xia, Xintao Wang, Jiaqing Liang, Yifei Zhang, Weikang Zhou, Jiaji Deng, Fei Yu, Yanghua Xiao, | (参考訳) Retrieval-Augmented Generation (RAG) は、知識集約的なタスクにおいて、Large Language Models (LLM) を強化するために広く採用されている。
近年,Attributed Text Generation (ATG) が注目され,RAG におけるモデル応答のサポートや LLM 生成コンテンツの信頼性の向上,検証の容易化が図られている。
従来の方法は、主に粗粒度属性、パスレベルの参照へのリンク、または段落レベルの引用を提供する。
しかし、これらの手法は検証性に乏しく、事実チェックに一定の時間的コストを必要とする。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
従来の粗粒度属性とは異なり、ReClaimでは、ロングフォームな質問応答タスクにおいて、各回答文に文レベルのきめ細かい引用を追加することができる。
実験では,様々な学習手法や推論手法,複数のLLMについて検討し,本手法の有効性を検証した。
Retrieval-Augmented Generation (RAG) has been widely adopted to enhance Large Language Models (LLMs) in knowledge-intensive tasks. Recently, Attributed Text Generation (ATG) has attracted growing attention, which provides citations to support the model's responses in RAG, so as to enhance the credibility of LLM-generated content and facilitate verification. Prior methods mainly adopt coarse-grained attributions, linking to passage-level references or providing paragraph-level citations. However, these methods still fall short in verifiability and require certain time costs for fact checking. This paper proposes a fine-grained ATG method called ReClaim(Refer & Claim), which alternates the generation of references and answers step by step. Unlike traditional coarse-grained attribution, ReClaim allows the model to add sentence-level fine-grained citations to each answer sentence in long-form question-answering tasks. Our experiments encompass various training and inference methods and multiple LLMs, verifying the effectiveness of our approach. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 強化学習における正規化と効果的な学習率
Normalization and effective learning rates in reinforcement learning ( http://arxiv.org/abs/2407.01800v1 ) ライセンス: Link先を確認 | Clare Lyle, Zeyu Zheng, Khimya Khetarpal, James Martens, Hado van Hasselt, Razvan Pascanu, Will Dabney, | (参考訳) 正規化レイヤは最近、深層強化学習と連続学習文学のルネッサンスを経験しており、損失景観条件の改善や過大評価バイアスとの闘いなど、様々な利点を浮き彫りにしている。
しかし、正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらす。
これは、学習の時間スケールに対して、結果の効果的な学習率スケジュールがほぼゼロに近づきすぎるような連続的な学習環境において問題となる。
そこで本研究では,正規化レイヤーの挿入と重みプロジェクションを併用し,効果的な学習率をトレーニング中も一定に保ちながら,学習率を明確化することを提案する。
この技術は、深層強化学習における学習率スケジュールをよりよく理解するための強力な分析ツールであり、アーケード学習環境の単一タスクおよび逐次変異とともに、合成可塑性損失ベンチマークにおける非定常性に対する堅牢性を改善する手段である。
また,本手法はResNetsやTransformerなどの一般的なアーキテクチャにも容易に適用可能であることを示す。
Normalization layers have recently experienced a renaissance in the deep reinforcement learning and continual learning literature, with several works highlighting diverse benefits such as improving loss landscape conditioning and combatting overestimation bias. However, normalization brings with it a subtle but important side effect: an equivalence between growth in the norm of the network parameters and decay in the effective learning rate. This becomes problematic in continual learning settings, where the resulting effective learning rate schedule may decay to near zero too quickly relative to the timescale of the learning problem. We propose to make the learning rate schedule explicit with a simple re-parameterization which we call Normalize-and-Project (NaP), which couples the insertion of normalization layers with weight projection, ensuring that the effective learning rate remains constant throughout training. This technique reveals itself as a powerful analytical tool to better understand learning rate schedules in deep reinforcement learning, and as a means of improving robustness to nonstationarity in synthetic plasticity loss benchmarks along with both the single-task and sequential variants of the Arcade Learning Environment. We also show that our approach can be easily applied to popular architectures such as ResNets and transformers while recovering and in some cases even slightly improving the performance of the base model in common stationary benchmarks. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# DCoM: すべての学習者のためのアクティブラーニング
DCoM: Active Learning for All Learners ( http://arxiv.org/abs/2407.01804v1 ) ライセンス: Link先を確認 | Inbal Mishal, Daphna Weinshall, | (参考訳) Deep Active Learning (AL)技術は、深層モデルのトレーニングに要するアノテーションコストを削減するのに有効である。
しかしながら、低予算シナリオと高予算シナリオにおけるそれらの有効性は異なる戦略を必要とするように思われ、様々な予算シナリオで最適な結果を達成することは、依然として課題である。
本研究では,このギャップを埋めるための新しいアクティブラーニング手法であるDynamic Coverage & Margin Mix (DCoM)を紹介する。
既存の戦略とは異なり、DCoMは現在のモデルの能力を考慮して戦略を動的に調整する。
コンピュータビジョンタスクの挑戦を含む多様なデータセットに関する理論的分析と経験的評価を通じて、DCoMがコールドスタート問題を克服し、異なる予算制約で結果を継続的に改善する能力を示す。
このように、DCoMは低予算と高予算の両方で最先端の性能を達成する。
Deep Active Learning (AL) techniques can be effective in reducing annotation costs for training deep models. However, their effectiveness in low- and high-budget scenarios seems to require different strategies, and achieving optimal results across varying budget scenarios remains a challenge. In this study, we introduce Dynamic Coverage & Margin mix (DCoM), a novel active learning approach designed to bridge this gap. Unlike existing strategies, DCoM dynamically adjusts its strategy, considering the competence of the current model. Through theoretical analysis and empirical evaluations on diverse datasets, including challenging computer vision tasks, we demonstrate DCoM's ability to overcome the cold start problem and consistently improve results across different budgetary constraints. Thus DCoM achieves state-of-the-art performance in both low- and high-budget regimes. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 光電素子の熱力学
Thermodynamics of photoelectric devices ( http://arxiv.org/abs/2407.01805v1 ) ライセンス: Link先を確認 | Samuel L. Jacob, Artur M. Lacerda, Yonatan Dubi, John Goold, | (参考訳) 太陽電池や光伝導体として機能する光デバイスの非平衡定常熱力学を接合の非対称性の度合いに応じて検討する。
熱力学的効率は1つの性能係数で表される。
最小限のモデルを用いて、電子反発エネルギーが接合の輸送ギャップと一致する場合、光導体は最大応答、性能、信号-雑音比を示す一方、同じ状態は太陽電池にとって常に有害であることを示す。
それでも、電子の反発は、輸送ギャップより下にある場合、太陽電池にとって有益である。
私たちの研究は、相互作用の存在下での熱力学的に効率的なフォトデバイスの設計原理に重要な光を当てています。
We study the nonequilibrium steady state thermodynamics of a photodevice which can operate as a solar cell or a photoconductor, depending on the degree of asymmetry of the junction. The thermodynamic efficiency is captured by a single coefficient of performance. Using a minimal model, we show that when the electron repulsion energy matches the transport gap of the junction, the photoconductor displays maximal response, performance and signal-to-noise ratio, while the same regime is always detrimental for the solar cell. Nevertheless, we find that electron repulsion is beneficial for the solar cell if it lies below the transport gap. Our work sheds important light on design principles for thermodynamically efficient photodevices in the presence of interactions. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# Freeview Sketching:ビュー対応の細粒度スケッチベース画像検索
Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval ( http://arxiv.org/abs/2407.01810v1 ) ライセンス: Link先を確認 | Aneeshan Sain, Pinaki Nath Chowdhury, Subhadeep Koley, Ayan Kumar Bhunia, Yi-Zhe Song, | (参考訳) 本稿では,FG-SBIR(Fen-Grained Sketch-Based Image Retrieval)の複雑なダイナミクスを,スケッチ作成時の視点の選択という,重要で見過ごされがちな側面に対処することによって掘り下げる。
広範なデータセットを通じて多様なビューをシームレスに処理するフォトシステムとは異なり、スケッチシステムは固定された視点から収集された限られたデータを持つが、課題に直面している。
事前訓練されたFG-SBIRモデルを用いたパイロットスタディでは,クエリスケッチがターゲットインスタンスと異なる場合のシステムの苦労を強調した。
興味深いことに、質問票はユーザーが自主性を欲しがることを示しているが、その割合はビュー固有の検索を好んでいる。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
データセットの制限を克服するために、最初のコントリビューションでは、3Dオブジェクトのマルチビュー2Dプロジェクションを活用し、モーダルビューの認識を浸透させます。
第2のコントリビューションでは、アンタングルメントを通じてカスタマイズ可能なクロスモーダル機能を導入し、無駄なモード切り替えを可能にしている。
標準データセットに対する大規模な実験により,本手法の有効性が検証された。
In this paper, we delve into the intricate dynamics of Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) by addressing a critical yet overlooked aspect -- the choice of viewpoint during sketch creation. Unlike photo systems that seamlessly handle diverse views through extensive datasets, sketch systems, with limited data collected from fixed perspectives, face challenges. Our pilot study, employing a pre-trained FG-SBIR model, highlights the system's struggle when query-sketches differ in viewpoint from target instances. Interestingly, a questionnaire however shows users desire autonomy, with a significant percentage favouring view-specific retrieval. To reconcile this, we advocate for a view-aware system, seamlessly accommodating both view-agnostic and view-specific tasks. Overcoming dataset limitations, our first contribution leverages multi-view 2D projections of 3D objects, instilling cross-modal view awareness. The second contribution introduces a customisable cross-modal feature through disentanglement, allowing effortless mode switching. Extensive experiments on standard datasets validate the effectiveness of our method. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 自律型UAVエージェントによるアクティブ・ヒューマン・ポース推定
Active Human Pose Estimation via an Autonomous UAV Agent ( http://arxiv.org/abs/2407.01811v1 ) ライセンス: Link先を確認 | Jingxi Chen, Botao He, Chahat Deep Singh, Cornelia Fermuller, Yiannis Aloimonos, | (参考訳) アクティブなオブザーバのコアアクティビティのひとつは、"better"の定義がタスク依存であるシーンの"better"ビューを確保することだ。
本稿では,人の行動を捉えた映像から人間のポーズ推定を行うタスクに焦点を当てる。
シーン内の自己閉塞は、正確な人間のポーズ推定を複雑にしたり、防いだりすることができる。
これを解決するためには、ビューを明確にするために、カメラを新しいベタージュポイントに移動させることが必要であり、2次元の人間のポーズ推定を改善する。
本稿では、改善された視点を達成する過程を定式化する。
提案手法は,NeRFをベースとしたDrone-Viewデータ生成フレームワーク,カメラビューエラー推定のためのOn-Drone Network,カメラビューの予測誤差に基づいてカメラを再配置する実行可能なモーションプランを設計するためのCombined Plannerの3つの主要コンポーネントから構成される。
データ生成フレームワークは、NeRFベースの手法を使用して、人間のポーズとアクティビティの包括的なデータセットを生成し、さまざまなシナリオにおけるドローンの適応性を高める。
Camera View Error Estimation Network(カメラビューエラー推定ネットワーク)は、現在の人間のポーズを評価し、ドローンにとって最も有望な次の視野角を特定するように設計されている。
最後に、統合プランナーは、ドローンの物理的および環境的制約を考慮して、これらの角度を取り入れ、安全で効果的な飛行経路をナビゲートする効率的なアルゴリズムを使用する。
このシステムは、自律型UAVエージェントのアクティブな2次元ポーズ推定において、自律型UAVの安全性と効率を向上し、自律型人間のポーズ推定の性能を向上させることにより、航空撮影における大きな可能性を提供する。
One of the core activities of an active observer involves moving to secure a "better" view of the scene, where the definition of "better" is task-dependent. This paper focuses on the task of human pose estimation from videos capturing a person's activity. Self-occlusions within the scene can complicate or even prevent accurate human pose estimation. To address this, relocating the camera to a new vantage point is necessary to clarify the view, thereby improving 2D human pose estimation. This paper formalizes the process of achieving an improved viewpoint. Our proposed solution to this challenge comprises three main components: a NeRF-based Drone-View Data Generation Framework, an On-Drone Network for Camera View Error Estimation, and a Combined Planner for devising a feasible motion plan to reposition the camera based on the predicted errors for camera views. The Data Generation Framework utilizes NeRF-based methods to generate a comprehensive dataset of human poses and activities, enhancing the drone's adaptability in various scenarios. The Camera View Error Estimation Network is designed to evaluate the current human pose and identify the most promising next viewing angles for the drone, ensuring a reliable and precise pose estimation from those angles. Finally, the combined planner incorporates these angles while considering the drone's physical and environmental limitations, employing efficient algorithms to navigate safe and effective flight paths. This system represents a significant advancement in active 2D human pose estimation for an autonomous UAV agent, offering substantial potential for applications in aerial cinematography by improving the performance of autonomous human pose estimation and maintaining the operational safety and efficiency of UAVs. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 等変拡散政策
Equivariant Diffusion Policy ( http://arxiv.org/abs/2407.01812v1 ) ライセンス: Link先を確認 | Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt, | (参考訳) 近年の研究では, 行動クローニングにおける実演データから生じるマルチモーダル分布を学習する上で, 拡散モデルが有効な手法であることが示されている。
しかし、このアプローチの欠点は、明示的なポリシーを学ぶよりもはるかに複雑である、妄想関数を学ぶ必要があることである。
本研究では,ドメイン対称性を利用した新しい拡散政策学習手法であるEquivariant Diffusion Policyを提案する。
理論的には、フル6-DoF制御の$\mathrm{SO}(2)$対称性を解析し、拡散モデルが$\mathrm{SO}(2)$-equivariantであるときに特徴付ける。
さらに、MimicGenの12のシミュレーションタスクのセット上で実験的に評価し、平均21.9%の精度で成功率を得ることを示す。
また,本手法を実世界のシステム上で評価し,比較的少数のトレーニングサンプルを用いて効果的な政策を学習できることを示し,ベースライン拡散政策は学習できないことを示した。
Recent work has shown diffusion models are an effective approach to learning the multimodal distributions arising from demonstration data in behavior cloning. However, a drawback of this approach is the need to learn a denoising function, which is significantly more complex than learning an explicit policy. In this work, we propose Equivariant Diffusion Policy, a novel diffusion policy learning method that leverages domain symmetries to obtain better sample efficiency and generalization in the denoising function. We theoretically analyze the $\mathrm{SO}(2)$ symmetry of full 6-DoF control and characterize when a diffusion model is $\mathrm{SO}(2)$-equivariant. We furthermore evaluate the method empirically on a set of 12 simulation tasks in MimicGen, and show that it obtains a success rate that is, on average, 21.9% higher than the baseline Diffusion Policy. We also evaluate the method on a real-world system to show that effective policies can be learned with relatively few training samples, whereas the baseline Diffusion Policy cannot. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 放送警察における人種とプライバシ
Race and Privacy in Broadcast Police Communications ( http://arxiv.org/abs/2407.01817v1 ) ライセンス: Link先を確認 | Pranav Narayanan Venkit, Christopher Graziul, Miranda Ardith Goodman, Samantha Nicole Kenny, Shomir Wilson, | (参考訳) 無線は現代の警察署の運営に不可欠であり、共同通信技術と社会技術システムの両方として機能する。
しかし、その使用状況や個人のプライバシーとの関係、警察における人種の役割について、これまでの研究はほとんど調査されていない。
ケーススタディとして,シカゴ市警察(CPD)の放送警察通信(BPC)を用いた法執行官(LEO)の活動の調整について検討した。
CPDオペレーションに関連する80,775時間のBPCアーカイブから、2018年8月10日午前9時から午後5時にかけて放送されたラジオ放送のテキストを、黒人1人、白人1人、ヒスパニック系1人(24時間の音声)で分析し、3つの研究課題を考察した。
2)BPCに記載されている性別・人種・民族・年齢はいつ頃ですか。
(3)BPCには、どの程度の機密情報が含まれており、この慣行によって最も危険にさらされているか。
(4) 大規模言語モデル(LLM)がこのリスクをどの程度高めることができるのか?
警察がBPCで用いている語彙や言論行為について,地域住民への個人的特徴の言及,BPC上で共有される個人情報,およびそれが引き起こすプライバシー上の懸念について検討する。
分析
(a)シカゴ市の警察専門家は、状況にかかわらず、市民の黒人に不当な注意を払っている。
b)性別・人種・民族・年齢などの社会デミノグラフィー的特徴は、主にBPCでイベント情報について言及され、
(c)不釣り合いな注意は、一般市民の黒人に不釣り合いなプライバシーリスクをもたらす。
Radios are essential for the operations of modern police departments, and they function as both a collaborative communication technology and a sociotechnical system. However, little prior research has examined their usage or their connections to individual privacy and the role of race in policing, two growing topics of concern in the US. As a case study, we examine the Chicago Police Department's (CPD's) use of broadcast police communications (BPC) to coordinate the activity of law enforcement officers (LEOs) in the city. From a recently assembled archive of 80,775 hours of BPC associated with CPD operations, we analyze text transcripts of radio transmissions broadcast 9:00 AM to 5:00 PM on August 10th, 2018 in one majority Black, one majority white, and one majority Hispanic area of the city (24 hours of audio) to explore three research questions: (1) Do BPC reflect reported racial disparities in policing? (2) How and when is gender, race/ethnicity, and age mentioned in BPC? (3) To what extent do BPC include sensitive information, and who is put at most risk by this practice? (4) To what extent can large language models (LLMs) heighten this risk? We explore the vocabulary and speech acts used by police in BPC, comparing mentions of personal characteristics to local demographics, the personal information shared over BPC, and the privacy concerns that it poses. Analysis indicates (a) policing professionals in the city of Chicago exhibit disproportionate attention to Black members of the public regardless of context, (b) sociodemographic characteristics like gender, race/ethnicity, and age are primarily mentioned in BPC about event information, and (c) disproportionate attention introduces disproportionate privacy risks for Black members of the public. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# メタラーニングによる大規模無線システムの最適化
Meta-Learning Based Optimization for Large Scale Wireless Systems ( http://arxiv.org/abs/2407.01823v1 ) ライセンス: Link先を確認 | Rafael Cerna Loli, Bruno Clerckx, | (参考訳) 無線システムの最適化アルゴリズムは、その性能と効率を改善する上で、基本的な役割を果たす。
しかし,従来の最適化アルゴリズムの複雑性は,無線システムにおける送信アンテナ数や通信ユーザ数の増加とともに指数関数的に増加することが知られている。
したがって、大規模なシステムでは、これらの最適化アルゴリズムの天文学的に大きな複雑さは、それらの使用を禁止し、最適化された条件下での大規模無線システムの性能評価を妨げている。
この制限を克服するため、この研究は教師なしメタラーニングに基づくアプローチを用いて、複雑さを大幅に低減して非凸最適化を直接実行することを提案する。
提案したメタラーニングベースソリューションの有効性を実証するため,次の3つの新興6G技術の総和レート(SR)最大化問題として,階層的レート分割多重アクセス(H-RSMA),統合センシング通信(ISAC),対角的再構成可能な知的表面(BD-RIS)を提案する。
数値的な結果から,提案したメタラーニングに基づく最適化フレームワークは,性能の最適化に成功し,また,検討された3つの6G技術に対して,大規模システムにおける運用の未知の側面を明らかにすることができることを示した。
Optimization algorithms for wireless systems play a fundamental role in improving their performance and efficiency. However, it is known that the complexity of conventional optimization algorithms in the literature often exponentially increases with the number of transmit antennas and communication users in the wireless system. Therefore, in the large scale regime, the astronomically large complexity of these optimization algorithms prohibits their use and prevents assessing large scale wireless systems performance under optimized conditions. To overcome this limitation, this work proposes instead the use of an unsupervised meta-learning based approach to directly perform non-convex optimization at significantly reduced complexity. To demonstrate the effectiveness of the proposed meta-learning based solution, the sum-rate (SR) maximization problem for the following three emerging 6G technologies is contemplated: hierarchical rate-splitting multiple access (H-RSMA), integrated sensing and communication (ISAC), and beyond-diagonal reconfigurable intelligent surfaces (BD-RIS). Through numerical results, it is demonstrated that the proposed meta-learning based optimization framework is able to successfully optimize the performance and also reveal unknown aspects of the operation in the large scale regime for the considered three 6G technologies. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 共感的接地:多モーダル相互作用と対話エージェントを用いた大規模言語モデルによる探索
Empathic Grounding: Explorations using Multimodal Interaction and Large Language Models with Conversational Agents ( http://arxiv.org/abs/2407.01824v1 ) ライセンス: Link先を確認 | Mehdi Arjmand, Farnaz Nouraei, Ian Steenstra, Timothy Bickmore, | (参考訳) 本稿では,会話エージェントにおける「共感的接地」の概念を,クラークの会話における接地概念化の延長として紹介する。
共感的接地は、話者の感情が前向きに置かれるたびに必要であり、命題的および感情的な理解の両方を伝達することによって、その接地プロセスをより効率的で信頼性の高いものにすることができる。
感情の話者表現と聞き手の共感的接地は、表情や他の非言語表示を含む多モーダルである。
したがって、エンボディエージェントの共感的接地モデルは、自然かつ効率的なコミュニケーションを促進するために多モーダルでなければならない。
本稿では,大規模な言語モデルを用いたリスニングエージェントに対して,入力されたユーザ音声と表情からマルチモーダルグラウンド動作を生成するマルチモーダルモデルについて述べる。
また,過去の痛みのエピソードをヒューマノイドロボットがユーザに対してインタビューし,ロボットの共感に対する認知度を評価させるという,共感的接地に対するアプローチを評価するためのテストベッドについても述べる。
提案モデルと, 対象物間実験において, 非有効接地キューのみを生成するモデルとの比較を行った。
共感的基盤は共感、理解、感情的知性、信頼の認知を増大させる。
本研究は,会話エージェントに対する適切な接地行動を生み出す上での,感情意識とマルチモーダリティの役割を強調した。
We introduce the concept of "empathic grounding" in conversational agents as an extension of Clark's conceptualization of grounding in conversation in which the grounding criterion includes listener empathy for the speaker's affective state. Empathic grounding is generally required whenever the speaker's emotions are foregrounded and can make the grounding process more efficient and reliable by communicating both propositional and affective understanding. Both speaker expressions of affect and listener empathic grounding can be multimodal, including facial expressions and other nonverbal displays. Thus, models of empathic grounding for embodied agents should be multimodal to facilitate natural and efficient communication. We describe a multimodal model that takes as input user speech and facial expression to generate multimodal grounding moves for a listening agent using a large language model. We also describe a testbed to evaluate approaches to empathic grounding, in which a humanoid robot interviews a user about a past episode of pain and then has the user rate their perception of the robot's empathy. We compare our proposed model to one that only generates non-affective grounding cues in a between-subjects experiment. Findings demonstrate that empathic grounding increases user perceptions of empathy, understanding, emotional intelligence, and trust. Our work highlights the role of emotion awareness and multimodality in generating appropriate grounding moves for conversational agents. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# ディープラーニングにおける最適化推定の実証実験
Empirical Tests of Optimization Assumptions in Deep Learning ( http://arxiv.org/abs/2407.01825v1 ) ライセンス: Link先を確認 | Hoang Tran, Qinzi Zhang, Ashok Cutkosky, | (参考訳) ディープラーニングで使用される最適化アルゴリズムの理論的理解と,その実践的性能との間には,大きなギャップがある。
理論的な発展は通常、様々な仮定の下で収束保証を証明することに焦点を当てる。
理論と実践のギャップは、そのような仮定の下で定理を証明できなかったことや、仮定が現実を反映していないために生じるかもしれない。
本稿では,これらの仮定が現代的な最適化アルゴリズムを説明することができる程度を,理論解析において制御しなければならない重要な量を正確に追跡する新しい経験的指標を開発することによって,慎重に測定する。
テストされたすべての仮定(ヘシアン上の境界に基づく典型的な現代の仮定を含む)は、確実に最適化性能を捉えることができません。
このことは、理論解析に使用される解析的仮定の新しい実証的検証の必要性を強調している。
There is a significant gap between our theoretical understanding of optimization algorithms used in deep learning and their practical performance. Theoretical development usually focuses on proving convergence guarantees under a variety of different assumptions, which are themselves often chosen based on a rough combination of intuitive match to practice and analytical convenience. The theory/practice gap may then arise because of the failure to prove a theorem under such assumptions, or because the assumptions do not reflect reality. In this paper, we carefully measure the degree to which these assumptions are capable of explaining modern optimization algorithms by developing new empirical metrics that closely track the key quantities that must be controlled in theoretical analysis. All of our tested assumptions (including typical modern assumptions based on bounds on the Hessian) fail to reliably capture optimization performance. This highlights a need for new empirical verification of analytical assumptions used in theoretical analysis. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# 完全電荷量子電池における古典的エネルギー密度の最大化
Exceeding the maximum classical energy density in fully charged quantum batteries ( http://arxiv.org/abs/2407.01832v1 ) ライセンス: Link先を確認 | Masahiro Hotta, Kazuki Ikeda, | (参考訳) 量子電池は、エネルギー貯蔵能力の大幅な向上を期待されている。
古典電池では、各サブシステムのエネルギー密度は最大値に達し、$E_C$と表される。
この限界を量子エネルギーテレポータオン(QET)プロトコルによって量子電池で超えることができ、サブシステムにおけるエネルギー密度が$E_C$を超えることを実証する。
提案プロトコルは効率を向上し,量子コンピュータにおける実験的複雑性を低減し,ローカル操作と古典通信(LOCC)による瞬時エネルギー充電を可能にする。
量子エンタングルメントを活用することで、このプロトコルは量子エネルギーストレージシステムを大幅に改善し、量子コンピューティングと新しい技術応用の進歩を約束する。
この研究は、量子エネルギーの貯蔵と転送に革命を起こすための重要なステップである。
Quantum batteries are anticipated to achieve significant advancements in energy storage capacity. In classical batteries, the energy density at each subsystem reaches its maximum value, denoted as $E_C$, which is determined by dividing the maximum energy by the number of subsystems. We demonstrate that this limit can be surpassed in quantum batteries by protocols of Quantum Energy Teleportaion (QET), allowing for the energy density at a subsystem to exceed the value of $E_C$. Our protocol offers enhanced efficiency, reduces experimental complexity on quantum computers, and enables instantaneous energy charging through Local Operations and Classical Communication (LOCC). Leveraging quantum entanglement, this protocol significantly improves quantum energy storage systems, promising advances in quantum computing and new technological applications. This work represents a crucial step towards revolutionizing quantum energy storage and transfer. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# オフザシェルフ影響関連つぶやき分類器を用いた名前と難易度における国籍バイアスの検討
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers ( http://arxiv.org/abs/2407.01834v1 ) ライセンス: Link先を確認 | Valentin Barriere, Sebastian Cifuentes, | (参考訳) 本稿では,各国の名前を冠したエンティティに関連付けられたバイアスを定量化する手法を提案する。
バイアス検出のためにテンプレートや特定のデータセットに頼るのではなく、ターゲットドメインデータに小さな摂動を持つ対実例を作成します。
Twitterデータを用いた感情、感情、憎悪スピーチ、攻撃的テキストなどの主観的分析に広く用いられている分類器について,研究対象の国で話されている言語に関する肯定的バイアスについて検討した。
特に、ある文中の特定の国名の存在は、ヘイトスピーチの検出の最大23倍、怒りなどの否定的な感情の予測の最大60倍に、予測に強く影響を与える。
これらのバイアスは、事前学習された言語モデル(PLM)のトレーニングデータに由来すると仮定し、英語やバスク語、マオリ語のような未知の言語における影響予測とPLMの確率の相関関係を見出した。
さらに,これらの相関関係を同一文から追従して構文成分を除去し,事前学習データの影響が英語を話す国名にとってより重要であることを示唆する興味深い結果を得た。
我々の匿名コードは[https://anonymous.4open.science/r/biases_ppl-576B/README.md](ここで利用可能)です。
In this paper, we apply a method to quantify biases associated with named entities from various countries. We create counterfactual examples with small perturbations on target-domain data instead of relying on templates or specific datasets for bias detection. On widely used classifiers for subjectivity analysis, including sentiment, emotion, hate speech, and offensive text using Twitter data, our results demonstrate positive biases related to the language spoken in a country across all classifiers studied. Notably, the presence of certain country names in a sentence can strongly influence predictions, up to a 23\% change in hate speech detection and up to a 60\% change in the prediction of negative emotions such as anger. We hypothesize that these biases stem from the training data of pre-trained language models (PLMs) and find correlations between affect predictions and PLMs likelihood in English and unknown languages like Basque and Maori, revealing distinct patterns with exacerbate correlations. Further, we followed these correlations in-between counterfactual examples from a same sentence to remove the syntactical component, uncovering interesting results suggesting the impact of the pre-training data was more important for English-speaking-country names. Our anonymized code is [https://anonymous.4open.science/r/biases_ppl-576B/README.md](available here). | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# スイッチするかどうか? オフライン強化学習におけるバランスの取れたポリシースイッチング
To Switch or Not to Switch? Balanced Policy Switching in Offline Reinforcement Learning ( http://arxiv.org/abs/2407.01837v1 ) ライセンス: Link先を確認 | Tao Ma, Xuzhi Yang, Zoltan Szabo, | (参考訳) 強化学習(RL) -- 収集した長期累積報酬を最大化する最適な行動(ポリシーとも呼ばれる)を見つける -- は、多数の成功したアプリケーションで機械学習において最も影響力のあるアプローチである。しかし、いくつかの決定問題では、政策変更 -- 現行のポリシーから新しいものに変更 -- が直面する可能性に直面している。これは、現在適用されている教育技術の変化、コンピューティングクラスタの近代化、新しいWebページデザインの導入など、未解決のオンラインインタラクションの可用性のない歴史的なデータの使用に制限されている。
このオフライン学習シナリオの必然的な重要性にもかかわらず、私たちの知る限りでは、ゲインと柔軟性と原則的な方法で切り替えるコストのバランスをとるという重要な問題に対処するための努力はほとんど行われていません。
最適輸送領域からアイデアを活用することで、オフラインRLにおけるポリシースイッチングの体系的研究を初期化する。
提案するスイッチング式に対する基本特性を確立し,Net Actor-Criticアルゴリズムを設計する。
数値実験により、ギムナジウムの複数のベンチマークに対するアプローチの有効性が示された。
Reinforcement learning (RL) -- finding the optimal behaviour (also referred to as policy) maximizing the collected long-term cumulative reward -- is among the most influential approaches in machine learning with a large number of successful applications. In several decision problems, however, one faces the possibility of policy switching -- changing from the current policy to a new one -- which incurs a non-negligible cost (examples include the shifting of the currently applied educational technology, modernization of a computing cluster, and the introduction of a new webpage design), and in the decision one is limited to using historical data without the availability for further online interaction. Despite the inevitable importance of this offline learning scenario, to our best knowledge, very little effort has been made to tackle the key problem of balancing between the gain and the cost of switching in a flexible and principled way. Leveraging ideas from the area of optimal transport, we initialize the systematic study of policy switching in offline RL. We establish fundamental properties and design a Net Actor-Critic algorithm for the proposed novel switching formulation. Numerical experiments demonstrate the efficiency of our approach on multiple benchmarks of the Gymnasium. | 翻訳日:2024-07-03 17:23:15 公開日:2024-07-01 |
# CLIP the Divergence:Language-Guided Unsupervised Domain Adaptation
CLIP the Divergence: Language-guided Unsupervised Domain Adaptation ( http://arxiv.org/abs/2407.01842v1 ) ライセンス: Link先を確認 | Jinjing Zhu, Yucheng Chen, Lin Wang, | (参考訳) Unsupervised Domain Adaption (UDA) は、ラベル付きソースとラベルなしターゲットドメインの相違に対処するための一般的なソリューションとして登場した。
近年、CLIPのような大規模な視覚言語モデルを活用するためにいくつかの研究が試みられ、挑戦的なUDAタスクに対処するための微調整やプロンプトを学習している。
本稿では、CLIPを直接活用してドメインの分散を計測し、CLIP-Divと呼ばれる新しい言語誘導アプローチを提案する。
私たちのキーとなるアイデアは、CLIPを活用できるようにすることです。
1)取得した領域に依存しない分布を介して領域のばらつきを測定する。
2) 対象の擬似ラベルを言語指導で校正し、ドメインギャップを効果的に減らし、UDAモデルの一般化能力を向上させる。
特に、我々の主要な技術的貢献は、2つの新しい言語誘導領域のばらつき測定損失、すなわち絶対的なばらつきと相対的なばらつきである。
これらの損失項は、ソースとターゲットドメインの分布をCLIPから派生したドメインに依存しない分布と整合させるための正確なガイドラインを提供する。
さらに,対象の擬似ラベルを校正するための言語誘導型擬似ラベル方式を提案する。
しかし, 自己学習のさらなる実装により, 対象領域における UDA モデルの一般化能力が向上することを示す。
CLIP-Divは最先端のCNNベースの手法をかなり上回り、Office-Homeでは+10.3%、Office-31では+1.5%、VisDA-2017では+0.2%、DomainNetでは+24.3%のパフォーマンス向上を達成した。
Unsupervised domain adaption (UDA) has emerged as a popular solution to tackle the divergence between the labeled source and unlabeled target domains. Recently, some research efforts have been made to leverage large vision-language models, such as CLIP, and then fine-tune or learn prompts from them for addressing the challenging UDA task. In this work, we shift the gear to a new direction by directly leveraging CLIP to measure the domain divergence and propose a novel language-guided approach for UDA, dubbed as CLIP-Div. Our key idea is to harness CLIP to 1) measure the domain divergence via the acquired domain-agnostic distribution and 2) calibrate the target pseudo labels with language guidance, to effectively reduce the domain gap and improve the UDA model's generalization capability. Specifically, our major technical contribution lies in the proposed two novel language-guided domain divergence measurement losses: absolute divergence and relative divergence. These loss terms furnish precise guidelines for aligning the distributions of the source and target domains with the domain-agnostic distribution derived from CLIP. Additionally, we propose a language-guided pseudo-labeling strategy for calibrating the target pseudo labels. Buttressed by it, we show that a further implementation for self-training can enhance the UDA model's generalization capability on the target domain. CLIP-Div surpasses state-of-the-art CNN-based methods by a substantial margin, achieving a performance boost of +10.3% on Office-Home, +1.5% on Office-31, +0.2% on VisDA-2017, and +24.3% on DomainNet, respectively. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 私の部分はあなたのものよりも大きい -- ペア比較法による仲間のグループ内での評価。
My part is bigger than yours -- assessment within a group of peers using the pairwise comparisons method ( http://arxiv.org/abs/2407.01843v1 ) ライセンス: Link先を確認 | Konrad Kułakowski, Jacek Szybowski, | (参考訳) プロジェクト(例えば、共同研究論文を書くなど)は、しばしばグループ作業です。
最終的に、各コントリビュータは、しばしば口頭で、自分のコントリビューションを識別する。
しかし、報酬は本質的には経済的であることが多い。
このことは、論文作成におけるシェア(パーセント)が個々の著者によるものであるかという問題に繋がる。
異なる著者は、この問題について様々な意見を持ち、さらに悪いことに、彼らの意見は異なる関連性を持っているかもしれない。
本稿では,他の専門家が行った評価と直接的に好みの優先順位を結びつける,専門家の意見をまとめるシンプルなモデルを提案する。
このアプローチでは、与えられた専門家の貢献が大きいほど、彼の意見の重要性が増す。
提案手法は,同プロジェクトに関わる仲間のグループ間でコンセンサスを求める試みとして考えられる。
したがって、その応用は、科学論文を書くという提案された研究の例を超えるかもしれない。
A project (e.g. writing a collaborative research paper) is often a group effort. At the end, each contributor identifies his or her contribution, often verbally. The reward, however, is quite often financial in nature. This leads to the question of what (percentage) share in the creation of the paper is due to individual authors. Different authors may have various opinions on the matter, and, even worse, their opinions may have different relevance. In this paper, we present a simple models that allows aggregation of experts' opinions linking the priority of his preference directly to the assessment made by other experts. In this approach, the greater the contribution of a given expert, the greater the importance of his opinion. The presented method can be considered as an attempt to find consensus among a group of peers involved in the same project. Hence, its applications may go beyond the proposed study example of writing a scientific paper. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 訓練ラベルのない小作農場境界図作成のためのセグメンテーション基礎モデルの検討
Investigating the Segment Anything Foundation Model for Mapping Smallholder Agriculture Field Boundaries Without Training Labels ( http://arxiv.org/abs/2407.01846v1 ) ライセンス: Link先を確認 | Pratyush Tripathy, Kathy Baylis, Kyle Wu, Jyles Watson, Ruizhe Jiang, | (参考訳) 農地境界の正確なマッピングは、精密農業、作物のモニタリング、収量推定などの成果の促進に不可欠である。
しかし、衛星画像からこれらの境界を抽出することは、特に小規模農家やデータ共有環境において困難である。
本研究は,インド・ビハール州の農地境界を2m解像度のSkySat画像を用いて,付加的な訓練をすることなく,Segment Anything Model (SAM) を探索するものである。
我々はSAMの性能を3つのモデルチェックポイント、様々な入力サイズ、マルチ日付衛星画像、エッジ強調画像で評価した。
その結果,SAMはフィールド境界の約58%を的確に識別し,広範囲なトレーニングデータを必要とする他の手法に匹敵することがわかった。
異なる入力画像サイズを使用することで精度が向上し、マルチ日付衛星画像を使用する場合に最も顕著な改善がなされる。
この研究は、SAMの使用と、農地境界写像におけるそのポテンシャルを最大化する概念の証明を確立する。
我々の研究は、幅広い農業関連分析を可能にする訓練データ不足環境において、SAMが農業分野の境界線を規定する可能性を強調している。
Accurate mapping of agricultural field boundaries is crucial for enhancing outcomes like precision agriculture, crop monitoring, and yield estimation. However, extracting these boundaries from satellite images is challenging, especially for smallholder farms and data-scarce environments. This study explores the Segment Anything Model (SAM) to delineate agricultural field boundaries in Bihar, India, using 2-meter resolution SkySat imagery without additional training. We evaluate SAM's performance across three model checkpoints, various input sizes, multi-date satellite images, and edge-enhanced imagery. Our results show that SAM correctly identifies about 58% of field boundaries, comparable to other approaches requiring extensive training data. Using different input image sizes improves accuracy, with the most significant improvement observed when using multi-date satellite images. This work establishes proof of concept for using SAM and maximizing its potential in agricultural field boundary mapping. Our work highlights SAM's potential in delineating agriculture field boundary in training-data scarce settings to enable a wide range of agriculture related analysis. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# UniFIDES:Universal Fractional Integro-Differential Equation Solvers
UniFIDES: Universal Fractional Integro-Differential Equation Solvers ( http://arxiv.org/abs/2407.01848v1 ) ライセンス: Link先を確認 | Milad Saadat, Deepak Mangal, Safa Jamali, | (参考訳) 微分方程式を解くためのデータ駆動型アプローチの開発は、多くの分野にわたる科学と工学の応用が続き、現在も活発な科学的調査の中心となっている。
しかし、自然現象の大きな体は、分数積分微分方程式(FIDE)を通して最もよく説明されるメモリ効果を包含しており、積分作用素や微分作用素は非整数順序を受け入れる。
非線形FIDEによって引き起こされる課題に対処するには、即時的な実践的関連性を備えた汎用手法の適用が必要であるという認識の難しさがある。
この研究は、方程式のアドホックな操作を必要とせず、前方および逆方向の両方で様々なFIDEを迅速に解けるように設計された、包括的な機械学習プラットフォームUniFIDES(UniFIDES)を紹介した。
UniFIDESの有効性は、科学と工学における整数次数および分数次問題の集合を通して実証される。
この結果から,UniFIDESは積分微分方程式の広い範囲を正確に解き,動的・複雑系の発見・記述に機械学習プラットフォームを普遍的に活用する可能性が示唆された。
The development of data-driven approaches for solving differential equations has been followed by a plethora of applications in science and engineering across a multitude of disciplines and remains a central focus of active scientific inquiry. However, a large body of natural phenomena incorporates memory effects that are best described via fractional integro-differential equations (FIDEs), in which the integral or differential operators accept non-integer orders. Addressing the challenges posed by nonlinear FIDEs is a recognized difficulty, necessitating the application of generic methods with immediate practical relevance. This work introduces the Universal Fractional Integro-Differential Equation Solvers (UniFIDES), a comprehensive machine learning platform designed to expeditiously solve a variety of FIDEs in both forward and inverse directions, without the need for ad hoc manipulation of the equations. The effectiveness of UniFIDES is demonstrated through a collection of integer-order and fractional problems in science and engineering. Our results highlight UniFIDES' ability to accurately solve a wide spectrum of integro-differential equations and offer the prospect of using machine learning platforms universally for discovering and describing dynamical and complex systems. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 対向ディフェンダー訓練によるパープルピーピングLLM
Purple-teaming LLMs with Adversarial Defender Training ( http://arxiv.org/abs/2407.01850v1 ) ライセンス: Link先を確認 | Jingyan Zhou, Kun Li, Junan Li, Jiawen Kang, Minda Hu, Xixin Wu, Helen Meng, | (参考訳) 既存のLLMの保護への取り組みは、目標のLLMの脆弱性を積極的に暴露し、新たに出現する安全リスクに迅速に適応するために限られている。
そこで本稿では,新たに赤チーム(攻撃)と青チーム(安全訓練)技術を導入して,LPMの安全を守るパイプラインであるPAD(Adversarial Defender Training)を用いたパープルピーピングLLMを提案する。
PADでは, LLMの脆弱性をカバーする会話データを自動的に収集し, 攻撃者が安全でない応答を誘導し, 攻撃に対する安全応答を生成する。
次に、攻撃者がより安全でない応答を誘発するように訓練し、ディフェンダーを更新してそれらを特定し、安全でない理由を説明することで、生成的敵ネットワークスタイルで両方のモジュールを更新する。
実験の結果,PADは有効攻撃の発見と安全ガードレールの確立において,既存のベースラインを著しく上回っていることがわかった。
さらに,PADは安全性と全体のモデル品質のバランスを保っていることが示唆された。
また、マルチターン攻撃の防衛や、特定のリスクを特定するためのより繊細な戦略の必要性など、LSMを保護する上での重要な課題を明らかにします。
Existing efforts in safeguarding LLMs are limited in actively exposing the vulnerabilities of the target LLM and readily adapting to newly emerging safety risks. To address this, we present Purple-teaming LLMs with Adversarial Defender training (PAD), a pipeline designed to safeguard LLMs by novelly incorporating the red-teaming (attack) and blue-teaming (safety training) techniques. In PAD, we automatically collect conversational data that cover the vulnerabilities of an LLM around specific safety risks in a self-play manner, where the attacker aims to elicit unsafe responses and the defender generates safe responses to these attacks. We then update both modules in a generative adversarial network style by training the attacker to elicit more unsafe responses and updating the defender to identify them and explain the unsafe reason. Experimental results demonstrate that PAD significantly outperforms existing baselines in both finding effective attacks and establishing a robust safe guardrail. Furthermore, our findings indicate that PAD excels in striking a balance between safety and overall model quality. We also reveal key challenges in safeguarding LLMs, including defending multi-turn attacks and the need for more delicate strategies to identify specific risks. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# Meerkat: 空間と時間のグラウンド化のためのオーディオビジュアル大言語モデル
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time ( http://arxiv.org/abs/2407.01851v1 ) ライセンス: Link先を確認 | Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha, | (参考訳) 近年のMLLM(Multi-modal LLM)の研究は、大規模言語モデルのテキストベースタスクにおける卓越した能力を活用して、視覚やオーディオなどの他のモダリティに拡張している。
しかし、これらの方向の進歩は、主に、音声・視覚のセマンティクスの粗い理解だけを必要とするタスクに焦点が当てられている。
本稿では,空間的にも時間的にも,画像と音声のきめ細かい理解を具備した音声視覚LLMであるMeerkatについて紹介する。
最適なトランスポートに基づく新しいモダリティアライメントモジュールと、オーディオと視覚の一貫性を強制するクロスアテンションモジュールにより、Meerkatは、オーディオ参照画像グラウンド、画像ガイド付きオーディオの時間的ローカライゼーション、オーディオと視覚の事実チェックといった課題に取り組むことができる。
さらに,オープンソースデータセットから収集した3Mインストラクションチューニングサンプルを含む大規模データセットAVFITを慎重にキュレートし,難易度の高い5つのタスクを統合するMeerkatBenchを紹介した。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
Leveraging Large Language Models' remarkable proficiency in text-based tasks, recent works on Multi-modal LLMs (MLLMs) extend them to other modalities like vision and audio. However, the progress in these directions has been mostly focused on tasks that only require a coarse-grained understanding of the audio-visual semantics. We present Meerkat, an audio-visual LLM equipped with a fine-grained understanding of image and audio both spatially and temporally. With a new modality alignment module based on optimal transport and a cross-attention module that enforces audio-visual consistency, Meerkat can tackle challenging tasks such as audio referred image grounding, image guided audio temporal localization, and audio-visual fact-checking. Moreover, we carefully curate a large dataset AVFIT that comprises 3M instruction tuning samples collected from open-source datasets, and introduce MeerkatBench that unifies five challenging audio-visual tasks. We achieve state-of-the-art performance on all these downstream tasks with a relative improvement of up to 37.12%. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 言語学的自然・多言語データセットによる多言語指導の微調整の改善
Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets ( http://arxiv.org/abs/2407.01853v1 ) ライセンス: Link先を確認 | Sathish Reddy Indurthi, Wenxuan Zhou, Shamil Chollampatt, Ravi Agrawal, Kaiqiang Song, Lingxiao Zhao, Chenguang Zhu, | (参考訳) LLM(Large Language Models)の進歩は、命令フォロー機能を大幅に強化した。
しかしながら、ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデル性能が制限されている。
既存の英語のIFTデータセットを翻訳したり、既存のNLPデータセットをIFTデータセットに変換するなど、多言語IFTデータセットを作成する従来の方法は、テンプレート化、言語のニュアンスを捉えるのに苦労し、迅速な(指示)多様性を確保する。
この問題に対処するために,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
このアプローチでは、英語のLLM、単言語コーパス、スコア機能を活用して、複数の言語で高品質で多様化されたIFTデータセットを作成する。
実験により、これらのIFTデータセットを用いて微調整されたLLMは、生成的タスクと識別的タスクの両方において顕著な改善を示し、非英語文脈におけるLLMによる言語理解の強化を示す。
具体的には、多言語要約タスクにおいて、我々のIFTデータセットを使用したLLMは、翻訳ベースのデータセットとテンプレートベースのデータセットを微調整したLLMよりも17.57%と15.23%改善した。
Advancements in Large Language Models (LLMs) have significantly enhanced instruction-following capabilities. However, most Instruction Fine-Tuning (IFT) datasets are predominantly in English, limiting model performance in other languages. Traditional methods for creating multilingual IFT datasets such as translating existing English IFT datasets or converting existing NLP datasets into IFT datasets by templating, struggle to capture linguistic nuances and ensure prompt (instruction) diversity. To address this issue, we propose a novel method for collecting multilingual IFT datasets that preserves linguistic naturalness and ensures prompt diversity. This approach leverages English-focused LLMs, monolingual corpora, and a scoring function to create high-quality, diversified IFT datasets in multiple languages. Experiments demonstrate that LLMs finetuned using these IFT datasets show notable improvements in both generative and discriminative tasks, indicating enhanced language comprehension by LLMs in non-English contexts. Specifically, on the multilingual summarization task, LLMs using our IFT dataset achieved 17.57% and 15.23% improvements over LLMs fine-tuned with translation-based and template-based datasets, respectively. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 損失量子化キャビティのための貯水池のスペクトル密度はどのくらいですか。
What is the spectral density of the reservoir for a lossy quantized cavity? ( http://arxiv.org/abs/2407.01855v1 ) ライセンス: Link先を確認 | Chris Gustin, Juanjuan Ren, Stephen Hughes, | (参考訳) 単一損失3次元キャビティモードを考慮し、フォトニック媒体の準正規モード展開を用いて、キャビティと貯留層とのカップリングの周波数依存性が、キャビティの内容と使用するゲージの両方に依存することを示す。
単一の量子双極子に結合する場合、スペクトル密度の形式を特定し、$\sim \omega^{-1}$プレファクタスケーリングと空間依存的な寄与を明らかにする。
そこで我々はキャビティ-貯留層相互作用の正しい量子形式を確立し、ブロードバンド強結合に大きな影響を与えることを示す。
By considering a single lossy three-dimensional cavity mode and using a quasinormal mode expansion for the photonic medium, we show that the frequency-dependence of the coupling between the cavity and its reservoir is dependent on both the cavity contents and the gauge used. For the case of coupling to a single quantum dipole, we identify the form of the spectral density, revealing a $\sim \omega^{-1}$ prefactor scaling, as well as a spatially-dependent contribution. We thus establish the correct quantum form for the cavity-reservoir interaction and show its significant impact on broadband strong coupling. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# 合成ガウス過程モデルのための適応RKHSフーリエ特性
Adaptive RKHS Fourier Features for Compositional Gaussian Process Models ( http://arxiv.org/abs/2407.01856v1 ) ライセンス: Link先を確認 | Xinxing Shi, Thomas Baldwin-McDonald, Mauricio A. Álvarez, | (参考訳) ディープガウス過程(Deep Gaussian Processs, DGP)は、非定常過程をモデル化するために構成構造を利用する。
DGPは通常、中間GP層にまたがる局所的誘導点近似に依存する。
DGP推論の最近の進歩は、再生カーネルヒルベルト空間(RKHS)からのグローバルフーリエ特徴を取り入れることで、複雑な非定常パターンを捕捉するDGPの能力を向上できることを示している。
本稿では,これらの特徴を線形変換を含む構成GPに拡張する。
特に、正規微分方程式(ODE)に基づくRKHSフーリエ機能を導入し、畳み込み演算による適応振幅と位相変調を実現する。
この畳み込みの定式化は、非線形力学系をモデル化するために設計された多層構造である、最近提案されたディープ潜在力モデルに関係している。
これらの調整可能なRKHSフーリエ特徴を2つの確率的変分推論フレームワークに組み込むことで、様々な回帰タスクにおいて予測性能が向上することを示す。
Deep Gaussian Processes (DGPs) leverage a compositional structure to model non-stationary processes. DGPs typically rely on local inducing point approximations across intermediate GP layers. Recent advances in DGP inference have shown that incorporating global Fourier features from Reproducing Kernel Hilbert Space (RKHS) can enhance the DGPs' capability to capture complex non-stationary patterns. This paper extends the use of these features to compositional GPs involving linear transformations. In particular, we introduce Ordinary Differential Equation (ODE) -based RKHS Fourier features that allow for adaptive amplitude and phase modulation through convolution operations. This convolutional formulation relates our work to recently proposed deep latent force models, a multi-layer structure designed for modelling nonlinear dynamical systems. By embedding these adjustable RKHS Fourier features within a doubly stochastic variational inference framework, our model exhibits improved predictive performance across various regression tasks. | 翻訳日:2024-07-03 17:13:22 公開日:2024-07-01 |
# ICCV 1st Perception Test Challenge 2023 における時間音像定位課題の解法
The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 ( http://arxiv.org/abs/2407.02318v1 ) ライセンス: Link先を確認 | Yurui Huang, Yang Yang, Shou Chen, Xiangyu Wu, Qingguo Chen, Jianfeng Lu, | (参考訳) 本稿では,時間的音像定位精度向上のためのソリューションを提案する。
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師型事前学習ネットワークを用いて高品質な視覚特徴を抽出し,効率的な映像特徴表現を実現する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
融合した機能は、トレーニング用のマルチスケールトランスフォーマーでトレーニングされる。
最終テストデータセットでは平均平均mAP(mAP)を0.33で達成し,このトラックで2番目に高い性能を得た。
In this paper, we propose a solution for improving the quality of temporal sound localization. We employ a multimodal fusion approach to combine visual and audio features. High-quality visual features are extracted using a state-of-the-art self-supervised pre-training network, resulting in efficient video feature representations. At the same time, audio features serve as complementary information to help the model better localize the start and end of sounds. The fused features are trained in a multi-scale Transformer for training. In the final test dataset, we achieved a mean average precision (mAP) of 0.33, obtaining the second-best performance in this track. | 翻訳日:2024-07-03 15:06:12 公開日:2024-07-01 |
# フェデレーション付きグラフニューラルネットワーク多元強化学習を用いたベクトルエッジコンピューティングにおける情報の最適化
Optimizing Age of Information in Vehicular Edge Computing with Federated Graph Neural Network Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2407.02342v1 ) ライセンス: Link先を確認 | Wenhua Wang, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief, | (参考訳) インテリジェントな車両とインテリジェントトランスポートシステム(ITS)の急速な開発により、インテリジェントな車両に搭載されたカメラやLiDARのようなセンサーは、計算集約的で遅延に敏感なタスクを実行する能力が高くなり、デプロイメントコストが増大する。
この問題に対処するため、Vehicular Edge Computing (VEC) は、リアルタイムアプリケーションをサポートするためにロードサイドユニット (RSU) を通じてデータを処理するために提案されている。
本稿では,データ更新の鍵となる情報時代(AoI)に着目し,RSU通信資源制約下での車両のタスクオフロード問題について検討する。
我々はマルチエージェントディープ強化学習(MADRL)アプローチを採用し、車両が最適なデータオフロード決定を自律的に行えるようにする。
しかし,MADRLは,コミュニケーション学習や集中訓練において,車両情報漏洩のリスクを生じさせる。
これを軽減するために、車両ユーザのプライバシを保護するために、生データの代わりにモデルパラメータを共有するフェデレートラーニング(FL)フレームワークを使用します。
そこで我々は,Federated Graph Neural Network Multi-Agent Reinforcement Learning (FGNN-MADRL) というグラフニューラルネットワーク(GNN)を組み合わせた分散分散学習フレームワークを提案する。
道路のシナリオをグラフデータ構造として構築し,分散と集中の融合を効果的に組み合わせたGNNベースのフェデレーション学習フレームワークを提案する。
さらに,意思決定を簡略化し,オフロード効率を向上し,決定の複雑さをさらに軽減する新しいMADRLアルゴリズムを提案する。
シミュレーションにより,提案手法が他の手法よりも優れていることを示す。
With the rapid development of intelligent vehicles and Intelligent Transport Systems (ITS), the sensors such as cameras and LiDAR installed on intelligent vehicles provides higher capacity of executing computation-intensive and delay-sensitive tasks, thereby raising deployment costs. To address this issue, Vehicular Edge Computing (VEC) has been proposed to process data through Road Side Units (RSUs) to support real-time applications. This paper focuses on the Age of Information (AoI) as a key metric for data freshness and explores task offloading issues for vehicles under RSU communication resource constraints. We adopt a Multi-agent Deep Reinforcement Learning (MADRL) approach, allowing vehicles to autonomously make optimal data offloading decisions. However, MADRL poses risks of vehicle information leakage during communication learning and centralized training. To mitigate this, we employ a Federated Learning (FL) framework that shares model parameters instead of raw data to protect the privacy of vehicle users. Building on this, we propose an innovative distributed federated learning framework combining Graph Neural Networks (GNN), named Federated Graph Neural Network Multi-Agent Reinforcement Learning (FGNN-MADRL), to optimize AoI across the system. For the first time, road scenarios are constructed as graph data structures, and a GNN-based federated learning framework is proposed, effectively combining distributed and centralized federated aggregation. Furthermore, we propose a new MADRL algorithm that simplifies decision making and enhances offloading efficiency, further reducing the decision complexity. Simulation results demonstrate the superiority of our proposed approach to other methods through simulations. | 翻訳日:2024-07-03 14:56:27 公開日:2024-07-01 |
# 大規模ビジョンランゲージモデルによるオープンワールドグラッピングに向けて
Towards Open-World Grasping with Large Vision-Language Models ( http://arxiv.org/abs/2406.18722v2 ) ライセンス: Link先を確認 | Georgios Tziafas, Hamidreza Kasaei, | (参考訳) オープンエンド言語命令から対象物を把握する能力は、ロボット工学における根本的な課題である。
オープンワールドの把握システムは、任意のシナリオに適用するために、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
最近の研究は、大規模言語モデル(LLM)に固有のWebスケールの知識をロボットのコンテキストで計画と推論に利用しているが、そのような知識を環境に根ざし、動作をパラメータ化するために外部の視覚と行動モデルに依存している。
このセットアップには2つの大きなボトルネックがあります。
a) LLMの推論能力は、視覚的接地の品質に制約され、
b)LLMには世界に対する低レベルの空間的理解は含まれておらず、コンタクトリッチなシナリオの把握に不可欠である。
本研究は,現代視覚言語モデル(VLM)がこのような制約に対処できることを示すものである。
本稿では,VLMとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
本研究は,オープンエンド言語を基盤としたOWGのロバスト性を示すために,乱雑な屋内シーンデータセットを広範囲に評価すると共に,従来のLLM法やゼロショット法と比較して優れた性能を示すシミュレーションとハードウェアの両方において,オープンソースのロボットグルーピング実験を行う。
The ability to grasp objects in-the-wild from open-ended language instructions constitutes a fundamental challenge in robotics. An open-world grasping system should be able to combine high-level contextual with low-level physical-geometric reasoning in order to be applicable in arbitrary scenarios. Recent works exploit the web-scale knowledge inherent in large language models (LLMs) to plan and reason in robotic context, but rely on external vision and action models to ground such knowledge into the environment and parameterize actuation. This setup suffers from two major bottlenecks: a) the LLM's reasoning capacity is constrained by the quality of visual grounding, and b) LLMs do not contain low-level spatial understanding of the world, which is essential for grasping in contact-rich scenarios. In this work we demonstrate that modern vision-language models (VLMs) are capable of tackling such limitations, as they are implicitly grounded and can jointly reason about semantics and geometry. We propose OWG, an open-world grasping pipeline that combines VLMs with segmentation and grasp synthesis models to unlock grounded world understanding in three stages: open-ended referring segmentation, grounded grasp planning and grasp ranking via contact reasoning, all of which can be applied zero-shot via suitable visual prompting mechanisms. We conduct extensive evaluation in cluttered indoor scene datasets to showcase OWG's robustness in grounding from open-ended language, as well as open-world robotic grasping experiments in both simulation and hardware that demonstrate superior performance compared to previous supervised and zero-shot LLM-based methods. | 翻訳日:2024-07-03 12:13:48 公開日:2024-07-01 |
# 物体中心前駆体を用いた3次元特徴蒸留
3D Feature Distillation with Object-Centric Priors ( http://arxiv.org/abs/2406.18742v2 ) ライセンス: Link先を確認 | Georgios Tziafas, Yucheng Xu, Zhibin Li, Hamidreza Kasaei, | (参考訳) 物理世界への自然言語の接地は、コンピュータビジョンとロボティクスに幅広い応用があるユビキタスなトピックである。
近年、CLIPのような2次元視覚言語モデルが広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有で一般化されていないニューラルネットワークを学ぶか、複数のカメラビューへのアクセスを必要とする室内のスキャンデータに焦点を合わせるか、ロボット操作シナリオでは実用的ではない。
さらに、関連する手法は一般的にピクセルレベルで機能を融合させ、すべてのカメラビューが等しく有益であると仮定する。
本研究では, この手法が, 接地精度, セグメンテーションの両面において, 最適3次元特徴に繋がることを示す。
そこで本研究では,意味情報に基づく非形式的なビューを排除し,インスタンスセグメンテーションマスクを介してオブジェクトレベルでの機能を融合する,多視点機能融合戦略を提案する。
オブジェクト中心の3D特徴を抽出するために、乱雑なテーブルトップシーンの大規模合成マルチビューデータセットを生成し、3300以上のユニークなオブジェクトインスタンスから15kのシーンを生成し、公開しています。
提案手法は, 単視点のRGB-Dと併用しながら, 接地能力と空間的整合性を向上した3D CLIP機能を再構成し, テスト時の複数のカメラビューの仮定から逸脱することを示す。
最後に,本手法がテーブルトップ領域に一般化され,微調整なしで3次元インスタンスセグメンテーションに再利用可能であることを示すとともに,言語誘導型ロボットグルーピングにおける有用性を示す。
Grounding natural language to the physical world is a ubiquitous topic with a wide range of applications in computer vision and robotics. Recently, 2D vision-language models such as CLIP have been widely popularized, due to their impressive capabilities for open-vocabulary grounding in 2D images. Recent works aim to elevate 2D CLIP features to 3D via feature distillation, but either learn neural fields that are scene-specific and hence lack generalization, or focus on indoor room scan data that require access to multiple camera views, which is not practical in robot manipulation scenarios. Additionally, related methods typically fuse features at pixel-level and assume that all camera views are equally informative. In this work, we show that this approach leads to sub-optimal 3D features, both in terms of grounding accuracy, as well as segmentation crispness. To alleviate this, we propose a multi-view feature fusion strategy that employs object-centric priors to eliminate uninformative views based on semantic information, and fuse features at object-level via instance segmentation masks. To distill our object-centric 3D features, we generate a large-scale synthetic multi-view dataset of cluttered tabletop scenes, spawning 15k scenes from over 3300 unique object instances, which we make publicly available. We show that our method reconstructs 3D CLIP features with improved grounding capacity and spatial consistency, while doing so from single-view RGB-D, thus departing from the assumption of multiple camera views at test time. Finally, we show that our approach can generalize to novel tabletop domains and be re-purposed for 3D instance segmentation without fine-tuning, and demonstrate its utility for language-guided robotic grasping in clutter | 翻訳日:2024-07-03 12:13:48 公開日:2024-07-01 |
# TabReD: ブラウザで学習するタブラル機械学習のベンチマーク
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild ( http://arxiv.org/abs/2406.19380v2 ) ライセンス: Link先を確認 | Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko, | (参考訳) 下流のアプリケーションシナリオを深く反映したベンチマークは、表型機械学習(ML)における新しい研究の合理化に不可欠である。
本研究では,既存の表型ベンチマークを検証し,学術コミュニティで利用可能なデータセットに不足している業界レベルの表型データの2つの共通特性を見出した。
まず、実際のデプロイメントシナリオでは、タブ形式のデータが時間とともに変化することが多い。
これはモデルのパフォーマンスに影響を与え、正しいモデル評価のために時間ベースのトレインとテストの分割が必要です。
しかし、既存の学術グラフデータセットは、そのような評価を可能にするタイムスタンプメタデータを欠いていることが多い。
第2に、運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
特定のデータセットごとに、これは予測的、非形式的、相関的な特徴の絶対的および相対的な数に異なる影響を与える可能性があるため、モデル選択に影響を与える可能性がある。
前述の学術ベンチマークのギャップを埋めるために、TabReDを紹介します。これは、金融からフードデリバリーサービスまで、幅広い領域をカバーする8つの業界グレードのグラフデータセットのコレクションです。
本研究では,TabReDにより促進される機能豊富な時間進化データ設定において,多数の表型MLモデルを評価する。
時間に基づくデータ分割の評価は、学術ベンチマークで一般的なランダム分割の評価と比較して、異なる手法のランク付けにつながることを実証する。
さらに、TabReDデータセットでは、MLPのようなアーキテクチャとGBDTが最良の結果を示しているが、より洗練されたDLモデルは、その効果を証明していない。
Benchmarks that closely reflect downstream application scenarios are essential for the streamlined adoption of new research in tabular machine learning (ML). In this work, we examine existing tabular benchmarks and find two common characteristics of industry-grade tabular data that are underrepresented in the datasets available to the academic community. First, tabular data often changes over time in real-world deployment scenarios. This impacts model performance and requires time-based train and test splits for correct model evaluation. Yet, existing academic tabular datasets often lack timestamp metadata to enable such evaluation. Second, a considerable portion of datasets in production settings stem from extensive data acquisition and feature engineering pipelines. For each specific dataset, this can have a different impact on the absolute and relative number of predictive, uninformative, and correlated features, which in turn can affect model selection. To fill the aforementioned gaps in academic benchmarks, we introduce TabReD -- a collection of eight industry-grade tabular datasets covering a wide range of domains from finance to food delivery services. We assess a large number of tabular ML models in the feature-rich, temporally-evolving data setting facilitated by TabReD. We demonstrate that evaluation on time-based data splits leads to different methods ranking, compared to evaluation on random splits more common in academic benchmarks. Furthermore, on the TabReD datasets, MLP-like architectures and GBDT show the best results, while more sophisticated DL models are yet to prove their effectiveness. | 翻訳日:2024-07-03 12:13:48 公開日:2024-07-01 |
# 身体・手画像に基づく人物再同定のための局所的グローバルアテンションネットワーク
Local-Aware Global Attention Network for Person Re-Identification Based on Body and Hand Images ( http://arxiv.org/abs/2209.04821v3 ) ライセンス: Link先を確認 | Nathanael L. Baisa, | (参考訳) 画像からの代表的かつ堅牢で差別的な情報を学習することは、効果的な人物再識別(Re-Id)に不可欠である。
本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的特徴学習のための複合的アプローチを提案する。
局所認識型グローバルアテンションネットワーク (LAGA-Net) は,空間的注意のための1つのブランチ,チャネル的注意のための1つのブランチ,グローバルな特徴表現のための1つのブランチ,局所的特徴表現のためのもう1つのブランチからなる多分岐深層ネットワークアーキテクチャである。
注意枝は、無関係な背景を抑えながら、画像の関連する特徴に焦点を当てる。
画素シャッフルと等価なアテンション機構の弱点を克服するため,相対的な位置エンコーディングを空間アテンションモジュールに統合し,画素の空間位置を捉える。
グローバルブランチは、グローバルコンテキストや構造情報の保存を目的としている。
細粒度情報をキャプチャするローカルブランチに対しては,一様分割を行い,凸層上のストライプを水平に生成する。
画像を明示的に分割したり、ポーズ推定などの外部キューを必要とすることなく、ソフトパーティションを行うことで部品を回収する。
一連のアブレーション研究は、各コンポーネントがLAGA-Netの性能向上に寄与していることを示している。
身近な4人のRe-Idベンチマークと2つの公開ハンドデータセットの大規模な評価は、提案手法が既存の最先端手法を一貫して上回っていることを示している。
Learning representative, robust and discriminative information from images is essential for effective person re-identification (Re-Id). In this paper, we propose a compound approach for end-to-end discriminative deep feature learning for person Re-Id based on both body and hand images. We carefully design the Local-Aware Global Attention Network (LAGA-Net), a multi-branch deep network architecture consisting of one branch for spatial attention, one branch for channel attention, one branch for global feature representations and another branch for local feature representations. The attention branches focus on the relevant features of the image while suppressing the irrelevant backgrounds. In order to overcome the weakness of the attention mechanisms, equivariant to pixel shuffling, we integrate relative positional encodings into the spatial attention module to capture the spatial positions of pixels. The global branch intends to preserve the global context or structural information. For the the local branch, which intends to capture the fine-grained information, we perform uniform partitioning to generate stripes on the conv-layer horizontally. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. A set of ablation study shows that each component contributes to the increased performance of the LAGA-Net. Extensive evaluations on four popular body-based person Re-Id benchmarks and two publicly available hand datasets demonstrate that our proposed method consistently outperforms existing state-of-the-art methods. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# 未知のポリトープ上の安全リニアバンド
Safe Linear Bandits over Unknown Polytopes ( http://arxiv.org/abs/2209.13694v3 ) ライセンス: Link先を確認 | Aditya Gangrade, Tianrui Chen, Venkatesh Saligrama, | (参考訳) 安全線形バンディット問題(英: safe linear bandit problem, SLB)とは、線形プログラミングにおいて、報酬の確率的ランディットフィードバックと行動の安全性リスクを考慮し、未知の目的と未知の円周的制約を持つオンライン手法である。
本研究では,ポリトープ上でのSLBの有効性とスムーズな安全コストのトレードオフと,既存の悲観的最適化アプローチによる強い仮定を回避するための積極的二重最適化プレイの役割について検討する。
制約の知識の欠如により、SLBの固有の硬さを最初に解明する: 最適でない極小点が大きな 'ギャップ' を持つ 'easy' インスタンスが存在するが、SLB メソッドが依然として$\Omega(\sqrt{T})$ 後悔や安全違反を起こさなければならないのは、未知のオプティマを任意の精度で解くことができないためである。
次に、安全線形バンディット問題に対する自然な2倍最適化戦略であるDOSSについて、報酬リスクと安全リスクの両方を楽観的に推定して行動を選択するとともに、制約や実現可能な点の知識が欠如しているにもかかわらず、DOSSは後悔に対する厳密なインスタンス依存の$O(\log^2T)と、安全違反に関する$\tilde O(\sqrt{T})$バウンドを同時に得ることを示す。
さらに、安全性を有限精度で要求すると、違反は$O(\log^2T)に改善される。
これらの結果は、線形バンディットの新たな双対解析に依存している:我々は、 \algonameは各ラウンドで少なくとも$d$制約のノイズバージョンを活性化することで進行し、これにより、'poor' 制約セットが活性化されたラウンドと 'good' 制約セットが活性化されたラウンドを別々に分析できると主張している。
前者のコストを$O(\log^2 T)$に制御し、線形プログラムの大域的感度解析に基づいてギャップの新たな双対概念を開発し、これらの制約の集合の準最適性を定量化する。
後者のコストは楽観的なプレイの解を明示的に分析することで$O(1)$に制御される。
The safe linear bandit problem (SLB) is an online approach to linear programming with unknown objective and unknown roundwise constraints, under stochastic bandit feedback of rewards and safety risks of actions. We study the tradeoffs between efficacy and smooth safety costs of SLBs over polytopes, and the role of aggressive doubly-optimistic play in avoiding the strong assumptions made by extant pessimistic-optimistic approaches. We first elucidate an inherent hardness in SLBs due the lack of knowledge of constraints: there exist `easy' instances, for which suboptimal extreme points have large `gaps', but on which SLB methods must still incur $\Omega(\sqrt{T})$ regret or safety violations, due to an inability to resolve unknown optima to arbitrary precision. We then analyse a natural doubly-optimistic strategy for the safe linear bandit problem, DOSS, which uses optimistic estimates of both reward and safety risks to select actions, and show that despite the lack of knowledge of constraints or feasible points, DOSS simultaneously obtains tight instance-dependent $O(\log^2 T)$ bounds on efficacy regret, and $\tilde O(\sqrt{T})$ bounds on safety violations. Further, when safety is demanded to a finite precision, violations improve to $O(\log^2 T).$ These results rely on a novel dual analysis of linear bandits: we argue that \algoname proceeds by activating noisy versions of at least $d$ constraints in each round, which allows us to separately analyse rounds where a `poor' set of constraints is activated, and rounds where `good' sets of constraints are activated. The costs in the former are controlled to $O(\log^2 T)$ by developing new dual notions of gaps, based on global sensitivity analyses of linear programs, that quantify the suboptimality of each such set of constraints. The latter costs are controlled to $O(1)$ by explicitly analysing the solutions of optimistic play. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# 医療予後の危険因子同定のための相互情報支援型アンサンブルレコメンダーシステム
Mutual Information Assisted Ensemble Recommender System for Identifying Critical Risk Factors in Healthcare Prognosis ( http://arxiv.org/abs/2209.13836v3 ) ライセンス: Link先を確認 | Abhishek Dey, Debayan Goswami, Rahul Roy, Susmita Ghosh, Yu Shrike Zhang, Jonathan H. Chan, | (参考訳) 目的: 健康勧告者は、患者と医療専門家が患者の健康に寄与する行動を取る際に、重要な意思決定支援システムとして機能する。
これらのシステムは、エンドユーザーに特に関連がある可能性のある情報を抽出し、適切な判断を下す手助けをする。
本研究は, 疾患管理システムの一部として, 疾患の最も重要な危険因子を特定し, 推奨する特徴推薦器を提案する。
方法: 医療予後における危険因子を特定するための新しい相互情報とアンサンブルに基づく特徴ランク付け手法を提案する。
結果: 本手法の有効性を確立するため, 各種疾患(cRCC, 慢性腎疾患, インド肝患者, 頸部癌危険因子)のベンチマークデータを用いて実験を行った。
提案手法の性能を,平均精度@K,精度@K,リコール@K,F1@K,相互ランク@Kなどのレコメンデータシステムのパフォーマンス指標を用いた4つの最先端手法と比較した。
この方法は、ccRCCに関係するすべての重要な危険因子を推奨することができる。
また、既存の手法と比較して、ccRCCステージリングの精度(サポートベクターマシンとニューラルネットワークを使用して96.6%、98.6%)も向上している。
さらに, 既存のTNMシステムから, ccRCC法, viz. 腫瘍径, 転移状況の2つの特徴を医学的に検証した。
結果は、他の3つのデータセットよりも優れていることも判明した。
結論: 提案された推奨者は, 疾患を最も識別する能力を有する危険因子を同定し, 推薦することができる。
Purpose: Health recommenders act as important decision support systems, aiding patients and medical professionals in taking actions that lead to patients' well-being. These systems extract the information which may be of particular relevance to the end-user, helping them in making appropriate decisions. The present study proposes a feature recommender, as a part of a disease management system, that identifies and recommends the most important risk factors for an illness. Methods: A novel mutual information and ensemble-based feature ranking approach for identifying critical risk factors in healthcare prognosis is proposed. Results: To establish the effectiveness of the proposed method, experiments have been conducted on four benchmark datasets of diverse diseases (clear cell renal cell carcinoma (ccRCC), chronic kidney disease, Indian liver patient, and cervical cancer risk factors). The performance of the proposed recommender is compared with four state-of-the-art methods using recommender systems' performance metrics like average precision@K, precision@K, recall@K, F1@K, reciprocal rank@K. The method is able to recommend all relevant critical risk factors for ccRCC. It also attains a higher accuracy (96.6% and 98.6% using support vector machine and neural network, respectively) for ccRCC staging with a reduced feature set as compared to existing methods. Moreover, the top two features recommended using the proposed method with ccRCC, viz. size of tumor and metastasis status, are medically validated from the existing TNM system. Results are also found to be superior for the other three datasets. Conclusion: The proposed recommender can identify and recommend risk factors that have the most discriminating power for detecting diseases. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# グラフニューラルネットワークにおける説明者の説明 : 比較研究
Explaining the Explainers in Graph Neural Networks: a Comparative Study ( http://arxiv.org/abs/2210.15304v3 ) ライセンス: Link先を確認 | Antonio Longa, Steve Azzolin, Gabriele Santin, Giulia Cencetti, Pietro Liò, Bruno Lepri, Andrea Passerini, | (参考訳) グラフベースの学習の初期的なブレークスルーに続いて、グラフニューラルネットワーク(GNN)は、多くの科学や工学分野において広く応用されており、意思決定プロセスを理解するための方法の必要性が高まっている。
近年、GNNの解説者が登場し始めており、多くの手法が他のドメインから導入されている。
この多くの代替アプローチを整理するために、様々な説明可能性指標を用いて、異なる説明者のパフォーマンスをベンチマークした研究がいくつかある。
しかし、これらの初期の研究は、なぜ異なるGNNアーキテクチャが多かれ少なかれ説明可能であるのか、どの説明者が所定の環境で好まれるべきなのかについての洞察を与えようとはしない。
本研究では,6つの慎重に設計されたグラフおよびノード分類データセットに基づいて訓練された8つの代表的なアーキテクチャに対して10の説明器を試験する,体系的な実験的研究を考案することによって,これらのギャップを埋める。
結果から,GNN説明器の選択と適用性に関する重要な知見が得られ,使用性と成功を可能にする重要なコンポーネントを分離し,一般的な解釈の落とし穴を避けるための推奨事項を提供する。
今後の研究の可能性について、オープンな質問と方向性を強調して結論付けます。
Following a fast initial breakthrough in graph based learning, Graph Neural Networks (GNNs) have reached a widespread application in many science and engineering fields, prompting the need for methods to understand their decision process. GNN explainers have started to emerge in recent years, with a multitude of methods both novel or adapted from other domains. To sort out this plethora of alternative approaches, several studies have benchmarked the performance of different explainers in terms of various explainability metrics. However, these earlier works make no attempts at providing insights into why different GNN architectures are more or less explainable, or which explainer should be preferred in a given setting. In this survey, we fill these gaps by devising a systematic experimental study, which tests ten explainers on eight representative architectures trained on six carefully designed graph and node classification datasets. With our results we provide key insights on the choice and applicability of GNN explainers, we isolate key components that make them usable and successful and provide recommendations on how to avoid common interpretation pitfalls. We conclude by highlighting open questions and directions of possible future research. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# M-to-Nバックドアパラダイム:ディープラーニングモデルに対するマルチトリガーおよびマルチターゲットアタック
M-to-N Backdoor Paradigm: A Multi-Trigger and Multi-Target Attack to Deep Learning Models ( http://arxiv.org/abs/2211.01875v2 ) ライセンス: Link先を確認 | Linshan Hou, Zhongyun Hua, Yuhong Li, Yifeng Zheng, Leo Yu Zhang, | (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、バックドアモデルは通常クリーンな入力で振る舞うが、トリガーを含む入力に対して攻撃者が特定した振る舞いを示す。
これまでのバックドア攻撃は主にオールツーワンまたはオールツーオールのパラダイムに重点を置いており、攻撃者は単一のターゲットクラスを攻撃するために入力を操作することができる。
さらに、2つのパラダイムは、バックドアアクティベーションのための1つのトリガーに依存しており、トリガーが破壊されると攻撃が無効になる。
これにより、攻撃者が任意の入力を操作して、$N$ターゲットクラスを攻撃できるようになり、$N$ターゲットクラスのバックドアは、その$M$トリガのいずれかによってアクティベートできる。
我々の攻撃は、ターゲットクラスごとに$M$のクリーンイメージをトリガーとして選択し、提案した有毒画像生成フレームワークを活用して、クリーンイメージにインジェクションする。
クリーントレーニング画像と同じ分布のトリガを使用することで、ターゲットDNNモデルはトレーニング中のトリガーに一般化することができ、複数のターゲットクラスに対する攻撃の有効性を高めることができる。
実験結果から,新たなバックドア攻撃は,複数の標的クラスを攻撃し,前処理操作や既存の防御に対して堅牢であることが明らかとなった。
Deep neural networks (DNNs) are vulnerable to backdoor attacks, where a backdoored model behaves normally with clean inputs but exhibits attacker-specified behaviors upon the inputs containing triggers. Most previous backdoor attacks mainly focus on either the all-to-one or all-to-all paradigm, allowing attackers to manipulate an input to attack a single target class. Besides, the two paradigms rely on a single trigger for backdoor activation, rendering attacks ineffective if the trigger is destroyed. In light of the above, we propose a new $M$-to-$N$ attack paradigm that allows an attacker to manipulate any input to attack $N$ target classes, and each backdoor of the $N$ target classes can be activated by any one of its $M$ triggers. Our attack selects $M$ clean images from each target class as triggers and leverages our proposed poisoned image generation framework to inject the triggers into clean images invisibly. By using triggers with the same distribution as clean training images, the targeted DNN models can generalize to the triggers during training, thereby enhancing the effectiveness of our attack on multiple target classes. Extensive experimental results demonstrate that our new backdoor attack is highly effective in attacking multiple target classes and robust against pre-processing operations and existing defenses. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# 適応マージによる縦続ネットワークの効率的な推定法
Efficient Estimation for Longitudinal Networks via Adaptive Merging ( http://arxiv.org/abs/2211.07866v5 ) ライセンス: Link先を確認 | Haoran Zhang, Junhui Wang, | (参考訳) 縦ネットワークは複数のノード間の時間的エッジのシーケンスで構成され、時間的エッジはリアルタイムで観測される。
オンラインソーシャルプラットフォームとeコマースの台頭により、ユビキタスになりつつありますが、主に文献ではあまり語られません。
本稿では, 適応型ネットワークマージ, テンソル分解, 点過程の強みを生かした長手ネットワークの効率的な推定手法を提案する。
ネットワークマージによって生じる推定バイアスは、適応的なネットワーク近傍の局所時間構造を利用して制御される。
提案手法は,各繰り返しにおける推定誤差の上限を設定することにより,推定を容易にする。
提案手法の漸近挙動を定量的に解析し, 推定誤差を著しく低減し, 各種シナリオ下でのネットワークマージの指針を提供する。
さらに,提案手法の利点を,合成データセットと軍国間紛争データセットに関する広範な数値実験により実証する。
Longitudinal network consists of a sequence of temporal edges among multiple nodes, where the temporal edges are observed in real time. It has become ubiquitous with the rise of online social platform and e-commerce, but largely under-investigated in literature. In this paper, we propose an efficient estimation framework for longitudinal network, leveraging strengths of adaptive network merging, tensor decomposition and point process. It merges neighboring sparse networks so as to enlarge the number of observed edges and reduce estimation variance, whereas the estimation bias introduced by network merging is controlled by exploiting local temporal structures for adaptive network neighborhood. A projected gradient descent algorithm is proposed to facilitate estimation, where the upper bound of the estimation error in each iteration is established. A thorough analysis is conducted to quantify the asymptotic behavior of the proposed method, which shows that it can significantly reduce the estimation error and also provides guideline for network merging under various scenarios. We further demonstrate the advantage of the proposed method through extensive numerical experiments on synthetic datasets and a militarized interstate dispute dataset. | 翻訳日:2024-07-02 18:41:09 公開日:2024-07-01 |
# CoMadOut - CoMADに基づくロバストな外乱検出アルゴリズム
CoMadOut -- A Robust Outlier Detection Algorithm based on CoMAD ( http://arxiv.org/abs/2211.13314v2 ) ライセンス: Link先を確認 | Andreas Lohrer, Daniyal Kazempour, Maximilian Hünemörder, Peer Kröger, | (参考訳) 教師なし学習手法は異常検出の領域でよく確立されており、異常データセット上で最先端のパフォーマンスを達成する。
データセット上の機械学習アルゴリズムの予測を歪める可能性があるため、アウトレーヤは重要な役割を果たす。
特にPCAベースの手法では、アウトラヤは、主成分の向きや翻訳を歪ませるだけでなく、アウトラヤの検出をより複雑にする。
この問題に対処するため, 頑健な外乱検出アルゴリズムであるCoMadOutを提案する。
当社のコメディアンPCAを用いたアウトレイラ検出用変種は,その変種に依存し,分布内(CMO変種)と分布外(CMO*変種)とCMO+k変種(CMO+k変種)による分布外(CMO*変種)によるスコアの最適化により,頑健なノイズマージンを有する不純物領域を定義した。
これらの測定により、各主成分に対する分布に基づくアウトリーネススコアリングが可能となり、通常の例と異常な例の間のアウトリーネスの度合いを適切に調整することができる。
CoMadOutと従来の, ディープ, その他の同等のロバストなアウトリア検出手法との比較実験により, 導入したCoMadOut手法の性能は, 平均精度(AP), 高精度リコール曲線(AUPRC)の面積, 受信動作特性(AUROC)曲線の面積など, 確立された手法と競合することを示した。
まとめると、我々のアプローチは、外れ値検出タスクの堅牢な代替案と見なすことができる。
Unsupervised learning methods are well established in the area of anomaly detection and achieve state of the art performances on outlier datasets. Outliers play a significant role, since they bear the potential to distort the predictions of a machine learning algorithm on a given dataset. Especially among PCA-based methods, outliers have an additional destructive potential regarding the result: they may not only distort the orientation and translation of the principal components, they also make it more complicated to detect outliers. To address this problem, we propose the robust outlier detection algorithm CoMadOut, which satisfies two required properties: (1) being robust towards outliers and (2) detecting them. Our CoMadOut outlier detection variants using comedian PCA define, dependent on its variant, an inlier region with a robust noise margin by measures of in-distribution (variant CMO) and optimized scores by measures of out-of-distribution (variants CMO*), e.g. kurtosis-weighting by CMO+k. These measures allow distribution based outlier scoring for each principal component, and thus, an appropriate alignment of the degree of outlierness between normal and abnormal instances. Experiments comparing CoMadOut with traditional, deep and other comparable robust outlier detection methods showed that the performance of the introduced CoMadOut approach is competitive to well established methods related to average precision (AP), area under the precision recall curve (AUPRC) and area under the receiver operating characteristic (AUROC) curve. In summary our approach can be seen as a robust alternative for outlier detection tasks. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# リー群とその同次空間上の定常核とガウス過程 II:非コンパクト対称空間
Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces II: non-compact symmetric spaces ( http://arxiv.org/abs/2301.13088v3 ) ライセンス: Link先を確認 | Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy, | (参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。
彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。
多くの応用、特に物理科学や工学において、また地理統計学や神経科学などの分野では、対称性への不変性は、考慮できる事前情報の最も基本的な形態の1つである。
そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。
本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。
私たちの技術はそれを可能にします
(i)共分散カーネルを計算し、
(ii)そのような空間上で定義された前ガウス過程と後ガウス過程のサンプルは、どちらも実際的な方法で定義される。
この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。
我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。
Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# 環境不均一性を考慮した線形関数近似を用いた時間差分学習
Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity ( http://arxiv.org/abs/2302.02212v2 ) ライセンス: Link先を確認 | Han Wang, Aritra Mitra, Hamed Hassani, George J. Pappas, James Anderson, | (参考訳) 政策評価問題を考慮した環境不均一性下での連合強化学習の開始について検討する。
我々のセットアップは、同じ状態とアクション空間を共有するが、報酬関数と状態遷移カーネルが異なる環境と相互作用する$N$エージェントを含んでいる。
エージェントが中央サーバーを介して通信できると仮定すると、情報交換は共通のポリシーを評価するプロセスを早めるだろうか?
そこで我々は,マルコフ的サンプリング,エージェント環境の不均一性,通信の節約のための複数の局所的更新を考慮しつつ,線形関数近似を用いた連合時間差(TD)学習アルゴリズムの包括的有限時間解析を行った。
我々の分析は、いくつかの新しい材料に依存している。
i) エージェントの基本マルコフ決定過程(MDPs)における不均一性の関数としてのTD固定点上の摂動境界の導出
(II)フェデレートされたTDアルゴリズムの力学を密に近似する仮想MDPを導入し、
(iii) 仮想MDPを用いて、フェデレーション最適化に明示的な接続を行う。
これらの部品を組み立てることで、低均一性状態において、モデル推定の交換がエージェント数の線形収束速度向上につながることを厳密に証明する。
We initiate the study of federated reinforcement learning under environmental heterogeneity by considering a policy evaluation problem. Our setup involves $N$ agents interacting with environments that share the same state and action space but differ in their reward functions and state transition kernels. Assuming agents can communicate via a central server, we ask: Does exchanging information expedite the process of evaluating a common policy? To answer this question, we provide the first comprehensive finite-time analysis of a federated temporal difference (TD) learning algorithm with linear function approximation, while accounting for Markovian sampling, heterogeneity in the agents' environments, and multiple local updates to save communication. Our analysis crucially relies on several novel ingredients: (i) deriving perturbation bounds on TD fixed points as a function of the heterogeneity in the agents' underlying Markov decision processes (MDPs); (ii) introducing a virtual MDP to closely approximate the dynamics of the federated TD algorithm; and (iii) using the virtual MDP to make explicit connections to federated optimization. Putting these pieces together, we rigorously prove that in a low-heterogeneity regime, exchanging model estimates leads to linear convergence speedups in the number of agents. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# 閉じ込められたイオン量子ビットに埋め込まれた量子ビットを用いた普遍量子コンピューティング
Universal quantum computing with qubits embedded in trapped-ion qudits ( http://arxiv.org/abs/2302.02966v3 ) ライセンス: Link先を確認 | Anastasiia S. Nikolaeva, Evgeniy O. Kiktenko, Aleksey K. Fedorov, | (参考訳) 量子コンピューティングの最近の発展、特に閉じ込められたイオンは、物理情報キャリアの数を増やすことなく量子プロセッサをスケーリングする興味深い可能性を開く。
そこで本研究では, 量子回路の量子回路を, 量子ビットを実験的次元の量子ビット(d=3,\ldots,8$) に埋め込む方法を提案する。
特に,シングルキュービット,2キュービット,マルチキュービットのゲートが,単一キュービット演算とMolmer-Sorensenゲートを基本2粒子演算として実現可能であることを示す。
我々の発見は、トラップイオンベースのquditプロセッサに直接適用できると期待している。
Recent developments in qudit-based quantum computing, in particular with trapped ions, open interesting possibilities for scaling quantum processors without increasing the number of physical information carriers. In this work, we propose a method for compiling quantum circuits in the case, where qubits are embedded into qudits of experimentally relevant dimensionalities, $d=3,\ldots,8$, for the trapped-ion platform. In particular, we demonstrate how single-qubit, two-qubit, and multiqubit gates can be realized using single-qudit operations and the Molmer-Sorensen (MS) gate as a basic two-particle operation. We expect that our findings are directly applicable to trapped-ion-based qudit processors. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# 非ユークリッド型TSPに対するコンベックス・ハル・チープ・インサーション・ヒューリスティック
A Convex Hull Cheapest Insertion Heuristic for the Non-Euclidean TSP ( http://arxiv.org/abs/2302.06582v4 ) ライセンス: Link先を確認 | Mithun Goutham, Meghna Menon, Sarah Garrow, Stephanie Stockar, | (参考訳) 凸船体で最も安価な挿入ヒューリスティックは、ユークリッド空間におけるトラベリングセールスパーソン問題に対する優れた解を生み出すことが知られているが、非ユークリッド問題に拡張されることは一度もない。
本稿では,多次元スケーリングを用いて,まず非ユークリッド空間からユークリッド同値空間へ点を投影し,アルゴリズムを初期化する凸殻の生成を可能にする適応法を提案する。
提案アルゴリズムを評価するために、ユークリッドのTSPLIBベンチマークデータセットにセパレータを追加するか、L1ノルムを計量として用いることで、非ユークリッド空間を生成する。
この適応型ヒューリスティックは,88%,99%の症例において,一般的に使用されている近縁型ヒューリスティックと近縁型インサーションヒューリスティックより優れていた。
メタヒューリスティックアルゴリズムと比較すると、提案したヒューリスティックのツアーコストは、遺伝的アルゴリズムとアリコロニー最適化アルゴリズムの解より87%、95%低い。
The convex hull cheapest insertion heuristic is known to produce good solutions to the Traveling Salesperson Problem in Euclidean spaces, but it has never been extended to the non-Euclidean problem. This paper proposes an adaptation that uses multidimensional scaling to first project the points from a non-Euclidean space into a Euclidean equivalent space, thereby enabling the generation of a convex hull that initializes the algorithm. To evaluate the proposed algorithm, non-Euclidean spaces are created by adding separators to the Euclidean TSPLIB benchmark data-set, or by using the L1 norm as a metric. This adapted heuristic is demonstrated to outperform the commonly used Nearest Neighbor heuristic and Nearest Insertion heuristic in 88% and 99% of the cases studied, respectively. When compared with metaheuristic algorithms, the proposed heuristic's tour costs are lower than the solutions found by the genetic algorithm and ant colony optimization algorithm in 87% and 95% of the instances, respectively. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# デビアスのためのバックドア:バックドアアタックに基づく人工バイアスによるモデルバイアスの緩和
Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based Artificial Bias ( http://arxiv.org/abs/2303.01504v3 ) ライセンス: Link先を確認 | Shangxi Wu, Qiuyang He, Jian Yu, Jitao Sang, | (参考訳) ディープラーニングの急速な進歩により、最先端のアルゴリズムは様々な社会的状況で利用されてきた。
それでも、いくつかのアルゴリズムはバイアスを示し、不平等な結果をもたらすことが発見されている。
現在のデバイアス法では、データの低利用や複雑なトレーニング要件といった課題に直面している。
本研究では, バックドア攻撃により, 標準訓練によるモデルバイアスに類似した人工バイアスが構築できることを見出した。
バックドア・トリガーの強い調整性を考えると、バックドア・アタックから生じるリバース・人工バイアスを慎重に設計することでモデルバイアスを緩和する動機がある。
そこで本研究では,知識蒸留に基づくバックドア脱バイアスフレームワークを提案し,モデルバイアスを元のデータから効果的に低減し,バックドア攻撃によるセキュリティリスクを最小限に抑える。
提案手法は、画像と構造化されたデータセットの両方で検証され、有望な結果を示す。
この作業はバックドア攻撃の理解を深め、有益なアプリケーションの可能性を強調します。
この研究のコードは \url{https://anonymous.4open.science/r/DwB-BC07/} で見ることができる。
With the swift advancement of deep learning, state-of-the-art algorithms have been utilized in various social situations. Nonetheless, some algorithms have been discovered to exhibit biases and provide unequal results. The current debiasing methods face challenges such as poor utilization of data or intricate training requirements. In this work, we found that the backdoor attack can construct an artificial bias similar to the model bias derived in standard training. Considering the strong adjustability of backdoor triggers, we are motivated to mitigate the model bias by carefully designing reverse artificial bias created from backdoor attack. Based on this, we propose a backdoor debiasing framework based on knowledge distillation, which effectively reduces the model bias from original data and minimizes security risks from the backdoor attack. The proposed solution is validated on both image and structured datasets, showing promising results. This work advances the understanding of backdoor attacks and highlights its potential for beneficial applications. The code for the study can be found at \url{https://anonymous.4open.science/r/DwB-BC07/}. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# 遅延空間マージによるViTの無トレーニング加速
Training-Free Acceleration of ViTs with Delayed Spatial Merging ( http://arxiv.org/abs/2303.02331v2 ) ライセンス: Link先を確認 | Jung Hwan Heo, Seyedarmin Azizi, Arash Fayyazi, Massoud Pedram, | (参考訳) 視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして、トークンマージが登場した。
ViTにおけるトレーニングフリーアクセラレーションのフロンティアを推し進めるために、私たちはトークンマージを改善するために、視点を追加することで、トークンマージを改善する。
1)アクティベーション・アウトレイアと
2)階層的な表現。
ViTの注意行動の注意的解析を通じて,ViTの底ブロックにおいてトークンのマージが望ましくないような収束注意現象の遅延を特徴付ける。
さらに、視覚的トークン間のマルチスケール冗長性を捉えるために、階層的な処理手法とトークンのマージを強化する。
これら2つの洞察を組み合わせることで、DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
我々は,様々な ViT モデルスケール (Tiny to Huge) とタスク (ImageNet-1k and transfer learning) に基づいて DSM を広範囲に評価し,最大1.8$\times$ FLOP の削減と1.6$\times$スループットの高速化を実現した。
Token merging has emerged as a new paradigm that can accelerate the inference of Vision Transformers (ViTs) without any retraining or fine-tuning. To push the frontier of training-free acceleration in ViTs, we improve token merging by adding the perspectives of 1) activation outliers and 2) hierarchical representations. Through a careful analysis of the attention behavior in ViTs, we characterize a delayed onset of the convergent attention phenomenon, which makes token merging undesirable in the bottom blocks of ViTs. Moreover, we augment token merging with a hierarchical processing scheme to capture multi-scale redundancy between visual tokens. Combining these two insights, we build a unified inference framework called DSM: Delayed Spatial Merging. We extensively evaluate DSM on various ViT model scales (Tiny to Huge) and tasks (ImageNet-1k and transfer learning), achieving up to 1.8$\times$ FLOP reduction and 1.6$\times$ throughput speedup at a negligible loss while being two orders of magnitude faster than existing methods. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# NTRU暗号系からのGottesman-Kitaev-Preskill符号
Good Gottesman-Kitaev-Preskill codes from the NTRU cryptosystem ( http://arxiv.org/abs/2303.02432v4 ) ライセンス: Link先を確認 | Jonathan Conrad, Jens Eisert, Jean-Pierre Seifert, | (参考訳) 我々は,いわゆるNTRU暗号系の暗号解析から得られた,ランダムなGottesman-Kitaev-Preskill(GKP)符号のクラスを導入する。
導出符号は、一定レートおよび平均距離スケーリング$\Delta \propto \sqrt{n}$を高い確率で示すのがよいが、$n$はボソニックモードの数であり、これは単一モードGKP符号を線形距離で量子量子誤り訂正符号に変換することで得られるGKP符号と等価な距離スケーリングである。
NTRU-GKP符号の派生型は、確率的変位ノイズモデルの復号化がNTRU暗号システムの復号化と等価であるという付加的な性質を持ち、コードのランダムなインスタンスは、自然に効率的な復号器が付属する。
この構造は、GKPコードがどのように古典的誤り訂正、量子誤り訂正、およびポスト量子暗号の側面を橋渡しするかを強調している。
我々は、GKP符号の復号化の計算困難さを論じ、NTRU暗号システムからセキュリティを継承した単純な公開鍵量子通信プロトコルを提案する。
We introduce a new class of random Gottesman-Kitaev-Preskill (GKP) codes derived from the cryptanalysis of the so-called NTRU cryptosystem. The derived codes are good in that they exhibit constant rate and average distance scaling $\Delta \propto \sqrt{n}$ with high probability, where $n$ is the number of bosonic modes, which is a distance scaling equivalent to that of a GKP code obtained by concatenating single mode GKP codes into a qubit-quantum error correcting code with linear distance. The derived class of NTRU-GKP codes has the additional property that decoding for a stochastic displacement noise model is equivalent to decrypting the NTRU cryptosystem, such that every random instance of the code naturally comes with an efficient decoder. This construction highlights how the GKP code bridges aspects of classical error correction, quantum error correction as well as post-quantum cryptography. We underscore this connection by discussing the computational hardness of decoding GKP codes and propose, as a new application, a simple public key quantum communication protocol with security inherited from the NTRU cryptosystem. | 翻訳日:2024-07-02 18:29:26 公開日:2024-07-01 |
# クリフォード回路を用いた吸収状態相転移
Absorbing State Phase Transition with Clifford Circuits ( http://arxiv.org/abs/2303.05317v2 ) ライセンス: Link先を確認 | Nastasia Makki, Nicolai Lang, Hans Peter Büchler, | (参考訳) 非平衡相転移の臨界挙動を変化させる際の量子ゆらぎの役割は、基本的なものであるが未解決の問題である。
本研究では,コヒーレントおよび古典力学の両方を含む接触過程における1次元量子ビット鎖の吸収状態相転移について検討した。
我々は、安定化器フォーマリズムで記述できる状態を持つ離散時間量子モデルを採用し、従って大きなシステムサイズを効率的にシミュレーションすることができる。
抽出された臨界指数は、このクリフォード回路モデルの吸収状態相転移が有向パーコレーション普遍性クラスに属することを示す。
このことは、量子ゆらぎの包含が純粋に古典的な系の非平衡相転移の臨界挙動を変化させるとは限らないことを示唆している。
最後に、我々は解析を非クリフォード回路モデルに拡張し、小さな系における仮スケーリング解析により、有向パーコレーション普遍性クラスと一致する臨界指数が明らかとなる。
The role of quantum fluctuations in modifying the critical behavior of non-equilibrium phase transitions is a fundamental but unsolved question. In this study, we examine the absorbing state phase transition of a 1D chain of qubits undergoing a contact process that involves both coherent and classical dynamics. We adopt a discrete-time quantum model with states that can be described in the stabilizer formalism, and therefore allows for an efficient simulation of large system sizes. The extracted critical exponents indicate that the absorbing state phase transition of this Clifford circuit model belongs to the directed percolation universality class. This suggests that the inclusion of quantum fluctuations does not necessarily alter the critical behavior of non-equilibrium phase transitions of purely classical systems. Finally, we extend our analysis to a non-Clifford circuit model, where a tentative scaling analysis in small systems reveals critical exponents that are also consistent with the directed percolation universality class. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 視覚言語モデルのためのパッチプロンプトアライメントベイズプロンプトチューニング
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2303.09100v2 ) ライセンス: Link先を確認 | Xinyang Liu, Dongsheng Wang, Bowei Fang, Miaoge Li, Zhibin Duan, Yishi Xu, Bo Chen, Mingyuan Zhou, | (参考訳) 視覚言語事前学習モデルの下流での応用には、効果的なプロンプトの構築に大きな関心が寄せられている。
既存のプロンプトエンジニアリングの研究は、厳格な手動設計を必要とするか、ポイント推定問題としてプロンプトチューニングを最適化するかのいずれかであり、カテゴリの様々な特性を記述できず、アプリケーションを制限することに失敗する可能性がある。
そこでは,ラベル固有の確率的プロンプトを階層的に生成し,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いる。
重要なことに、私たちは視覚パッチと言語的プロンプトの統計的距離を最小化し、トレーニングカテゴリを過度に適合させるのではなく、様々な視覚概念を忠実に捉えるように、確率的ラベル表現を推し進めることで、チューニングプロセスを意味的に調整する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
15個のデータセットにまたがる広範囲な結果から,提案したモデルの有望な転送性および一般化性能が定量的にも定性的にも示された。
For downstream applications of vision-language pre-trained models, there has been significant interest in constructing effective prompts. Existing works on prompt engineering, which either require laborious manual designs or optimize the prompt tuning as a point estimation problem, may fail to describe diverse characteristics of categories and limit their applications. We introduce a Bayesian probabilistic resolution to prompt tuning, where the label-specific stochastic prompts are generated hierarchically by first sampling a latent vector from an underlying distribution and then employing a lightweight generative model. Importantly, we semantically regularize the tuning process by minimizing the statistical distance between the visual patches and linguistic prompts, which pushes the stochastic label representations to faithfully capture diverse visual concepts, instead of overfitting the training categories. We evaluate the effectiveness of our approach on four tasks: few-shot image recognition, base-to-new generalization, dataset transfer learning, and domain shifts. Extensive results over 15 datasets show promising transferability and generalization performance of our proposed model, both quantitatively and qualitatively. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 仮想マーカーを用いた3次元メッシュ推定
3D Human Mesh Estimation from Virtual Markers ( http://arxiv.org/abs/2303.11726v4 ) ライセンス: Link先を確認 | Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Wentao Zhu, Yizhou Wang, | (参考訳) ボリューム3Dポーズ推定の成功にインスパイアされた最近の人間のメッシュ推定者は、3Dスケルトンを中間表現として推定することを提案し、そこからメッシュトポロジーを利用して密度の高い3Dメッシュを回帰させる。
しかし、体型情報は骨格の抽出によって失われ、平凡なパフォーマンスに繋がる。
高度なモーションキャプチャーシステムは、物体表面に密度の高い物理的マーカーを配置することで、非剛体運動から現実的なメッシュを抽出することで、この問題を解決する。
しかし、マーカーなしでは野生の画像には適用できない。
そこで本研究では,大規模モキャップデータから64個のランドマークキーポイントを学習し,物理マーカーの効果を模倣した中間表現である仮想マーカーを提案する。
仮想マーカーは野生の画像から正確に検出することができ、単純な補間によって現実的な形状で無傷メッシュを再構築することができる。
提案手法は3つのデータセット上で最先端の手法より優れている。
特に、様々な身体形状を持つSURREALデータセットにおいて、既存の手法を顕著な差で上回っている。
コードはhttps://github.com/ShirleyMaxx/VirtualMarkerで入手できる。
Inspired by the success of volumetric 3D pose estimation, some recent human mesh estimators propose to estimate 3D skeletons as intermediate representations, from which, the dense 3D meshes are regressed by exploiting the mesh topology. However, body shape information is lost in extracting skeletons, leading to mediocre performance. The advanced motion capture systems solve the problem by placing dense physical markers on the body surface, which allows to extract realistic meshes from their non-rigid motions. However, they cannot be applied to wild images without markers. In this work, we present an intermediate representation, named virtual markers, which learns 64 landmark keypoints on the body surface based on the large-scale mocap data in a generative style, mimicking the effects of physical markers. The virtual markers can be accurately detected from wild images and can reconstruct the intact meshes with realistic shapes by simple interpolation. Our approach outperforms the state-of-the-art methods on three datasets. In particular, it surpasses the existing methods by a notable margin on the SURREAL dataset, which has diverse body shapes. Code is available at https://github.com/ShirleyMaxx/VirtualMarker | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# AdaCL:適応型継続的学習
AdaCL:Adaptive Continual Learning ( http://arxiv.org/abs/2303.13113v3 ) ライセンス: Link先を確認 | Elif Ceren Gok Yildirim, Murat Onur Yildirim, Mert Kilickaya, Joaquin Vanschoren, | (参考訳) クラスインクリメンタルラーニング(Class-Incremental Learning)は、より深い分類器を更新して新しいカテゴリを学習し、それまで観察されたクラスの精度を維持したり改善することを目的としている。
従来の学習クラスを忘れないようにするための一般的な方法は、ニューラルネットワークの更新の正規化や、学習率、正規化強度、前例の数などのハイパーパラメータを含むメモリ上の例の保存である。
しかしながら、これらのハイパーパラメータは通常、開始時にのみ調整され、学習セッションを通して固定される。
本研究では,クラス増分学習におけるハイパーパラメータ「適応性」の必要性について検討する。学習速度,正規化強度,メモリサイズなどのハイパーパラメータを,手前のタスクの特性に応じて動的に調整する能力である。
本稿では,ベイズ最適化に基づくAdaCLを提案する。
各タスクにハイパーパラメータを適用すると、精度、忘れ、記憶が向上することを示す。
コードはhttps://github.com/ElifCerenGokYildirim/AdaCLで入手できる。
Class-Incremental Learning aims to update a deep classifier to learn new categories while maintaining or improving its accuracy on previously observed classes. Common methods to prevent forgetting previously learned classes include regularizing the neural network updates and storing exemplars in memory, which come with hyperparameters such as the learning rate, regularization strength, or the number of exemplars. However, these hyperparameters are usually only tuned at the start and then kept fixed throughout the learning sessions, ignoring the fact that newly encountered tasks may have varying levels of novelty or difficulty. This study investigates the necessity of hyperparameter `adaptivity' in Class-Incremental Learning: the ability to dynamically adjust hyperparameters such as the learning rate, regularization strength, and memory size according to the properties of the new task at hand. We propose AdaCL, a Bayesian Optimization-based approach to automatically and efficiently determine the optimal values for those parameters with each learning task. We show that adapting hyperpararmeters on each new task leads to improvement in accuracy, forgetting and memory. Code is available at https://github.com/ElifCerenGokYildirim/AdaCL. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 複素絡み合った状態の構成可能性に関するグラフ理論的考察
Graph-theoretic insights on the constructability of complex entangled states ( http://arxiv.org/abs/2304.06407v3 ) ライセンス: Link先を確認 | L. Sunil Chandran, Rishikesh Gajjala, | (参考訳) 大規模な量子フォトニクス実験を構成する最も効率的な自動化方法は、特定の性質を持つグラフの抽象表現によるものである。
人工知能とSATソルバを用いて新たな方向を探索し、そのようなグラフを見つける一方で、グラフのサイズが大きくなるにつれて計算が不可能になる。
そこで我々は,実験用量子光学において重要な開解問題,すなわち複素絡み合った量子状態を構築することができるかどうかを問う解析的アプローチと実験用グラフの局所スペーシフィケーション手法を導入する。
これにより、量子資源理論、特定の量子フォトニクス系の制限、および量子物理学の実験を設計するためのグラフ理論技術の使用に関するさらなる洞察が得られます。
The most efficient automated way to construct a large class of quantum photonic experiments is via abstract representation of graphs with certain properties. While new directions were explored using Artificial intelligence and SAT solvers to find such graphs, it becomes computationally infeasible to do so as the size of the graph increases. So, we take an analytical approach and introduce the technique of local sparsification on experiment graphs, using which we answer a crucial open question in experimental quantum optics, namely whether certain complex entangled quantum states can be constructed. This provides us with more insights into quantum resource theory, the limitation of specific quantum photonic systems and initiates the use of graph-theoretic techniques for designing quantum physics experiments. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# ハミルトニアンシミュレーションによる指数大規模非線形微分方程式の多項式時間量子アルゴリズム
A Polynomial Time Quantum Algorithm for Exponentially Large Scale Nonlinear Differential Equations via Hamiltonian Simulation ( http://arxiv.org/abs/2305.00653v4 ) ライセンス: Link先を確認 | Yu Tanaka, Keisuke Fujii, | (参考訳) 量子コンピュータは、様々な産業や科学分野において重要な役割を果たす非線形常微分方程式(ODE)のシステムを効率的に解くことができる。
しかし、どの非線形ODEのシステムが、どの仮定の下で、量子コンピュータを用いて指数的スピードアップを達成できるかは定かではない。
本研究では,量子コンピュータ上で効率よく解ける非線形ODEのクラスを導入し,効率を$O(T {\rm log}(N) {\rm polylog}(1/\epsilon)$,$T$は進化時間,$\epsilon$は許容誤差,$N$は系の変数数,と定義する。
具体的には、非線形ODEの系をハミルトン力学にマッピングするためにクープマン・フォン・ノイマン線型化を用いて、写像されたハミルトンのノルムが保存され、ハミルトンのノルムがスパースである条件を見つける。
これにより、$O({\rm log}(N))$ overhead で非線形ODEを解くのに最適なハミルトンシミュレーション手法を利用できる。
さらに、非線形ODEには、非線形高調波発振器や短距離倉本モデルなど、幅広い非線形ODEのシステムが含まれることを示す。
これは、Koopman-von Neumann線形化による指数量子スピードアップを持つ非線形ODEのシステムを解く最初の具体的な例であるため、これらの発見は非線形問題の解法における量子コンピュータの適用に大きく貢献する。
Quantum computers have the potential to efficiently solve a system of nonlinear ordinary differential equations (ODEs), which play a crucial role in various industries and scientific fields. However, it remains unclear which system of nonlinear ODEs, and under what assumptions, can achieve exponential speedup using quantum computers. In this work, we introduce a class of systems of nonlinear ODEs that can be efficiently solved on quantum computers, where the efficiency is defined as solving the system with computational complexity of $O(T {\rm log}(N) {\rm polylog}(1/\epsilon))$, where $T$ is the evolution time, $\epsilon$ is the allowed error, and $N$ is the number of variables in the system. Specifically, we employ the Koopman-von Neumann linearization to map the system of nonlinear ODEs to Hamiltonian dynamics and find conditions where the norm of the mapped Hamiltonian is preserved and the Hamiltonian is sparse. This allows us to use the optimal Hamiltonian simulation technique for solving the nonlinear ODEs with $O({\rm log}(N))$ overhead. Furthermore, we show that the nonlinear ODEs include a wide range of systems of nonlinear ODEs, such as the nonlinear harmonic oscillators and the short-range Kuramoto model. Since this is the first concrete example of solving systems of nonlinear ODEs with exponential quantum speedup by the Koopman-von Neumann linearization, these findings contribute significantly to the application of quantum computers in solving nonlinear problems. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 室内のエレファント:自然言語処理研究におけるビッグデータの存在分析
The Elephant in the Room: Analyzing the Presence of Big Tech in Natural Language Processing Research ( http://arxiv.org/abs/2305.02797v3 ) ライセンス: Link先を確認 | Mohamed Abdalla, Jan Philip Wahle, Terry Ruas, Aurélie Névéol, Fanny Ducel, Saif M. Mohammad, Karën Fort, | (参考訳) 自然言語処理(NLP)の深層学習手法の最近の進歩は、新たなビジネス機会を生み出し、NLP研究を産業発展に欠かせないものにしている。
NLPの分野では、政府や大学とともに大きなプレーヤーの1つとして、産業が研究に与える影響を追跡することが重要である。
本研究では,NLPコミュニティにおける産業の存在を時間とともに定量化し,特徴付けることを目的とする。
78,187冊のNLP出版物と701冊のNLP出版物の包括的なメタデータを持つコーパスを用いて,90年代初め以降の分野における業界の存在を探求する。
NLP作家の業界における存在感は、過去5年間で急激な増加(2017年から2022年までの180%)を前に着実に推移している。
いくつかの企業は出版物の大半を占め、助成金やインターンシップを通じて学術研究者に資金を提供している。
本研究は,自然言語処理研究における産業の存在と影響が重要かつ急速に成長していることを示している。
この研究は、この分野における産業の影響の透明性を高めることを求めている。
Recent advances in deep learning methods for natural language processing (NLP) have created new business opportunities and made NLP research critical for industry development. As one of the big players in the field of NLP, together with governments and universities, it is important to track the influence of industry on research. In this study, we seek to quantify and characterize industry presence in the NLP community over time. Using a corpus with comprehensive metadata of 78,187 NLP publications and 701 resumes of NLP publication authors, we explore the industry presence in the field since the early 90s. We find that industry presence among NLP authors has been steady before a steep increase over the past five years (180% growth from 2017 to 2022). A few companies account for most of the publications and provide funding to academic researchers through grants and internships. Our study shows that the presence and impact of the industry on natural language processing research are significant and fast-growing. This work calls for increased transparency of industry influence in the field. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 絡み合いは任意の量子状態の集合を隠蔽するのに不可欠である
Entanglement is indispensable for masking arbitrary set of quantum states ( http://arxiv.org/abs/2305.02999v2 ) ライセンス: Link先を確認 | Debarupa Saha, Priya Ghosh, Ujjwal Sen, | (参考訳) 混合量子状態の集合に含まれる量子情報のマスキングにおける絡み合いの役割を疑問視する。
まず、この2つの純量子状態の古典的な混合からなる混合状態の集合全体をマスクできるマスカが示される。
次に、2つの異なる集合をマスキングする際の絡み合いによって生じる部分を見つけようとする: 1つは、2つの単一キュービット純可換状態の古典的混合によって形成される混合状態の集合、もう1つは、2つの単一キュービット純非可換状態の混合によって得られる混合状態の集合である。
どちらの場合も、入力状態が2つの純状態の等混合でない限り、マスク状態は絡み合っていることを示す。
このことは、混合性や相互可換性に関わらず、2つの単一キュービット状態の任意の集合を隠蔽するためには絡み合いが必要であることを明らかにしている。
We question the role of entanglement in masking quantum information contained in a set of mixed quantum states. We first show that a masker that can mask any two single-qubit pure states, can mask the entire set of mixed states comprising of the classical mixtures of those two pure qubit states as well. We then try to find the part played by entanglement in masking two different sets: One, a set of mixed states formed by the classical mixtures of two single-qubit pure commuting states, and another, a set of mixed states obtained by mixing two single-qubit pure non-commuting states. For both cases, we show that the masked states remain entangled unless the input state is an equal mixture of the two pure states. This in turn reveals that entanglement is necessary for masking an arbitrary set of two single qubit states, regardless of their mixednesses and mutual commutativity. | 翻訳日:2024-07-02 18:19:41 公開日:2024-07-01 |
# 制御静的ループ解析による状態マシンとしてのプロトコルフォーマットの抽出
Extracting Protocol Format as State Machine via Controlled Static Loop Analysis ( http://arxiv.org/abs/2305.13483v4 ) ライセンス: Link先を確認 | Qingkai Shi, Xiangzhe Xu, Xiangyu Zhang, | (参考訳) プロトコルメッセージフォーマットのリバースエンジニアリングは多くのセキュリティアプリケーションにとって重要である。
メインストリームのテクニックは動的解析を使い、低カバレッジの問題を継承する -- 推論されたメッセージフォーマットは入力の特徴を反映するだけである。
高いカバレッジを達成するため、我々は静的解析を用いてプロトコルパーサの実装からメッセージフォーマットを推測する。
本研究では,制約付き正規表現を用いて形式を記述し,有限状態マシンを用いて解析する,極めて困難なプロトコルのクラスに着目した。
このような状態マシンは複雑な解析ループとして実装されることが多く、従来の静的解析による解析は本質的に困難である。
我々の新しい手法は、各ループ反復を状態として、ループ反復間の依存性を状態遷移として、状態マシンを抽出する。
パスに敏感で精度が高いが、パスの爆発を避けるため、慎重に設計されたルールに基づいて可能な限り多くのパスをマージするように制御される。
評価結果は、状態マシンを推測し、その結果、90%以上の精度とリコールで5分以内でメッセージフォーマットを推測できることを示す。
また、ステートマシンを用いてプロトコルファジィザを20%から230%改善し、ベースラインと比較して10日以上ゼロデイを検出する。
Reverse engineering of protocol message formats is critical for many security applications. Mainstream techniques use dynamic analysis and inherit its low-coverage problem -- the inferred message formats only reflect the features of their inputs. To achieve high coverage, we choose to use static analysis to infer message formats from the implementation of protocol parsers. In this work, we focus on a class of extremely challenging protocols whose formats are described via constraint-enhanced regular expressions and parsed using finite-state machines. Such state machines are often implemented as complicated parsing loops, which are inherently difficult to analyze via conventional static analysis. Our new technique extracts a state machine by regarding each loop iteration as a state and the dependency between loop iterations as state transitions. To achieve high, i.e., path-sensitive, precision but avoid path explosion, the analysis is controlled to merge as many paths as possible based on carefully-designed rules. The evaluation results show that we can infer a state machine and, thus, the message formats, in five minutes with over 90% precision and recall, far better than state of the art. We also applied the state machines to enhance protocol fuzzers, which are improved by 20% to 230% in terms of coverage and detect ten more zero-days compared to baselines. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# 対話的評価によるタスク指向対話におけるユーザ親和性バイアスの探索
Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation ( http://arxiv.org/abs/2305.13857v2 ) ライセンス: Link先を確認 | Takyoung Kim, Jamin Shin, Young-Ho Kim, Sanghwan Bae, Sungdong Kim, | (参考訳) ほとんどのタスク指向対話(TOD)ベンチマークでは、システムの機能内でのユーザ動作を厳格なユーザ目標、すなわち"ユーザ親しみ"バイアスによって制限することで、システムの使用方法を正確に知るユーザを前提としている。
このデータバイアスは、データ駆動型TODシステムと組み合わせるとより深くなります。
そこで本研究では,現実シナリオに対するTODシステムの脆弱性を明らかにするために,インタラクティブなユーザスタディを実施している。
特にユーザとユーザを比較します
1)システムの境界(閉じたゴール)に適合する詳細な目標指示
2) しばしばサポートされないが現実的な(オープンゴール)曖昧な目標指示。
オープンゴール環境での会話は、システムの破滅的な失敗につながり、会話の92%が重大な問題を抱えていた。
さらに,エラーアノテーションによる2つの設定間の特徴を特定するために,徹底的な解析を行う。
このことから,システムの機能を超えても,システムがユーザの要求を処理するように振る舞う,新たな“予測”行動が発見された。
我々は,近年の大規模言語モデルがこのような行動に支障をきたす可能性があることを示す一方で,その特性と毒性について論じる。
Most task-oriented dialogue (TOD) benchmarks assume users that know exactly how to use the system by constraining the user behaviors within the system's capabilities via strict user goals, namely "user familiarity" bias. This data bias deepens when it combines with data-driven TOD systems, as it is impossible to fathom the effect of it with existing static evaluations. Hence, we conduct an interactive user study to unveil how vulnerable TOD systems are against realistic scenarios. In particular, we compare users with 1) detailed goal instructions that conform to the system boundaries (closed-goal) and 2) vague goal instructions that are often unsupported but realistic (open-goal). Our study reveals that conversations in open-goal settings lead to catastrophic failures of the system, in which 92% of the dialogues had significant issues. Moreover, we conduct a thorough analysis to identify distinctive features between the two settings through error annotation. From this, we discover a novel "pretending" behavior, in which the system pretends to handle the user requests even though they are beyond the system's capabilities. We discuss its characteristics and toxicity while showing recent large language models can also suffer from this behavior. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# L^2$空間におけるポテンシャル散乱:(1)定常状態の非直交性
Potential scatterings in $L^2$ space: (1) non-orthogonality of stationary states ( http://arxiv.org/abs/2305.16939v4 ) ライセンス: Link先を確認 | Kenzo Ishikawa, | (参考訳) 異なるエネルギーの固有状態の直交性とポテンシャル散乱におけるその意味はラベル付けされていない。
異なるエネルギーの散乱状態のスカラー積は有限幅のポテンシャルにおいて有限非直交項を持つ。
それらの重ね合わせは時間に依存したノルムを持ち、孤立状態には適さない。
これらのシステムでは、現象を完全に記述した厳密な遷移確率を見つけるための摂動法と変分法が実現可能である。
様々な例外的ポテンシャルにおいて、直交性は満足される。
Orthogonality of eigenstates of different energies and its implications in potential scattering are unlabeled. Scalar products of scattering states of different energies are found to have finite non-orthogonal terms in potentials of finite widths. Their superpositions have time-dependent norms, and are not suitable for isolate states. In these systems, a perturbative method and a variational method are viable methods for finding a rigorous transition probability that describes phenomena completely. In various exceptional potentials, an orthogonality is satisfied. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# ファイルバイトを直接操作するトランスフォーマー
Bytes Are All You Need: Transformers Operating Directly On File Bytes ( http://arxiv.org/abs/2306.00238v2 ) ライセンス: Link先を確認 | Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari, | (参考訳) 現代のディープラーニングアプローチは、通常、モダリティ固有の処理を利用する。
例えば、画像分類における最も一般的なディープラーニングアプローチは、画像ファイルバイトをニューラルネットワークに渡されるRGBテンソルにデコードすることである。
そこで本研究では,ファイルバイトの分類を推論時に復号化することなく直接行うことで,モーダリティ非依存表現学習について検討する。
これにより、手作業で設計したモダリティ固有の処理を使わずに、様々なモダリティでモデルを動作させることができる。
私たちのモデルであるByteFormerは、同じサイズのDeITモデルと比較して、ImageNet Top-1の分類精度を5\%($72.2\%から$7.33\%)改善します。
Perceiver IOと比較して、我々のモデルは推論時にモーダリティ固有の処理を全く必要とせず、ImageNetで同等の精度で桁違いに少ないパラメータを使用する。
我々は、同じByteFormerアーキテクチャが、修正やモダリティ固有の前処理なしでオーディオ分類を行うことができることを示した。
我々は、Speech Commands V2データセットの分類精度9,5.42\%(最先端精度9,8.7\%)を達成する。
さらに、ByteFormerは画像と音声を共同で操作し、入力モードの明示的な知識を必要とせずに、共同分類を処理できることを実証した。
私たちはhttps://github.com/apple/corenet/tree/main/projects/byteformer.comでコードをリリースします。
Modern deep learning approaches usually utilize modality-specific processing. For example, the most common deep learning approach to image classification involves decoding image file bytes into an RGB tensor which is passed into a neural network. Instead, we investigate modality-independent representation learning by performing classification directly on file bytes, without the need for decoding files at inference time. This enables models to operate on various modalities without any hand-designed, modality-specific processing. Our model, ByteFormer, improves ImageNet Top-1 classification accuracy by $5\%$ (from $72.2\%$ to $77.33\%$) relative to DeIT models of similar size. Compared to Perceiver IO, our model requires absolutely no modality-specific processing at inference time, and uses an order of magnitude fewer parameters at equivalent accuracy on ImageNet. We demonstrate that the same ByteFormer architecture can perform audio classification without modifications or modality-specific preprocessing. We achieve $95.42\%$ classification accuracy on the Speech Commands V2 dataset (comparable to the state-of-the-art accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer can operate jointly on images and audio, handling joint classification without explicit knowledge of the input modality. We release our code at https://github.com/apple/corenet/tree/main/projects/byteformer. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# 特徴相互作用に基づくグローバルな特徴効果の分解
Decomposing Global Feature Effects Based on Feature Interactions ( http://arxiv.org/abs/2306.00541v2 ) ライセンス: Link先を確認 | Julia Herbinger, Marvin N. Wright, Thomas Nagler, Bernd Bischl, Giuseppe Casalicchio, | (参考訳) 部分依存プロットのような大域的特徴効果法は、期待される限界特徴効果の理解可能な可視化を提供する。
しかし、このようなグローバルな特徴効果法は、特徴相互作用が存在する場合の単一観測の局所的特徴効果をうまく表さないため、誤解を招く可能性がある。
局所的な特徴効果の相互作用に関連した不均一性が最小化されるような特徴空間における解釈可能な領域を見つけるための再帰的分割に基づく新しいフレームワークであるグローバルエフェクトの一般化加法分解(GADGET)を正式に導入する。
フレームワークの数学的基盤を提供し,部分的依存,局所的影響の蓄積,シェープリー加法的説明(SHAP)依存といった限界的特徴効果を可視化する最も一般的な手法に適用可能であることを示す。
さらに,提案フレームワークに適合する任意の特徴効果手法に適用可能な重要な特徴相互作用を検出するために,新しい置換に基づく相互作用テストを導入,検証する。
提案手法の理論的特性を,異なる実験環境における様々な特徴効果法に基づいて実験的に評価した。
さらに,提案手法を実世界の3つの実例に適用し,その有用性を示す。
Global feature effect methods, such as partial dependence plots, provide an intelligible visualization of the expected marginal feature effect. However, such global feature effect methods can be misleading, as they do not represent local feature effects of single observations well when feature interactions are present. We formally introduce generalized additive decomposition of global effects (GADGET), which is a new framework based on recursive partitioning to find interpretable regions in the feature space such that the interaction-related heterogeneity of local feature effects is minimized. We provide a mathematical foundation of the framework and show that it is applicable to the most popular methods to visualize marginal feature effects, namely partial dependence, accumulated local effects, and Shapley additive explanations (SHAP) dependence. Furthermore, we introduce and validate a new permutation-based interaction test to detect significant feature interactions that is applicable to any feature effect method that fits into our proposed framework. We empirically evaluate the theoretical characteristics of the proposed methods based on various feature effect methods in different experimental settings. Moreover, we apply our introduced methodology to three real-world examples to showcase their usefulness. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# KoLA: 大規模言語モデルのワールドナレッジを慎重にベンチマークする
KoLA: Carefully Benchmarking World Knowledge of Large Language Models ( http://arxiv.org/abs/2306.09296v3 ) ライセンス: Link先を確認 | Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li, | (参考訳) 大規模言語モデル(LLM)の先例のない性能は、評価の改善を必要とする。
単にLLM能力の広さを探求するだけでなく、綿密で思慮深い設計が、徹底的で偏見がなく、適用可能な評価に不可欠であると信じている。
LLMに対する世界的知識の重要性を考慮し、知識指向LCMアセスメントベンチマーク(KoLA)を構築し、(1) textbf{ability modeling}では、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクを網羅する。
2) <textbf{data} では,LLM が事前学習したコーパスであるウィキペディアと,未確認データを扱う能力と知識の進化を評価することを目的とした,新たなコーパスを併用する。
(3) <textbf{evaluation criteria} には,タスクやモデル間の数値コンパビリティ向上のための総合的な基準スコアと,知識生成能力の自動評価のための独自の自己コントラスト指標を含む,コントラスト的なシステムを採用する。
オープンソースおよび商用LLMを28ドルで評価し,興味深い結果を得た。
KoLAデータセットとオープン参加型リーダボードはhttps://kola.xlore.cnで公開されており、LLMとナレッジ関連のシステムを開発するためのリファレンスを提供するために継続的に更新される。
The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For \textbf{ability modeling}, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering $19$ tasks. (2) For \textbf{data}, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For \textbf{evaluation criteria}, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge-creating ability. We evaluate $28$ open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# 変分近傍ラベル法による確率的テスト時間一般化
Probabilistic Test-Time Generalization by Variational Neighbor-Labeling ( http://arxiv.org/abs/2307.04033v3 ) ライセンス: Link先を確認 | Sameer Ambekar, Zehao Xiao, Jiayi Shen, Xiantong Zhen, Cees G. M. Snoek, | (参考訳) 本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
我々は、ソーストレーニングとターゲットテストの厳密な分離に従うが、推論中にラベル付けされていないターゲットデータ自体の価値を利用する。
私たちは3つの貢献をします。
まず,実験時に対象領域に学習したモデルを一般化するために,対象サンプルの確率論的擬似ラベル化を提案する。
擬似ラベルを分布としてモデル化することで,テスト時の一般化を変分推論問題として定式化し,一般化中の不確実性を考慮し,不正確な擬似ラベルの誤誘導信号を緩和する。
次に,より堅牢な擬似ラベルを生成するために,近隣のサンプルの情報を組み込んだ変分近傍ラベルを学習する。
第3に、より代表的対象情報を組み込んで、より正確で頑健な近隣ラベルを生成する能力を学ぶために、一般化手順をシミュレートする訓練中にメタ一般化ステージを導入する。
広く利用されている7つのデータセットの実験は、提案の利点、能力、有効性を示している。
This paper strives for domain generalization, where models are trained exclusively on source domains before being deployed on unseen target domains. We follow the strict separation of source training and target testing, but exploit the value of the unlabeled target data itself during inference. We make three contributions. First, we propose probabilistic pseudo-labeling of target samples to generalize the source-trained model to the target domain at test time. We formulate the generalization at test time as a variational inference problem, by modeling pseudo labels as distributions, to consider the uncertainty during generalization and alleviate the misleading signal of inaccurate pseudo labels. Second, we learn variational neighbor labels that incorporate the information of neighboring target samples to generate more robust pseudo labels. Third, to learn the ability to incorporate more representative target information and generate more precise and robust variational neighbor labels, we introduce a meta-generalization stage during training to simulate the generalization procedure. Experiments on seven widely-used datasets demonstrate the benefits, abilities, and effectiveness of our proposal. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# データ依存型Oracleによる統計的学習のための1次手法のリスクを最小限に高める
Minimax Excess Risk of First-Order Methods for Statistical Learning with Data-Dependent Oracles ( http://arxiv.org/abs/2307.04679v3 ) ライセンス: Link先を確認 | Kevin Scaman, Mathieu Even, Batiste Le Bars, Laurent Massoulié, | (参考訳) 本稿では,教師付き学習,移動学習,頑健な学習,フェデレーション学習などのシナリオにおいて,統計的学習のための一階述語学習の一般化能力を解析することを目的とする。
そこで我々は,データ依存のオラクルから得られる部分的な観測によって勾配がアクセスされる場合に,強い凸と滑らかな統計的学習の最小限超過リスクに対して,急激な上限と下限を提供する。
この新しいオーラクルのクラスは、任意のデータ分布と勾配をクエリできるため、トレーニングデータ分布がターゲット(またはテスト)分布と一致しないシナリオに適している。
特に、上と下の境界は勾配推定器によって達成できる最小の2乗誤差に比例するので、パラメータ推定に関する広範な文献を用いて、上記のシナリオにおける複数の鋭い境界を容易に導出することができる。
In this paper, our aim is to analyse the generalization capabilities of first-order methods for statistical learning in multiple, different yet related, scenarios including supervised learning, transfer learning, robust learning and federated learning. To do so, we provide sharp upper and lower bounds for the minimax excess risk of strongly convex and smooth statistical learning when the gradient is accessed through partial observations given by a data-dependent oracle. This novel class of oracles can query the gradient with any given data distribution, and is thus well suited to scenarios in which the training data distribution does not match the target (or test) distribution. In particular, our upper and lower bounds are proportional to the smallest mean square error achievable by gradient estimators, thus allowing us to easily derive multiple sharp bounds in the aforementioned scenarios using the extensive literature on parameter estimation. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# 逆進化層:ディープニューラルネットワークのための物理インフォームド正規化器
Inverse Evolution Layers: Physics-informed Regularizers for Deep Neural Networks ( http://arxiv.org/abs/2307.07344v2 ) ライセンス: Link先を確認 | Chaoyu Liu, Zhonghua Qiao, Chao Li, Carola-Bibiane Schönlieb, | (参考訳) 偏微分方程式(PDE)を用いた従来の画像処理手法は、多くの有意義な正則化器と、幅広い画像関連タスクのための重要な理論的基礎を提供する。
これにより、ニューラルネットワークへの統合は有望な道のりとなる。
本稿では,PDEに基づく進化モデルの逆過程にインスパイアされた新しい正規化手法を提案する。
具体的には、出力が望ましくない特性を持つニューラルネットワークをペナライズするために、不適切な特性増幅器として機能する逆進化層(IEL)を提案する。
IELを使うことで、特定の正規化目標を達成することができ、PDEモデルの対応する特性でニューラルネットワークの出力を達成できる。
熱拡散IELを用いたセマンティックセグメンテーションタスクに着目し,ノイズラベル効果の軽減効果を実証した。
さらに,輪郭出力の発生を防止するために,ニューラルネットワークに基づくセグメント化モデルにおいて凸形状正則化を強制する曲線運動IELを開発した。
理論的解析により、IELが効果的な正則化機構として有効であること、特にラベル問題に対するトレーニングの扱いについて確認される。
Traditional image processing methods employing partial differential equations (PDEs) offer a multitude of meaningful regularizers, along with valuable theoretical foundations for a wide range of image-related tasks. This makes their integration into neural networks a promising avenue. In this paper, we introduce a novel regularization approach inspired by the reverse process of PDE-based evolution models. Specifically, we propose inverse evolution layers (IELs), which serve as bad property amplifiers to penalize neural networks of which outputs have undesired characteristics. Using IELs, one can achieve specific regularization objectives and endow neural networks' outputs with corresponding properties of the PDE models. Our experiments, focusing on semantic segmentation tasks using heat-diffusion IELs, demonstrate their effectiveness in mitigating noisy label effects. Additionally, we develop curve-motion IELs to enforce convex shape regularization in neural network-based segmentation models for preventing the generation of concave outputs. Theoretical analysis confirms the efficacy of IELs as an effective regularization mechanism, particularly in handling training with label issues. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# 光時計の相対論的時間拡張における量子非局在化効果検出の可能性について
On the feasibility of detecting quantum delocalization effects on relativistic time dilation in optical clocks ( http://arxiv.org/abs/2307.08938v2 ) ライセンス: Link先を確認 | Yanglin Hu, Maximilian P. E. Lock, Mischa P. Woods, | (参考訳) 量子相対論的補正において、重力場の存在下での光学格子配置において、非局在原子時計の予測時間拡張を導出する。
相対論的時間拡張が古典的一般相対性理論の領域外にある運動のエキゾチックな量子状態を調べ、現在開発中の光学格子時計が、この量子効果を快適に検出できる状態を見つける(そのような状態を生成する技術的課題が満たされ、そのようなクロックの予測精度が達成できる)。
我々は、詳細な実験プロトコルを提供し、騒音が予測に与える影響を分析する。
また、我々の予測された量子相対論的時間拡張効果の大きさは、現在の$^{87}\mathrm{Sr}$光格子クロックの発生において、検出可能な到達範囲外であることを示す。
我々の計算は、ガウス状態に制限されるときの古典的一般相対性理論の予測時間拡張と一致する。
We derive the predicted time dilation of delocalized atomic clocks in an optical lattice setup in the presence of a gravitational field to leading order in quantum relativistic corrections. We investigate exotic quantum states of motion whose relativistic time dilation is outside of the realm of classical general relativity, finding a regime where $^{24}\mathrm{Mg}$ optical lattice clocks currently in development would comfortably be able to detect this quantum effect (if the technical challenge of generating such states can be met and the expected accuracy of such clocks can be attained). We provide a detailed experimental protocol and analyse the effects of noise on our predictions. We also show that the magnitude of our predicted quantum relativistic time dilation effect remains just out of detectable reach for the current generation of $^{87}\mathrm{Sr}$ optical lattice clocks. Our calculations agree with the predicted time dilation of classical general relativity when restricting to Gaussian states. | 翻訳日:2024-07-02 18:09:56 公開日:2024-07-01 |
# テキスト・画像生成モデルからの知識の希薄化はCLIPにおけるビシオ言語推論を改善する
Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP ( http://arxiv.org/abs/2307.09233v3 ) ライセンス: Link先を確認 | Samyadeep Basu, Shell Xu Hu, Maziar Sanjabi, Daniela Massiceti, Soheil Feizi, | (参考訳) CLIPのような画像テキストコントラストモデルは、ゼロショット分類、画像テキスト検索、転送学習に広く応用されている。
しかし、彼らはしばしば、そのパフォーマンスがランダムな確率以上である構成的視覚言語的タスク(例えば、属性バインディングやオブジェクト-リレーショナルシップ)に苦労する。
そこで本研究では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた細管CLIPであり,その強い視覚言語的推論能力で知られている。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
この研究は、視覚言語学的推論能力を改善したコントラスト画像テキストモデルを強化するために、生成モデルからよく設計された蒸留目標の可能性を裏付けるものである。
Image-text contrastive models like CLIP have wide applications in zero-shot classification, image-text retrieval, and transfer learning. However, they often struggle on compositional visio-linguistic tasks (e.g., attribute-binding or object-relationships) where their performance is no better than random chance. To address this, we introduce SDS-CLIP, a lightweight and sample-efficient distillation method to enhance CLIP's compositional visio-linguistic reasoning. Our approach fine-tunes CLIP using a distillation objective borrowed from large text-to-image generative models like Stable-Diffusion, which are known for their strong visio-linguistic reasoning abilities. On the challenging Winoground benchmark, SDS-CLIP improves the visio-linguistic performance of various CLIP models by up to 7%, while on the ARO dataset, it boosts performance by up to 3%. This work underscores the potential of well-designed distillation objectives from generative models to enhance contrastive image-text models with improved visio-linguistic reasoning capabilities. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# ハイパーネットを用いた高速非教師付き深部外乱モデル選択
Fast Unsupervised Deep Outlier Model Selection with Hypernetworks ( http://arxiv.org/abs/2307.10529v2 ) ライセンス: Link先を確認 | Xueying Ding, Yue Zhao, Leman Akoglu, | (参考訳) 外乱検出(OD)は、多くのテクニックの豊富な文献で多くの応用を見出す。
ディープニューラルネットワークに基づくOD(DOD)は、ディープラーニングの多くの進歩のおかげで、近年注目を集めている。
本稿では,教師なしDOD,すなわち実効性ハイパーパラメータ(HP)チューニング/モデル選択によるクリティカル・イット・アンサンディドな課題について考察する。
いくつかの先行研究は、ODモデルのHPに対する感受性を報告しているが、HPの長いリストを示す現代のDODモデルにとって、非常に重要なものになっている。
我々は,DODモデルのチューニングにHYPERを導入し,(1)監督のない検証(ラベル付き異常の欠如による)と(2)HP/モデル空間の効率的な探索(HP数の増加による)という2つの基本的な課題に対処する。
鍵となるアイデアは、HPをメインのDODモデルの最適な重みにマッピングする新しいハイパーネットワーク(HN)を設計し、訓練することである。
HYPERは、多くのDODモデルの重みを動的に生成できる単一のHN(HPの異なるモデルに対応する)に乗じて、大幅なスピードアップを実現している。
さらに,従来のODタスクのメタラーニングを利用して,提案したHNを効率的にトレーニングしたプロキシバリデーション関数をラベルでトレーニングする。
35のODタスクに対する大規模な実験により、HYPERは高い効率で8つのベースラインに対して高いパフォーマンスを達成している。
Outlier detection (OD) finds many applications with a rich literature of numerous techniques. Deep neural network based OD (DOD) has seen a recent surge of attention thanks to the many advances in deep learning. In this paper, we consider a critical-yet-understudied challenge with unsupervised DOD, that is, effective hyperparameter (HP) tuning/model selection. While several prior work report the sensitivity of OD models to HPs, it becomes ever so critical for the modern DOD models that exhibit a long list of HPs. We introduce HYPER for tuning DOD models, tackling two fundamental challenges: (1) validation without supervision (due to lack of labeled anomalies), and (2) efficient search of the HP/model space (due to exponential growth in the number of HPs). A key idea is to design and train a novel hypernetwork (HN) that maps HPs onto optimal weights of the main DOD model. In turn, HYPER capitalizes on a single HN that can dynamically generate weights for many DOD models (corresponding to varying HPs), which offers significant speed-up. In addition, it employs meta-learning on historical OD tasks with labels to train a proxy validation function, likewise trained with our proposed HN efficiently. Extensive experiments on 35 OD tasks show that HYPER achieves high performance against 8 baselines with significant efficiency gains. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# 予後不良肺癌の総合的生存予測のための深層学習アプローチ
A Deep Learning Approach for Overall Survival Prediction in Lung Cancer with Missing Values ( http://arxiv.org/abs/2307.11465v5 ) ライセンス: Link先を確認 | Camillo Maria Caruso, Valerio Guarrasi, Sara Ramella, Paolo Soda, | (参考訳) 肺がん研究の分野では、特に総合生存(OS)の分析において、人工知能(AI)は特定の目的において重要な役割を担っている。
医療領域における欠落データの一般的な問題を考えると、私たちの主な目的は、この欠落したデータを動的に処理できるAIモデルを開発することです。
さらに、我々は、すべてのアクセス可能なデータを活用し、興味のない出来事を経験した無検閲の患者と、そうでない検閲された患者の両方を効果的に分析することを目的としている。
これらの目的の実現を通じて,本モデルは非小細胞肺癌(NSCLC)患者に対してOSの正確な予測を提供することを目標とし,これらの課題を克服する。
我々は,NSCLCの文脈における生存分析の新たなアプローチを提案する。この手法はトランスフォーマーアーキテクチャの強みを利用して,計算戦略を必要とせず,利用可能な特徴のみを考慮に入れている。
より具体的には、このモデルは、機能埋め込みとマスクされた自己注意を適用して、欠落したデータを隠蔽し、利用可能なデータを完全に活用することによって、トランスフォーマーアーキテクチャを表層データにカスタマイズする。
アドホックデザインによるOSの損失を利用することで、検閲された患者と無検閲の患者の両方、そして時間の経過とともにリスクの変化を考慮できる。
提案手法を,様々な計算手法と組み合わせた生存分析のための最先端モデルと比較した。
C-インデックスの時間依存性変種であるCt-index(71.97, 77.58, 80.72)を1ヶ月, 1年, 2年の時間単位で取得し, 計算方法によらず, C-indexの時間依存性の異なるCt-index(71.97, 77.58, 80.72)を経年的に評価した。
In the field of lung cancer research, particularly in the analysis of overall survival (OS), artificial intelligence (AI) serves crucial roles with specific aims. Given the prevalent issue of missing data in the medical domain, our primary objective is to develop an AI model capable of dynamically handling this missing data. Additionally, we aim to leverage all accessible data, effectively analyzing both uncensored patients who have experienced the event of interest and censored patients who have not, by embedding a specialized technique within our AI model, not commonly utilized in other AI tasks. Through the realization of these objectives, our model aims to provide precise OS predictions for non-small cell lung cancer (NSCLC) patients, thus overcoming these significant challenges. We present a novel approach to survival analysis with missing values in the context of NSCLC, which exploits the strengths of the transformer architecture to account only for available features without requiring any imputation strategy. More specifically, this model tailors the transformer architecture to tabular data by adapting its feature embedding and masked self-attention to mask missing data and fully exploit the available ones. By making use of ad-hoc designed losses for OS, it is able to account for both censored and uncensored patients, as well as changes in risks over time. We compared our method with state-of-the-art models for survival analysis coupled with different imputation strategies. We evaluated the results obtained over a period of 6 years using different time granularities obtaining a Ct-index, a time-dependent variant of the C-index, of 71.97, 77.58 and 80.72 for time units of 1 month, 1 year and 2 years, respectively, outperforming all state-of-the-art methods regardless of the imputation method used. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# フィードフォワードを用いた浅部回路による状態形成
State preparation by shallow circuits using feed forward ( http://arxiv.org/abs/2307.14840v2 ) ライセンス: Link先を確認 | Harry Buhrman, Marten Folkertsma, Bruno Loff, Niels M. P. Neumann, | (参考訳) フォールトトレラントな量子計算を実現するためには、まず1または2キュービットの量子ゲートを(可能な限り並列に)実行する4つのステップを繰り返す必要がある。
次に、量子ビットの部分集合におけるシンドロームの測定を行う。
第3に、(もしあれば)どのエラーが発生したかを確立するために、高速な古典計算を実行する。
第4に,誤差に応じて補正ステップを適用する。
次に、手順は次のゲート列で繰り返される。
これら4つのステップが成功するためには、ゲートの誤差率を一定の閾値以下にする必要がある。
残念ながら、現在の量子ハードウェアのエラー率はまだ高すぎる。
一方、現在の量子ハードウェアプラットフォームは、これらの4つのステップを念頭に設計されている。
本研究では, フォールトトレラント計算を行なわずに, 1キュービットゲートと近傍2キュービットゲートを実行する, 短い, 一定の深さの量子回路を強化するために, この4ステップ方式を用いる。
そこで本研究では,局所交互量子古典計算(LAQCC)と呼ばれる計算モデルについて検討する。
このモデルでは、量子ビットは近接する隣り合う相互作用を許容するグリッドに配置され、量子回路は中間測定値と一定深さであり、古典的なコントローラはこれらの中間測定結果の対数深度計算を行い、将来の量子演算を制御する。
このモデルは、NISQ時代の量子アルゴリズムと完全なフォールトトレラント量子計算の間に自然に適合する。
LAQCC回路は、一定の深さの量子回路では達成できない長範囲の相互作用を生成できることを示す。
これらのゲートを用いて、任意の数の状態、W状態、Dicke状態、May-bodyスカー状態に対する均一な重ね合わせのための3つの新しい状態準備プロトコルを作成する。
In order to achieve fault-tolerant quantum computation, we need to repeat the following sequence of four steps: First, perform 1 or 2 qubit quantum gates (in parallel if possible). Second, do a syndrome measurement on a subset of the qubits. Third, perform a fast classical computation to establish which errors have occurred (if any). Fourth, depending on the errors, we apply a correction step. Then the procedure repeats with the next sequence of gates. In order for these four steps to succeed, we need the error rate of the gates to be below a certain threshold. Unfortunately, the error rates of current quantum hardware are still too high. On the other hand, current quantum hardware platforms are designed with these four steps in mind. In this work we make use of this four-step scheme not to carry out fault-tolerant computations, but to enhance short, constant-depth, quantum circuits that perform 1 qubit gates and nearest-neighbor 2 qubit gates. To explore how this can be useful, we study a computational model which we call Local Alternating Quantum Classical Computations (LAQCC). In this model, qubits are placed in a grid allowing nearest neighbor interactions; the quantum circuits are of constant depth with intermediate measurements; a classical controller can perform log-depth computations on these intermediate measurement outcomes to control future quantum operations. This model fits naturally between quantum algorithms in the NISQ era and full fledged fault-tolerant quantum computation. We show that LAQCC circuits can create long-ranged interactions, which constant-depth quantum circuits cannot achieve, and use it to construct a range of useful multi-qubit gates. With these gates, we create three new state preparation protocols for a uniform superposition over an arbitrary number of states, W-states, Dicke states and may-body scar states. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# ラベルノイズ認識タスク表現(HitR)のランドマーク検出問題としてのフラーミング画像登録
Framing image registration as a landmark detection problem for label-noise-aware task representation (HitR) ( http://arxiv.org/abs/2308.01318v2 ) ライセンス: Link先を確認 | Diana Waldmannstetter, Ivan Ezhov, Benedikt Wiestler, Francesco Campi, Ivan Kukuljan, Stefan Ehrlich, Shankeeth Vinayahalingam, Bhakti Baheti, Satrajit Chakrabarty, Ujjwal Baid, Spyridon Bakas, Julian Schwarting, Marie Metz, Jan S. Kirschke, Daniel Rueckert, Rolf A. Heckemann, Marie Piraud, Bjoern H. Menze, Florian Kofler, | (参考訳) バイオメディカル画像解析では正確な画像登録が重要であり、適切な登録アルゴリズムを選択するには慎重に検討する必要がある。
多くのアルゴリズムが利用可能だが、その性能を評価するための評価指標は比較的静的である。
本研究では,画像登録精度の臨床的妥当性に着目したランドマークヒットレート(HitR)と呼ばれる新しい評価指標を導入することで,この問題に対処する。
サブレゾリューションの違いを強調するTarget Registration Errorのような従来のメトリクスとは異なり、HitRは、登録アルゴリズムが定義された信頼ゾーン内にランドマークを配置することに成功しているかどうかを検討する。
このパラダイムシフトは、医用画像の固有のアノテーションノイズを認識し、より意味のある評価を可能にする。
ラベルノイズ認識にHitRを組み込むため,レータ間変動解析に基づいて,これらの信頼性ゾーンを定義することを提案する。
これにより、様々なランドマークゾーンサイズに対してヒットレート曲線を計算し、タスク固有の精度のレベルのパフォーマンス測定を可能にする。
提案手法は,画像登録アルゴリズムのより現実的で有意義な評価を提供し,臨床・バイオメディカル応用への適合性を反映している。
Accurate image registration is pivotal in biomedical image analysis, where selecting suitable registration algorithms demands careful consideration. While numerous algorithms are available, the evaluation metrics to assess their performance have remained relatively static. This study addresses this challenge by introducing a novel evaluation metric termed Landmark Hit Rate (HitR), which focuses on the clinical relevance of image registration accuracy. Unlike traditional metrics such as Target Registration Error, which emphasize subresolution differences, HitR considers whether registration algorithms successfully position landmarks within defined confidence zones. This paradigm shift acknowledges the inherent annotation noise in medical images, allowing for more meaningful assessments. To equip HitR with label-noise-awareness, we propose defining these confidence zones based on an Inter-rater Variance analysis. Consequently, hit rate curves are computed for varying landmark zone sizes, enabling performance measurement for a task-specific level of accuracy. Our approach offers a more realistic and meaningful assessment of image registration algorithms, reflecting their suitability for clinical and biomedical applications. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# 資源制約環境におけるディープアクティブ音声特徴学習
Deep Active Audio Feature Learning in Resource-Constrained Environments ( http://arxiv.org/abs/2308.13201v2 ) ライセンス: Link先を確認 | Md Mohaimenuzzaman, Christoph Bergmeir, Bernd Meyer, | (参考訳) ラベル付きデータの不足により、バイオ音響アプリケーションにおけるDeep Neural Network(DNN)モデルのトレーニングが困難になる。
典型的なバイオ音響応用では、必要な量のデータを手動でラベル付けすることは違法に高価である。
新しいクラスと現在のクラスの両方を効果的に識別するには、DNNモデルは控えめな量の新しいデータから新しい機能を学習し続けなければならない。
アクティブラーニング(AL)は、ラベル付けの労力をほとんど必要とせず、この学習を支援するアプローチである。
それでも、固定的な特徴抽出アプローチは特徴品質を制限し、ALの利点を未利用にする。
本稿では,ALループに特徴抽出を組み込んだALフレームワークについて述べる。
また,新しい手法である分光法ではなく生音声処理を用いる。
実験の結果、提案されたALフレームワークには14.3%、66.7%、47.4%のラベル付けが必要で、それぞれESC-50、UrbanSound8k、InsectWingBeatのベンチマークオーディオデータセットには大きなDNNモデルとマイクロコントローラをベースとした同様の節約が必要であることが明らかになった。
さらに,保全生物学プロジェクトからのデータを活用することで,本研究の実践的妥当性を示す。
すべてのコードはGitHubで公開されている。
The scarcity of labelled data makes training Deep Neural Network (DNN) models in bioacoustic applications challenging. In typical bioacoustics applications, manually labelling the required amount of data can be prohibitively expensive. To effectively identify both new and current classes, DNN models must continue to learn new features from a modest amount of fresh data. Active Learning (AL) is an approach that can help with this learning while requiring little labelling effort. Nevertheless, the use of fixed feature extraction approaches limits feature quality, resulting in underutilization of the benefits of AL. We describe an AL framework that addresses this issue by incorporating feature extraction into the AL loop and refining the feature extractor after each round of manual annotation. In addition, we use raw audio processing rather than spectrograms, which is a novel approach. Experiments reveal that the proposed AL framework requires 14.3%, 66.7%, and 47.4% less labelling effort on benchmark audio datasets ESC-50, UrbanSound8k, and InsectWingBeat, respectively, for a large DNN model and similar savings on a microcontroller-based counterpart. Furthermore, we showcase the practical relevance of our study by incorporating data from conservation biology projects. All codes are publicly available on GitHub. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# ファインチューニングはファンデーションモデルを損なう可能性がある。
Fine-tuning can cripple your foundation model; preserving features may be the solution ( http://arxiv.org/abs/2308.13320v3 ) ライセンス: Link先を確認 | Jishnu Mukhoti, Yarin Gal, Philip H. S. Torr, Puneet K. Dokania, | (参考訳) 事前トレーニングされた基礎モデルは、膨大な容量と事前トレーニング中に大量のデータにさらされるため、現実世界の概念を多く習得したことが知られている。
下流タスクでこれらのトレーニング済みモデルを効果的にするための重要なステップは、関連するデータセットでそれらを微調整することだ。
様々なファインチューニング手法が考案され、非常に効果的であることが示されているが、ダウンストリームから$\textit{different}$というタスクの概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下している。
これは、そもそもこれらの事前学習された概念を学ぶために、かなりの量のリソースが使われたため、微調整が望ましくない効果である。
我々は、この現象を「概念の忘れ」と呼び、実験を通して、ほとんどのエンドツーエンドの微調整アプローチが、この副作用に悩まされていることを示す。
そこで本研究では,下流タスクに関連する新しい概念を学習しながら,モデルが事前学習した知識を保存できるように,$\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) というファインチューニング手法を設計することで,この問題に対する簡単な修正を提案する。
10の微調整タスクに関する広範な実験を通して、$\textit{LDIFS}$は概念の忘れを著しく減らすことを示す。
さらに,LDIFSは連続的な微調整と連続的な学習ベースラインの両方と比較して,連続的な微調整を連続的に行うのに非常に効果的であることを示す。
Pre-trained foundation models, due to their enormous capacity and exposure to vast amounts of data during pre-training, are known to have learned plenty of real-world concepts. An important step in making these pre-trained models effective on downstream tasks is to fine-tune them on related datasets. While various fine-tuning methods have been devised and have been shown to be highly effective, we observe that a fine-tuned model's ability to recognize concepts on tasks $\textit{different}$ from the downstream one is reduced significantly compared to its pre-trained counterpart. This is an undesirable effect of fine-tuning as a substantial amount of resources was used to learn these pre-trained concepts in the first place. We call this phenomenon ''concept forgetting'' and via experiments show that most end-to-end fine-tuning approaches suffer heavily from this side effect. To this end, we propose a simple fix to this problem by designing a new fine-tuning method called $\textit{LDIFS}$ (short for $\ell_2$ distance in feature space) that, while learning new concepts related to the downstream task, allows a model to preserve its pre-trained knowledge as well. Through extensive experiments on 10 fine-tuning tasks we show that $\textit{LDIFS}$ significantly reduces concept forgetting. Additionally, we show that LDIFS is highly effective in performing continual fine-tuning on a sequence of tasks as well, in comparison with both fine-tuning as well as continual learning baselines. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# 機械倫理の再考 - LLMは道徳理論のレンズを通して道徳的推論を実行できるか?
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? ( http://arxiv.org/abs/2308.15399v2 ) ライセンス: Link先を確認 | Jingyan Zhou, Minda Hu, Junan Li, Xiaoying Zhang, Xixin Wu, Irwin King, Helen Meng, | (参考訳) 道徳的判断をすることは、倫理的AIシステムを開発するための重要なステップである。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
これらのアプローチは、限られたアノテータのグループの道徳的姿勢を過度に一般化し、説明責任を欠いているとして批判されている。
この研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、(大規模)言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
理論誘導のトップダウンフレームワークは、様々な道徳理論を組み込むことができる。
本実験は,道徳理論に基づくデータセットに対する提案手法の有効性を実証するものである。
さらに、異なる道徳理論と既存の道徳データセットの整合性を示す。
本分析は, 既成資源(モデルとデータセット)における, 説明可能な道徳判断システム開発の可能性と欠点を明らかにするものである。
Making moral judgments is an essential step toward developing ethical AI systems. Prevalent approaches are mostly implemented in a bottom-up manner, which uses a large set of annotated data to train models based on crowd-sourced opinions about morality. These approaches have been criticized for overgeneralizing the moral stances of a limited group of annotators and lacking explainability. This work proposes a flexible top-down framework to steer (Large) Language Models (LMs) to perform moral reasoning with well-established moral theories from interdisciplinary research. The theory-guided top-down framework can incorporate various moral theories. Our experiments demonstrate the effectiveness of the proposed framework on datasets derived from moral theories. Furthermore, we show the alignment between different moral theories and existing morality datasets. Our analysis exhibits the potential and flaws in existing resources (models and datasets) in developing explainable moral judgment-making systems. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# ニューラルネットワークにおける予測不確かさを改善するアフィン不変アンサンブル変換法
Affine Invariant Ensemble Transform Methods to Improve Predictive Uncertainty in Neural Networks ( http://arxiv.org/abs/2309.04742v2 ) ライセンス: Link先を確認 | Diksha Bhandari, Jakiw Pidstrigach, Sebastian Reich, | (参考訳) 我々は、アンサンブルカルマンフィルタの適切な拡張を用いて、ロジスティック回帰のためのベイズ推定を行う問題を考察する。
2つの相互作用粒子系は、相互作用粒子系の試料を近似した後方から抽出し、粒子の数が無限大になるにつれて、相互作用粒子系の定量収束速度を平均場限界まで証明することを提案した。
さらに,これらの手法を適用し,ニューラルネットワークの予測不確実性を定量化するためのベイズ近似の手法としての有効性を検討する。
We consider the problem of performing Bayesian inference for logistic regression using appropriate extensions of the ensemble Kalman filter. Two interacting particle systems are proposed that sample from an approximate posterior and prove quantitative convergence rates of these interacting particle systems to their mean-field limit as the number of particles tends to infinity. Furthermore, we apply these techniques and examine their effectiveness as methods of Bayesian approximation for quantifying predictive uncertainty in neural networks. | 翻訳日:2024-07-02 18:00:11 公開日:2024-07-01 |
# 言語モデルによる記述は内容の多様性を低下させるか?
Does Writing with Language Models Reduce Content Diversity? ( http://arxiv.org/abs/2309.05196v3 ) ライセンス: Link先を確認 | Vishakh Padmakumar, He He, | (参考訳) 大規模言語モデル(LLM)は、モデルアシストによる協調的な記述の急増につながっている。
異なるユーザが同じモデルからの提案を取り入れているため、生成したコンテンツの多様性が低下するリスクがあり、公開談話における多様な視点が制限される可能性がある。
本研究では,3つのエッセイを基本LLM(GPT3),フィードバック調整LLM(InstructGPT),モデルヘルプなし書き込みの3つの設定で記述する。
多様性指標のセットを開発し,InstructGPTによる記述は(GPT3ではなく)統計的に有意な多様性低下をもたらすことを示した。
具体的には、異なる著者の著作物間の類似性を高め、全体的な語彙と内容の多様性を減少させる。
また、この効果は、主にインストラクションGPTが共著エッセイに多様でないテキストに寄与することに起因することが判明した。
対照的に、ユーザ主導のテキストは、モデルコラボレーションの影響を受けないままである。
これは、最近のモデルから人間のフィードバックへの適応による生成品質の向上が、より均一で多様性の低いコンテンツのコストを伴っていることを示唆している。
Large language models (LLMs) have led to a surge in collaborative writing with model assistance. As different users incorporate suggestions from the same model, there is a risk of decreased diversity in the produced content, potentially limiting diverse perspectives in public discourse. In this work, we measure the impact of co-writing on diversity via a controlled experiment, where users write argumentative essays in three setups -- using a base LLM (GPT3), a feedback-tuned LLM (InstructGPT), and writing without model help. We develop a set of diversity metrics and find that writing with InstructGPT (but not the GPT3) results in a statistically significant reduction in diversity. Specifically, it increases the similarity between the writings of different authors and reduces the overall lexical and content diversity. We additionally find that this effect is mainly attributable to InstructGPT contributing less diverse text to co-written essays. In contrast, the user-contributed text remains unaffected by model collaboration. This suggests that the recent improvement in generation quality from adapting models to human feedback might come at the cost of more homogeneous and less diverse content. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# トラス構造の離散サイズ最適化のための複数のルートノードを用いた改良モンテカルロ木探索(MCTS)の定式化
Improved Monte Carlo tree search (MCTS) formulation with multiple root nodes for discrete sizing optimization of truss structures ( http://arxiv.org/abs/2309.06045v3 ) ライセンス: Link先を確認 | Fu-Yao Ko, Katsuyuki Suzuki, Kazuo Yonekura, | (参考訳) 本稿では,モンテカルロ木探索(MCTS)を用いたトラス構造の離散最適設計手法を提案する。
本研究では,複数のルートノードを用いた改良MCTSの定式化について述べる。
更新プロセスは、最終ソリューションが見つかると、次の検索ツリーの最初のソリューションとして使用されることを意味する。
最高の報酬は、バックプロパゲーションステップで使用されます。
探索木幅を減らし,最大反復回数を減らして高速化技術を導入する。
エージェントは、端末条件が満たされるまで、様々な制約下での全構造重量を最小化するように訓練される。
そして、最適解は探索木で見つかるすべての解の最小値である。
これらの数値的な例は、エージェントが計算コストの低い最適解を見つけることができ、安定して最適な設計を作成でき、実用的な工学的問題に適していることを示している。
This paper proposes a new method for discrete optimum design of truss structures utilizing Monte Carlo tree search (MCTS) with update process, the best reward, accelerating technique, and terminal condition. An improved MCTS formulation with multiple root nodes is developed in this study. Update process means that once a final solution is found, it is used as the initial solution for next search tree. The best reward is used in the backpropagation step. Accelerating technique is introduced by decreasing the width of search tree and reducing maximum number of iterations. The agent is trained to minimize the total structural weight under various constraints until the terminal condition is satisfied. Then, optimal solution is the minimum value of all solutions found by search trees. These numerical examples show that the agent can find optimal solution with low computational cost, stably produces an optimal design, and is suitable for practical engineering problems. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 証明書合成による動的・制御モデルの一般的な検証フレームワーク
A General Verification Framework for Dynamical and Control Models via Certificate Synthesis ( http://arxiv.org/abs/2309.06090v2 ) ライセンス: Link先を確認 | Alec Edwards, Andrea Peruffo, Alessandro Abate, | (参考訳) 制御理論の新しい分野は、自律的または制御モデルに対する所望の(おそらく複雑な)システム動作の仕様に関する証明書学習を専門とし、関数ベースの証明によって分析的に検証される。
しかし、これらの複雑な要求に従属するコントローラの合成は、一般には非自明な作業であり、最も専門的な制御技術者を解放する可能性がある。
これにより、コントローラを設計し、広範囲の精巧な仕様を分析できる自動技術が必要である。
本稿では,システム仕様を符号化し,対応する証明書を定義するための汎用フレームワークを提案する。
提案手法は安全学習の幅広い分野に寄与し,ニューラルネットワークの柔軟性を活用して候補制御と証明関数を提供する一方で,SMTソルバを用いて正当性を正式に保証する。
我々は,プロトタイプソフトウェアツールを開発し,大規模かつ多様なベンチマークスイート上での制御および証明書合成による検証の有効性を評価することにより,我々のフレームワークを検証した。
An emerging branch of control theory specialises in certificate learning, concerning the specification of a desired (possibly complex) system behaviour for an autonomous or control model, which is then analytically verified by means of a function-based proof. However, the synthesis of controllers abiding by these complex requirements is in general a non-trivial task and may elude the most expert control engineers. This results in a need for automatic techniques that are able to design controllers and to analyse a wide range of elaborate specifications. In this paper, we provide a general framework to encode system specifications and define corresponding certificates, and we present an automated approach to formally synthesise controllers and certificates. Our approach contributes to the broad field of safe learning for control, exploiting the flexibility of neural networks to provide candidate control and certificate functions, whilst using SMT-solvers to offer a formal guarantee of correctness. We test our framework by developing a prototype software tool, and assess its efficacy at verification via control and certificate synthesis over a large and varied suite of benchmarks. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 地理空間気象データに基づく深部ニューラルネットワークによる長期干ばつ予測
Long-term drought prediction using deep neural networks based on geospatial weather data ( http://arxiv.org/abs/2309.06212v5 ) ライセンス: Link先を確認 | Alexander Marusov, Vsevolod Grabar, Yury Maximov, Nazar Sotiriadi, Alexander Bulkin, Alexey Zaytsev, | (参考訳) 農業計画や保険には1年前から予測される高品質の干ばつの問題が不可欠である。
しかし、データの複雑さと乾燥確率性のために、妥当な精度で解決されていない。
我々は、月次気象データを入力としてアクセス可能な時空間ニューラルネットワークモデルを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組む。
本研究は,Palmer Drought Severity Index(PDSI)予測の有効性を評価するために,多種多様なモデルと5つの異なる環境領域を用いた。
重要な集約された発見は、TransformerモデルであるEarthFormerの、正確な短期(最大6ヶ月)の予測における例外的なパフォーマンスである。
同時に、畳み込みLSTMは長期的な予測に優れている。
どちらのモデルも高いROC-AUCスコアを達成し、1ヶ月前は0.948ドル、予想より12ヶ月前は0.617ドル、それぞれ54\%、古典的アプローチは16\%だった。
The problem of high-quality drought forecasting up to a year in advance is critical for agriculture planning and insurance. Yet, it is still unsolved with reasonable accuracy due to data complexity and aridity stochasticity. We tackle drought data by introducing an end-to-end approach that adopts a spatio-temporal neural network model with accessible open monthly climate data as the input. Our systematic research employs diverse proposed models and five distinct environmental regions as a testbed to evaluate the efficacy of the Palmer Drought Severity Index (PDSI) prediction. Key aggregated findings are the exceptional performance of a Transformer model, EarthFormer, in making accurate short-term (up to six months) forecasts. At the same time, the Convolutional LSTM excels in longer-term forecasting. Both models achieved high ROC AUC scores: 0.948 for one month ahead and 0.617 for twelve months ahead forecasts, becoming closer to perfect ROC-AUC by $54\%$ and $16\%$, respectively, c.t. classic approaches. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 確率的推論を伴う全変量距離
Total Variation Distance Meets Probabilistic Inference ( http://arxiv.org/abs/2309.09134v2 ) ライセンス: Link先を確認 | Arnab Bhattacharyya, Sutanu Gayen, Kuldeep S. Meel, Dimitrios Myrisiotis, A. Pavan, N. V. Vinodchandran, | (参考訳) 本稿では,全変動(TV)距離推定と確率的推定との新たな関連性を確立する。
特に、テレビ距離の相対近似から、有向グラフモデルに対する確率的推測への効率よく、構造保存できる還元を提案する。
この減少は、効率的な確率的推論アルゴリズムが存在するベイズネットの任意のクラスにおける同構造分布間のテレビ距離を推定するための完全多項式ランダム化近似スキーム(FPRAS)につながる。
特に、小さな木幅の共通のベイズネット上で定義される分布間のテレビ距離を推定するためのFPRASにつながる。
この研究に先立ち、そのような近似スキームは製品分布間のテレビ距離を推定するためにしか存在しなかった。
このアプローチでは、高次元分布の$partial$結合という新しい概念が採用されている。
In this paper, we establish a novel connection between total variation (TV) distance estimation and probabilistic inference. In particular, we present an efficient, structure-preserving reduction from relative approximation of TV distance to probabilistic inference over directed graphical models. This reduction leads to a fully polynomial randomized approximation scheme (FPRAS) for estimating TV distances between same-structure distributions over any class of Bayes nets for which there is an efficient probabilistic inference algorithm. In particular, it leads to an FPRAS for estimating TV distances between distributions that are defined over a common Bayes net of small treewidth. Prior to this work, such approximation schemes only existed for estimating TV distances between product distributions. Our approach employs a new notion of $partial$ couplings of high-dimensional distributions, which might be of independent interest. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# RoadFormer: RGB-Normal Semantic Road Scene Parsing用Duplex Transformer
RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing ( http://arxiv.org/abs/2309.10356v4 ) ライセンス: Link先を確認 | Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan, | (参考訳) 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。
それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。
本稿では,道路シーン解析用に開発されたトランスフォーマーベースの新しいデータ融合ネットワークであるRoadFormerを紹介する。
RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。
符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。
その後、画素デコーダは、融合された不均一な特徴からマルチスケールの長距離依存関係を学習し、後にトランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。
さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。
我々のSyman-UDTIRIデータセットと、KITTI Road、CityScapes、ORFDを含む3つの公開データセットで実施された大規模な実験的評価により、RoadFormerは、道路シーン解析のための他の最先端ネットワークよりも優れていることが示された。
具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。
私たちのソースコード、生成されたデータセット、デモビデオは、mias.group/RoadFormerで公開されています。
The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 運転ハザード予測のためのマルチモーダルAIの可能性を探る
Exploring the Potential of Multi-Modal AI for Driving Hazard Prediction ( http://arxiv.org/abs/2310.04671v4 ) ライセンス: Link先を確認 | Korawat Charoenpitaks, Van-Quang Nguyen, Masanori Suganuma, Masahiro Takahashi, Ryoma Niihara, Takayuki Okatani, | (参考訳) 本稿では,運転中に運転者が遭遇する危険を予知する問題に対処する。
本稿では,車載ダッシュカムが捉えた単一入力画像を用いて,差し迫った事故を予測するためのタスクとして定式化する。
シミュレーションやビデオからの異常検出に頼っている既存の危険予測手法とは異なり、本研究では静的画像からの高レベル推論に焦点を当てる。
この問題は、視覚的誘惑的推論に該当する不確実な観測に基づいて、将来の出来事を予測し、推論する必要がある。
この調査対象領域の研究を可能にするために、DHPR(Driving Hazard Prediction and Reasoning)データセットと呼ばれる新しいデータセットが作成されている。
データセットは、ストリートシーンの15Kダシュカム画像で構成され、各画像は、車速、仮説上の危険記述、シーンに存在する視覚的実体を含むタプルに関連付けられている。
これらのアノテーションは、危険シーンを特定し、数秒後に起こりうる潜在的な事故について記述する人間のアノテーションによって注釈付けされている。
いくつかのベースライン手法を提示し、データセット上での性能を評価し、残りの問題を特定し、今後の方向性について議論する。
この研究は、新しい問題定式化とデータセットを導入し、研究者がハザード予測を駆動するためのマルチモーダルAIの可能性を探ることを可能にすることにより、この分野に寄与する。
This paper addresses the problem of predicting hazards that drivers may encounter while driving a car. We formulate it as a task of anticipating impending accidents using a single input image captured by car dashcams. Unlike existing approaches to driving hazard prediction that rely on computational simulations or anomaly detection from videos, this study focuses on high-level inference from static images. The problem needs predicting and reasoning about future events based on uncertain observations, which falls under visual abductive reasoning. To enable research in this understudied area, a new dataset named the DHPR (Driving Hazard Prediction and Reasoning) dataset is created. The dataset consists of 15K dashcam images of street scenes, and each image is associated with a tuple containing car speed, a hypothesized hazard description, and visual entities present in the scene. These are annotated by human annotators, who identify risky scenes and provide descriptions of potential accidents that could occur a few seconds later. We present several baseline methods and evaluate their performance on our dataset, identifying remaining issues and discussing future directions. This study contributes to the field by introducing a novel problem formulation and dataset, enabling researchers to explore the potential of multi-modal AI for driving hazard prediction. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 電子商取引統合における楕円曲線暗号パラメータ最適化のためのAIアルゴリズムの比較:前量子解析
Comparing AI Algorithms for Optimizing Elliptic Curve Cryptography Parameters in e-Commerce Integrations: A Pre-Quantum Analysis ( http://arxiv.org/abs/2310.06752v2 ) ライセンス: Link先を確認 | Felipe Tellez, Jorge Ortiz, | (参考訳) 本稿では,2つの重要な人工知能アルゴリズムである遺伝的アルゴリズム(GA)と粒子群最適化(PSO)の比較分析を行い,楕円曲線暗号(ECC)パラメータの最適化に着目した。
これらは楕円曲線係数、素数、生成点、群次数、共因子を含む。
この研究は、どのバイオインスパイアされたアルゴリズムがECC設定に対してより良い最適化結果をもたらすかについての洞察を与え、同じ適合関数の下でのパフォーマンスを調べる。
この関数は、特異曲線や異常曲線の評価、ポラードのローアタックやハッセの最適化精度の定理の適用など、堅牢なECCパラメータを保証する方法を含んでいる。
GAとPSOによって生成される最適化されたパラメータは、Elliptic Curve-Diffie Hellman (ECDH)とHashベースのMessage Authentication Code (HMAC)を使用して、注文メッセージの送信中にsecp256k1のようなよく知られた曲線と対照的に、模擬eコマース環境でテストされる。
本研究は,ECC最適化におけるGAとPSOの有効性に注目し,サードパーティのeコマース統合におけるサイバーセキュリティの強化に寄与する。
量子コンピューティングの普及に先立って,これらの発見の即時検討を推奨する。
This paper presents a comparative analysis between the Genetic Algorithm (GA) and Particle Swarm Optimization (PSO), two vital artificial intelligence algorithms, focusing on optimizing Elliptic Curve Cryptography (ECC) parameters. These encompass the elliptic curve coefficients, prime number, generator point, group order, and cofactor. The study provides insights into which of the bio-inspired algorithms yields better optimization results for ECC configurations, examining performances under the same fitness function. This function incorporates methods to ensure robust ECC parameters, including assessing for singular or anomalous curves and applying Pollard's rho attack and Hasse's theorem for optimization precision. The optimized parameters generated by GA and PSO are tested in a simulated e-commerce environment, contrasting with well-known curves like secp256k1 during the transmission of order messages using Elliptic Curve-Diffie Hellman (ECDH) and Hash-based Message Authentication Code (HMAC). Focusing on traditional computing in the pre-quantum era, this research highlights the efficacy of GA and PSO in ECC optimization, with implications for enhancing cybersecurity in third-party e-commerce integrations. We recommend the immediate consideration of these findings before quantum computing's widespread adoption. | 翻訳日:2024-07-02 17:50:16 公開日:2024-07-01 |
# 安全性と安全性を活かした2層ブロックチェーンシャーディングプロトコルの高性能化
A Two-Layer Blockchain Sharding Protocol Leveraging Safety and Liveness for Enhanced Performance ( http://arxiv.org/abs/2310.11373v4 ) ライセンス: Link先を確認 | Yibin Xu, Jingyi Zheng, Boris Düdder, Tijs Slaats, Yongluan Zhou, | (参考訳) シャーディングはブロックチェーンのスケーラビリティ向上に不可欠だ。
既存のプロトコルは、さまざまな敵攻撃を見落とし、トランザクションスループットを制限します。
本稿では、この問題に対処する基盤的なシャーディングプロトコルであるReticulumを紹介し、ブロックチェーンのスケーラビリティを向上する。
Reticulumは2段階のアプローチを採用し、実行時逆アタックに基づくトランザクションスループットを適用している。
コントロール"と"プロセス"のシャードを2つのレイヤで構成する。
プロセスシャードには少なくとも1つの信頼できるノードが含まれ、コントロールシャードには信頼性のあるノードが多数含まれている。
最初のフェーズでは、トランザクションはブロックに書き込まれ、プロセスシャード内のノードによって投票される。
承認されたブロックが全会一致で確認される。
第2段階では、全会一致の受け入れられないブロックは制御シャードによって投票される。
多数派が賛成すればブロックが認められ、第一段階の反対者や無言の有権者は排除される。
Reticulumは第1フェーズで全会一致投票を使用しており、ノードが少ないため、より並列なプロセスシャードが可能である。
コントロールシャードは決定を確定し、紛争を解決します。
Reticulumの革新的な設計を確認し、さまざまなネットワーク攻撃に対して高いトランザクションスループットと堅牢性を提供し、ブロックチェーンネットワークの既存のシャーディングプロトコルを上回っている。
Sharding is essential for improving blockchain scalability. Existing protocols overlook diverse adversarial attacks, limiting transaction throughput. This paper presents Reticulum, a groundbreaking sharding protocol addressing this issue, boosting blockchain scalability. Reticulum employs a two-phase approach, adapting transaction throughput based on runtime adversarial attacks. It comprises "control" and "process" shards in two layers. Process shards contain at least one trustworthy node, while control shards have a majority of trusted nodes. In the first phase, transactions are written to blocks and voted on by nodes in process shards. Unanimously accepted blocks are confirmed. In the second phase, blocks without unanimous acceptance are voted on by control shards. Blocks are accepted if the majority votes in favor, eliminating first-phase opponents and silent voters. Reticulum uses unanimous voting in the first phase, involving fewer nodes, enabling more parallel process shards. Control shards finalize decisions and resolve disputes. Experiments confirm Reticulum's innovative design, providing high transaction throughput and robustness against various network attacks, outperforming existing sharding protocols for blockchain networks. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# AlexnetからTransformersへ:アフィン最適輸送を用いたディープニューラルネットワークの非線形性の測定
From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport ( http://arxiv.org/abs/2310.11439v3 ) ライセンス: Link先を確認 | Quentin Bouniot, Ievgen Redko, Anton Mallasto, Charlotte Laclau, Karol Arndt, Oliver Struckmeier, Markus Heinonen, Ville Kyrki, Samuel Kaski, | (参考訳) 過去10年間で、さまざまなタスクにまたがる継続的なパフォーマンスを示す、いくつかの新しいディープニューラルネットワーク(DNN)アーキテクチャが導入されたのを目撃しました。
しかし、そのパフォーマンスの上昇傾向を説明することは、同じデータセットでトレーニングされた場合でも、同等の深さと幅の異なるDNNアーキテクチャ(表現力に関連する一般的な要因)が大幅に異なるパフォーマンスを示すため、依然として困難である。
本稿では,DNNの非線形性シグネチャの概念を紹介する。
クローズドフォームの最適トランスポートマッピングから得られるスコアに基づいて構築されたこのシグネチャは、コンピュータビジョンタスクに特に重点を置いて、幅広いDNNアーキテクチャと学習パラダイムの内部動作をよりよく理解する。
提案した非線形署名の実用的有用性と長期的影響の可能性を明らかにするための広範な実験結果を提供する。
私たちの作業のコードはhttps://github.com/qbouniot/AffScoreDeepで公開されています。
In the last decade, we have witnessed the introduction of several novel deep neural network (DNN) architectures exhibiting ever-increasing performance across diverse tasks. Explaining the upward trend of their performance, however, remains difficult as different DNN architectures of comparable depth and width -- common factors associated with their expressive power -- may exhibit a drastically different performance even when trained on the same dataset. In this paper, we introduce the concept of the non-linearity signature of DNN, the first theoretically sound solution for approximately measuring the non-linearity of deep neural networks. Built upon a score derived from closed-form optimal transport mappings, this signature provides a better understanding of the inner workings of a wide range of DNN architectures and learning paradigms, with a particular emphasis on the computer vision task. We provide extensive experimental results that highlight the practical usefulness of the proposed non-linearity signature and its potential for long-reaching implications. The code for our work is available at https://github.com/qbouniot/AffScoreDeep | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# グラフファウンデーションモデルに向けて:サーベイとその先
Towards Graph Foundation Models: A Survey and Beyond ( http://arxiv.org/abs/2310.11829v3 ) ライセンス: Link先を確認 | Jiawei Liu, Cheng Yang, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, Chuan Shi, | (参考訳) ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れ、自然言語処理やその他のいくつかの領域で大きな成功を収めている。
一方、グラフ機械学習の分野は、浅い手法からより高度なディープラーニングアプローチへのパラダイム移行を目撃している。
グラフ学習研究者を一般化し、適応させる基礎モデルの能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
このパラダイムは、広範囲なグラフデータに基づいて事前訓練されたモデルを想定し、様々なグラフタスクに適応できる。
この急激な関心にもかかわらず、この新しい領域に関する明確な定義と体系的な分析の欠如は顕著である。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
本稿では,GFMに関連する既存の研究を,グラフニューラルネットワークと大規模言語モデルに依存する3つのカテゴリに分類する。
本稿では, GFMの現状を概観するとともに, この急速に発展する領域における今後の研究の道のりを概観する。
Foundation models have emerged as critical components in a variety of artificial intelligence applications, and showcase significant success in natural language processing and several other domains. Meanwhile, the field of graph machine learning is witnessing a paradigm transition from shallow methods to more sophisticated deep learning approaches. The capabilities of foundation models to generalize and adapt motivate graph machine learning researchers to discuss the potential of developing a new graph learning paradigm. This paradigm envisions models that are pre-trained on extensive graph data and can be adapted for various graph tasks. Despite this burgeoning interest, there is a noticeable lack of clear definitions and systematic analyses pertaining to this new domain. To this end, this article introduces the concept of Graph Foundation Models (GFMs), and offers an exhaustive explanation of their key characteristics and underlying technologies. We proceed to classify the existing work related to GFMs into three distinct categories, based on their dependence on graph neural networks and large language models. In addition to providing a thorough review of the current state of GFMs, this article also outlooks potential avenues for future research in this rapidly evolving domain. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# DCSI -- 分離と接続性に基づくクラスタ分離性の改善尺度
DCSI -- An improved measure of cluster separability based on separation and connectedness ( http://arxiv.org/abs/2310.12806v2 ) ライセンス: Link先を確認 | Jana Gauss, Fabian Scheipl, Moritz Herrmann, | (参考訳) あるデータセットのクラスラベルが意味のあるクラスタに対応するかどうかは、実世界のデータセットを用いたクラスタリングアルゴリズムの評価に不可欠である。
この性質は分離性の測定によって定量化することができる。
密度に基づくクラスタリングにおける分離性の中心的な側面は、クラス間の分離とクラス内の連結性であり、分類に基づく複雑性測定もクラスタ妥当性指標(CVI)も適切に組み込まれていない。
新たに開発された尺度 (density cluster separability index, DCSI) は、これらの2つの特性を定量化することを目的としており、CVIとしても使用できる。
合成データに関する大規模な実験は、DCSIが調整されたRand Index (ARI)を通して測定されたDBSCANの性能と強く相関することを示しているが、密度ベースのハードクラスタリングに不適な重複クラスを持つマルチクラスデータセットでは堅牢性に欠けることを示している。
頻繁に使用される実世界のデータセットに関する詳細な評価は、DCSIが意味のある密度ベースのクラスタに対応していないタッチやオーバーラップするクラスを正しく識別できることを示している。
Whether class labels in a given data set correspond to meaningful clusters is crucial for the evaluation of clustering algorithms using real-world data sets. This property can be quantified by separability measures. The central aspects of separability for density-based clustering are between-class separation and within-class connectedness, and neither classification-based complexity measures nor cluster validity indices (CVIs) adequately incorporate them. A newly developed measure (density cluster separability index, DCSI) aims to quantify these two characteristics and can also be used as a CVI. Extensive experiments on synthetic data indicate that DCSI correlates strongly with the performance of DBSCAN measured via the adjusted Rand index (ARI) but lacks robustness when it comes to multi-class data sets with overlapping classes that are ill-suited for density-based hard clustering. Detailed evaluation on frequently used real-world data sets shows that DCSI can correctly identify touching or overlapping classes that do not correspond to meaningful density-based clusters. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# 生成・検出のためのパラフレーズタイプ
Paraphrase Types for Generation and Detection ( http://arxiv.org/abs/2310.14863v2 ) ライセンス: Link先を確認 | Jan Philip Wahle, Bela Gipp, Terry Ruas, | (参考訳) パラフレーズの生成と検出の現在のアプローチは、言語の複雑な言語特性を無視して、単一の一般的な類似点に大きく依存している。
本稿では, パラフレーズ型, 特定のテキスト位置における特定の言語摂動を考慮した2つの新しい課題を提案する。
これらのタスクをパラフレーズ型生成とパラフレーズ型検出と呼ぶ。
以上の結果から,従来の手法は二項分類のシナリオ,すなわちパラフレーズ化の有無でよく機能するが,粒度の細かいパラフレーズ型の含みは大きな課題となることが示唆された。
ほとんどのアプローチは、一般的な意味的類似コンテンツの生成と検出に長けているが、それらが操作する固有の言語変数を理解できない。
パラフレーズ型の生成と識別について訓練されたモデルは、それらなしでのタスクの改善も示している。
さらに、これらのモデルをスケールすることで、パラフレーズの型を理解する能力がさらに向上する。
我々は、パラフレーズ型が将来、パラフレーズモデルの開発とタスクの解決のための新しいパラダイムを解き放つことができると考えている。
Current approaches in paraphrase generation and detection heavily rely on a single general similarity score, ignoring the intricate linguistic properties of language. This paper introduces two new tasks to address this shortcoming by considering paraphrase types - specific linguistic perturbations at particular text positions. We name these tasks Paraphrase Type Generation and Paraphrase Type Detection. Our results suggest that while current techniques perform well in a binary classification scenario, i.e., paraphrased or not, the inclusion of fine-grained paraphrase types poses a significant challenge. While most approaches are good at generating and detecting general semantic similar content, they fail to understand the intrinsic linguistic variables they manipulate. Models trained in generating and identifying paraphrase types also show improvements in tasks without them. In addition, scaling these models further improves their ability to understand paraphrase types. We believe paraphrase types can unlock a new paradigm for developing paraphrase models and solving tasks in the future. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# 私たちは誰だ:自然言語処理と他の学術分野の影響の橋渡し
We are Who We Cite: Bridges of Influence Between Natural Language Processing and Other Academic Fields ( http://arxiv.org/abs/2310.14870v2 ) ライセンス: Link先を確認 | Jan Philip Wahle, Terry Ruas, Mohamed Abdalla, Bela Gipp, Saif M. Mohammad, | (参考訳) 自然言語処理(NLP)は、世界に大きな影響を与える可能性がある。
しかし、大きな進歩は大きなリスクを伴う。
これに対処するには、様々な分野の研究に幅広く関与する必要がある。
しかし、そのようなエンゲージメント(パストまたはカレント)の状態を実証する経験的な研究はほとんどない。
本稿では,23分野の学習分野とNLP(相互に)の影響力の程度を定量化する。
我々は,77kのNLP論文,NLP論文から他の論文への3.1mの引用,および他の論文からNLP論文への1.8mの引用を分析した。
その結果,1980年には0.58から2022年には0.31に減少した。
さらに、NLPはますます不規則になってきており、NLPの論文が増え、フィールド間のブリッジとして機能する論文も少なくなっている。
NLP引用の8%未満は言語学、3%未満は数学と心理学である。
これらの知見は,NLPの様々な分野への関与を反映する緊急の必要性を浮き彫りにしている。
Natural Language Processing (NLP) is poised to substantially influence the world. However, significant progress comes hand-in-hand with substantial risks. Addressing them requires broad engagement with various fields of study. Yet, little empirical work examines the state of such engagement (past or current). In this paper, we quantify the degree of influence between 23 fields of study and NLP (on each other). We analyzed ~77k NLP papers, ~3.1m citations from NLP papers to other papers, and ~1.8m citations from other papers to NLP papers. We show that, unlike most fields, the cross-field engagement of NLP, measured by our proposed Citation Field Diversity Index (CFDI), has declined from 0.58 in 1980 to 0.31 in 2022 (an all-time low). In addition, we find that NLP has grown more insular -- citing increasingly more NLP papers and having fewer papers that act as bridges between fields. NLP citations are dominated by computer science; Less than 8% of NLP citations are to linguistics, and less than 3% are to math and psychology. These findings underscore NLP's urgent need to reflect on its engagement with various fields. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# ベイズレグレッション市場
Bayesian Regression Markets ( http://arxiv.org/abs/2310.14992v3 ) ライセンス: Link先を確認 | Thomas Falconer, Jalal Kazempour, Pierre Pinson, | (参考訳) 機械学習タスクは入力データの品質に非常に敏感だが、企業にとって関連するデータセットは、特にさまざまな所有者がプライベートに開催する場合には、取得が困難な場合が多い。
例えば、これらの所有者が下流市場における競合相手であるなら、情報を共有することに消極的かもしれない。
回帰タスクの教師付き学習に着目して、データ共有のための金銭的インセンティブを提供するレグレッション市場を開発する。
我々のメカニズムはベイズ的枠組みを採用しており、より一般的な回帰タスクのクラスを考えることができる。
我々は、市場資産の徹底的な調査を行い、文献における同様の提案が、市場エージェントを大規模な金融リスクに晒し、当社の設定を緩和できることを示す。
Although machine learning tasks are highly sensitive to the quality of input data, relevant datasets can often be challenging for firms to acquire, especially when held privately by a variety of owners. For instance, if these owners are competitors in a downstream market, they may be reluctant to share information. Focusing on supervised learning for regression tasks, we develop a regression market to provide a monetary incentive for data sharing. Our mechanism adopts a Bayesian framework, allowing us to consider a more general class of regression tasks. We present a thorough exploration of the market properties, and show that similar proposals in literature expose the market agents to sizeable financial risks, which can be mitigated in our setup. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# AIにおけるバイアスのアンマキング:電子健康記録モデルにおけるバイアス検出と緩和戦略の体系的レビュー
Unmasking Bias in AI: A Systematic Review of Bias Detection and Mitigation Strategies in Electronic Health Record-based Models ( http://arxiv.org/abs/2310.19917v3 ) ライセンス: Link先を確認 | Feng Chen, Liqin Wang, Julie Hong, Jiaqi Jiang, Li Zhou, | (参考訳) 目的: 人工知能(AI)と電子健康記録(EHR)の併用は、医療を改善するための変革の可能性を秘めている。
しかし、医療格差を悪化させるAIのバイアスに対処することは見過ごせない。
本研究では,EHRデータを用いたAIモデルにおいて,多様なバイアスを検出・緩和する手法について検討する。
方法:2010年1月1日から2023年12月17日までに発行されたPubMed, Web of Science, IEEEの論文を解析し, システムレビュー・メタアナライズ(PRISMA)ガイドラインに従って, システムレビューを行った。
レビューでは、重要なバイアスを特定し、AIモデル開発プロセス全体にわたってバイアスを検出し緩和するための戦略を概説し、バイアス評価のためのメトリクスを分析した。
結果: 検索した450項目のうち,20項目が私たちの基準を満たし,アルゴリズム,コンファウンディング,暗黙,測定,選択,時間という6つの主要なバイアスタイプを明らかにした。
AIモデルは、主に医療設定の予測タスクのために開発された。
4つの研究は、統計的パリティ、平等機会、予測エクイティといった公正度指標を用いた暗黙的偏見とアルゴリズム的偏見の検出に焦点を当てた。
60パーセントは、特に暗黙的偏見と選択的偏見を対象とする、バイアスを緩和するための様々な戦略を提案した。
これらの戦略は、パフォーマンス(例えば、精度、AUROC)と公正度の両方で評価され、主にデータ収集と再サンプリング、再重み付け、変換といった前処理技術に関係している。
議論: このレビューは、EHRベースのAIモデルにおけるバイアスに対処する戦略の多様かつ進化的な性質を強調し、医療における公正性と公平性を促進する倫理的AIシステムの構築を促進するための標準化された、一般化可能な、解釈可能な方法論の確立に対する緊急のニーズを強調している。
Objectives: Leveraging artificial intelligence (AI) in conjunction with electronic health records (EHRs) holds transformative potential to improve healthcare. Yet, addressing bias in AI, which risks worsening healthcare disparities, cannot be overlooked. This study reviews methods to detect and mitigate diverse forms of bias in AI models developed using EHR data. Methods: We conducted a systematic review following the Preferred Reporting Items for Systematic Reviews and Meta-analyses (PRISMA) guidelines, analyzing articles from PubMed, Web of Science, and IEEE published between January 1, 2010, and Dec 17, 2023. The review identified key biases, outlined strategies for detecting and mitigating bias throughout the AI model development process, and analyzed metrics for bias assessment. Results: Of the 450 articles retrieved, 20 met our criteria, revealing six major bias types: algorithmic, confounding, implicit, measurement, selection, and temporal. The AI models were primarily developed for predictive tasks in healthcare settings. Four studies concentrated on the detection of implicit and algorithmic biases employing fairness metrics like statistical parity, equal opportunity, and predictive equity. Sixty proposed various strategies for mitigating biases, especially targeting implicit and selection biases. These strategies, evaluated through both performance (e.g., accuracy, AUROC) and fairness metrics, predominantly involved data collection and preprocessing techniques like resampling, reweighting, and transformation. Discussion: This review highlights the varied and evolving nature of strategies to address bias in EHR-based AI models, emphasizing the urgent needs for the establishment of standardized, generalizable, and interpretable methodologies to foster the creation of ethical AI systems that promote fairness and equity in healthcare. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# $R^3$-NL2GQL: NL2GQLのモデルコーディネートと知識グラフアライメントアプローチ
$R^3$-NL2GQL: A Model Coordination and Knowledge Graph Alignment Approach for NL2GQL ( http://arxiv.org/abs/2311.01862v2 ) ライセンス: Link先を確認 | Yuhang Zhou, Yu He, Siyu Tian, Yuchen Ni, Zhangyue Yin, Xiang Liu, Chuanjun Ji, Sen Liu, Xipeng Qiu, Guangnan Ye, Hongfeng Chai, | (参考訳) Foundation Modelsを使用して自然言語をSQL(NL2SQL)に変換するという現在のタスクは目覚ましい成果を上げているが、自然言語をグラフクエリ言語(NL2GQL)に変換するこれらのアプローチは、GQLとSQLの異なる性質から、さまざまな形式のGQLとともにハードルに直面する。
従来のルールベースとスロットフィリングの方法論から離れ、新しいアプローチである$R^3$-NL2GQLを導入します。
本手法は,自然言語クエリをGQL形式に変換する上で,より優れた一般化とクエリ生成技術を活用しながら,初期ランク付けと書き換えの段階において,より小さなモデルの解釈的強みを利用する。
この新興分野におけるデータセットの不足に対処するため、我々は、グラフデータベースマニュアルと選択されたオープンソース知識グラフ(KG)を基にしたバイリンガルデータセットを開発した。
本手法の評価は,その有望な有効性と堅牢性を示すものである。
While current tasks of converting natural language to SQL (NL2SQL) using Foundation Models have shown impressive achievements, adapting these approaches for converting natural language to Graph Query Language (NL2GQL) encounters hurdles due to the distinct nature of GQL compared to SQL, alongside the diverse forms of GQL. Moving away from traditional rule-based and slot-filling methodologies, we introduce a novel approach, $R^3$-NL2GQL, integrating both small and large Foundation Models for ranking, rewriting, and refining tasks. This method leverages the interpretative strengths of smaller models for initial ranking and rewriting stages, while capitalizing on the superior generalization and query generation prowess of larger models for the final transformation of natural language queries into GQL formats. Addressing the scarcity of datasets in this emerging field, we have developed a bilingual dataset, sourced from graph database manuals and selected open-source Knowledge Graphs (KGs). Our evaluation of this methodology on this dataset demonstrates its promising efficacy and robustness. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# 医用イメージングのための人工知能におけるバイアスの客観的・体系的評価に向けて
Towards objective and systematic evaluation of bias in artificial intelligence for medical imaging ( http://arxiv.org/abs/2311.02115v2 ) ライセンス: Link先を確認 | Emma A. M. Stanley, Raissa Souza, Anthony Winder, Vedant Gulve, Kimberly Amador, Matthias Wilms, Nils D. Forkert, | (参考訳) 臨床タスクのために医療画像を用いて訓練された人工知能(AI)モデルは、サブグループ間のパフォーマンスの格差の形でバイアスを示すことが多い。
実世界の医療画像データのすべてのバイアス源が容易に識別できるわけではないので、それらのバイアスがどのようにモデルにエンコードされているか、そして、パフォーマンス格差を緩和するバイアス緩和手法がいかに有能であるかを包括的に評価することは困難である。
本稿では,医療画像におけるバイアスがAIモデルに与える影響を体系的かつ客観的に調査する新しい分析フレームワークを提案する。
医用画像AIの偏りを既知の疾患効果とバイアス源を有する合成磁気共鳴画像を生成するツールを用いて評価するために, サイリコ試験において制御を行うためのこのフレームワークを開発し, 試験した。
3つの反事実バイアスシナリオを用いて、畳み込みニューラルネットワーク(CNN)分類器に対するシミュレーションバイアス効果の影響と、3つのバイアス緩和戦略の有効性を測定する。
解析の結果, シミュレーションバイアスは, CNNが合成データセット上で訓練された際に, 期待されるサブグループ性能の相違をもたらすことがわかった。
さらに、リライジングは、この設定において最も成功したバイアス緩和戦略として認識され、このフレームワークを用いてモデルにおけるバイアスの顕在化を調べる上で、説明可能なAI手法がいかに役立つかを実証した。
医療画像データセットに多くの、しばしば未知のバイアス源が存在することを考えると、公正なAIモデルの開発は大きな課題である。
本研究では,学習パイプラインに対するバイアスと緩和戦略の影響を客観的に研究する新たな手法を提案する。
Artificial intelligence (AI) models trained using medical images for clinical tasks often exhibit bias in the form of disparities in performance between subgroups. Since not all sources of biases in real-world medical imaging data are easily identifiable, it is challenging to comprehensively assess how those biases are encoded in models, and how capable bias mitigation methods are at ameliorating performance disparities. In this article, we introduce a novel analysis framework for systematically and objectively investigating the impact of biases in medical images on AI models. We developed and tested this framework for conducting controlled in silico trials to assess bias in medical imaging AI using a tool for generating synthetic magnetic resonance images with known disease effects and sources of bias. The feasibility is showcased by using three counterfactual bias scenarios to measure the impact of simulated bias effects on a convolutional neural network (CNN) classifier and the efficacy of three bias mitigation strategies. The analysis revealed that the simulated biases resulted in expected subgroup performance disparities when the CNN was trained on the synthetic datasets. Moreover, reweighing was identified as the most successful bias mitigation strategy for this setup, and we demonstrated how explainable AI methods can aid in investigating the manifestation of bias in the model using this framework. Developing fair AI models is a considerable challenge given that many and often unknown sources of biases can be present in medical imaging datasets. In this work, we present a novel methodology to objectively study the impact of biases and mitigation strategies on deep learning pipelines, which can support the development of clinical AI that is robust and responsible. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# 分子から足場から機能群へ:多チャンネル学習による文脈依存的分子表現の構築
From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning ( http://arxiv.org/abs/2311.02798v2 ) ライセンス: Link先を確認 | Yue Wan, Jialu Wu, Tingjun Hou, Chang-Yu Hsieh, Xiaowei Jia, | (参考訳) 信頼性の高い分子特性予測は、様々な科学的取り組みや薬物発見などの工業的応用に不可欠である。
しかし、データ不足は、物理化学的および生物学的性質と従来の分子破砕法の間の非常に非線形因果関係と相まって、堅牢な分子機械学習モデルの開発を複雑にしている。
自己教師付き学習(SSL)は、ダウンストリームタスクに有利な化学空間の基本的な表現を学ぶために、大規模で無注釈の分子データを活用する一般的なソリューションとして登場した。
しかし、既存の分子SSL法は、分子構造類似性、足場組成、化学空間上での操作時の分子特性の文脈依存的な側面など、化学知識を概ね見落としている。
彼らはまた、構造-活動関係の微妙な変化を学ぶのにも苦労した。
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
分子の構造的階層を利用し、チャネルをまたいだ個別の事前訓練タスクを通じてそれらを埋め込み、微調整中にチャネル情報をタスク固有の方法で集約する。
提案手法は,様々な分子特性ベンチマークにおける競合性能を実証し,特に活動崖のようなユビキタスで困難なシナリオにおいて強力な優位性を提供する。
Reliable molecular property prediction is essential for various scientific endeavors and industrial applications, such as drug discovery. However, the data scarcity, combined with the highly non-linear causal relationships between physicochemical and biological properties and conventional molecular featurization schemes, complicates the development of robust molecular machine learning models. Self-supervised learning (SSL) has emerged as a popular solution, utilizing large-scale, unannotated molecular data to learn a foundational representation of chemical space that might be advantageous for downstream tasks. Yet, existing molecular SSL methods largely overlook chemical knowledge, including molecular structure similarity, scaffold composition, and the context-dependent aspects of molecular properties when operating over the chemical space. They also struggle to learn the subtle variations in structure-activity relationship. This paper introduces a novel pre-training framework that learns robust and generalizable chemical knowledge. It leverages the structural hierarchy within the molecule, embeds them through distinct pre-training tasks across channels, and aggregates channel information in a task-specific manner during fine-tuning. Our approach demonstrates competitive performance across various molecular property benchmarks and offers strong advantages in particularly challenging yet ubiquitous scenarios like activity cliffs. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# SU(N)上の量子信号処理
Quantum signal processing over SU(N) ( http://arxiv.org/abs/2311.03949v2 ) ライセンス: Link先を確認 | Lorenzo Laneve, | (参考訳) 量子信号処理(QSP)と量子特異値変換(QSVT)は、量子アルゴリズムの開発を単純化するための重要なツールである。
これらの手法は、ブロック符号化行列の固有値や特異値の多項式変換を利用する。
制御キュービットを用いて固有値や特異値に関する情報を抽出するコンテキストでは、抽出可能な情報の量はプロトコル毎に1ビットに制限される。
本研究では、複数の制御量子ビットを導入することにより、元のQSPアンサッツを拡張する。
シングルキュービットの場合と同様に、多項式のほとんどすべてのベクトルがマルチキュービットQSPアンサッツで実装可能であることを示し、ゲートの複雑性はそのような状態の次元と多項式的にスケールする。
さらに、変換する行列のパワーが、ショアのアルゴリズムのように容易に実装できると仮定すると、制御量子ビットの数とともに指数関数的にスケールする次数を持つ多項式変換が達成できる。
本研究の目的は、位相推定スキームと離散対数を用いて、この手法を用いて実装できる多項式の部分的特徴づけを提供することである。
Quantum signal processing (QSP) and the quantum singular value transformation (QSVT) are pivotal tools for simplifying the development of quantum algorithms. These techniques leverage polynomial transformations on the eigenvalues or singular values of block-encoded matrices, achieved with the use of just one control qubit. In contexts where the control qubit is used to extract information about the eigenvalues or singular values, the amount of extractable information is limited to one bit per protocol. In this work, we extend the original QSP ansatz by introducing multiple control qubits. We show that, much like in the single-qubit case, nearly any vector of polynomials can be implemented with a multi-qubit QSP ansatz, and the gate complexity scales polynomially with the dimension of such states. Moreover, assuming that powers of the matrix to transform are easily implementable - as in Shor's algorithm - we can achieve polynomial transformations with degrees that scale exponentially with the number of control qubits. This work aims to provide a partial characterization of the polynomials that can be implemented using this approach, with phase estimation schemes and discrete logarithm serving as illustrative examples. | 翻訳日:2024-07-02 17:40:31 公開日:2024-07-01 |
# 対話状態追跡の壁を破るのに十分か?
Is one brick enough to break the wall of spoken dialogue state tracking? ( http://arxiv.org/abs/2311.04923v3 ) ライセンス: Link先を確認 | Lucas Druart, Valentin Vielzeuf, Yannick Estève, | (参考訳) Task-Oriented Dialogue (TOD)システムでは、システムのユーザの要求に対する理解(\textit{a.k.a} 対話状態追跡)を正しく更新することがスムーズな対話の鍵となる。
伝統的に、TODシステムは、ユーザの発話の書き起こし、キーコンセプトのセマンティック抽出、以前に特定された概念によるコンテキスト化という3つのステップでこの更新を実行する。
このようなカスケードアプローチはカスケードエラーと個別の最適化に悩まされている。
エンド・ツー・エンドのアプローチはターンレベルのセマンティック抽出ステップまで有効であることが証明されている。
本稿では,(1)完全ニューラル音声によるDSTに対する新しいアプローチ,(2)最先端のカスケード手法との奥行き比較,(3)より優れた文脈伝播への道筋について述べる。
本研究は,対話状態追跡(DST)などの文脈依存タスク,特に音声ネイティブ設定において,協調最適化アプローチが競争力を持つことを示す。
DSTシステムのコンテキスト伝搬は、前者のコンテキスト固有の不確実性を考慮したトレーニング手順の恩恵を受けることができる。
In Task-Oriented Dialogue (TOD) systems, correctly updating the system's understanding of the user's requests (\textit{a.k.a} dialogue state tracking) is key to a smooth interaction. Traditionally, TOD systems perform this update in three steps: transcription of the user's utterance, semantic extraction of the key concepts, and contextualization with the previously identified concepts. Such cascade approaches suffer from cascading errors and separate optimization. End-to-End approaches have been proven helpful up to the turn-level semantic extraction step. This paper goes one step further and provides (1) a novel approach for completely neural spoken DST, (2) an in depth comparison with a state of the art cascade approach and (3) avenues towards better context propagation. Our study highlights that jointly-optimized approaches are also competitive for contextually dependent tasks, such as Dialogue State Tracking (DST), especially in audio native settings. Context propagation in DST systems could benefit from training procedures accounting for the previous' context inherent uncertainty. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して
WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models ( http://arxiv.org/abs/2311.07138v2 ) ライセンス: Link先を確認 | Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li, | (参考訳) 大規模言語モデル(LLM)の潜在的な誤用を軽減するため、近年の研究では、透かし検出のために見えない痕跡を残すために生成過程を制限する透かしアルゴリズムを開発した。
タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。
本稿では,LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し,その3つの重要な要素について概説する:(1)リンゴとアプライズの比較を確実にするために,まず,各透かし方式のハイパーパラメータを同じ透かし強度に達するように調整し,その生成と検出性能を共同で評価する。
2) タスク選択では,入力長と出力長を多様化して5カテゴリの分類となり,9ドルのタスクをカバーしている。
3)評価基準として,透かし後の指示追従能力の低下を自動的に評価する GPT4-Judge を用いる。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/4。
コードとデータはhttps://github.com/THU-KEG/WaterBench.comで公開されている。
To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For benchmarking procedure, to ensure an apples-to-apples comparison, we first adjust each watermarking method's hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For task selection, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For evaluation metric, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at https://github.com/THU-KEG/WaterBench. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# 第一段階のアドバンテージ:マルチステップ数学推論における正しいスタートの重要性
First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning ( http://arxiv.org/abs/2311.07945v3 ) ライセンス: Link先を確認 | Kushal Jain, Moritz Miller, Niket Tandon, Kumar Shridhar, | (参考訳) 言語モデルは、予測のための合理性を生成することを学ぶことによって、複雑な推論タスクをよりよく解決することができる。
これらのモデルは、しばしばタスクの解決方法を知っていますが、その自己回帰的復号性は、誤った結果をもたらします。
より小さなモデル、特に修正された場合には、彼らが他の方法で苦労したであろうタスクを解決できることを観察します。
より大型のモデルを用いてより小型のモデルを導くことにより,性能が大幅に向上した(GSM8Kデータセットでは7Bモデルで+24ポイントまで)。
開始ステップの開始において、より小さなモデルを支援するために、我々はQuestCoTを提案する。
複数の小さなモデルにまたがる様々な多段階の数学的推論データセットにおいて、正しいスタートを得られると、すべてのモデルにおいて大きなパフォーマンス向上がもたらされる(GSM8Kでは最大6点、SVAMPでは+9点、ASDivでは+5点、MultiArithでは+7点)。
Language models can solve complex reasoning tasks better by learning to generate rationales for their predictions. Often these models know how to solve a task but their auto-regressive decoding nature leads to incorrect results if they start incorrectly. We observe that smaller models in particular when corrected, can solve a task that they would have otherwise struggled with. We demonstrate this phenomenon by using a larger model to guide smaller models, which leads to significantly improved performance (up to +24 points on the GSM8K dataset by 7B models). To assist smaller models in initiating the starting step, we propose QuestCoT, where a smaller model first asks itself how to start, before proceeding with a chain of reasoning. On various multistep mathematical reasoning datasets over multiple smaller models, we show that getting the right start can lead to significant performance gains across all models (gains of up to +6 points on GSM8K, +9 on SVAMP, +5 on ASDiv, and +7 on MultiArith). | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# 構造的比較推論によるテキストの予測
Predicting Text Preference Via Structured Comparative Reasoning ( http://arxiv.org/abs/2311.08390v2 ) ライセンス: Link先を確認 | Jing Nathan Yan, Tianqi Liu, Justin T Chiu, Jiaming Shen, Zhen Qin, Yue Yu, Yao Zhao, Charu Lakshmanan, Yair Kurzion, Alexander M. Rush, Jialu Liu, Michael Bendersky, | (参考訳) 比較推論はテキスト嗜好予測において重要な役割を担っているが、大きな言語モデル(LLM)はその推論に矛盾を示すことが多い。
Chain-of-Thoughtのようなアプローチは、他の多くの設定で精度を向上させるが、複雑なテキストの類似点と相違点を一貫して区別するのに苦労している。
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。
SC はまず比較の側面を提案し、次に各アスペクトでテキストの比較を生成する。
テキスト間の差異を明確に区別し、幻覚を著しく低減し、一貫性を向上させるために、ペアワイズ整合コンパレータと一貫した比較を選択する。
要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
Comparative reasoning plays a crucial role in text preference prediction; however, large language models (LLMs) often demonstrate inconsistencies in their reasoning. While approaches like Chain-of-Thought improve accuracy in many other settings, they struggle to consistently distinguish the similarities and differences of complex texts. We introduce SC, a prompting approach that predicts text preferences by generating structured intermediate comparisons. SC begins by proposing aspects of comparison, followed by generating textual comparisons under each aspect. We select consistent comparisons with a pairwise consistency comparator that ensures each aspect's comparisons clearly distinguish differences between texts, significantly reducing hallucination and improving consistency. Our comprehensive evaluations across various NLP tasks, including summarization, retrieval, and automatic rating, demonstrate that SC equips LLMs to achieve state-of-the-art performance in text preference prediction. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# 計算論における大規模言語モデルの可能性を探る
Exploring the Potential of Large Language Models in Computational Argumentation ( http://arxiv.org/abs/2311.09022v3 ) ライセンス: Link先を確認 | Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing, | (参考訳) 計算的議論は、法律、公共政策、人工知能など、様々な領域において欠かせない道具となっている。
自然言語処理における新たな研究分野であり、注目を集めている。
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデル(LLM)は,文脈の理解と自然言語生成に優れた能力を発揮しているため,多種多様な計算議論タスクにおいて,LLMの性能を評価することに意義がある。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
既存のタスクを6つの主要なカテゴリに整理し、14の公開データセットのフォーマットを標準化します。
さらに,LLMの終末性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
広範囲にわたる実験により、LLMはほとんどのデータセットで高い性能を示し、議論の分野におけるそれらの能力を実証している。
我々の分析は,今後の研究における計算論証の評価とLLMとの統合について,重要な提案を提供する。
Computational argumentation has become an essential tool in various domains, including law, public policy, and artificial intelligence. It is an emerging research field in natural language processing that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models (LLMs) have demonstrated impressive capabilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on diverse computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models, and LLaMA2 models, in both zero-shot and few-shot settings. We organize existing tasks into six main categories and standardize the format of fourteen openly available datasets. In addition, we present a new benchmark dataset on counter speech generation that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of the datasets, demonstrating their capabilities in the field of argumentation. Our analysis offers valuable suggestions for evaluating computational argumentation and its integration with LLMs in future research endeavors. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# 一般化確率論におけるシグナリング次元
The signaling dimension in generalized probabilistic theories ( http://arxiv.org/abs/2311.13103v2 ) ライセンス: Link先を確認 | Michele Dall'Arno, Alessandro Tosini, Francesco Buscemi, | (参考訳) 物理系のシグナリング次元は、与えられた系のすべての入出力相関を再現するために必要な古典系の最小次元を定量化する。
したがって、線形空間の次元や(随伴あるいはペアの)完全判別可能な状態の最大数のような他の次元測度とは異なり、相関空間は単一の方向のみに沿って調べるが、シグナル伝達次元は特定の操作タスクの任意の選択に依存しない。
この意味で、シグナリング次元は、与えられたシステムと一致する入力/出力相関全体の構造を単一のスカラー量で要約する。
量子論において、Frenkel と Weiner は、信号の次元がヒルベルト空間次元と一致することをセミナルの結果で証明した。
ここでは、任意の一般化確率論の任意の系に対するシグナリング次元を計算するための解析的およびアルゴリズム的手法を導出する。
線-極端効果による極端測定を考慮すれば十分であることを示すとともに、そのような測定の要素の数を線形次元で制限する。
有限個の極端効果を持つ系に対しては、面記述が与えられたポリトープの頂点記述を導出する問題として、光線-極端効果による極端測定を特徴付ける問題を再検討する。
それぞれの測定値に対して,線形プログラムとして信号の次元の計算をリキャストし,そのサイズを小さくするための組合せ分岐と有界アルゴリズムを提案する。
この結果を用いて、2つの正方形ビット(またはスキート)の合成の極端効果による極端測定を導出し、各スキートが2に等しい信号寸法を持つにもかかわらず、その信号寸法が5であることを証明する。
The signaling dimension of a given physical system quantifies the minimum dimension of a classical system required to reproduce all input/output correlations of the given system. Thus, unlike other dimension measures - such as the dimension of the linear space or the maximum number of (jointly or pairwise) perfectly discriminable states - which examine the correlation space only along a single direction, the signaling dimension does not depend on the arbitrary choice of a specific operational task. In this sense, the signaling dimension summarizes the structure of the entire set of input/output correlations consistent with a given system in a single scalar quantity. For quantum theory, it was recently proved by Frenkel and Weiner in a seminal result that the signaling dimension coincides with the Hilbert space dimension. Here, we derive analytical and algorithmic techniques to compute the signaling dimension for any given system of any given generalized probabilistic theory. We prove that it suffices to consider extremal measurements with ray-extremal effects, and we bound the number of elements of any such measurement in terms of the linear dimension. For systems with a finite number of extremal effects, we recast the problem of characterizing the extremal measurements with ray-extremal effects as the problem of deriving the vertex description of a polytope given its face description, which can be conveniently solved by standard techniques. For each such measurement, we recast the computation of the signaling dimension as a linear program, and we propose a combinatorial branch and bound algorithm to reduce its size. We apply our results to derive the extremal measurements with ray-extremal effects of a composition of two square bits (or squits) and prove that their signaling dimension is five, even though each squit has a signaling dimension equal to two. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# $σ$-PCA: 同定可能な線形変換のニューラルネットワークのためのビルディングブロック
$σ$-PCA: a building block for neural learning of identifiable linear transformations ( http://arxiv.org/abs/2311.13580v4 ) ライセンス: Link先を確認 | Fahdi Kanavati, Lucy Katsnith, Masayuki Tsuneki, | (参考訳) 線形主成分分析(PCA)は、分散を最大化するために軸を向き付けて(半)直交変換を学習する。
したがって、分散が明確に区別される直交軸のみを特定できるが、分散が大まかに等しい軸の部分集合を識別することはできない。
部分空間の回転不確定性(英語版)(subspace rotational indeterminacy)を排除できない: 成分を等分散(固有値)で解けず、結果として各固有部分空間において、ランダムに回転した軸において、帰結する。
本稿では,(1)線形および非線形PCAの統一モデルを定式化する手法である$\sigma$-PCAを提案する。後者は線形独立成分分析(ICA)の特殊な場合である。
入力を単位分散入力に変換する前処理ステップであるWhiteningは、一般に線形ICA法において必要不可欠なステップであり、従来の非線形PCAは必ずしも全体変換の直交性を維持することができず、次元を直接的に減少させることができず、分散によって本質的に順序付けできないことを意味している。
線形PCA, 非線形PCA, 線形ICAの関係について, データから特別な線形変換を学習するためのオートエンコーダの定式化, PCAの(半)直交変換, ICAの任意の単位分散の3つの方法について考察する。
我々の定式化の一環として、非線形PCAは、線形PCAと線形ICAの中間に位置するばらつきと統計的独立性を最大化する手法であり、同定可能な線形変換を学習するためのビルディングブロックとして機能する。
Linear principal component analysis (PCA) learns (semi-)orthogonal transformations by orienting the axes to maximize variance. Consequently, it can only identify orthogonal axes whose variances are clearly distinct, but it cannot identify the subsets of axes whose variances are roughly equal. It cannot eliminate the subspace rotational indeterminacy: it fails to disentangle components with equal variances (eigenvalues), resulting, in each eigen subspace, in randomly rotated axes. In this paper, we propose $\sigma$-PCA, a method that (1) formulates a unified model for linear and nonlinear PCA, the latter being a special case of linear independent component analysis (ICA), and (2) introduces a missing piece into nonlinear PCA that allows it to eliminate, from the canonical linear PCA solution, the subspace rotational indeterminacy -- without whitening the inputs. Whitening, a preprocessing step which converts the inputs into unit-variance inputs, has generally been a prerequisite step for linear ICA methods, which meant that conventional nonlinear PCA could not necessarily preserve the orthogonality of the overall transformation, could not directly reduce dimensionality, and could not intrinsically order by variances. We offer insights on the relationship between linear PCA, nonlinear PCA, and linear ICA -- three methods with autoencoder formulations for learning special linear transformations from data, transformations that are (semi-)orthogonal for PCA, and arbitrary unit-variance for ICA. As part of our formulation, nonlinear PCA can be seen as a method that maximizes both variance and statistical independence, lying in the middle between linear PCA and linear ICA, serving as a building block for learning linear transformations that are identifiable. | 翻訳日:2024-07-02 17:30:47 公開日:2024-07-01 |
# GPU上の高速かつ効率的な2ビットLPM推論:非同期行列における2/4/16ビット
Fast and Efficient 2-bit LLM Inference on GPU: 2/4/16-bit in a Weight Matrix with Asynchronous Dequantization ( http://arxiv.org/abs/2311.16442v3 ) ライセンス: Link先を確認 | Jinhao Li, Jiaming Xu, Shiyao Li, Shan Huang, Jun Liu, Yaoxiu Lian, Guohao Dai, | (参考訳) 大規模言語モデル(LLM)は、推論コストが高価である間、様々な領域で印象的な能力を示してきた。
従来の多くの研究は、LLM推論コストを削減するために量子化法を利用しており、レイテンシとメモリ消費を削減している。
2ビットの単精度重み量子化を適用すると、3%の精度の損失が発生するため、最先端の手法ではLLMの混合精度法(例えばLlama2-7bなど)を用いて精度を向上する。
しかし、(1)重み行列の不均一分布は依然として存在する。
2) スパースアウトリアの追加による大速度劣化
(3)GPU上での時間を要する復調処理。
本稿では,これらの課題に対処し,GPU上での高速かつ効率的なLLM推論を実現するために,以下の手法を提案する。
1)重量内混合精密量子化。
2) 最小速度劣化を伴う排他的2ビットスパースアウトレーヤ。
(3)非同期dequantization。
異なるモデルファミリ(例えばLlama3など)とモデルサイズについて広範な実験を行う。
我々は各重量に対して2.91ビットを達成し、全てのスケール/ゼロを無視できない損失を持つ異なるモデルに対して考慮する。
その結果、各重み行列に対する2/4/16混合精度量子化と推論時の非同期dequantizationにより、Llama2-7bのエンド・ツー・エンド・エンド・スピードアップを元のモデルより1.74倍に達成し、GPU要件の少ないランタイムコストとトータルコストを最大2.53xと2.29xに削減した。
Large language models (LLMs) have demonstrated impressive abilities in various domains while the inference cost is expensive. Many previous studies exploit quantization methods to reduce LLM inference cost by reducing latency and memory consumption. Applying 2-bit single-precision weight quantization brings >3% accuracy loss, so the state-of-the-art methods use mixed-precision methods for LLMs (e.g. Llama2-7b, etc.) to improve the accuracy. However, challenges still exist: (1) Uneven distribution in weight matrix. (2) Large speed degradation by adding sparse outliers. (3) Time-consuming dequantization operations on GPUs. To tackle these challenges and enable fast and efficient LLM inference on GPUs, we propose the following techniques in this paper. (1) Intra-weight mixed-precision quantization. (2) Exclusive 2-bit sparse outlier with minimum speed degradation. (3) Asynchronous dequantization. We conduct extensive experiments on different model families (e.g. Llama3, etc.) and model sizes. We achieve 2.91-bit for each weight considering all scales/zeros for different models with negligible loss. As a result, with our 2/4/16 mixed-precision quantization for each weight matrix and asynchronous dequantization during inference, our design achieves an end-to-end speedup for Llama2-7b is 1.74x over the original model, and we reduce both runtime cost and total cost by up to 2.53x and 2.29x with less GPU requirements. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# sec-certs: より優れた脆弱性軽減のためのセキュリティ認定プラクティスの検討
sec-certs: Examining the security certification practice for better vulnerability mitigation ( http://arxiv.org/abs/2311.17603v2 ) ライセンス: Link先を確認 | Adam Janovsky, Jan Jancar, Petr Svenda, Łukasz Chmielewski, Jiri Michalik, Vashek Matyas, | (参考訳) Common Criteriaのようなセキュリティ認定フレームワークの下で認定された製品は、コストのかかる認定プロセスの間、かなり精査される。
しかし、プライベートキーリカバリ(ROCA、Minerva、TPM-Fail...)を含む重要な脆弱性は、高い保証レベルを持つ認定製品で発見される。
さらに、未構造化の認定関連データや認定製品間の不明瞭な関係のため、そのような脆弱性によってどの認定製品が影響を受けるかを評価することは複雑である。
これらの問題に対処するため,我々はCommon Criteria証明書の大規模自動解析を行った。
NISTのNational Vulnerability Databaseの脆弱性が既存の認定製品に与える影響と、認定された製品が相互に参照する方法を学ぶために、教師なしのモデルをトレーニングしました。
我々のツールは、数万の認証関連文書の分析を自動化し、手動による解析が不可能なマシン可読な特徴を抽出する。
さらに,脆弱性の少ない製品に関連付けられたセキュリティ要件も確認する。
これは、認証のどの側面がより高いセキュリティと相関しているかを示しています。
当社のツールが、既知の高名な脆弱性の4つのケーススタディにおいて、より優れた脆弱性軽減にどのように使用できるかを実証する。
すべてのツールと継続的に更新された結果がhttps://seccerts.orgで公開されている。
Products certified under security certification frameworks such as Common Criteria undergo significant scrutiny during the costly certification process. Yet, critical vulnerabilities, including private key recovery (ROCA, Minerva, TPM-Fail...), get discovered in certified products with high assurance levels. Furthermore, assessing which certified products are impacted by such vulnerabilities is complicated due to the large amount of unstructured certification-related data and unclear relationships between the certified products. To address these problems, we conducted a large-scale automated analysis of Common Criteria certificates. We trained unsupervised models to learn which vulnerabilities from NIST's National Vulnerability Database impact existing certified products and how certified products reference each other. Our tooling automates the analysis of tens of thousands of certification-related documents, extracting machine-readable features where manual analysis is unattainable. Further, we identify the security requirements that are associated with products being affected by fewer and less severe vulnerabilities. This indicates which aspects of certification correlate with higher security. We demonstrate how our tool can be used for better vulnerability mitigation on four case studies of known, high-profile vulnerabilities. All tools and continuously updated results are available at https://seccerts.org | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# SeaLLMs - 東南アジア向け大規模言語モデル
SeaLLMs -- Large Language Models for Southeast Asia ( http://arxiv.org/abs/2312.00738v2 ) ライセンス: Link先を確認 | Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Zhiqiang Hu, Chenhui Shen, Yew Ken Chia, Xingxuan Li, Jianyu Wang, Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang, Chaoqun Liu, Hang Zhang, Lidong Bing, | (参考訳) 様々なタスクにおける大きな言語モデル(LLM)の顕著な成果にもかかわらず、低リソース言語や地域言語を犠牲にして、英語のような高リソース言語を好む言語バイアスが残っている。
この不均衡に対処するために,東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令およびアライメントチューニングにより、地域言語の複雑さをよりよく捉えるために、継続する事前訓練を通じてさらに進歩している。
これにより、彼らは地元の文化規範、慣習、様式的嗜好、法的配慮を尊重し、反映することができる。
包括的評価の結果,SeaLLM-13bモデルでは,言語タスクの幅広い範囲で性能が向上し,オープンソースモデルと比較してアシスタントスタイルの命令追従能力が向上していることがわかった。
さらに、タイ語、クメール語、ラオス語、ビルマ語などの非ラテン言語ではChatGPT-3.5を、軽量で費用対効果が保たれながら大きなマージンで上回っている。
Despite the remarkable achievements of large language models (LLMs) in various tasks, there remains a linguistic bias that favors high-resource languages, such as English, often at the expense of low-resource and regional languages. To address this imbalance, we introduce SeaLLMs, an innovative series of language models that specifically focuses on Southeast Asian (SEA) languages. SeaLLMs are built upon the Llama-2 model and further advanced through continued pre-training with an extended vocabulary, specialized instruction and alignment tuning to better capture the intricacies of regional languages. This allows them to respect and reflect local cultural norms, customs, stylistic preferences, and legal considerations. Our comprehensive evaluation demonstrates that SeaLLM-13b models exhibit superior performance across a wide spectrum of linguistic tasks and assistant-style instruction-following capabilities relative to comparable open-source models. Moreover, they outperform ChatGPT-3.5 in non-Latin languages, such as Thai, Khmer, Lao, and Burmese, by large margins while remaining lightweight and cost-effective to operate. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# CILF-CIAE: 逆年齢推定の補正のためのCLIP駆動画像言語融合
CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation ( http://arxiv.org/abs/2312.01758v2 ) ライセンス: Link先を確認 | Yuntao Shou, Wei Ai, Tao Meng, Keqin Li, | (参考訳) 年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。
年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させることができる。
近年, 言語画像事前学習(CLIP)は多モーダルなタスクに広く使われており, 年齢推定の分野では進歩している。
しかし、既存のCLIPベースの年齢推定手法では、画像のグローバルなモデリングにはメモリ使用量(二次的複雑さ)が高く、年齢予測結果の品質に関するモデルを促すためのエラーフィードバック機構が欠如している。
以上の課題に対処するために,新しいCLIP駆動画像言語融合(CILF-CIAE)を提案する。
具体的には、まずCLIPモデルを導入し、画像の特徴とテキストの意味情報を抽出し、それらを高度にセマンティックに整合した高次元特徴空間にマッピングする。
次に、画像のチャネル進化と空間的相互作用を実現し、画像とテキストの意味情報を融合するトランスフォーマーアーキテクチャ(FourierFormer)を設計した。
注意機構の二次的複雑さと比較すると、提案されたフーリエフォーマーは線形ログ複雑性である。
画像とテキストの特徴間のセマンティックなギャップをさらに狭めるために,FourierFormerのマルチモーダル融合プロセスの監督を行う効率的なコントラッシブ・マルチモーダル学習モジュールを利用する。
最後に, 年齢予測の誤差率を低減するために, エンドツーエンドの誤差フィードバックを用いた可逆年齢推定手法を提案する。
複数のデータセットに関する広範な実験を通じて、CILF-CIAEはより優れた年齢予測結果を得た。
The age estimation task aims to predict the age of an individual by analyzing facial features in an image. The development of age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.). In recent years, contrastive language-image pre-training (CLIP) has been widely used in various multimodal tasks and has made some progress in the field of age estimation. However, existing CLIP-based age estimation methods require high memory usage (quadratic complexity) when globally modeling images, and lack an error feedback mechanism to prompt the model about the quality of age prediction results. To tackle the above issues, we propose a novel CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation (CILF-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Compared with the quadratic complexity of the attention mechanism, the proposed Fourierformer is of linear log complexity. To further narrow the semantic gap between image and text features, we utilize an efficient contrastive multimodal learning module that supervises the multimodal fusion process of FourierFormer through contrastive loss for image-text matching, thereby improving the interaction effect between different modalities. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CILF-CIAE has achieved better age prediction results. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# Maggieの秘密を盗む - FPGAリバースエンジニアリングによるIP盗難の課題について
Stealing Maggie's Secrets -- On the Challenges of IP Theft Through FPGA Reverse Engineering ( http://arxiv.org/abs/2312.06195v2 ) ライセンス: Link先を確認 | Simon Klix, Nils Albartus, Julian Speith, Paul Staat, Alice Verstege, Annika Wilde, Daniel Lammers, Jörn Langheinrich, Christian Kison, Sebastian Sester-Wehle, Daniel Holcomb, Christof Paar, | (参考訳) 知的財産権(英: Intellectual Property、IP)は、米国だけでも毎年数十億ドルの損害を被る、金融と評判の大きな被害の原因である。
フィールドプログラマブルゲートアレイ(FPGA)はIP盗難に特に影響を受けており、その構成ファイルはIPを適度な努力でゲートレベルのネットリストにマップできるプロプライエタリなフォーマットで含んでいる。
この脅威にもかかわらず、この問題の科学的理解は現実に欠けており、学界におけるFPGAからのIP盗難の詳細な評価を妨げている。
iPhone 7で見つかったLattice iCE40 FPGAのケーススタディを通じて、この問題に対処する。
AppleはこのFPGAをMaggieと呼んでいる。
マギーに実装されたプロプライエタリな信号処理アルゴリズムをリバースエンジニアリングすることで、FPGAのIP盗難に要する実際の取り組みと、攻撃者が途中で直面している課題について、新たな洞察を得られる。
ケーススタディにより、我々は、必要な手作業を大幅に削減し、FPGAの実装とアーキテクチャの多種多様な範囲に適用できる一般化されたネットリストリバースエンジニアリング技術を導入しました。
これらの手法を,Xilinx と Lattice FPGA 用に合成された異なるFPGAアプリケーションを表す6つのベンチマークと,エンドツーエンドのホワイトボックスケーススタディで評価した。
最後に,今後の研究を奨励し,コミュニティが現実的な脅威評価を行えるようにし,新たな対策の評価を容易にするために,ネットリストのリバースエンジニアリング手法を包括したオープンソースツールスイートを提供する。
Intellectual Property (IP) theft is a cause of major financial and reputational damage, reportedly in the range of hundreds of billions of dollars annually in the U.S. alone. Field Programmable Gate Arrays (FPGAs) are particularly exposed to IP theft, because their configuration file contains the IP in a proprietary format that can be mapped to a gate-level netlist with moderate effort. Despite this threat, the scientific understanding of this issue lacks behind reality, thereby preventing an in-depth assessment of IP theft from FPGAs in academia. We address this discrepancy through a real-world case study on a Lattice iCE40 FPGA found inside iPhone 7. Apple refers to this FPGA as Maggie. By reverse engineering the proprietary signal-processing algorithm implemented on Maggie, we generate novel insights into the actual efforts required to commit FPGA IP theft and the challenges an attacker faces on the way. Informed by our case study, we then introduce generalized netlist reverse engineering techniques that drastically reduce the required manual effort and are applicable across a diverse spectrum of FPGA implementations and architectures. We evaluate these techniques on six benchmarks that are representative of different FPGA applications and have been synthesized for Xilinx and Lattice FPGAs, as well as in an end-to-end white-box case study. Finally, we provide a comprehensive open-source tool suite of netlist reverse engineering techniques to foster future research, enable the community to perform realistic threat assessments, and facilitate the evaluation of novel countermeasures. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# 量子誤り訂正符号とデコヒーレンス自由部分空間の連結化とその逆
Concatenating quantum error-correcting codes with decoherence-free subspaces and vice versa ( http://arxiv.org/abs/2312.08322v2 ) ライセンス: Link先を確認 | Nihar Ranjan Dash, Sanjoy Dutta, R. Srikanth, Subhashish Banerjee, | (参考訳) QECC(Quantum error-correcting code)とDFS(Decoherence-free subspace)は、それぞれ量子計算中に発生するある種のエラーに対処するための能動的および受動的手段を提供する。
後者の手法は、特定の対称性と前者による相関誤差を補正し、独立誤差を補正するのに適している。
QECCとDFSコードの結合により、退化符号がアクティブかつ受動的に修正された部分に分割され、縮退がどちらの部分にも影響を与え、退化エラーと退化安定化演算子が発生する。
2種類のコードの組み合わせは、相関エラーと独立エラーが混在している場合に、普遍的なフォールトトレラント量子計算に役立つ。
特に、十分に相関の取れた誤りに対しては、内部符号としてのDSFとの結合がより良好な絡み合いの忠実度を提供するのに対し、十分な独立誤差に対しては、内部符号としてのQECCとの結合が好ましいことを示す。
具体例として、2ビットのDSS符号と3ビットの繰り返し符号または5ビットのKnill-Laflamme符号の独立および相関誤差下での結合について詳細に検討する。
Quantum error-correcting codes (QECCs) and decoherence-free subspace (DFS) codes provide active and passive means, respectively, to address certain types of errors that arise during quantum computation. The latter technique is suitable to correct correlated errors with certain symmetries and the former to correct independent errors. The concatenation of a QECC and a DFS code results in a degenerate code that splits into actively and passively correcting parts, with the degeneracy impacting either part, leading to degenerate errors as well as degenerate stabilizer operators. The concatenation of the two types of code can aid universal fault-tolerant quantum computation when a mix of correlated and independent errors is encountered. In particular, we show that for sufficiently strongly correlated errors, the concatenation with the DFS as the inner code provides better entanglement fidelity, whereas for sufficiently independent errors, the concatenation with the QECC as the inner code is preferable. As illustrative examples, we examine in detail the concatenation of a two-qubit DFS code and a three-qubit repetition code or five-qubit Knill-Laflamme code, under independent and correlated errors. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# 予測可能な頂点障害のための接続性オラクル
Connectivity Oracles for Predictable Vertex Failures ( http://arxiv.org/abs/2312.08489v3 ) ライセンス: Link先を確認 | Bingbing Hu, Evangelos Kosinas, Adam Polak, | (参考訳) 頂点障害をサポートする接続オーラクルを設計する問題は、無向グラフの基本的なデータ構造問題の一つである。
先行研究[Duan-Pettie STOC'10; Long-Saranurak FOCS'22] は、失敗した頂点数でクエリ時間線形を達成しており、グラフのサイズで前処理時間多項式、失敗した頂点数で更新時間多項式を必要とする限り条件的に最適である。
我々は、この問題を予測を伴うアルゴリズムのパラダイムで再考する: 失敗する頂点のセットを、少数のエラーまで事前に予測できれば、クエリ時間を改善することができるかどうかを問う。
より具体的には、グラフ $G=(V,E)$ と、値が失敗すると予測される頂点のセットが $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ を与えられた後、予測値と失敗する頂点の実際のセットとの対称的な差として更新される$\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, it in time $\tilde{O}(d|E|)$ が与えられるように、その更新は、D(O)$G(O)$ の接続後に行われる。
別の観点から見ると、我々のデータ構造は、[Henzinger--Neumann ESA'16] における \emph{fully dynamic subgraph connection problem} の最先端よりも改善されている。
データ構造の前処理時間とクエリ時間は、標準的なきめ細かい複雑性仮定の下で条件的に最適である、と我々は主張する。
The problem of designing connectivity oracles supporting vertex failures is one of the basic data structures problems for undirected graphs. It is already well understood: previous works [Duan--Pettie STOC'10; Long--Saranurak FOCS'22] achieve query time linear in the number of failed vertices, and it is conditionally optimal as long as we require preprocessing time polynomial in the size of the graph and update time polynomial in the number of failed vertices. We revisit this problem in the paradigm of algorithms with predictions: we ask if the query time can be improved if the set of failed vertices can be predicted beforehand up to a small number of errors. More specifically, we design a data structure that, given a graph $G=(V,E)$ and a set of vertices predicted to fail $\widehat{D} \subseteq V$ of size $d=|\widehat{D}|$, preprocesses it in time $\tilde{O}(d|E|)$ and then can receive an update given as the symmetric difference between the predicted and the actual set of failed vertices $\widehat{D} \triangle D = (\widehat{D} \setminus D) \cup (D \setminus \widehat{D})$ of size $\eta = |\widehat{D} \triangle D|$, process it in time $\tilde{O}(\eta^4)$, and after that answer connectivity queries in $G \setminus D$ in time $O(\eta)$. Viewed from another perspective, our data structure provides an improvement over the state of the art for the \emph{fully dynamic subgraph connectivity problem} in the \emph{sensitivity setting} [Henzinger--Neumann ESA'16]. We argue that the preprocessing time and query time of our data structure are conditionally optimal under standard fine-grained complexity assumptions. | 翻訳日:2024-07-02 15:37:58 公開日:2024-07-01 |
# エンコーダオンリー変圧器モデルの論理推論能力の評価
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models ( http://arxiv.org/abs/2312.11720v2 ) ライセンス: Link先を確認 | Paulo Pirozelli, Marcos M. José, Paulo de Tarso P. Filho, Anarosa A. F. Brandão, Fabio G. Cozman, | (参考訳) 論理的推論は思考、議論、計画といった複雑な人間の活動の中心であり、多くのAIシステムの中心的なコンポーネントでもある。
本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に則ってどの程度理屈を導けるかを検討する。
これらのLMが命題計算や一階述語論理の定理を導出できるかどうか、それらの問題の相対的な成功が一般的な論理的能力を反映しているかどうか、どの層がタスクに最も寄与しているかを問う。
まず,複数のエンコーダのみのLMを適度に訓練して,様々なデータセットの論理的妥当性を判定できることを示す。
次に、これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示し、一般的な能力ではなく、データセット固有の特徴を学習した可能性があることを示唆する。
最後に, 階層的探索実験を行い, 仮説分類の課題は, 上位層を通して主に解決されることを示す。
Logical reasoning is central to complex human activities, such as thinking, debating, and planning; it is also a central component of many AI systems as well. In this paper, we investigate the extent to which encoder-only transformer language models (LMs) can reason according to logical rules. We ask whether those LMs can deduce theorems in propositional calculus and first-order logic; if their relative success in these problems reflects general logical capabilities; and which layers contribute the most to the task. First, we show for several encoder-only LMs that they can be trained, to a reasonable degree, to determine logical validity on various datasets. Next, by cross-probing fine-tuned models on these datasets, we show that LMs have difficulty in transferring their putative logical reasoning ability, which suggests that they may have learned dataset-specific features, instead of a general capability. Finally, we conduct a layerwise probing experiment, which shows that the hypothesis classification task is mostly solved through higher layers. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 大規模言語モデルからの気候変動
Climate Change from Large Language Models ( http://arxiv.org/abs/2312.11985v3 ) ライセンス: Link先を確認 | Hongyin Zhu, Prayag Tiwari, | (参考訳) 気候変動は重大な問題を引き起こし、広範囲の理解と低炭素のライフスタイルの認識を必要としている。
大規模言語モデル(LLM)は、この危機に対処するための強力なツールを提供するが、気候危機に関する知識の包括的な評価は欠如している。
本稿では,LLM内の気候危機知識を自動評価する枠組みを提案する。
我々は、データ合成と手動収集を組み合わせたハイブリッドアプローチを採用し、気候変動のさまざまな側面を含む多様な質問をまとめる。
コンパイルされた質問に基づいて素早いエンジニアリングを生かし、生成した回答を分析してモデルの知識を評価する。
さらに,10の異なる視点からの指標を包含し,気候危機に関する知識を評価するための総合的な指標も導入する。
これらの指標は多面的な評価を提供し、LLMの気候危機の理解に関する微妙な理解を可能にする。
実験の結果,提案手法の有効性が示された。
各種高性能LCMを用いて評価した結果,LCMには気候に関する知識がかなりあるものの,タイムラインの面では欠点があり,環境関連コンテンツの継続的な更新と改善の必要性が示唆された。
Climate change poses grave challenges, demanding widespread understanding and low-carbon lifestyle awareness. Large language models (LLMs) offer a powerful tool to address this crisis, yet comprehensive evaluations of their climate-crisis knowledge are lacking. This paper proposes an automated evaluation framework to assess climate-crisis knowledge within LLMs. We adopt a hybrid approach for data acquisition, combining data synthesis and manual collection, to compile a diverse set of questions encompassing various aspects of climate change. Utilizing prompt engineering based on the compiled questions, we evaluate the model's knowledge by analyzing its generated answers. Furthermore, we introduce a comprehensive set of metrics to assess climate-crisis knowledge, encompassing indicators from 10 distinct perspectives. These metrics provide a multifaceted evaluation, enabling a nuanced understanding of the LLMs' climate crisis comprehension. The experimental results demonstrate the efficacy of our proposed method. In our evaluation utilizing diverse high-performing LLMs, we discovered that while LLMs possess considerable climate-related knowledge, there are shortcomings in terms of timeliness, indicating a need for continuous updating and refinement of their climate-related content. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 可変行動空間に対する文脈強化学習
In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v6 ) ライセンス: Link先を確認 | Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov, | (参考訳) 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。
以前に提案されたモデルの鍵となる制限は、事前に定義されたアクション空間のサイズと構造に依存していることである。
新しいアクションスペースを導入するには、データ再コンパイルとモデル再トレーニングが必要になることが多い。
本研究は,1回しか訓練されていないものの,可変サイズ,セマンティック内容,順序の離散的な行動空間に一般化できるヘッドレスADモデルを提案することにより,この問題を軽減することができることを示す。
Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。
実装は、https://github.com/corl-team/headless-ad.comで公開されている。
Recently, it has been shown that transformers pre-trained on diverse datasets with multi-episode contexts can generalize to new reinforcement learning tasks in-context. A key limitation of previously proposed models is their reliance on a predefined action space size and structure. The introduction of a new action space often requires data re-collection and model re-training, which can be costly for some applications. In our work, we show that it is possible to mitigate this issue by proposing the Headless-AD model that, despite being trained only once, is capable of generalizing to discrete action spaces of variable size, semantic content and order. By experimenting with Bernoulli and contextual bandits, as well as a gridworld environment, we show that Headless-AD exhibits significant capability to generalize to action spaces it has never encountered, even outperforming specialized models trained for a specific set of actions on several environment configurations. Implementation is available at: https://github.com/corl-team/headless-ad. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 要求品質の因果推論のためのベイズ解析の適用:制御実験
Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Controlled Experiment ( http://arxiv.org/abs/2401.01154v2 ) ライセンス: Link先を確認 | Julian Frattini, Davide Fucci, Richard Torkar, Lloyd Montgomery, Michael Unterkalmsteiner, Jannik Fischbach, Daniel Mendez, | (参考訳) 要求仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられている。
しかし、これらの要件が十分であるかどうか、あるいはその後の活動を妨げるかどうかを判断する上で、組織を支援するための実証的な証拠は依然として欠如している。
この要件に依存するソフトウェアエンジニアリング活動において,要求品質の欠陥が持つ影響について,実証的な証拠の提供を目的としている。
業界と大学の25人の参加者が、異なる品質欠陥を含む4つの自然言語要件からドメインモデルを生成する制御実験を行った。
ベイジアンデータの頻度分析とベイジアンデータ解析の両方を用いて,得られたモデルを評価する。
私たちの期待とは対照的に、受動的音声の使用は、結果のドメインモデルに小さな影響しか与えないことを示す。
しかし、あいまいな代名詞の使用は、結果として生じるドメインモデルの様々な性質に強い影響を示す。
特に、曖昧な代名詞は、ドメインモデルにおける誤った関連をもたらす。
文学的手法や頻繁な手法に等しく反対されているにもかかわらず、ベイジアンのデータ分析は、調査された2つの品質欠陥がソフトウェアエンジニアリング活動に大きく異なる影響を与えることを示しており、したがって、異なるレベルの注意に値することを示している。
提案手法は,要求品質に関する信頼性,詳細な実証的証拠を改善するために,研究者によってさらに活用することができる。
It is commonly accepted that the quality of requirements specifications impacts subsequent software engineering activities. However, we still lack empirical evidence to support organizations in deciding whether their requirements are good enough or impede subsequent activities. We aim to contribute empirical evidence to the effect that requirements quality defects have on a software engineering activity that depends on this requirement. We conduct a controlled experiment in which 25 participants from industry and university generate domain models from four natural language requirements containing different quality defects. We evaluate the resulting models using both frequentist and Bayesian data analysis. Contrary to our expectations, our results show that the use of passive voice only has a minor impact on the resulting domain models. The use of ambiguous pronouns, however, shows a strong effect on various properties of the resulting domain models. Most notably, ambiguous pronouns lead to incorrect associations in domain models. Despite being equally advised against by literature and frequentist methods, the Bayesian data analysis shows that the two investigated quality defects have vastly different impacts on software engineering activities and, hence, deserve different levels of attention. Our employed method can be further utilized by researchers to improve reliable, detailed empirical evidence on requirements quality. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 量子漁業情報による多体インタラクションの探索
Exploring Many-body Interactions Through Quantum Fisher Information ( http://arxiv.org/abs/2401.01824v2 ) ライセンス: Link先を確認 | Paweł Cieśliński, Paweł Kurzyński, Tomasz Sowiński, Waldemar Kłobus, Wiesław Laskowski, | (参考訳) 多体相互作用の研究は、量子基盤と情報の両方において重要な意味を持つ。
ハミルトニアンが複数の粒子を同時に結合すると、より高速な絡み合い生成、マルチビットゲートの実装、エラー修正の改善につながる。
量子プラットフォームの数が増えるにつれて、このような物理的な設定の実現が可能となり、多体相互作用リソースの検証が研究されるようになる。
本研究では,量子フィッシャー情報による高次結合検出の可能性について検討する。
対称で翻訳的に不変な$k$-body Ising-like Hamiltonian の族に対しては、積状態における量子フィッシャー情報の境界を導出する。
相互作用の順序に関して順序づけられているため、適切な境界の違反を観測することにより、議論された族から与えられたハミルトニアンに対する多体結合を検出する可能性を示す。
これらの観測を拡張できる可能性として、XYモデルにおける3体相互作用検出の例をさらに分析する。
The investigation of many-body interactions holds significant importance in both quantum foundations and information. Hamiltonians coupling multiple particles at once, beyond others, can lead to a faster entanglement generation, multiqubit gate implementation and improved error correction. As an increasing number of quantum platforms enable the realization of such physical settings, it becomes interesting to study the verification of many-body interaction resources. In this work, we explore the possibility of higher-order couplings detection through the quantum Fisher information. For a family of symmetric and translationally invariant $k$-body Ising-like Hamiltonians, we derive the bounds on the quantum Fisher information in product states. Due to its ordering with respect to the order of interaction, we demonstrate the possibility of detecting many-body couplings for a given Hamiltonian from the discussed family by observing violations of an appropriate bound. As a possible extension to these observations, we further analyse an example concerning the three-body interaction detection in the XY model. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 配向バウンディングボックスに基づく効率的なインスタンス分割フレームワーク
An Efficient Instance Segmentation Framework Based on Oriented Bounding Boxes ( http://arxiv.org/abs/2401.08174v3 ) ライセンス: Link先を確認 | Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan, | (参考訳) ロボットビジョン計測における、完全に隠蔽されたオブジェクトと密集したオブジェクトのインスタンスセグメンテーションは、2つの課題である。
そこで本研究では,ボックスプロンプトベースのセグメンテーション基盤モデル(BSM),例えばセグメンテーションモデル(Segment Anything Model)を用いた,統一された粗いインスタンスセグメンテーションフレームワークCFNetを提案する。
具体的には、CFNetはまず、インスタンスを識別し、粗いローカライゼーション情報を提供するために、オブジェクト指向のバウンディングボックス(OBB)を検出する。
次に,OBBプロンプト関連マスクの微細セグメンテーションを予測した。
CFNet は OBB でインスタンスセグメンテーションを行うが、OBB では OBB は OOCCuder 上の部分的なオブジェクト境界のみを含んでおり、OOCCud オブジェクトの直接予測における既存の Amodal インスタンスセグメンテーションメソッドの難しさを克服している。
さらに、OBBはプロンプトとしてのみ機能するため、CFNetは高密度オブジェクトに対するOBBを用いた現在のインスタンスセグメンテーションメソッドのバウンディングボックス検出性能の過依存性を軽減する。
さらに,BSM が OBB プロンプトを扱えるようにするために,新しい OBB プロンプトエンコーダを提案する。
CFNetをより軽量にするため,知識蒸留を行い,教師モデル出力に対するガウスラベル平滑化手法を導入する。
CFNetは、産業用と公共用両方のデータセットにおいて、現在のインスタンスセグメンテーションメソッドよりも優れています。
コードはhttps://github.com/zhen6618/OBBInstanceSegmentationで入手できる。
Instance segmentation for completely occluded objects and dense objects in robot vision measurement are two challenging tasks. To uniformly deal with them, this paper proposes a unified coarse-to-fine instance segmentation framework, CFNet, which uses box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, CFNet first detects oriented bounding boxes (OBBs) to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. CFNet performs instance segmentation with OBBs that only contain partial object boundaries on occluders to predict occluded object instances, which overcomes the difficulty of existing amodal instance segmentation methods in directly predicting occluded objects. In addition, since OBBs only serve as prompts, CFNet alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs for dense objects. Moreover, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make CFNet more lightweight, we perform knowledge distillation on it and introduce a Gaussian label smoothing method for teacher model outputs. Experiments demonstrate that CFNet outperforms current instance segmentation methods on both industrial and public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# 両眼でLLMをスポッティングする: 機械生成テキストのゼロショット検出
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text ( http://arxiv.org/abs/2401.12070v2 ) ライセンス: Link先を確認 | Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova, Hamid Kazemi, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein, | (参考訳) 現代の大言語モデルによって生成されたテキストを検出することは、LLMと人間の両方が幅広い複雑な振る舞いを示すことができるため、困難であると考えられている。
しかし,2つの近縁言語モデルとの対比に基づくスコアは,人文と機械文の分離に極めて正確であることがわかった。
本機構を応用して,一対の事前学習LDMを用いた簡単な計算しか必要としない新しいLSM検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
モデル固有の変更を加えることなく、近代的なLLMから機械テキストを見つけることができる。
いくつかのテキストソースと様々な状況において、Binocularsを包括的に評価する。
幅広い種類の文書に対して、BinocularsはChatGPT(および他のLLM)から生成されたサンプルの90%以上を偽陽性率0.01%で検出する。
Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data. | 翻訳日:2024-07-02 15:28:10 公開日:2024-07-01 |
# パネルデータの欠落に対する試行的推論: 単純かつ至適なアプローチ
Entrywise Inference for Missing Panel Data: A Simple and Instance-Optimal Approach ( http://arxiv.org/abs/2401.13665v2 ) ライセンス: Link先を確認 | Yuling Yan, Martin J. Wainwright, | (参考訳) 縦またはパネルデータは、単位によってインデックスされた行と時間によってインデックスされた列の行列として表すことができる。
停滞した採用によって引き起こされたパネルデータの欠落データバージョンに関連する推論的疑問を考察する。
本稿では,単純な行列代数と特異値分解のみを含む計算効率の良い推定手法を提案する。
適切なスケールのガウス変数に近接する制御を行うことにより、予め特定されたカバレッジでエントリワイドな信頼区間を構築するためのデータ駆動手法の開発と解析を行う。
信頼区間の幅は、ベイジアン・クラム\'{e}r-ラオの議論によって導かれる漸近的でないインスタンス右下界と一致することを証明します。
本稿では, 様々な数値的な例について, 理論的特徴の鋭さについて述べる。
本分析は,行列分解モデルに適用されたSVDアルゴリズムの一般的な推論ツールボックスに基づく。
Longitudinal or panel data can be represented as a matrix with rows indexed by units and columns indexed by time. We consider inferential questions associated with the missing data version of panel data induced by staggered adoption. We propose a computationally efficient procedure for estimation, involving only simple matrix algebra and singular value decomposition, and prove non-asymptotic and high-probability bounds on its error in estimating each missing entry. By controlling proximity to a suitably scaled Gaussian variable, we develop and analyze a data-driven procedure for constructing entrywise confidence intervals with pre-specified coverage. Despite its simplicity, our procedure turns out to be instance-optimal: we prove that the width of our confidence intervals match a non-asymptotic instance-wise lower bound derived via a Bayesian Cram\'{e}r-Rao argument. We illustrate the sharpness of our theoretical characterization on a variety of numerical examples. Our analysis is based on a general inferential toolbox for SVD-based algorithm applied to the matrix denoising model, which might be of independent interest. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# SECOMP: Cプログラムの形式的セキュアコンパイル
SECOMP: Formally Secure Compilation of Compartmentalized C Programs ( http://arxiv.org/abs/2401.16277v4 ) ライセンス: Link先を確認 | Jérémy Thibault, Roberto Blanco, Dongjae Lee, Sven Argo, Arthur Azevedo de Amorim, Aïna Linn Georges, Catalin Hritcu, Andrew Tolmach, | (参考訳) C言語の未定義の動作は、しばしば破壊的なセキュリティ脆弱性を引き起こす。
これは、開発者が大きなプログラムを、明確に指定された特権と相互作用を持つ相互に不確実なコンパートメントに構成できるものである。
本稿では,非定義な動作のスコープが,それに遭遇して動的に妥協するコンパートメントに制限されることを保証する,マシンチェックされた証明が付属する,コンパートナライズドCコードのコンパイラであるSECOMPを紹介する。
これらの保証は、敵の文脈に対する安全性の保存として形式化され、完全な抽象化に類似したセキュアなコンパイル基準が、主流プログラミング言語でこのような強い基準が証明されたのはこれが初めてである。
これを達成するために、クロスコンパートメントインターフェースによって指定されたように、プロシージャコールとリターンを介してのみ対話できる分離されたコンパートメントでCompCert検証されたCコンパイラの言語を拡張します。
我々は、CompCertのパスと最適化、およびそれらの正当性証明を、このコンパートメント対応の設定に適用する。
次に,コンパイラの正しさをCコンパイラに拡張するために必要な,いくつかの証明工学のノベルティを含む,より大規模なセキュアなコンパイル証明の要素として使用する。
Undefined behavior in C often causes devastating security vulnerabilities. One practical mitigation is compartmentalization, which allows developers to structure large programs into mutually distrustful compartments with clearly specified privileges and interactions. In this paper we introduce SECOMP, a compiler for compartmentalized C code that comes with machine-checked proofs guaranteeing that the scope of undefined behavior is restricted to the compartments that encounter it and become dynamically compromised. These guarantees are formalized as the preservation of safety properties against adversarial contexts, a secure compilation criterion similar to full abstraction, and this is the first time such a strong criterion is proven for a mainstream programming language. To achieve this we extend the languages of the CompCert verified C compiler with isolated compartments that can only interact via procedure calls and returns, as specified by cross-compartment interfaces. We adapt the passes and optimizations of CompCert as well as their correctness proofs to this compartment-aware setting. We then use compiler correctness as an ingredient in a larger secure compilation proof that involves several proof engineering novelties, needed to scale formally secure compilation up to a C compiler. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# 一様PAC保証付き制約付きMDPに対するポリシーグラディエント・プライマル・ダイアルアルゴリズム
A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees ( http://arxiv.org/abs/2401.17780v3 ) ライセンス: Link先を確認 | Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara, Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka Matsuo, | (参考訳) 本稿では,オンライン制約付きマルコフ決定過程(CMDP)に対する原始二重強化学習(RL)アルゴリズムについて検討する。
この問題に対するPD-RLアルゴリズムに関する既存の理論的文献は、広く実用化されているにもかかわらず、サブリニアな後悔の保証しか提供せず、最適なポリシーへの収束を保証するのに失敗している。
本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,多項式サンプルの複雑性を任意の精度で保証する,新しいポリシー勾配PDアルゴリズムを提案する。
特に、これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。
理論的保証に加えて,我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPで,ベースラインアルゴリズムは振動性能と制約違反を示す。
We study a primal-dual (PD) reinforcement learning (RL) algorithm for online constrained Markov decision processes (CMDPs). Despite its widespread practical use, the existing theoretical literature on PD-RL algorithms for this problem only provides sublinear regret guarantees and fails to ensure convergence to optimal policies. In this paper, we introduce a novel policy gradient PD algorithm with uniform probably approximate correctness (Uniform-PAC) guarantees, simultaneously ensuring convergence to optimal policies, sublinear regret, and polynomial sample complexity for any target accuracy. Notably, this represents the first Uniform-PAC algorithm for the online CMDP problem. In addition to the theoretical guarantees, we empirically demonstrate in a simple CMDP that our algorithm converges to optimal policies, while baseline algorithms exhibit oscillatory performance and constraint violation. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# インストラクションガイドによるシーンテキスト認識
Instruction-Guided Scene Text Recognition ( http://arxiv.org/abs/2401.17851v2 ) ライセンス: Link先を確認 | Yongkun Du, Zhineng Chen, Yuchen Su, Caiyan Jia, Yu-Gang Jiang, | (参考訳) 近年のマルチモーダルモデルでは、自由形式のテキスト誘導学習が視覚内容の微粒化を誘発するなど、視覚認知タスクにおいて魅力的なパフォーマンスを示している。
しかし、現在のモデルは、自然画像とテキスト画像の合成の違いにより、非効率であるか、シーンテキスト認識(STR)に簡単にアップグレードできないかのいずれかである。
本稿では, STRを命令学習問題として定式化し, 文字属性, 文字頻度, 位置などを予測してテキスト画像を理解する, 命令誘導型シーンテキスト認識(IGTR)パラダイムを提案する。
IGTRはまず、$\left \langle condition,question,answer\right \rangle$ instruction tripletを考案した。
IGTRは、これらの属性を質問応答によって効果的に学習するために、軽量な命令エンコーダ、クロスモーダル特徴融合モジュール、マルチタスク応答ヘッドを開発し、ニュアンス付きテキスト画像理解を誘導する。
さらに、IGTRは、異なる命令を使用するだけで異なる認識パイプラインを実現し、現在の方法と大きく異なる文字理解ベースのテキスト推論パラダイムを実現する。
英語と中国語のベンチマークの実験では、IGTRはモデルのサイズを小さくし、推論速度を効率よく保ちながら、既存のモデルよりもかなりのマージンで優れていることが示されている。
さらに、命令のサンプリングを調整することで、IGTRは従来の課題であった稀に現れる文字と形態的に類似した文字の両方の認識に取り組むためのエレガントな方法を提供する。
コードネームは \href{https://github.com/Topdu/OpenOCR}{this http URL}。
Multi-modal models show appealing performance in visual recognition tasks recently, as free-form text-guided training evokes the ability to understand fine-grained visual content. However, current models are either inefficient or cannot be trivially upgraded to scene text recognition (STR) due to the composition difference between natural and text images. We propose a novel instruction-guided scene text recognition (IGTR) paradigm that formulates STR as an instruction learning problem and understands text images by predicting character attributes, e.g., character frequency, position, etc. IGTR first devises $\left \langle condition,question,answer\right \rangle$ instruction triplets, providing rich and diverse descriptions of character attributes. To effectively learn these attributes through question-answering, IGTR develops lightweight instruction encoder, cross-modal feature fusion module and multi-task answer head, which guides nuanced text image understanding. Furthermore, IGTR realizes different recognition pipelines simply by using different instructions, enabling a character-understanding-based text reasoning paradigm that considerably differs from current methods. Experiments on English and Chinese benchmarks show that IGTR outperforms existing models by significant margins, while maintaining a small model size and efficient inference speed. Moreover, by adjusting the sampling of instructions, IGTR offers an elegant way to tackle the recognition of both rarely appearing and morphologically similar characters, which were previous challenges. Code at \href{https://github.com/Topdu/OpenOCR}{this http URL}. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# 幻覚しないで、確実に:マルチLLMコラボレーションによるLLM知識ギャップの同定
Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration ( http://arxiv.org/abs/2402.00367v2 ) ライセンス: Link先を確認 | Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov, | (参考訳) 大きな言語モデル(LLM)の知識を拡大する努力にもかかわらず、LLMの欠落や時代遅れの情報といった知識ギャップは、知識の進化の性質から常に持続する可能性がある。
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
まず,モデルキャリブレーションや適応へのアプローチを微調整/プロンプティングによって適用し,低信頼出力の発生を抑える能力の解析を行う。
保留集合上での自己回帰と過度信頼の失敗により、モデル協調に基づく2つの新しいアプローチ、すなわち、協調的にも競争的にも他のLLMを探索するLLMを提案する。
多様な知識領域を特徴とする4つのQAタスクに関する3つのLLMによる大規模な実験は、LLM知識ギャップを公開するための協調的および競争的なアプローチが、最強のベースラインに対する絶対精度を最大19.3%向上させることを示した。
さらに分析した結果,提案手法は,検索強化における障害事例の同定や,マルチホップ推論におけるピンポイント知識ギャップの同定に有効であることが判明した。
Despite efforts to expand the knowledge of large language models (LLMs), knowledge gaps -- missing or outdated information in LLMs -- might always persist given the evolving nature of knowledge. In this work, we study approaches to identify LLM knowledge gaps and abstain from answering questions when knowledge gaps are present. We first adapt existing approaches to model calibration or adaptation through fine-tuning/prompting and analyze their ability to abstain from generating low-confidence outputs. Motivated by their failures in self-reflection and over-reliance on held-out sets, we propose two novel approaches that are based on model collaboration, i.e., LLMs probing other LLMs for knowledge gaps, either cooperatively or competitively. Extensive experiments with three LLMs on four QA tasks featuring diverse knowledge domains demonstrate that both cooperative and competitive approaches to unveiling LLM knowledge gaps achieve up to 19.3% improvements on abstain accuracy against the strongest baseline. Further analysis reveals that our proposed mechanisms could help identify failure cases in retrieval augmentation and pinpoint knowledge gaps in multi-hop reasoning. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# 周期駆動型アベリアスピン液体中の非アベリア異性体
Non-Abelian Anyons in Periodically Driven Abelian Spin Liquids ( http://arxiv.org/abs/2402.04131v3 ) ライセンス: Link先を確認 | Francesco Petiziol, | (参考訳) 本研究では,非アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア・アベリア
これはトリック・コード・モデルで説明され、幅広い種類のアベリアのトポロジカルスピン液体の標準的表現である。
トーリック・コードのアベリア・エノンにはフェルミオンとボソニックの準粒子の励起があり、互いに$\pi$フラックスとみなす。
非アベリア的振る舞いは、フロケ変調がフェルミオンに対する非自明なバンドトポロジーを創り出し、フロケ・マヨラナモードへの分数化をボソンに結び付けるため現れる。
後者は、トポロジカル超伝導体における渦に似た非アベリア文字を発達させ、イジントトポロジカル秩序を実現する。
我々の発見は、駆動されたトポロジカル秩序量子物質の非平衡物理学に光を当て、工学的な量子系における非アベリア的挙動の観察を容易にする可能性がある。
We show that non-Abelian anyons can emerge from an Abelian topologically ordered system subject to local time-periodic driving. This is illustrated with the toric-code model, as the canonical representative of a broad class of Abelian topological spin liquids. The Abelian anyons in the toric code include fermionic and bosonic quasiparticle excitations which see each other as $\pi$ fluxes, namely they result in the accumulation of a $\pi$ phase if wound around each other. Non-Abelian behaviour emerges because the Floquet modulation can engineer a non-trivial band topology for the fermions, inducing their fractionalization into Floquet-Majorana modes bound to the bosons. The latter then develop non-Abelian character akin to vortices in topological superconductors, realizing Ising topological order. Our findings shed light on the nonequilibrium physics of driven topologically ordered quantum matter and may facilitate the observation of non-Abelian behaviour in engineered quantum systems. | 翻訳日:2024-07-02 15:18:25 公開日:2024-07-01 |
# ConsistI2V:画像対ビデオ生成のための視覚的一貫性の強化
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation ( http://arxiv.org/abs/2402.04324v2 ) ライセンス: Link先を確認 | Weiming Ren, Huan Yang, Ge Zhang, Cong Wei, Xinrun Du, Wenhao Huang, Wenhu Chen, | (参考訳) Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
I2V生成における大きな課題は、ビデオ全体を通して視覚的一貫性を維持することである。既存の手法は、しばしば第一フレームから主題、背景、スタイルの整合性を維持するのに苦労し、ビデオの物語の中で流動的で論理的な進行を確実にする。
これらの問題を緩和するために,I2V生成の視覚的整合性を高める拡散法であるConsistI2Vを提案する。
具体的には,(1)空間的・運動的整合性を維持するために第1フレームに時空間的注意を向け,(2)レイアウトの整合性を高めるために第1フレームの低周波帯域から雑音初期化を行う。
これらの2つのアプローチにより、ConsistI2Vは高度に一貫したビデオを生成することができる。
また、提案手法を拡張して、自動回帰長ビデオ生成とカメラモーション制御における一貫性向上の可能性を示す。
本手法の有効性を検証するため,I2V生成のための総合評価ベンチマークであるI2V-Benchを提案する。
従来の手法よりもConsistI2Vの方が優れていることを示す。
Image-to-video (I2V) generation aims to use the initial frame (alongside a text prompt) to create a video sequence. A grand challenge in I2V generation is to maintain visual consistency throughout the video: existing methods often struggle to preserve the integrity of the subject, background, and style from the first frame, as well as ensure a fluid and logical progression within the video narrative. To mitigate these issues, we propose ConsistI2V, a diffusion-based method to enhance visual consistency for I2V generation. Specifically, we introduce (1) spatiotemporal attention over the first frame to maintain spatial and motion consistency, (2) noise initialization from the low-frequency band of the first frame to enhance layout consistency. These two approaches enable ConsistI2V to generate highly consistent videos. We also extend the proposed approaches to show their potential to improve consistency in auto-regressive long video generation and camera motion control. To verify the effectiveness of our method, we propose I2V-Bench, a comprehensive evaluation benchmark for I2V generation. Our automatic and human evaluation results demonstrate the superiority of ConsistI2V over existing methods. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# CodeIt: 優先順位付け後見リプレイによる自己改善型言語モデル
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay ( http://arxiv.org/abs/2402.04858v2 ) ライセンス: Link先を確認 | Natasha Butt, Blazej Manczak, Auke Wiggers, Corrado Rainone, David W. Zhang, Michaël Defferrard, Taco Cohen, | (参考訳) 大規模な言語モデルは、人間レベルの推論能力を必要とすると一般的に信じられているタスクを徐々に解決している。
しかしながら、これらのモデルは、ARC(Abstraction and Reasoning Corpus)のような一般的な知能のベンチマークでは、依然として非常によく機能しない。
本稿では,プログラミング・バイ・サンプル問題としてARCにアプローチし,コードイテレーション(Code It)と呼ばれる,言語モデルの自己改善のための新しい,スケーラブルな手法を提案する。
我々の手法は相互に反復する
1)プログラムのサンプリング及び後発レバーベリング
2) 優先経験から学ぶこと。
本手法は,実演の目標(すなわち,入力された対象プログラム出力)をサンプルプログラムが生成した実演出力にレバレッジすることにより,プログラム合成における報酬の極端な分散を効果的に処理する。
CodeItをARCデータセットに適用することにより、事前トレーニングとデータ拡張とともに、優先順位付けされた後視リプレイがタスク間の一般化を成功させることを示す。
CodeItは、完全なARC評価データセットにスケールする最初のニューロシンボリックアプローチである。
提案手法は、ARC評価タスクの15%を解決し、最先端の性能を達成し、既存のニューラルネットワークおよびシンボルベースラインを上回ります。
私たちのコードはhttps://github.com/Qualcomm-AI-research/codeitで公開されています。
Large language models are increasingly solving tasks that are commonly believed to require human-level reasoning ability. However, these models still perform very poorly on benchmarks of general intelligence such as the Abstraction and Reasoning Corpus (ARC). In this paper, we approach ARC as a programming-by-examples problem, and introduce a novel and scalable method for language model self-improvement called Code Iteration (CodeIt). Our method iterates between 1) program sampling and hindsight relabeling, and 2) learning from prioritized experience replay. By relabeling the goal of an episode (i.e., the target program output given input) to the realized output produced by the sampled program, our method effectively deals with the extreme sparsity of rewards in program synthesis. Applying CodeIt to the ARC dataset, we demonstrate that prioritized hindsight replay, along with pre-training and data-augmentation, leads to successful inter-task generalization. CodeIt is the first neuro-symbolic approach that scales to the full ARC evaluation dataset. Our method solves 15% of ARC evaluation tasks, achieving state-of-the-art performance and outperforming existing neural and symbolic baselines. Our code is available at https://github.com/Qualcomm-AI-research/codeit . | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# プルーニングと低ランク改造による安全アライメントの脆性評価
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications ( http://arxiv.org/abs/2402.05162v3 ) ライセンス: Link先を確認 | Boyi Wei, Kaixuan Huang, Yangsibo Huang, Tinghao Xie, Xiangyu Qi, Mengzhou Xia, Prateek Mittal, Mengdi Wang, Peter Henderson, | (参考訳) 大規模言語モデル(LLM)は、脱獄や非致死的な微調整への感受性から証明されるように、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
我々は,安全ガードレールに不可欠な重要な領域を同定する手法を開発し,ニューロンレベルとランクレベルの両方で実用関連領域から切り離されている。
驚いたことに、私たちが見つけた孤立した領域はスパースであり、パラメータレベルではおよそ$3\%、ランクレベルでは$2.5\%である。
これらの領域を除去することは、実用性に大きな影響を及ぼすことなく安全性を損なう。
さらに,LLMは安全クリティカル領域への変更が制限された場合でも,低コストの微調整攻撃に対して脆弱であることを示す。
これらの結果は,LSMのより堅牢な安全戦略の必要性を浮き彫りにした。
Large language models (LLMs) show inherent brittleness in their safety mechanisms, as evidenced by their susceptibility to jailbreaking and even non-malicious fine-tuning. This study explores this brittleness of safety alignment by leveraging pruning and low-rank modifications. We develop methods to identify critical regions that are vital for safety guardrails, and that are disentangled from utility-relevant regions at both the neuron and rank levels. Surprisingly, the isolated regions we find are sparse, comprising about $3\%$ at the parameter level and $2.5\%$ at the rank level. Removing these regions compromises safety without significantly impacting utility, corroborating the inherent brittleness of the model's safety mechanisms. Moreover, we show that LLMs remain vulnerable to low-cost fine-tuning attacks even when modifications to the safety-critical regions are restricted. These findings underscore the urgent need for more robust safety strategies in LLMs. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# 擬似自由推論におけるニュアンスパラメータの分類と一般化ラベルシフト
Classification under Nuisance Parameters and Generalized Label Shift in Likelihood-Free Inference ( http://arxiv.org/abs/2402.05330v2 ) ライセンス: Link先を確認 | Luca Masserano, Alex Shen, Michele Doro, Tommaso Dorigo, Rafael Izbicki, Ann B. Lee, | (参考訳) オープンな科学的課題は、データ生成プロセスのメカニスティックモデルを持つ場合に、信頼性のある不確実性の尺度でイベントを分類する方法である。
このタイプの分布シフトを一般化ラベルシフト(GLS)と呼ぶ。
観測データ$\mathbf{X}$を共変量として直接分類すると、ラベルのバイアス付き予測と不確実性推定が$Y$となる。
これらのバイアスを克服するために,不確実性定量化のための新しい手法を提案し,不確実性パラメータの下での仮説テスト問題として分類を論じる。
鍵となる考え方は、Nuisanceパラメータ空間全体にわたって分類器の受信動作特性(ROC)を推定することであり、GLSの下で不変なカットオフを考案することができる。
提案手法は,ドメイン適応能力を持つ事前学習型分類器を効果的に提供し,高出力を維持しながら有効な予測セットを返却する。
現実的な力学モデルから得られたデータを用いて、生物学と天体物理学における2つの挑戦的な科学的問題にその性能を実証する。
An open scientific challenge is how to classify events with reliable measures of uncertainty, when we have a mechanistic model of the data-generating process but the distribution over both labels and latent nuisance parameters is different between train and target data. We refer to this type of distributional shift as generalized label shift (GLS). Direct classification using observed data $\mathbf{X}$ as covariates leads to biased predictions and invalid uncertainty estimates of labels $Y$. We overcome these biases by proposing a new method for robust uncertainty quantification that casts classification as a hypothesis testing problem under nuisance parameters. The key idea is to estimate the classifier's receiver operating characteristic (ROC) across the entire nuisance parameter space, which allows us to devise cutoffs that are invariant under GLS. Our method effectively endows a pre-trained classifier with domain adaptation capabilities and returns valid prediction sets while maintaining high power. We demonstrate its performance on two challenging scientific problems in biology and astroparticle physics with data from realistic mechanistic models. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# 平均場レジームにおけるグラフニューラルネットワークの一般化誤差
Generalization Error of Graph Neural Networks in the Mean-field Regime ( http://arxiv.org/abs/2402.07025v3 ) ライセンス: Link先を確認 | Gholamali Aminian, Yixuan He, Gesine Reinert, Łukasz Szpruch, Samuel N. Cohen, | (参考訳) この研究は、パラメータの数がデータポイントの量を超える過パラメータ化状態におけるグラフニューラルネットワークの一般化誤差を評価する理論的枠組みを提供する。
グラフ畳み込みニューラルネットワークとメッセージパッシンググラフニューラルネットワークという,広く利用されている2種類のグラフニューラルネットワークについて検討する。
本研究以前には、過度パラメータ化方式における一般化誤差に関する既存の境界は非形式的であり、過度パラメータ化ネットワーク性能の理解を制限していた。
我々の新しいアプローチは、これらのグラフニューラルネットワークの一般化誤差を評価する平均場内上限を導出することである。
我々は収束率$O(1/n)$で上限を確立し、$n$はグラフサンプルの数である。
これらの上限は、挑戦的な過度パラメータ化体制における未確認データに対するネットワークの性能を理論的に保証し、その性能に対する我々の理解に貢献する。
This work provides a theoretical framework for assessing the generalization error of graph neural networks in the over-parameterized regime, where the number of parameters surpasses the quantity of data points. We explore two widely utilized types of graph neural networks: graph convolutional neural networks and message passing graph neural networks. Prior to this study, existing bounds on the generalization error in the over-parametrized regime were uninformative, limiting our understanding of over-parameterized network performance. Our novel approach involves deriving upper bounds within the mean-field regime for evaluating the generalization error of these graph neural networks. We establish upper bounds with a convergence rate of $O(1/n)$, where $n$ is the number of graph samples. These upper bounds offer a theoretical assurance of the networks' performance on unseen data in the challenging over-parameterized regime and overall contribute to our understanding of their performance. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# マイクロ波周波数コムにおける多重モード散乱の制御
Control of multi-modal scattering in a microwave frequency comb ( http://arxiv.org/abs/2402.09068v2 ) ライセンス: Link先を確認 | J. C. Rivera Hernández, Fabio Lingua, Shan W. Jolin, David B. Haviland, | (参考訳) 周波数コムの複数モード間の結合の制御は、連続変数系による測定に基づく量子計算への重要なステップである。
95モードのマイクロ波コンブにおける2乗ラダー相関グラフの作成を実証する。
グラフはジョセフソンパラメトリック発振器に適用された3つのポンプの相対位相を正確に制御することで設計される。
モード散乱行列の実験的測定は、パラメトリック発振器の運動の線形化方程式に基づく理論予測とよく一致している。
相関関係の生成と測定に使用されるデジタル手法は、特定の相関グラフトポロジを調整できるため、より多くのモードとより多くのポンプに容易にスケールできる。
Control over the coupling between multiple modes of a frequency comb is an important step toward measurement-based quantum computation with a continuous-variable system. We demonstrate the creation of square-ladder correlation graphs in a microwave comb with 95 modes. The graphs are engineered through precise control of the relative phase of three pumps applied to a Josephson parametric oscillator. Experimental measurement of the mode scattering matrix is in good agreement with theoretical predictions based on a linearized equation of motion of the parametric oscillator. The digital methods used to create and measure the correlations are easily scaled to more modes and more pumps, with the potential to tailor a specific correlation graph topology. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# 生成モデルの事前調整重量の復元
Recovering the Pre-Fine-Tuning Weights of Generative Models ( http://arxiv.org/abs/2402.10208v2 ) ライセンス: Link先を確認 | Eliahu Horwitz, Jonathan Kahana, Yedid Hoshen, | (参考訳) 生成モデリングにおける支配的なパラダイムは2つのステップから構成される。
一 大規模かつ安全でないデータセットの事前訓練
二 訓練済みモデルを微調整により人的価値と整合させること。
このプラクティスは、現在の方法では、安全でない、調整済みのモデルの重みを回復できないため、安全であると考えられている。
本稿では,この仮定がしばしば誤りであることを示す。
具体的には、いくつかの低ランク(LoRA)微調整モデルを用いて、プリファインチューニングモデルの重みを復元できるSpectral DeTuningを提案する。
従来のプリファインチューニング能力を回復しようとする攻撃とは対照的に,本手法はプリファインチューニングの正確な重みを回復することを目的としている。
このアプローチでは、パーソナライズされたStable DiffusionやアライメントされたMistralといった大規模モデルに対して、この新しい脆弱性を活用しています。
The dominant paradigm in generative modeling consists of two steps: i) pre-training on a large-scale but unsafe dataset, ii) aligning the pre-trained model with human values via fine-tuning. This practice is considered safe, as no current method can recover the unsafe, pre-fine-tuning model weights. In this paper, we demonstrate that this assumption is often false. Concretely, we present Spectral DeTuning, a method that can recover the weights of the pre-fine-tuning model using a few low-rank (LoRA) fine-tuned models. In contrast to previous attacks that attempt to recover pre-fine-tuning capabilities, our method aims to recover the exact pre-fine-tuning weights. Our approach exploits this new vulnerability against large-scale models such as a personalized Stable Diffusion and an aligned Mistral. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# インストラクション調整LDMの自動評価法はどの程度信頼性が高いか?
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? ( http://arxiv.org/abs/2402.10770v2 ) ライセンス: Link先を確認 | Ehsan Doostmohammadi, Oskar Holmström, Marco Kuhlmann, | (参考訳) 命令調整型大規模言語モデル (LLMs) の研究は, テキストオーバーラップに基づく自動手法とLCM判断を, 費用対効果の代替手段として用いている。
本稿では,このような手法のメタ評価を行い,その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
具体的には、ROUGE-L測定値は、短命な英語タスクに対する人間の評価とよく相関するが、自由形式生成タスクや言語間移動では信頼できない。
GPT-4を審査員として使用するより高度な手法の有効性は、基準回答がプロンプトに含まれていない場合、大幅に低下する。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
Work on instruction-tuned Large Language Models (LLMs) has used automatic methods based on text overlap and LLM judgments as cost-effective alternatives to human evaluation. In this paper, we perform a meta-evaluation of such methods and assess their reliability across a broad range of tasks. We observe that while automatic evaluation methods can approximate human ratings under specific conditions, their validity is highly context-dependent. Specifically, the simple ROUGE-L metric correlates well with human ratings for short-answer English tasks but is unreliable in free-form generation tasks and cross-lingual transfer. The effectiveness of the more advanced method of using GPT-4 as a judge diminishes significantly if reference answers are not included in the prompt, which is the scenario where this method has the potential to provide the most value compared to other metrics. Our findings enhance the understanding of how automatic methods should be applied and interpreted when developing and evaluating instruction-tuned LLMs. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# UniST: 都市時空間予測のためのプロンプト型ユニバーサルモデル
UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction ( http://arxiv.org/abs/2402.11838v5 ) ライセンス: Link先を確認 | Yuan Yuan, Jingtao Ding, Jie Feng, Depeng Jin, Yong Li, | (参考訳) 都市空間の時空間予測は交通管理,資源最適化,出現応答といった情報的意思決定に不可欠である。
1つのモデルで多様なタスクを扱えるような事前訓練された自然言語モデルの驚くべきブレークスルーにもかかわらず、時空間予測のための普遍的なソリューションは依然として困難であり、既存の予測アプローチは、通常特定の時空間シナリオに合わせて調整され、タスク固有のモデル設計と広範囲なドメイン固有のトレーニングデータを必要とする。
本研究では,広範にわたる都市空間の時空間予測のためのユニバーサルモデルUniSTを紹介する。
大規模な言語モデルにインスパイアされたUniSTは、以下の通り成功している。
(i)異なるシナリオから多様な時空間データを利用する。
(II)複雑な時空間力学を捉えるための効果的な事前学習
(三)知識誘導プロンプトは、一般化能力を高める。
これらの設計は、様々なシナリオのための普遍的なモデルを構築する可能性を開放し、20以上の時空間シナリオに関する大規模な実験により、UniSTが最先端のパフォーマンス、特にショット数やゼロショットの予測に有効であることを証明している。
データセットとコードの実装はhttps://github.com/tsinghua-fib-lab/UniSTで公開されている。
Urban spatio-temporal prediction is crucial for informed decision-making, such as traffic management, resource optimization, and emergence response. Despite remarkable breakthroughs in pretrained natural language models that enable one model to handle diverse tasks, a universal solution for spatio-temporal prediction remains challenging Existing prediction approaches are typically tailored for specific spatio-temporal scenarios, requiring task-specific model designs and extensive domain-specific training data. In this study, we introduce UniST, a universal model designed for general urban spatio-temporal prediction across a wide range of scenarios. Inspired by large language models, UniST achieves success through: (i) utilizing diverse spatio-temporal data from different scenarios, (ii) effective pre-training to capture complex spatio-temporal dynamics, (iii) knowledge-guided prompts to enhance generalization capabilities. These designs together unlock the potential of building a universal model for various scenarios Extensive experiments on more than 20 spatio-temporal scenarios demonstrate UniST's efficacy in advancing state-of-the-art performance, especially in few-shot and zero-shot prediction. The datasets and code implementation are released on https://github.com/tsinghua-fib-lab/UniST. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# Compress to Impress: リアルタイム長期会話における圧縮記憶の可能性
Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations ( http://arxiv.org/abs/2402.11975v2 ) ライセンス: Link先を確認 | Nuo Chen, Hongguang Li, Juhua Huang, Baoyuan Wang, Jia Li, | (参考訳) 既存の検索に基づく手法は、長期的な会話を維持するために大きな進歩を遂げてきた。
しかし、これらのアプローチは、メモリデータベース管理と正確なメモリ検索において課題に直面しており、動的な実世界の相互作用においてその効果を妨げている。
本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。
代わりにCOMEDYは"One-for-All"アプローチを採用し、単一の言語モデルを使用してメモリ生成、圧縮、レスポンス生成を管理する。
このフレームワークの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザ-ボットのダイナミクス、過去のイベントを簡潔なメモリ形式に解釈する。
COMEDYをサポートするために,実際のユーザ-チャットボットインタラクションから派生した,大規模な中国語命令チューニングデータセットDolphinをキュレートした。
比較評価により,COMEDYは従来の検索手法よりも,よりニュアンスで人間らしい会話体験を創出することが示されている。
私たちのコードはhttps://github.com/nuochenpku/COMEDY.comで公開されています。
Existing retrieval-based methods have made significant strides in maintaining long-term conversations. However, these approaches face challenges in memory database management and accurate memory retrieval, hindering their efficacy in dynamic, real-world interactions. This study introduces a novel framework, COmpressive Memory-Enhanced Dialogue sYstems (COMEDY), which eschews traditional retrieval modules and memory databases. Instead, COMEDY adopts a "One-for-All" approach, utilizing a single language model to manage memory generation, compression, and response generation. Central to this framework is the concept of compressive memory, which intergrates session-specific summaries, user-bot dynamics, and past events into a concise memory format. To support COMEDY, we curated a large-scale Chinese instruction-tuning dataset, Dolphin, derived from real user-chatbot interactions. Comparative evaluations demonstrate COMEDY's superiority over traditional retrieval-based methods in producing more nuanced and human-like conversational experiences. Our codes are available at https://github.com/nuochenpku/COMEDY. | 翻訳日:2024-07-02 15:08:40 公開日:2024-07-01 |
# 多変量時系列予測の活性化:系列間依存による学習可能な分解と系列内変動モデリング
Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling ( http://arxiv.org/abs/2402.12694v4 ) ライセンス: Link先を確認 | Guoqi Yu, Jing Zou, Xiaowei Hu, Angelica I. Aviles-Rivero, Jing Qin, Shujun Wang, | (参考訳) 多変量時系列の予測は非常に重要であり、シリーズ間の依存関係やシリーズ内のバリエーションを含む複雑なパターンを正確にモデル化する必要がある。
各時系列における特異な傾向特性は課題を生じさせ、既存の手法は基本的な移動平均カーネルに依存し、非線形構造や実世界のデータの複雑な傾向に悩まされる可能性がある。
そこで本研究では,動的傾向情報をより合理的に捉えるための,学習可能な分解戦略を提案する。
さらに,チャネルワイドな自己注意と自己回帰的自己注意によって実装された時系列予測の精度向上のために,シリーズ間の依存関係とシリーズ内変動を同時にキャプチャする2つのアテンションモジュールを提案する。
提案手法の有効性を評価するため,8つのオープンソースデータセットを対象に実験を行い,最先端の手法と比較した。
その結果,Leddam (Learnable Decomposition and Dual Attention Module) は,予測性能の大幅な向上を示すだけでなく,提案した分解戦略を11.87%から48.56%のMSE誤差劣化率で他の手法にプラグインできることがわかった。
Predicting multivariate time series is crucial, demanding precise modeling of intricate patterns, including inter-series dependencies and intra-series variations. Distinctive trend characteristics in each time series pose challenges, and existing methods, relying on basic moving average kernels, may struggle with the non-linear structure and complex trends in real-world data. Given that, we introduce a learnable decomposition strategy to capture dynamic trend information more reasonably. Additionally, we propose a dual attention module tailored to capture inter-series dependencies and intra-series variations simultaneously for better time series forecasting, which is implemented by channel-wise self-attention and autoregressive self-attention. To evaluate the effectiveness of our method, we conducted experiments across eight open-source datasets and compared it with the state-of-the-art methods. Through the comparison results, our Leddam (LEarnable Decomposition and Dual Attention Module) not only demonstrates significant advancements in predictive performance, but also the proposed decomposition strategy can be plugged into other methods with a large performance-boosting, from 11.87% to 48.56% MSE error degradation. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# LLMは合理的投資家か? : LLMにおける財務バイアスの検出と削減に関する研究
Are LLMs Rational Investors? A Study on Detecting and Reducing the Financial Bias in LLMs ( http://arxiv.org/abs/2402.12713v2 ) ライセンス: Link先を確認 | Yuhang Zhou, Yuchen Ni, Yunhui Gan, Zhangyue Yin, Xiang Liu, Jian Zhang, Sen Liu, Xipeng Qiu, Guangnan Ye, Hongfeng Chai, | (参考訳) 大規模言語モデル(LLM)は、複雑な市場データとトレンドを解釈する金融分析において、ますます採用されている。
しかし、その利用には内在バイアス(例えば、リスク予測バイアス)と市場の複雑さに関する表面的な理解が欠かせないため、財務的な見識を徹底的に評価する必要がある。
これらの問題に対処するために,我々は,Bias Unveiler,Bias Detective,Bias Tracker,Bias Antidoteといったコンポーネントを備えたフレームワークであるFinancial Bias Indicators (FBI)を紹介した。
行動金融の原則とバイアス試験を組み合わせることで、23のLLMを評価し、財務因果知識に基づく非バイアス化手法を提案する。
その結果, モデル間での経済的不合理性は, 設計や訓練の影響を受けやすいことがわかった。
金融データセットに特化して訓練されたモデルはより不合理性を示し、さらに大きな金融言語モデル(FinLLMs)はより小さな一般的なモデルよりもバイアスが大きい。
因果脱バイアスを取り入れた4つのプロンプトベースの手法を用いて,これらのモデルにおける経済的バイアスを効果的に低減する。
この研究は、LLMの金融アプリケーションにおけるバイアスの理解を深め、より信頼性が高く合理的な財務分析ツールの開発の基礎を築いた。
Large Language Models (LLMs) are increasingly adopted in financial analysis for interpreting complex market data and trends. However, their use is challenged by intrinsic biases (e.g., risk-preference bias) and a superficial understanding of market intricacies, necessitating a thorough assessment of their financial insight. To address these issues, we introduce Financial Bias Indicators (FBI), a framework with components like Bias Unveiler, Bias Detective, Bias Tracker, and Bias Antidote to identify, detect, analyze, and eliminate irrational biases in LLMs. By combining behavioral finance principles with bias examination, we evaluate 23 leading LLMs and propose a de-biasing method based on financial causal knowledge. Results show varying degrees of financial irrationality among models, influenced by their design and training. Models trained specifically on financial datasets may exhibit more irrationality, and even larger financial language models (FinLLMs) can show more bias than smaller, general models. We utilize four prompt-based methods incorporating causal debiasing, effectively reducing financial biases in these models. This work enhances the understanding of LLMs' bias in financial applications, laying the foundation for developing more reliable and rational financial analysis tools. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# 骨格表現からの管状形状再構成のための幾何学的アルゴリズム
A Geometric Algorithm for Tubular Shape Reconstruction from Skeletal Representation ( http://arxiv.org/abs/2402.12797v3 ) ライセンス: Link先を確認 | Guoqing Zhang, Yang Li, | (参考訳) 骨格表現から管状形状を復元するための新しいアプローチを提案する。
本手法では,全ての骨格点を全体として処理し,入力構造を複数のセグメントに分割する必要がない。
我々は,この管状形状を,ボクセル中心と物体との符号付き距離を簡単な幾何学的アルゴリズムで計算する,ボクセルハッシュ方式で切り離された符号付き距離関数(TSDF)として表現する。
提案手法は, 表面サンプリングスキームや大規模行列方程式の解法を含まないため, 他の手法と比較して管状形状再構成の高速かつエレガントな解法である。
提案手法の有効性と有効性を示す実験を行った。
コードはhttps://github.com/wlsdzyzl/Dragon.orgにある。
We introduce a novel approach for the reconstruction of tubular shapes from skeletal representations. Our method processes all skeletal points as a whole, eliminating the need for splitting input structure into multiple segments. We represent the tubular shape as a truncated signed distance function (TSDF) in a voxel hashing manner, in which the signed distance between a voxel center and the object is computed through a simple geometric algorithm. Our method does not involve any surface sampling scheme or solving large matrix equations, and therefore is a faster and more elegant solution for tubular shape reconstruction compared to other approaches. Experiments demonstrate the efficiency and effectiveness of the proposed method. Code is avaliable at https://github.com/wlsdzyzl/Dragon. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# 平衡トラニケーションを用いた対角状態空間層を持つS4のモデル圧縮法
Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation ( http://arxiv.org/abs/2402.15993v3 ) ライセンス: Link先を確認 | Haruka Ezoe, Kazuhiro Sato, | (参考訳) エッジデバイス上でディープラーニングモデルを実装するために,モデル圧縮手法は有用であると広く認識されている。
しかし、長周期データ処理に適した対角線空間(DSS)層を組み込んだ構造化状態空間シーケンス(S4)モデルに対して、どのモデル圧縮法が有効かは定かではない。
本稿では,従来のモデル圧縮手法として,事前学習したS4モデルのDSS層に対して,制御理論における一般的なモデル縮小手法であるバランスド・トランケーションを適用することを提案する。
さらに,本研究では,主学習過程におけるDSS層を有するS4モデルの初期パラメータとして,バランストランケーションによって得られた縮小モデルパラメータを提案する。
数値実験により, 従来の訓練モデルよりも少ないパラメータでも, スキュー・ヒポの初期化を精度良く行うことができることがわかった。
さらに, モデル圧縮法を用いて訓練したモデルでは, 元のモデルの精度が常に向上し, 元のモデルの強度を効果的に活用できる可能性が示唆された。
To implement deep learning models on edge devices, model compression methods have been widely recognized as useful. However, it remains unclear which model compression methods are effective for Structured State Space Sequence (S4) models incorporating Diagonal State Space (DSS) layers, tailored for processing long-sequence data. In this paper, we propose to use the balanced truncation, a prevalent model reduction technique in control theory, applied specifically to DSS layers in pre-trained S4 model as a novel model compression method. Moreover, we propose using the reduced model parameters obtained by the balanced truncation as initial parameters of S4 models with DSS layers during the main training process. Numerical experiments demonstrate that our trained models combined with the balanced truncation surpass conventionally trained models with Skew-HiPPO initialization in accuracy, even with fewer parameters. Furthermore, our observations reveal a positive correlation: higher accuracy in the original model consistently leads to increased accuracy in models trained using our model compression method, suggesting that our approach effectively leverages the strengths of the original model. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# GraphWiz: グラフ問題に対する命令追従型言語モデル
GraphWiz: An Instruction-Following Language Model for Graph Problems ( http://arxiv.org/abs/2402.16029v3 ) ライセンス: Link先を確認 | Nuo Chen, Yuhan Li, Jianheng Tang, Jia Li, | (参考訳) 大規模言語モデル(LLM)は、いくつかの分野において顕著な成功を収めてきたが、複雑なグラフ問題を理解し、解決する能力は明らかにされていない。
このギャップを埋めるために、言語モデルに明示的な推論パスを用いて幅広いグラフ問題に取り組む能力を持たせるために設計された、新しく包括的な命令チューニングデータセットであるGraphInstructを導入する。
GraphInstructを利用することで、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決可能な、オープンソースの言語モデルであるGraphWizを構築します。
モデルの性能と信頼性を高めるため、グラフ問題解決コンテキストにダイレクト・プライス・オプティマイズ(DPO)フレームワークを組み込む。
拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。
さらに、トレーニングデータ量とモデル性能の微妙なバランスについて検討し、データ量の増加による過度な適合の可能性を強調した。
また、異なるグラフタスク間でのモデルの推論能力の伝達可能性についても検討し、モデルの適応性と実用的なアプリケーションの可能性を示す。
我々の調査は、グラフ推論と問題解決に特化したLSMを開発する上で、新しい青写真と貴重な洞察を提供する。
Large language models (LLMs) have achieved impressive success across several fields, but their proficiency in understanding and resolving complex graph problems is less explored. To bridge this gap, we introduce GraphInstruct, a novel and comprehensive instruction-tuning dataset designed to equip language models with the ability to tackle a broad spectrum of graph problems using explicit reasoning paths. Utilizing GraphInstruct, we build GraphWiz, an open-source language model capable of resolving various graph problem types while generating clear reasoning processes. To enhance the model's capability and reliability, we incorporate the Direct Preference Optimization (DPO) framework into the graph problem-solving context. The enhanced model, GraphWiz-DPO, achieves an average accuracy of 65% across nine tasks with different complexity levels, surpassing GPT-4 which has an average accuracy of 43.8%. Moreover, our research delves into the delicate balance between training data volume and model performance, highlighting the potential for overfitting with increased data. We also explore the transferability of the model's reasoning ability across different graph tasks, indicating the model's adaptability and practical application potential. Our investigation offers a new blueprint and valuable insights for developing LLMs specialized in graph reasoning and problem-solving. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# コストアウェアによるベストアーム識別
Cost Aware Best Arm Identification ( http://arxiv.org/abs/2402.16710v2 ) ライセンス: Link先を確認 | Kellen Kanarios, Qining Zhang, Lei Ying, | (参考訳) 本稿では,双対物体を用いた最適な腕識別問題について検討する。
古典的な報酬に加えて、各アームはコスト分布と関連付けられており、ゴールは最小のコストで最大の報酬アームを特定することである。
これは、製品開発パイプラインにおけるテストと実装フェーズの分離を捉え、フェーズ間の客観的なシフト、すなわち、テストのコストと実装に対する報酬をモデル化します。
まず、CABAIの理論的下界を導出し、それを漸近的に一致させるために$\mathsf{CTAS}$というアルゴリズムを提案する。
さらに,$\mathsf{CTAS}$の計算量を削減するために,平方根法則に基づく簡単なアルゴリズムである 'emph{Chernoff Overlap} (CO) を提案する。
私たちの結果は
一 不均質な行動費用を無視して、実践において準最適となること。
(II) 単純アルゴリズムは, 幅広い問題に対して, ほぼ最適性能を実現することができる。
In this paper, we study a best arm identification problem with dual objects. In addition to the classic reward, each arm is associated with a cost distribution and the goal is to identify the largest reward arm using the minimum expected cost. We call it \emph{Cost Aware Best Arm Identification} (CABAI), which captures the separation of testing and implementation phases in product development pipelines and models the objective shift between phases, i.e., cost for testing and reward for implementation. We first derive a theoretical lower bound for CABAI and propose an algorithm called $\mathsf{CTAS}$ to match it asymptotically. To reduce the computation of $\mathsf{CTAS}$, we further propose a simple algorithm called \emph{Chernoff Overlap} (CO), based on a square-root rule, which we prove is optimal in simplified two-armed models and generalizes well in numerical experiments. Our results show that (i) ignoring the heterogeneous action cost results in sub-optimality in practice, and (ii) simple algorithms can deliver near-optimal performance over a wide range of problems. | 翻訳日:2024-07-02 14:58:55 公開日:2024-07-01 |
# ProTrix: 文コンテキストを持つテーブル上での計画と推論のためのモデルの構築
ProTrix: Building Models for Planning and Reasoning over Tables with Sentence Context ( http://arxiv.org/abs/2403.02177v2 ) ライセンス: Link先を確認 | Zirui Wu, Yansong Feng, | (参考訳) 表は、諸藩の情報伝達において重要な役割を担っている。
文コンテキストを持つテーブル上で異なるタイプのユーザクエリに応答するPlan-then-Reasonフレームワークを提案する。
フレームワークはまず、コンテキスト上の推論パスを計画し、次に各ステップをプログラムベースまたはテキスト推論に割り当てて最終回答に到達する。
このフレームワークは、コンテキスト内学習と微調整の両方におけるテーブル推論能力を向上させる。
Plan-then-Reasonフレームワークに従うGPT-3.5-Turboは、API呼び出しの削減とコンテキスト内デモを使用して、自己整合性のない他のプロンプトベースラインを上回っている。
また、このフレームワークによる微調整の有効性を評価するために、TrixInstructという命令チューニングセットを構築した。
本稿では、TrixInstruct上での微調整モデルにより、ProTrixモデルファミリを示す。
実験の結果, ProTrix ファミリーは6k のトレーニングインスタンスしか持たない多種多様な表型タスクに一般化できることがわかった。
さらに、複雑な自由形式の質問に答えるために、ProTrixが正確で忠実な説明を生成することを実証する。
我々の研究は、一般化可能性と解釈可能性を備えた表型タスクよりも、モデルに対する計画と推論能力の重要性を浮き彫りにしている。
私たちはデータセットとモデルをhttps://github.com/WilliamZR/ProTrix.comでオープンソース化しています。
Tables play a crucial role in conveying information in various domains. We propose a Plan-then-Reason framework to answer different types of user queries over tables with sentence context. The framework first plans the reasoning paths over the context, then assigns each step to program-based or textual reasoning to reach the final answer. This framework enhances the table reasoning abilities for both in-context learning and fine-tuning methods. GPT-3.5-Turbo following Plan-then-Reason framework surpasses other prompting baselines without self-consistency while using less API calls and in-context demonstrations. We also construct an instruction tuning set TrixInstruct to evaluate the effectiveness of fine-tuning with this framework. We present ProTrix model family by finetuning models on TrixInstruct. Our experiments show that ProTrix family generalizes to diverse unseen tabular tasks with only 6k training instances. We further demonstrate that ProTrix can generate accurate and faithful explanations to answer complex free-form questions. Our work underscores the importance of the planning and reasoning abilities towards a model over tabular tasks with generalizability and interpretability. We open-source our dataset and models at https://github.com/WilliamZR/ProTrix. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# スパース補間専門家によるファウショット一般化のためのメタチューニングのパワーの解放
Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts ( http://arxiv.org/abs/2403.08477v3 ) ライセンス: Link先を確認 | Shengzhuang Chen, Jihoon Tack, Yunqiao Yang, Yee Whye Teh, Jonathan Richard Schwarz, Ying Wei, | (参考訳) 近年の成功は、メタラーニングのような代替案の豊富な文献を置き換える、視覚における伝達学習の最先端の手法として、基礎モデルのパラメータ効率の良い微調整が示唆されている。
両方の世界の長所を活用すべく、メタチューニングはその後、基礎モデルの最適化段階を導入するが、今のところ成功は限定的であり、アウト・オブ・ディストリビューション(OOD)のタスクでは過小評価されがちである。
本稿では,Sparse MetA-Tuning(SMAT)について紹介する。これはSparse Mixed-of-Expertsアプローチにインスパイアされた手法で,各タスクのメタチューニングのために,事前学習したパラメータのサブセットを自動的に分離するように訓練されている。
SMATはOOD感度を克服し、パラメータ効率の良い微調整以上の視覚基盤モデルの伝達能力を向上するという約束を果たす。
ゼロショットとグラデーションベースのアダプション設定の両方において、メタデータセットとOODタスクを併用した挑戦的な組み合わせにより、最先端の新たな結果を確立する。
さらに,スパース・エキスパート・メソッドにおいて,手作業で設計したスパース・パターンよりも学習したスパース・パターンの優越性や,分布内と分布外一般化のバランスをとる上でのスパース・レベルの重要性について,徹底的に分析した。
私たちのコードは公開されています。
Recent successes suggest that parameter-efficient fine-tuning of foundation models as the state-of-the-art method for transfer learning in vision, replacing the rich literature of alternatives such as meta-learning. In trying to harness the best of both worlds, meta-tuning introduces a subsequent optimization stage of foundation models but has so far only shown limited success and crucially tends to underperform on out-of-distribution (OOD) tasks. In this paper, we introduce Sparse MetA-Tuning (SMAT), a method inspired by sparse mixture-of-experts approaches and trained to isolate subsets of pre-trained parameters automatically for meta-tuning on each task. SMAT successfully overcomes OOD sensitivity and delivers on the promise of enhancing the transfer abilities of vision foundation models beyond parameter-efficient fine-tuning. We establish new state-of-the-art results on a challenging combination of Meta-Dataset augmented with additional OOD tasks in both zero-shot and gradient-based adaptation settings. In addition, we provide a thorough analysis of the superiority of learned over hand-designed sparsity patterns for sparse expert methods and the pivotal importance of the sparsity level in balancing between in-distribution and out-of-distribution generalization. Our code is publicly available. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# 深層学習モデルを用いた脳内画像認識における時間周波数結合型非知覚的対立攻撃
Time-Frequency Jointed Imperceptible Adversarial Attack to Brainprint Recognition with Deep Learning Models ( http://arxiv.org/abs/2403.10021v3 ) ライセンス: Link先を確認 | Hangjie Yi, Yuhang Ming, Dongjun Liu, Wanzeng Kong, | (参考訳) 深層学習モデルを用いた脳波に基づく脳プリント認識は生体認証において多くの注目を集めている。
しかし,脳波入力を伴う深層学習モデルにおいて,敵対的攻撃に対する脆弱性が示唆されている。
本稿では,ウェーブレット変換を用いて,時間領域と周波数領域のEEG信号を同時攻撃する新たな逆攻撃手法を提案する。
時間領域脳波信号のみをターゲットとする既存の方法とは異なり、我々の手法は時間領域攻撃の強力な対角的強度を活かすだけでなく、周波数領域攻撃に固有の非受容性の利点も生かし、攻撃性能と非受容性のバランスを良くする。
その結果、3つのデータセットと3つのディープラーニングモデルに対して、攻撃手法が最先端の攻撃性能を達成することを実証した。
一方、我々の方法で攻撃された信号の摂動は、人間の視覚系に対してほとんど認識できない。
EEG-based brainprint recognition with deep learning models has garnered much attention in biometric identification. Yet, studies have indicated vulnerability to adversarial attacks in deep learning models with EEG inputs. In this paper, we introduce a novel adversarial attack method that jointly attacks time-domain and frequency-domain EEG signals by employing wavelet transform. Different from most existing methods which only target time-domain EEG signals, our method not only takes advantage of the time-domain attack's potent adversarial strength but also benefits from the imperceptibility inherent in frequency-domain attack, achieving a better balance between attack performance and imperceptibility. Extensive experiments are conducted in both white- and grey-box scenarios and the results demonstrate that our attack method achieves state-of-the-art attack performance on three datasets and three deep-learning models. In the meanwhile, the perturbations in the signals attacked by our method are barely perceptible to the human visual system. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# DynamicGlue: グラフニューラルネットワークを用いた動的環境におけるエピポーラと時間インフォームドデータアソシエーション
DynamicGlue: Epipolar and Time-Informed Data Association in Dynamic Environments using Graph Neural Networks ( http://arxiv.org/abs/2403.11370v3 ) ライセンス: Link先を確認 | Theresa Huber, Simon Schaefer, Stefan Leutenegger, | (参考訳) 静的環境の仮定はSLAMのような多くの幾何学的コンピュータビジョンタスクでは一般的であるが、非常にダイナミックなシーンでは適用性が制限される。
これらのタスクは、環境の静的部分における入力画像間の点対応の同定に依存するため、移動物体のキーポイントを排除しつつ、困難な条件下で頑健なマッチングを行うように設計されたグラフニューラルネットワークに基づくスパース特徴マッチングネットワークを提案する。
グラフエッジ上での注目集約方式を用いて、キーポイント表現を最先端の特徴マッチングネットワークとして強化するが、グラフをエピポーラ情報と時間情報で拡張し、グラフエッジの数を大幅に削減する。
さらに,未処理のビジュアル慣性データから動的環境における画像ペアの擬似ラベルを抽出する自己教師型学習手法を提案する。
現状の機能マッチングネットワークと比較して移動物体のキーポイントを除外し,従来と類似した結果を得た上で,ネットワークの優れた性能を示す実験が相次いだ。
SLAMシステムに統合すると,特にダイナミックなシーンにおいて,ネットワークの性能が著しく向上する。
The assumption of a static environment is common in many geometric computer vision tasks like SLAM but limits their applicability in highly dynamic scenes. Since these tasks rely on identifying point correspondences between input images within the static part of the environment, we propose a graph neural network-based sparse feature matching network designed to perform robust matching under challenging conditions while excluding keypoints on moving objects. We employ a similar scheme of attentional aggregation over graph edges to enhance keypoint representations as state-of-the-art feature-matching networks but augment the graph with epipolar and temporal information and vastly reduce the number of graph edges. Furthermore, we introduce a self-supervised training scheme to extract pseudo labels for image pairs in dynamic environments from exclusively unprocessed visual-inertial data. A series of experiments show the superior performance of our network as it excludes keypoints on moving objects compared to state-of-the-art feature matching networks while still achieving similar results regarding conventional matching metrics. When integrated into a SLAM system, our network significantly improves performance, especially in highly dynamic scenes. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# WIA-LD2ND:自己監督型低線量CT用ウェーブレット画像アライメント
WIA-LD2ND: Wavelet-based Image Alignment for Self-supervised Low-Dose CT Denoising ( http://arxiv.org/abs/2403.11672v3 ) ライセンス: Link先を確認 | Haoyu Zhao, Yuliang Gu, Zhou Zhao, Bo Du, Yongchao Xu, Rui Yu, | (参考訳) 臨床検査および診断では,低用量CT(LDCT)は正常用量CT(NDCT)と比較して,健康リスクの最小化に不可欠である。
しかし、放射線線量を減らすことで信号と雑音の比が低下し、CT画像の品質が低下する。
そこで我々は,周波数視点から実験結果に基づいてLDCT復調タスクを解析し,NDCTデータのみを用いて,WAA-LD2NDと呼ばれる新しい自己監督型CT画像復調手法を導入する。
提案したWAA-LD2NDは、ウェーブレットベースの画像アライメント(WIA)と周波数対応マルチスケールロス(FAM)の2つのモジュールからなる。
まず, LDCTとNDCTの主な相違点である高周波成分に雑音を主に付加することにより, NDCTとLDCTの整合性を示す。
第二に、高周波成分と詳細な情報を取得するために、マルチスケール特徴空間を効果的に活用することにより、周波数対応マルチスケールロス(FAM)を提案する。
WIA-LD2NDはNDCTのみを使用しており、最先端の弱い監督と自己管理の手法よりも優れています。
ソースコードはhttps://github.com/zhaohaoyu376/WI-LD2NDで公開されている。
In clinical examinations and diagnoses, low-dose computed tomography (LDCT) is crucial for minimizing health risks compared with normal-dose computed tomography (NDCT). However, reducing the radiation dose compromises the signal-to-noise ratio, leading to degraded quality of CT images. To address this, we analyze LDCT denoising task based on experimental results from the frequency perspective, and then introduce a novel self-supervised CT image denoising method called WIA-LD2ND, only using NDCT data. The proposed WIA-LD2ND comprises two modules: Wavelet-based Image Alignment (WIA) and Frequency-Aware Multi-scale Loss (FAM). First, WIA is introduced to align NDCT with LDCT by mainly adding noise to the high-frequency components, which is the main difference between LDCT and NDCT. Second, to better capture high-frequency components and detailed information, Frequency-Aware Multi-scale Loss (FAM) is proposed by effectively utilizing multi-scale feature space. Extensive experiments on two public LDCT denoising datasets demonstrate that our WIA-LD2ND, only uses NDCT, outperforms existing several state-of-the-art weakly-supervised and self-supervised methods. Source code is available at https://github.com/zhaohaoyu376/WI-LD2ND. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# MoreStyle: 一般化可能な医用画像分割におけるフーリエ画像再構成の低周波制約
MoreStyle: Relax Low-frequency Constraint of Fourier-based Image Reconstruction in Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2403.11689v3 ) ライセンス: Link先を確認 | Haoyu Zhao, Wenhui Dong, Rui Yu, Zhou Zhao, Du Bo, Yongchao Xu, | (参考訳) 医療画像セグメント化における単一ソース領域一般化(SDG)の課題は、臨床画像データセットのドメインシフトが頻発していることから重要である。
そこで本研究では,データ拡張のためのPlug-and-PlayモジュールであるMoreStyleを導入する。
MoreStyleは、フーリエ空間における低周波制約を緩和し、画像再構成ネットワークを導くことにより、画像スタイルを多様化する。
敵対的な学習の助けを借りて、MoreStyleはスタイル範囲をさらに拡大し、潜在機能の中で最も複雑なスタイルの組み合わせをピンポイントする。
重要なスタイルの変化に対処するために、不確実性重み付き損失を導入する。
この損失は、MoreStyle生成画像とオリジナル画像の両方において真の分類困難画素を緩和しながら、スタイルシフトによってのみ生じる、分類困難画素を強調している。
広く使われている2つのベンチマークの広範な実験により、提案されたMoreStyleはドメインの一般化能力を効果的に達成し、最先端のSDG法の性能をさらに向上させる可能性が示された。
ソースコードはhttps://github.com/zhaohaoyu376/morestyleで入手できる。
The task of single-source domain generalization (SDG) in medical image segmentation is crucial due to frequent domain shifts in clinical image datasets. To address the challenge of poor generalization across different domains, we introduce a Plug-and-Play module for data augmentation called MoreStyle. MoreStyle diversifies image styles by relaxing low-frequency constraints in Fourier space, guiding the image reconstruction network. With the help of adversarial learning, MoreStyle further expands the style range and pinpoints the most intricate style combinations within latent features. To handle significant style variations, we introduce an uncertainty-weighted loss. This loss emphasizes hard-to-classify pixels resulting only from style shifts while mitigating true hard-to-classify pixels in both MoreStyle-generated and original images. Extensive experiments on two widely used benchmarks demonstrate that the proposed MoreStyle effectively helps to achieve good domain generalization ability, and has the potential to further boost the performance of some state-of-the-art SDG methods. Source code is available at https://github.com/zhaohaoyu376/morestyle. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# 勾配降下型モルフォロジーニューラルネットワークの訓練 : いくつかの理論的考察
Training morphological neural networks with gradient descent: some theoretical insights ( http://arxiv.org/abs/2403.12975v2 ) ライセンス: Link先を確認 | Samy Blusseau, | (参考訳) モルフォロジーニューラルネットワーク(英: Morphological Neural Network、または層)は、完全な格子演算子の表現のような理論的側面や画像処理パイプラインの開発において、数学的形態学の進歩を促進する強力なツールである。
しかしながら、これらのアーキテクチャは、少なくとも勾配降下に基づく最適化アルゴリズムを使用する一般的な機械学習フレームワークにおいて、いくつかの形態的レイヤを数えると、トレーニングが困難であることが判明した。
本稿では、ブーリガンド微分の非滑らかな最適化概念を考慮して、微分に基づくアプローチと形態素ネットワークに適用されるバックプロパゲーションの可能性と限界について検討する。
我々は、特に初期化と学習率に関する洞察と最初の理論的ガイドラインを提供する。
Morphological neural networks, or layers, can be a powerful tool to boost the progress in mathematical morphology, either on theoretical aspects such as the representation of complete lattice operators, or in the development of image processing pipelines. However, these architectures turn out to be difficult to train when they count more than a few morphological layers, at least within popular machine learning frameworks which use gradient descent based optimization algorithms. In this paper we investigate the potential and limitations of differentiation based approaches and back-propagation applied to morphological networks, in light of the non-smooth optimization concept of Bouligand derivative. We provide insights and first theoretical guidelines, in particular regarding initialization and learning rates. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# CoCoST:オンライン検索と正確性テストを備えた自動複雑コード生成
CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing ( http://arxiv.org/abs/2403.13583v2 ) ライセンス: Link先を確認 | Xinyi He, Jiaru Zou, Yun Lin, Mengyu Zhou, Shi Han, Zejian Yuan, Dongmei Zhang, | (参考訳) 大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
しかし、複雑な構造、微妙なバグ、高度なデータ型の理解、補足的内容の欠如により、現実のシナリオ内で複雑なコードを生成することは依然として困難である。
このような課題に対処するため,我々はCoCoSTフレームワークを導入する。このフレームワークは,オンライン検索によって,計画されたクエリによるさらなる情報検索と,コードリファインメントのための正当性テストを実現する。
さらに、CoCoSTは複雑な入力と出力をシリアライズして理解を改善し、実世界のアプリケーションへの適応性を確保するためにテストケースを生成する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
実験結果から,CoCoSTは複雑なコード生成の品質を大幅に向上し,複雑なコード生成におけるLCMの実用性を高める可能性を示している。
Large Language Models have revolutionized code generation ability by converting natural language descriptions into executable code. However, generating complex code within real-world scenarios remains challenging due to intricate structures, subtle bugs, understanding of advanced data types, and lack of supplementary contents. To address these challenges, we introduce the CoCoST framework, which enhances complex code generation by online searching for more information with planned queries and correctness testing for code refinement. Moreover, CoCoST serializes the complex inputs and outputs to improve comprehension and generates test cases to ensure the adaptability for real-world applications. CoCoST is validated through rigorous experiments on the DS-1000 and ClassEval datasets. Experimental results show that CoCoST substantially improves the quality of complex code generation, highlighting its potential to enhance the practicality of LLMs in generating complex code. | 翻訳日:2024-07-02 14:49:11 公開日:2024-07-01 |
# メモリ・スイッチングコストを考慮したモチベーション付きオンライン非凸最適化問題
Capacity Provisioning Motivated Online Non-Convex Optimization Problem with Memory and Switching Cost ( http://arxiv.org/abs/2403.17480v2 ) ライセンス: Link先を確認 | Rahul Vaze, Jayakrishnan Nair, | (参考訳) オンラインの非凸最適化問題は、アクティブサーバ数を変更することでジョブセットのフロー時間(トータル遅延)を最小化することを目的としているが、時間とともにアクティブサーバ数を変更することで切り替えコストがかかる。
各ジョブは、いつでも1つの固定速度サーバで処理できる。
スイッチングコストの通常のオンライン凸最適化(OCO)問題と比較すると、客観的関数は非凸であり、さらに重要なのは、現在のものだけではなく、過去のすべての決定に依存することである。
最悪のケースと確率的な入力の両方が考慮され、どちらの場合も競合アルゴリズムが導出される。
An online non-convex optimization problem is considered where the goal is to minimize the flow time (total delay) of a set of jobs by modulating the number of active servers, but with a switching cost associated with changing the number of active servers over time. Each job can be processed by at most one fixed speed server at any time. Compared to the usual online convex optimization (OCO) problem with switching cost, the objective function considered is non-convex and more importantly, at each time, it depends on all past decisions and not just the present one. Both worst-case and stochastic inputs are considered; for both cases, competitive algorithms are derived. | 翻訳日:2024-07-02 14:39:26 公開日:2024-07-01 |
# 安全かつ責任のある大言語モデル : 大言語モデルにおけるバイアス削減と言語理解のバランスがとれるか?
Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? ( http://arxiv.org/abs/2404.01399v3 ) ライセンス: Link先を確認 | Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Fatemeh Tavakol, Deepak John Reji, Syed Raza Bashir, | (参考訳) 大規模言語モデル(LLM)は様々なNLPタスクを大幅に進歩させた。
しかしながら、これらのモデルはしばしばバイアスを持続する安全でないテキストを生成するリスクを負う。
LLMからバイアスのない出力を生成するための現在のアプローチは、バイアスを減らすことができるが、知識の保持を犠牲にしている。
本研究では,LLMによる安全(偏りのない)アウトプットの生成が,知識と言語理解を維持できるかどうかという課題に対処する。
そこで我々は,すでに安全であるLLM(例えば Llama2 など)上に微調整を施した LLM (\textbf{SR}$_{\text{LLM}}$)を開発した。
目標を達成するために、偏りのあるテキストの識別と修正において、モデルをトレーニングするために設計された特別なデータセットをコンパイルしました。
我々は,このカスタムデータとアウト・オブ・ディストリビューションテストセットを用いて,バイアス低減と知識保持を示す実験を行う。
結果は、従来の微調整や、バイアスの低減と言語知識の整合性維持の両面において、より優れた性能を発揮することを確認した。
本研究の意義は,命令の微調整がLLMのバイアス低減に有効であることを示すことである。
コードとデータは \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM} で公開しています。
Large Language Models (LLMs) have significantly advanced various NLP tasks. However, these models often risk generating unsafe text that perpetuates biases. Current approaches to produce unbiased outputs from LLMs can reduce biases but at the expense of knowledge retention. In this research, we address the question of whether producing safe (unbiased) outputs through LLMs can retain knowledge and language understanding. In response, we developed the Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$), an LLM that has been instruction fine-tuned on top of already safe LLMs (e.g., Llama2 or related) to diminish biases in generated text. To achieve our goals, we compiled a specialized dataset designed to train our model in identifying and correcting biased text. We conduct experiments, both on this custom data and out-of-distribution test sets, to show the bias reduction and knowledge retention. The results confirm that \textbf{SR}$_{\text{LLM}}$ outperforms traditional fine-tuning and prompting methods in both reducing biases and preserving the integrity of language knowledge. The significance of our findings lies in demonstrating that instruction fine-tuning can provide a more robust solution for bias reduction in LLMs. We have made our code and data available at \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM}. | 翻訳日:2024-07-02 14:39:26 公開日:2024-07-01 |
# フィボナッチの編み物
Braiding Fibonacci anyons ( http://arxiv.org/abs/2404.01778v3 ) ライセンス: Link先を確認 | Ludmil Hadjiivanov, Lachezar S. Georgiev, | (参考訳) フィボナッチ・アロン (Fibonacci anyons) は非アベリア核融合規則の最も単純なモデルを与える: [1] x [1] = [0] + [1]。
我々は、Z_3パラフェルミオン分数量子ホール状態における準粒子励起として実現されたフィボナッチアロンに基づく位相量子レジスタの共形場理論の構築を提案する。
この目的のために、n = 4 のフィボナッチ場の相関関数に対するアルドンとシューテンスの結果は、任意の n (および3 r 電子) の場合に拡張される。
得られた相関器の制動特性には特に注意が払われる。
フィボナッチの n-点共形ブロックに作用するアルティンブレイド群の単体表現の構成を詳細に説明する。
低 n に対して(n = 8 まで)、ブレイド群生成子の行列は明示的に表される。
単純な再帰公式は、任意の n への構成を努力することなく拡張することができる。
最後に、2N + 2 フィボナッチアロンの共形ブロックの観点から N 量子ビット計算空間を構築する。
Fibonacci anyons provide the simplest possible model of non-Abelian fusion rules: [1] x [1] = [0] + [1]. We propose a conformal field theory construction of topological quantum registers based on Fibonacci anyons realized as quasiparticle excitations in the Z_3 parafermion fractional quantum Hall state. To this end, the results of Ardonne and Schoutens for the correlation function of n = 4 Fibonacci fields are extended to the case of arbitrary n (and 3 r electrons). Special attention is paid to the braiding properties of the obtained correlators. We explain in details the construction of a monodromy representation of the Artin braid group acting on n-point conformal blocks of Fibonacci anyons. For low n (up to n = 8), the matrices of braid group generators are displayed explicitly. A simple recursion formula makes it possible to extend without efforts the construction to any n. Finally, we construct N qubit computational spaces in terms of conformal blocks of 2N + 2 Fibonacci anyons. | 翻訳日:2024-07-02 14:39:26 公開日:2024-07-01 |
# 検索機能強化されたオープンドメイン質問-ベクトル化コンテキストによる回答
Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts ( http://arxiv.org/abs/2404.02022v2 ) ライセンス: Link先を確認 | Zhuo Chen, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Kewei Tu, | (参考訳) 大規模言語モデルの時代において、検索拡張生成のようなテクニックを適用することは、オープンドメインの質問応答問題にもっとうまく対処できる。
モデルのサイズや計算資源などの制約のため、コンテキストの長さは制限されることが多く、オープンドメインからの質問に答えながら、長いコンテキストをカバーするようにモデルに権限を与えるのは難しい。
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる汎用的,便利な手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
本手法では,ベースラインに近い計算要求を保ちながら,元の言語モデルで数倍のコンテキストをカバーできる。
我々の実験は、微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定におけるパフォーマンスが向上したことを示した。
In the era of large language models, applying techniques such as Retrieval Augmented Generation can better address Open-Domain Question-Answering problems. Due to constraints including model sizes and computing resources, the length of context is often limited, and it becomes challenging to empower the model to cover overlong contexts while answering questions from open domains. This paper proposes a general and convenient method to covering longer contexts in Open-Domain Question-Answering tasks. It leverages a small encoder language model that effectively encodes contexts, and the encoding applies cross-attention with origin inputs. With our method, the origin language models can cover several times longer contexts while keeping the computing requirements close to the baseline. Our experiments demonstrate that after fine-tuning, there is improved performance across two held-in datasets, four held-out datasets, and also in two In Context Learning settings. | 翻訳日:2024-07-02 14:39:26 公開日:2024-07-01 |
# スタック化されたオートエンコーダとクラスタリングによる地質マッピングのためのリモートセンシングフレームワーク
Remote sensing framework for geological mapping via stacked autoencoders and clustering ( http://arxiv.org/abs/2404.02180v2 ) ライセンス: Link先を確認 | Sandeep Nagar, Ehsan Farahbakhsh, Joseph Awange, Rohitash Chandra, | (参考訳) ディメンタリティの低減やクラスタリングといった教師なし学習によって対処できる、正確にラベル付けされたトレーニングデータの不足による、リモートセンシング顔制限による地質図作成のための機械学習手法を改良した。
次元性低減法は、地質地図の精度向上に重要な役割を果たす可能性がある。
従来の次元減少法は非線形データと競合することがあるが、オートエンコーダのような教師なしのディープラーニングモデルは非線形関係をモデル化することができる。
スタックされたオートエンコーダは複数の相互接続層を備え、リモートセンシングデータに有用な階層データ表現をキャプチャする。
本研究は,地形単位のマッピングのための次元縮小とk平均クラスタリングのためのスタック付きオートエンコーダを用いた遠隔センシングデータ処理のための教師なし機械学習ベースのフレームワークを提案する。
我々は,オーストラリア・ニューサウスウェールズ州西部のムタウィンチ地域の地質マッピングの枠組みを評価するために,ランドサット8,ASTER,Sentinel-2のデータセットを用いている。
また、スタック化されたオートエンコーダと主成分分析と正準オートエンコーダを比較した。
本研究により, 岩盤単位を効率的に識別し, 高精度かつ解釈可能な地質図を作成できることが判明した。
重ねられたオートエンコーダの精度は、リモートセンシングデータの種類により、86.6%から90%の範囲であることがわかった。
また, 生成した地図は, 地質構造に関する新たな知見を提供しながら, それまでの地質学的知識と一致していることがわかった。
Supervised machine learning methods for geological mapping via remote sensing face limitations due to the scarcity of accurately labelled training data that can be addressed by unsupervised learning, such as dimensionality reduction and clustering. Dimensionality reduction methods have the potential to play a crucial role in improving the accuracy of geological maps. Although conventional dimensionality reduction methods may struggle with nonlinear data, unsupervised deep learning models such as autoencoders can model non-linear relationships. Stacked autoencoders feature multiple interconnected layers to capture hierarchical data representations useful for remote sensing data. This study presents an unsupervised machine learning-based framework for processing remote sensing data using stacked autoencoders for dimensionality reduction and k-means clustering for mapping geological units. We use Landsat 8, ASTER, and Sentinel-2 datasets to evaluate the framework for geological mapping of the Mutawintji region in Western New South Wales, Australia. We also compare stacked autoencoders with principal component analysis and canonical autoencoders. Our results reveal that the framework produces accurate and interpretable geological maps, efficiently discriminating rock units. We find that the accuracy of stacked autoencoders ranges from 86.6 % to 90 %, depending on the remote sensing data type, which is superior to their counterparts. We also find that the generated maps align with prior geological knowledge of the study area while providing novel insights into geological structures. | 翻訳日:2024-07-02 14:39:26 公開日:2024-07-01 |
# LLMを用いたモデル生成:要求からUMLシーケンス図へ
Model Generation with LLMs: From Requirements to UML Sequence Diagrams ( http://arxiv.org/abs/2404.06371v2 ) ライセンス: Link先を確認 | Alessio Ferrari, Sallam Abualhaija, Chetan Arora, | (参考訳) 自然言語(NL)要求をグラフィカルモデルで補完することは、ステークホルダーのコミュニケーションを改善し、システム設計の方向性を提供する。
しかしながら、要件からモデルを作成するには、手作業が必要です。
生成型大規模言語モデル(LLM)の出現、特にChatGPTは、モデル生成における自動化支援のための有望な道を提供する。
本稿では,NL 要求から UML シーケンス図など,特定の種類のモデルを生成する ChatGPT の能力について検討する。
そこで我々は,ChatGPTが生成したシーケンス図を,さまざまなタイプの28の要件文書と異なるドメインから検証する定性的研究を行った。
生成したダイアグラムの分析から得られた観察は、評価ログを通じて体系的に捉えられ、セマンティック分析によって分類される。
以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
この問題は、曖昧さや矛盾といった要求の匂いの存在において特に顕著である。
本研究から得られた知見は,REプロセスにおけるLLMの実用化に影響を及ぼし,有効モデル生成を目的とした新しいRE特異的プロンプト戦略への扉を開くことができる。
Complementing natural language (NL) requirements with graphical models can improve stakeholders' communication and provide directions for system design. However, creating models from requirements involves manual effort. The advent of generative large language models (LLMs), ChatGPT being a notable example, offers promising avenues for automated assistance in model generation. This paper investigates the capability of ChatGPT to generate a specific type of model, i.e., UML sequence diagrams, from NL requirements. We conduct a qualitative study in which we examine the sequence diagrams generated by ChatGPT for 28 requirements documents of various types and from different domains. Observations from the analysis of the generated diagrams have systematically been captured through evaluation logs, and categorized through thematic analysis. Our results indicate that, although the models generally conform to the standard and exhibit a reasonable level of understandability, their completeness and correctness with respect to the specified requirements often present challenges. This issue is particularly pronounced in the presence of requirements smells, such as ambiguity and inconsistency. The insights derived from this study can influence the practical utilization of LLMs in the RE process, and open the door to novel RE-specific prompting strategies targeting effective model generation. | 翻訳日:2024-07-02 14:29:42 公開日:2024-07-01 |
# σ-GPTs: 自己回帰モデルの新しいアプローチ
σ-GPTs: A New Approach to Autoregressive Models ( http://arxiv.org/abs/2404.09562v2 ) ライセンス: Link先を確認 | Arnaud Pannatier, Evann Courdier, François Fleuret, | (参考訳) GPTファミリーのような自己回帰モデルは、配列を生成するために固定順序(通常は左から右)を使用する。
しかし、これは必要ではない。
本稿では、この仮定に挑戦し、出力に位置エンコーディングを加えるだけで、この順序をオンザフライで変調できることを示す。
これはトークンの任意の部分集合のサンプリングと条件付けを可能にし、また拒絶戦略に従って1ショットの複数のトークンを動的にサンプリングすることを可能にする。
我々は,言語モデリング,パスソーシング,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行い,生成に必要なステップ数を桁違いに削減した。
Autoregressive models, such as the GPT family, use a fixed order, usually left-to-right, to generate sequences. However, this is not a necessity. In this paper, we challenge this assumption and show that by simply adding a positional encoding for the output, this order can be modulated on-the-fly per-sample which offers key advantageous properties. It allows for the sampling of and conditioning on arbitrary subsets of tokens, and it also allows sampling in one shot multiple tokens dynamically according to a rejection strategy, leading to a sub-linear number of model evaluations. We evaluate our method across various domains, including language modeling, path-solving, and aircraft vertical rate prediction, decreasing the number of steps required for generation by an order of magnitude. | 翻訳日:2024-07-02 14:29:42 公開日:2024-07-01 |
# DreamPBR:マルチモーダル誘導による高分解能SVBRDFのテキスト駆動生成
DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance ( http://arxiv.org/abs/2404.14676v2 ) ライセンス: Link先を確認 | Linxuan Xin, Zheng Zhang, Jinfu Wei, Wei Gao, Duan Gao, | (参考訳) 従来, 素材生成法は, 実世界の計測に頼っていた再構成法と, 比較的小さな資料データセットを用いて, 生成法を訓練したことから, 多様な結果を生み出すのに限界があった。
これらの課題に対処するため,DreamPBRを提案する。DreamPBRは,テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出し,高制御性と物質生成の多様性を提供する。
多様な高品質のPBR材料生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力と、数百のPBR材料サンプルから派生した材料先行性を統合することである。
我々は,アルベドマップと対応する潜伏空間のマッピングを確立するために,新しい物質Latent Diffusion Model (LDM) を用いる。
潜在表現は、レンダリング対応のPBRデコーダを使用して完全なSVBRDFパラメータマップにデコードされる。
本手法は円パディングによる畳み込みによるタイル状発電を支援する。
さらに,LDMの制御能力を高めるために,画素アライメントガイダンス,スタイルイメージガイダンス,3次元形状ガイダンスを含むマルチモーダルガイダンスモジュールを導入する。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
Prior material creation methods had limitations in producing diverse results mainly because reconstruction-based methods relied on real-world measurements and generation-based methods were trained on relatively small material datasets. To address these challenges, we propose DreamPBR, a novel diffusion-based generative framework designed to create spatially-varying appearance properties guided by text and multi-modal controls, providing high controllability and diversity in material generation. Key to achieving diverse and high-quality PBR material generation lies in integrating the capabilities of recent large-scale vision-language models trained on billions of text-image pairs, along with material priors derived from hundreds of PBR material samples. We utilize a novel material Latent Diffusion Model (LDM) to establish the mapping between albedo maps and the corresponding latent space. The latent representation is then decoded into full SVBRDF parameter maps using a rendering-aware PBR decoder. Our method supports tileable generation through convolution with circular padding. Furthermore, we introduce a multi-modal guidance module, which includes pixel-aligned guidance, style image guidance, and 3D shape guidance, to enhance the control capabilities of the material LDM. We demonstrate the effectiveness of DreamPBR in material creation, showcasing its versatility and user-friendliness on a wide range of controllable generation and editing applications. | 翻訳日:2024-07-02 14:29:42 公開日:2024-07-01 |
# 逆圧縮レンズによるLDM記憶の再考
Rethinking LLM Memorization through the Lens of Adversarial Compression ( http://arxiv.org/abs/2404.15146v2 ) ライセンス: Link先を確認 | Avi Schwarzschild, Zhili Feng, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter, | (参考訳) Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
その答えは、どのように記憶を定義するかに大きく左右される。
本研究では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
トレーニングデータから与えられた文字列は、文字列自体よりも短いプロンプト(マス)で引き起こせる場合、記憶される。
ACRは、記憶の既存の概念の限界を克服する
一 暗記の計測、特に未学習及びコンプライアンスの監視の逆視を提供すること。
(ii)任意の文字列のメモリ化を適度に低い計算で測定できる柔軟性を実現する。
私たちの定義は、モデル所有者がデータ使用に関する条件に違反しているかどうかを判断する実用的なツールとして機能し、そのようなシナリオに対処する潜在的な法的ツールとクリティカルレンズを提供する。
Large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models "memorize" all their training data or they integrate many data sources in some way more akin to how a human would learn and synthesize information. The answer hinges, to a large degree, on how we define memorization. In this work, we propose the Adversarial Compression Ratio (ACR) as a metric for assessing memorization in LLMs. A given string from the training data is considered memorized if it can be elicited by a prompt (much) shorter than the string itself -- in other words, if these strings can be "compressed" with the model by computing adversarial prompts of fewer tokens. The ACR overcomes the limitations of existing notions of memorization by (i) offering an adversarial view of measuring memorization, especially for monitoring unlearning and compliance; and (ii) allowing for the flexibility to measure memorization for arbitrary strings at a reasonably low compute. Our definition serves as a practical tool for determining when model owners may be violating terms around data usage, providing a potential legal tool and a critical lens through which to address such scenarios. | 翻訳日:2024-07-02 14:29:42 公開日:2024-07-01 |
# 粒子検出器読み出しにおける機械学習のための130nmおよび28nmCMOSの組み込みFPGA開発
Embedded FPGA Developments in 130nm and 28nm CMOS for Machine Learning in Particle Detector Readout ( http://arxiv.org/abs/2404.17701v2 ) ライセンス: Link先を確認 | Julia Gonski, Aseem Gupta, Haoyi Jia, Hyunjoon Kim, Lorenzo Rota, Larry Ruckman, Angelo Dragone, Ryan Herbst, | (参考訳) 組み込みフィールドプログラマブルゲートアレイ(eFPGA)技術は、アプリケーション固有の集積回路(ASIC)の設計において再構成可能なロジックの実装を可能にする。
このアプローチはASICの低消費電力と効率、FPGA構成の容易さ、特に次世代コライダー実験のデータパイプラインにおける機械学習のユースケースに有益である。
FABulous"と呼ばれるオープンソースのフレームワークは130nmと28nmのCMOS技術ノードを使ってeFPGAを設計するために使われ、その後、テストによって製造され検証された。
シリコン画素センサを通した高エネルギー粒子のシミュレーションを用いて,eFPGAをフロントエンドの読み出しチップとして機能させる能力を評価した。
ソースにおけるセンサデータの削減のために設計された機械学習ベースの分類器を合成し、eFPGA上に構成した。
完全な精度でeFPGA上で予測されたアルゴリズムを再現し,概念実証に成功した。
eFPGA技術のさらなる発展とコライダー検出器の読み出しへの応用について論じる。
Embedded field programmable gate array (eFPGA) technology allows the implementation of reconfigurable logic within the design of an application-specific integrated circuit (ASIC). This approach offers the low power and efficiency of an ASIC along with the ease of FPGA configuration, particularly beneficial for the use case of machine learning in the data pipeline of next-generation collider experiments. An open-source framework called "FABulous" was used to design eFPGAs using 130 nm and 28 nm CMOS technology nodes, which were subsequently fabricated and verified through testing. The capability of an eFPGA to act as a front-end readout chip was assessed using simulation of high energy particles passing through a silicon pixel sensor. A machine learning-based classifier, designed for reduction of sensor data at the source, was synthesized and configured onto the eFPGA. A successful proof-of-concept was demonstrated through reproduction of the expected algorithm result on the eFPGA with perfect accuracy. Further development of the eFPGA technology and its application to collider detector readout is discussed. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# ファースト・ツー・スパイク符号化を用いた確率スパイクニューラルネットワーク
Stochastic Spiking Neural Networks with First-to-Spike Coding ( http://arxiv.org/abs/2404.17719v3 ) ライセンス: Link先を確認 | Yi Jiang, Sen Lu, Abhronil Sengupta, | (参考訳) ニューラルネットワークの第3世代として認識されているスパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアに実装された場合、その生物学的楽観性とエネルギー効率で知られている。
しかし、SNNの既存の研究の大部分は、情報統合の長い時間による計算上のオーバーヘッドを生じさせ、脳の確率的推論能力と時間的ダイナミクスを完全に活用できない決定論的ニューロンに集中している。
本研究では,SNNアーキテクチャにおける新しい計算手法と情報符号化手法の融合について検討し,確率的スパイクニューロンモデルと時間的符号化技術を統合する。
他の決定論的SNNとの広範なベンチマークとレートベースコーディングを通じて、我々は、精度、推論遅延、スパイク空間性、エネルギー消費、ロバスト性の観点から、我々の提案のトレードオフを調査した。
我々の研究は、VGGアーキテクチャやMNISTを超えるデータセットにテンポラリエンコードすることで、確率的SNNの直接トレーニングアプローチのスケーラビリティを初めて拡張したものです。
Spiking Neural Networks (SNNs), recognized as the third generation of neural networks, are known for their bio-plausibility and energy efficiency, especially when implemented on neuromorphic hardware. However, the majority of existing studies on SNNs have concentrated on deterministic neurons with rate coding, a method that incurs substantial computational overhead due to lengthy information integration times and fails to fully harness the brain's probabilistic inference capabilities and temporal dynamics. In this work, we explore the merger of novel computing and information encoding schemes in SNN architectures where we integrate stochastic spiking neuron models with temporal coding techniques. Through extensive benchmarking with other deterministic SNNs and rate-based coding, we investigate the tradeoffs of our proposal in terms of accuracy, inference latency, spiking sparsity, energy consumption, and robustness. Our work is the first to extend the scalability of direct training approaches of stochastic SNNs with temporal encoding to VGG architectures and beyond-MNIST datasets. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# 法医学的言語学における機械学習アプローチの説明可能性--ジオ言語学的オーサシップ・プロファイリングを事例として
Explainability of machine learning approaches in forensic linguistics: a case study in geolinguistic authorship profiling ( http://arxiv.org/abs/2404.18510v2 ) ライセンス: Link先を確認 | Dana Roemling, Yves Scherrer, Aleksandra Miletic, | (参考訳) 法医学的著作者プロファイルは、言語マーカーを使用して、テキストの著者の特徴を推測する。
このタスクは方言分類において並列化され、テキスト自体に基づいたテキストの言語的多様性に関する予測が行われる。
近年、多種多様な分類において顕著な進歩があったが、その透明性の欠如などにより、法医学的な言語学がこれらのアプローチに頼ることはめったにない。
そこで本稿では,法医学的文脈を考慮した機械学習手法の説明可能性について考察する。
我々は、ドイツ語圏のソーシャルメディアデータに基づく未知のテキストのジオ言語的プロファイリングの手段として、多種多様な分類に焦点を当てた。
そこで本研究では,様々な分類において最も影響の大きい語彙項目を同定する。
抽出した語彙的特徴がそれぞれの品種を実際に代表しており、訓練されたモデルは分類の場所名にも依存していることに注意する。
Forensic authorship profiling uses linguistic markers to infer characteristics about an author of a text. This task is paralleled in dialect classification, where a prediction is made about the linguistic variety of a text based on the text itself. While there have been significant advances in recent years in variety classification, forensic linguistics rarely relies on these approaches due to their lack of transparency, among other reasons. In this paper we therefore explore the explainability of machine learning approaches considering the forensic context. We focus on variety classification as a means of geolinguistic profiling of unknown texts based on social media data from the German-speaking area. For this, we identify the lexical items that are the most impactful for the variety classification. We find that the extracted lexical features are indeed representative of their respective varieties and note that the trained models also rely on place names for classifications. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# MLソフトウェア構成の公正性を予測する
Predicting Fairness of ML Software Configurations ( http://arxiv.org/abs/2404.19100v2 ) ライセンス: Link先を確認 | Salvador Robles Herrera, Verya Monjezi, Vladik Kreinovich, Ashutosh Trivedi, Saeid Tizpaz-Niari, | (参考訳) 本稿では,機械学習のハイパーパラメータとフェアネスの関係について検討する。
データ駆動型ソリューションは、公正性を保証することが重要である重要な社会技術応用において、ますます利用されている。
ML開発者は、制御とデータ構造を介して決定ロジックを明示的に符号化する代わりに、入力データを提供し、事前処理を実行し、MLアルゴリズムを選択し、決定ロジックを符号化するプログラムを推論するためにハイパーパラメータ(HP)をチューニングする。
以前の報告では、HPの選択は公正性に大きな影響を及ぼす可能性がある。
しかし、正確性、正確性、公平性の間の理想的なトレードオフを見つけるためにHPをチューニングすることは、高価で面倒な作業である。
与えられたデータセットに対するHP構成の公平性を予測できますか?
予測は分布シフトに対して堅牢か?
我々は,グループフェアネスの概念に着目し,HP空間の5つのトレーニングアルゴリズムについて検討する。
我々はまず、木の回帰器とXGBootsがディープニューラルネットワークを著しく上回り、HPの公正性を正確に予測するベクトルマシンをサポートすることを発見した。
時間分布シフトの下でMLハイパーパラメータの公平さを予測する場合、ツリー回帰器は他のアルゴリズムよりも正確な精度で性能を向上する。
しかし、精度はMLトレーニングアルゴリズム、データセット、保護属性に依存する。
例えば、ツリー回帰モデルは、2014年から2018年までのロジスティック回帰と差別分析に基づいてデータシフトをトレーニングするために堅牢でした。
本手法は,機械学習学習アルゴリズムの微調整を効率よく行い,HPと公正性の関係を理解するための音響フレームワークを提供する。
This paper investigates the relationships between hyperparameters of machine learning and fairness. Data-driven solutions are increasingly used in critical socio-technical applications where ensuring fairness is important. Rather than explicitly encoding decision logic via control and data structures, the ML developers provide input data, perform some pre-processing, choose ML algorithms, and tune hyperparameters (HPs) to infer a program that encodes the decision logic. Prior works report that the selection of HPs can significantly influence fairness. However, tuning HPs to find an ideal trade-off between accuracy, precision, and fairness has remained an expensive and tedious task. Can we predict fairness of HP configuration for a given dataset? Are the predictions robust to distribution shifts? We focus on group fairness notions and investigate the HP space of 5 training algorithms. We first find that tree regressors and XGBoots significantly outperformed deep neural networks and support vector machines in accurately predicting the fairness of HPs. When predicting the fairness of ML hyperparameters under temporal distribution shift, the tree regressors outperforms the other algorithms with reasonable accuracy. However, the precision depends on the ML training algorithm, dataset, and protected attributes. For example, the tree regressor model was robust for training data shift from 2014 to 2018 on logistic regression and discriminant analysis HPs with sex as the protected attribute; but not for race and other training algorithms. Our method provides a sound framework to efficiently perform fine-tuning of ML training algorithms and understand the relationships between HPs and fairness. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# セマンティックフォーマー:知識グラフを用いた軌道予測のための全体的かつセマンティックな交通シーン表現
SemanticFormer: Holistic and Semantic Traffic Scene Representation for Trajectory Prediction using Knowledge Graphs ( http://arxiv.org/abs/2404.19379v3 ) ライセンス: Link先を確認 | Zhigang Sun, Zixu Wang, Lavdim Halilaj, Juergen Luettin, | (参考訳) 自律運転における軌道予測は、交通参加者、道路トポロジ、交通標識、およびそれらの相互の意味的関係を含む、運転シーンのすべての関連状況の正確な表現に依存する。
この問題に注目が集まる一方で、軌道予測のほとんどのアプローチはこれらの要因を十分に考慮していない。
本稿では,セマンティックフォーマー(SemanticFormer)を提案する。セマンティックフォーマー(SemanticFormer)は,ハイブリッド手法を用いて,セマンティックトラフィックシーングラフを推論することで,マルチモーダルトラジェクトリを予測する手法である。
すなわち、エージェントが知識グラフから駆動することを許された軌跡を、複数の注意機構に基づいて新しいパイプラインで処理し、正確な軌跡を予測する。
SemanticFormerは階層的なヘテロジニアスグラフエンコーダで構成されており、エージェント間だけでなくエージェントとロード要素間の時空間およびリレーショナル情報をキャプチャする。
さらに、異なるエンコーディングを融合させ、確率で軌道を復号する予測器を含む。
最後に、改良モジュールは、許容されたトラジェクトリと速度プロファイルのメタパスを評価し、最終的な予測されたトラジェクトリを得る。
nuScenesベンチマークの評価は、いくつかのSOTA手法と比較して改善された性能を示す。
さらに、我々は知識グラフを、VectorNetとLaformerという2つのグラフベースの既存のSOTAメソッドに簡単に追加できることを実証した。
評価結果は,知識グラフを付加することにより,元の手法の性能を5%と4%向上させることを示唆している。
Trajectory prediction in autonomous driving relies on accurate representation of all relevant contexts of the driving scene, including traffic participants, road topology, traffic signs, as well as their semantic relations to each other. Despite increased attention to this issue, most approaches in trajectory prediction do not consider all of these factors sufficiently. We present SemanticFormer, an approach for predicting multimodal trajectories by reasoning over a semantic traffic scene graph using a hybrid approach. It utilizes high-level information in the form of meta-paths, i.e. trajectories on which an agent is allowed to drive from a knowledge graph which is then processed by a novel pipeline based on multiple attention mechanisms to predict accurate trajectories. SemanticFormer comprises a hierarchical heterogeneous graph encoder to capture spatio-temporal and relational information across agents as well as between agents and road elements. Further, it includes a predictor to fuse different encodings and decode trajectories with probabilities. Finally, a refinement module assesses permitted meta-paths of trajectories and speed profiles to obtain final predicted trajectories. Evaluation of the nuScenes benchmark demonstrates improved performance compared to several SOTA methods. In addition, we demonstrate that our knowledge graph can be easily added to two graph-based existing SOTA methods, namely VectorNet and Laformer, replacing their original homogeneous graphs. The evaluation results suggest that by adding our knowledge graph the performance of the original methods is enhanced by 5% and 4%, respectively. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# 論理的表現力によるIID緩和--ニューロシンボリック要求に論理を適合させる研究の先駆者-
IID Relaxation by Logical Expressivity: A Research Agenda for Fitting Logics to Neurosymbolic Requirements ( http://arxiv.org/abs/2404.19485v2 ) ライセンス: Link先を確認 | Maarten C. Stol, Alessandra Mileo, | (参考訳) ニューロシンボリックな背景知識とそのロジックに必要な表現力は、データの独立性と識別分布に関する機械学習の仮定を破る可能性がある。
本稿では、異なるユースケース要件に適合する論理の階層構造において、IDD緩和を解析することを提案する。
ニューロシンボリック・ユース・ケースにおいて、既知のデータ依存と分布制約を利用する利点について論じ、この知識に必要な表現性は、基礎となるMLルーチンの設計に影響を及ぼすと論じる。
これは、ニューロシンボリックな背景知識と、その論理に必要とされる表現性に関する一般的な疑問を伴う新しい研究課題を開く。
Neurosymbolic background knowledge and the expressivity required of its logic can break Machine Learning assumptions about data Independence and Identical Distribution. In this position paper we propose to analyze IID relaxation in a hierarchy of logics that fit different use case requirements. We discuss the benefits of exploiting known data dependencies and distribution constraints for Neurosymbolic use cases and argue that the expressivity required for this knowledge has implications for the design of underlying ML routines. This opens a new research agenda with general questions about Neurosymbolic background knowledge and the expressivity required of its logic. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# 凝縮を伴う中規模深部ニューラルネットワークの効率化とフレキシブル化
Efficient and Flexible Method for Reducing Moderate-size Deep Neural Networks with Condensation ( http://arxiv.org/abs/2405.01041v2 ) ライセンス: Link先を確認 | Tianyi Chen, Zhi-Qin John Xu, | (参考訳) ニューラルネットワークは様々なタスクに広く適用されており、驚くべき結果が得られている。
科学分野におけるニューラルネットワークの適用は、注目を集めている重要な研究方向である。
科学的応用において、ニューラルネットワークの規模は概して中規模であり、主に応用中の推論の速度を保証する。
さらに、科学応用におけるニューラルネットワークと従来のアルゴリズムを比較することは避けられない。
これらのアプリケーションは、しばしば高速な計算を必要とし、ニューラルネットワークのサイズを減らすことがますます重要になる。
既存の研究によると、ニューラルネットワークの強力な能力は、主に非線形性に起因する。
理論的な研究により、強い非線形性の下では、同じ層のニューロンも同様に振る舞う傾向にあり、この現象は凝縮(condensation)と呼ばれる。
凝縮は、ニューラルネットワークの規模を、同様のパフォーマンスで小さなサブネットワークに縮小する機会を提供する。
本稿では,本手法の有効性を検証するための凝縮低減アルゴリズムを提案する。
提案手法は, 完全連結ネットワークと畳み込みネットワークの両方に適用可能であり, 肯定的な結果が得られる。
複雑な燃焼加速タスクでは、予測精度を維持しながら、ニューラルネットワークのサイズを元のスケールの41.7%に削減した。
CIFAR10画像分類タスクでは、ネットワークサイズを元のスケールの11.5%に削減し、良好な検証精度を維持した。
提案手法は、最も訓練されたニューラルネットワークに適用でき、計算圧力を低減し、推論速度を向上することができる。
Neural networks have been extensively applied to a variety of tasks, achieving astounding results. Applying neural networks in the scientific field is an important research direction that is gaining increasing attention. In scientific applications, the scale of neural networks is generally moderate-size, mainly to ensure the speed of inference during application. Additionally, comparing neural networks to traditional algorithms in scientific applications is inevitable. These applications often require rapid computations, making the reduction of neural network sizes increasingly important. Existing work has found that the powerful capabilities of neural networks are primarily due to their non-linearity. Theoretical work has discovered that under strong non-linearity, neurons in the same layer tend to behave similarly, a phenomenon known as condensation. Condensation offers an opportunity to reduce the scale of neural networks to a smaller subnetwork with similar performance. In this article, we propose a condensation reduction algorithm to verify the feasibility of this idea in practical problems. Our reduction method can currently be applied to both fully connected networks and convolutional networks, achieving positive results. In complex combustion acceleration tasks, we reduced the size of the neural network to 41.7% of its original scale while maintaining prediction accuracy. In the CIFAR10 image classification task, we reduced the network size to 11.5% of the original scale, still maintaining a satisfactory validation accuracy. Our method can be applied to most trained neural networks, reducing computational pressure and improving inference speed. | 翻訳日:2024-07-02 14:19:57 公開日:2024-07-01 |
# 大規模事前学習モデルの活用による学習不要なディープフェイク音声認識
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models ( http://arxiv.org/abs/2405.02179v3 ) ライセンス: Link先を確認 | Alessandro Pianese, Davide Cozzolino, Giovanni Poggi, Luisa Verdoliva, | (参考訳) 一般化は現在のオーディオディープフェイク検出器の主要な問題であり、アウト・オブ・ディストリビューションデータに対する信頼性の高い結果の提供に苦慮している。
より正確な合成法が開発されるスピードを考えると、訓練されていないデータでもうまく機能する手法を設計することが非常に重要である。
本稿では,音声深度検出のための大規模事前学習モデルの可能性について検討する。
この目的のために、話者検証フレームワークで検出問題を修正し、テスト中の音声サンプルとクレームIDの音声とのミスマッチにより偽音声を露呈する。
このパラダイムでは、訓練に偽の音声サンプルは不要であり、ルートにおける生成方法とのリンクを切断し、完全な一般化能力を確保する。
機能は汎用的な大規模な事前訓練モデルによって抽出され、特定の偽検出や話者検証データセットのトレーニングや微調整は不要である。
検出時には、テスト中のアイデンティティの限定された音声断片のみが必要となる。
コミュニティに広く普及しているいくつかのデータセットの実験では、事前学習されたモデルに基づく検出器は優れた性能を示し、強力な一般化能力を示し、分散データにおける教師付き手法に匹敵し、分布外データでそれらを克服している。
Generalization is a main issue for current audio deepfake detectors, which struggle to provide reliable results on out-of-distribution data. Given the speed at which more and more accurate synthesis methods are developed, it is very important to design techniques that work well also on data they were not trained for. In this paper we study the potential of large-scale pre-trained models for audio deepfake detection, with special focus on generalization ability. To this end, the detection problem is reformulated in a speaker verification framework and fake audios are exposed by the mismatch between the voice sample under test and the voice of the claimed identity. With this paradigm, no fake speech sample is necessary in training, cutting off any link with the generation method at the root, and ensuring full generalization ability. Features are extracted by general-purpose large pre-trained models, with no need for training or fine-tuning on specific fake detection or speaker verification datasets. At detection time only a limited set of voice fragments of the identity under test is required. Experiments on several datasets widespread in the community show that detectors based on pre-trained models achieve excellent performance and show strong generalization ability, rivaling supervised methods on in-distribution data and largely overcoming them on out-of-distribution data. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# スパイキング言語モデルにおける極端量子化の探索
Exploring Extreme Quantization in Spiking Language Models ( http://arxiv.org/abs/2405.02543v3 ) ライセンス: Link先を確認 | Malyaban Bal, Yi Jiang, Abhronil Sengupta, | (参考訳) 大きな言語モデル(LLM)アーキテクチャの普及にもかかわらず、人間の脳の目覚ましいエネルギー効率よりもはるかに遅れている、そのエネルギーと電力消費に関する重要な懸念が続いている。
スパイキング言語モデル(LM)やトランスフォーマーアーキテクチャの最近の進歩は、生体ニューロンのスパイキング活性を利用してエネルギー/電力効率を向上させることでこの問題に対処することを目指している。
本稿では,モデル量子化の原理とエネルギー効率を両立させ,新しい二元/三元(1/1.58ビット)スパイクLMアーキテクチャを提案する。
ディープスパイキング LM アーキテクチャに匹敵するスケーラビリティの達成は、効率的な知識蒸留技術によって促進され、非スパイキング完全精度の "Teacher" モデルからの知識は、非常に重く定量化された "student" LMに転送される。
提案手法は1/1.58ビットの1/1.58ビットのスパイクLMとして大きく進歩し,その性能はGLUEベンチマークの複数のテキスト分類タスクにおいて厳密に評価されている。
Despite the growing prevalence of large language model (LLM) architectures, a crucial concern persists regarding their energy and power consumption, which still lags far behind the remarkable energy efficiency of the human brain. Recent strides in spiking language models (LM) and transformer architectures aim to address this concern by harnessing the spiking activity of biological neurons to enhance energy/power efficiency. Doubling down on the principles of model quantization and energy efficiency, this paper proposes the development of a novel binary/ternary (1/1.58-bit) spiking LM architecture. Achieving scalability comparable to a deep spiking LM architecture is facilitated by an efficient knowledge distillation technique, wherein knowledge from a non-spiking full-precision "teacher" model is transferred to an extremely weight quantized spiking "student" LM. Our proposed model represents a significant advancement as the first-of-its-kind 1/1.58-bit spiking LM, and its performance is rigorously evaluated on multiple text classification tasks of the GLUE benchmark. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# 進化的アーキテクチャへの平衡伝播を用いたSNNのスケーリング
Scaling SNNs Trained Using Equilibrium Propagation to Convolutional Architectures ( http://arxiv.org/abs/2405.02546v2 ) ライセンス: Link先を確認 | Jiaqi Lin, Malyaban Bal, Abhronil Sengupta, | (参考訳) 平衡伝播(Equilibrium Propagation、EP)は、当初は収束性再帰ニューラルネットワーク(RNN)のために開発された生物学的に妥当な局所学習アルゴリズムである。
EPの勾配計算は、無限小のヌッジ係数を用いる場合、BPTT(Back Proagation Through Time)によって計算される勾配を近似することが示されている。
この特性により、EPはBPTTによって訓練されるスパイキングニューラルネットワーク(SNN)をトレーニングするための強力な候補となる。
しかし、スパイク領域では、EPに関する以前の研究は、少数の線形層を含むアーキテクチャに限られていた。
本研究では,EPを用いた畳み込みスパイク収束RNNと非スパイク収束RNNとのギャップを埋めて,初めて畳み込みスパイク収束RNNを訓練するための定式化を行う。
本研究では, 収束RNNをスパイクする場合, 最大プールと逆演算にミスマッチがあり, EPにおける不正確な勾配推定が導かれることを示した。
これを平均プールに置き換えることでこの問題を解決し、スパイク収束RNNの正確な勾配推定を可能にする。
また,BPTTと比較してEPのメモリ効率を強調した。
EPによりトレーニングされたSNNでは,MNISTデータセットとFashionMNISTデータセットの最先端性能がそれぞれ0.97%,8.89%であった。
これらの結果はBPTTで訓練された収束RNNやSNNと同等である。
これらの結果から,EPはオンチップトレーニングの最適選択であり,生物学的に予測可能な誤差勾配計算法であることが示された。
Equilibrium Propagation (EP) is a biologically plausible local learning algorithm initially developed for convergent recurrent neural networks (RNNs), where weight updates rely solely on the connecting neuron states across two phases. The gradient calculations in EP have been shown to approximate the gradients computed by Backpropagation Through Time (BPTT) when an infinitesimally small nudge factor is used. This property makes EP a powerful candidate for training Spiking Neural Networks (SNNs), which are commonly trained by BPTT. However, in the spiking domain, previous studies on EP have been limited to architectures involving few linear layers. In this work, for the first time we provide a formulation for training convolutional spiking convergent RNNs using EP, bridging the gap between spiking and non-spiking convergent RNNs. We demonstrate that for spiking convergent RNNs, there is a mismatch in the maximum pooling and its inverse operation, leading to inaccurate gradient estimation in EP. Substituting this with average pooling resolves this issue and enables accurate gradient estimation for spiking convergent RNNs. We also highlight the memory efficiency of EP compared to BPTT. In the regime of SNNs trained by EP, our experimental results indicate state-of-the-art performance on the MNIST and FashionMNIST datasets, with test errors of 0.97% and 8.89%, respectively. These results are comparable to those of convergent RNNs and SNNs trained by BPTT. These findings underscore EP as an optimal choice for on-chip training and a biologically-plausible method for computing error gradients. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# バグの多い敵の例の防御を切断する:コードの1行の修正がSabreを破る
Cutting through buggy adversarial example defenses: fixing 1 line of code breaks Sabre ( http://arxiv.org/abs/2405.03672v3 ) ライセンス: Link先を確認 | Nicholas Carlini, | (参考訳) SabreはIEEE S&P 2024で受け入れられた敵の例に対する防御である。
まず,勾配マスキングの明確な兆候を示す評価の重大な欠陥を明らかにする。
次に、この勾配マスキングの原因を示す:元の評価コードにバグがある。
元のリポジトリにある1行のコードを修正することで、Sabreの堅牢な精度を0%に削減します。
これに対応して、著者らは防御を修正し、原論文に記載されていない新しい防御部品を導入する。
しかし、この修正には2つ目のバグが含まれている。もう1行のコードを変更することで、ロバストな精度がベースラインレベル以下に低下する。
オンラインで論文の最初のバージョンをリリースした後、著者らは防衛に別の変更を加えました。攻撃中に1行のコードをコメントすることで、ロバストな精度を再び0%に削減します。
Sabre is a defense to adversarial examples that was accepted at IEEE S&P 2024. We first reveal significant flaws in the evaluation that point to clear signs of gradient masking. We then show the cause of this gradient masking: a bug in the original evaluation code. By fixing a single line of code in the original repository, we reduce Sabre's robust accuracy to 0%. In response to this, the authors modify the defense and introduce a new defense component not described in the original paper. But this fix contains a second bug; modifying one more line of code reduces robust accuracy to below baseline levels. After we released the first version of our paper online, the authors introduced another change to the defense; by commenting out one line of code during attack we reduce the robust accuracy to 0% again. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# トランスファー可能なテキスト・ツー・イメージ・パーソン・リIDのためのMLLMのパワーの調和
Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID ( http://arxiv.org/abs/2405.04940v3 ) ライセンス: Link先を確認 | Wentao Tan, Changxing Ding, Jiayu Jiang, Fei Wang, Yibing Zhan, Dapeng Tao, | (参考訳) ReID(text-to-image person re-identification)は、テキスト記述に従って歩行者画像を取得する。
手作業によるテキスト記述の注釈付けには時間がかかり、既存のデータセットのスケールやReIDモデルの一般化能力が制限される。
そこで我々は,提案した大規模データベース上でモデルをトレーニングし,それを様々なデータセットに直接展開して評価を行う。
MLLM(Multi-modal Large Language Models)を用いて,大規模な学習データを得る。
さらに、得られたテキスト記述を利用する上での2つの重要な課題を特定し、対処する。
第一に、MLLMは類似した構造を持つ記述を生成する傾向があるため、モデルは特定の文パターンに過度に適合する。
そこで本稿では,MLLMを用いてテンプレートに応じて画像をキャプションする手法を提案する。
これらのテンプレートは,Large Language Model (LLM) を用いたマルチターン対話を用いて得られる。
したがって、多種多様なテキスト記述を持つ大規模データセットを構築することができる。
第2に、MLLMは誤った記述を生成できる。
そこで本稿では,画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
この方法は、1つのテキストとすべてのパッチトークンのイメージへの埋め込みの類似性に基づいている。
そして、これらの単語を、その後の訓練の時期においてより大きな確率で隠蔽し、ノイズの多い文章記述の影響を緩和する。
実験の結果,本手法は直接転送によるReID性能を大幅に向上させることが示された。
事前訓練されたモデル重みから得られる利点は、従来の評価設定において最先端のパフォーマンスを達成することである。
Text-to-image person re-identification (ReID) retrieves pedestrian images according to textual descriptions. Manually annotating textual descriptions is time-consuming, restricting the scale of existing datasets and therefore the generalization ability of ReID models. As a result, we study the transferable text-to-image ReID problem, where we train a model on our proposed large-scale database and directly deploy it to various datasets for evaluation. We obtain substantial training data via Multi-modal Large Language Models (MLLMs). Moreover, we identify and address two key challenges in utilizing the obtained textual descriptions. First, an MLLM tends to generate descriptions with similar structures, causing the model to overfit specific sentence patterns. Thus, we propose a novel method that uses MLLMs to caption images according to various templates. These templates are obtained using a multi-turn dialogue with a Large Language Model (LLM). Therefore, we can build a large-scale dataset with diverse textual descriptions. Second, an MLLM may produce incorrect descriptions. Hence, we introduce a novel method that automatically identifies words in a description that do not correspond with the image. This method is based on the similarity between one text and all patch token embeddings in the image. Then, we mask these words with a larger probability in the subsequent training epoch, alleviating the impact of noisy textual descriptions. The experimental results demonstrate that our methods significantly boost the direct transfer text-to-image ReID performance. Benefiting from the pre-trained model weights, we also achieve state-of-the-art performance in the traditional evaluation settings. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# 多方向ニューラルネットワークを用いた階層的相関再構成に基づく生体誘発関節分布ニューロン
Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks ( http://arxiv.org/abs/2405.05097v3 ) ライセンス: Link先を確認 | Jarek Duda, | (参考訳) 生物学的ニューラルネットワークは、Multi-Layer Perceptron (MLP) やKolmogorov-Arnold Network (KAN)のような現在の人工神経から、質的に優れている(学習、柔軟性、堅牢性など)。
基本的多方向信号伝搬~\cite{axon} もまた不確実性推定のための確率分布 eg であり、標準バックプロパゲーショントレーニング~\cite{backprop} を使えないと考えられている。
HCR(階層的相関再構成)に基づく新しい人工ニューロンでは、局所的な関節分布モデルを含むニューロン(その接続)は、正規化変数上の結合密度をただの線型結合として表す。 $(f_\mathbf{j})$正則多項式: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})$ for $\mathbf{x} \in [0,1]^d$ と $B$ は、関節分布の完全な記述に近づいている。
例えば、$E[x|y,z]$, $E[y|x]$, $E[y|x]$ のように、任意の方向の伝播に対して eg 条件が期待する値の単純な式を得る。
このようなHCRネットワークは、$\rho(y,z|x)$のような確率分布(ジョイント)を伝播することもできる。
直接$(a_\mathbf{j})$推定、テンソル分解、あるいはより生物学的に妥当な情報ボトルネックトレーニング:隣人だけに直接影響するレイヤ、次のレイヤに関する情報を最大化するためにコンテンツを最適化し、ノイズを最小限に抑える。
Biological neural networks seem qualitatively superior (e.g. in learning, flexibility, robustness) from current artificial like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). Simultaneously, in contrast to them: have fundamentally multidirectional signal propagation~\cite{axon}, also of probability distributions e.g. for uncertainty estimation, and are believed not being able to use standard backpropagation training~\cite{backprop}. There are proposed novel artificial neurons based on HCR (Hierarchical Correlation Reconstruction) removing the above low level differences: with neurons containing local joint distribution model (of its connections), representing joint density on normalized variables as just linear combination among $(f_\mathbf{j})$ orthonormal polynomials: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})$ for $\mathbf{x} \in [0,1]^d$ and $B$ some chosen basis, with basis growth approaching complete description of joint distribution. By various index summations of such $(a_\mathbf{j})$ tensor as neuron parameters, we get simple formulas for e.g. conditional expected values for propagation in any direction, like $E[x|y,z]$, $E[y|x]$, which degenerate to KAN-like parametrization if restricting to pairwise dependencies. Such HCR network can also propagate probability distributions (also joint) like $\rho(y,z|x)$. It also allows for additional training approaches, like direct $(a_\mathbf{j})$ estimation, through tensor decomposition, or more biologically plausible information bottleneck training: layers directly influencing only neighbors, optimizing content to maximize information about the next layer, and minimizing about the previous to minimize the noise. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# 車線検出におけるロバストな物理世界バックドア攻撃に向けて
Towards Robust Physical-world Backdoor Attacks on Lane Detection ( http://arxiv.org/abs/2405.05553v3 ) ライセンス: Link先を確認 | Xinwei Zhang, Aishan Liu, Tianyuan Zhang, Siyuan Liang, Xianglong Liu, | (参考訳) ディープラーニングに基づく車線検出(LD)は、適応クルーズ制御のような自律走行システムにおいて重要な役割を果たす。
しかし、バックドア攻撃には弱い。
既存のLDのバックドア攻撃手法は、運転視点(例えば、視点変換)や環境条件(例えば、天気や照明の変化)の変化など、動的なシーン要因を考慮できないため、動的現実のシナリオにおいて限られた効果を示す。
本稿では,現実の動的シーン要因の変化に対処するために,LDの動的シーン適応バックドアアタックであるBadLANEを紹介する。
運転視点を変えることで生じる課題に対処するため,無形画素からなる非晶質トリガパターンを提案する。
このトリガー設計により、バックドアは道路やレンズ上の泥点や汚染の様々な形態や形状によって活性化され、運転中の車両の視界の変化に適応することができる。
環境変化の影響を軽減するため,異なる環境条件に合わせたメタジェネレータを訓練するためのメタ学習フレームワークを設計する。
これらの発電機は、バックドア注入のためのトリガーパターンの初期化として、気象や照明条件などの多様な環境情報を組み込んだメタトリガーを生成し、動的環境への適応を可能にする。
デジタルドメインと物理ドメインの両方で広く使われているLDモデルに対する大規模な実験は、攻撃の有効性を検証し、他のベースラインを著しく上回っている(アタック成功率では、平均25.15%)。
私たちのコードは新聞で公開されます。
Deep learning-based lane detection (LD) plays a critical role in autonomous driving systems, such as adaptive cruise control. However, it is vulnerable to backdoor attacks. Existing backdoor attack methods on LD exhibit limited effectiveness in dynamic real-world scenarios, primarily because they fail to consider dynamic scene factors, including changes in driving perspectives (e.g., viewpoint transformations) and environmental conditions (e.g., weather or lighting changes). To tackle this issue, this paper introduces BadLANE, a dynamic scene adaptation backdoor attack for LD designed to withstand changes in real-world dynamic scene factors. To address the challenges posed by changing driving perspectives, we propose an amorphous trigger pattern composed of shapeless pixels. This trigger design allows the backdoor to be activated by various forms or shapes of mud spots or pollution on the road or lens, enabling adaptation to changes in vehicle observation viewpoints during driving. To mitigate the effects of environmental changes, we design a meta-learning framework to train meta-generators tailored to different environmental conditions. These generators produce meta-triggers that incorporate diverse environmental information, such as weather or lighting conditions, as the initialization of the trigger patterns for backdoor implantation, thus enabling adaptation to dynamic environments. Extensive experiments on various commonly used LD models in both digital and physical domains validate the effectiveness of our attacks, outperforming other baselines significantly (+25.15% on average in Attack Success Rate). Our codes will be available upon paper publication. | 翻訳日:2024-07-02 14:10:11 公開日:2024-07-01 |
# 完全宣言型ニューロシンボリック言語を目指して
Towards a fully declarative neuro-symbolic language ( http://arxiv.org/abs/2405.09521v2 ) ライセンス: Link先を確認 | Tilman Hinnerichs, Robin Manhaeve, Giuseppe Marra, Sebastijan Dumancic, | (参考訳) ニューロシンボリックシステム(NeSy)は、人工知能の学習能力と推論能力の両方を最大限に組み合わせていると主張しているが、推論システムの中核的な性質を欠いている。
宣言性の欠如は、ニューラルネットワークから受け継いだ神経述語の機能的性質によって引き起こされる。
我々は、完全に宣言的な神経述語のための一般的なフレームワークを提案し、実装し、それによって完全に宣言的なNeSyフレームワークにまで拡張する。
まず、宣言的拡張は学習能力と推論能力を保ちながら、任意のクエリに答えると同時に、単一のクエリタイプでのみトレーニングできることを示す。
Neuro-symbolic systems (NeSy), which claim to combine the best of both learning and reasoning capabilities of artificial intelligence, are missing a core property of reasoning systems: Declarativeness. The lack of declarativeness is caused by the functional nature of neural predicates inherited from neural networks. We propose and implement a general framework for fully declarative neural predicates, which hence extends to fully declarative NeSy frameworks. We first show that the declarative extension preserves the learning and reasoning capabilities while being able to answer arbitrary queries while only being trained on a single query type. | 翻訳日:2024-07-02 14:00:18 公開日:2024-07-01 |
# マルチスペース投影とプロンプト融合による効率的なプロンプトチューニング
Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion ( http://arxiv.org/abs/2405.11464v2 ) ライセンス: Link先を確認 | Pengxiang Lan, Enneng Yang, Yuting Liu, Guibing Guo, Linying Jiang, Jianzhe Zhao, Xingwei Wang, | (参考訳) プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。
代わりに、入力テキストにソフトプロンプトを付加することで、単にプロンプトトークンの埋め込みを学習することで、下流タスクをうまく適応させることができる。
それでも、既存の方法は2つの課題に苦しむ。
(i)正確性と効率性のバランスが難しいこと。
より長い(厳密な)ソフトプロンプトは、一般的には、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間に費やされる。
(ii) 異なる下流タスクに適応する場合、パフォーマンスは一貫性がない可能性がある。
私たちは、同じ埋め込みスペースに特化していますが、下流タスクの異なる要求に責任があります。
これらの問題に対処するため,多空間投影と即時融合によるEPT(Efficient Prompt Tuning Method)を提案する。
具体的には、与えられたソフトプロンプトを短いプロンプトと2つの低ランク行列に分解し、トレーニング時間を著しく短縮する。
また、低ランク行列とショートプロンプトを付加的な知識源として活用して、元のショートプロンプトのセマンティクスを強化することで、精度も向上する。
さらに,ソフトプロンプトを複数のサブスペースに投影し,性能の整合性を向上させるとともに,ゲーティングネットワークを通じて異なる空間の重み付けを適応的に学習する。
13の自然言語処理ダウンストリームタスクに対する実験の結果、我々の手法は11つの比較手法を12.9%の改善率で比較し、トレーニング時間は14%減少した。
Prompt tuning is a promising method to fine-tune a pre-trained language model without retraining its large-scale parameters. Instead, it attaches a soft prompt to the input text, whereby downstream tasks can be well adapted by merely learning the embeddings of prompt tokens. Nevertheless, existing methods still suffer from two challenges: (i) they are hard to balance accuracy and efficiency. A longer (shorter) soft prompt generally leads to a better(worse) accuracy but at the cost of more (less) training time. (ii)The performance may not be consistent when adapting to different downstream tasks. We attribute it to the same embedding space but responsible for different requirements of downstream tasks. To address these issues, we propose an Efficient Prompt Tuning method (EPT) by multi-space projection and prompt fusion. Specifically, it decomposes a given soft prompt into a shorter prompt and two low-rank matrices, significantly reducing the training time. Accuracy is also enhanced by leveraging low-rank matrices and the short prompt as additional knowledge sources to enrich the semantics of the original short prompt. In addition, we project the soft prompt into multiple subspaces to improve the performance consistency, and then adaptively learn the combination weights of different spaces through a gating network. Experiments on 13 natural language processing downstream tasks show that our method significantly and consistently outperforms 11 comparison methods with the relative percentage of improvements up to 12.9%, and training time decreased by 14%. | 翻訳日:2024-07-02 14:00:18 公開日:2024-07-01 |
# FAITH:時系列予測のための2つのホライズンにおける周波数領域の注意
FAITH: Frequency-domain Attention In Two Horizons for Time Series Forecasting ( http://arxiv.org/abs/2405.13300v3 ) ライセンス: Link先を確認 | Ruiqi Li, Maowei Jiang, Kai Wang, Kaiduo Feng, Quangao Liu, Yue Sun, Xiufang Zhou, | (参考訳) 時系列予測は、産業機器の保守、気象学、エネルギー消費、交通流、金融投資など、様々な分野で重要な役割を果たしている。
しかし、従来の統計的アプローチよりもかなりの利点があるにもかかわらず、現在のディープラーニングベースの予測モデルは、予測結果と基礎的真実の間に大きなずれを示すことが多い。
この違いは、配列の潜伏情報、特に周波数領域内の大域的な情報、および異なる変数間の関係の抽出が不十分なためである。
そこで本研究では,時系列を時系列と季節成分に分解する2つのホライズンズにおける周波数領域注意モデルを提案する。
FAITHは、周波数チャンネル特徴抽出モジュールと周波数時間特徴抽出モジュールを使用して、シーケンス内のチャネル間関係と時間的グローバル情報をキャプチャし、長期依存や複雑なパターンを扱う能力を大幅に改善する。
さらに、FAITHは時間周波数領域変換法を変更して理論的に線形な複雑性を実現し、計算コストを効果的に削減する。
長期予測のための6つのベンチマークと短期予測のための3つのベンチマークに関する大規模な実験は、FAITHが電気、天気、交通など多くの分野で既存のモデルよりも優れており、長期および短期の時系列予測タスクにおいてその効果と優越性を証明していることを示している。
私たちのコードとデータはhttps://github.com/LRQ577/FAITH.comで公開されています。
Time Series Forecasting plays a crucial role in various fields such as industrial equipment maintenance, meteorology, energy consumption, traffic flow and financial investment. However, despite their considerable advantages over traditional statistical approaches, current deep learning-based predictive models often exhibit a significant deviation between their forecasting outcomes and the ground truth. This discrepancy is largely due to an insufficient emphasis on extracting the sequence's latent information, particularly its global information within the frequency domain and the relationship between different variables. To address this issue, we propose a novel model Frequency-domain Attention In Two Horizons, which decomposes time series into trend and seasonal components using a multi-scale sequence adaptive decomposition and fusion architecture, and processes them separately. FAITH utilizes Frequency Channel feature Extraction Module and Frequency Temporal feature Extraction Module to capture inter-channel relationships and temporal global information in the sequence, significantly improving its ability to handle long-term dependencies and complex patterns. Furthermore, FAITH achieves theoretically linear complexity by modifying the time-frequency domain transformation method, effectively reducing computational costs. Extensive experiments on 6 benchmarks for long-term forecasting and 3 benchmarks for short-term forecasting demonstrate that FAITH outperforms existing models in many fields, such as electricity, weather and traffic, proving its effectiveness and superiority both in long-term and short-term time series forecasting tasks. Our codes and data are available at https://github.com/LRQ577/FAITH. | 翻訳日:2024-07-02 14:00:18 公開日:2024-07-01 |
# VTG-LLM:タイムスタンプ知識をビデオLLMに統合したビデオ時間グラウンドの強化
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding ( http://arxiv.org/abs/2405.13382v2 ) ライセンス: Link先を確認 | Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen, Bo Zhao, | (参考訳) ビデオ時間グラウンド(VTG)は、言語クエリに基づいて特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当て、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げているが、ビデオ内のタイムスタンプを正確に特定することは困難であり、VTGタスクのパフォーマンスを制限している。
したがって,ビデオLLMのタイムスタンプを効果的に見つける能力を向上させるためには,2つの重要な側面を強化する必要がある。
第一に、主流のVTGタスクを含む高品質な命令チューニングデータセットを持つことが不可欠である。
第2に、タイムスタンプの知識を直接ビデオLLMに組み込むことが重要である。
VTG-IT-120Kは、モーメント検索、高密度ビデオキャプション、ビデオ要約、ビデオハイライト検出などのVTGタスクをカバーする、高品質で総合的な命令チューニングデータセットである。
さらに、VTGタスクのための特別設計ビデオLLMモデルVTG-LLMを提案し、(1)タイムスタンプ知識を視覚トークンに効果的に統合し、(2)タイムスタンプ知識を専門に扱う絶対時間トークンを導入し、概念シフトを回避し、(3)より多くのビデオフレームのサンプリングを容易にする軽量かつ高性能なスロットベースのトークン圧縮方法を提案する。
総合実験では、様々なVTGタスクにおける他のビデオLLM手法と比較して、VTG-LLMの優れた性能を示す。
コードとデータセットは \url{https://github.com/gyxxyg/VTG-LLM} で公開されています。
Video Temporal Grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing. While Video Large Language Models (video LLMs) have made significant progress in understanding video content, they often face challenges in accurately pinpointing timestamps within videos, which limits their performance on VTG tasks. Therefore, to improve video LLMs' ability to effectively locate timestamps, we argue that two critical aspects need to be enhanced. First, it is essential to have high-quality instructional tuning datasets that encompass mainstream VTG tasks. Second, directly incorporating timestamp knowledge into video LLMs is crucial, as it enables models to efficiently comprehend timestamp information. To address these needs, we first introduce VTG-IT-120K, a high-quality and comprehensive instruction tuning dataset that covers VTG tasks such as moment retrieval, dense video captioning, video summarization, and video highlight detection. Furthermore, we propose a specially designed video LLM model for VTG tasks, VTG-LLM, which (1) effectively integrates timestamp knowledge into visual tokens; (2) incorporates absolute-time tokens that specifically handle timestamp knowledge, thereby avoiding concept shifts; and (3) introduces a lightweight, high-performance slot-based token compression method to facilitate the sampling of more video frames. Comprehensive experiments showcase the superior performance of VTG-LLM in comparison to other video LLM methods across various VTG tasks. Our code and datasets are available at \url{https://github.com/gyxxyg/VTG-LLM}. | 翻訳日:2024-07-02 14:00:18 公開日:2024-07-01 |
# モデルレス強化学習のための多状態TDターゲット
Multi-State TD Target for Model-Free Reinforcement Learning ( http://arxiv.org/abs/2405.16522v3 ) ライセンス: Link先を確認 | Wuhao Wang, Zhiyong Chen, Lepeng Zhang, | (参考訳) 時間差学習(TD learning)は、TDターゲットを用いて状態または状態-作用対の値推定を更新する強化学習の基本的な技術である。
このターゲットは、後続状態の即時報酬と推定値の両方を組み込むことにより、真の価値の見積もりを改善することを表す。
伝統的に、TD学習は後の1つの状態の価値に依存している。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
この新たなMSTD概念に基づいて,リプレイバッファを2つのモードで管理し,深い決定論的ポリシー最適化(DDPG)とソフトアクタクリティカル(SAC)を統合した,完全なアクタ批判アルゴリズムを開発した。
実験の結果,MSTDをターゲットとしたアルゴリズムは従来の手法に比べて学習性能を著しく向上させることがわかった。
Temporal difference (TD) learning is a fundamental technique in reinforcement learning that updates value estimates for states or state-action pairs using a TD target. This target represents an improved estimate of the true value by incorporating both immediate rewards and the estimated value of subsequent states. Traditionally, TD learning relies on the value of a single subsequent state. We propose an enhanced multi-state TD (MSTD) target that utilizes the estimated values of multiple subsequent states. Building on this new MSTD concept, we develop complete actor-critic algorithms that include management of replay buffers in two modes, and integrate with deep deterministic policy optimization (DDPG) and soft actor-critic (SAC). Experimental results demonstrate that algorithms employing the MSTD target significantly improve learning performance compared to traditional methods.The code is provided on GitHub. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# SketchQLデモ - Sketchesによるゼロショットビデオモーメントクエリ
SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches ( http://arxiv.org/abs/2405.18334v3 ) ライセンス: Link先を確認 | Renzhi Wu, Pramod Chunduri, Dristi J Shah, Ashmitha Julius Aravind, Ali Payani, Xu Chu, Joy Arulraj, Kexin Rong, | (参考訳) 本稿では、スケッチベースのクエリインタフェースでビデオモーメントを検索するビデオデータベース管理システム(VDBMS)であるSketchQLについて述べる。
このインターフェースでは、単純なマウスドラッグアンドドロップ操作でオブジェクトのトラジェクトリイベントを指定できる。
複雑なイベントを構成するために、単一のオブジェクトのトラジェクトリをビルディングブロックとして使用することができる。
トラジェクトリ類似性を符号化した事前トレーニングモデルを使用して、SketchQLは、ビデオ上で類似性検索を実行してゼロショットビデオモーメント検索を実現し、ビジュアルクエリに最も近いクリップを識別する。
このデモでは、SketchQLのグラフィックユーザインタフェースを導入し、その機能とインタラクションメカニズムを詳述する。
また,クエリ合成からリアルタイムシナリオを用いたビデオモーメント検索まで,SketchQLのエンドツーエンド使用例を示す。
In this paper, we will present SketchQL, a video database management system (VDBMS) for retrieving video moments with a sketch-based query interface. This novel interface allows users to specify object trajectory events with simple mouse drag-and-drop operations. Users can use trajectories of single objects as building blocks to compose complex events. Using a pre-trained model that encodes trajectory similarity, SketchQL achieves zero-shot video moments retrieval by performing similarity searches over the video to identify clips that are the most similar to the visual query. In this demonstration, we introduce the graphic user interface of SketchQL and detail its functionalities and interaction mechanisms. We also demonstrate the end-to-end usage of SketchQL from query composition to video moments retrieval using real-world scenarios. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# 10年ぶりのビデオ異常検出:調査と展望
Video Anomaly Detection in 10 Years: A Survey and Outlook ( http://arxiv.org/abs/2405.19387v2 ) ライセンス: Link先を確認 | Moshira Abdalla, Sajid Javed, Muaz Al Radi, Anwaar Ulhaq, Naoufel Werghi, | (参考訳) ビデオ異常検出(VAD)は、監視、医療、環境監視といった様々な領域において非常に重要である。
多くの調査では従来のVAD手法に重点を置いているが、特定のアプローチや新たなトレンドを探求する深みを欠いていることが多い。
この調査では、従来の教師付きトレーニングパラダイムを超えて、弱教師付き、自己監督型、教師なしのアプローチを包含する、ディープラーニングベースのVADを調査している。
このレビューの顕著な特徴は、大規模なデータセット、特徴抽出、学習方法、損失関数、正規化、異常スコア予測を含む、VADパラダイムの中核的な課題の調査である。
さらに,視覚言語モデル(VLM)をVADの強力な特徴抽出器として検討した。
VLMは視覚データをビデオからテキスト記述や音声言語と統合し、異常検出に不可欠なシーンの微妙な理解を可能にする。
これらの課題に対処し、今後の研究方向性を提案することにより、複雑な実世界のシナリオにおいて、VLMの能力を活用した堅牢で効率的なVADシステムの開発を促進することを目的としている。
この包括的分析は、既存の知識ギャップを埋め、研究者に貴重な洞察を与え、VAD研究の将来形成に貢献しようとしている。
Video anomaly detection (VAD) holds immense importance across diverse domains such as surveillance, healthcare, and environmental monitoring. While numerous surveys focus on conventional VAD methods, they often lack depth in exploring specific approaches and emerging trends. This survey explores deep learning-based VAD, expanding beyond traditional supervised training paradigms to encompass emerging weakly supervised, self-supervised, and unsupervised approaches. A prominent feature of this review is the investigation of core challenges within the VAD paradigms including large-scale datasets, features extraction, learning methods, loss functions, regularization, and anomaly score prediction. Moreover, this review also investigates the vision language models (VLMs) as potent feature extractors for VAD. VLMs integrate visual data with textual descriptions or spoken language from videos, enabling a nuanced understanding of scenes crucial for anomaly detection. By addressing these challenges and proposing future research directions, this review aims to foster the development of robust and efficient VAD systems leveraging the capabilities of VLMs for enhanced anomaly detection in complex real-world scenarios. This comprehensive analysis seeks to bridge existing knowledge gaps, provide researchers with valuable insights, and contribute to shaping the future of VAD research. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# 一般化滑らか性下における多目的最適化の収束性について
On the Convergence of Multi-objective Optimization under Generalized Smoothness ( http://arxiv.org/abs/2405.19440v3 ) ライセンス: Link先を確認 | Qi Zhang, Peiyao Xiao, Kaiyi Ji, Shaofeng Zou, | (参考訳) 多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論的な分析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothや、リカレントニューラルネットワーク(RNN)やトランスフォーマーのようなニューラルネットワークには不満足な境界段階の仮定によって制限されている。
本稿では、より一般的で現実的な$\ell$-smooth損失関数の研究を行い、$\ell$は勾配ノルムの一般非減少関数である。
目的物間の最小改善を最大化する競合回避(CA)方向を近似した,$\ell$-smooth MOO問題,一般化されたSmooth Multi-objective Gradient descent (GSMGrad) とその確率的変種であるStochastic Generalized Smooth Multi-objective Gradient descent (SGSMGrad) の2つの新しいシングルループアルゴリズムを開発した。
両アルゴリズムの総合収束解析を行い, 平均CA距離を保証した$\epsilon$-accurate Pareto定常点(すなわち, 更新方向とCA方向のギャップ)に全反復で収束することを示し, 完全$\mathcal{O}(\epsilon^{-2})$と$\mathcal{O}(\epsilon^{-4})$サンプルは決定論的および確率的設定にそれぞれ必要である。
私たちのアルゴリズムは、より多くのサンプルを使用して、各イテレーションにおいてより厳密な$\epsilon$-level CA距離を保証することができます。
また,GSMGradと同等の性能保証を達成しつつ,一定の時間と空間のみを用いてGSMGrad-FAという実用的なGSMGradの変種を提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
Multi-objective optimization (MOO) is receiving more attention in various fields such as multi-task learning. Recent works provide some effective algorithms with theoretical analysis but they are limited by the standard $L$-smooth or bounded-gradient assumptions, which are typically unsatisfactory for neural networks, such as recurrent neural networks (RNNs) and transformers. In this paper, we study a more general and realistic class of $\ell$-smooth loss functions, where $\ell$ is a general non-decreasing function of gradient norm. We develop two novel single-loop algorithms for $\ell$-smooth MOO problems, Generalized Smooth Multi-objective Gradient descent (GSMGrad) and its stochastic variant, Stochastic Generalized Smooth Multi-objective Gradient descent (SGSMGrad), which approximate the conflict-avoidant (CA) direction that maximizes the minimum improvement among objectives. We provide a comprehensive convergence analysis of both algorithms and show that they converge to an $\epsilon$-accurate Pareto stationary point with a guaranteed $\epsilon$-level average CA distance (i.e., the gap between the updating direction and the CA direction) over all iterations, where totally $\mathcal{O}(\epsilon^{-2})$ and $\mathcal{O}(\epsilon^{-4})$ samples are needed for deterministic and stochastic settings, respectively. Our algorithms can also guarantee a tighter $\epsilon$-level CA distance in each iteration using more samples. Moreover, we propose a practical variant of GSMGrad named GSMGrad-FA using only constant-level time and space, while achieving the same performance guarantee as GSMGrad. Our experiments validate our theory and demonstrate the effectiveness of the proposed methods. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# 合成データがすべて必要か? : 合成画像を用いたモデルのロバスト性の評価
Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images ( http://arxiv.org/abs/2405.20469v2 ) ライセンス: Link先を確認 | Krishnakant Singh, Thanush Navaratnam, Jannik Holmer, Simone Schaub-Meyer, Stefan Roth, | (参考訳) 機械学習アプローチの開発における長年の課題は、高品質なラベル付きデータがないことである。
近年、大規模な事前学習拡散モデルを用いて生成された合成クローンと呼ばれる純粋合成データを用いて訓練されたモデルは、このアノテーションボトルネックを克服する有望な結果を示している。
これらの合成クローンモデルが進行するにつれて、それらは現実世界の挑戦的な設定にデプロイされる可能性が高いが、その適合性はまだ検討されていない。
我々の研究は、様々なロバストネス尺度を用いて、3種類の合成クローンモデル、すなわち、教師付き、自己監督型、マルチモーダルモデルの最初のベンチマークを提供することによって、このギャップに対処する。
既存の合成自己監督クローンとマルチモーダルクローンは、形状バイアス、背景バイアス、キャリブレーションなど、さまざまなロバストネス指標に対して、最先端のリアルタイムベースラインに匹敵する、あるいは優れた性能を発揮することを示す。
しかし、合成クローンは、実際のデータで訓練されたモデルよりも、敵対的および現実的なノイズの影響を受けやすいことも判明した。
これを解決するために, 実データと合成データを組み合わせることで, より堅牢性が向上し, 合成画像の生成に使用するプロンプトの選択が, 合成クローンの堅牢性において重要な役割を担っていることがわかった。
A long-standing challenge in developing machine learning approaches has been the lack of high-quality labeled data. Recently, models trained with purely synthetic data, here termed synthetic clones, generated using large-scale pre-trained diffusion models have shown promising results in overcoming this annotation bottleneck. As these synthetic clone models progress, they are likely to be deployed in challenging real-world settings, yet their suitability remains understudied. Our work addresses this gap by providing the first benchmark for three classes of synthetic clone models, namely supervised, self-supervised, and multi-modal ones, across a range of robustness measures. We show that existing synthetic self-supervised and multi-modal clones are comparable to or outperform state-of-the-art real-image baselines for a range of robustness metrics - shape bias, background bias, calibration, etc. However, we also find that synthetic clones are much more susceptible to adversarial and real-world noise than models trained with real data. To address this, we find that combining both real and synthetic data further increases the robustness, and that the choice of prompt used for generating synthetic images plays an important part in the robustness of synthetic clones. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# Topo4D:高忠実4Dヘッドキャプチャのためのトポロジー保存型ガウススプラッティング
Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture ( http://arxiv.org/abs/2406.00440v2 ) ライセンス: Link先を確認 | Xuanchen Li, Yuhao Cheng, Xingyu Ren, Haozhe Jia, Di Xu, Wenhan Zhu, Yichao Yan, | (参考訳) 4Dヘッドキャプチャーは、動画から動的トポロジカルメッシュとそれに対応するテクスチャマップを生成することを目的としており、映画やゲームで広く利用されている。
業界はしばしば多視点ステレオと非剛性アライメントを含む手法を採用する。
しかし、このアプローチはエラーを起こしやすく、アーティストによる時間を要する手作業の処理に大きく依存する。
このプロセスを簡略化するために,キャリブレーションされたマルチビュー時系列画像から直接,密集した4Dヘッドと8Kテクスチャマップを最適化する,自動幾何およびテクスチャ生成のための新しいフレームワークであるTopo4Dを提案する。
具体的には、まず時系列面を、ガウス中心がメッシュ頂点に結合する固定位相を持つ動的3次元ガウス面の集合として表現する。
その後、時間的トポロジー安定性を維持しつつ、高品質な幾何学とテクスチャ学習のための代替幾何学とテクスチャ最適化フレームをフレーム単位で実行した。
最後に、学習したガウシアンから、規則的な配線配列と高忠実度テクスチャの動的顔メッシュを細孔レベルの詳細で抽出することができる。
本手法はメッシュの質とテクスチャの両面で,現在のSOTA顔再構成法よりも優れた結果が得られることを示す。
プロジェクトページ: https://xuanchenli.github.io/Topo4D/。
4D head capture aims to generate dynamic topological meshes and corresponding texture maps from videos, which is widely utilized in movies and games for its ability to simulate facial muscle movements and recover dynamic textures in pore-squeezing. The industry often adopts the method involving multi-view stereo and non-rigid alignment. However, this approach is prone to errors and heavily reliant on time-consuming manual processing by artists. To simplify this process, we propose Topo4D, a novel framework for automatic geometry and texture generation, which optimizes densely aligned 4D heads and 8K texture maps directly from calibrated multi-view time-series images. Specifically, we first represent the time-series faces as a set of dynamic 3D Gaussians with fixed topology in which the Gaussian centers are bound to the mesh vertices. Afterward, we perform alternative geometry and texture optimization frame-by-frame for high-quality geometry and texture learning while maintaining temporal topology stability. Finally, we can extract dynamic facial meshes in regular wiring arrangement and high-fidelity textures with pore-level details from the learned Gaussians. Extensive experiments show that our method achieves superior results than the current SOTA face reconstruction methods both in the quality of meshes and textures. Project page: https://xuanchenli.github.io/Topo4D/. | 翻訳日:2024-07-02 13:50:34 公開日:2024-07-01 |
# PosterLLaVa:LLMによる統一マルチモーダルレイアウトジェネレータの構築
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM ( http://arxiv.org/abs/2406.02884v2 ) ライセンス: Link先を確認 | Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen, | (参考訳) レイアウト生成は自動グラフィックデザインを実現する上で鍵となる要素であり、視覚的に快く制約に富んだ方法で様々なマルチモーダルデザイン要素の位置とサイズをアレンジする必要がある。
これまでのアプローチは、大規模アプリケーションでは非効率だったり、さまざまな設計要件に対する柔軟性に欠けていたりします。
本研究は,多モード大言語モデル(MLLM)を活用し,多様な設計課題に対応するため,グラフィックレイアウトの自動生成のための統一的なフレームワークを提案する。
対照的に、データ駆動方式では、構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを使用して、ユーザ定義の自然言語仕様を含む、特定の視覚的およびテキスト的制約の下でレイアウトを生成する。
提案手法の有効性を実証し,多モードレイアウト生成ベンチマークを用いて実験を行い,SOTA(State-of-the-art)性能を実現した。
さらに、実世界のグラフィックデザインの複雑さを捉える際の既存のデータセットの制限を認識し、より困難なタスク(ユーザ制約付き世代と複雑なポスター)のための2つの新しいデータセットを提案し、さらに、我々のモデルの有用性を現実の環境で検証する。
より優れたアクセシビリティと適応性によって、このアプローチはさらに大規模なグラフィックデザインタスクを自動化する。
コードとデータセットはhttps://github.com/posterllava/PosterLLaVAで公開されている。
Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets' limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model's utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# DifAttack++: クロスドメインの階層的不整合機能空間によるクエリ効率の良いブラックボックス攻撃
DifAttack++: Query-Efficient Black-Box Adversarial Attack via Hierarchical Disentangled Feature Space in Cross-Domain ( http://arxiv.org/abs/2406.03017v3 ) ライセンス: Link先を確認 | Jun Liu, Jiantao Zhou, Jiandian Zeng, Jinyu Tian, Zheng Li, | (参考訳) 本研究では,高いアタック成功率 (\textbf{ASR}) と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。
我々は,階層型ディスタングル型特徴空間をベースとした新しい攻撃手法を設計し,その特徴空間全体で動作する既存手法とは大きく異なる。
具体的には、DifAttack++は、最初に画像の潜伏機能(\textbf{AF})と視覚機能(\textbf{VF})に、当社が特別に設計した階層的なDeouple-Fusion(\textbf{HDF})モジュールを備えたオートエンコーダを通じて、画像の逆方向機能を分離します。
この2つのオートエンコーダは、クリーンな画像と、利用可能なサロゲートモデルから生成される逆転例(\textbf{AE}s)をホワイトボックスアタック法によって生成し、画像再構成と特徴のゆがみを実現するために、クリーンで逆転的な画像領域(すなわちクロスドメイン)のために訓練される。
最終的に、ブラックボックス攻撃の段階では、DifAttack++は被害者モデルからのクエリフィードバックに従って、VFを変更せずに成功したAEが生成されるまで、AFを反復的に最適化する。
我々のDifAttack++は最先端の手法よりもASRとクエリ効率が優れており、一方、AEの視覚的品質はずっと優れています。
コードはhttps://github.com/csjunjun/DifAttack.git.comで入手できる。
This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (\textbf{ASR}) and good generalizability. We design a novel attack method based on a hierarchical DIsentangled Feature space, called \textbf{DifAttack++}, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack++ firstly disentangles an image's latent feature into an Adversarial Feature (\textbf{AF}) and a Visual Feature (\textbf{VF}) via an autoencoder equipped with our specially designed Hierarchical Decouple-Fusion (\textbf{HDF}) module, where the AF dominates the adversarial capability of an image, while the VF largely determines its visual appearance. We train such two autoencoders for the clean and adversarial image domains (i.e., cross-domain) respectively to achieve image reconstructions and feature disentanglement, by using pairs of clean images and their Adversarial Examples (\textbf{AE}s) generated from available surrogate models via white-box attack methods. Eventually, in the black-box attack stage, DifAttack++ iteratively optimizes the AF according to the query feedback from the victim model until a successful AE is generated, while keeping the VF unaltered. Extensive experimental results demonstrate that our DifAttack++ leads to superior ASR and query efficiency than state-of-the-art methods, meanwhile exhibiting much better visual quality of AEs. The code is available at https://github.com/csjunjun/DifAttack.git. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# 定常散乱状態のオーバーラップ積分
Overlap integral of stationary scattering states ( http://arxiv.org/abs/2406.03595v2 ) ライセンス: Link先を確認 | Kenzo Ishikawa, Yuya Nishio, | (参考訳) 有限幅のポテンシャルにおける散乱状態の重複積分はその漸近挙動で表され、エネルギー$E_1$と$E_2$は、$\delta(E_1-E_2)$と非対角項に比例する対角項からなる。
非対角項の合成により、定常状態の重ね合わせは時間依存ノルムと有限確率電流を持つ。
これらは孤立した状態を表すものではない。
様々な例外ポテンシャルや自由理論において、非対角項は存在せず、異なるエネルギーを持つ状態の重畳は散乱過程を正確に記述した孤立粒子を表す。
The overlap integrals of scattering states in potentials of finite widths are expressed with their asymptotic behaviors and those of energies $E_1$ and $E_2$ consist of diagonal terms that are proportional to $\delta(E_1-E_2)$ and nondiagonal terms. Owing to the composition of nondiagonal terms, superpositions of stationary states have time-dependent norms and finite probability currents. These do not represent isolate states. In various exceptional potentials and in free theory, nondiagonal terms do not exist, and the superpositions of states with different energies represent isolate particles that exactly describe scattering processes. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# 数値的対意味医学的知識における大規模言語モデルの性能:証拠に基づくQ&Aのベンチマーク
Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As ( http://arxiv.org/abs/2406.03855v2 ) ライセンス: Link先を確認 | Eden Avnat, Michal Levy, Daniel Herstain, Elia Yanko, Daniel Ben Joya, Michal Tzuchman Katz, Dafna Eshel, Sahar Laros, Yael Dagan, Shahar Barami, Joseph Mermelstein, Shahar Ovadia, Noam Shomron, Varda Shalev, Raja-Elie E. Abdulnour, | (参考訳) 臨床的問題解決には、エビデンスに基づく意思決定のために、病気のスクリプトや診断テストの数値的な医療知識などの意味的な医療知識の処理が必要である。
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの面で有望な結果を示すため、臨床問題に対する非言語エビデンスベースの回答を生成する能力は、本質的にトークン化によって制限される。
そこで我々は, LLMの性能を, 医学的側面におけるLSM間の差異を調べた上で, 数値(関連所見)と意味(差別化要因)の2つの質問タイプで評価し, その性能を人間と比較した。
本研究では,エビデンスベースの医療(EBM)に基づいて,簡単な多点質問・回答(QA)を生成するために,総合的な医療知識グラフ(50,00以上の査読項目からのデータ)を用いて「EBMQA」を作成した。
EBMQAには105,000のQAが含まれており、医学的、非医学的なトピックがラベル付けられ、数値的、意味的な質問に分類される。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusで24,500QA以上を用いてベンチマークした。
我々は,LLMの精度を意味的および数値的質問タイプ,およびサブラベル付きトピックに基づいて評価した。
検証のために、6人の医療専門家が100の数値EBMQA質問でテストされた。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っている。
しかし,両LSMは異なる医学的側面において間隙と内隙間を示し,ヒトに劣った。
したがって、彼らの医療アドバイスは慎重に扱うべきである。
Clinical problem-solving requires processing of semantic medical knowledge such as illness scripts and numerical medical knowledge of diagnostic tests for evidence-based decision-making. As large language models (LLMs) show promising results in many aspects of language-based clinical practice, their ability to generate non-language evidence-based answers to clinical questions is inherently limited by tokenization. Therefore, we evaluated LLMs' performance on two question types: numeric (correlating findings) and semantic (differentiating entities) while examining differences within and between LLMs in medical aspects and comparing their performance to humans. To generate straightforward multi-choice questions and answers (QAs) based on evidence-based medicine (EBM), we used a comprehensive medical knowledge graph (encompassed data from more than 50,00 peer-reviewed articles) and created the "EBMQA". EBMQA contains 105,000 QAs labeled with medical and non-medical topics and classified into numerical or semantic questions. We benchmarked this dataset using more than 24,500 QAs on two state-of-the-art LLMs: Chat-GPT4 and Claude3-Opus. We evaluated the LLMs accuracy on semantic and numerical question types and according to sub-labeled topics. For validation, six medical experts were tested on 100 numerical EBMQA questions. We found that both LLMs excelled more in semantic than numerical QAs, with Claude3 surpassing GPT4 in numerical QAs. However, both LLMs showed inter and intra gaps in different medical aspects and remained inferior to humans. Thus, their medical advice should be addressed carefully. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# Bi-Modal Adversarial Promptによるジェイルブレイクビジョン言語モデル
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt ( http://arxiv.org/abs/2406.04031v2 ) ライセンス: Link先を確認 | Zonghao Ying, Aishan Liu, Tianyuan Zhang, Zhengmin Yu, Siyuan Liang, Xianglong Liu, Dacheng Tao, | (参考訳) 大規模視覚言語モデル(LVLM)の領域では、ジェイルブレイク攻撃はガードレールをバイパスし、安全への影響を明らかにするためのレッドチーム方式として機能する。
既存のジェイルブレイクは視覚的モダリティに主に焦点を合わせ、攻撃のプロンプトの中でのみ視覚的な入力を摂動する。
しかし、これらは、世代ごとに視覚的特徴とテキスト的特徴を同時に融合するアライメントモデルに直面すると、不足する。
この制限に対処するために,テキストと視覚のプロンプトを協調的に最適化し,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を導入する。
当初,画像に有害な摂動を交互に埋め込み,数発のクエリ非依存コーパス(例,肯定的な接頭辞,否定的な抑制)でガイドした。
このプロセスは、イメージプロンプトLVLMが有害なクエリに対して正に応答することを保証する。
その後、敵対画像を利用して、特定の有害な意図でテキストプロンプトを最適化する。
特に、大規模言語モデルを用いてジェイルブレイクの失敗を分析し、連鎖推論を用いてフィードバックイテレーションによってテキストプロンプトを洗練させる。
提案手法の有効性を検証するため, 各種データセットとLVLMを用いて広範囲な評価を行い, 攻撃成功率を平均29.03%) で比較した。
さらに,Gemini や ChatGLM などのブラックボックス商用 LVLM に対する攻撃の可能性を示す。
In the realm of large vision language models (LVLMs), jailbreak attacks serve as a red-teaming approach to bypass guardrails and uncover safety implications. Existing jailbreaks predominantly focus on the visual modality, perturbing solely visual inputs in the prompt for attacks. However, they fall short when confronted with aligned models that fuse visual and textual features simultaneously for generation. To address this limitation, this paper introduces the Bi-Modal Adversarial Prompt Attack (BAP), which executes jailbreaks by optimizing textual and visual prompts cohesively. Initially, we adversarially embed universally harmful perturbations in an image, guided by a few-shot query-agnostic corpus (e.g., affirmative prefixes and negative inhibitions). This process ensures that image prompt LVLMs to respond positively to any harmful queries. Subsequently, leveraging the adversarial image, we optimize textual prompts with specific harmful intent. In particular, we utilize a large language model to analyze jailbreak failures and employ chain-of-thought reasoning to refine textual prompts through a feedback-iteration manner. To validate the efficacy of our approach, we conducted extensive evaluations on various datasets and LVLMs, demonstrating that our method significantly outperforms other methods by large margins (+29.03% in attack success rate on average). Additionally, we showcase the potential of our attacks on black-box commercial LVLMs, such as Gemini and ChatGLM. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# グラフニューラルネットワークにおけるエネルギーベースエピステマティック不確かさ
Energy-based Epistemic Uncertainty for Graph Neural Networks ( http://arxiv.org/abs/2406.04043v2 ) ライセンス: Link先を確認 | Dominik Fuchsgruber, Tom Wollschläger, Stephan Günnemann, | (参考訳) グラフのような相互依存データを持つ領域では、グラフニューラルネットワーク(GNN)の疫学的不確かさを定量化することは困難である。
既存の手法はこの問題を無視するか、あるいは1つの尺度に組み合わせることなく構造認識と構造認識の不確かさを区別するのみである。
我々は,グラフ拡散から自然に生じる異なる構造レベルでエネルギーを集約することにより,高品質な不確実性推定を提供するエネルギーベースモデル(EBM)であるGEBMを提案する。
ロジットベースのEMMとは対照的に、エネルギー関数を正則化することにより、データ空間の可積分密度を確実に誘導する。
我々は,GNNの予測ロバスト性を大幅に向上させるEMMの明確な解釈を導入する。
我々のフレームワークは、様々な分散シフトに敏感な事前学習GNNに適用可能な、シンプルで効果的なポストホック手法である。
7つの異常なタイプのうち6つについて、分布内と分布外データの最良の分離を一貫して達成すると同時に、 \emph{all}データセット上のシフトよりも平均的なランクが最良である。
In domains with interdependent data, such as graphs, quantifying the epistemic uncertainty of a Graph Neural Network (GNN) is challenging as uncertainty can arise at different structural scales. Existing techniques neglect this issue or only distinguish between structure-aware and structure-agnostic uncertainty without combining them into a single measure. We propose GEBM, an energy-based model (EBM) that provides high-quality uncertainty estimates by aggregating energy at different structural levels that naturally arise from graph diffusion. In contrast to logit-based EBMs, we provably induce an integrable density in the data space by regularizing the energy function. We introduce an evidential interpretation of our EBM that significantly improves the predictive robustness of the GNN. Our framework is a simple and effective post hoc method applicable to any pre-trained GNN that is sensitive to various distribution shifts. It consistently achieves the best separation of in-distribution and out-of-distribution data on 6 out of 7 anomaly types while having the best average rank over shifts on \emph{all} datasets. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# FunBO: FunSearchによるベイズ最適化のための買収関数の発見
FunBO: Discovering Acquisition Functions for Bayesian Optimization with FunSearch ( http://arxiv.org/abs/2406.04824v2 ) ライセンス: Link先を確認 | Virginia Aglietti, Ira Ktena, Jessica Schrouff, Eleni Sgouritsa, Francisco J. R. Ruiz, Alan Malek, Alexis Bellot, Silvia Chiappa, | (参考訳) ベイズ最適化アルゴリズムのサンプル効率は、関数評価の逐次的な収集を導くために、慎重に構築された取得関数(AF)に依存する。
最高のパフォーマンスのAFは最適化の問題によって大きく異なり、しばしばアドホックな選択と問題固有の選択を必要とする。
この研究は、様々な実験環境においてよく機能する新しいAFを設計する上での課題に取り組みます。
数理科学における発見のためのLarge Language Models (LLMs) を用いた最近の研究である FunSearch に基づいて,FunBO を提案する。
得られた全てのAFの解析式を提供し、様々なグローバル最適化ベンチマークやハイパーパラメータ最適化タスクで評価する。
本研究では、FunBOが関数のトレーニング分布内外をよく一般化するAFを識別し、確立された汎用AFよりも優れ、特定の関数タイプにカスタマイズされ、転送学習アルゴリズムによって学習されるAFに対する競合性能を実現する方法を示す。
The sample efficiency of Bayesian optimization algorithms depends on carefully crafted acquisition functions (AFs) guiding the sequential collection of function evaluations. The best-performing AF can vary significantly across optimization problems, often requiring ad-hoc and problem-specific choices. This work tackles the challenge of designing novel AFs that perform well across a variety of experimental settings. Based on FunSearch, a recent work using Large Language Models (LLMs) for discovery in mathematical sciences, we propose FunBO, an LLM-based method that can be used to learn new AFs written in computer code by leveraging access to a limited number of evaluations for a set of objective functions. We provide the analytic expression of all discovered AFs and evaluate them on various global optimization benchmarks and hyperparameter optimization tasks. We show how FunBO identifies AFs that generalize well in and out of the training distribution of functions, thus outperforming established general-purpose AFs and achieving competitive performance against AFs that are customized to specific function types and are learned via transfer-learning algorithms. | 翻訳日:2024-07-02 13:40:49 公開日:2024-07-01 |
# ビデオ言語理解: モデルアーキテクチャ、モデルトレーニング、データの観点からの調査
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives ( http://arxiv.org/abs/2406.05615v2 ) ライセンス: Link先を確認 | Thong Nguyen, Yi Bin, Junbin Xiao, Leigang Qu, Yicong Li, Jay Zhangjie Wu, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan, | (参考訳) 人間は環境を理解するために複数の感覚を使う。
視覚と言語は、私たちの思考を簡単に伝え、周りの世界を知覚できるため、最も重要な感覚の2つです。
ビデオ言語ペアは、我々の言語媒体と視覚環境の両方を時間的ダイナミクスで模倣できるので、ヒューマンライクな感覚でビデオ言語理解システムを構築することには、多くの関心が寄せられている。
本調査では,これらのシステムの主要な課題を概観し,関連する課題について紹介する。
課題に基づき、モデルアーキテクチャ、モデルトレーニング、データの観点からそれらの手法を要約する。
また,本手法の性能比較を行い,今後の研究の方向性について論じる。
Humans use multiple senses to comprehend the environment. Vision and language are two of the most vital senses since they allow us to easily communicate our thoughts and perceive the world around us. There has been a lot of interest in creating video-language understanding systems with human-like senses since a video-language pair can mimic both our linguistic medium and visual environment with temporal dynamics. In this survey, we review the key tasks of these systems and highlight the associated challenges. Based on the challenges, we summarize their methods from model architecture, model training, and data perspectives. We also conduct performance comparison among the methods, and discuss promising directions for future research. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 古典的量子プログラミングのギャップを埋めるための翻訳フレームワークを目指す$Classi|Q\rangle$
$Classi|Q\rangle$ Towards a Translation Framework To Bridge The Classical-Quantum Programming Gap ( http://arxiv.org/abs/2406.06764v3 ) ライセンス: Link先を確認 | Matteo Esposito, Maryam Tavassoli Sabzevari, Boshuai Ye, Davide Falessi, Arif Ali Khan, Davide Taibi, | (参考訳) 量子コンピューティングは、ハードウェアとして、あるいはクラウド上でエミュレートできるが、複雑なプログラミングパラダイムや学習曲線に関しては、一般的には利用できない。
このビジョンペーパーでは、Classi|Q\rangle$という、古典的および量子コンピューティングを橋渡しするための翻訳フレームワークを紹介します。
私たちのアイデアペーパーは、量子ソフトウェア工学における継続的な取り組みの青写真として役立ち、研究者や実践者の多様なニーズを満たすために、さらなる$Classi|Q\rangle$開発のためのロードマップを提供する。
$Classi|Q\rangle$は、従来の量子経験のない研究者や実践者がハイブリッド量子計算の可能性を活用するために設計された。
また、将来の$Classi|Q\rangle$の強化、追加の量子言語のサポート、最適化戦略の改善、新しい量子コンピューティングプラットフォームとの統合などについても論じる。
Quantum computing, albeit readily available as hardware or emulated on the cloud, is still far from being available in general regarding complex programming paradigms and learning curves. This vision paper introduces $Classi|Q\rangle$, a translation framework idea to bridge Classical and Quantum Computing by translating high-level programming languages, e.g., Python or C++, into a low-level language, e.g., Quantum Assembly. Our idea paper serves as a blueprint for ongoing efforts in quantum software engineering, offering a roadmap for further $Classi|Q\rangle$ development to meet the diverse needs of researchers and practitioners. $Classi|Q\rangle$ is designed to empower researchers and practitioners with no prior quantum experience to harness the potential of hybrid quantum computation. We also discuss future enhancements to $Classi|Q\rangle$, including support for additional quantum languages, improved optimization strategies, and integration with emerging quantum computing platforms. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 自由を破る:非協力的仮定なしで効率的な多人数のプライベート・セット・ユニオン
Breaking Free: Efficient Multi-Party Private Set Union Without Non-Collusion Assumptions ( http://arxiv.org/abs/2406.07011v3 ) ライセンス: Link先を確認 | Minglang Dong, Yu Chen, Cong Zhang, Yujie Bai, | (参考訳) マルチパーティ・プライベート・セット・ユニオン(MPSU)プロトコルでは、$m$$(m > 2)$パーティがそれぞれセットを持っていて、他のパーティに追加情報を公開することなく、セットのユニオンをまとめて計算することができる。
MPSUプロトコルには2つの主要なカテゴリがある。
このカテゴリの既存のすべての作業は、超直線的な公開鍵操作を含み、結果として実用的効率が低下する。
2つ目は、暗黙の転送と対称キー技術に基づくものである。
このカテゴリにおける唯一の既存の研究は、Liu and Gao (ASIACRYPT 2023) によって提案されている。
残念なことに、これは通常の半正直なセキュリティを達成しない。
したがって、標準的な半真性モデルにおいて、暗黙の転送と対称鍵技術に基づく実用的なMPSUプロトコルを構築するという問題は未解決のままである。
さらに,線形計算と線形通信の複雑さを両立させるMPSUプロトコルは存在しない。
本稿では、これらの2つの未解決問題を解決する。
本稿では,標準半高次モデルにおいて,暗黙の転送と対称鍵技術に基づく最初のMPSUプロトコルを提案する。
このプロトコルは、LAN設定でLiuやGaoよりも高速な4.9-9.3 \timesである。
具体的には、当社のプロトコルはオンラインフェーズでわずか3.6ドル秒で、それぞれ2〜20ドルのアイテムがセットされている。
公開鍵演算に基づく線形計算と線形通信の複雑さを両立させる最初のMPSUプロトコルを提案する。
このプロトコルは通信コストが低く、Liu や Gao と比較すると、通信コストが3.0-36.5 倍になる。
Multi-party private set union (MPSU) protocol enables $m$ $(m > 2)$ parties, each holding a set, to collectively compute the union of their sets without revealing any additional information to other parties. There are two main categories of MPSU protocols: The first builds on public-key techniques. All existing works in this category involve a super-linear number of public-key operations, resulting in poor practical efficiency. The second builds on oblivious transfer and symmetric-key techniques. The only existing work in this category is proposed by Liu and Gao (ASIACRYPT 2023), which features the best concrete performance among all existing protocols, despite its super-linear computation and communication. Unfortunately, it does not achieve the standard semi-honest security, as it inherently relies on a non-collusion assumption, which is unlikely to hold in practice. Therefore, the problem of constructing a practical MPSU protocol based on oblivious transfer and symmetric-key techniques in standard semi-honest model remains open. Furthermore, there is no MPSU protocol achieving both linear computation and linear communication complexity, which leaves another unresolved problem. In this work, we resolve these two open problems. We propose the first MPSU protocol based on oblivious transfer and symmetric-key techniques in the standard semi-honest model. This protocol is $4.9-9.3 \times$ faster than Liu and Gao in the LAN setting. Concretely, our protocol requires only $3.6$ seconds in online phase for 3 parties with sets of $2^{20}$ items each. We propose the first MPSU protocol achieving both linear computation and linear communication complexity, based on public-key operations. This protocol has the lowest overall communication costs and shows a factor of $3.0-36.5\times$ improvement in terms of overall communication compared to Liu and Gao. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 機械翻訳品質評価における重要な指標としてのテキスト類似性
Textual Similarity as a Key Metric in Machine Translation Quality Estimation ( http://arxiv.org/abs/2406.07440v2 ) ライセンス: Link先を確認 | Kun Sun, Rong Wang, | (参考訳) 機械翻訳(MT)品質評価(QE)は、参照テキストなしで翻訳信頼性を評価する。
本研究では、文変換器とコサイン類似度を用いて意味的近接度を測定することにより、QEの新しい指標として「テキスト類似性」を導入する。
MLQE-PEデータセットのデータを分析した結果,テキストの類似性は従来の指標(hter,モデル評価,文の確率など)よりも,人間のスコアと強い相関性を示すことがわかった。
GAMMを統計的ツールとして使用することにより、テキストの類似性は、人間のスコアを予測するために、複数の言語ペア間で、他の指標よりも一貫して優れることを示した。
また、「hter」が実際にQEの人間のスコアを予測できなかったこともわかりました。
本研究は,QE指標としてテキスト類似性の有効性を強調し,QEフレームワークへの他の指標の統合や,精度とユーザビリティの向上を目的としたMTシステムトレーニングを推奨する。
Machine Translation (MT) Quality Estimation (QE) assesses translation reliability without reference texts. This study introduces "textual similarity" as a new metric for QE, using sentence transformers and cosine similarity to measure semantic closeness. Analyzing data from the MLQE-PE dataset, we found that textual similarity exhibits stronger correlations with human scores than traditional metrics (hter, model evaluation, sentence probability etc.). Employing GAMMs as a statistical tool, we demonstrated that textual similarity consistently outperforms other metrics across multiple language pairs in predicting human scores. We also found that "hter" actually failed to predict human scores in QE. Our findings highlight the effectiveness of textual similarity as a robust QE metric, recommending its integration with other metrics into QE frameworks and MT system training for improved accuracy and usability. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 視覚追跡のための視覚変換器ブロックを適応的にバイパスする
Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking ( http://arxiv.org/abs/2406.08037v2 ) ライセンス: Link先を確認 | Xiangyang Yang, Dan Zeng, Xucheng Wang, You Wu, Hengzhou Ye, Qijun Zhao, Shuiwang Li, | (参考訳) トランスフォーマーベースのモデルによって、視覚的トラッキングは大幅に進歩した。
しかし、現在のトラッカーの遅い速度は、制約のある計算資源を持つデバイスに適用性を制限する。
この課題に対処するために、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークであるABTrackを紹介する。
ABTrackの背後にある理論的根拠は、意味的特徴や関係がすべての抽象レベルにわたってトラッキングタスクに一様に影響を与えないという観察に根ざしている。
その代わり、この影響はターゲットの特徴とそれが占めるシーンによって異なる。
その結果、ある抽象レベルでの重要でない意味的特徴や関係を無視することは、追跡精度に大きく影響しない可能性がある。
本稿では,変換器ブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案し,ViTのアーキテクチャを適応的に単純化し,推論プロセスを高速化する。
BDMによる時間コストの低減とViTの効率の向上を目的として,各変圧器ブロックにおけるトークンの潜伏表現の次元を小さくする新しいViTプルーニング手法を提案する。
提案手法の有効性と汎用性を検証し,その性能を実証した。
コードはhttps://github.com/xyyang317/ABTrack.comで公開されている。
Empowered by transformer-based models, visual tracking has advanced significantly. However, the slow speed of current trackers limits their applicability on devices with constrained computational resources. To address this challenge, we introduce ABTrack, an adaptive computation framework that adaptively bypassing transformer blocks for efficient visual tracking. The rationale behind ABTrack is rooted in the observation that semantic features or relations do not uniformly impact the tracking task across all abstraction levels. Instead, this impact varies based on the characteristics of the target and the scene it occupies. Consequently, disregarding insignificant semantic features or relations at certain abstraction levels may not significantly affect the tracking accuracy. We propose a Bypass Decision Module (BDM) to determine if a transformer block should be bypassed, which adaptively simplifies the architecture of ViTs and thus speeds up the inference process. To counteract the time cost incurred by the BDMs and further enhance the efficiency of ViTs, we introduce a novel ViT pruning method to reduce the dimension of the latent representation of tokens in each transformer block. Extensive experiments on multiple tracking benchmarks validate the effectiveness and generality of the proposed method and show that it achieves state-of-the-art performance. Code is released at: https://github.com/xyyang317/ABTrack. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 4H-SiC共振器アンテナにおける単一V2中心の蛍光増強
Fluorescence enhancement of single V2 centers in a 4H-SiC cavity antenna ( http://arxiv.org/abs/2406.08208v2 ) ライセンス: Link先を確認 | Jonathan Körber, Jonah Heiler, Philipp Fuchs, Philipp Flad, Erik Hesselmeier, Pierre Kuna, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, Jörg Wrachtrup, | (参考訳) 固体量子エミッタは、本質的にスピン-光子界面を提供するため、分散量子技術の主要な候補である。
しかし、この分野で進行中の課題は、典型的なホスト材料の高屈折率による低光子抽出である。
この問題はフォトニック構造を用いて克服することができる。
本稿では、空洞型光アンテナにおけるV2中心の統合について報告する。
この構造は、平面キャビティとして機能する銀被覆135nm薄膜4H-SiC膜と、理論光子集光率34のブロードバンド共鳴からなる。
平面幾何学により、室温における20以上の単一のV2中心を、平均(最大)カウントレート向上係数9 (15)で同定することができる。
また,80MHz以下の平均吸収線幅を持つ10V2中心を低温下で観測した。
これらの結果は、側方エミッタ位置に対して頑健な光子コレクションの増強を示す。
Solid state quantum emitters are a prime candidate in distributed quantum technologies since they inherently provide a spin-photon interface. An ongoing challenge in the field, however, is the low photon extraction due to the high refractive index of typical host materials. This challenge can be overcome using photonic structures. Here, we report the integration of V2 centers in a cavity-based optical antenna. The structure consists of a silver-coated, 135 nm thin 4H-SiC membrane functioning as a planar cavity with a broadband resonance yielding a theoretical photon collection enhancement factor of 34. The planar geometry allows us to identify over 20 single V2 centers at room temperature with a mean (maximum) count rate enhancement factor of 9 (15). Moreover, we observe 10 V2 centers with a mean absorption linewidth below 80MHz at cryogenic temperatures. These results demonstrate a photon collection enhancement that is robust to the lateral emitter position. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 大規模VHR衛星画像におけるシーングラフ生成:大規模データセットとコンテキスト認識アプローチ
Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach ( http://arxiv.org/abs/2406.09410v2 ) ライセンス: Link先を確認 | Yansheng Li, Linlin Wang, Tingzhu Wang, Xue Yang, Junwei Luo, Qi Wang, Youming Deng, Wenbin Wang, Xian Sun, Haifeng Li, Bo Dang, Yongjun Zhang, Yi Yu, Junchi Yan, | (参考訳) 衛星画像(SAI)におけるシーングラフ生成(SGG)は、認識から認識までの地理空間シナリオのインテリジェントな理解を促進する。
SAIでは、物体はスケールとアスペクト比に大きな変化を示し、(空間的に不連続な物体の間であっても)物体の間にリッチな関係があり、大容量超高分解能(VHR)SAIにおいてSGGを水平に行う必要がある。
しかし,大規模VHR SAIによるSGGデータセットの欠如は,SAIにおけるSGGの進歩を妨げている。
大規模VHR SAIの複雑さのため, 大規模VHR SAIにおけるマイニング三重項<subject, relationship, object>は長距離文脈推論に大きく依存している。
したがって、小型の自然画像用に設計されたSGGモデルは、大型のVHR SAIには直接適用されない。
画像サイズは512 x 768から27,860 x 31,096ピクセル(RSG)で,210,000点以上のオブジェクトと40,000点以上のトリプルを含む。
大規模VHR SAIにおいてSGGを実現するために、オブジェクト検出(OBD)、ペアプルーニング、関係予測という3つのレベルでSAIを理解する文脈認識カスケード認知(CAC)フレームワークを提案する。
大規模SAIにおけるSGGの基本的な前提条件として,マルチスケールコンテキストを柔軟に統合可能な総合的多クラスオブジェクト検出ネットワーク(HOD-Net)を提案する。
大規模SAIには多数のオブジェクトペアが存在するが、意味のある関係を持つオブジェクトペアは少数に限られているため、高値ペアを選択するために対提案生成(PPG)ネットワークを設計する。
さらに、これらのペアの関係型を予測するために、コンテキスト対応メッセージング(RPCM)を用いた関係予測ネットワークを提案する。
Scene graph generation (SGG) in satellite imagery (SAI) benefits promoting intelligent understanding of geospatial scenarios from perception to cognition. In SAI, objects exhibit great variations in scales and aspect ratios, and there exist rich relationships between objects (even between spatially disjoint objects), which makes it necessary to holistically conduct SGG in large-size very-high-resolution (VHR) SAI. However, the lack of SGG datasets with large-size VHR SAI has constrained the advancement of SGG in SAI. Due to the complexity of large-size VHR SAI, mining triplets <subject, relationship, object> in large-size VHR SAI heavily relies on long-range contextual reasoning. Consequently, SGG models designed for small-size natural imagery are not directly applicable to large-size VHR SAI. To address the scarcity of datasets, this paper constructs a large-scale dataset for SGG in large-size VHR SAI with image sizes ranging from 512 x 768 to 27,860 x 31,096 pixels, named RSG, encompassing over 210,000 objects and more than 400,000 triplets. To realize SGG in large-size VHR SAI, we propose a context-aware cascade cognition (CAC) framework to understand SAI at three levels: object detection (OBD), pair pruning and relationship prediction. As a fundamental prerequisite for SGG in large-size SAI, a holistic multi-class object detection network (HOD-Net) that can flexibly integrate multi-scale contexts is proposed. With the consideration that there exist a huge amount of object pairs in large-size SAI but only a minority of object pairs contain meaningful relationships, we design a pair proposal generation (PPG) network via adversarial reconstruction to select high-value pairs. Furthermore, a relationship prediction network with context-aware messaging (RPCM) is proposed to predict the relationship types of these pairs. | 翻訳日:2024-07-02 13:30:57 公開日:2024-07-01 |
# 逆補助モデルを用いたロバストモデルに基づく強化学習
Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model ( http://arxiv.org/abs/2406.09976v2 ) ライセンス: Link先を確認 | Siemen Herremans, Ali Anwar, Siegfried Mercelis, | (参考訳) 強化学習は、ロボティクス、ボードゲーム、古典的なアーケードゲームといった様々な課題において、印象的なパフォーマンスを示している。
しかし、その現実世界の応用は、学習したポリシーにおける堅牢性と安全性の欠如によって妨げられる可能性がある。
より具体的には、あるマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのに苦労することが多い。
この問題に対処するために、モデルベースの設定でロバストMDP(RMDP)のフレームワークを使用し、新しい学習遷移モデルを導入する。
提案手法は,Kulback-Leiblerの不確実性集合内の最悪のMPPを推定するために,逆向きに更新された補助悲観的モデルを含む。
いくつかの既存の研究と比較して、パラメトリックシミュレータの必要性など、トレーニング環境に追加の条件を課していない。
政策ロバスト性を高めるための悲観的モデルの有効性を検証するため,ロバストモデルベースポリシー最適化 (RMBPO) と呼ばれる実用的なRLアルゴリズムに統合した。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な向上が示唆された。
提案する補助世界モデルと名目モデルとの学習的偏差をさらに探求し,悲観主義の達成方法を検討する。
悲観的な世界モデルを学び、政策の堅牢性向上におけるその役割を示すことによって、我々の研究は(モデルに基づく)RLをより堅牢にすることに貢献します。
Reinforcement learning has demonstrated impressive performance in various challenging problems such as robotics, board games, and classical arcade games. However, its real-world applications can be hindered by the absence of robustness and safety in the learned policies. More specifically, an RL agent that trains in a certain Markov decision process (MDP) often struggles to perform well in nearly identical MDPs. To address this issue, we employ the framework of Robust MDPs (RMDPs) in a model-based setting and introduce a novel learned transition model. Our method specifically incorporates an auxiliary pessimistic model, updated adversarially, to estimate the worst-case MDP within a Kullback-Leibler uncertainty set. In comparison to several existing works, our work does not impose any additional conditions on the training environment, such as the need for a parametric simulator. To test the effectiveness of the proposed pessimistic model in enhancing policy robustness, we integrate it into a practical RL algorithm, called Robust Model-Based Policy Optimization (RMBPO). Our experimental results indicate a notable improvement in policy robustness on high-dimensional MuJoCo control tasks, with the auxiliary model enhancing the performance of the learned policy in distorted MDPs. We further explore the learned deviation between the proposed auxiliary world model and the nominal model, to examine how pessimism is achieved. By learning a pessimistic world model and demonstrating its role in improving policy robustness, our research contributes towards making (model-based) RL more robust. | 翻訳日:2024-07-02 13:21:08 公開日:2024-07-01 |
# ユーザデータの模倣: 閉じた大言語モデルにおける微調整リスクの軽減について
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models ( http://arxiv.org/abs/2406.10288v2 ) ライセンス: Link先を確認 | Francisco Eiras, Aleksandar Petrov, Phillip H. S. Torr, M. Pawan Kumar, Adel Bibi, | (参考訳) 小型で高品質なデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
近年の研究では、良心的かつ命令追従的なデータの微調整が、必然的に安全アライメントプロセスを解き放ち、有害なクエリに対応するためのモデルの妥当性を高めることが示されている。
適切に定義されたタスクにおける安全性リスクの理解と軽減は、データの構造的な違いのため、命令追従のコンテキストとは相変わらず異なる。
私たちの研究は、クローズドモデルにおけるさまざまなタイプのデータにわたるリスクに対する理解のギャップに対処します。
悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、より危険なモデルの振る舞いを著しく促進し、不明瞭で合理的なダウンストリームタスクパフォーマンスを維持しながら、いかにして悪質なアクターが微妙に操作できるかを実証する。
この問題に対処するために,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新たな緩和戦略を提案する。
Fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that fine-tuning on benign, instruction-following data can inadvertently undo the safety alignment process and increase a model's propensity to comply with harmful queries. Although critical, understanding and mitigating safety risks in well-defined tasks remains distinct from the instruction-following context due to structural differences in the data. Our work addresses the gap in our understanding of these risks across diverse types of data in closed models - where providers control how user data is utilized in the fine-tuning process. We demonstrate how malicious actors can subtly manipulate the structure of almost any task-specific dataset to foster significantly more dangerous model behaviors, while maintaining an appearance of innocuity and reasonable downstream task performance. To address this issue, we propose a novel mitigation strategy that mixes in safety data which mimics the task format and prompting style of the user data, showing this is more effective than existing baselines at re-establishing safety alignment while maintaining similar task performance. | 翻訳日:2024-07-02 13:21:08 公開日:2024-07-01 |
# 大規模言語モデルにおける忠実連鎖推論の硬さについて
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models ( http://arxiv.org/abs/2406.10625v2 ) ライセンス: Link先を確認 | Sree Harsha Tanneru, Dan Ley, Chirag Agarwal, Himabindu Lakkaraju, | (参考訳) 大きな言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されているため、これらのモデルによって生成されるチェーン・オブ・ソート(CoT)推論が、その基盤となる振る舞いを忠実に捉えていることを保証することが重要である。
LLMは、人間にアピールするCoT推論を生成することが知られているが、以前の研究では、これらの説明は、基礎となるLCMの実際の振る舞いを正確に反映していないことが示されている。
本研究では,LLM が生成する CoT 推論の忠実性を高めるため,LLM の動作を制御し,文脈学習,微調整,アクティベーション編集という,広義の3つのアプローチの約束について検討する。
具体的には,CoT推論の忠実度向上を目的とした,文脈内学習,微調整,アクティベーション編集のための新しい手法を提案する。
次に、複数のベンチマークデータセットを用いて広範な実験分析を行い、これらの戦略の可能性を探求する。
分析の結果,これらの戦略はCoT推論の忠実性向上に限定的な成功をもたらし,制御シナリオにおける性能向上はわずかであることがわかった。
アクティベーションの編集は、最小限の成功を示し、微調整と文脈学習は、様々な推論と真正な質問答えベンチマークで一般化できなかった限界的な改善を達成した。
まとめると、我々の研究は、LLMから忠実なCoT推論を引き出すのに固有の困難さを浮き彫りにして、現在の一連のアプローチがこの複雑な課題に対処するには不十分かもしれないことを示唆している。
As Large Language Models (LLMs) are increasingly being employed in real-world applications in critical domains such as healthcare, it is important to ensure that the Chain-of-Thought (CoT) reasoning generated by these models faithfully captures their underlying behavior. While LLMs are known to generate CoT reasoning that is appealing to humans, prior studies have shown that these explanations do not accurately reflect the actual behavior of the underlying LLMs. In this work, we explore the promise of three broad approaches commonly employed to steer the behavior of LLMs to enhance the faithfulness of the CoT reasoning generated by LLMs: in-context learning, fine-tuning, and activation editing. Specifically, we introduce novel strategies for in-context learning, fine-tuning, and activation editing aimed at improving the faithfulness of the CoT reasoning. We then carry out extensive empirical analyses with multiple benchmark datasets to explore the promise of these strategies. Our analyses indicate that these strategies offer limited success in improving the faithfulness of the CoT reasoning, with only slight performance enhancements in controlled scenarios. Activation editing demonstrated minimal success, while fine-tuning and in-context learning achieved marginal improvements that failed to generalize across diverse reasoning and truthful question-answering benchmarks. In summary, our work underscores the inherent difficulty in eliciting faithful CoT reasoning from LLMs, suggesting that the current array of approaches may not be sufficient to address this complex challenge. | 翻訳日:2024-07-02 13:21:08 公開日:2024-07-01 |
# SCAR: スタイル一貫性を考慮した応答ランク付けによる大規模言語モデルの効率的なインストラクションチューニング
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking ( http://arxiv.org/abs/2406.10882v2 ) ライセンス: Link先を確認 | Zhuang Li, Yuncheng Hua, Thuy-Trang Vu, Haolan Zhan, Lizhen Qu, Gholamreza Haffari, | (参考訳) 近年の研究では、人間の専門家による一貫した応答スタイルを維持し、トレーニングセットにおけるデータ品質を向上させることで、微調整された大規模言語モデル(LLM)の性能を大幅に向上し、必要なトレーニング例の数を削減できることが示されている。
しかし、スタイルの正確な定義と、スタイル、データ品質、LLMパフォーマンスの関係は、まだ不明である。
本研究は、応答スタイルをプレゼンテーションスタイルとコンポジションスタイルに分解し、類似品質のトレーニングデータのうち、高いスタイル整合性を持つものがLLM性能の向上につながることを明らかにする。
そこで本研究では,SCAR(Style Consistency-Aware Response Ranking)を導入する。
完全なデータセットの上位25%から0.7%まで、最もスタイルに一貫性のある例を選択することで、微調整されたLLMは、コーディングとオープンエンドの質問回答ベンチマークにおいて、データセット全体でトレーニングされたモデルのパフォーマンスにマッチまたは超えることができる。
コードとデータはhttps://github.com/zhuang-li/SCAR で公開されている。
Recent studies have shown that maintaining a consistent response style by human experts and enhancing data quality in training sets can significantly improve the performance of fine-tuned Large Language Models (LLMs) while reducing the number of training examples needed. However, the precise definition of style and the relationship between style, data quality, and LLM performance remains unclear. This research decomposes response style into presentation and composition styles and finds that, among training data of similar quality, those with higher style consistency lead to better LLM performance. Inspired by this, we introduce Style Consistency-Aware Response Ranking (SCAR), which automatically prioritizes instruction-response pairs in the training set based on their response stylistic consistency. By selecting the most style-consistent examples, ranging from the top 25% to 0.7% of the full dataset, the fine-tuned LLMs can match or even surpass the performance of models trained on the entire dataset in coding and open-ended question-answering benchmarks. Code and data are available at https://github.com/zhuang-li/SCAR . | 翻訳日:2024-07-02 13:21:08 公開日:2024-07-01 |
# 大規模言語モデルにおける態度・意見・価値の評価の可能性と課題
The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models ( http://arxiv.org/abs/2406.11096v2 ) ライセンス: Link先を確認 | Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich, Barbara Plank, Frauke Kreuter, | (参考訳) 近年のLarge Language Models (LLMs) の進歩は、LLMが持つかもしれない人間のような認知行動特性の検証と理解に幅広い関心を喚起している。
これらの認知行動特性には、通常、態度、意見、価値(AOV)が含まれる。
しかし、LLM内に埋め込まれたAOVの測定は不透明であり、異なる評価方法が異なる結果をもたらす可能性がある。
この結果、異なる研究が相互にどのように関連しているか、どのように解釈できるかが明確になっていない。
本稿では,LLMにおけるAOV評価に関する最近の研究の概要を提供することで,このギャップを埋めることを目的としている。
さらに,これらの研究における評価パイプラインの異なる段階における関連するアプローチを調査した。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
最後に, 評価手法, モデル強化, 学際的コラボレーションの実践的洞察を提供し, LLMにおけるAOV評価の進化に寄与する。
Recent advances in Large Language Models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may have. These cognitive-behavioral traits include typically Attitudes, Opinions, Values (AOV). However, measuring AOV embedded within LLMs remains opaque, and different evaluation methods may yield different results. This has led to a lack of clarity on how different studies are related to each other and how they can be interpreted. This paper aims to bridge this gap by providing an overview of recent works on the evaluation of AOV in LLMs. Moreover, we survey related approaches in different stages of the evaluation pipeline in these works. By doing so, we address the potential and challenges with respect to understanding the model, human-AI alignment, and downstream application in social sciences. Finally, we provide practical insights into evaluation methods, model enhancement, and interdisciplinary collaboration, thereby contributing to the evolving landscape of evaluating AOV in LLMs. | 翻訳日:2024-07-02 13:21:08 公開日:2024-07-01 |
# 術中CBCTと各種術前CTデータを用いたマルチモーダル学習によるセグメンテーションの改善
Multimodal Learning With Intraoperative CBCT & Variably Aligned Preoperative CT Data To Improve Segmentation ( http://arxiv.org/abs/2406.11650v2 ) ライセンス: Link先を確認 | Maximilian E. Tschuchnig, Philipp Steininger, Michael Gadermayr, | (参考訳) コーンビーム・コンピュート・トモグラフィー(CBCT)はコンピュータ支援による介入を促進する重要なツールである。
劣化した画像品質は下流のセグメンテーションに影響を及ぼす可能性があるが、高品質の術前スキャンが利用可能であることは、改善の可能性を示唆している。
今回我々は,術前CTと術中CBCTが利用可能である状況について考察するが,スキャン間のアライメント(登録)は不十分である。
本稿では,CBCT と CT のほぼ一致したスキャンを融合させるマルチモーダル学習法を提案し,CBCT の品質と誤調整が最終的なセグメンテーション性能に与える影響について検討する。
その目的のために,実CTと合成CBCTボリュームを含む合成データセットを利用する。
応用シナリオとして,肝腫瘍と肝腫瘍のセグメンテーションに焦点を当てた。
術前CTとシミュレートされた術中CBCTの融合は,大半がセグメンテーション性能(術中CBCTのみとの比較)の向上であり,術中CBCTと比べ,術中CBCTが明確に一致していない場合でも,セグメンテーション性能が向上する可能性が示唆された。
Cone-beam computed tomography (CBCT) is an important tool facilitating computer aided interventions, despite often suffering from artifacts that pose challenges for accurate interpretation. While the degraded image quality can affect downstream segmentation, the availability of high quality, preoperative scans represents potential for improvements. Here we consider a setting where preoperative CT and intraoperative CBCT scans are available, however, the alignment (registration) between the scans is imperfect. We propose a multimodal learning method that fuses roughly aligned CBCT and CT scans and investigate the effect of CBCT quality and misalignment on the final segmentation performance. For that purpose, we make use of a synthetically generated data set containing real CT and synthetic CBCT volumes. As an application scenario, we focus on liver and liver tumor segmentation. We show that the fusion of preoperative CT and simulated, intraoperative CBCT mostly improves segmentation performance (compared to using intraoperative CBCT only) and that even clearly misaligned preoperative data has the potential to improve segmentation performance. | 翻訳日:2024-07-02 13:11:23 公開日:2024-07-01 |
# リンドブラッドマスター方程式をシミュレートする量子アルゴリズム
A quantum algorithm to simulate Lindblad master equations ( http://arxiv.org/abs/2406.12748v2 ) ライセンス: Link先を確認 | Evan Borras, Milad Marvian, | (参考訳) 本稿では、一意チャネルと状態準備の確率的応用により実現可能なマルコフマスター方程式の族をシミュレートする量子アルゴリズムを提案する。
このアプローチでは、動力学を散逸成分とハミルトン成分に分解し、散逸セグメントをランダムにコンパイルされ容易に実装可能な要素に置き換えることによって達成されるリンドブラッドマスター方程式の2階積公式を用いている。
サンプリング手法では、散逸過程をシミュレートする補助量子ビットの必要性を排除し、ジャンプ演算子の数の観点からゲートの複雑さを減少させる。
アルゴリズムの厳密な性能解析を行う。
また、このアルゴリズムを時間依存のリンドブラッド方程式に拡張し、限られた補助システムにアクセスできるときのノイズモデルを一般化し、マルコフ雑音モデル以外の応用を探索する。
ダイヤモンドノルムの観点からは、時間依存のリウヴィリアスに対する二階積公式に対する新しい誤差境界が、独立な関心を持つ可能性がある。
We present a quantum algorithm for simulating a family of Markovian master equations that can be realized through a probabilistic application of unitary channels and state preparation. Our approach employs a second-order product formula for the Lindblad master equation, achieved by decomposing the dynamics into dissipative and Hamiltonian components and replacing the dissipative segments with randomly compiled, easily implementable elements. The sampling approach eliminates the need for ancillary qubits to simulate the dissipation process and reduces the gate complexity in terms of the number of jump operators. We provide a rigorous performance analysis of the algorithm. We also extend the algorithm to time-dependent Lindblad equations, generalize the noise model when there is access to limited ancillary systems, and explore applications beyond the Markovian noise model. A new error bound, in terms of the diamond norm, for second-order product formulas for time-dependent Liouvillians is provided that might be of independent interest. | 翻訳日:2024-07-02 13:11:23 公開日:2024-07-01 |
# ゲージ変調対称性:Kramers-Wannier双対性と非可逆反射
Gauging modulated symmetries: Kramers-Wannier dualities and non-invertible reflections ( http://arxiv.org/abs/2406.12962v2 ) ライセンス: Link先を確認 | Salvatore D. Pace, Guilherme Delfino, Ho Tat Lam, Ömer M. Aksoy, | (参考訳) 変調対称性は、非一様で空間的に変調された方法で作用する内部対称性であり、例えば双極子対称性の一般化である。
本稿では,有限アベリア変調対称性のガウイングを${1+1}$次元で体系的に研究する。
スピン鎖の局所ハミルトニアンと協力し、ゲージング後の双対対称性とその潜在的な新しい空間変調を探索する。
我々は、変調対称性と、格子反射によって自然に実装されたそれらの双対の間の同型の存在について十分な条件を確立する。
例えば、素クォーディットの系では、変換不変性はこの同型を保証している。
非素数体に対しては、この同型は格子変換対称性だけでは保証されないが、環論の技法を用いてこの同型も存在することを示す。
この同型性から、新しいクラマース・ワニエ双対性を同定し、関連する非可逆反射対称性演算子をシーケンシャル量子回路を用いて構成する。
特に、この非可逆反射対称性は、システムが通常の反射対称性を欠いている場合でも存在する。
論文全体を通して、これらの結果を様々なシンプルな玩具モデルを用いて説明する。
Modulated symmetries are internal symmetries that act in a non-uniform, spatially modulated way and are generalizations of, for example, dipole symmetries. In this paper, we systematically study the gauging of finite Abelian modulated symmetries in ${1+1}$ dimensions. Working with local Hamiltonians of spin chains, we explore the dual symmetries after gauging and their potential new spatial modulations. We establish sufficient conditions for the existence of an isomorphism between the modulated symmetries and their dual, naturally implemented by lattice reflections. For instance, in systems of prime qudits, translation invariance guarantees this isomorphism. For non-prime qudits, we show using techniques from ring theory that this isomorphism can also exist, although it is not guaranteed by lattice translation symmetry alone. From this isomorphism, we identify new Kramers-Wannier dualities and construct related non-invertible reflection symmetry operators using sequential quantum circuits. Notably, this non-invertible reflection symmetry exists even when the system lacks ordinary reflection symmetry. Throughout the paper, we illustrate these results using various simple toy models. | 翻訳日:2024-07-02 13:11:23 公開日:2024-07-01 |
# BeHonest: 大規模言語モデルのベンチマーク
BeHonest: Benchmarking Honesty of Large Language Models ( http://arxiv.org/abs/2406.13261v2 ) ライセンス: Link先を確認 | Steffi Chern, Zhulin Hu, Yuqing Yang, Ethan Chern, Yuan Guo, Jiahe Jin, Binjie Wang, Pengfei Liu, | (参考訳) LLM(Large Language Models)に関するこれまでの研究は、主に、その有用性や無害性を評価することに重点を置いてきた。
しかし、もう1つの重要なアライメント基準である正直さは、比較的注目を集めていない。
LLMにおける不名誉な行動は、誤報を広めたり、ユーザーを欺いたり、ユーザーの信頼を損なったり、現実世界の危害を招いたりし、これらのモデルが超知能レベルに近づくと、深刻なリスクが増す。
LLMにおける誠実さの強化は、重大な欠陥に対処し、容易に表現できない潜在能力を明らかにするのに役立つ。
このことは、LCMの誠実さを効果的に保証し評価するために、信頼性の高い方法やベンチマークが緊急に必要であることを示している。
本稿では,LLMにおける誠実さを総合的に評価するための先駆的ベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
この基盤に基づいて、我々は、さまざまなモデルサイズを持つ異なるモデルファミリのクローズドソースモデルとオープンソースモデルを含む、市場で人気のある9つのLCMを評価し、分析するための10のシナリオを設計した。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
また、LLMにおける誠実な調整を優先するようAIコミュニティに勧めます。
ベンチマークとコードは以下の通りです。
Previous works on Large Language Models (LLMs) have mainly focused on evaluating their helpfulness or harmlessness. However, honesty, another crucial alignment criterion, has received relatively less attention. Dishonest behaviors in LLMs, such as spreading misinformation and defrauding users, eroding user trust, and causing real-world harm, present severe risks that intensify as these models approach superintelligence levels. Enhancing honesty in LLMs addresses critical deficiencies and helps uncover latent capabilities that are not readily expressed. This underscores the urgent need for reliable methods and benchmarks to effectively ensure and evaluate the honesty of LLMs. In this paper, we introduce BeHonest, a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. BeHonest evaluates three essential aspects of honesty: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Building on this foundation, we designed 10 scenarios to evaluate and analyze 9 popular LLMs on the market, including both closed-source and open-source models from different model families with varied model sizes. Our findings indicate that there is still significant room for improvement in the honesty of LLMs. We also encourage the AI community to prioritize honesty alignment in LLMs. Our benchmark and code can be found at: \url{https://github.com/GAIR-NLP/BeHonest}. | 翻訳日:2024-07-02 13:11:23 公開日:2024-07-01 |
# モデル内部に基づく検索拡張生成のための回答属性
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.13663v2 ) ライセンス: Link先を確認 | Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza, | (参考訳) モデル解答の妥当性を保証することは、質問応答(QA)領域における検索強化生成(RAG)の根本的な課題である。
近年,大規模言語モデル (LLM) を文書作成支援に活用する自己引用プロンプトが提案されている。
しかし、自励式LLMは必要なフォーマットにマッチし、既存のソースを参照するのに苦労することが多く、世代を通してLLMのコンテキスト使用を忠実に反映することができない。
本稿では、RAGアプリケーションにおける忠実な回答帰属のために、モデル内部を用いたプラグアンドプレイアプローチであるMIRAGE --Model Internals-based RAG Explanationsを提案する。
MIRAGEは、文脈に敏感な応答トークンを検出し、それらと検索したドキュメントをペアにすることで、その予測を唾液度法で行う。
提案手法を多言語抽出QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
オープンエンドQAでは、MIRAGEは自己引用に匹敵する引用品質と効率を達成すると同時に、帰属パラメータのよりきめ細かい制御を可能にする。
我々の質的評価は、MIRAGEの属性の忠実さを強調し、RAG回答属性に対するモデル内部の有望な適用を裏付けるものである。
Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution. | 翻訳日:2024-07-02 13:11:23 公開日:2024-07-01 |
# 人間とロボットの協調によるLLMロボット操作の強化
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration ( http://arxiv.org/abs/2406.14097v2 ) ライセンス: Link先を確認 | Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa, | (参考訳) 大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
しかし,LLMをベースとしたロボットは,言語モデルやロボット,環境との連携が不十分なため,単純かつ反復的な動作に限られる。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しい手法を提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
このシステムは、YOLOベースの知覚アルゴリズムも採用しており、特定の環境内で実行可能な動きを計画するのに役立つLCMに視覚的手がかりを提供する。
さらに, 遠隔操作と動的移動プリミティブ(DMP)を組み合わせることで, LLMをベースとしたロボットが人間の指導から学べるようにすることで, HRC法を提案する。
トヨタ・ヒューマン・サポート・ロボットを用いた実世界実験が実施されている。
その結果、複雑な軌道計画や環境に対する推論を必要とするタスクは、人間の実演を取り入れることで効率よく達成できることが示唆された。
Large Language Models (LLMs) are gaining popularity in the field of robotics. However, LLM-based robots are limited to simple, repetitive motions due to the poor integration between language models, robots, and the environment. This paper proposes a novel approach to enhance the performance of LLM-based autonomous manipulation through Human-Robot Collaboration (HRC). The approach involves using a prompted GPT-4 language model to decompose high-level language commands into sequences of motions that can be executed by the robot. The system also employs a YOLO-based perception algorithm, providing visual cues to the LLM, which aids in planning feasible motions within the specific environment. Additionally, an HRC method is proposed by combining teleoperation and Dynamic Movement Primitives (DMP), allowing the LLM-based robot to learn from human guidance. Real-world experiments have been conducted using the Toyota Human Support Robot for manipulation tasks. The outcomes indicate that tasks requiring complex trajectory planning and reasoning over environments can be efficiently accomplished through the incorporation of human demonstrations. | 翻訳日:2024-07-02 13:01:27 公開日:2024-07-01 |
# マルチスペクトル・ハイパースペクトル・高空間空中画像を用いた土地被覆マッピングのための深層学習セマンティックセマンティックセマンティックセマンティックセグメンテーションの評価
Evaluation of Deep Learning Semantic Segmentation for Land Cover Mapping on Multispectral, Hyperspectral and High Spatial Aerial Imagery ( http://arxiv.org/abs/2406.14220v2 ) ライセンス: Link先を確認 | Ilham Adi Panuntun, Ying-Nong Chen, Ilham Jamaluddin, Thi Linh Chi Tran, | (参考訳) 気候変動の台頭で、土地被覆マッピングは環境モニタリングにおいて緊急に必要となってきた。
リモートセンシングデータの改良により,土地被覆分類の精度が向上している。
近年,衛星画像を用いた土地被覆分類が研究され,普及している。
これらの制限を克服するために、いくつかのディープラーニング技術が利用されてきた。
しかし、ほとんどの研究では、ランドカバーマッピングのアルゴリズムを評価するために、1つのイメージタイプのみを実装している。
そこで本研究では,マルチスペクトル,ハイパースペクトル,高空間空間画像の深層学習セマンティックセマンティックセグメンテーションをランドカバーマッピングのために行った。
本研究では,Unet,Linknet,FPN,PSPnetなどのセマンティックセグメンテーション手法を用いて植生,水,その他(土壌,不活性表面など)を分類した。
LinkNetモデルは、すべてのデータセットにおいて、IoU(Intersection Over Union)において0.92で高い精度を得た。
IoUとF1スコアはそれぞれ0.993,0.997であった。
その結果,土地被覆分類におけるLinkNetとマルチスペクトル画像の有効性と適用性を強調した。
本研究は,長期的応用に向けたオープンソースによる土地被覆セグメンテーションへのアプローチの確立に寄与する。
In the rise of climate change, land cover mapping has become such an urgent need in environmental monitoring. The accuracy of land cover classification has gotten increasingly based on the improvement of remote sensing data. Land cover classification using satellite imageries has been explored and become more prevalent in recent years, but the methodologies remain some drawbacks of subjective and time-consuming. Some deep learning techniques have been utilized to overcome these limitations. However, most studies implemented just one image type to evaluate algorithms for land cover mapping. Therefore, our study conducted deep learning semantic segmentation in multispectral, hyperspectral, and high spatial aerial image datasets for landcover mapping. This research implemented a semantic segmentation method such as Unet, Linknet, FPN, and PSPnet for categorizing vegetation, water, and others (i.e., soil and impervious surface). The LinkNet model obtained high accuracy in IoU (Intersection Over Union) at 0.92 in all datasets, which is comparable with other mentioned techniques. In evaluation with different image types, the multispectral images showed higher performance with the IoU, and F1-score are 0.993 and 0.997, respectively. Our outcome highlighted the efficiency and broad applicability of LinkNet and multispectral image on land cover classification. This research contributes to establishing an approach on landcover segmentation via open source for long-term future application. | 翻訳日:2024-07-02 13:01:27 公開日:2024-07-01 |
# E-ANT: 効率的なGUIナビゲートのための大規模データセット
E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion ( http://arxiv.org/abs/2406.14250v3 ) ライセンス: Link先を確認 | Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu, | (参考訳) モバイルデバイス上のオンラインGUIナビゲーションは、多くの現実世界のアプリケーションに貢献しているため、近年多くの注目を集めている。
大規模言語モデル (LLM) の急速な発展に伴い,マルチモーダル・大規模言語モデル (MLLM) はこの課題に対して大きな可能性を秘めている。
しかし、既存のMLLMでは、人間の入力に応じて正確なナビゲーション決定を行う能力を向上させるために、高品質なデータが必要である。
そこで本研究では,5,000以上の小さなAPPから4万近い実人のトレースを含む,実際の人間の振る舞いと高品質なアノテーション付きスクリーンショットを含む,中国初のGUIナビゲーションデータセットとして,新鮮で高価値なデータセット「textbf{E-ANT}」を開発した。
さらに,E-ANT上での各種強力なMLLMの評価を行い,それらの実験結果を十分な精度で示す。
提案したデータセットはGUIナビゲーションとLLM/MLLM意思決定機能の評価と開発に有用であると考えている。
Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities. | 翻訳日:2024-07-02 13:01:27 公開日:2024-07-01 |
# 第2回eXplainable AI for the Arts(XAIxArts)国際ワークショップの開催報告
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) ( http://arxiv.org/abs/2406.14485v3 ) ライセンス: Link先を確認 | Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni, | (参考訳) この第2回説明可能なAI for the Arts(XAIxArts)に関する国際ワークショップは、HCI、インタラクションデザイン、AI、説明可能なAI(XAI)、デジタルアートの研究者のコミュニティを集めて、XAI for the Artsの役割を探求した。
第16回 ACM Conference on Creativity and Cognition (C&C 2024) でワークショップを開催した。
This second international workshop on explainable AI for the Arts (XAIxArts) brought together a community of researchers in HCI, Interaction Design, AI, explainable AI (XAI), and digital arts to explore the role of XAI for the Arts. Workshop held at the 16th ACM Conference on Creativity and Cognition (C&C 2024), Chicago, USA. | 翻訳日:2024-07-02 13:01:27 公開日:2024-07-01 |
# Bioptic - ターゲットに依存しない可能性に基づく小型分子検索エンジン
Bioptic -- A Target-Agnostic Potency-Based Small Molecules Search Engine ( http://arxiv.org/abs/2406.14572v3 ) ライセンス: Link先を確認 | Vlad Vinogradov, Ivan Izmailov, Simon Steshin, Kong T. Nguyen, | (参考訳) 近年の仮想スクリーニングの成功は、大規模なモデルと広範な化学ライブラリーによって実現されている。
しかし、これらの要素を組み合わせることは難しい。モデルが大きくなればなるほど、実行コストが高くなり、超大規模なライブラリが実現不可能になる。
そこで我々は, 分子探索モデルを構築し, 類似の生物活性を持つ構造的に異なる分子を探索する方法について検討した。
我々は、プロセッサ最適化SIMD命令に基づいて高速検索システムの設計にベストプラクティスを用いており、超大型の40B Enamine REALライブラリを100倍のリコール率で表示することができる。
我々は、新しい分子の速度性能と検索品質の両面において、我々のモデルと最先端モデルを広範囲にベンチマークした。
Recent successes in virtual screening have been made possible by large models and extensive chemical libraries. However, combining these elements is challenging: the larger the model, the more expensive it is to run, making ultra-large libraries unfeasible. To address this, we developed a target-agnostic, efficacy-based molecule search model, which allows us to find structurally dissimilar molecules with similar biological activities. We used the best practices to design fast retrieval system, based on processor-optimized SIMD instructions, enabling us to screen the ultra-large 40B Enamine REAL library with 100\% recall rate. We extensively benchmarked our model and several state-of-the-art models for both speed performance and retrieval quality of novel molecules. | 翻訳日:2024-07-02 13:01:27 公開日:2024-07-01 |
# Uni-Mol2: スケールでの分子プレトレーニングモデルを探る
Uni-Mol2: Exploring Molecular Pretraining Model at Scale ( http://arxiv.org/abs/2406.14969v2 ) ライセンス: Link先を確認 | Xiaohong Ji, Zhen Wang, Zhifeng Gao, Hang Zheng, Linfeng Zhang, Guolin Ke, Weinan E, | (参考訳) 近年、自然言語処理(NLP)、コンピュータビジョン(CV)、生命科学の分野で、事前学習モデルが大幅に進歩している。
NLPとCVの顕著な進歩は、主にモデルパラメータとデータサイズの拡大によって引き起こされるが、これは現在スケーリング法則として認識されている現象である。
しかし、分子プレトレーニングモデルにおけるスケーリング法則の研究は未解明のままである。
本研究では,2トラックトランスを用いた分子前訓練モデルUni-Mol2を提案し,原子レベル,グラフレベル,幾何学構造レベルでの機能を効果的に統合する。
これに伴い,分子プレトレーニングモデルにおけるスケーリングの法則を体系的に検討し,検証損失とモデルサイズ,データセットサイズ,計算資源の相関関係を特徴付ける。
その結果、Uni-Mol2を8億のコンフォメーションを事前学習することで、11億のパラメータに拡張し、これまでで最大の分子前訓練モデルとなった。
大規模な実験では、モデルのサイズが大きくなるにつれて下流のタスクが一貫した改善が示される。
1.1Bパラメータを持つUni-Mol2も既存の手法より優れており、QM9では平均27%、CompAS-1Dデータセットでは14%改善している。
In recent years, pretraining models have made significant advancements in the fields of natural language processing (NLP), computer vision (CV), and life sciences. The significant advancements in NLP and CV are predominantly driven by the expansion of model parameters and data size, a phenomenon now recognized as the scaling laws. However, research exploring scaling law in molecular pretraining models remains unexplored. In this work, we present Uni-Mol2 , an innovative molecular pretraining model that leverages a two-track transformer to effectively integrate features at the atomic level, graph level, and geometry structure level. Along with this, we systematically investigate the scaling law within molecular pretraining models, characterizing the power-law correlations between validation loss and model size, dataset size, and computational resources. Consequently, we successfully scale Uni-Mol2 to 1.1 billion parameters through pretraining on 800 million conformations, making it the largest molecular pretraining model to date. Extensive experiments show consistent improvement in the downstream tasks as the model size grows. The Uni-Mol2 with 1.1B parameters also outperforms existing methods, achieving an average 27% improvement on the QM9 and 14% on COMPAS-1D dataset. | 翻訳日:2024-07-02 13:01:26 公開日:2024-07-01 |
# Open-Vocabulary Zero-Shot Segmentationのための簡易フレームワーク
A Simple Framework for Open-Vocabulary Zero-Shot Segmentation ( http://arxiv.org/abs/2406.16085v2 ) ライセンス: Link先を確認 | Thomas Stegmüller, Tim Lebailly, Nikola Dukic, Behzad Bozorgtabar, Tinne Tuytelaars, Jean-Philippe Thiran, | (参考訳) ゼロショット分類機能は、視覚言語によるコントラストフレームワーク内で訓練されたモデルで自然に発生する。
分類の進歩にもかかわらず、これらのモデルはゼロショットの開語彙セグメンテーションのような密集したタスクに苦しむ。
この欠損は、キャプションにおける局所化の手がかりが欠如していることや、画像表現学習と相互モダリティアライメントの両方を含む学習過程の相互に絡み合った性質に起因していることが多い。
これらの課題に対処するため,オープン語彙ゼロショットセグメンテーションのためのシンプルなフレームワークであるSimZSSを提案する。
この方法は2つの鍵となる原則に基づいている。
一 テキストエンコーダを排他的に整合させながら、空間認識を示す凍結視覚のみのモデルを活用すること。
二 テキスト及び言語知識の個別の性質を利用して、字幕内の局所概念を特定すること。
視覚的表現の質を活かすことで、画像キャプチャーペアのデータセットのみを必要とし、小さなキュレートされた、大規模なノイズのあるデータセットに適応する。
8GPUにわたるCOCO Captionsのトレーニングを行うと、SimZSSは8つのベンチマークデータセットのうち7つの最先端の結果を15分以内で達成する。
Zero-shot classification capabilities naturally arise in models trained within a vision-language contrastive framework. Despite their classification prowess, these models struggle in dense tasks like zero-shot open-vocabulary segmentation. This deficiency is often attributed to the absence of localization cues in captions and the intertwined nature of the learning process, which encompasses both image representation learning and cross-modality alignment. To tackle these issues, we propose SimZSS, a Simple framework for open-vocabulary Zero-Shot Segmentation. The method is founded on two key principles: i) leveraging frozen vision-only models that exhibit spatial awareness while exclusively aligning the text encoder and ii) exploiting the discrete nature of text and linguistic knowledge to pinpoint local concepts within captions. By capitalizing on the quality of the visual representations, our method requires only image-caption pairs datasets and adapts to both small curated and large-scale noisy datasets. When trained on COCO Captions across 8 GPUs, SimZSS achieves state-of-the-art results on 7 out of 8 benchmark datasets in less than 15 minutes. | 翻訳日:2024-07-02 13:01:26 公開日:2024-07-01 |
# ファジィ注意に基づく肺臓器分離のための境界レンダリングネットワーク
Fuzzy Attention-based Border Rendering Network for Lung Organ Segmentation ( http://arxiv.org/abs/2406.16189v2 ) ライセンス: Link先を確認 | Sheng Zhang, Yang Nan, Yingying Fang, Shiyi Wang, Xiaodan Xing, Zhifan Gao, Guang Yang, | (参考訳) CT画像上の自動肺臓器分割は肺疾患の診断に不可欠である。
しかしながら、肺臓器のボクセル値とクラス不均衡は、高度な方法における偽陰性/陽性および漏れの問題を引き起こす可能性がある。
さらに、一部の細い肺臓器は、リサイクル/アップサンプル(例えば、気管支・動脈)の処置中に容易に消失し、深刻な不連続性を引き起こす。
そこで本研究では,Fizzy Attention-based Border Rendering (FABR) ネットワークと呼ばれる,効果的な肺臓器分割法を提案する。
ファジィ論理は特徴抽出の不確実性を扱うことができるため、深層ネットワークとファジィ集合の融合はより良い性能を実現するための有効な解である。
一方, FABRでは, 肺臓器領域を立方体ツリーとして表現し, リサイクルサンプリングされた境界脆弱性点のみに着目し, 新たなGlobal-Local Cube-tree Fusion (GLCF)モジュールで, 極めて不連続で偽陰性で陽性の臓器領域を描画する。
気道および動脈の4つの挑戦的データセットを用いた実験結果から,本手法が良好な性能を発揮することを示す。
Automatic lung organ segmentation on CT images is crucial for lung disease diagnosis. However, the unlimited voxel values and class imbalance of lung organs can lead to false-negative/positive and leakage issues in advanced methods. Additionally, some slender lung organs are easily lost during the recycled down/up-sample procedure, e.g., bronchioles & arterioles, causing severe discontinuity issue. Inspired by these, this paper introduces an effective lung organ segmentation method called Fuzzy Attention-based Border Rendering (FABR) network. Since fuzzy logic can handle the uncertainty in feature extraction, hence the fusion of deep networks and fuzzy sets should be a viable solution for better performance. Meanwhile, unlike prior top-tier methods that operate on all regular dense points, our FABR depicts lung organ regions as cube-trees, focusing only on recycle-sampled border vulnerable points, rendering the severely discontinuous, false-negative/positive organ regions with a novel Global-Local Cube-tree Fusion (GLCF) module. All experimental results, on four challenging datasets of airway & artery, demonstrate that our method can achieve the favorable performance significantly. | 翻訳日:2024-07-02 13:01:26 公開日:2024-07-01 |
# 3次元ノイズ発生とグラディエント一貫性モデリングによる幾何学的スコア蒸留
Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling ( http://arxiv.org/abs/2406.16695v2 ) ライセンス: Link先を確認 | Min-Seop Kwak, Donghoon Ahn, Ines Hyeonsu Kim, Jin-Hwa Kim, Seungryong Kim, | (参考訳) 事前学習した2次元拡散モデルのスコアを3次元表現に抽出する手法であるスコア蒸留サンプリング(SDS)は,最近,テキスト・ツー・3次元生成タスクにおいて大きな進歩をもたらした。
しかし、このアプローチはヤヌス問題のような批判的な幾何学的不整合問題に直面している。
このような不整合性問題は,様々な視点から予測される2Dスコア間のマルチビューの不整合によって引き起こされる可能性があるという仮説から出発し,3D一貫性を組み込むシンプルな汎用的なプラグイン・アンド・プレイフレームワークであるGSDをSDSプロセスに導入する。
提案手法は,標準ガウス分布に完全に従う3次元一貫したノイズマップを生成するために設計された3次元一貫したノイズマップ,異なる視点の予測勾配間の対応を識別する幾何に基づく勾配ワープ,より一貫した勾配を生成するためにシーン形状を最適化する新しい勾配補正の3成分から構成される。
提案手法は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合問題に対して,最小計算コストで対処し,既存のスコア蒸留モデルと互換性を持たせることにより,性能を著しく向上することを示した。
私たちのプロジェクトページはhttps://ku-cvlab.github.io/GSD/で公開されています。
Score distillation sampling (SDS), the methodology in which the score from pretrained 2D diffusion models is distilled into 3D representation, has recently brought significant advancements in text-to-3D generation task. However, this approach is still confronted with critical geometric inconsistency problems such as the Janus problem. Starting from a hypothesis that such inconsistency problems may be induced by multiview inconsistencies between 2D scores predicted from various viewpoints, we introduce GSD, a simple and general plug-and-play framework for incorporating 3D consistency and therefore geometry awareness into the SDS process. Our methodology is composed of three components: 3D consistent noising, designed to produce 3D consistent noise maps that perfectly follow the standard Gaussian distribution, geometry-based gradient warping for identifying correspondences between predicted gradients of different viewpoints, and novel gradient consistency loss to optimize the scene geometry toward producing more consistent gradients. We demonstrate that our method significantly improves performance, successfully addressing the geometric inconsistency problems in text-to-3D generation task with minimal computation cost and being compatible with existing score distillation-based models. Our project page is available at https://ku-cvlab.github.io/GSD/. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# 偏微分方程式に対するリフティング積フーリエニューラル演算子を用いた境界-領域マッピングの学習
Learning the boundary-to-domain mapping using Lifting Product Fourier Neural Operators for partial differential equations ( http://arxiv.org/abs/2406.16740v2 ) ライセンス: Link先を確認 | Aditya Kashi, Arka Daw, Muralikrishnan Gopalakrishnan Meena, Hao Lu, | (参考訳) フーリエニューラル演算子(FNO)のようなニューラル演算子は、関数空間間のマッピングを学習する解像度に依存しないディープラーニングモデルを提供することが示されている。
例えば、初期条件は、ニューラル作用素を用いて将来の時間ステップで偏微分方程式(PDE)の解にマッピングすることができる。
ニューラル作用素の人気にもかかわらず、境界上のデータ(空間的に変化するディリクレ境界条件など)のみを与えられた領域上での解関数の予測には未探索のままである。
本稿では,境界領域間問題,流体力学,固体力学,熱伝達などの分野に幅広く応用されている問題について述べる。
我々は、低次元境界上で定義された任意の境界関数を領域全体の解にマッピングできる新しいFNOベースのアーキテクチャ、Lifting Product FNO(LP-FNO)を提案する。
具体的には,低次元境界上に定義された2つのFNOを,提案した昇降積層を用いて高次元領域に持ち上げる。
2次元ポアソン方程式に対して提案したLP-FNOの有効性と分解能の独立性を実証する。
Neural operators such as the Fourier Neural Operator (FNO) have been shown to provide resolution-independent deep learning models that can learn mappings between function spaces. For example, an initial condition can be mapped to the solution of a partial differential equation (PDE) at a future time-step using a neural operator. Despite the popularity of neural operators, their use to predict solution functions over a domain given only data over the boundary (such as a spatially varying Dirichlet boundary condition) remains unexplored. In this paper, we refer to such problems as boundary-to-domain problems; they have a wide range of applications in areas such as fluid mechanics, solid mechanics, heat transfer etc. We present a novel FNO-based architecture, named Lifting Product FNO (or LP-FNO) which can map arbitrary boundary functions defined on the lower-dimensional boundary to a solution in the entire domain. Specifically, two FNOs defined on the lower-dimensional boundary are lifted into the higher dimensional domain using our proposed lifting product layer. We demonstrate the efficacy and resolution independence of the proposed LP-FNO for the 2D Poisson equation. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# Adam-mini: より少ない学習率でより多くのものを得る
Adam-mini: Use Fewer Learning Rates To Gain More ( http://arxiv.org/abs/2406.16793v4 ) ライセンス: Link先を確認 | Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun, | (参考訳) 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。
Adam-miniは、Adamの学習率リソースを削減してメモリを削減する(つまり、1/\sqrt{v}$)。
これらの学習率の90%を$v$で$\geq$とすると、(1)ヘッセン構造に関する提案した原理に従って、パラメータをブロックに慎重に分割し、(2)各パラメータブロックに1つのよい学習率を割り当てれば、無害に除去できることがわかった。
さらに、これらのパラメータブロックのそれぞれに対して、Adamより優れた1つの高品質の学習率が存在し、検索に十分なリソースが確保できることが分かりました。
次に、優れた学習率を見つけるためのコスト効率のよい方法を提供し、Adam-miniを提案する。
実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。
Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。
例えば、Adam-miniは、Llama2-7Bを2\times$ A800-80GBで事前トレーニングする際にAdamWよりも49.6%高いスループットを達成した。
We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources in Adam (i.e., $1/\sqrt{v}$). We find that $\geq$ 90% of these learning rates in $v$ could be harmlessly removed if we (1) carefully partition the parameters into blocks following our proposed principle on Hessian structure; (2) assign a single but good learning rate to each parameter block. We further find that, for each of these parameter blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. We then provide one cost-effective way to find good learning rates and propose Adam-mini. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on $2\times$ A800-80GB GPUs, which saves 33% wall-clock time for pre-training. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# 言語から視覚への長期的文脈伝達
Long Context Transfer from Language to Vision ( http://arxiv.org/abs/2406.16852v2 ) ライセンス: Link先を確認 | Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu, | (参考訳) ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
多くの研究は、ビジュアルリサンプラーを使用して視覚トークンの数を減らすことでこの問題に対処している。
本稿では,言語モデルの観点から,この問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
我々はこの現象を長期の文脈伝達と呼び、その特性を慎重に改善する。
視覚モダリティにおけるLMMの長期文脈への一般化能力を効果的に測定するために,言語モデルのNIAHテストにインスパイアされた純粋に合成された長視野ベンチマークであるV-NIAH(Visual Needle-In-A-Haystack)を開発した。
提案するLong Video Assistant(LongVA)は,2000フレーム以上を処理できる。
コンテキスト長が拡張されたLongVAは、7Bスケールモデルにおいて、より多くの入力フレームを高密度にサンプリングすることで、ビデオMMEの最先端性能を実現する。
私たちの研究はhttps://github.com/EvolvingLMMs-Lab/LongVAで公開されています。
Video sequences offer valuable temporal information, but existing large multimodal models (LMMs) fall short in understanding extremely long videos. Many works address this by reducing the number of visual tokens using visual resamplers. Alternatively, in this paper, we approach this problem from the perspective of the language model. By simply extrapolating the context length of the language backbone, we enable LMMs to comprehend orders of magnitude more visual tokens without any video training. We call this phenomenon long context transfer and carefully ablate its properties. To effectively measure LMMs' ability to generalize to long contexts in the vision modality, we develop V-NIAH (Visual Needle-In-A-Haystack), a purely synthetic long vision benchmark inspired by the language model's NIAH test. Our proposed Long Video Assistant (LongVA) can process 2000 frames or over 200K visual tokens without additional complexities. With its extended context length, LongVA achieves state-of-the-art performance on Video-MME among 7B-scale models by densely sampling more input frames. Our work is open-sourced at https://github.com/EvolvingLMMs-Lab/LongVA. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# 大規模言語モデルは、人々が実際より合理的であると仮定する
Large Language Models Assume People are More Rational than We Really are ( http://arxiv.org/abs/2406.17055v2 ) ライセンス: Link先を確認 | Ryan Liu, Jiayi Geng, Joshua C. Peterson, Ilia Sucholutsky, Thomas L. Griffiths, | (参考訳) AIシステムが人々と効果的にコミュニケーションするためには、意思決定方法を理解する必要があります。
しかし、人々の決定は必ずしも合理的であるとは限らないので、Large Language Models (LLM)における人間の意思決定の暗黙の内的モデルが、これを考慮しなければならない。
これまでの実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようだ。
しかし、LLMの振る舞いと予測を人間の意思決定の大きなデータセットと比較すると、実際にはそうではないことが分かる。人々の選択をシミュレートし、予測する場合、最先端のLCM(GPT-4o、4-Turbo、Llama-3-8B、70B、Claude 3 Opus)のスイートは、人々が実際よりも合理的であると仮定する。
具体的には、これらのモデルは人間の行動から逸脱し、合理的選択の古典的なモデルである期待値理論とより密接に一致します。
興味深いことに、他人の振る舞いを解釈するとき、他人が合理的であると仮定する傾向がある。
その結果、LLMと人々が他の心理的データセットを用いて他人の判断から引き出す推論を比較すると、これらの推論は高い相関関係があることが判明した。
したがって、LCMの暗黙的な意思決定モデルは、人々が実際にどのように行動するかではなく、他の人が合理的に行動するという人間の期待と一致しているように見える。
In order for AI systems to communicate effectively with people, they must understand how we make decisions. However, people's decisions are not always rational, so the implicit internal models of human decision-making in Large Language Models (LLMs) must account for this. Previous empirical evidence seems to suggest that these implicit models are accurate -- LLMs offer believable proxies of human behavior, acting how we expect humans would in everyday interactions. However, by comparing LLM behavior and predictions to a large dataset of human decisions, we find that this is actually not the case: when both simulating and predicting people's choices, a suite of cutting-edge LLMs (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) assume that people are more rational than we really are. Specifically, these models deviate from human behavior and align more closely with a classic model of rational choice -- expected value theory. Interestingly, people also tend to assume that other people are rational when interpreting their behavior. As a consequence, when we compare the inferences that LLMs and people draw from the decisions of others using another psychological dataset, we find that these inferences are highly correlated. Thus, the implicit decision-making models of LLMs appear to be aligned with the human expectation that other people will act rationally, rather than with how people actually act. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# ammBoost: AMMのための状態成長制御
ammBoost: State Growth Control for AMMs ( http://arxiv.org/abs/2406.17094v2 ) ライセンス: Link先を確認 | Nicholas Michel, Mohamed E. Najd, Ghada Almashaqbeh, | (参考訳) AMM(Automated Marketmaker)は、分散型暗号通貨取引所の一種であり、分散金融(DeFi)アプリケーションの主要な例と考えられている。
その人気と高いトレーディング活動により、数百万のオンチェーントランザクションが深刻なスケーラビリティの問題を引き起こしました。
本稿では,新しいサイドチェーンアーキテクチャをレイヤ2ソリューションとして利用し,AmmBoostと呼ばれるシステムを構築することで,AMMのオンチェーンストレージオーバーヘッド問題に対処する。
私たちのシステムは、オンチェーントランザクションの量を削減し、スループットを向上し、ブロックチェーンプルーニングをサポートします。
我々は,基盤となるAMMの正当性とセキュリティを維持しつつ,AMMのレイヤ2処理を可能にするいくつかの手法を考案した。
また、Unixwapにインスパイアされたユースケースに対して、AmmBoostの概念実証を作成し、その性能を実証的に評価する。
実験の結果,AmmBoostはガスコストを94.53%削減し,少なくとも80%削減できることがわかった。
Automated market makers (AMMs) are a form of decentralized cryptocurrency exchanges and considered a prime example of Decentralized Finance (DeFi) applications. Their popularity and high trading activity have resulted in millions of on-chain transactions leading to serious scalability issues. In this paper, we address the on-chain storage overhead problem of AMMs by utilizing a new sidechain architecture as a layer 2 solution, building a system called ammBoost. Our system reduces the amount of on-chain transactions, boosts throughput, and supports blockchain pruning. We devise several techniques to enable layer 2 processing for AMMs while preserving correctness and security of the underlying AMM. We also build a proof-of-concept of ammBoost for a Uniswap-inspired use case to empirically evaluate its performance. Our experiments show that ammBoost decreases the gas cost by 94.53% and the chain growth by at least 80%, and that it can support up to 500x of the daily traffic volume observed for Uniswap in practice. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# 言語モデルにおけるメンタル状態表現のベンチマーク
Benchmarking Mental State Representations in Language Models ( http://arxiv.org/abs/2406.17513v2 ) ライセンス: Link先を確認 | Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling, | (参考訳) 言語モデル(LM)は、心の理論の推論を必要とするタスクにおいて、多くの研究が生成性能を評価してきたが、モデルの内部的な精神状態の表現に関する研究は依然として限られている。
最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。
しかし、これらの主張には限定的な評価が伴い、モデル設計とトレーニング選択によって精神状態がどう影響するかを評価することは困難である。
本報告では,様々なモデルサイズ,微調整アプローチ,知的状態表現のロバスト性や,プローブ内の暗記問題などについて検討する設計を促すため,様々なLMタイプを用いた広範囲なベンチマークを報告する。
以上の結果から,他者の信念に対するモデルの内部表現の質は,モデルのサイズによって向上し,さらに重要なことは微調整によって向上することが示唆された。
我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。
モデル表現は、たとえそのようなバリエーションが有益であるとしても、迅速な変動に敏感であることを示す。
最後に、マインド理論における過去のアクティベーション編集実験を補完し、プローブを訓練することなく、それらのアクティベーションを操ることで、モデルの推論性能を向上させることができることを示す。
While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by limited evaluation, making it difficult to assess how mental state representations are affected by model design and training choices. We report an extensive benchmark with various LM types with different model sizes, fine-tuning approaches, and prompt designs to study the robustness of mental state representations and memorisation issues within the probes. Our results show that the quality of models' internal representations of the beliefs of others increases with model size and, more crucially, with fine-tuning. We are the first to study how prompt variations impact probing performance on theory of mind tasks. We demonstrate that models' representations are sensitive to prompt variations, even when such variations should be beneficial. Finally, we complement previous activation editing experiments on Theory of Mind tasks and show that it is possible to improve models' reasoning performance by steering their activations without the need to train any probe. | 翻訳日:2024-07-02 12:51:40 公開日:2024-07-01 |
# ViANLI: ベトナムの敵対的自然言語推論
ViANLI: Adversarial Natural Language Inference for Vietnamese ( http://arxiv.org/abs/2406.17716v2 ) ライセンス: Link先を確認 | Tin Van Huynh, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, | (参考訳) 自然言語処理(NLI)データセットとモデルの開発は、アノテーション設計の革新に触発されている。
今日、機械学習モデルが急速に発展し、既存の機械学習モデルの性能は、自然言語の推論タスクを含む自然言語処理に関連するさまざまなタスクに関する最先端の結果に急速に到達した。
アノテーションプロセス中に事前学習されたモデルを使用することで、人間に機械モデルでは正しく予測できない前提-仮説の組み合わせを作らせることで、現在のNLIモデルに挑戦することができる。
ベトナム語に対する自然言語推論の研究において、魅力的かつ挑戦的であり続けるために、本稿では、NLP研究コミュニティに、VANLIという名の逆NLIデータセットを導入する。
このデータセットは、10K以上の前提-仮説ペアを含み、アノテータが生成するパターンの最も多くを得るために、継続的な調整プロセスによって構築される。
ViANLIデータセットは、テストセット上で最も強力なモデルの精度が48.4%に達すると、多くの現在のSOTAモデルに多くの困難をもたらした。
さらに,実験結果から,我々のデータセットでトレーニングしたモデルがベトナムの他のNLIデータセットよりも大幅に改善したことが明らかとなった。
The development of Natural Language Processing (NLI) datasets and models has been inspired by innovations in annotation design. With the rapid development of machine learning models today, the performance of existing machine learning models has quickly reached state-of-the-art results on a variety of tasks related to natural language processing, including natural language inference tasks. By using a pre-trained model during the annotation process, it is possible to challenge current NLI models by having humans produce premise-hypothesis combinations that the machine model cannot correctly predict. To remain attractive and challenging in the research of natural language inference for Vietnamese, in this paper, we introduce the adversarial NLI dataset to the NLP research community with the name ViANLI. This data set contains more than 10K premise-hypothesis pairs and is built by a continuously adjusting process to obtain the most out of the patterns generated by the annotators. ViANLI dataset has brought many difficulties to many current SOTA models when the accuracy of the most powerful model on the test set only reached 48.4%. Additionally, the experimental results show that the models trained on our dataset have significantly improved the results on other Vietnamese NLI datasets. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# EgoVideo:エゴセントリックなファンデーションモデルと下流適応を探る
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation ( http://arxiv.org/abs/2406.18070v4 ) ライセンス: Link先を確認 | Baoqi Pei, Guo Chen, Jilan Xu, Yuping He, Yicheng Liu, Kanghua Pan, Yifei Huang, Yali Wang, Tong Lu, Limin Wang, Yu Qiao, | (参考訳) 本稿では,Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックを含む,CVPR 2024におけるEgoVisチャレンジに対するソリューションを提案する。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
Ego4Dの課題では、自然言語クェリ、ステップグラウンド、モーメントクェリ、短期オブジェクトインタラクション予測、長期アクション予測といった様々なタスクに取り組みます。
また、EPIC-Kitchensチャレンジにも参加し、Action Recognition、Multiple Instance Retrieval、Domain Adaptation for Action Recognitionのトラックに取り組みます。
これらの多様なタスクにEgoVideoを適用することで、EgoVideoの強力な表現能力をエゴセントリック基盤モデルとして示すとともに、エゴセントリックなさまざまなビデオ分析シナリオにおいて、その汎用性と有効性を示す。
私たちのコードベースと事前トレーニングされたモデルは、https://github.com/OpenGVLab/EgoVideoで公開されています。
In this report, we present our solutions to the EgoVis Challenges in CVPR 2024, including five tracks in the Ego4D challenge and three tracks in the EPIC-Kitchens challenge. Building upon the video-language two-tower model and leveraging our meticulously organized egocentric video data, we introduce a novel foundation model called EgoVideo. This model is specifically designed to cater to the unique characteristics of egocentric videos and provides strong support for our competition submissions. In the Ego4D challenges, we tackle various tasks including Natural Language Queries, Step Grounding, Moment Queries, Short-term Object Interaction Anticipation, and Long-term Action Anticipation. In addition, we also participate in the EPIC-Kitchens challenge, where we engage in the Action Recognition, Multiple Instance Retrieval, and Domain Adaptation for Action Recognition tracks. By adapting EgoVideo to these diverse tasks, we showcase its versatility and effectiveness in different egocentric video analysis scenarios, demonstrating the powerful representation ability of EgoVideo as an egocentric foundation model. Our codebase and pretrained models are publicly available at https://github.com/OpenGVLab/EgoVideo. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# VIPriors 4: データ効率のよいディープラーニングのためのビジュアルインダクティブプライオリティ
VIPriors 4: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2406.18176v2 ) ライセンス: Link先を確認 | Robert-Jan Bruintjes, Attila Lengyel, Marcos Baptista Rios, Osman Semih Kayhan, Davide Zambrano, Nergis Tomen, Jan van Gemert, | (参考訳) VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning”ワークショップの第4版では、2つのデータ不足の課題が紹介されている。
これらの課題は、限られたデータでコンピュータビジョンタスクのディープラーニングモデルをトレーニングする際の問題に対処する。
参加者は、少ない数のトレーニングサンプルを使用してスクラッチからトレーニングモデルに制限され、転送学習のいかなる形式も使用できない。
深層学習モデルのデータ効率を向上させるために,帰納的バイアスを取り入れた新しい手法の開発を促進することを目的としている。
与えられたベースラインと比較して、勝利のソリューションがベースラインを超え、両方のタスクでかなりのマージンを突破する、重要な進歩がなされている。
以前の版と同様に、これらの成果は主にデータ拡張ポリシーの多用と大規模なモデルアンサンブルによるものであるが、新しい事前ベース手法は、昨年と比較してソリューションの成功に寄与しているようだ。
このレポートは、課題とその成果のキーとなる側面を強調します。
The fourth edition of the "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" workshop features two data-impaired challenges. These challenges address the problem of training deep learning models for computer vision tasks with limited data. Participants are limited to training models from scratch using a low number of training samples and are not allowed to use any form of transfer learning. We aim to stimulate the development of novel approaches that incorporate inductive biases to improve the data efficiency of deep learning models. Significant advancements are made compared to the provided baselines, where winning solutions surpass the baselines by a considerable margin in both tasks. As in previous editions, these achievements are primarily attributed to heavy use of data augmentation policies and large model ensembles, though novel prior-based methods seem to contribute more to successful solutions compared to last year. This report highlights the key aspects of the challenges and their outcomes. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# KAGNNs: Kolmogorov-Arnold Networksがグラフ学習に対応
KAGNNs: Kolmogorov-Arnold Networks meet Graph Learning ( http://arxiv.org/abs/2406.18380v2 ) ライセンス: Link先を確認 | Roman Bresson, Giannis Nikolentzos, George Panagopoulos, Michail Chatzianastasis, Jun Pang, Michalis Vazirgiannis, | (参考訳) 近年,グラフニューラルネットワーク(GNN)は,ノードやグラフ表現を学習するためのデファクトツールとなっている。
ほとんどのGNNは、概して近隣のアグリゲーション層(すなわちメッセージパッシング層)で構成されている。
これらの各層の中で、各ノードの表現は、前層の隣り合う表現の集約と変換から更新される。
メッセージパッシングGNNの表現力の上限は、その普遍的な近似能力のため、MLPを変換として使用することで達成された。
しかし、MLPはよく知られた制限に悩まされ、最近KAN(Kolmogorov-Arnold Networks)を導入した。
カンはコルモゴロフ=アルノルドの表現定理に依存しており、MLPの代替として有望である。
本研究では,グラフ学習タスクにおけるKansの性能とMLPの性能を比較した。
ノード分類、グラフ分類、グラフ回帰データセットについて広範な実験を行う。
予備的な結果から,kan は分類タスクにおいて MLP と同等であるが,グラフ回帰タスクにおいて明らかな優位性を持っていることが示唆された。
コードはhttps: //github.com/RomanBresson/KAGNNで入手できる。
In recent years, Graph Neural Networks (GNNs) have become the de facto tool for learning node and graph representations. Most GNNs typically consist of a sequence of neighborhood aggregation (a.k.a., message passing) layers. Within each of these layers, the representation of each node is updated from an aggregation and transformation of its neighbours representations at the previous layer. The upper bound for the expressive power of message passing GNNs was reached through the use of MLPs as a transformation, due to their universal approximation capabilities. However, MLPs suffer from well-known limitations, which recently motivated the introduction of Kolmogorov-Arnold Networks (KANs). KANs rely on the Kolmogorov-Arnold representation theorem, rendering them a promising alternative to MLPs. In this work, we compare the performance of KANs against that of MLPs in graph learning tasks. We perform extensive experiments on node classification, graph classification and graph regression datasets. Our preliminary results indicate that while KANs are on-par with MLPs in classification tasks, they seem to have a clear advantage in the graph regression tasks. Code is available at https: //github.com/RomanBresson/KAGNN. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# 低SNR環境下でのロバストな低コストドローン検出と分類
Robust Low-Cost Drone Detection and Classification in Low SNR Environments ( http://arxiv.org/abs/2406.18624v2 ) ライセンス: Link先を確認 | Stefan Glüge, Matthias Nyfeler, Ahmad Aghaebrahimian, Nicola Ramagnano, Christof Schüpbach, | (参考訳) 無人航空機(UAV)の拡散は、スパイ活動、密輸、インフラ破壊などの活動で誤用される可能性があるため、重大な安全上の懸念を引き起こしている。
本稿では,UAV協力とは無関係に機能する効果的なドローン検知・分類システムの必要性について論じる。
信号成分の連続フーリエ変換から導かれるスペクトルデータを用いて、様々な畳み込みニューラルネットワーク(CNN)を検出・分類する能力について評価した。
その焦点は、SNR(low signal-to-noise ratio)環境におけるモデルロバスト性であり、これは現実世界のアプリケーションにとって重要なものである。
将来のモデル開発をサポートするために、包括的なデータセットが提供される。
さらに,ソフトウェア定義無線(SDR)とアンテナを用いた低コストなドローン検知システムを実世界のフィールドテストにより検証した。
開発データセットでは,SNR > -12dB で平均平衡分類精度 >= 85% を達成した。
フィールドテストでは、送信機距離とアンテナ方向に応じて平均バランス精度が80%まで向上した。
我々の貢献は、モデル開発のための公開データセット、低SNR条件下でのドローン検出のためのCNNの比較分析、実用的な低コスト検出システムの展開とフィールド評価である。
The proliferation of drones, or unmanned aerial vehicles (UAVs), has raised significant safety concerns due to their potential misuse in activities such as espionage, smuggling, and infrastructure disruption. This paper addresses the critical need for effective drone detection and classification systems that operate independently of UAV cooperation. We evaluate various convolutional neural networks (CNNs) for their ability to detect and classify drones using spectrogram data derived from consecutive Fourier transforms of signal components. The focus is on model robustness in low signal-to-noise ratio (SNR) environments, which is critical for real-world applications. A comprehensive dataset is provided to support future model development. In addition, we demonstrate a low-cost drone detection system using a standard computer, software-defined radio (SDR) and antenna, validated through real-world field testing. On our development dataset, all models consistently achieved an average balanced classification accuracy of >= 85% at SNR > -12dB. In the field test, these models achieved an average balance accuracy of > 80%, depending on transmitter distance and antenna direction. Our contributions include: a publicly available dataset for model development, a comparative analysis of CNN for drone detection under low SNR conditions, and the deployment and field evaluation of a practical, low-cost detection system. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# 言語モデルにおける著作権削除手法の評価
Evaluating Copyright Takedown Methods for Language Models ( http://arxiv.org/abs/2406.18664v2 ) ライセンス: Link先を確認 | Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang, Luke Zettlemoyer, Kai Li, Peter Henderson, | (参考訳) 言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
これらのモデルはトレーニングデータと同様のコンテンツを記憶し、生成することができ、潜在的な懸念を呈する。
そのため、モデル作成者は、保護されたコンテンツの生成を防ぐための緩和手法を開発する動機がある。
本稿では,本手法を,DMCAの取扱いと概念的類似性(ただし法的な相違)に言及し,本手法をLMの著作権取下げの実施可能性と副作用の最初の評価として紹介する。
本稿では,著作権削除手法の有効性を評価するための評価フレームワークであるCoTaEvalを提案する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
以上の結果から,テスト手法が全指標に及ばないことが示唆され,この独特な課題について研究する余地が示され,生活政策提案の未解決課題の可能性も示唆された。
Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model's ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# 反射透過型フォトペアを用いた織物の捕集
Woven Fabric Capture with a Reflection-Transmission Photo Pair ( http://arxiv.org/abs/2406.19398v2 ) ライセンス: Link先を確認 | Yingjie Tang, Zixuan Li, Miloš Hašan, Jian Yang, Beibei Wang, | (参考訳) 織布のデジタル化は、デジタル人間からインテリアデザインまで、多くの用途に有用だろう。
従来の研究は、単一の反射画像をキャプチャして、微分可能な幾何学的およびシェーディングモデルを用いて布パラメータを推定することにより、軽量な織物取得手法を導入している。
推定されたファブリックパラメータのレンダリングは、写真と密接に一致させることができるが、キャプチャされた反射像は、ファブリックサンプル反射率を完全に特徴づけるには不十分である。
例えば、厚みが異なる布地は、同様の反射像を持つが、透過率が大きく異なる。
本稿では,2枚の画像から織布のパラメータを復元することを提案する。
本手法のコアとなるのは、単一散乱と多重散乱を含む反射と透過を扱う、微分可能な双方向散乱分布関数(BSDF)モデルである。
単層散乱はSGGX位相関数を用い,複数層散乱はASGGXと呼ばれる新しい方位不変マイクロフレーク定義を用いる2層モデルを提案する。
この新しいファブリックBSDFモデルは、反射と透過の両方において実際の織物と密に一致している。
携帯電話カメラと2点灯で反射・透過写真を撮影し、軽量ネットワークを介して布のパラメータを推定する。
また、細いレンズのカメラにマッチする簡単なソリューションで、アウト・オブ・フォーカス効果を明示的にモデル化します。
その結果、推定パラメータのレンダリングは、初めて反射と透過の両方の入力画像と一致する。
本論文のコードはhttps://github.com/lxtyin/FabricBTDF-Recoveryにある。
Digitizing woven fabrics would be valuable for many applications, from digital humans to interior design. Previous work introduces a lightweight woven fabric acquisition approach by capturing a single reflection image and estimating the fabric parameters with a differentiable geometric and shading model. The renderings of the estimated fabric parameters can closely match the photo; however, the captured reflection image is insufficient to fully characterize the fabric sample reflectance. For instance, fabrics with different thicknesses might have similar reflection images but lead to significantly different transmission. We propose to recover the woven fabric parameters from two captured images: reflection and transmission. At the core of our method is a differentiable bidirectional scattering distribution function (BSDF) model, handling reflection and transmission, including single and multiple scattering. We propose a two-layer model, where the single scattering uses an SGGX phase function as in previous work, and multiple scattering uses a new azimuthally-invariant microflake definition, which we term ASGGX. This new fabric BSDF model closely matches real woven fabrics in both reflection and transmission. We use a simple setup for capturing reflection and transmission photos with a cell phone camera and two point lights, and estimate the fabric parameters via a lightweight network, together with a differentiable optimization. We also model the out-of-focus effects explicitly with a simple solution to match the thin-lens camera better. As a result, the renderings of the estimated parameters can agree with the input images on both reflection and transmission for the first time. The code for this paper is at https://github.com/lxtyin/FabricBTDF-Recovery. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# YOLOv10の創世記
YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once Series ( http://arxiv.org/abs/2406.19407v2 ) ライセンス: Link先を確認 | Ranjan Sapkota, Rizwan Qureshi, Marco Flores Calero, Chetan Badjugar, Upesh Nepal, Alwin Poulose, Peter Zeno, Uday Bhanu Prakash Vaddevolu, Hong Yan, Manoj Karkee, | (参考訳) このレビューは、YOLOv1から最近公開されたYOLOv10までの、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進歩を体系的に検証する。
逆時間解析を用いて, YOLOv10からYOLOv9, YOLOv8, その後のバージョンを経由し, リアルタイム物体検出における速度, 精度, 計算効率の向上に寄与する各バージョンについて検討した。
この研究は、自動車安全、医療、工業製造、監視、農業の5つの重要な分野におけるYOLOの変革的な影響を強調している。
後続のYOLOバージョンにおける段階的な技術的進歩を詳述することにより、このレビューはYOLOの進化を詳述し、各以前のバージョンにおける課題と限界について論じる。
この進化は、今後10年間、YOLOをマルチモーダル、コンテキスト認識、一般人工知能(AGI)システムに統合する道のりを示している。
This review systematically examines the progression of the You Only Look Once (YOLO) object detection algorithms from YOLOv1 to the recently unveiled YOLOv10. Employing a reverse chronological analysis, this study examines the advancements introduced by YOLO algorithms, beginning with YOLOv10 and progressing through YOLOv9, YOLOv8, and subsequent versions to explore each version's contributions to enhancing speed, accuracy, and computational efficiency in real-time object detection. The study highlights the transformative impact of YOLO across five critical application areas: automotive safety, healthcare, industrial manufacturing, surveillance, and agriculture. By detailing the incremental technological advancements in subsequent YOLO versions, this review chronicles the evolution of YOLO, and discusses the challenges and limitations in each earlier versions. The evolution signifies a path towards integrating YOLO with multimodal, context-aware, and General Artificial Intelligence (AGI) systems for the next YOLO decade, promising significant implications for future developments in AI-driven applications. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# BMW Agents - マルチエージェントコラボレーションによるタスク自動化フレームワーク
BMW Agents -- A Framework For Task Automation Through Multi-Agent Collaboration ( http://arxiv.org/abs/2406.20041v2 ) ライセンス: Link先を確認 | Noel Crawford, Edward B. Duffy, Iman Evazzade, Torsten Foehr, Gregory Robbins, Debbrata Kumar Saha, Jiya Varma, Marcin Ziolkowski, | (参考訳) LLM(Large Language Models)によって駆動される自律エージェントは、自動化に巨大な可能性を秘めている。
この技術の初期の証明は、複雑なタスクを解決し、外部システムと対話して知識を増強し、アクションをトリガーするエージェントの様々なデモンストレーションで見ることができる。
特に、複数のエージェントが複雑なタスクを協調的に解決するワークフローは、より厳格で明確な環境での運用能力を実証している。
このように、マルチエージェントアプローチは、複雑な知識検索システムから次世代のロボットプロセス自動化まで、多くの産業アプリケーションにおいてバックボーンとして機能する大きな可能性を秘めている。
現在のLLMの世代における推論能力を考えると、複雑なプロセスは、明確に定義されたモジュラータスクの計画を含む多段階のアプローチを必要とする。
複雑さのレベルによって、これらのタスクは単一のエージェントまたはエージェントのグループによって実行される。
本研究では、計画と実行に注意を払ってフレキシブルなエージェントエンジニアリングフレームワークを設計することに焦点を当て、様々なドメインにわたる複雑なユースケースアプリケーションを扱うことができる。
提案するフレームワークは、産業用アプリケーションの信頼性を提供し、複数の自律エージェントがタスクの解決に向けて協力して作業するためのスケーラブルでフレキシブルで協調的なワークフローを保証するためのテクニックを提供する。
Autonomous agents driven by Large Language Models (LLMs) offer enormous potential for automation. Early proof of this technology can be found in various demonstrations of agents solving complex tasks, interacting with external systems to augment their knowledge, and triggering actions. In particular, workflows involving multiple agents solving complex tasks in a collaborative fashion exemplify their capacity to operate in less strict and less well-defined environments. Thus, a multi-agent approach has great potential for serving as a backbone in many industrial applications, ranging from complex knowledge retrieval systems to next generation robotic process automation. Given the reasoning abilities within the current generation of LLMs, complex processes require a multi-step approach that includes a plan of well-defined and modular tasks. Depending on the level of complexity, these tasks can be executed either by a single agent or a group of agents. In this work, we focus on designing a flexible agent engineering framework with careful attention to planning and execution, capable of handling complex use case applications across various domains. The proposed framework provides reliability in industrial applications and presents techniques to ensure a scalable, flexible, and collaborative workflow for multiple autonomous agents working together towards solving tasks. | 翻訳日:2024-07-02 12:41:53 公開日:2024-07-01 |
# RouteLLM: 優先度データによるLLMの経路学習
RouteLLM: Learning to Route LLMs with Preference Data ( http://arxiv.org/abs/2406.18665v2 ) ライセンス: Link先を確認 | Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica, | (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択には、パフォーマンスとコストのトレードオフが伴うことが多い。
より強力なモデルは効果的ではあるが、高いコストが伴うが、能力の低いモデルはよりコスト効率が良い。
このジレンマに対処するため,提案手法では,コストと応答品質のバランスを最適化することを目的として,推論中に強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
評価の結果,提案手法は応答の質を損なうことなく,特定のケースで2倍以上のコスト削減を実現していることがわかった。
興味深いことに、我々のルータモデルは、テスト時に強いモデルと弱いモデルが変更されても、大きな転送学習能力を示し、その性能を維持します。
このことは、これらのルータがLCMをデプロイするためのコスト効率は高く、高性能なソリューションを提供する可能性を強調している。
Large language models (LLMs) exhibit impressive capabilities across a wide range of tasks, yet the choice of which model to use often involves a trade-off between performance and cost. More powerful models, though effective, come with higher expenses, while less capable models are more cost-effective. To address this dilemma, we propose several efficient router models that dynamically select between a stronger and a weaker LLM during inference, aiming to optimize the balance between cost and response quality. We develop a training framework for these routers leveraging human preference data and data augmentation techniques to enhance performance. Our evaluation on widely-recognized benchmarks shows that our approach significantly reduces costs-by over 2 times in certain cases-without compromising the quality of responses. Interestingly, our router models also demonstrate significant transfer learning capabilities, maintaining their performance even when the strong and weak models are changed at test time. This highlights the potential of these routers to provide a cost-effective yet high-performance solution for deploying LLMs. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# ASCENT: 学習とモンテカルロ木探索によるパワーサイドチャネルレジリエンスの増幅
ASCENT: Amplifying Power Side-Channel Resilience via Learning & Monte-Carlo Tree Search ( http://arxiv.org/abs/2406.19549v2 ) ライセンス: Link先を確認 | Jitendra Bhandari, Animesh Basak Chowdhury, Mohammed Nabeel, Ozgur Sinanoglu, Siddharth Garg, Ramesh Karri, Johann Knechtel, | (参考訳) パワーサイドチャネル (PSC) 解析は、暗号ハードウェアのセキュア化に重要である。
以前の技術では、チップ設計自動化から得られるゲートレベルのネットリストの確保に重点を置いており、設計自動化プロセスから生じるセキュリティの複雑さと潜在的な副作用をすべて無視していた。
つまり、自動化は伝統的にパワー、パフォーマンス、およびエリア(PPA)を優先し、セキュリティをサイドラインする。
我々は,PSC対策の全体的レジリエンスを高めるため,論理合成段階を改良する「セキュリティファースト」アプローチを提案する。
私たちはASCENTという学習と探索に基づくフレームワークを紹介します。
一 設計後PSC評価の時間を大幅に短縮し、
(ii)Security-vs-PPA設計空間を探求する。
したがって、ASCENTは多数の候補ネットリストの効率的な探索を可能にし、通常のPA最適化ネットリストと比較してPSCレジリエンスが改善される。
ASCENTは従来のPSC分析より120倍高速で、最先端PSC対策のPSCレジリエンスは3.11倍向上する
Power side-channel (PSC) analysis is pivotal for securing cryptographic hardware. Prior art focused on securing gate-level netlists obtained as-is from chip design automation, neglecting all the complexities and potential side-effects for security arising from the design automation process. That is, automation traditionally prioritizes power, performance, and area (PPA), sidelining security. We propose a "security-first" approach, refining the logic synthesis stage to enhance the overall resilience of PSC countermeasures. We introduce ASCENT, a learning-and-search-based framework that (i) drastically reduces the time for post-design PSC evaluation and (ii) explores the security-vs-PPA design space. Thus, ASCENT enables an efficient exploration of a large number of candidate netlists, leading to an improvement in PSC resilience compared to regular PPA-optimized netlists. ASCENT is up to 120x faster than traditional PSC analysis and yields a 3.11x improvement for PSC resilience of state-of-the-art PSC countermeasures | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# 深層クラスタリングに関する調査--先見的視点から
A Survey on Deep Clustering: From the Prior Perspective ( http://arxiv.org/abs/2406.19602v2 ) ライセンス: Link先を確認 | Yiding Lu, Haobin Li, Yunfan Li, Yijie Lin, Xi Peng, | (参考訳) ニューラルネットワークの強力な特徴抽出能力によって実現されたディープクラスタリングは、高次元および複雑な実世界のデータを分析する上で大きな成功を収めた。
深層クラスタリング手法の性能は,ネットワーク構造や学習目標など,さまざまな要因に影響される。
しかし、本調査で指摘されているように、深層クラスタリングの本質は、従来の知識の取り込みと活用にある。
データ構造仮定に基づくディープクラスタリング手法の先駆的な開発から、データ拡張不変性に基づく最近のコントラストクラスタリング手法に至るまで、ディープクラスタリングの開発は本質的に、過去の知識の進化と一致する。
本稿では,これらを6種類の事前知識に分類することで,深層クラスタリング手法の総合的なレビューを行う。
一般的に、以前のイノベーションは2つのトレンド、すなわち2つのトレンドに従っている。
一 鉱業から建設まで、及び
ii) 内部から外部へ
さらに、広く使われている5つのデータセットのベンチマークを提供し、様々な先行してメソッドのパフォーマンスを分析する。
新たな事前知識の視点を提供することで、この調査がいくつかの新しい洞察を与え、深層クラスタリングコミュニティにおける将来の研究を刺激することを期待します。
Facilitated by the powerful feature extraction ability of neural networks, deep clustering has achieved great success in analyzing high-dimensional and complex real-world data. The performance of deep clustering methods is affected by various factors such as network structures and learning objectives. However, as pointed out in this survey, the essence of deep clustering lies in the incorporation and utilization of prior knowledge, which is largely ignored by existing works. From pioneering deep clustering methods based on data structure assumptions to recent contrastive clustering methods based on data augmentation invariances, the development of deep clustering intrinsically corresponds to the evolution of prior knowledge. In this survey, we provide a comprehensive review of deep clustering methods by categorizing them into six types of prior knowledge. We find that in general the prior innovation follows two trends, namely, i) from mining to constructing, and ii) from internal to external. Besides, we provide a benchmark on five widely-used datasets and analyze the performance of methods with diverse priors. By providing a novel prior knowledge perspective, we hope this survey could provide some novel insights and inspire future research in the deep clustering community. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# 人間の嗜好を超えて:LLMによる強化学習の軌道評価と改善を探る
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs ( http://arxiv.org/abs/2406.19644v2 ) ライセンス: Link先を確認 | Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li, | (参考訳) 強化学習(RL)は、包括的かつ正確な報酬関数を設計することの難しさから、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題に直面している。
この固有の困難さは、様々な制約によって特徴づけられるゲーム環境におけるRLの広範な適用を困難にしている。
嗜好に基づく強化学習(PbRL)は、人間の嗜好を重要な報酬信号として活用する先駆的な枠組みを示し、巧妙な報酬工学の必要性を回避する。
しかし、人間の専門家から選好データを得るのは費用がかかり非効率であり、特に複雑な制約によって特徴づけられる条件下では。
この課題に対処するため, LLM4PG と呼ばれる LLM 対応自動選好生成フレームワークを提案する。
複雑な言語制約を伴うタスクの実験では、LLM対応報酬関数の有効性、RL収束の促進、元の報酬構造下での遅滞や欠落による停滞の克服が示された。
このアプローチは、人間の専門知識への依存を緩和し、野生の複雑な環境におけるLLの有効性を高めるLLMの可能性を実証する。
Reinforcement learning (RL) faces challenges in evaluating policy trajectories within intricate game tasks due to the difficulty in designing comprehensive and precise reward functions. This inherent difficulty curtails the broader application of RL within game environments characterized by diverse constraints. Preference-based reinforcement learning (PbRL) presents a pioneering framework that capitalizes on human preferences as pivotal reward signals, thereby circumventing the need for meticulous reward engineering. However, obtaining preference data from human experts is costly and inefficient, especially under conditions marked by complex constraints. To tackle this challenge, we propose a LLM-enabled automatic preference generation framework named LLM4PG , which harnesses the capabilities of large language models (LLMs) to abstract trajectories, rank preferences, and reconstruct reward functions to optimize conditioned policies. Experiments on tasks with complex language constraints demonstrated the effectiveness of our LLM-enabled reward functions, accelerating RL convergence and overcoming stagnation caused by slow or absent progress under original reward structures. This approach mitigates the reliance on specialized human knowledge and demonstrates the potential of LLMs to enhance RL's effectiveness in complex environments in the wild. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# マルチスケール脳モデルへの微分可能なアプローチ
A Differentiable Approach to Multi-scale Brain Modeling ( http://arxiv.org/abs/2406.19708v2 ) ライセンス: Link先を確認 | Chaoming Wang, Muyang Lyu, Tianqiu Zhang, Sichao He, Si Wu, | (参考訳) 本稿では,脳のシミュレーションを精度の高い勾配に基づく最適化と組み合わせた独自の脳シミュレータBrainPyを用いた,マルチスケールの微分脳モデリングワークフローを提案する。
我々は、異なる脳スケールでBrainPyのこの能力を活用します。
単一ニューロンレベルでは、微分可能なニューロンモデルを実装し、電気生理学的データへの適合を最適化するために勾配法を用いる。
ネットワークレベルでは、生物学的に制約されたネットワークモデルを構築するためにコネクトロミックデータを組み込む。
最後に、動物行動の再現を目的として、勾配に基づく学習規則を用いて、これらのモデルを認知タスクで訓練する。
実験により, 一般化されたインテリジェンス・アンド・ファイアとホジキン・ハクスリー単一ニューロンモデルに適合させることで, より優れた性能と速度が得られることを示した。
さらに、生物学的にインフォームドされた興奮性および抑制性スパイキングニューロンのネットワークをトレーニングし、観察された神経活動とシナプスの重量分布を正常に再現する。
全体として、我々の異なるマルチスケールのシミュレーションアプローチは、電気生理学的、解剖学的、行動的スケールにまたがる神経科学データを橋渡しする有望なツールを提供する。
We present a multi-scale differentiable brain modeling workflow utilizing BrainPy, a unique differentiable brain simulator that combines accurate brain simulation with powerful gradient-based optimization. We leverage this capability of BrainPy across different brain scales. At the single-neuron level, we implement differentiable neuron models and employ gradient methods to optimize their fit to electrophysiological data. On the network level, we incorporate connectomic data to construct biologically constrained network models. Finally, to replicate animal behavior, we train these models on cognitive tasks using gradient-based learning rules. Experiments demonstrate that our approach achieves superior performance and speed in fitting generalized leaky integrate-and-fire and Hodgkin-Huxley single neuron models. Additionally, training a biologically-informed network of excitatory and inhibitory spiking neurons on working memory tasks successfully replicates observed neural activity and synaptic weight distributions. Overall, our differentiable multi-scale simulation approach offers a promising tool to bridge neuroscience data across electrophysiological, anatomical, and behavioral scales. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# 文脈型ハイブリッド・アンサンブルQ-ラーニング:制御優先で高速に学習する
Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors ( http://arxiv.org/abs/2406.19768v2 ) ライセンス: Link先を確認 | Emma Cramer, Bernd Frauenknecht, Ramil Sabirov, Sebastian Trimpe, | (参考訳) 強化学習(RL)と事前のコントローラを組み合わせることで、RLは複雑な非線形問題を解くことができ、事前制御はより安全な探索と訓練の高速化を保証します。
以前の作業は、RLエージェントのパフォーマンスがトレーニングの進捗と状態空間の領域によって異なることを無視して、両方のコンポーネントを固定重量でブレンドする。
そこで我々は,RLエージェントの現在の能力に基づいて動的に重み付けを調整する適応戦略を提案する。
本稿では,新しい適応型ハイブリッドRLアルゴリズムであるContextualized Hybrid Ensemble Q-learning (CHEQ)を提案する。
CHEQには3つの重要な要素が組み合わさっている。
i)適応重みを文脈変数として扱う適応ハイブリッドRL問題の時間不変な定式化。
二 批評家合奏のパラメトリック不確実性に基づく重み適応機構及び
3)データ効率向上のためのアンサンブルベースの加速度。
カーレースタスクにおけるCHEQの評価は、最先端の適応型ハイブリッドRL法よりもはるかに強力なデータ効率、探索安全性、未知のシナリオへの転送性を示す。
Combining Reinforcement Learning (RL) with a prior controller can yield the best out of two worlds: RL can solve complex nonlinear problems, while the control prior ensures safer exploration and speeds up training. Prior work largely blends both components with a fixed weight, neglecting that the RL agent's performance varies with the training progress and across regions in the state space. Therefore, we advocate for an adaptive strategy that dynamically adjusts the weighting based on the RL agent's current capabilities. We propose a new adaptive hybrid RL algorithm, Contextualized Hybrid Ensemble Q-learning (CHEQ). CHEQ combines three key ingredients: (i) a time-invariant formulation of the adaptive hybrid RL problem treating the adaptive weight as a context variable, (ii) a weight adaption mechanism based on the parametric uncertainty of a critic ensemble, and (iii) ensemble-based acceleration for data-efficient RL. Evaluating CHEQ on a car racing task reveals substantially stronger data efficiency, exploration safety, and transferability to unknown scenarios than state-of-the-art adaptive hybrid RL methods. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# GRACE:ロバストディープフェイクビデオ検出のためのラプラシアンスムースティングによるグラフ規則化された注意的畳み込み
GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection ( http://arxiv.org/abs/2406.19941v2 ) ライセンス: Link先を確認 | Chih-Chung Hsu, Shao-Ning Chen, Mei-Hsuan Wu, Yi-Fang Wang, Chia-Ming Lee, Yi-Shiuan Chou, | (参考訳) DeepFakeのビデオ操作技術がエスカレートし、深刻な脅威を生じさせるにつれ、効率的な検出戦略を開発する緊急の必要性が強調されている。
しかし、特定の問題は、顔画像が誤検出されていることであり、しばしば劣化したビデオや敵の攻撃が原因であり、予期せぬ時間的成果物がDeepFakeのビデオ検出技術の有効性を損なう可能性がある。
本稿では,グラフ畳み込みネットワークをベースとしたGRACE(Graph-Regularized Attentive Convolutional Entanglement)のパワーを生かしたDeepFakeビデオ検出手法を提案する。
まず、従来の畳み込みニューラルネットワークを使用して、ビデオ全体の時空間的機能を実行する。
そして、その空間的特徴と時間的特徴は、スパース制約のあるグラフを構築し、残されるノイズの多い顔列における有効な顔画像の本質的特徴を強制することにより相互に絡み合わされ、DeepFakeビデオ検出の安定性と性能が向上する。
さらに,グラフ畳み込みネットワークでは,特徴空間のノイズパターンを除去し,さらなる性能向上を図るため,グラフラプラシアン先行法が提案されている。
提案手法は, ノイズのある顔系列下でのDeepFakeビデオ検出において, 最先端の性能を実現することを実証するために, 総合実験を行った。
ソースコードはhttps://github.com/ming053l/GRACEで入手できる。
As DeepFake video manipulation techniques escalate, posing profound threats, the urgent need to develop efficient detection strategies is underscored. However, one particular issue lies with facial images being mis-detected, often originating from degraded videos or adversarial attacks, leading to unexpected temporal artifacts that can undermine the efficacy of DeepFake video detection techniques. This paper introduces a novel method for robust DeepFake video detection, harnessing the power of the proposed Graph-Regularized Attentive Convolutional Entanglement (GRACE) based on the graph convolutional network with graph Laplacian to address the aforementioned challenges. First, conventional Convolution Neural Networks are deployed to perform spatiotemporal features for the entire video. Then, the spatial and temporal features are mutually entangled by constructing a graph with sparse constraint, enforcing essential features of valid face images in the noisy face sequences remaining, thus augmenting stability and performance for DeepFake video detection. Furthermore, the Graph Laplacian prior is proposed in the graph convolutional network to remove the noise pattern in the feature space to further improve the performance. Comprehensive experiments are conducted to illustrate that our proposed method delivers state-of-the-art performance in DeepFake video detection under noisy face sequences. The source code is available at https://github.com/ming053l/GRACE. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |
# Text2Robot: テキスト記述による進化型ロボット設計
Text2Robot: Evolutionary Robot Design from Text Descriptions ( http://arxiv.org/abs/2406.19963v2 ) ライセンス: Link先を確認 | Ryan P. Ringel, Zachary S. Charlick, Jiaxun Liu, Boxi Xia, Boyuan Chen, | (参考訳) ロボットのデザインは伝統的にコストが高く、労働集約的だった。
自動化プロセスの進歩にもかかわらず、物理的に製造可能なロボットを生産しながら、広大なデザイン空間をナビゲートすることは依然として困難である。
ユーザテキスト仕様とパフォーマンス選好を物理的四足歩行ロボットに変換するフレームワークであるText2Robotを紹介した。
数分でText2Robotはテキストから3Dモデルを使って、多様な形態の強力な初期化を提供する。
1日以内に、我々の幾何学的処理アルゴリズムと身体制御の共最適化は、現実のエレクトロニクスと製造性を明確に考慮して歩行ロボットを生成する。
Text2Robotは、高速なプロトタイピングを可能にし、生成モデルによるロボットデザインの新しい機会を開く。
Robot design has traditionally been costly and labor-intensive. Despite advancements in automated processes, it remains challenging to navigate a vast design space while producing physically manufacturable robots. We introduce Text2Robot, a framework that converts user text specifications and performance preferences into physical quadrupedal robots. Within minutes, Text2Robot can use text-to-3D models to provide strong initializations of diverse morphologies. Within a day, our geometric processing algorithms and body-control co-optimization produce a walking robot by explicitly considering real-world electronics and manufacturability. Text2Robot enables rapid prototyping and opens new opportunities for robot design with generative models. | 翻訳日:2024-07-02 12:30:11 公開日:2024-07-01 |